跳转到主要内容
工程的博客”>
             <noscript>
              <img data-gatsby-image-ssr=

宣布MLflow 2.4: LLMOps健壮的模型评价的工具

分享这篇文章

llm呈现一个巨大的机会为各种规模的组织快速构建强大的应用程序和交付业务价值。数据科学家用于花费数千小时的培训和再培训模型执行非常有限的任务,他们现在可以利用基础广泛的SaaS和开源模型提供更多功能和智能化应用的一小部分时间。bob下载地址使用few-shot和zero-shot学习技术促使工程、数据科学家可以快速构建高精度分类为不同的数据集,最先进的情绪分析模型、低延迟文档的摘要,等等。

然而,为了确定安全生产和部署它们的最佳模型,组织需要正确的工具和流程。最关键部件之一是健壮的模型评价。模型质量挑战像幻觉,毒性反应,提示注射和脆弱性,以及缺乏地面实况标签对于许多任务,数据科学家需要非常勤于评估模型的性能在各种各样的数据。数据科学家还需要能够识别多个模型之间的细微差别的候选人选择最好的生产。现在比以往任何时候都更需要一个LLMOps平台,为每一个模型,提供了一个详细的bob体育客户端下载性能报告可帮助您识别的弱点和漏洞之前生产,和流线模型比较。


为了满足这些需求,我们很高兴宣布MLflow 2.4的到来,它提供了一组全面的LLMOps模型评估的工具。与新mlflow.evaluate ()语言任务的集成,一个全新的工件视图在比较文本输出多个UI模型版本,和期待已久的数据跟踪功能,与llm MLflow 2.4加速开发。

捕获性能的见解与mlflow.evaluate()对语言模型

评估语言模型的性能,您需要喂它各种各样的输入数据集,记录相应的输出,计算领域特定的指标。在MLflow 2.4中,我们已经延长MLflow强大的API——评估mlflow.evaluate ()这个过程大大简化。使用一行代码,您可以跟踪模型预测和性能指标与llm为各种各样的任务,包括文本摘要,文本分类,问题回答和文本的一代。所有这些信息是MLflow跟踪记录,你可以检查和比较业绩评估跨多个模型生产为了选择最好的候选人。

下面的示例代码使用mlflow.evaluate ()快速捕获性能信息汇总模型:

进口mlflow#新闻总结评估模型对测试数据集summary_test_data = mlflow.data.load_delta (table_name =“ml.cnn_dailymail.test”)
              evaluation_results = mlflow.evaluate (“运行:/ d13953d1da1a41a59bf6a32fde599c63 / summarization_model”,data = summary_test_data,model_type =“text-summarization”,目标=“亮点”)#确认胭脂指标自动计算总结断言“rouge1”evaluation_results.metrics断言“rouge2”evaluation_results.metrics#验证输入和输出捕获作为进一步分析表断言“eval_results_table”evaluation_results.artifacts


更多的信息mlflow.evaluate (),包括用法示例,检查MLflow文档实例库

与新工件检查和比较LLM输出视图

没有地面实况标签,许多LLM开发人员需要手动检查模型输出评估质量。这通常意味着阅读文本产生的模型,例如文档总结,复杂问题的答案,和生成的散文。在选择最好的模型生产,这些文本输出需要分组和模型之间进行比较。例如,开发文档总结模型与llm时,重要的是要看到每个模型总结了一个给定文档和识别差异。

artifact_view”src=
MLflow工件并排视图提供了一个比较的输入,输出,和中间结果多个模型。

MLflow 2.4,新工件视图MLflow流线跟踪这个输出检查和比较。只需几次点击,您可以查看和比较文本输入,输出,和中间结果mlflow.evaluate ()在你所有的模型。这使得它很容易识别坏输出和理解中提示使用推理。与新mlflow.load_table ()API在MLflow 2.4中,您还可以下载所有的评价结果显示在工件视图使用砖SQL数据标签,等等。以下代码示例展示了这一点:

进口mlflow#评价语言模型mlflow.evaluate (“模型:/ my_language_model / 1”、数据= test_dataset model_type =“文本”)#下载评估结果进行进一步分析mlflow.load_table (“eval_results_table.json”)


跟踪你的评估数据集,以确保准确的比较

选择最好的模型生产需要彻底的候选人比较的性能在不同的模型。这种比较的一个至关重要的方面是确保所有模型评估使用相同的数据集。毕竟,选择最佳的模型报告准确性只有当每一个模型考虑评估在相同的数据集。

MLflow 2.4中,我们很高兴向大家介绍一个期待已久的特性MLflow——数据跟踪。这个令人兴奋的新功能标准化模型期间您管理和分析数据集的方式发展。通过数据跟踪,您可以快速识别,数据集被用来开发和评估你的每一个模型,确保公平的比较为生产部署和简化模型选择。

mlflow-tracking”src=
MLflow跟踪现在在UI中显示综合数据集信息增强可视性为每个运行数据集元数据。通过引入一个新的面板中,您可以很容易地想象和探索数据集的细节,方便地访问的视图和运行细节页面运行比较。

很容易开始使用数据集在MLflow跟踪。记录你的任何数据集信息MLflow运行时,简单地调用mlflow.log_input ()API。数据跟踪也结合Autologging MLflow,提供数据的见解,而不需要任何额外的代码。所有这些数据集信息张贴在MLflow跟踪UI进行分析和比较。下面的例子演示了如何使用mlflow.log_input ()日志一个训练数据集运行、检索信息的数据集,并加载数据的来源:

进口mlflow#从三角洲加载数据集数据集= mlflow.data.load_delta (table_name =“ml.cnn_dailymail.train”)mlflow.start_run ():# MLflow运行日志数据集mlflow。log_input(数据集、上下文=“培训”)# <模型训练代码会在这里>#获取运行,包括数据集信息
              运行= mlflow.get_run (mlflow.last_active_run () .info.run_id)dataset_info = run.inputs.dataset_inputs [0].dataset打印(f”数据集名称:{dataset_info.name})打印(f”数据集消化:{dataset_info.digest})打印(f”数据集简介:{dataset_info.profile})打印(f”数据集模式:{dataset_info.schema})#负荷数据的源三角洲表dataset_source = mlflow.data.get_source (dataset_info)dataset_source.load ()

更多的数据跟踪信息和使用指南,查看MLflow文档

开始使用LLMOps工具MLflow 2.4

通过引入mlflow.evaluate ()语言模型,语言模型的新工件的观点比较,和全面的数据跟踪,MLflow 2.4继续授权用户建立更加健壮,准确、可靠的模型。特别是,这些增强功能显著改善与llm的开发应用程序的经验。


我们为你感到兴奋体验LLMOps MLflow 2.4的新特性。如果你是一个现有的砖用户,你可以开始使用MLflow 2.4今天安装库在你的笔记本或集群。MLflow 2.4也将预装的13.2版本砖机器学习的运行时。访问数据砖MLflow指南(AWS][Azure][GCP)开始。如果你没有一个砖的用户,访问www.neidfyre.com/product/managed-mlflow了解更BOB低频彩多,开始免费试用2.4 MLflow砖和管理。的完整列表MLflow 2.4中的新特性和改进,看到版本更新日志

免费试着砖
看到所有机器学习的帖子