Corey Zumar是Databricks的软件工程师,在那里他致力于模型管理和生产部署的机器学习基础设施和api。Corey也是MLflow的积极贡献者。他拥有加州大学伯克利分校的计算机科学硕士学位。在加州大学伯克利分校的RISELab,他是Clipper的主要开发人员之一,Clipper是一个开源项目,致力于高性能模型服务的研究工作。bob下载地址
去年夏天,Databricks推出了MLflow,这是一个开源平台,用于管理机器学习的生bob下载地址命周期,包bob体育客户端下载括实验跟踪、可重复运行和模型打包。MLflow从那时起发展迅速,有来自几十家公司的120多名贡献者,其中包括R Studio和微软的主要贡献者。它还获得了新的功能,例如TensorFlow和Keras的自动日志记录,Kubernetes集成,以及高级Java API。在这次演讲中,我们将介绍MLflow的一些新特性,然后重点介绍一个即将到来的主要特性:使用MLflow model Registry进行模型管理。许多组织都面临着跟踪组织中哪些模型可用,哪些模型正在生产的挑战。MLflow Model Registry提供了一个集中的数据库来跟踪这些模型,共享和描述新的模型版本,并通过api部署模型的最新版本。我们将演示这些特性如何简化常见的ML生命周期任务。
预训练语言模型的出现,如谷歌的BERT,为许多自然语言理解任务提供了高性能迁移学习(htpl)范式。其中一项任务就是电子邮件分类。考虑到销售约定的内容和上下文的复杂性,缺乏标准化的大型语料库和基准,有限的标记示例和异构的意图上下文,这个现实世界的用例对采用HPTL方法提出了挑战和机遇。本次演讲展示了一项实验调查,以评估使用预训练的语言模型和嵌入来分类来自数字销售约定平台(例如,Outreach.io)的销售约定电子邮件的迁移学习。bob体育客户端下载
我们将展示我们的发现,评估BERT, ELMo, Flair和GloVe嵌入,基于特征和基于微调的迁移学习实现策略,以及它们在GPU集群上的可伸缩性,随着标记样本数量的逐渐增加。Databricks的MLFlow被用来跟踪数百个具有不同参数、度量和模型的实验(tensorflow, pytorch等)。虽然在这次演讲中,我们主要关注电子邮件分类任务,但所描述的方法是通用的,可以用来评估HPTL对其他机器学习任务的适用性。我们希望我们的发现将帮助从业者更好地理解迁移学习的能力和局限性,以及如何在他们的场景中使用Databricks大规模地实现迁移学习。