Nick Lee是Labelbox的高级客户成功经理,他帮助人工智能团队解决计算机视觉和自然语言处理方面的挑战性问题。Nick还领导了LabelSpark项目,这是一个Labelbox项目,旨在加速Apache Spark和Databricks中的非结构化数据工作流。在加入Labelbox之前,他曾帮助公司使用Apache Spark、Delta Lake和MLFlow构建生产人工智能和分析工作流。Nick拥有佐治亚理工学院的计算机科学硕士学位。
大型Delta Lake通常包含结构化和非结构化数据的混合。数据团队使用Apache SparkTM来分析结构化数据,但通常很难将相同的分析应用于非结构化、未标记的数据(例如图像、视频)。团队被迫使用昂贵的手工流程来将非结构化数据转换为更有用的数据——他们要么付钱给第三方来标记他们的数据,要么购买标记数据集,要么缩小项目范围来利用公共数据集。如果数据团队有更快、更具成本效益的方法将非结构化数据转换为结构化数据,他们就可以支持围绕公司独特的非结构化数据集构建的更高级用例。
在这次演讲中,我们演示了团队如何在Databricks中轻松地为AI和分析准备非结构化数据。我们利用LabelSpark库(Databricks和Labelbox之间的连接器)将非结构化数据集连接到Labelbox,以编程方式设置一个本体用于标记,并在Spark DataFrame中返回标记的数据集。标签可以由人类、Databricks中的AI模型或两者的结合来完成。我们还将展示一个模型辅助的标签工作流程,允许人们轻松地检查和纠正模型的预测标签。这个过程可以减少实现强大模型性能所需的非结构化数据量。
Labelbox是一个培训数据平台,允许公司从非结构化数bob体育客户端下载据快速生成结构化数据。结合Databricks和Labelbox为您提供了一个端到端的非结构化数据工作流环境——一个围绕Delta Lake构建的查询引擎,快速注释工具和强大的机器学习计算环境。
欲了解BOB低频彩更多,请访问www.labelbox.com/databricks-partner
(daisna21-sessions-od)