克里斯托弗·阿是Labelbox解决方案工程师,他设计和部署AI团队的技术解决方案。他也是一个领导LabelSpark项目开发人员,Labelbox计划加速非结构化数据工作流在Apache火花。克里斯托弗持有英航从明德学院,在那里他学习研究转移的影响。
一个大型三角洲湖经常包括结构化和非结构化的数据。数据团队使用Apache SparkTM分析结构化数据,但往往难以应用相同的非结构化分析,无标号数据(如图像、视频)。团队被迫使用昂贵和手动流程将非结构化数据转换成更有用的东西——他们要么支付第三方标签数据,购买标签数据集,或缩小他们的项目利用公共数据集的范围。如果数据团队更快更成本有效的方法将非结构化数据转化为结构化数据,他们可以支持更先进的用例建立在他们公司的独特的、非结构化的数据集。
在这次演讲中,我们演示了如何团队可以很容易地在砖准备人工智能和分析非结构化数据。我们利用LabelSpark库(砖之间的连接器和Labelbox)连接Labelbox非结构化数据集,以编程方式设置标签的本体,并返回火花DataFrame标记数据集。标签可以通过人类,在砖人工智能模型,或两者的结合。我们还将展示一个model-assisted标签工作流,允许人类容易检查和纠正模型的预测标签。这个过程可以减少非结构化数据的数量你需要实现模型表现强劲。
Labelbox是一个训练数据平台,允许公司快速生成结构bob体育客户端下载化数据从非结构化数据。结合砖和Labelbox给你一个为非结构化数据的端到端环境工作流查询引擎建立在三角洲湖,快速注释工具,和一个强大的机器学习计算环境。
要了解BOB低频彩更多,请访问www.labelbox.com/databricks-partner
(daisna21-sessions-od)