丹·莫里斯是维亚康姆数据平台副总裁。bob体育客户端下载在他目前的职位上,Dan负责通过自助服务功能实现对数据的民主化访问,并通过实时分析减少洞察时间。在此之前,Dan专注于通过产品分析来增加维亚康姆的全球数字受众。丹拥有纽约大学硕士学位,目前正在西北大学攻读第二个学位。
加入Spark + AI峰会的互动媒体和娱乐产业论坛。在这场免费的虚拟活动中,您将有机会与同行建立联系,并与媒体行业的领导者就数据和机器学习如何在客户生命周期中推动创新进行小组讨论。
全球媒体公司维亚康姆(Viacom)解释了他们如何使用Apache Spark和Databricks来快速适应他们的受众,通过建立一个即时数据仓库,支持他们在全球范围内使用数据驱动的产品开发推出新应用程序的积极活动。维亚康姆是包括MTV、Comedy Central和Nickelodeon在内的一系列品牌的所在地。
本次演讲将重点介绍我们如何将人类数据验证集成到我们的数据管道中,利用结果来测量和跟踪我们的数据质量,并更新我们有监督的机器学习模型的训练集。长版本:Radius使用人工数据验证来监控我们管道两端数据的准确性:来自我们来源的原始输入数据和准备好的输出数据(Radius业务图)。由于人工验证在财务和时间上都很昂贵,所以我们希望从结果中提取尽可能多的价值。为此,我们开发了一个正反馈循环,使我们能够定期有效地验证我们的数据质量,并为我们的机器学习模型维护最新的训练集。在演示中,我将介绍:-我们的工程团队负责的主要数据问题-之前通过管道的单向数据流-我们构建的自动化框架(使用Spark和DataBricks)以促进顺畅的人工验证过程-使用一个数据集进行KPI分析和标记训练数据点的挑战-具有正反馈周期的更新数据管道-吸取的经验教训,包括:一致模式的重要性以及数据科学和数据工程的和谐结合