建筑在Zynga倾向模型用于是一项耗时的任务,要求自定义数据科学与工程为每个新工作模式。我们建立一个自动化模型管道使用PySpark和特性生成自动化这个过程。我们面临的挑战是,Featuretools库,我们想使用自动功能工程只能在熊猫数据帧,数据集大小的限制,我们可以处理。这个问题我们的解决方案是使用熊猫udf规模基本特性工程过程我们整个的球员。
我们开始我们的全套球员,数据分割成较小的轻叩,可以加载到内存中,应用这些子集的特征工程步骤的数据,然后将结果返回到一个大的数据集。本课程将概述如何使用熊猫udf在生产自动化建模在Zynga倾向。这种方法的结果是,我们现在有成百上千的倾向模型在生产中,团队可以使用个性化的游戏体验。与其花时间在特性工程和模型拟合,我们的数据科学家现在花更多的时间与游戏团队帮助建立新特性。