Spark ML交叉验证中的模型并行性

下载幻灯片

使用交叉验证调优Spark ML模型可能是一个计算极其昂贵的过程。随着超参数组合数量的增加,被评估的模型数量也在增加。Spark中的默认配置是逐个评估这些模型,以选择性能最佳的模型。当使用大量模型运行这个过程时,如果模型的训练和评估没有充分利用可用的集群资源,那么每个模型的浪费将会加重,并导致较长的运行时间。

从Spark 2.3开始,在Spark交叉验证中启用模型并行,将允许同时训练和评估多个模型,并更好地利用集群资源。我们将讨论如何在Spark中启用此设置,这将对ML管道示例产生什么影响,以及在使用此功能时要记住的最佳实践。

此外,我们将讨论正在进行的工作,通过消除冗余转换和智能缓存中间数据集来减少调优ML管道所需的计算量。这可以与模型并行性相结合,进一步减少复杂机器学习管道交叉验证的运行时间。

会话标签:#DS6SAIS



«回来
关于尼克·彭特里斯

Nick Pentreath是IBM开源数据与人工智能技术中心(CODAIT)的首席工程师,主要从事机器学习方面的工作。此前,他参与创立了Graphflow,这是一家专注于推荐的机器学习初创公司。他还曾在高盛、Cognitive Match和Mxit工作过。他是Apache Spark项目的提交者和PMC成员,也是“Machine Learning with Spark”一书的作者。Nick热衷于将商业焦点与机器学习和前沿技术结合起来,构建从数据中学习以增加商业价值的智能系统。
Nick在世界各地参加了30多个会议、网络研讨会、聚会和其他活动,包括许多以前的Spark峰会。

关于Bryan Cutler

布莱恩·卡特勒(Bryan Cutler)是IBM Spark技术中心的软件工程师,主要从事大数据分析和机器学习系统方面的工作。他是Apache Spark在ML、SQL、Core和Python领域的贡献者,也是Apache Arrow项目的提交者。他的兴趣在于推动软件的边界,以构建易于使用的高性能工具。