如何加速交叉验证

学习如何提高SparkML和Databricks交叉验证性能

写由亚当巴夫拉卡

2022年5月16日

超参数调优ApachesparkML模型需要很长时间,视参数网格大小而定。sparkML交叉校验步骤性能提高

  • 数据缓存前运行特征变换或建模步骤,包括交叉校验进程指数据多次从缓存获益记住调用动作数据Frame令缓存产生效果
  • 增加并行参数内交叉校验器中设置线程数运行并行算法时使用默认设置为 1交叉标码文档获取更多信息
  • 不使用管道内估计交叉校验器规范化在有些情况下,faturizers正与模型并发,运行全管交叉校验器说得通然而,它执行所有参数组合和折叠的整个管道因此,如果只对模型调适,则将模型规范设置为内部估计器交叉校验器.
删除

信息学

交叉校验器可设置为输油管中继faturizers后的最后阶段最佳模型识别交叉校验器正输出


文章有帮助吗