跳转到主要内容

可扩展的机器学习与Apache引发™

描述

本课程教你如何规模毫升管道与火花,包括分布式训练,hyperparameter调优和推理。您将构建和优化毫升模型SparkML而利用MLflow跟踪、版本和管理这些模型。本课程涵盖了最新的ML特性在Apache火花,如熊猫udf,熊猫功能,火花和熊猫API,以及最新的ML产品,存储和AutoML等特性。


本课程将帮助你把砖认证考试机器学习联系起来

持续时间

2天或4天的一半

目标

  • 执行可伸缩的EDA和火花
  • 与SparkML建立和优化的机器学习模型
  • 跟踪、版本与MLflow和部署模型
  • 执行HyperOpt分布式hyperparameter调优
  • 使用砖机器学习的工作区中创建一个存储和AutoML特性实验
  • 利用熊猫API引发规模熊猫代码

先决条件

  • 中间Python的经验
  • 经验构建机器学习模型
  • 熟悉PySpark DataFrame API

大纲

第一天

  • 火花/毫升概述
  • 探索性数据分析(EDA)和工程特性与火花
  • 线性回归与SparkML:变压器、估计、管道和评价者
  • 注册表MLflow跟踪和模型

第二天

  • 基于树模型:Hyperparameter调优和并行性
  • 对分布式hyperparameter HyperOpt调优
  • 砖AutoML和特性
  • 集成第三方包(分布式XGBoost)
  • 分布式推理scikit-learn模型与熊猫udf
  • 分布式训练熊猫API函数