描述
本课程教你如何使用Spark扩展ML管道,包括分布式训练、超参数调优和推理。您将使用SparkML构建和调优ML模型,同时利用MLflow跟踪、版本化和管理这些模型。本课程涵盖Apache Spark中的最新ML特性,如Pandas udf、Pandas Functions和Spark上的Pandas API,以及最新的ML产品,如Feature Store和AutoML。
本课程将为你准备Databricks认证机器学习助理考试.
持续时间
2个全天或4个半天
目标
- 使用Spark执行可伸缩的EDA
- 使用SparkML构建和调整机器学习模型
- 使用MLflow跟踪、版本化和部署模型
- 使用HyperOpt执行分布式超参数调优
- 使用Databricks Machine Learning工作区创建一个Feature Store和AutoML实验
- 利用Spark上的pandas API来扩展您的pandas代码
先决条件
- 有Python的中级经验(或完成数据科学与数据工程Python入门)
- 熟悉PySpark DataFrame API(或完成Apache Spark编程)
- 有建立机器学习模型的经验
大纲
第一天
- Spark / ML概述
- 使用Spark进行探索性数据分析(EDA)和特征工程
- SparkML:变压器、估计器、管道和评估器
- MLflow跟踪和模型注册表
第二天
- 可并行超参数调优
- Databricks AutoML和Feature Store
- 集成第三方包(分布式XGBoost)
- 具有pandas udf的scikit-learn模型的分布式推理
- 使用pandas函数API进行分布式训练
- Spark上的Pandas API用于数据操作
即将举行的公开课程
如有任何疑问,请向我们查询常见问题页面。