可扩展的机器学习与Apache引发™
描述
本课程教你如何规模毫升管道与火花,包括分布式训练,hyperparameter调优和推理。您将构建和优化毫升模型SparkML而利用MLflow跟踪、版本和管理这些模型。本课程涵盖了最新的ML特性在Apache火花,如熊猫udf,熊猫功能,火花和熊猫API,以及最新的ML产品,存储和AutoML等特性。
本课程将帮助你把砖认证考试机器学习联系起来。
持续时间
2天或4天的一半
目标
- 执行可伸缩的EDA和火花
- 与SparkML建立和优化的机器学习模型
- 跟踪、版本与MLflow和部署模型
- 执行HyperOpt分布式hyperparameter调优
- 使用砖机器学习的工作区中创建一个存储和AutoML特性实验
- 利用熊猫API引发规模熊猫代码
先决条件
- 中间Python的经验
- 经验构建机器学习模型
- 熟悉PySpark DataFrame API
大纲
第一天
- 火花/毫升概述
- 探索性数据分析(EDA)和工程特性与火花
- 线性回归与SparkML:变压器、估计、管道和评价者
- 注册表MLflow跟踪和模型
第二天
- 基于树模型:Hyperparameter调优和并行性
- 对分布式hyperparameter HyperOpt调优
- 砖AutoML和特性
- 集成第三方包(分布式XGBoost)
- 分布式推理scikit-learn模型与熊猫udf
- 分布式训练熊猫API函数