可扩展的机器学习与Apache引发™

描述

本课程教你如何规模毫升管道与火花,包括分布式训练,hyperparameter调优和推理。您将构建和优化毫升模型SparkML而利用MLflow跟踪、版本和管理这些模型。本课程涵盖了最新的ML特性在Apache火花,如熊猫udf,熊猫功能,火花和熊猫API,以及最新的ML产品,存储和AutoML等特性。

本课程将帮助你把砖认证考试机器学习联系起来。

持续时间

2天或4天的一半

目标

执行可伸缩的EDA和火花
与SparkML建立和优化的机器学习模型
跟踪、版本与MLflow和部署模型
执行HyperOpt分布式hyperparameter调优
使用砖机器学习的工作区中创建一个存储和AutoML特性实验
利用熊猫API引发规模熊猫代码

先决条件

中间Python的经验
经验构建机器学习模型
熟悉PySpark DataFrame API

大纲

第一天

火花/毫升概述
探索性数据分析(EDA)和工程特性与火花
线性回归与SparkML:变压器、估计、管道和评价者
注册表MLflow跟踪和模型

第二天

基于树模型:Hyperparameter调优和并行性
对分布式hyperparameter HyperOpt调优
砖AutoML和特性
集成第三方包(分布式XGBoost)
分布式推理scikit-learn模型与熊猫udf
分布式训练熊猫API函数

现在访问合作伙伴学院