深度学习与数据库
描述
本课程首先介绍神经网络和张量流的基础知识。keras API。我们将关注如何利用Spark来扩展我们的模型,包括分布式训练、超参数调优和推理,同时利用MLflow来跟踪、版本化和管理这些模型。我们将深入研究分布式深度学习,包括动手示例来比较和对比各种分布式数据准备技术,包括Petastorm和TFRecord,以及分布式训练技术,如Horovod和spark-tensorflow-distributor。为了更好地理解模型的预测,您将应用模型可解释性库。此外,您将学习卷积神经网络(cnn)和迁移学习背后的概念,并将其应用于解决图像分类任务。我们将通过介绍循环神经网络(RNNs)和自然语言处理(NLP)应用的基于注意力的模型来结束本课程。
持续时间
2个全天或4个半天
目标
- 使用tensorflow.keras构建深度学习模型
- 使用Hyperopt和Spark大规模地调整超参数
- 使用MLflow跟踪、版本和管理实验
- 使用pandas udf执行大规模分布式推理
- 使用Horovod扩展和训练分布式深度学习模型
- 应用模型可解释性库(如SHAP)来理解模型预测
- 使用cnn和迁移学习进行图像分类任务
- 在NLP任务中使用rnn、基于注意力的模型和迁移学习
先决条件
- 有Python和pandas的中级经验(或完成数据科学与数据工程Python入门)
- 熟悉Apache Spark(或完成Apache Spark编程)
- 机器学习和数据科学的工作知识(或完成使用Apache Spark进行可扩展的机器学习)
物流
- Zoom是我们选择的在线授课平台。bob体育客户端下载确保您可以访问Zoom by点击这里.
- 一些班级也可以利用Slack进行课堂交流。请测试Slack点击这里.如果您连接Slack有困难,请断开您的VPN。
- 如果您的公司笔记本电脑有防火墙限制,我们建议您使用个人笔记本电脑进行培训。
- 请吃一个这个已安装支持的浏览器.
大纲
第一天
- 神经网络和tf。keras基本面
- 通过添加数据标准化、回调、检查点等来改进模型。
- 使用MLflow跟踪和版本模型
- 使用pandas udf的分布式推理
- 使用Hyperopt进行分布式超参数调优
- 使用Petastorm进行大规模数据准备
第二天
- 使用Horovod和Petastorm进行分布式模型训练
- 使用SHAP的模型解释性
- 用于图像分类和迁移学习的cnn
- 使用spark-tensorflow-distributor使用TFRecord进行分布式训练
- 使用MLflow Model service on Databricks部署REST端点
- 文本嵌入、rnn、基于注意力的模型和命名实体识别(NER)的迁移学习
即将举行的公开课程
如有任何疑问,请向我们查询常见问题页面。