在Databricks上使用Apache Spark MLlib

Apache Spark MLlib是Apache Spark机器学习库,由常见的学习算法和实用程序组成,包括分类、回归、聚类、协同过滤、降维和底层优化原语。Databricks推荐以下Apache Spark MLlib指南:

例如笔记本电脑

下面的笔记本演示如何使用Databricks使用各种Apache Spark MLlib特性。

二元分类实例

本笔记本向您展示如何使用Apache Spark MLlib管道API构建二进制分类应用程序。

二进制分类笔记本

在新标签页打开笔记本

决策树示例

这些示例演示了使用Apache Spark MLlib pipeline API的决策树的各种应用程序。

决策树

这些笔记向您展示如何使用决策树进行分类。

数字识别笔记本的决策树

在新标签页打开笔记本

SFO调查笔记本的决策树

在新标签页打开笔记本

使用MLlib管道进行GBT回归

本笔记本向您展示了如何使用MLlib管道执行回归,使用梯度增强树从诸如星期几、天气、季节等信息预测自行车租赁数量(每小时)。

共享单车回归笔记本

在新标签页打开笔记本

Apache Spark MLlib管道和结构化流示例

这本笔记本展示了如何在历史数据上训练Apache Spark MLlib管道,并将其应用于流数据。

MLlib管道结构化流笔记本

在新标签页打开笔记本

Advanced Apache Spark MLlib示例

这本笔记本说明了如何创建一个自定义转换器。

定制变压器笔记本

在新标签页打开笔记本

关于MLlib特性的参考信息,Databricks推荐以下Apache Spark API参考:

关于从R使用Apache Spark MLlib,请参见机器学习文档。

有关Databricks对可视化机器学习算法的支持,请参见机器学习可视化