在Databricks上使用Apache Spark MLlib
Apache Spark MLlib是Apache Spark机器学习库,由常见的学习算法和实用程序组成,包括分类、回归、聚类、协同过滤、降维和底层优化原语。Databricks推荐以下Apache Spark MLlib指南:
例如笔记本电脑
下面的笔记本演示如何使用Databricks使用各种Apache Spark MLlib特性。
二元分类实例
本笔记本向您展示如何使用Apache Spark MLlib管道API构建二进制分类应用程序。
决策树示例
这些示例演示了使用Apache Spark MLlib pipeline API的决策树的各种应用程序。
Apache Spark MLlib管道和结构化流示例
这本笔记本展示了如何在历史数据上训练Apache Spark MLlib管道,并将其应用于流数据。
Advanced Apache Spark MLlib示例
这本笔记本说明了如何创建一个自定义转换器。
关于MLlib特性的参考信息,Databricks推荐以下Apache Spark API参考:
关于从R使用Apache Spark MLlib,请参见机器学习文档。
有关Databricks对可视化机器学习算法的支持,请参见机器学习可视化。