Apache Spark的机器学习库(MLlib)设计简单,可伸缩性强,易于与其他工具集成。借助Spark的可伸缩性、语言兼容性和速度,数据科学家可以专注于他们的数据问题和模型,而不是解决围绕分布式数据的复杂性(如基础设施、配置等)。MLlib构建在Spark之上,是一个可扩展的机器学习库,由常见的学习算法和实用程序组成,包括分类、回归、聚类、协同过滤、降维和底层优化原语。Spark MLLib与Spark SQL、Spark Streaming和DataFrames等其他Spark组件无缝集成,并安装在Databricks运行时中。该库可作为Spark应用程序的一部分在Java、Scala和Python中使用,因此您可以将其包含在完整的工作流中。MLlib允许对模型进行预处理、修改、训练,并对数据进行大规模预测。您甚至可以使用MLlib中训练的模型在结构化流中进行预测。Spark提供了一个复杂的机器学习API,用于执行各种机器学习任务,从分类到回归,从聚类到深度学习。额外的资源
回到术语表