通常在运行机器学习算法时,它涉及一系列任务,包括预处理、特征提取、模型拟合和验证阶段。例如,在对文本文档进行分类时,可能涉及到文本分割和清理、提取特征以及使用交叉验证训练分类模型。尽管我们可以为每个阶段使用许多库,但将这些点连接起来并不像看起来那么容易,特别是对于大规模的数据集。大多数ML库不是为分布式计算设计的,或者它们不提供管道创建和调优的本机支持。ML管道是MLlib的高级API,它生活在“spark”之下。毫升”包。管道由一系列阶段组成。管道阶段有两种基本类型:Transformer和Estimator。Transformer接受一个数据集作为输入,并生成一个增强数据集作为输出。例如,tokenizer是一个Transformer,它将包含文本的数据集转换为包含标记化单词的数据集。Estimator必须首先适合输入数据集以生成模型,该模型是转换输入数据集的Transformer。例如,逻辑回归是一个在带有标签和特征的数据集上训练并产生逻辑回归模型的估计器。
额外的资源
回到术语表