特性与MLlib工程

Apache火花MLlib包含许多工程规模效用函数来执行功能,包括编码和转换特性的方法。这些方法也可以用来为其他机器学习库过程特性。

砖推荐以下Apache火花MLLib指南:

这个PySpark-based笔记本包含预处理步骤,分类数据转换为数值变量使用类别索引和一个炎热的编码。

二进制分类示例

在新标签页打开笔记本