MLUtils

pyspark.mllib.util。 MLUtils

助手方法来加载、保存和预处理数据用于MLlib。

方法

appendBias(数据)

返回一个新的向量1.0(偏见)附加的输入向量。

convertMatrixColumnsFromML(数据集,*峡路)

在一个输入DataFrame转换矩阵的列pyspark.mllib.linalg.Matrix类型的新pyspark.ml.linalg.Matrix类型下spark.ml包中。

convertMatrixColumnsToML(数据集,*峡路)

在输入DataFrame转换矩阵列pyspark.mllib.linalg.Matrix新类型pyspark.ml.linalg.Matrix类型下spark.ml包中。

convertVectorColumnsFromML(数据集,*峡路)

在一个输入DataFrame转换向量列pyspark.mllib.linalg.Vector类型的新pyspark.ml.linalg.Vector类型下spark.ml包中。

convertVectorColumnsToML(数据集,*峡路)

在输入DataFrame转换向量列pyspark.mllib.linalg.Vector新类型pyspark.ml.linalg.Vector类型下spark.ml包中。

loadLabeledPoints(sc、路径[minPartitions])

使用RDD.saveAsTextFile加载标记点保存。

loadLibSVMFile(sc路径(numFeatures,…))

LIBSVM格式标记数据装入LabeledPoint的抽样。

loadVectors(sc路径)

负载向量保存使用抽样(向量).saveAsTextFile使用默认的分区。

saveAsLibSVMFile(数据、dir)

以LIBSVM保存标记数据格式。

方法的文档

静态 appendBias ( 数据:pyspark.mllib.linalg.Vector )pyspark.mllib.linalg.Vector

返回一个新的向量1.0(偏见)附加的输入向量。

静态 convertMatrixColumnsFromML ( 数据集:pyspark.sql.dataframe.DataFrame,*关口:str )→pyspark.sql.dataframe.DataFrame

在一个输入DataFrame转换矩阵的列pyspark.mllib.linalg.Matrix类型的新pyspark.ml.linalg.Matrix类型下spark.ml包中。

参数
数据集 pyspark.sql.DataFrame

输入数据集

*关口 str

要转换矩阵列。

老矩阵列将被忽略。如果未指定,所有新矩阵列将转换除了嵌套的。

返回
pyspark.sql.DataFrame

输入数据集的新矩阵列转换为旧的矩阵类型

例子

> > >进口pyspark> > >pyspark.ml.linalg进口矩阵> > >pyspark.mllib.util进口MLUtils> > >df=火花createDataFrame(((0,矩阵稀疏的(2,2,(0,2,3),(0,1,1),(2,3,4]),矩阵密集的(2,2,范围(4))))(“id”,“x”,“y”])> > >r1=MLUtilsconvertMatrixColumnsFromML(df)第一个()> > >isinstance(r1x,pysparkmlliblinalgSparseMatrix)真正的> > >isinstance(r1y,pysparkmlliblinalgDenseMatrix)真正的> > >r2=MLUtilsconvertMatrixColumnsFromML(df,“x”)第一个()> > >isinstance(r2x,pysparkmlliblinalgSparseMatrix)真正的> > >isinstance(r2y,pyspark毫升linalgDenseMatrix)真正的
静态 convertMatrixColumnsToML ( 数据集:pyspark.sql.dataframe.DataFrame,*关口:str )→pyspark.sql.dataframe.DataFrame

在输入DataFrame转换矩阵列pyspark.mllib.linalg.Matrix新类型pyspark.ml.linalg.Matrix类型下spark.ml包中。

参数
数据集 pyspark.sql.DataFrame

输入数据集

*关口 str

要转换矩阵列。

新矩阵列将被忽略。如果未指定的,所有旧将转换矩阵列除外嵌套的。

返回
pyspark.sql.DataFrame

输入数据集用旧矩阵列转换为新的矩阵类型

例子

> > >进口pyspark> > >pyspark.mllib.linalg进口矩阵> > >pyspark.mllib.util进口MLUtils> > >df=火花createDataFrame(((0,矩阵稀疏的(2,2,(0,2,3),(0,1,1),(2,3,4]),矩阵密集的(2,2,范围(4))))(“id”,“x”,“y”])> > >r1=MLUtilsconvertMatrixColumnsToML(df)第一个()> > >isinstance(r1x,pyspark毫升linalgSparseMatrix)真正的> > >isinstance(r1y,pyspark毫升linalgDenseMatrix)真正的> > >r2=MLUtilsconvertMatrixColumnsToML(df,“x”)第一个()> > >isinstance(r2x,pyspark毫升linalgSparseMatrix)真正的> > >isinstance(r2y,pysparkmlliblinalgDenseMatrix)真正的
静态 convertVectorColumnsFromML ( 数据集:pyspark.sql.dataframe.DataFrame,*关口:str )→pyspark.sql.dataframe.DataFrame

在一个输入DataFrame转换向量列pyspark.mllib.linalg.Vector类型的新pyspark.ml.linalg.Vector类型下spark.ml包中。

参数
数据集 pyspark.sql.DataFrame

输入数据集

*关口 str

列向量转换。

老向量列将被忽略。如果未指定,所有新的向量列将转换除了嵌套的。

返回
pyspark.sql.DataFrame

输入数据集与新的矢量列转换为旧的类型

例子

> > >进口pyspark> > >pyspark.ml.linalg进口向量> > >pyspark.mllib.util进口MLUtils> > >df=火花createDataFrame(((0,向量稀疏的(2,(1),(1.0]),向量密集的(2.0,3.0))),(“id”,“x”,“y”])> > >r1=MLUtilsconvertVectorColumnsFromML(df)第一个()> > >isinstance(r1x,pysparkmlliblinalgSparseVector)真正的> > >isinstance(r1y,pysparkmlliblinalgDenseVector)真正的> > >r2=MLUtilsconvertVectorColumnsFromML(df,“x”)第一个()> > >isinstance(r2x,pysparkmlliblinalgSparseVector)真正的> > >isinstance(r2y,pyspark毫升linalgDenseVector)真正的
静态 convertVectorColumnsToML ( 数据集:pyspark.sql.dataframe.DataFrame,*关口:str )→pyspark.sql.dataframe.DataFrame

在输入DataFrame转换向量列pyspark.mllib.linalg.Vector新类型pyspark.ml.linalg.Vector类型下spark.ml包中。

参数
数据集 pyspark.sql.DataFrame

输入数据集

*关口 str

列向量转换。

新的向量列将被忽略。如果未指定,所有旧的向量列将转换除外嵌套的。

返回
pyspark.sql.DataFrame

输入数据集用旧列向量转换为新的向量类型

例子

> > >进口pyspark> > >pyspark.mllib.linalg进口向量> > >pyspark.mllib.util进口MLUtils> > >df=火花createDataFrame(((0,向量稀疏的(2,(1),(1.0]),向量密集的(2.0,3.0))),(“id”,“x”,“y”])> > >r1=MLUtilsconvertVectorColumnsToML(df)第一个()> > >isinstance(r1x,pyspark毫升linalgSparseVector)真正的> > >isinstance(r1y,pyspark毫升linalgDenseVector)真正的> > >r2=MLUtilsconvertVectorColumnsToML(df,“x”)第一个()> > >isinstance(r2x,pyspark毫升linalgSparseVector)真正的> > >isinstance(r2y,pysparkmlliblinalgDenseVector)真正的
静态 loadLabeledPoints ( sc:pyspark.context.SparkContext,路径:str,minPartitions:可选(int]=没有一个 )→pyspark.rdd.RDD(LabeledPoint]

使用RDD.saveAsTextFile加载标记点保存。

参数
sc pyspark.SparkContext

火花上下文

路径 str

文件系统文件或目录路径在任何Hadoop-supported URI

minPartitions int,可选

最小数量的分区

返回
pyspark.RDD

带安全标签的数据存储为一个LabeledPoint抽样

例子

> > >tempfile进口NamedTemporaryFile> > >pyspark.mllib.util进口MLUtils> > >pyspark.mllib.regression进口LabeledPoint> > >例子=(LabeledPoint(1.1,向量稀疏的(3,((0,- - - - - -1.23),(2,4.56 e -)))),LabeledPoint(0.0,向量密集的([1.01,2.02,3.03))))> > >tempFile=NamedTemporaryFile(删除=真正的)> > >tempFile关闭()> > >sc并行化(例子,1)saveAsTextFile(tempFile的名字)> > >MLUtilsloadLabeledPoints(sc,tempFile的名字)收集()[LabeledPoint (1.1 (3 (0, 2) [-1.23, 4.56 e-07])), LabeledPoint (0.0 [1.01, 2.02, 3.03]))
静态 loadLibSVMFile ( sc:pyspark.context.SparkContext,路径:str,numFeatures:int=- 1,minPartitions:可选(int]=没有一个 )→pyspark.rdd.RDD(LabeledPoint]

LIBSVM格式标记数据装入LabeledPoint的抽样。LIBSVM格式LIBSVM和LIBLINEAR所使用的是一种基于文本的格式。每一行代表一个标记稀疏特征向量使用以下格式:

标签index1: value1 index2: value2…

指数在哪里集中和以升序排序。该方法解析每一行成一个LabeledPoint,特性指标转换为从零开始的。

参数
sc pyspark.SparkContext

火花上下文

路径 str

文件系统文件或目录路径在任何Hadoop-supported URI

numFeatures int,可选

的特性,将决定如果一个负的值从输入数据。这是有用的数据集时已经分裂成多个文件,你想单独加载它们,因为一些特性在某些文件可能不存在,从而导致不一致的特征维度。

minPartitions int,可选

最小数量的分区

返回
pyspark.RDD

带安全标签的数据存储为一个LabeledPoint抽样

例子

> > >tempfile进口NamedTemporaryFile> > >pyspark.mllib.util进口MLUtils> > >pyspark.mllib.regression进口LabeledPoint> > >tempFile=NamedTemporaryFile(删除=真正的)> > >_=tempFile(b“+ 1 1:1.0 3:2.0 5:3.0\ n1\ n1 2:4.0 4:5.0 6:6.0”)> > >tempFile冲洗()> > >例子=MLUtilsloadLibSVMFile(sc,tempFile的名字)收集()> > >tempFile关闭()> > >例子(0]LabeledPoint (1.0 (6 (0、2、4) (1.0, 2.0, 3.0)))> > >例子(1]LabeledPoint (-1.0, (6 [] []))> > >例子(2]LabeledPoint (-1.0 (6 (1、3、5) (4.0, 5.0, 6.0)))
静态 loadVectors ( sc:pyspark.context.SparkContext,路径:str )→pyspark.rdd.RDD( pyspark.mllib.linalg.Vector ]

负载向量保存使用抽样(向量).saveAsTextFile使用默认的分区。

静态 saveAsLibSVMFile ( 数据:pyspark.rdd.RDD(LabeledPoint],dir:str )→没有

以LIBSVM保存标记数据格式。

参数
数据 pyspark.RDD

一个抽样LabeledPoint得救

dir str

目录来保存数据

例子

> > >tempfile进口NamedTemporaryFile> > >fileinput进口输入> > >pyspark.mllib.regression进口LabeledPoint> > >一团进口一团> > >pyspark.mllib.util进口MLUtils> > >例子=(LabeledPoint(1.1,向量稀疏的(3,((0,1.23),(2,4.56)))),LabeledPoint(0.0,向量密集的([1.01,2.02,3.03))))> > >tempFile=NamedTemporaryFile(删除=真正的)> > >tempFile关闭()> > >MLUtilssaveAsLibSVMFile(sc并行化(例子),tempFile的名字)> > >加入(排序(输入(一团(tempFile的名字+“/部分- 0000 *”))))“0.0 1:1.01 2:2.02 3:3.03 \ n1.1 1:1.23 3:4.56 \ n”