MLUtils¶

类 pyspark.mllib.util。 MLUtils ¶

助手方法来加载、保存和预处理数据用于MLlib。

方法

`appendBias`(数据)	返回一个新的向量1.0(偏见)附加的输入向量。
`convertMatrixColumnsFromML`(数据集,*峡路)	在一个输入DataFrame转换矩阵的列`pyspark.mllib.linalg.Matrix`类型的新`pyspark.ml.linalg.Matrix`类型下spark.ml包中。
`convertMatrixColumnsToML`(数据集,*峡路)	在输入DataFrame转换矩阵列`pyspark.mllib.linalg.Matrix`新类型`pyspark.ml.linalg.Matrix`类型下spark.ml包中。
`convertVectorColumnsFromML`(数据集,*峡路)	在一个输入DataFrame转换向量列`pyspark.mllib.linalg.Vector`类型的新`pyspark.ml.linalg.Vector`类型下spark.ml包中。
`convertVectorColumnsToML`(数据集,*峡路)	在输入DataFrame转换向量列`pyspark.mllib.linalg.Vector`新类型`pyspark.ml.linalg.Vector`类型下spark.ml包中。
`loadLabeledPoints`(sc、路径[minPartitions])	使用RDD.saveAsTextFile加载标记点保存。
`loadLibSVMFile`(sc路径(numFeatures,…))	LIBSVM格式标记数据装入LabeledPoint的抽样。
`loadVectors`(sc路径)	负载向量保存使用抽样(向量).saveAsTextFile使用默认的分区。
`saveAsLibSVMFile`(数据、dir)	以LIBSVM保存标记数据格式。

方法的文档

静态 appendBias ( 数据:pyspark.mllib.linalg.Vector )→pyspark.mllib.linalg.Vector ¶: 返回一个新的向量1.0(偏见)附加的输入向量。

静态 convertMatrixColumnsFromML ( 数据集:pyspark.sql.dataframe.DataFrame,*关口:str )→pyspark.sql.dataframe.DataFrame¶

在一个输入DataFrame转换矩阵的列pyspark.mllib.linalg.Matrix类型的新pyspark.ml.linalg.Matrix类型下spark.ml包中。

参数

数据集 pyspark.sql.DataFrame

输入数据集

*关口 str

要转换矩阵列。

老矩阵列将被忽略。如果未指定,所有新矩阵列将转换除了嵌套的。

返回

pyspark.sql.DataFrame: 输入数据集的新矩阵列转换为旧的矩阵类型

例子

             > > >进口pyspark> > >从pyspark.ml.linalg进口矩阵> > >从pyspark.mllib.util进口MLUtils> > >df=火花。createDataFrame(…((0,矩阵。稀疏的(2,2,(0,2,3),(0,1,1),(2,3,4]),…矩阵。密集的(2,2,范围(4))))(“id”,“x”,“y”])> > >r1=MLUtils。convertMatrixColumnsFromML(df)。第一个()> > >isinstance(r1。x,pyspark。mllib。linalg。SparseMatrix)真正的> > >isinstance(r1。y,pyspark。mllib。linalg。DenseMatrix)真正的> > >r2=MLUtils。convertMatrixColumnsFromML(df,“x”)。第一个()> > >isinstance(r2。x,pyspark。mllib。linalg。SparseMatrix)真正的> > >isinstance(r2。y,pyspark。毫升。linalg。DenseMatrix)真正的
            

静态 convertMatrixColumnsToML ( 数据集:pyspark.sql.dataframe.DataFrame,*关口:str )→pyspark.sql.dataframe.DataFrame¶

在输入DataFrame转换矩阵列pyspark.mllib.linalg.Matrix新类型pyspark.ml.linalg.Matrix类型下spark.ml包中。

参数

数据集 pyspark.sql.DataFrame

输入数据集

*关口 str

要转换矩阵列。

新矩阵列将被忽略。如果未指定的,所有旧将转换矩阵列除外嵌套的。

返回

pyspark.sql.DataFrame: 输入数据集用旧矩阵列转换为新的矩阵类型

例子

             > > >进口pyspark> > >从pyspark.mllib.linalg进口矩阵> > >从pyspark.mllib.util进口MLUtils> > >df=火花。createDataFrame(…((0,矩阵。稀疏的(2,2,(0,2,3),(0,1,1),(2,3,4]),…矩阵。密集的(2,2,范围(4))))(“id”,“x”,“y”])> > >r1=MLUtils。convertMatrixColumnsToML(df)。第一个()> > >isinstance(r1。x,pyspark。毫升。linalg。SparseMatrix)真正的> > >isinstance(r1。y,pyspark。毫升。linalg。DenseMatrix)真正的> > >r2=MLUtils。convertMatrixColumnsToML(df,“x”)。第一个()> > >isinstance(r2。x,pyspark。毫升。linalg。SparseMatrix)真正的> > >isinstance(r2。y,pyspark。mllib。linalg。DenseMatrix)真正的
            

静态 convertVectorColumnsFromML ( 数据集:pyspark.sql.dataframe.DataFrame,*关口:str )→pyspark.sql.dataframe.DataFrame¶

在一个输入DataFrame转换向量列pyspark.mllib.linalg.Vector类型的新pyspark.ml.linalg.Vector类型下spark.ml包中。

参数

数据集 pyspark.sql.DataFrame

输入数据集

*关口 str

列向量转换。

老向量列将被忽略。如果未指定,所有新的向量列将转换除了嵌套的。

返回

pyspark.sql.DataFrame: 输入数据集与新的矢量列转换为旧的类型

例子

             > > >进口pyspark> > >从pyspark.ml.linalg进口向量> > >从pyspark.mllib.util进口MLUtils> > >df=火花。createDataFrame(…((0,向量。稀疏的(2,(1),(1.0]),向量。密集的(2.0,3.0))),…(“id”,“x”,“y”])> > >r1=MLUtils。convertVectorColumnsFromML(df)。第一个()> > >isinstance(r1。x,pyspark。mllib。linalg。SparseVector)真正的> > >isinstance(r1。y,pyspark。mllib。linalg。DenseVector)真正的> > >r2=MLUtils。convertVectorColumnsFromML(df,“x”)。第一个()> > >isinstance(r2。x,pyspark。mllib。linalg。SparseVector)真正的> > >isinstance(r2。y,pyspark。毫升。linalg。DenseVector)真正的
            

静态 convertVectorColumnsToML ( 数据集:pyspark.sql.dataframe.DataFrame,*关口:str )→pyspark.sql.dataframe.DataFrame¶

在输入DataFrame转换向量列pyspark.mllib.linalg.Vector新类型pyspark.ml.linalg.Vector类型下spark.ml包中。

参数

数据集 pyspark.sql.DataFrame

输入数据集

*关口 str

列向量转换。

新的向量列将被忽略。如果未指定,所有旧的向量列将转换除外嵌套的。

返回

pyspark.sql.DataFrame: 输入数据集用旧列向量转换为新的向量类型

例子

             > > >进口pyspark> > >从pyspark.mllib.linalg进口向量> > >从pyspark.mllib.util进口MLUtils> > >df=火花。createDataFrame(…((0,向量。稀疏的(2,(1),(1.0]),向量。密集的(2.0,3.0))),…(“id”,“x”,“y”])> > >r1=MLUtils。convertVectorColumnsToML(df)。第一个()> > >isinstance(r1。x,pyspark。毫升。linalg。SparseVector)真正的> > >isinstance(r1。y,pyspark。毫升。linalg。DenseVector)真正的> > >r2=MLUtils。convertVectorColumnsToML(df,“x”)。第一个()> > >isinstance(r2。x,pyspark。毫升。linalg。SparseVector)真正的> > >isinstance(r2。y,pyspark。mllib。linalg。DenseVector)真正的
            

静态 loadLabeledPoints ( sc:pyspark.context.SparkContext,路径:str,minPartitions:可选(int]=没有一个 )→pyspark.rdd.RDD(LabeledPoint] ¶

使用RDD.saveAsTextFile加载标记点保存。

参数

sc pyspark.SparkContext: 火花上下文
路径 str: 文件系统文件或目录路径在任何Hadoop-supported URI
minPartitions int,可选: 最小数量的分区

返回

pyspark.RDD: 带安全标签的数据存储为一个LabeledPoint抽样

例子

             > > >从tempfile进口NamedTemporaryFile> > >从pyspark.mllib.util进口MLUtils> > >从pyspark.mllib.regression进口LabeledPoint> > >例子=(LabeledPoint(1.1,向量。稀疏的(3,((0,- - - - - -1.23),(2,4.56 e -)))),…LabeledPoint(0.0,向量。密集的([1.01,2.02,3.03))))> > >tempFile=NamedTemporaryFile(删除=真正的)> > >tempFile。关闭()> > >sc。并行化(例子,1)。saveAsTextFile(tempFile。的名字)> > >MLUtils。loadLabeledPoints(sc,tempFile。的名字)。收集()[LabeledPoint (1.1 (3 (0, 2) [-1.23, 4.56 e-07])), LabeledPoint (0.0 [1.01, 2.02, 3.03]))
            

静态 loadLibSVMFile ( sc:pyspark.context.SparkContext,路径:str,numFeatures:int=- 1,minPartitions:可选(int]=没有一个 )→pyspark.rdd.RDD(LabeledPoint] ¶

LIBSVM格式标记数据装入LabeledPoint的抽样。LIBSVM格式LIBSVM和LIBLINEAR所使用的是一种基于文本的格式。每一行代表一个标记稀疏特征向量使用以下格式:

标签index1: value1 index2: value2…

指数在哪里集中和以升序排序。该方法解析每一行成一个LabeledPoint,特性指标转换为从零开始的。

参数

sc pyspark.SparkContext: 火花上下文
路径 str: 文件系统文件或目录路径在任何Hadoop-supported URI
numFeatures int,可选: 的特性,将决定如果一个负的值从输入数据。这是有用的数据集时已经分裂成多个文件,你想单独加载它们,因为一些特性在某些文件可能不存在,从而导致不一致的特征维度。
minPartitions int,可选: 最小数量的分区

返回

pyspark.RDD: 带安全标签的数据存储为一个LabeledPoint抽样

例子

             > > >从tempfile进口NamedTemporaryFile> > >从pyspark.mllib.util进口MLUtils> > >从pyspark.mllib.regression进口LabeledPoint> > >tempFile=NamedTemporaryFile(删除=真正的)> > >_=tempFile。写(b“+ 1 1:1.0 3:2.0 5:3.0\ n1\ n1 2:4.0 4:5.0 6:6.0”)> > >tempFile。冲洗()> > >例子=MLUtils。loadLibSVMFile(sc,tempFile。的名字)。收集()> > >tempFile。关闭()> > >例子(0]LabeledPoint (1.0 (6 (0、2、4) (1.0, 2.0, 3.0)))> > >例子(1]LabeledPoint (-1.0, (6 [] []))> > >例子(2]LabeledPoint (-1.0 (6 (1、3、5) (4.0, 5.0, 6.0)))
            

静态 loadVectors ( sc:pyspark.context.SparkContext,路径:str )→pyspark.rdd.RDD( pyspark.mllib.linalg.Vector ] ¶: 负载向量保存使用抽样(向量).saveAsTextFile使用默认的分区。

静态 saveAsLibSVMFile ( 数据:pyspark.rdd.RDD(LabeledPoint],dir:str )→没有¶

以LIBSVM保存标记数据格式。

参数

数据 pyspark.RDD: 一个抽样LabeledPoint得救
dir str: 目录来保存数据

例子

             > > >从tempfile进口NamedTemporaryFile> > >从fileinput进口输入> > >从pyspark.mllib.regression进口LabeledPoint> > >从一团进口一团> > >从pyspark.mllib.util进口MLUtils> > >例子=(LabeledPoint(1.1,向量。稀疏的(3,((0,1.23),(2,4.56)))),…LabeledPoint(0.0,向量。密集的([1.01,2.02,3.03))))> > >tempFile=NamedTemporaryFile(删除=真正的)> > >tempFile。关闭()> > >MLUtils。saveAsLibSVMFile(sc。并行化(例子),tempFile。的名字)> > >”。加入(排序(输入(一团(tempFile。的名字+“/部分- 0000 *”))))“0.0 1:1.01 2:2.02 3:3.03 \ n1.1 1:1.23 3:4.56 \ n”
            

以前的

加载程序

下一个

Saveable