MLUtils¶
-
类
pyspark.mllib.util。
MLUtils
¶ -
助手方法来加载、保存和预处理数据用于MLlib。
方法
appendBias
(数据)返回一个新的向量1.0(偏见)附加的输入向量。
convertMatrixColumnsFromML
(数据集,*峡路)在一个输入DataFrame转换矩阵的列
pyspark.mllib.linalg.Matrix
类型的新pyspark.ml.linalg.Matrix
类型下spark.ml包中。convertMatrixColumnsToML
(数据集,*峡路)在输入DataFrame转换矩阵列
pyspark.mllib.linalg.Matrix
新类型pyspark.ml.linalg.Matrix
类型下spark.ml包中。convertVectorColumnsFromML
(数据集,*峡路)在一个输入DataFrame转换向量列
pyspark.mllib.linalg.Vector
类型的新pyspark.ml.linalg.Vector
类型下spark.ml包中。convertVectorColumnsToML
(数据集,*峡路)在输入DataFrame转换向量列
pyspark.mllib.linalg.Vector
新类型pyspark.ml.linalg.Vector
类型下spark.ml包中。loadLabeledPoints
(sc、路径[minPartitions])使用RDD.saveAsTextFile加载标记点保存。
loadLibSVMFile
(sc路径(numFeatures,…))LIBSVM格式标记数据装入LabeledPoint的抽样。
loadVectors
(sc路径)负载向量保存使用抽样(向量).saveAsTextFile使用默认的分区。
saveAsLibSVMFile
(数据、dir)以LIBSVM保存标记数据格式。
方法的文档
-
静态
appendBias
( 数据:pyspark.mllib.linalg.Vector )→pyspark.mllib.linalg.Vector ¶ -
返回一个新的向量1.0(偏见)附加的输入向量。
-
静态
convertMatrixColumnsFromML
( 数据集:pyspark.sql.dataframe.DataFrame,*关口:str )→pyspark.sql.dataframe.DataFrame¶ -
在一个输入DataFrame转换矩阵的列
pyspark.mllib.linalg.Matrix
类型的新pyspark.ml.linalg.Matrix
类型下spark.ml包中。- 参数
-
-
数据集
pyspark.sql.DataFrame
-
输入数据集
- *关口 str
-
要转换矩阵列。
老矩阵列将被忽略。如果未指定,所有新矩阵列将转换除了嵌套的。
-
数据集
- 返回
-
-
pyspark.sql.DataFrame
-
输入数据集的新矩阵列转换为旧的矩阵类型
-
例子
> > >进口pyspark> > >从pyspark.ml.linalg进口矩阵> > >从pyspark.mllib.util进口MLUtils> > >df=火花。createDataFrame(…((0,矩阵。稀疏的(2,2,(0,2,3),(0,1,1),(2,3,4]),…矩阵。密集的(2,2,范围(4))))(“id”,“x”,“y”])> > >r1=MLUtils。convertMatrixColumnsFromML(df)。第一个()> > >isinstance(r1。x,pyspark。mllib。linalg。SparseMatrix)真正的> > >isinstance(r1。y,pyspark。mllib。linalg。DenseMatrix)真正的> > >r2=MLUtils。convertMatrixColumnsFromML(df,“x”)。第一个()> > >isinstance(r2。x,pyspark。mllib。linalg。SparseMatrix)真正的> > >isinstance(r2。y,pyspark。毫升。linalg。DenseMatrix)真正的
-
静态
convertMatrixColumnsToML
( 数据集:pyspark.sql.dataframe.DataFrame,*关口:str )→pyspark.sql.dataframe.DataFrame¶ -
在输入DataFrame转换矩阵列
pyspark.mllib.linalg.Matrix
新类型pyspark.ml.linalg.Matrix
类型下spark.ml包中。- 参数
-
-
数据集
pyspark.sql.DataFrame
-
输入数据集
- *关口 str
-
要转换矩阵列。
新矩阵列将被忽略。如果未指定的,所有旧将转换矩阵列除外嵌套的。
-
数据集
- 返回
-
-
pyspark.sql.DataFrame
-
输入数据集用旧矩阵列转换为新的矩阵类型
-
例子
> > >进口pyspark> > >从pyspark.mllib.linalg进口矩阵> > >从pyspark.mllib.util进口MLUtils> > >df=火花。createDataFrame(…((0,矩阵。稀疏的(2,2,(0,2,3),(0,1,1),(2,3,4]),…矩阵。密集的(2,2,范围(4))))(“id”,“x”,“y”])> > >r1=MLUtils。convertMatrixColumnsToML(df)。第一个()> > >isinstance(r1。x,pyspark。毫升。linalg。SparseMatrix)真正的> > >isinstance(r1。y,pyspark。毫升。linalg。DenseMatrix)真正的> > >r2=MLUtils。convertMatrixColumnsToML(df,“x”)。第一个()> > >isinstance(r2。x,pyspark。毫升。linalg。SparseMatrix)真正的> > >isinstance(r2。y,pyspark。mllib。linalg。DenseMatrix)真正的
-
静态
convertVectorColumnsFromML
( 数据集:pyspark.sql.dataframe.DataFrame,*关口:str )→pyspark.sql.dataframe.DataFrame¶ -
在一个输入DataFrame转换向量列
pyspark.mllib.linalg.Vector
类型的新pyspark.ml.linalg.Vector
类型下spark.ml包中。- 参数
-
-
数据集
pyspark.sql.DataFrame
-
输入数据集
- *关口 str
-
列向量转换。
老向量列将被忽略。如果未指定,所有新的向量列将转换除了嵌套的。
-
数据集
- 返回
-
-
pyspark.sql.DataFrame
-
输入数据集与新的矢量列转换为旧的类型
-
例子
> > >进口pyspark> > >从pyspark.ml.linalg进口向量> > >从pyspark.mllib.util进口MLUtils> > >df=火花。createDataFrame(…((0,向量。稀疏的(2,(1),(1.0]),向量。密集的(2.0,3.0))),…(“id”,“x”,“y”])> > >r1=MLUtils。convertVectorColumnsFromML(df)。第一个()> > >isinstance(r1。x,pyspark。mllib。linalg。SparseVector)真正的> > >isinstance(r1。y,pyspark。mllib。linalg。DenseVector)真正的> > >r2=MLUtils。convertVectorColumnsFromML(df,“x”)。第一个()> > >isinstance(r2。x,pyspark。mllib。linalg。SparseVector)真正的> > >isinstance(r2。y,pyspark。毫升。linalg。DenseVector)真正的
-
静态
convertVectorColumnsToML
( 数据集:pyspark.sql.dataframe.DataFrame,*关口:str )→pyspark.sql.dataframe.DataFrame¶ -
在输入DataFrame转换向量列
pyspark.mllib.linalg.Vector
新类型pyspark.ml.linalg.Vector
类型下spark.ml包中。- 参数
-
-
数据集
pyspark.sql.DataFrame
-
输入数据集
- *关口 str
-
列向量转换。
新的向量列将被忽略。如果未指定,所有旧的向量列将转换除外嵌套的。
-
数据集
- 返回
-
-
pyspark.sql.DataFrame
-
输入数据集用旧列向量转换为新的向量类型
-
例子
> > >进口pyspark> > >从pyspark.mllib.linalg进口向量> > >从pyspark.mllib.util进口MLUtils> > >df=火花。createDataFrame(…((0,向量。稀疏的(2,(1),(1.0]),向量。密集的(2.0,3.0))),…(“id”,“x”,“y”])> > >r1=MLUtils。convertVectorColumnsToML(df)。第一个()> > >isinstance(r1。x,pyspark。毫升。linalg。SparseVector)真正的> > >isinstance(r1。y,pyspark。毫升。linalg。DenseVector)真正的> > >r2=MLUtils。convertVectorColumnsToML(df,“x”)。第一个()> > >isinstance(r2。x,pyspark。毫升。linalg。SparseVector)真正的> > >isinstance(r2。y,pyspark。mllib。linalg。DenseVector)真正的
-
静态
loadLabeledPoints
( sc:pyspark.context.SparkContext,路径:str,minPartitions:可选(int]=没有一个 )→pyspark.rdd.RDD(LabeledPoint] ¶ -
使用RDD.saveAsTextFile加载标记点保存。
- 参数
-
-
sc
pyspark.SparkContext
-
火花上下文
- 路径 str
-
文件系统文件或目录路径在任何Hadoop-supported URI
- minPartitions int,可选
-
最小数量的分区
-
sc
- 返回
-
-
pyspark.RDD
-
带安全标签的数据存储为一个LabeledPoint抽样
-
例子
> > >从tempfile进口NamedTemporaryFile> > >从pyspark.mllib.util进口MLUtils> > >从pyspark.mllib.regression进口LabeledPoint> > >例子=(LabeledPoint(1.1,向量。稀疏的(3,((0,- - - - - -1.23),(2,4.56 e -)))),…LabeledPoint(0.0,向量。密集的([1.01,2.02,3.03))))> > >tempFile=NamedTemporaryFile(删除=真正的)> > >tempFile。关闭()> > >sc。并行化(例子,1)。saveAsTextFile(tempFile。的名字)> > >MLUtils。loadLabeledPoints(sc,tempFile。的名字)。收集()[LabeledPoint (1.1 (3 (0, 2) [-1.23, 4.56 e-07])), LabeledPoint (0.0 [1.01, 2.02, 3.03]))
-
静态
loadLibSVMFile
( sc:pyspark.context.SparkContext,路径:str,numFeatures:int=- 1,minPartitions:可选(int]=没有一个 )→pyspark.rdd.RDD(LabeledPoint] ¶ -
LIBSVM格式标记数据装入LabeledPoint的抽样。LIBSVM格式LIBSVM和LIBLINEAR所使用的是一种基于文本的格式。每一行代表一个标记稀疏特征向量使用以下格式:
标签index1: value1 index2: value2…
指数在哪里集中和以升序排序。该方法解析每一行成一个LabeledPoint,特性指标转换为从零开始的。
- 参数
-
-
sc
pyspark.SparkContext
-
火花上下文
- 路径 str
-
文件系统文件或目录路径在任何Hadoop-supported URI
- numFeatures int,可选
-
的特性,将决定如果一个负的值从输入数据。这是有用的数据集时已经分裂成多个文件,你想单独加载它们,因为一些特性在某些文件可能不存在,从而导致不一致的特征维度。
- minPartitions int,可选
-
最小数量的分区
-
sc
- 返回
-
-
pyspark.RDD
-
带安全标签的数据存储为一个LabeledPoint抽样
-
例子
> > >从tempfile进口NamedTemporaryFile> > >从pyspark.mllib.util进口MLUtils> > >从pyspark.mllib.regression进口LabeledPoint> > >tempFile=NamedTemporaryFile(删除=真正的)> > >_=tempFile。写(b“+ 1 1:1.0 3:2.0 5:3.0\ n1\ n1 2:4.0 4:5.0 6:6.0”)> > >tempFile。冲洗()> > >例子=MLUtils。loadLibSVMFile(sc,tempFile。的名字)。收集()> > >tempFile。关闭()> > >例子(0]LabeledPoint (1.0 (6 (0、2、4) (1.0, 2.0, 3.0)))> > >例子(1]LabeledPoint (-1.0, (6 [] []))> > >例子(2]LabeledPoint (-1.0 (6 (1、3、5) (4.0, 5.0, 6.0)))
-
静态
loadVectors
( sc:pyspark.context.SparkContext,路径:str )→pyspark.rdd.RDD( pyspark.mllib.linalg.Vector ] ¶ -
负载向量保存使用抽样(向量).saveAsTextFile使用默认的分区。
-
静态
saveAsLibSVMFile
( 数据:pyspark.rdd.RDD(LabeledPoint],dir:str )→没有¶ -
以LIBSVM保存标记数据格式。
- 参数
-
-
数据
pyspark.RDD
-
一个抽样LabeledPoint得救
- dir str
-
目录来保存数据
-
数据
例子
> > >从tempfile进口NamedTemporaryFile> > >从fileinput进口输入> > >从pyspark.mllib.regression进口LabeledPoint> > >从一团进口一团> > >从pyspark.mllib.util进口MLUtils> > >例子=(LabeledPoint(1.1,向量。稀疏的(3,((0,1.23),(2,4.56)))),…LabeledPoint(0.0,向量。密集的([1.01,2.02,3.03))))> > >tempFile=NamedTemporaryFile(删除=真正的)> > >tempFile。关闭()> > >MLUtils。saveAsLibSVMFile(sc。并行化(例子),tempFile。的名字)> > >”。加入(排序(输入(一团(tempFile。的名字+“/部分- 0000 *”))))“0.0 1:1.01 2:2.02 3:3.03 \ n1.1 1:1.23 3:4.56 \ n”
-
静态