pyspark.ml.feature。
QuantileDiscretizer
numBuckets
inputCols
inputCol
numBucketsArray
笔记
南处理:也要注意QuantileDiscretizer将提高一个错误当找到NaN值的数据集,但是用户也可以选择保留或删除NaN值在数据集通过设置handleInvalid参数。如果用户选择保留NaN值,它们将被特别处理,放置到自己的水桶,例如,如果使用了4桶,然后non-NaN数据将被放入水桶(0 - 3),但NaN将计算在一个特殊的桶[4]。
handleInvalid
算法:本范围选择使用一个近似算法(参见文档approxQuantile ()详细描述)。近似的精度可以控制relativeError参数。上下本界限∞和+∞,覆盖所有真实值。
approxQuantile ()
relativeError
例子
> > >值=((0.1),(0.4),(1.2),(1.5),(浮动(“南”),),(浮动(“南”),)> > >df1=火花。createDataFrame(值,(“价值观”])> > >qds1=QuantileDiscretizer(inputCol=“价值观”,outputCol=“桶”)> > >qds1。setNumBuckets(2)QuantileDiscretizer……> > >qds1。setRelativeError(0.01)QuantileDiscretizer……> > >qds1。setHandleInvalid(“错误”)QuantileDiscretizer……> > >qds1。getRelativeError()0.01> > >bucketizer=qds1。适合(df1)> > >qds1。setHandleInvalid(“保持”)。适合(df1)。变换(df1)。数()6> > >qds1。setHandleInvalid(“跳过”)。适合(df1)。变换(df1)。数()4> > >分裂=bucketizer。getSplits()> > >分裂(0]负> > >打印(”% 2.1度”%轮(分裂(1),1))0.4> > >桶=bucketizer。变换(df1)。头()> > >桶。桶0.0> > >quantileDiscretizerPath=temp_path+“/ quantile-discretizer”> > >qds1。保存(quantileDiscretizerPath)> > >loadedQds=QuantileDiscretizer。负载(quantileDiscretizerPath)> > >loadedQds。getNumBuckets()= =qds1。getNumBuckets()真正的> > >输入=((0.1,0.0),(0.4,1.0),(1.2,1.3),(1.5,1.5),…(浮动(“南”),浮动(“南”)),(浮动(“南”),浮动(“南”)))> > >df2=火花。createDataFrame(输入,(“input1”,“input2”])> > >qds2=QuantileDiscretizer(relativeError=0.01,handleInvalid=“错误”,numBuckets=2,…inputCols=(“input1”,“input2”),outputCols=(“output1”,“output2”])> > >qds2。getRelativeError()0.01> > >qds2。setHandleInvalid(“保持”)。适合(df2)。变换(df2)。显示()+ - - - - - - - - - - - - + - - - - - - - - - - - - - - +| input1 | input2 | output1 | output2 |+ - - - - - - - - - - - - + - - - - - - - - - - - - - - +| 0.1 | 0.0 | 0.0 | 0.0 || 0.4 | 1.0 | 1.0 | 1.0 || 1.2 | 1.3 | 1.0 | 1.0 || 1.5 | 1.5 | 1.0 | 1.0 || |南南| 2.0 | 2.0 || |南南| 2.0 | 2.0 |+ - - - - - - - - - - - - + - - - - - - - - - - - - - - +…> > >qds3=QuantileDiscretizer(relativeError=0.01,handleInvalid=“错误”,…numBucketsArray=(5,10),inputCols=(“input1”,“input2”),…outputCols=(“output1”,“output2”])> > >qds3。setHandleInvalid(“跳过”)。适合(df2)。变换(df2)。显示()+ - - - - - - - - - - - - + - - - - - - - - - - - - - - +| input1 | input2 | output1 | output2 |+ - - - - - - - - - - - - + - - - - - - - - - - - - - - +| 0.1 | 0.0 | 1.0 | 1.0 || 0.4 | 1.0 | 2.0 | 2.0 || 1.2 | 1.3 | 3.0 | 3.0 || 1.5 | 1.5 | 4.0 | 4.0 |+ - - - - - - - - - - - - + - - - - - - - - - - - - - - +…
方法
清晰的(参数)
清晰的
清除参数映射的参数是否被显式地设置。
复制((额外的))
复制
创建这个实例的副本具有相同uid和一些额外的参数。
explainParam(参数)
explainParam
解释一个参数并返回它的名字,医生,和可选的默认值,用户提供的字符串值。
explainParams()
explainParams
返回文档的所有参数选择默认值和用户提供的值。
extractParamMap((额外的))
extractParamMap
提取嵌入默认参数值和用户提供的值,然后合并他们额外的值从输入平面参数映射,后者使用价值如果存在冲突,即。排序:默认参数值< <额外的用户提供的值。
适合(数据集[params))
适合
适合一个模型与可选参数的输入数据集。
fitMultiple(paramMaps数据集)
fitMultiple
适合一个模型为每个参数映射的输入数据集paramMaps。
getHandleInvalid()
getHandleInvalid
得到的价值handleInvalid或其默认值。
getInputCol()
getInputCol
得到的价值inputCol或其默认值。
getInputCols()
getInputCols
得到的价值inputCols或其默认值。
getNumBuckets()
getNumBuckets
得到的价值numBuckets或其默认值。
getNumBucketsArray()
getNumBucketsArray
得到的价值numBucketsArray或其默认值。
getOrDefault(参数)
getOrDefault
得到参数的值在用户提供的参数映射或其默认值。
getOutputCol()
getOutputCol
得到的价值outputCol或其默认值。
getOutputCols()
getOutputCols
得到的价值outputCols或其默认值。
getParam(paramName)
getParam
通过它的名称参数。
getRelativeError()
getRelativeError
得到的价值relativeError或其默认值。
hasDefault(参数)
hasDefault
检查是否一个参数有默认值。
hasParam(paramName)
hasParam
测试这个实例包含一个参数是否与给定名称(字符串)。
isDefined(参数)
isDefined
检查参数是否由用户或显式地设置一个默认值。
收取(参数)
收取
检查参数是否由用户显式地设置。
负载(路径)
负载
从输入路径,读取一个毫升实例的快捷方式read () .load(路径)。
读()
读
返回一个MLReader这个类的实例。
保存(路径)
保存
这个毫升实例保存到给定的路径,一个快捷方式的“写().save(路径)。
集(参数值)
集
设置一个参数嵌入参数映射。
setHandleInvalid(值)
setHandleInvalid
设置的值handleInvalid。
setInputCol(值)
setInputCol
设置的值inputCol。
setInputCols(值)
setInputCols
设置的值inputCols。
setNumBuckets(值)
setNumBuckets
设置的值numBuckets。
setNumBucketsArray(值)
setNumBucketsArray
设置的值numBucketsArray。
setOutputCol(值)
setOutputCol
设置的值outputCol。
outputCol
setOutputCols(值)
setOutputCols
设置的值outputCols。
outputCols
setparam(自我,\ [,inputCol numBuckets…))
setparam
QuantileDiscretizer设置参数
setRelativeError(值)
setRelativeError
设置的值relativeError。
写()
写
返回一个MLWriter实例毫升实例。
属性
参数个数
返回所有参数命令的名字。
方法的文档
额外参数复制到新实例
JavaParams
这个实例的副本
额外的参数值
合并后的参数映射
pyspark.sql.DataFrame
输入数据集。
一个可选的参数覆盖嵌入参数的地图。如果列表/元组的参数映射,这适用于每一个参数并返回一个列表的模型映射。
变压器
拟合模型(年代)
collections.abc.Sequence
一系列的参数映射。
_FitMultipleIterator
一个线程安全的iterable包含为每个参数映射模型。每次调用下一个(modelIterator)将返回(指数模型)模型是适合使用在哪里paramMaps(指数)。指数值可能不是连续的。
参数
以前的
PolynomialExpansion
下一个
RobustScaler