ChiSqSelector¶
-
类
pyspark.mllib.feature。
ChiSqSelector
( numTopFeatures:int=50,selectorType:str=“numTopFeatures”,百分位:浮动=0.1,玻璃钢:浮动=0.05,罗斯福:浮动=0.05,fwe:浮动=0.05 ) ¶ -
创建一个ChiSquared功能选择器。选择器支持不同的选择方法:numTopFeatures,百分位,玻璃钢,罗斯福,fwe。
numTopFeatures选择一个固定数量的高级特性根据卡方测试。
百分位相似但选择所有功能的一小部分,而不是一个固定的数字。
玻璃钢选择所有特性的假定值低于一个阈值,从而控制选择的假阳性率。
罗斯福使用Benjamini-Hochberg过程选择所有功能的错误发现率低于一个阈值。
fwe选择假定值低于一个阈值的所有功能。阈值由1 / numFeatures扩展,从而控制选择的family-wise错误率。
默认情况下,选择方法numTopFeatures,使用默认的特性设置为50。
例子
> > >从pyspark.mllib.linalg进口SparseVector,DenseVector> > >从pyspark.mllib.regression进口LabeledPoint> > >数据=sc。并行化([…LabeledPoint(0.0,SparseVector(3,{0:8.0,1:7.0})),…LabeledPoint(1.0,SparseVector(3,{1:9.0,2:6.0})),…LabeledPoint(1.0,(0.0,9.0,8.0]),…LabeledPoint(2.0,(7.0,9.0,5.0]),…LabeledPoint(2.0,(8.0,7.0,3.0])…])> > >模型=ChiSqSelector(numTopFeatures=1)。适合(数据)> > >模型。变换(SparseVector(3,{1:9.0,2:6.0}))SparseVector ({})> > >模型。变换(DenseVector([7.0,9.0,5.0)))DenseVector ([7.0])> > >模型=ChiSqSelector(selectorType=“玻璃钢”,玻璃钢=0.2)。适合(数据)> > >模型。变换(SparseVector(3,{1:9.0,2:6.0}))SparseVector ({})> > >模型。变换(DenseVector([7.0,9.0,5.0)))DenseVector ([7.0])> > >模型=ChiSqSelector(selectorType=“百分比”,百分位=0.34)。适合(数据)> > >模型。变换(DenseVector([7.0,9.0,5.0)))DenseVector ([7.0])
方法
适合
(数据)返回一个ChiSquared功能选择器。
setFdr
(罗斯福)设置罗斯福[0.0,1.0]由罗斯福特征选择。
setFpr
(玻璃钢)集玻璃钢[0.0,1.0]玻璃钢进行特征选择。
setFwe
(fwe)设置FWE[0.0, 1.0]供FWE特征选择。
setNumTopFeatures
(numTopFeatures)设置numTopFeature特征选择的数量特性。
setPercentile
(百分比)设置百分比[0.0,1.0]特征选择的百分比。
setSelectorType
(selectorType)ChisqSelector设置选择器类型。
方法的文档
-
适合
( 数据:pyspark.rdd.RDD(pyspark.mllib.regression.LabeledPoint] )→pyspark.mllib.feature.ChiSqSelectorModel ¶ -
返回一个ChiSquared功能选择器。
- 参数
-
-
数据
pyspark.RDD
的pyspark.mllib.regression.LabeledPoint
-
包含标签数据集分类特性。实值特性将被视为分类为每一个不同的值。应用功能离散化之前使用这个函数。
-
数据
-
setFdr
( 罗斯福:浮动 )→pyspark.mllib.feature.ChiSqSelector ¶ -
设置罗斯福[0.0,1.0]由罗斯福特征选择。只适用于当selectorType =“罗斯福”。
-
setFpr
( 玻璃钢:浮动 )→pyspark.mllib.feature.ChiSqSelector ¶ -
集玻璃钢[0.0,1.0]玻璃钢进行特征选择。只适用于当selectorType =“玻璃钢”。
-
setFwe
( fwe:浮动 )→pyspark.mllib.feature.ChiSqSelector ¶ -
设置FWE[0.0, 1.0]供FWE特征选择。只适用于当selectorType =“fwe”。
-
setNumTopFeatures
( numTopFeatures:int )→pyspark.mllib.feature.ChiSqSelector ¶ -
设置numTopFeature特征选择的数量特性。只适用于当selectorType =“numTopFeatures”。
-
setPercentile
( 百分位:浮动 )→pyspark.mllib.feature.ChiSqSelector ¶ -
设置百分比[0.0,1.0]特征选择的百分比。只适用于当selectorType =“百分比”。
-
setSelectorType
( selectorType:str )→pyspark.mllib.feature.ChiSqSelector ¶ -
ChisqSelector设置选择器类型。支持选项:“numTopFeatures”(默认)、“百分比”、“玻璃钢”、“罗斯福”、“fwe”。