ChiSqSelector

pyspark.mllib.feature。 ChiSqSelector ( numTopFeatures:int=50,selectorType:str=“numTopFeatures”,百分位:浮动=0.1,玻璃钢:浮动=0.05,罗斯福:浮动=0.05,fwe:浮动=0.05 )

创建一个ChiSquared功能选择器。选择器支持不同的选择方法:numTopFeatures,百分位,玻璃钢,罗斯福,fwe

  • numTopFeatures选择一个固定数量的高级特性根据卡方测试。

  • 百分位相似但选择所有功能的一小部分,而不是一个固定的数字。

  • 玻璃钢选择所有特性的假定值低于一个阈值,从而控制选择的假阳性率。

  • 罗斯福使用Benjamini-Hochberg过程选择所有功能的错误发现率低于一个阈值。

  • fwe选择假定值低于一个阈值的所有功能。阈值由1 / numFeatures扩展,从而控制选择的family-wise错误率。

默认情况下,选择方法numTopFeatures,使用默认的特性设置为50。

例子

> > >pyspark.mllib.linalg进口SparseVector,DenseVector> > >pyspark.mllib.regression进口LabeledPoint> > >数据=sc并行化([LabeledPoint(0.0,SparseVector(3,{0:8.0,1:7.0})),LabeledPoint(1.0,SparseVector(3,{1:9.0,2:6.0})),LabeledPoint(1.0,(0.0,9.0,8.0]),LabeledPoint(2.0,(7.0,9.0,5.0]),LabeledPoint(2.0,(8.0,7.0,3.0])])> > >模型=ChiSqSelector(numTopFeatures=1)适合(数据)> > >模型变换(SparseVector(3,{1:9.0,2:6.0}))SparseVector ({})> > >模型变换(DenseVector([7.0,9.0,5.0)))DenseVector ([7.0])> > >模型=ChiSqSelector(selectorType=“玻璃钢”,玻璃钢=0.2)适合(数据)> > >模型变换(SparseVector(3,{1:9.0,2:6.0}))SparseVector ({})> > >模型变换(DenseVector([7.0,9.0,5.0)))DenseVector ([7.0])> > >模型=ChiSqSelector(selectorType=“百分比”,百分位=0.34)适合(数据)> > >模型变换(DenseVector([7.0,9.0,5.0)))DenseVector ([7.0])

方法

适合(数据)

返回一个ChiSquared功能选择器。

setFdr(罗斯福)

设置罗斯福[0.0,1.0]由罗斯福特征选择。

setFpr(玻璃钢)

集玻璃钢[0.0,1.0]玻璃钢进行特征选择。

setFwe(fwe)

设置FWE[0.0, 1.0]供FWE特征选择。

setNumTopFeatures(numTopFeatures)

设置numTopFeature特征选择的数量特性。

setPercentile(百分比)

设置百分比[0.0,1.0]特征选择的百分比。

setSelectorType(selectorType)

ChisqSelector设置选择器类型。

方法的文档

适合 ( 数据:pyspark.rdd.RDD(pyspark.mllib.regression.LabeledPoint] )pyspark.mllib.feature.ChiSqSelectorModel

返回一个ChiSquared功能选择器。

参数
数据 pyspark.RDDpyspark.mllib.regression.LabeledPoint

包含标签数据集分类特性。实值特性将被视为分类为每一个不同的值。应用功能离散化之前使用这个函数。

setFdr ( 罗斯福:浮动 )pyspark.mllib.feature.ChiSqSelector

设置罗斯福[0.0,1.0]由罗斯福特征选择。只适用于当selectorType =“罗斯福”。

setFpr ( 玻璃钢:浮动 )pyspark.mllib.feature.ChiSqSelector

集玻璃钢[0.0,1.0]玻璃钢进行特征选择。只适用于当selectorType =“玻璃钢”。

setFwe ( fwe:浮动 )pyspark.mllib.feature.ChiSqSelector

设置FWE[0.0, 1.0]供FWE特征选择。只适用于当selectorType =“fwe”。

setNumTopFeatures ( numTopFeatures:int )pyspark.mllib.feature.ChiSqSelector

设置numTopFeature特征选择的数量特性。只适用于当selectorType =“numTopFeatures”。

setPercentile ( 百分位:浮动 )pyspark.mllib.feature.ChiSqSelector

设置百分比[0.0,1.0]特征选择的百分比。只适用于当selectorType =“百分比”。

setSelectorType ( selectorType:str )pyspark.mllib.feature.ChiSqSelector

ChisqSelector设置选择器类型。支持选项:“numTopFeatures”(默认)、“百分比”、“玻璃钢”、“罗斯福”、“fwe”。