pyspark.pandas.Index.nunique¶

索引。 nunique ( dropna:bool=真正的,约:bool=假,标准偏差:浮动=0.05 )→int¶

返回对象的独特的元素数量。排除了NA默认值。

参数

dropna bool,默认的真: 不包括南的计数。
约:bool,默认的错误: 如果错误,将使用独特的具体算法和返回的确切数量。如果这是真的,它使用HyperLogLog近似算法,这是大量的数据更快。注意:这个参数是特定于pandas-on-Spark和没有找到熊猫。
相对标准偏差:浮动,默认0.05: 最大估计误差允许在HyperLogLog算法。注意:就像约这个参数是特定于pandas-on-Spark。

返回

另请参阅

例子

           > > >ps。系列([1,2,3,np。南])。nunique()3
          

           > > >ps。系列([1,2,3,np。南])。nunique(dropna=假)4
          

在大数据,我们建议使用的近似算法来加快这个函数。结果将是非常接近的独特的计数。

           > > >ps。系列([1,2,3,np。南])。nunique(约=真正的)3
          

           > > >idx=ps。指数([1,1,2,没有一个])> > >idxFloat64Index((1.0, 1.0, 2.0,南),dtype =“float64”)
          

           > > >idx。nunique()2
          

           > > >idx。nunique(dropna=假)3
          

以前的

pyspark.pandas.Index.unique

下一个

pyspark.pandas.Index.value_counts