pyspark.pandas.Index.nunique

索引。 nunique ( dropna:bool=真正的,:bool=,标准偏差:浮动=0.05 )→int

返回对象的独特的元素数量。排除了NA默认值。

参数
dropna bool,默认的真

不包括南的计数。

约:bool,默认的错误

如果错误,将使用独特的具体算法和返回的确切数量。如果这是真的,它使用HyperLogLog近似算法,这是大量的数据更快。注意:这个参数是特定于pandas-on-Spark和没有找到熊猫。

相对标准偏差:浮动,默认0.05

最大估计误差允许在HyperLogLog算法。注意:就像这个参数是特定于pandas-on-Spark。

返回
int

另请参阅

DataFrame.nunique

方法对DataFrame nunique。

Series.count

计数non-NA /零系列的观察。

例子

> > >ps系列([1,2,3,np])nunique()3
> > >ps系列([1,2,3,np])nunique(dropna=)4

在大数据,我们建议使用的近似算法来加快这个函数。结果将是非常接近的独特的计数。

> > >ps系列([1,2,3,np])nunique(=真正的)3
> > >idx=ps指数([1,1,2,没有一个])> > >idxFloat64Index((1.0, 1.0, 2.0,南),dtype =“float64”)
> > >idxnunique()2
> > >idxnunique(dropna=)3