pyspark.RDD.countApproxDistinct

抽样。 countApproxDistinct ( relativeSD:浮动=0.05 )→int

返回近似抽样数量的不同的元素。

参数
relativeSD 浮动,可选

相对精度。较小的值创建计数器,需要更多的空间。它必须大于0.000017。

笔记

使用的算法是基于streamlib实现的“HyperLogLog实践:算法工程先进的基数估计算法”,

例子

> > >n=sc并行化(范围(1000年))地图(str)countApproxDistinct()> > >900年<n<1100年真正的> > >n=sc并行化([%20.范围(1000年)))countApproxDistinct()> > >16<n<24真正的