pyspark.RDD.countApproxDistinct¶
-
抽样。
countApproxDistinct
( relativeSD:浮动=0.05 )→int¶ -
返回近似抽样数量的不同的元素。
- 参数
-
- relativeSD 浮动,可选
-
相对精度。较小的值创建计数器,需要更多的空间。它必须大于0.000017。
笔记
使用的算法是基于streamlib实现的“HyperLogLog实践:算法工程先进的基数估计算法”,。
例子
> > >n=sc。并行化(范围(1000年))。地图(str)。countApproxDistinct()> > >900年<n<1100年真正的> > >n=sc。并行化([我%20.为我在范围(1000年)))。countApproxDistinct()> > >16<n<24真正的