pyspark.RDD.histogram

抽样。 柱状图 ( :联盟[int、列表[S]元组[,…]] )→元组(序列(年代] ,列表(int] ]

使用提供的桶计算直方图。右边的桶都是开放除了最后关闭。如(1、10、20、50)意味着桶(10)(10、20)(20、50),这意味着1 < = x < 10、10 < = x < 20日20 < = x < = 50。和1的输入和50我们会有一个柱状图1,0,1。

如果你的直方图均匀间隔的(如[0,10年,20年,30]),这可以切换从一个O (log n)插入到O(1)每个元素(其中n是桶的数量)。

桶必须进行排序,不包含任何副本,至少有两个元素。

如果是一个数字,它将生成桶是均匀间隔的最小值和最大值之间的抽样。例如,如果最小值为0,最大是100,2,由此产生的桶将[0,50)[50100]。必须至少1。会抛出一个异常如果抽样包含无穷。如果抽样中的元素没有变化(max = = min),将使用一个桶。

返回值是一个元组的水桶,直方图。

例子

> > >抽样=sc并行化(范围(51))> > >抽样柱状图(2)([0、25、50],[25,26])> > >抽样柱状图([0,5,25,50])([0、5、25、50],[26]5,20日)> > >抽样柱状图([0,15,30.,45,60])#等间距的桶45([0,15日,30日,60],[6]15日,15日,15日)> > >抽样=sc并行化([“ab”,“交流”,“b”,“bd”,“英孚”])> > >抽样柱状图((“一个”,“b”,“c”))((a, b, c), (2, 2))