pyspark.streaming.DStream.countByValueAndWindow

DStream。 countByValueAndWindow ( windowDuration:int,slideDuration:int,numPartitions:可选(int]=没有一个 )→pyspark.streaming.dstream.DStream(元组(T,int] ]

返回一个新的DStream每个抽样包含不同元素的计数抽样在这DStream滑动窗口。

参数
windowDuration int

窗口的宽度;必须是一个多个DStream的批处理区间

slideDuration int

滑动窗口的时间间隔(即。,the interval after which the new DStream will generate RDDs); must be a multiple of this DStream’s batching interval

numPartitions int,可选

分区数量的每个新DStream抽样。