pyspark.streaming.DStream.groupByKeyAndWindow

DStream。 groupByKeyAndWindow ( windowDuration:int,slideDuration:int,numPartitions:可选(int]=没有一个 )→pyspark.streaming.dstream.DStream(元组(K,Iterable(V] ] ]

返回一个新的DStream通过应用groupByKey滑动窗口。类似于DStream.groupByKey (),但它适用于滑动窗口。

参数
windowDuration int

窗口的宽度;必须是一个多个DStream的批处理区间

slideDuration int

滑动窗口的时间间隔(即。,the interval after which the new DStream will generate RDDs); must be a multiple of this DStream’s batching interval

numPartitions int,可选

分区数量的每个新DStream抽样。