pyspark.streaming.DStream.reduceByKeyAndWindow

DStream。 reduceByKeyAndWindow ( 函数:可调用的((V,V],V],invFunc:可选(可调用的((V,V],V]],windowDuration:int,slideDuration:可选(int]=没有一个,numPartitions:可选(int]=没有一个,filterFunc:可选(可调用的((元组(K,V]],bool]]=没有一个 )→pyspark.streaming.dstream.DStream(元组(K,V] ]

返回一个新的DStream运用增量reduceByKey滑动窗口。

在一个新窗口的值计算使用老窗口的减少值:
  1. 减少进入的新值窗口(例如,添加新项)

  2. “逆减少”离开了窗口的旧值(例如,减去旧计数)

invFunc可以没有,那么它将降低窗口中的所有抽样,可以低于拥有的invFunc

参数
函数 函数

联想和交换减少功能

invFunc 函数

逆函数的reduceFunc

windowDuration int

窗口的宽度;必须是一个多个DStream的批处理区间

slideDuration int,可选

滑动窗口的时间间隔(即。,the interval after which the new DStream will generate RDDs); must be a multiple of this DStream’s batching interval

numPartitions int,可选

分区数量的每个新DStream抽样。

filterFunc 功能,可选

功能键值来过滤过期;只保留对满足函数设置为null如果你不想过滤器