pyspark.streaming.DStream

pyspark.streaming。 DStream ( jdstream:py4j.java_gateway.JavaObject,ssc:StreamingContext,jrdd_deserializer:序列化器 )

离散流(DStream)的基本抽象引发流,是一个连续的序列抽样(相同类型的)代表一个连续的数据流(见抽样在火花核心文档有关抽样的更多细节)。

DStreams可以创建从实时数据(如TCP套接字、数据等)使用StreamingContext也可以通过改变现有DStreams生成使用等操作地图,窗口reduceByKeyAndWindow。火花流程序运行时,每个DStream定期生成一个抽样,从实时数据或改变父母DStream生成的抽样。

DStreams内部特征是一些基本属性:
  • 其他DStreams DStream取决于列表

  • 一个时间间隔的DStream生成一个抽样

  • 一个函数,用于生成一个抽样后每个时间间隔

方法

缓存()

持续的抽样DStream使用默认存储水平(MEMORY_ONLY)。

检查点(间隔)

使这个DStream周期性的检查点的抽样

cogroup(其他[numPartitions])

返回一个新的DStream运用抽样之间的cogroup DStream和其他DStream。

combineByKey(mergeValue createCombiner…)

返回一个新的DStream运用combineByKey抽样。

上下文()

返回这个DStream StreamingContext

()

返回一个新的DStream每个抽样有单个元素通过计算每个抽样生成DStream。

countByValue()

返回一个新的DStream每个抽样包含项的每个不同的值在每个抽样DStream。

countByValueAndWindow(windowDuration…[…])

返回一个新的DStream每个抽样包含不同元素的计数抽样在这DStream滑动窗口。

countByWindow(windowDuration slideDuration)

返回一个新的DStream每个抽样生成单个元素通过计算元素的数量在一个窗口DStream。

过滤器(f)

返回一个新的DStream只包含的元素满足谓词。

flatMap(f [, preservesPartitioning])

通过应用一个函数返回一个新的DStream DStream的所有元素,然后压扁的结果

flatMapValues(f)

返回一个新的DStream flatmap函数应用到每个键值对的值在这个DStream不改变的关键。

foreachRDD(函数)

一个函数应用于每个DStream抽样。

fullOuterJoin(其他[numPartitions])

返回一个新的DStream运用抽样之间的全外连接DStream和其他DStream。

()

返回一个新的DStream抽样生成通过应用抢DStream()来抽样。

groupByKey([numPartitions])

返回一个新的DStream运用groupByKey抽样。

groupByKeyAndWindow(windowDuration…[…])

返回一个新的DStream通过应用groupByKey滑动窗口。

加入(其他[numPartitions])

返回一个新的DStream通过应用之间的“加入”DStream和抽样其他DStream。

leftOuterJoin(其他[numPartitions])

返回一个新的DStream运用抽样之间的左外连接DStream和其他DStream。

地图(f [, preservesPartitioning])

通过应用一个函数返回一个新的DStream DStream的每个元素。

mapPartitions(f [, preservesPartitioning])

返回一个新的DStream每个抽样生成通过应用mapPartitions DStream每个抽样()。

mapPartitionsWithIndex(f […])

返回一个新的DStream每个抽样生成通过应用mapPartitionsWithIndex DStream每个抽样()。

mapValues(f)

返回一个新的DStream通过应用一个函数映射到值的每一个键值对DStream不改变的关键。

partitionBy(numPartitions [partitionFunc])

返回一个副本的DStream每个抽样分区使用指定的分割者。

坚持(storageLevel)

持续的抽样DStream与给定的存储水平

pprint((num))

打印第一DStream num每个抽样生成的元素。

减少(函数)

返回一个新的DStream每个抽样有单个元素通过减少每个抽样生成DStream。

reduceByKey(函数[numPartitions])

返回一个新的DStream运用reduceByKey抽样。

reduceByKeyAndWindow(invFunc func…[…])

返回一个新的DStream运用增量reduceByKey滑动窗口。

reduceByWindow(invReduceFunc reduceFunc…)

返回一个新的DStream每个抽样生成单个元素通过减少对这个DStream滑动窗口中的所有元素。

重新分区(numPartitions)

返回一个新的DStream增加或减少程度的并行性。

rightOuterJoin(其他[numPartitions])

返回一个新的DStream运用抽样之间的右外连接DStream和其他DStream。

saveAsTextFiles(前缀,后缀)

保存每个抽样在这个DStream文本文件,使用元素的字符串表示。

(开始、结束)

返回所有的抽样之间的“开始”“结束”(包括两个)

变换(函数)

返回一个新的DStream每个抽样生成通过应用一个函数在每个抽样DStream。

transformWith(函数,其他[keepSerializer])

返回一个新的DStream每个抽样生成通过应用一个函数在每个抽样DStream和DStream“其他”。

联盟(其他)

返回一个新的DStream统一数据的另一个DStream DStream。

updateStateByKey(updateFunc […])

返回一个新的“状态”DStream政府为每个关键更新通过给定的函数前的状态和新价值观的关键的关键。

窗口(windowDuration [slideDuration])

返回一个新的DStream每个抽样包含的所有元素在时间滑动窗口中看到这个DStream。