pyspark.SparkContext.newAPIHadoopRDD¶

SparkContext。 newAPIHadoopRDD ( inputFormatClass:str,keyClass:str,valueClass:str,keyConverter:可选(str]=没有一个,valueConverter:可选(str]=没有一个,相依:可选(Dict(str,str]]=没有一个,batchSize:int=0 )→pyspark.rdd.RDD(元组(T,U] ] ¶

阅读的新API具有任意键和值的Hadoop InputFormat类,从任意Hadoop配置,这是作为一个Python字典传递这将被转换成Java配置。的机制是一样的SparkContext.sequenceFile ()。

参数

inputFormatClass str: 完全限定类名的Hadoop InputFormat(例如“org.apache.hadoop.mapreduce.lib.input.TextInputFormat”)
keyClass str: 关键可写的类的完全限定类名(例如“org.apache.hadoop.io.Text”)
valueClass str: 价值写的类的完全限定类名(例如“org.apache.hadoop.io.LongWritable”)
keyConverter str,可选: 完全限定名称的函数返回键WritableConverter(默认没有)
valueConverter str,可选: 完全限定名称的函数返回值WritableConverter(默认情况下没有一个)
相依东西,可选: Hadoop的配置,通过传递dict类型(默认情况下没有一个)
batchSize int,可选: Python对象的数量表示为一个Java对象。(默认值0,选择batchSize自动)

以前的

pyspark.SparkContext.newAPIHadoopFile

下一个

pyspark.SparkContext.parallelize