pyspark.SparkContext.hadoopFile¶
-
SparkContext。
hadoopFile
( 路径:str,inputFormatClass:str,keyClass:str,valueClass:str,keyConverter:可选(str]=没有一个,valueConverter:可选(str]=没有一个,相依:可选(Dict(str,str]]=没有一个,batchSize:int=0 )→pyspark.rdd.RDD(元组(T,U] ] ¶ -
读一个“老”具有任意键和值的Hadoop InputFormat类HDFS,本地文件系统(可在所有节点),或任何文件系统Hadoop-supported URI。的机制是一样的
SparkContext.sequenceFile ()
。Hadoop的配置可以通过Python字典这将被转换成Java配置。
- 路径str
-
Hadoop文件路径
- inputFormatClassstr
-
完全限定类名的Hadoop InputFormat(例如“org.apache.hadoop.mapreduce.lib.input.TextInputFormat”)
- keyClassstr
-
关键可写的类的完全限定类名(例如“org.apache.hadoop.io.Text”)
- valueClassstr
-
价值写的类的完全限定类名(例如“org.apache.hadoop.io.LongWritable”)
- keyConverterstr,可选
-
完全限定名称的函数返回键WritableConverter(默认没有)
- valueConverterstr,可选
-
完全限定名称的函数返回值WritableConverter(默认情况下没有一个)
- 相依东西,可选
-
Hadoop的配置,通过传递dict类型(默认情况下没有一个)
- batchSizeint,可选
-
Python对象的数量表示为一个Java对象。(默认值0,选择batchSize自动)