pyspark.RDD.saveAsHadoopFile¶

抽样。 saveAsHadoopFile ( 路径:str,outputFormatClass:str,keyClass:可选(str]=没有一个,valueClass:可选(str]=没有一个,keyConverter:可选(str]=没有一个,valueConverter:可选(str]=没有一个,相依:可选(Dict(str,str]]=没有一个,compressionCodecClass:可选(str]=没有一个 )→没有¶

输出一个Python抽样的键-值对的形式抽样[(K,V)))任何Hadoop文件系统,使用旧的Hadoop OutputFormat API (mapred包)。键和值类型推断如果不指定。键和值被转换为输出使用用户指定的转换器或“org.apache.spark.api.python.JavaToWritableConverter”。的相依应用基础上配置与Hadoop的SparkContext抽样合并创建一个Hadoop MapReduce任务配置保存数据。

参数

路径 str: Hadoop文件路径
outputFormatClass str: 完全限定类名的Hadoop OutputFormat(例如“org.apache.hadoop.mapred.SequenceFileOutputFormat”)
keyClass str,可选: 关键可写的类的完全限定类名(例如“org.apache.hadoop.io。IntWritable”,默认情况下没有一个)
valueClass str,可选: 价值写的类的完全限定类名(例如“org.apache.hadoop.io。文本”,没有一个默认情况下)
keyConverter str,可选: 完全限定类名关键的转换器(默认情况下没有一个)
valueConverter str,可选: 默认值转换器的完全限定类名(没有)
相依东西,可选: (默认情况下没有一个)
compressionCodecClass str: 压缩编解码器类的完全限定类名即“org.apache.hadoop.io.compress.GzipCodec”(默认情况下没有一个)

以前的

pyspark.RDD.saveAsHadoopDataset

下一个

pyspark.RDD.saveAsNewAPIHadoopDataset