pyspark.RDD.saveAsHadoopFile¶
-
抽样。
saveAsHadoopFile
( 路径:str,outputFormatClass:str,keyClass:可选(str]=没有一个,valueClass:可选(str]=没有一个,keyConverter:可选(str]=没有一个,valueConverter:可选(str]=没有一个,相依:可选(Dict(str,str]]=没有一个,compressionCodecClass:可选(str]=没有一个 )→没有¶ -
输出一个Python抽样的键-值对的形式
抽样[(K,V))
)任何Hadoop文件系统,使用旧的Hadoop OutputFormat API (mapred包)。键和值类型推断如果不指定。键和值被转换为输出使用用户指定的转换器或“org.apache.spark.api.python.JavaToWritableConverter”。的相依应用基础上配置与Hadoop的SparkContext抽样合并创建一个Hadoop MapReduce任务配置保存数据。- 参数
-
- 路径 str
-
Hadoop文件路径
- outputFormatClass str
-
完全限定类名的Hadoop OutputFormat(例如“org.apache.hadoop.mapred.SequenceFileOutputFormat”)
- keyClass str,可选
-
关键可写的类的完全限定类名(例如“org.apache.hadoop.io。IntWritable”,默认情况下没有一个)
- valueClass str,可选
-
价值写的类的完全限定类名(例如“org.apache.hadoop.io。文本”,没有一个默认情况下)
- keyConverter str,可选
-
完全限定类名关键的转换器(默认情况下没有一个)
- valueConverter str,可选
-
默认值转换器的完全限定类名(没有)
- 相依 东西,可选
-
(默认情况下没有一个)
- compressionCodecClass str
-
压缩编解码器类的完全限定类名即“org.apache.hadoop.io.compress.GzipCodec”(默认情况下没有一个)