pyspark.RDD.saveAsNewAPIHadoopFile¶
-
抽样。
saveAsNewAPIHadoopFile
( 路径:str,outputFormatClass:str,keyClass:可选(str]=没有一个,valueClass:可选(str]=没有一个,keyConverter:可选(str]=没有一个,valueConverter:可选(str]=没有一个,相依:可选(Dict(str,str]]=没有一个 )→没有¶ -
输出一个Python抽样的键-值对的形式
抽样[(K,V))
)任何Hadoop文件系统,使用新的Hadoop OutputFormat API (mapreduce包)。键和值类型推断如果不指定。键和值被转换为输出使用用户指定的转换器或“org.apache.spark.api.python.JavaToWritableConverter”。的相依应用基础上配置与Hadoop的SparkContext抽样合并创建一个Hadoop MapReduce任务配置保存数据。- 路径str
-
Hadoop文件路径
- outputFormatClassstr
-
完全限定类名的Hadoop OutputFormat(例如“org.apache.hadoop.mapreduce.lib.output.SequenceFileOutputFormat”)
- keyClassstr,可选
-
- 关键可写的类的完全限定类名
-
(例如“org.apache.hadoop.io。IntWritable”,默认情况下没有一个)
- valueClassstr,可选
-
价值写的类的完全限定类名(例如“org.apache.hadoop.io。文本”,没有一个默认情况下)
- keyConverterstr,可选
-
完全限定类名关键的转换器(默认情况下没有一个)
- valueConverterstr,可选
-
默认值转换器的完全限定类名(没有)
- 相依东西,可选
-
Hadoop任务配置(默认情况下没有一个)