pyspark.SparkContext.textFile

SparkContext。 文本文件 ( 的名字:str,minPartitions:可选(int]=没有一个,use_unicode:bool=真正的 )→pyspark.rdd.RDD(str]

从HDFS读取一个文本文件,一个本地文件系统(可在所有节点),或任何文件系统Hadoop-supported URI,并返回一个字符串抽样。文本文件必须编码为utf - 8。

如果use_unicode是假的,字符串将被保留str(编码utf - 8),这是更快,小于unicode。(1.2中添加火花)

例子

> > >路径=操作系统路径加入(tempdir,“sample-text.txt”)> > >开放(路径,“w”)作为测试文件:_=测试文件(“Hello world !”)> > >文本文件=sc文本文件(路径)> > >文本文件收集()(“Hello world !”)