pyspark.SparkContext.textFile¶
-
SparkContext。
文本文件
( 的名字:str,minPartitions:可选(int]=没有一个,use_unicode:bool=真正的 )→pyspark.rdd.RDD(str] ¶ -
从HDFS读取一个文本文件,一个本地文件系统(可在所有节点),或任何文件系统Hadoop-supported URI,并返回一个字符串抽样。文本文件必须编码为utf - 8。
如果use_unicode是假的,字符串将被保留str(编码utf - 8),这是更快,小于unicode。(1.2中添加火花)
例子
> > >路径=操作系统。路径。加入(tempdir,“sample-text.txt”)> > >与开放(路径,“w”)作为测试文件:…_=测试文件。写(“Hello world !”)> > >文本文件=sc。文本文件(路径)> > >文本文件。收集()(“Hello world !”)