pyspark.pandas.Series.to_csv¶
-
系列。
to_csv
( 路径:可选(str]=没有一个,9月:str=”、“,na_rep:str=”,列:可选(列表(联盟(任何元组[,…]]]]=没有一个,头:bool=真正的,quotechar:str=“””,date_format:可选(str]=没有一个,escapechar:可选(str]=没有一个,num_files:可选(int]=没有一个,模式:str=' w ',partition_cols:联盟(str,列表(str),没有一个)=没有一个,index_col:联盟(str,列表(str),没有一个)=没有一个,* *选项:任何 )→可选(str] ¶ -
对象写入一个逗号分隔值(csv)文件。
请注意
pandas-on-Sparkto_csv写文件路径或URI。不像熊猫,pandas-on-Spark尊重HDFS的财产如“fs.default.name”。
请注意
pandas-on-Spark写道CSV文件目录,路径,写多个部分-…当文件目录路径都是确定的。这种行为是继承Apache火花。文件的数量可以控制的num_files。
- 参数
-
- 路径 str,默认没有
-
文件路径。如果没有提供的结果是作为字符串返回。
- 9月 str,违约”、“
-
长度为1的字符串。字段分隔符的输出文件。
- na_rep str,默认”
-
缺失的数据表示。
- 列 序列,可选
-
列写。
- 头 bool或str列表,默认正确
-
写出列名。如果一个字符串列表,它被认为是列名称的别名。
- quotechar str,默认的“
-
长度为1的字符串。字符用于引用字段。
- date_format str,默认没有
-
datetime对象的格式字符串。
- escapechar str,默认没有
-
长度为1的字符串。字符用来逃避9月和quotechar在适当的时候。
- num_files 编写的文件的数量路径目录时
-
这是一个路径。
- 模式 str
-
Python编写模式,默认的“w”。
请注意
模式可以接受字符串引发写作模式。如“追加”、“覆盖”,“忽略”,“错误”,“errorifexists”。
“附加”(相当于“a”):将新数据附加到现有数据。
“覆盖”(相当于“w”):覆盖现有的数据。
“忽略”:默默地忽略这个操作如果数据已经存在。
“错误”或“errorifexists”:抛出一个异常如果数据已经存在。
- partition_cols str或列表的str,可选的,默认没有
-
分区列的名字
- index_col: str或str列表,可选的,默认值:没有
-
列名称用于引发代表pandas-on-Spark指数。的索引名称pandas-on-Spark被忽略。默认情况下,索引总是丢失。
- 选项:关键字参数特定于PySpark附加选项。
-
这个特定于PySpark kwargs CSV选项。检查选项PySpark spark.write.csv的API文档(…)。它有更高的优先级和覆盖所有其他选项。这个参数只能当路径都是确定的。
- 返回
-
- str或没有
例子
> > >df=ps。DataFrame(dict(…日期=列表(pd。date_range(“2012-1-1 12:00:00”,期=3,频率=“米”)),…国家=(“KR”,“我们”,“摩根”),…代码=(1,2,3]),列=(“日期”,“国家”,“代码”])> > >df。sort_values(通过=“日期”)日期国家代码…2012年- - - - - -01- - - - - -31日12:00:00基米-雷克南1…2012年- - - - - -02- - - - - -29日12:00:00我们2…2012年- - - - - -03- - - - - -31日12:00:00摩根大通3
> > >打印(df。to_csv())日期、国家代码2012-01-31 12:00:00 KR 1美国2012-02-29 12:00:00 22012-03-31 12:00:00 JP 3
> > >df。cummax()。to_csv(路径=r”% s/ to_csv foo.csv”%路径,num_files=1)> > >ps。read_csv(…路径=r”% s/ to_csv foo.csv”%路径…)。sort_values(通过=“日期”)日期国家代码…2012年- - - - - -01- - - - - -31日12:00:00基米-雷克南1…2012年- - - - - -02- - - - - -29日12:00:00我们2…2012年- - - - - -03- - - - - -31日12:00:00我们3
系列,
> > >打印(df。日期。to_csv())日期2012-01-31 12:00:002012-02-29 12:00:002012-03-31 12:00:00
> > >df。日期。to_csv(路径=r”% s/ to_csv foo.csv”%路径,num_files=1)> > >ps。read_csv(…路径=r”% s/ to_csv foo.csv”%路径…)。sort_values(通过=“日期”)日期…2012年- - - - - -01- - - - - -31日12:00:00…2012年- - - - - -02- - - - - -29日12:00:00…2012年- - - - - -03- - - - - -31日12:00:00
你可以保留指数往返如下。
> > >df。set_index(“国家”,附加=真正的,原地=真正的)> > >df。日期。to_csv(…路径=r”% s/ to_csv bar.csv”%路径,…num_files=1,…index_col=(“index1”,“index2”])> > >ps。read_csv(…路径=r”% s/ to_csv bar.csv”%路径,index_col=(“index1”,“index2”]…)。sort_values(通过=“日期”)日期index1 index2……2012年- - - - - -01- - - - - -31日12:00:00……2012年- - - - - -02- - - - - -29日12:00:00……2012年- - - - - -03- - - - - -31日12:00:00