pyspark.pandas.Series.to_csv

系列。 to_csv ( 路径:可选(str]=没有一个,9月:str=”、“,na_rep:str=,:可选(列表(联盟(任何元组[,…]]]]=没有一个,:bool=真正的,quotechar:str=“””,date_format:可选(str]=没有一个,escapechar:可选(str]=没有一个,num_files:可选(int]=没有一个,模式:str=' w ',partition_cols:联盟(str,列表(str),没有一个)=没有一个,index_col:联盟(str,列表(str),没有一个)=没有一个,* *选项:任何 )→可选(str]

对象写入一个逗号分隔值(csv)文件。

请注意

pandas-on-Sparkto_csv写文件路径或URI。不像熊猫,pandas-on-Spark尊重HDFS的财产如“fs.default.name”。

请注意

pandas-on-Spark写道CSV文件目录,路径,写多个部分-…当文件目录路径都是确定的。这种行为是继承Apache火花。文件的数量可以控制的num_files

参数
路径 str,默认没有

文件路径。如果没有提供的结果是作为字符串返回。

9月 str,违约”、“

长度为1的字符串。字段分隔符的输出文件。

na_rep str,默认”

缺失的数据表示。

序列,可选

列写。

bool或str列表,默认正确

写出列名。如果一个字符串列表,它被认为是列名称的别名。

quotechar str,默认的“

长度为1的字符串。字符用于引用字段。

date_format str,默认没有

datetime对象的格式字符串。

escapechar str,默认没有

长度为1的字符串。字符用来逃避9月quotechar在适当的时候。

num_files 编写的文件的数量路径目录时

这是一个路径。

模式 str

Python编写模式,默认的“w”。

请注意

模式可以接受字符串引发写作模式。如“追加”、“覆盖”,“忽略”,“错误”,“errorifexists”。

  • “附加”(相当于“a”):将新数据附加到现有数据。

  • “覆盖”(相当于“w”):覆盖现有的数据。

  • “忽略”:默默地忽略这个操作如果数据已经存在。

  • “错误”或“errorifexists”:抛出一个异常如果数据已经存在。

partition_cols str或列表的str,可选的,默认没有

分区列的名字

index_col: str或str列表,可选的,默认值:没有

列名称用于引发代表pandas-on-Spark指数。的索引名称pandas-on-Spark被忽略。默认情况下,索引总是丢失。

选项:关键字参数特定于PySpark附加选项。

这个特定于PySpark kwargs CSV选项。检查选项PySpark spark.write.csv的API文档(…)。它有更高的优先级和覆盖所有其他选项。这个参数只能当路径都是确定的。

返回
str或没有

例子

> > >df=psDataFrame(dict(日期=列表(pddate_range(“2012-1-1 12:00:00”,=3,频率=“米”)),国家=(“KR”,“我们”,“摩根”),代码=(1,2,3]),=(“日期”,“国家”,“代码”])> > >dfsort_values(通过=“日期”)日期国家代码2012年- - - - - -01- - - - - -31日12:00:00基米-雷克南12012年- - - - - -02- - - - - -29日12:00:00我们22012年- - - - - -03- - - - - -31日12:00:00摩根大通3
> > >打印(dfto_csv())日期、国家代码2012-01-31 12:00:00 KR 1美国2012-02-29 12:00:00 22012-03-31 12:00:00 JP 3
> > >dfcummax()to_csv(路径=r% s/ to_csv foo.csv”%路径,num_files=1)> > >psread_csv(路径=r% s/ to_csv foo.csv”%路径)sort_values(通过=“日期”)日期国家代码2012年- - - - - -01- - - - - -31日12:00:00基米-雷克南12012年- - - - - -02- - - - - -29日12:00:00我们22012年- - - - - -03- - - - - -31日12:00:00我们3

系列,

> > >打印(df日期to_csv())日期2012-01-31 12:00:002012-02-29 12:00:002012-03-31 12:00:00
> > >df日期to_csv(路径=r% s/ to_csv foo.csv”%路径,num_files=1)> > >psread_csv(路径=r% s/ to_csv foo.csv”%路径)sort_values(通过=“日期”)日期2012年- - - - - -01- - - - - -31日12:00:002012年- - - - - -02- - - - - -29日12:00:002012年- - - - - -03- - - - - -31日12:00:00

你可以保留指数往返如下。

> > >dfset_index(“国家”,附加=真正的,原地=真正的)> > >df日期to_csv(路径=r% s/ to_csv bar.csv”%路径,num_files=1,index_col=(“index1”,“index2”])> > >psread_csv(路径=r% s/ to_csv bar.csv”%路径,index_col=(“index1”,“index2”])sort_values(通过=“日期”)日期index1 index22012年- - - - - -01- - - - - -31日12:00:002012年- - - - - -02- - - - - -29日12:00:002012年- - - - - -03- - - - - -31日12:00:00