pyspark.pandas.concat

pyspark.pandas。 concat ( obj:列表(联盟(pyspark.pandas.frame.DataFrame,pyspark.pandas.series.Series]],:联盟(int,str]=0,加入:str=“外”,ignore_index:bool=,排序:bool= )→联盟(pyspark.pandas.series.Series,pyspark.pandas.frame.DataFrame]

连接pandas-on-Spark物体沿着一个特定的轴与其他组可选逻辑沿轴。

参数
obj 一个系列或DataFrame序列

默默地任何对象都不会被删除,除非他们都没有在这种情况下,将会引发一个ValueError

{0 /“指数”,1 /“列”},默认为0

的轴连接。

加入 {“内”、“外”},默认“外”

如何处理索引在其他轴(或轴)。

ignore_index bool,默认的错误

如果这是真的,不使用索引值沿着连接轴。由此产生的轴将标记为0,…,n - 1所示。这是有用的,如果你是连接对象,连接轴没有意义的索引信息。注意其他轴上的索引值仍然是受人尊敬的加入。

排序 bool,默认的错误

non-concatenation轴如果尚未一致。

返回
对象类型的obj

当连接所有系列沿着指数(轴= 0)系列返回。当obj包含至少一个DataFrame,一个DataFrame返回。当沿着列(轴= 1),连接DataFrame返回。

另请参阅

Series.append

连接系列。

DataFrame.join

加入DataFrames使用索引。

DataFrame.merge

合并DataFrames索引或列。

例子

> > >pyspark.pandas.config进口set_option,reset_option> > >set_option(“compute.ops_on_diff_frames”,真正的)

结合两个系列

> > >s1=ps系列([“一个”,“b”])> > >s2=ps系列([“c”,' d '])> > >psconcat([s1,s2])0一个1 b0 c1 ddtype:对象

明确现有的指数和重置通过设置的结果ignore_index选项真正的

> > >psconcat([s1,s2),ignore_index=真正的)0一个1 b2摄氏度3 ddtype:对象

结合两个DataFrame对象具有相同的列。

> > >df1=psDataFrame([[“一个”,1),(“b”,2]],=(“信”,“数量”])> > >df1字母数字0 11 b 2> > >df2=psDataFrame([[“c”,3),(' d ',4]],=(“信”,“数量”])> > >df2字母数字0 c 31 d 4
> > >psconcat([df1,df2])字母数字0 11 b 20 c 31 d 4

结合DataFrame系列对象与不同的列。

> > >psconcat([df2,s1])字母数字00 c 3.0没有1 d 4.0没有0没有南1没有南b

结合DataFrame对象并返回所有重叠的列。列外的路口将满没有一个值。

> > >df3=psDataFrame([[“c”,3,“猫”),(' d ',4,“狗”]],=(“信”,“数量”,“动物”])> > >df3信动物数量0 c 3只猫1 d 4只狗
> > >psconcat([df1,df3])信动物数量0 1没有1 b 2没有0 c 3只猫1 d 4只狗

对列进行排序。

> > >psconcat([df1,df3),排序=真正的)动物信号码0没有11没有一个b 20猫c 31狗d 4

结合DataFrame对象重叠的列,只返回那些通过共享内心的加入关键字参数。

> > >psconcat([df1,df3),加入=“内心”)字母数字0 11 b 20 c 31 d 4
> > >df4=psDataFrame([[“鸟”,“波利”),(“猴子”,“乔治”]],=(“动物”,“名字”])

结合柱轴。

> > >psconcat([df1,df4),=1)信号动物名称0 1波利鸟1 b 2只猴子乔治
> > >reset_option(“compute.ops_on_diff_frames”)