pyspark.pandas.concat¶
-
pyspark.pandas。
concat
( obj:列表(联盟(pyspark.pandas.frame.DataFrame,pyspark.pandas.series.Series]],轴:联盟(int,str]=0,加入:str=“外”,ignore_index:bool=假,排序:bool=假 )→联盟(pyspark.pandas.series.Series,pyspark.pandas.frame.DataFrame] ¶ -
连接pandas-on-Spark物体沿着一个特定的轴与其他组可选逻辑沿轴。
- 参数
-
- obj 一个系列或DataFrame序列
-
默默地任何对象都不会被删除,除非他们都没有在这种情况下,将会引发一个ValueError
- 轴 {0 /“指数”,1 /“列”},默认为0
-
的轴连接。
- 加入 {“内”、“外”},默认“外”
-
如何处理索引在其他轴(或轴)。
- ignore_index bool,默认的错误
-
如果这是真的,不使用索引值沿着连接轴。由此产生的轴将标记为0,…,n - 1所示。这是有用的,如果你是连接对象,连接轴没有意义的索引信息。注意其他轴上的索引值仍然是受人尊敬的加入。
- 排序 bool,默认的错误
-
non-concatenation轴如果尚未一致。
- 返回
-
- 对象类型的obj
-
当连接所有
系列
沿着指数(轴= 0)系列
返回。当obj
包含至少一个DataFrame
,一个DataFrame
返回。当沿着列(轴= 1),连接DataFrame
返回。
另请参阅
-
Series.append
-
连接系列。
-
DataFrame.join
-
加入DataFrames使用索引。
-
DataFrame.merge
-
合并DataFrames索引或列。
例子
> > >从pyspark.pandas.config进口set_option,reset_option> > >set_option(“compute.ops_on_diff_frames”,真正的)
结合两个
系列
。> > >s1=ps。系列([“一个”,“b”])> > >s2=ps。系列([“c”,' d '])> > >ps。concat([s1,s2])0一个1 b0 c1 ddtype:对象
明确现有的指数和重置通过设置的结果
ignore_index
选项真正的
。> > >ps。concat([s1,s2),ignore_index=真正的)0一个1 b2摄氏度3 ddtype:对象
结合两个
DataFrame
对象具有相同的列。> > >df1=ps。DataFrame([[“一个”,1),(“b”,2]],…列=(“信”,“数量”])> > >df1字母数字0 11 b 2> > >df2=ps。DataFrame([[“c”,3),(' d ',4]],…列=(“信”,“数量”])> > >df2字母数字0 c 31 d 4
> > >ps。concat([df1,df2])字母数字0 11 b 20 c 31 d 4
结合
DataFrame
和系列
对象与不同的列。> > >ps。concat([df2,s1])字母数字00 c 3.0没有1 d 4.0没有0没有南1没有南b
结合
DataFrame
对象并返回所有重叠的列。列外的路口将满没有一个
值。> > >df3=ps。DataFrame([[“c”,3,“猫”),(' d ',4,“狗”]],…列=(“信”,“数量”,“动物”])> > >df3信动物数量0 c 3只猫1 d 4只狗
> > >ps。concat([df1,df3])信动物数量0 1没有1 b 2没有0 c 3只猫1 d 4只狗
对列进行排序。
> > >ps。concat([df1,df3),排序=真正的)动物信号码0没有11没有一个b 20猫c 31狗d 4
结合
DataFrame
对象重叠的列,只返回那些通过共享内心的
到加入
关键字参数。> > >ps。concat([df1,df3),加入=“内心”)字母数字0 11 b 20 c 31 d 4
> > >df4=ps。DataFrame([[“鸟”,“波利”),(“猴子”,“乔治”]],…列=(“动物”,“名字”])
结合柱轴。
> > >ps。concat([df1,df4),轴=1)信号动物名称0 1波利鸟1 b 2只猴子乔治
> > >reset_option(“compute.ops_on_diff_frames”)