pyspark.pandas.concat¶

pyspark.pandas。 concat ( obj:列表(联盟(pyspark.pandas.frame.DataFrame,pyspark.pandas.series.Series]],轴:联盟(int,str]=0,加入:str=“外”,ignore_index:bool=假,排序:bool=假 )→联盟(pyspark.pandas.series.Series,pyspark.pandas.frame.DataFrame] ¶

连接pandas-on-Spark物体沿着一个特定的轴与其他组可选逻辑沿轴。

参数

obj 一个系列或DataFrame序列: 默默地任何对象都不会被删除,除非他们都没有在这种情况下,将会引发一个ValueError
轴 {0 /“指数”,1 /“列”},默认为0: 的轴连接。
加入 {“内”、“外”},默认“外”: 如何处理索引在其他轴(或轴)。
ignore_index bool,默认的错误: 如果这是真的,不使用索引值沿着连接轴。由此产生的轴将标记为0,…,n - 1所示。这是有用的,如果你是连接对象,连接轴没有意义的索引信息。注意其他轴上的索引值仍然是受人尊敬的加入。
排序 bool,默认的错误: non-concatenation轴如果尚未一致。

返回

对象类型的obj: 当连接所有系列沿着指数(轴= 0)系列返回。当obj包含至少一个DataFrame,一个DataFrame返回。当沿着列(轴= 1),连接DataFrame返回。

另请参阅

Series.append: 连接系列。
DataFrame.join: 加入DataFrames使用索引。
DataFrame.merge: 合并DataFrames索引或列。

例子

           > > >从pyspark.pandas.config进口set_option,reset_option> > >set_option(“compute.ops_on_diff_frames”,真正的)
          

结合两个系列。

           > > >s1=ps。系列([“一个”,“b”])> > >s2=ps。系列([“c”,' d '])> > >ps。concat([s1,s2])0一个1 b0 c1 ddtype:对象
          

明确现有的指数和重置通过设置的结果ignore_index选项真正的。

           > > >ps。concat([s1,s2),ignore_index=真正的)0一个1 b2摄氏度3 ddtype:对象
          

结合两个DataFrame对象具有相同的列。

           > > >df1=ps。DataFrame([[“一个”,1),(“b”,2]],…列=(“信”,“数量”])> > >df1字母数字0 11 b 2> > >df2=ps。DataFrame([[“c”,3),(' d ',4]],…列=(“信”,“数量”])> > >df2字母数字0 c 31 d 4
          

           > > >ps。concat([df1,df2])字母数字0 11 b 20 c 31 d 4
          

结合DataFrame和系列对象与不同的列。

           > > >ps。concat([df2,s1])字母数字00 c 3.0没有1 d 4.0没有0没有南1没有南b
          

结合DataFrame对象并返回所有重叠的列。列外的路口将满没有一个值。

           > > >df3=ps。DataFrame([[“c”,3,“猫”),(' d ',4,“狗”]],…列=(“信”,“数量”,“动物”])> > >df3信动物数量0 c 3只猫1 d 4只狗
          

           > > >ps。concat([df1,df3])信动物数量0 1没有1 b 2没有0 c 3只猫1 d 4只狗
          

对列进行排序。

           > > >ps。concat([df1,df3),排序=真正的)动物信号码0没有11没有一个b 20猫c 31狗d 4
          

结合DataFrame对象重叠的列,只返回那些通过共享内心的到加入关键字参数。

           > > >ps。concat([df1,df3),加入=“内心”)字母数字0 11 b 20 c 31 d 4
          

           > > >df4=ps。DataFrame([[“鸟”,“波利”),(“猴子”,“乔治”]],…列=(“动物”,“名字”])
          

结合柱轴。

           > > >ps。concat([df1,df4),轴=1)信号动物名称0 1波利鸟1 b 2只猴子乔治
          

           > > >reset_option(“compute.ops_on_diff_frames”)
          

以前的

pyspark.pandas.get_dummies

下一个

pyspark.pandas.sql