pyspark.pandas.Series.pipe

系列。 ( 函数:可调用的[[…],任何),*arg游戏:任何,* *kwargs:任何 )→任何

应用函数(自我,* args, * * kwargs)。

参数
函数 函数

函数适用于DataFrame。arg游戏,kwargs传递给函数。另外一个(可调用的,data_keyword)元组,data_keyword是一个字符串显示关键字的可调用的预计DataFrames。

arg游戏 iterable,可选

位置参数传递给函数

kwargs 映射,可选

字典的关键字参数传入函数

返回
对象 的返回类型函数

笔记

使用.pipe当链接在一起的功能期待系列,DataFrames或GroupBy对象。例如,给定

> > >df=psDataFrame({“类别”:(“一个”,“一个”,“B”),“col1”:(1,2,3),“col2”:(4,5,6)},=(“类别”,“col1”,“col2”])> > >defkeep_category_a(df):返回df(df(“类别”]= =“一个”]> > >defadd_one(df,):返回df分配(col3=df(]+1)> > >def(df,column1,column2):返回df分配(col4=df(column1]*df(column2])

而不是写

> > >(add_one(keep_category_a(df),=“col1”),column1=“col2”,column2=“col3”)col1 col2 col3 col4类别0 1 2 4 81 2 5 3 15

你可以写

> > >(df(keep_category_a)(add_one,=“col1”)(,column1=“col2”,column2=“col3”))col1 col2 col3 col4类别0 1 2 4 81 2 5 3 15

如果你有一个函数,将数据作为第二个参数(说),通过一个元组表示关键字预计数据。例如,假设f以数据为df:

> > >defmultiply_2(column1,df,column2):返回df分配(col4=df(column1]*df(column2])

然后你可以写

> > >(df(keep_category_a)(add_one,=“col1”)((multiply_2,“df”),column1=“col2”,column2=“col3”))col1 col2 col3 col4类别0 1 2 4 81 2 5 3 15

您可以使用lambda逢

> > >ps系列([1,2,3])(λx:(x+1)重命名(“价值”))0 21 32 4名称:价值,dtype: int64