pyspark.sql.GroupedData

pyspark.sql。 GroupedData ( jgd:py4j.java_gateway.JavaObject,df:pyspark.sql.dataframe.DataFrame )

一组的聚合方法DataFrame,由DataFrame.groupBy ()

方法

gg(* exprs)

计算聚合并返回结果DataFrame

应用(udf)

这是一个别名pyspark.sql.GroupedData.applyInPandas ();然而,它需要一个pyspark.sql.functions.pandas_udf ()pyspark.sql.GroupedData.applyInPandas ()Python本机函数。

applyInPandas(函数模式)

地图每组的电流DataFrame使用一个熊猫udf和返回结果DataFrame

avg(*峡路)

计算平均值为每组每个数字列。

cogroup(其他)

Cogroups这组与另一组,这样我们可以运行cogrouped操作。

()

计算每组的数量的记录。

马克斯(*峡路)

计算每个数字列的最大价值为每个组。

的意思是(*峡路)

计算平均值为每组每个数字列。

最小值(*峡路)

计算最小值为每组每个数字列。

(pivot_col[、价值观)

轴心的一列DataFrame并执行指定的聚合。

总和(*峡路)

计算每个组每个数字列的总和。