分组

GroupedData.agg(* exprs)

计算聚合并返回结果DataFrame

GroupedData.apply(udf)

这是一个别名pyspark.sql.GroupedData.applyInPandas ();然而,它需要一个pyspark.sql.functions.pandas_udf ()pyspark.sql.GroupedData.applyInPandas ()Python本机函数。

GroupedData.applyInPandas(函数模式)

地图每组的电流DataFrame使用一个熊猫udf和返回结果DataFrame

GroupedData.avg(*峡路)

计算平均值为每组每个数字列。

GroupedData.cogroup(其他)

Cogroups这组与另一组,这样我们可以运行cogrouped操作。

GroupedData.count()

计算每组的数量的记录。

GroupedData.max(*峡路)

计算每个数字列的最大价值为每个组。

GroupedData.mean(*峡路)

计算平均值为每组每个数字列。

GroupedData.min(*峡路)

计算最小值为每组每个数字列。

GroupedData.pivot(pivot_col[、价值观)

轴心的一列DataFrame并执行指定的聚合。

GroupedData.sum(*峡路)

计算每个组每个数字列的总和。

PandasCogroupedOps.applyInPandas(函数模式)

一个函数适用于每个cogroup使用熊猫和返回结果DataFrame