pyspark.sql.GroupedData¶
-
类
pyspark.sql。
GroupedData
( jgd:py4j.java_gateway.JavaObject,df:pyspark.sql.dataframe.DataFrame ) ¶ -
一组的聚合方法
DataFrame
,由DataFrame.groupBy ()
。方法
gg
(* exprs)计算聚合并返回结果
DataFrame
。应用
(udf)这是一个别名
pyspark.sql.GroupedData.applyInPandas ()
;然而,它需要一个pyspark.sql.functions.pandas_udf ()
而pyspark.sql.GroupedData.applyInPandas ()
Python本机函数。applyInPandas
(函数模式)地图每组的电流
DataFrame
使用一个熊猫udf和返回结果DataFrame。avg
(*峡路)计算平均值为每组每个数字列。
cogroup
(其他)Cogroups这组与另一组,这样我们可以运行cogrouped操作。
数
()计算每组的数量的记录。
马克斯
(*峡路)计算每个数字列的最大价值为每个组。
的意思是
(*峡路)计算平均值为每组每个数字列。
最小值
(*峡路)计算最小值为每组每个数字列。
主
(pivot_col[、价值观)轴心的一列
DataFrame
并执行指定的聚合。总和
(*峡路)计算每个组每个数字列的总和。