pyspark.sql.GroupedData¶

类 pyspark.sql。 GroupedData ( jgd:py4j.java_gateway.JavaObject,df:pyspark.sql.dataframe.DataFrame ) ¶

方法

`gg`(* exprs)	计算聚合并返回结果`DataFrame`。
`应用`(udf)	这是一个别名`pyspark.sql.GroupedData.applyInPandas ()`;然而,它需要一个`pyspark.sql.functions.pandas_udf ()`而`pyspark.sql.GroupedData.applyInPandas ()`Python本机函数。
`applyInPandas`(函数模式)	地图每组的电流`DataFrame`使用一个熊猫udf和返回结果DataFrame。
`avg`(*峡路)	计算平均值为每组每个数字列。
`cogroup`(其他)	Cogroups这组与另一组,这样我们可以运行cogrouped操作。
`数`()	计算每组的数量的记录。
`马克斯`(*峡路)	计算每个数字列的最大价值为每个组。
`的意思是`(*峡路)	计算平均值为每组每个数字列。
`最小值`(*峡路)	计算最小值为每组每个数字列。
`主`(pivot_col[、价值观)	轴心的一列`DataFrame`并执行指定的聚合。
`总和`(*峡路)	计算每个组每个数字列的总和。

以前的

pyspark.sql.Row

下一个

pyspark.sql.PandasCogroupedOps