pyspark.sql.GroupedData.agg???

分组Data 阿gg 高山市 *exprs:联盟[pyspark.sql.column.Column,离奇图[字符串,字符串万事通万事通 )→ pyspark.sql.dataframe.DataFrame ???

计算汇总并返回结果数据Frame.

可用汇总函数可以有:

内置聚合函数,例如微信,最大值,分钟内,总和,计数
群熊猫UDFspyspark.sql.functions.pandas_udf()

注解

无局部集合群集UDFs,即需要全打乱同时,组内所有数据将装入内存中,用户应了解数据偏斜和某些组太大无法与内存相容时OOM潜在风险

并见

pyspark.sql.functions.pandas_udf()

ifexprs单片插件从字符串逐行映射,然后键取列执行聚合,值归并函数

或选exprs也可以是汇总链表列内表达式

参数解析

exprs 插件: dict映射从列名(字符串)归并函数(字符串)或链表列内.

注解

内置聚合函数和群熊猫UDFs无法单调混合

实例

           >>>gdf=df.组By高山市df.名称)>>>排序高山市gdf.阿gg{{"*":计数}.集合)Row(名称表示Alis',计数(1)=1)Row(名称表示Bob,计数(1)=1)]
          

           >>>发自yspark.sql导入函数类原封F级>>>排序高山市gdf.阿gg高山市F级.分钟内高山市df.岁数).集合)Row(名称表示'Alice',Men-age=2,Row(名称表示'Bob',Men-age=5)
          

           >>>发自pyspark.sql.functions导入熊猫+,PandasUDFYPE>>>Pandas_udf高山市内特,PandasUDFYPE.Grouped-AGG).defmin_udf高山市V级:.返回V级.分钟内(b)>>>排序高山市gdf.阿gg高山市min_udf高山市df.岁数).集合)[Row(name='Alice', min_udf(age)=2), Row(name='Bob', min_udf(age)=5)]
          

前一

分组

下一个

pyspark.sql.GroupedData.apply