pyspark.sql.GroupedData.agg???
-
分组Data
阿gg
高山市 *exprs:联盟[pyspark.sql.column.Column,离奇图[字符串,字符串万事通万事通 )→ pyspark.sql.dataframe.DataFrame ??? -
计算汇总并返回结果
数据Frame
.可用汇总函数可以有:
内置聚合函数,例如微信,最大值,分钟内,总和,计数
群熊猫UDFs
pyspark.sql.functions.pandas_udf()
注解
无局部集合群集UDFs,即需要全打乱同时,组内所有数据将装入内存中,用户应了解数据偏斜和某些组太大无法与内存相容时OOM潜在风险
if
exprs
单片插件
从字符串逐行映射,然后键取列执行聚合,值归并函数或选
exprs
也可以是汇总链表列内
表达式- 参数解析
-
- exprs 插件
-
dict映射从列名(字符串)归并函数(字符串)或链表
列内
.
注解
内置聚合函数和群熊猫UDFs无法单调混合
实例
>>>gdf=df.组By高山市df.名称)>>>排序高山市gdf.阿gg{{"*":计数}.集合)Row(名称表示Alis',计数(1)=1)Row(名称表示Bob,计数(1)=1)]
>>>发自yspark.sql导入函数类原封F级>>>排序高山市gdf.阿gg高山市F级.分钟内高山市df.岁数).集合)Row(名称表示'Alice',Men-age=2,Row(名称表示'Bob',Men-age=5)
>>>发自pyspark.sql.functions导入熊猫+,PandasUDFYPE>>>Pandas_udf高山市内特,PandasUDFYPE.Grouped-AGG).defmin_udf高山市V级:.返回V级.分钟内(b)>>>排序高山市gdf.阿gg高山市min_udf高山市df.岁数).集合)[Row(name='Alice', min_udf(age)=2), Row(name='Bob', min_udf(age)=5)]