pyspark.sql.DataFrame.groupBy

DataFrame。 groupBy ( *关口:ColumnOrName )→GroupedData

组的DataFrame使用指定的列,所以我们可以运行聚合。看到GroupedData对所有可用的聚合函数。

groupby ()是一个别名groupBy ()

参数
关口 列表,str或

列组。每个元素应该是一个列名(字符串)或一个表达式()。

例子

> > >dfgroupBy()avg()收集()行(avg(年龄)= 3.5)]> > >排序(dfgroupBy(“名字”)gg({“年龄”:“的意思是”})收集())行(name =“爱丽丝”,avg(年龄)= 2.0)、行(name =“鲍勃”,avg(年龄)= 5.0)]> > >排序(dfgroupBy(df的名字)avg()收集())行(name =“爱丽丝”,avg(年龄)= 2.0)、行(name =“鲍勃”,avg(年龄)= 5.0)]> > >排序(dfgroupBy([“名字”,df年龄])()收集())行(name =“爱丽丝”,年龄= 2,count = 1)、行(name =“鲍勃”,年龄= 5,count = 1))