pyspark.sql.DataFrame.groupBy¶
-
DataFrame。
groupBy
( *关口:ColumnOrName )→GroupedData¶ -
组的
DataFrame
使用指定的列,所以我们可以运行聚合。看到GroupedData
对所有可用的聚合函数。groupby ()
是一个别名groupBy ()
。例子
> > >df。groupBy()。avg()。收集()行(avg(年龄)= 3.5)]> > >排序(df。groupBy(“名字”)。gg({“年龄”:“的意思是”})。收集())行(name =“爱丽丝”,avg(年龄)= 2.0)、行(name =“鲍勃”,avg(年龄)= 5.0)]> > >排序(df。groupBy(df。的名字)。avg()。收集())行(name =“爱丽丝”,avg(年龄)= 2.0)、行(name =“鲍勃”,avg(年龄)= 5.0)]> > >排序(df。groupBy([“名字”,df。年龄])。数()。收集())行(name =“爱丽丝”,年龄= 2,count = 1)、行(name =“鲍勃”,年龄= 5,count = 1))