pyspark.sql.DataFrame.groupBy¶

DataFrame。 groupBy ( *关口:ColumnOrName )→GroupedData¶

组的DataFrame使用指定的列,所以我们可以运行聚合。看到GroupedData对所有可用的聚合函数。

groupby ()是一个别名groupBy ()。

参数

关口列表,str或列: 列组。每个元素应该是一个列名(字符串)或一个表达式(列)。

例子

           > > >df。groupBy()。avg()。收集()行(avg(年龄)= 3.5)]> > >排序(df。groupBy(“名字”)。gg({“年龄”:“的意思是”})。收集())行(name =“爱丽丝”,avg(年龄)= 2.0)、行(name =“鲍勃”,avg(年龄)= 5.0)]> > >排序(df。groupBy(df。的名字)。avg()。收集())行(name =“爱丽丝”,avg(年龄)= 2.0)、行(name =“鲍勃”,avg(年龄)= 5.0)]> > >排序(df。groupBy([“名字”,df。年龄])。数()。收集())行(name =“爱丽丝”,年龄= 2,count = 1)、行(name =“鲍勃”,年龄= 5,count = 1))
          

以前的

pyspark.sql.DataFrame.freqItems

下一个

pyspark.sql.DataFrame.head