pyspark.pandas.DataFrame.pivot_table???
-
数据Frame
分流表
高山市 传值:Union[或,或,或,或,或]List=无, 索引化:可选性[listi=无, 列内:Union[=无, aggunc:Unity[str,Dict]=表示式, 填值:可选性[任选万事通=无 )→ pyspark.pandas.frame.DataFrame ??? -
创建电子表格式支流表分位表中的层次将存储到结果DataFrame索引和列多分位对象中
- 参数解析
-
- 传值 列汇总
-
取列表小三或字符串
- 索引化 列(string)或列列表
-
数组传递时,长度必须与数据相同列表应包含字符串
- 列内 列内
-
列轴操作使用只有一个列支持,它应该是字符串
- aggunc 函数(string)、dict、默认平均值
-
ifdict传递时,键为列集值和函数或链表函数
- 填值 标量默认无
-
值替换缺失值
- 回归
-
- 表格显示 数据Frame
实例
>>>df=ss系统.数据Frame{{A级:["foo","foo","foo","foo","foo",.栏名,栏名,栏名,栏名万事通.B级:[一号,一号,一号,二,二,.一号,一号,二,二万事通.C类:[小点声,大号,大号,小点声,.小点声,大号,小点声,小点声,.大号万事通.D级:[一号,2,2,3,3,4,5,6,7万事通.E类:[2,4,5,5,6,6,8,九九,九九},.列内=[A级,B,C级,D,E)>>>dfBCDE0fo一小121fo一大24二叉一大二五3FO二小35四叉二小三六5巴一大466巴一小587巴2小698巴2大79
第一个例子通过取和汇总值
>>>表格显示=df.分流表高山市传值=D,索引化=[A级,B万事通.列内=C级,aggunc=sum)>>>表格显示.sort_index(b)C大小AB栏一4.05二7.06foo一4.0二 NaN 6
并用缺失值填充填值参数化
>>>表格显示=df.分流表高山市传值=D,索引化=[A级,B万事通.列内=C级,aggunc=sum,填值=0)>>>表格显示.sort_index(b)C大小AB栏一45二七六福一四一二零六
并计算多类聚合值
>>>表格显示=df.分流表高山市传值=[D万事通索引化=[C级万事通.列内=A级,aggunc={{D:表示式}>>>表格显示.sort_index(b)D级条形网C级大型5.52000小型5.5 2.3333
下例聚合多重值
>>>表格显示=df.分流表高山市索引化=[C级万事通列内=A级,传值=[D,E万事通.aggunc={{D:表示式,E:sum}>>>表格显示.sort_index(b)DE级aboobaC级大型5.52000159小型 5.5 2.3333 17 13