pyspark.pandas.DataFrame.drop_duplicates???
-
数据Frame
下拉复用
高山市 子集:Union[或,或,或,或,或]List=无, 保留:联盟[布卢尔,字符串万事通=首选, 内置:布卢尔=虚伪, 忽略索引:布卢尔=虚伪 )QQ可选 [pyspark.pandas.frame.DataFrame 万事通 ??? -
返回数据Frame并删除重复行,可选择只考虑某些列
- 参数解析
-
- 子集 列标签或链标签可选
-
只考虑某些列识别重复,默认使用所有列
- 保留 首选 上首选 假首选 默认首选
-
确定哪些重复保留(如果有的话)。-
上头
:除第一次事件外重复下降-倒数
:除上次事件外重复下降假名:放弃所有复制件 - 内置 布林默认假
-
置件复制件或返回副本
- 忽略索引 布林默认假
-
if true, 生成轴标签0, 1,.n-
- 回归
-
- 数据Frame
-
DataFrame重复删除或无
place=True
.
>>>df=ss系统.数据Frame高山市.
- ###a#########################
>>>dfab
- 01a
- 一二
- 2a
- 32c
- 4 3d
>>>df.下拉复用(b).sort_index(b)ab
- 01a
- 一二
- 32c
- 4 3d
>>>df.下拉复用高山市忽略索引=真实性).sort_index(b)ab
- 01a
- 一二
- 2c
- 三维
>>>df.下拉复用高山市'a').sort_index(b)ab
- 01a
- 一二
- 4 3d
>>>df.下拉复用〔'a','b').sort_index(b)ab
- 01a
- 一二
- 32c
- 4 3d
>>>df.下拉复用高山市保留=上传).sort_index(b)ab
- 01a
- 2a
- 32c
- 4 3d
>>>df.下拉复用高山市保留=虚伪).sort_index(b)ab
- 01a
- 32c
- 4 3d