pyspark.pandas.DataFrame.duplicated???
-
数据Frame
复制
高山市 子集:Union[或,或,或,或,或]List=无, 保留:联盟[布卢尔,字符串万事通=首选 )++Series ??? -
返回布尔数列表示重复行,可选仅考虑某些列
- 参数解析
-
- 子集 列标签或链标签可选
-
只考虑某些列识别重复性,默认使用所有列
- 保留 首选 上首选 假首选 默认首选
-
上头
:将重复标为真实性
除第一次事件外倒数
:将重复标为真实性
除上次事件外假名:标记所有重复为
真实性
.
- 回归
-
- 复制 串行
实例
>>>df=ss系统.数据Frame{{'a':[一号,一号,一号,3万事通'b':[一号,一号,一号,4万事通C:[一号,一号,一号,5},.列内=['a','b',C)>>>dfabc0一一一一一二一一3345
>>>df.复制(b).sort_index(b)0假1 true2 true3假d类型:布
标为重复
真实性
除上次事件外>>>df.复制高山市保留=上传).sort_index(b)0真1 true2假3假d类型:布
标记所有重复为
真实性
.>>>df.复制高山市保留=虚伪).sort_index(b)0真1 true2 true3假d类型:布