pyspark.pandas.DataFrame.duplicated???

数据Frame 复制 高山市 子集:Union[或,或,或,或,或]List=, 保留:联盟[布卢尔,字符串万事通=首选 )++Series ???

返回布尔数列表示重复行,可选仅考虑某些列

参数解析
子集 列标签或链标签可选

只考虑某些列识别重复性,默认使用所有列

保留 首选 上首选 假首选 默认首选
  • 上头:将重复标为真实性除第一次事件外

  • 倒数:将重复标为真实性除上次事件外

  • 假名:标记所有重复为真实性.

回归
复制 串行

实例

>>>df=ss系统.数据Frame{{'a':[一号,一号,一号,3万事通'b':[一号,一号,一号,4万事通C:[一号,一号,一号,5},.列内=['a','b',C)>>>dfabc0一一一一一二一一3345
>>>df.复制(b).sort_index(b)0假1 true2 true3假d类型:布

标为重复真实性除上次事件外

>>>df.复制高山市保留=上传).sort_index(b)0真1 true2假3假d类型:布

标记所有重复为真实性.

>>>df.复制高山市保留=虚伪).sort_index(b)0真1 true2 true3假d类型:布