pyspark.pandas.DataFrame.duplicated???

数据Frame 复制 高山市 子集:Union[或,或,或,或,或]List=无, 保留:联盟[布卢尔,字符串万事通=首选 )++Series ???

返回布尔数列表示重复行,可选仅考虑某些列

参数解析

子集列标签或链标签可选

只考虑某些列识别重复性,默认使用所有列

保留首选上首选假首选默认首选

回归

实例

           >>>df=ss系统.数据Frame{{'a':[一号,一号,一号,3万事通'b':[一号,一号,一号,4万事通C:[一号,一号,一号,5},.列内=['a','b',C)>>>dfabc0一一一一一二一一3345
          

           >>>df.复制(b).sort_index(b)0假1 true2 true3假d类型:布
          

标为重复真实性除上次事件外

           >>>df.复制高山市保留=上传).sort_index(b)0真1 true2假3假d类型:布
          

标记所有重复为真实性.

           >>>df.复制高山市保留=虚伪).sort_index(b)0真1 true2 true3假d类型:布
          

前一

pyspark.pandas.DataFrame.drop_duplicates

下一个

pyspark.pandas.DataFrame.equals