pyspark.sql.DataFrame.dropDuplicates???

数据Frame 下拉复制 高山市 子集:可选性[链表[字符串万事通万事通= )→ pyspark.sql.dataframe.DataFrame ???

返回新数据Frame带重复行删除,可选仅考虑某些列

静态批量数据Frame,它只是下降重复行流水线数据Frame中状态保存所有数据跨触发可使用带Watermark ()限制复制数据多晚系统将相应限制状态过晚数据比水印会下降以避免复制的可能性

drop_duplicates()表示别名dropDuplicates().

实例

>>>发自yspark.sql导入行数>>>df=sc.并行化\.行数高山市名称=爱丽丝,岁数=5,高度显示=80)\.行数高山市名称=爱丽丝,岁数=5,高度显示=80)\.行数高山市名称=爱丽丝,岁数=10,高度显示=80).toDF系统(b)>>>df.下拉复制(b).显示显示(b)+-----+---+------++-----+---+------+爱丽丝580爱丽丝1080+-----+---+------+
>>>df.下拉复制名名,高位).显示显示(b)+-----+---+------++-----+---+------+爱丽丝580+-----+---+------+