pyspark.RDD.fullOuterJoin¶
-
抽样。
fullOuterJoin
( 其他:pyspark.rdd.RDD(元组(K,U]],numPartitions:可选(int]=没有一个 )→pyspark.rdd.RDD(元组(K,元组(可选(V] ,可选(U] ] ] ] ¶ -
执行一个右外连接自我和其他。
为每个元素(k、v)自我,由此产生的抽样要么包含所有双(k, v, w) w其他或两人(k, (v,)如果没有元素其他有关键的k。
同样的,对于每一个元素(k, w)其他,由此产生的抽样要么包含所有双(k, v, w) v自我或两人(k,(没有,w))如果没有元素自我有关键的k。
Hash-partitions结果抽样为给定数量的分区。
例子
> > >x=sc。并行化(((“一个”,1),(“b”,4)))> > >y=sc。并行化(((“一个”,2),(“c”,8)))> > >排序(x。fullOuterJoin(y)。收集())[(a (1、2)), (“b”,(没有)),(“c”,(没有,8)))