Apache Spark 互动版

union : 合并

合并变换将两个RDD合并为一个新的RDD,重复的记录不会被剔除。

语法

def union(other: RDD[T]): RDD[T]

参数

  • other : 第二个RDD

示例

下面的示例,首先对textFile这个RDD进行一个每行反转的映射变换,获得一个新的RDD,再 将这个新的RDD和原来的RDD:textFile进行合并,最后我们使用count查看一下总记录数:

scala> textFile.map(line=>line.reverse).union(textFile).count()
res13: Long = 282    

可以看到,合并后的总记录数是原来的2倍。

使用RDD的union方法,可以获得两个RDD的并集!

请使用你创建的textFile变量,与它自身合并,计算最终的记录总数,并保存到变量 countAgain 中。