union : 合并
合并变换将两个RDD合并为一个新的RDD,重复的记录不会被剔除。
语法
def union(other: RDD[T]): RDD[T]
参数
- other : 第二个RDD
示例
下面的示例,首先对textFile这个RDD进行一个每行反转的映射变换,获得一个新的RDD,再 将这个新的RDD和原来的RDD:textFile进行合并,最后我们使用count查看一下总记录数:
scala> textFile.map(line=>line.reverse).union(textFile).count() res13: Long = 282
可以看到,合并后的总记录数是原来的2倍。
使用RDD的union方法,可以获得两个RDD的并集!
请使用你创建的textFile变量,与它自身合并,计算最终的记录总数,并保存到变量 countAgain 中。