Apache Spark 互动版

在线工具推荐: Three.js AI纹理开发包 - YOLO合成数据生成器 - GLTF/GLB在线编辑 - 3D模型格式在线转换 - 可编程3D场景编辑器

union : 合并

合并变换将两个RDD合并为一个新的RDD,重复的记录不会被剔除。

语法

def union(other: RDD[T]): RDD[T]

参数

  • other : 第二个RDD

示例

下面的示例,首先对textFile这个RDD进行一个每行反转的映射变换,获得一个新的RDD,再 将这个新的RDD和原来的RDD:textFile进行合并,最后我们使用count查看一下总记录数:

scala> textFile.map(line=>line.reverse).union(textFile).count()
res13: Long = 282    

可以看到,合并后的总记录数是原来的2倍。

使用RDD的union方法,可以获得两个RDD的并集!

请使用你创建的textFile变量,与它自身合并,计算最终的记录总数,并保存到变量 countAgain 中。