Apache Spark 互动版

intersection : 相交

相交变换仅取两个RDD共同的记录,构造一个新的RDD。

语法

def intersection(other: RDD[T]): RDD[T]

参数

  • other : 第二个RDD

示例

下面的示例将每个记录进行逆转后的RDD与原RDD相交,获得一个新的RDD,我们使用collect回收全部 数据以便显示:

scala> textFile.map(line=>line.reverse).intersection(textFile).collect()
res27: Array[String] =Array("   ","")

可以看到,只有空行被保留下来,因为空行的逆序保持不变。

使用RDD的intersection方法,可以获得两个RDD的交集!

请使用你创建的textFile变量,与它自身相交,计算最终的记录总数。