Apache Spark 互动版

distinct : 剔重

剔重变换剔除RDD中的重复记录,返回一个新的RDD。

语法

def distinct(): RDD[T]

示例

下面的示例将RDD中重复的行剔除,并返回新RDD中的记录数:

scala> textFile.distinct().count()
res20: Long =91

使用RDD的distinct方法,可以进行记录剔重!

请使用你创建的textFile变量,计算所有不重复的单词总数。