distinct : 剔重
剔重变换剔除RDD中的重复记录,返回一个新的RDD。
语法
def distinct(): RDD[T]
示例
下面的示例将RDD中重复的行剔除,并返回新RDD中的记录数:
scala> textFile.distinct().count() res20: Long =91
使用RDD的distinct方法,可以进行记录剔重!
请使用你创建的textFile变量,计算所有不重复的单词总数。
剔重变换剔除RDD中的重复记录,返回一个新的RDD。
语法
def distinct(): RDD[T]
示例
下面的示例将RDD中重复的行剔除,并返回新RDD中的记录数:
scala> textFile.distinct().count() res20: Long =91
使用RDD的distinct方法,可以进行记录剔重!