Apache Spark 互动版

在线工具推荐: Three.js AI纹理开发包 - YOLO合成数据生成器 - GLTF/GLB在线编辑 - 3D模型格式在线转换 - 可编程3D场景编辑器

distinct : 剔重

剔重变换剔除RDD中的重复记录,返回一个新的RDD。

语法

def distinct(): RDD[T]

示例

下面的示例将RDD中重复的行剔除,并返回新RDD中的记录数:

scala> textFile.distinct().count()
res20: Long =91

使用RDD的distinct方法,可以进行记录剔重!

请使用你创建的textFile变量,计算所有不重复的单词总数。