Apache Spark 互动版

在线工具推荐: Three.js AI纹理开发包 - YOLO合成数据生成器 - GLTF/GLB在线编辑 - 3D模型格式在线转换 - 可编程3D场景编辑器

filter : 过滤

过滤变换使用一个筛选函数对RDD中的每个记录进行筛选,只有筛选函数返回真值的记录,才 被选中用来构造新的RDD。

语法

def filter(f: (T) => Boolean): RDD[T]

参数

  • f : 筛选函数 , 输入参数为原RDD中的一个元素,返回值为True或False 。

示例

下面的示例仅保留原RDD中字符数多于20个的记录(行),获得一个新的RDD,然后取回第一个 记录查看:

scala> textFile.filter(line=>line.length>20).first()
res20: String = Spark is a fast and generic ...

使用RDD的filter方法筛选想要的记录!

请使用你创建的textFile变量,返回所有长度不超过5的单词,保存到变量 Word5 中。