filter : 过滤
过滤变换使用一个筛选函数对RDD中的每个记录进行筛选,只有筛选函数返回真值的记录,才 被选中用来构造新的RDD。
语法
def filter(f: (T) => Boolean): RDD[T]
参数
- f : 筛选函数 , 输入参数为原RDD中的一个元素,返回值为True或False 。
示例
下面的示例仅保留原RDD中字符数多于20个的记录(行),获得一个新的RDD,然后取回第一个 记录查看:
scala> textFile.filter(line=>line.length>20).first() res20: String = Spark is a fast and generic ...
使用RDD的filter方法筛选想要的记录!
请使用你创建的textFile变量,返回所有长度不超过5的单词,保存到变量 Word5 中。