Spark操作符
Spark提供了80多种操作符对集合进行操作。我们列举常用的一些供你建立一点基本概念, 以便了解Spark可以支持什么:
变换
变换操作总是获得一个新的RDD:
- map(func) : 将原始数据集的每一个记录使用传入的函数func ,映射为一个新的记录,并返回新的RDD。
- filter(func) : 返回一个新的RDD,仅包含那些符合条件的记录,即func返回true 。
- flatMap(func) : 和map类似,只是原始记录的一条可能被映射为新的RDD中的多条。
- union(otherDataset) : 合并两个RDD,返回一个新的RDD 。
- intersection(otherDataset):返回一个新的RDD,仅包含两个RDD共有的记录。
动作
动作操作总是获得一个本地数据,这意味着控制权回到你的程序了:
- reduce(func) : 使用func对RDD的记录进行聚合。
- collect() : 返回RDD中的所有记录
- count() : 返回RDD中的记录总数
Spark提供了超过80种集合操作符,我们还可以自行扩展。