Apache Spark 互动版

在线工具推荐: Three.js AI纹理开发包 - YOLO合成数据生成器 - GLTF/GLB在线编辑 - 3D模型格式在线转换 - 可编程3D场景编辑器

Spark操作符

Spark提供了80多种操作符对集合进行操作。我们列举常用的一些供你建立一点基本概念, 以便了解Spark可以支持什么:

变换

变换操作总是获得一个新的RDD:

  • map(func) : 将原始数据集的每一个记录使用传入的函数func ,映射为一个新的记录,并返回新的RDD。
  • filter(func) : 返回一个新的RDD,仅包含那些符合条件的记录,即func返回true 。
  • flatMap(func) : 和map类似,只是原始记录的一条可能被映射为新的RDD中的多条。
  • union(otherDataset) : 合并两个RDD,返回一个新的RDD 。
  • intersection(otherDataset):返回一个新的RDD,仅包含两个RDD共有的记录。

动作

动作操作总是获得一个本地数据,这意味着控制权回到你的程序了:

  • reduce(func) : 使用func对RDD的记录进行聚合。
  • collect() : 返回RDD中的所有记录
  • count() : 返回RDD中的记录总数

Spark提供了超过80种集合操作符,我们还可以自行扩展。