Apache Spark 互动版

在线工具推荐: Three.js AI纹理开发包 - YOLO合成数据生成器 - GLTF/GLB在线编辑 - 3D模型格式在线转换 - 可编程3D场景编辑器

将算法移植到Spark上

现在我们修改原始的笨算法,使之适用于Spark:

  1. 将数据载入并构造数据集
    在Spark中,这个数据集被称为RDD :弹性分布数据集。

  2. 对数据集进行map操作
    指定行为:如果一行原始记录包含“包租婆”,该行记录映射为新值1,否则映射为新值0 。

  3. 对map后的数据集进行collect操作,获得合并的结果。

上面的map操作,和前面JavaScript数组的map方法类似,将原始记录映射为新的记录,并返回一个新的RDD。 collect操作提取RDD中的全部数据到本地。

魔术发生在RDD上。Spark的RDD自动进行数据的切分和结果的整合。我们假装不知道就好了, 就像这一切只发生在本地的一台机器上。

Spark的RDD是一切魔力产生的根源!