将算法移植到Spark上
现在我们修改原始的笨算法,使之适用于Spark:
将数据载入并构造数据集 在Spark中,这个数据集被称为RDD :弹性分布数据集。
对数据集进行map操作 指定行为:如果一行原始记录包含“包租婆”,该行记录映射为新值1,否则映射为新值0 。
对map后的数据集进行collect操作,获得合并的结果。
上面的map操作,和前面JavaScript数组的map方法类似,将原始记录映射为新的记录,并返回一个新的RDD。 collect操作提取RDD中的全部数据到本地。
魔术发生在RDD上。Spark的RDD自动进行数据的切分和结果的整合。我们假装不知道就好了, 就像这一切只发生在本地的一台机器上。
Spark的RDD是一切魔力产生的根源!