Spark简化了分布式计算的开发
如果要把刚才的任务进行分布计算(假设有10台机器可以用),需要对原始的笨算法做一些调整:
- 把100万条数据分成10份,每份10万条。
- 在10台机器上分别执行笨办法计算包含“包租婆”的行数。
- 汇总合并10台机器的计算结果,即count,打印出来。
Oh...NO.....太...累...了...
好在有Spark的存在!我们只要把数据和计算程序交给Spark,它会机智地进行数据切分、算法复制、分布执行、结果合并。
Spark 屏蔽了分布并行计算的细节,让我们可以快速开发分布并行应用!