Apache Spark 互动版

在线工具推荐: Three.js AI纹理开发包 - YOLO合成数据生成器 - GLTF/GLB在线编辑 - 3D模型格式在线转换 - 可编程3D场景编辑器

Spark简化了分布式计算的开发

如果要把刚才的任务进行分布计算(假设有10台机器可以用),需要对原始的笨算法做一些调整:

  1. 把100万条数据分成10份,每份10万条。
  2. 在10台机器上分别执行笨办法计算包含“包租婆”的行数。
  3. 汇总合并10台机器的计算结果,即count,打印出来。

Oh...NO.....太...累...了...

压力大

好在有Spark的存在!我们只要把数据计算程序交给Spark,它会机智地进行数据切分、算法复制、分布执行、结果合并。

Spark 屏蔽了分布并行计算的细节,让我们可以快速开发分布并行应用!