Apache Spark 互动版

在线工具推荐: Three.js AI纹理开发包 - YOLO合成数据生成器 - GLTF/GLB在线编辑 - 3D模型格式在线转换 - 可编程3D场景编辑器

求文件中包含"包租婆"的行数

从一个总计100行的文件中找出所有包含“包租婆”的行数,我们不用太动脑筋就有一个算法:

  1. 读一行,判断这一行有“包租婆”吗?如果有,全局变量count加1。
  2. 文件到末尾了吗?如果没有,跳转到第1步继续执行。
  3. 打印count。

这几步程序,我打赌在你的计算机上可以一眨眼的功夫就执行完。但是如果这个文件有100万行呢? 如果还用刚才不动脑筋的笨算法,可能就不好交差了......

包租婆

并行分布计算采用了一个大智若愚的办法,通过将笨算法丢给一群机器同时去算,实现规定时间内规定 任务的完成。你要知道,如今流行的Map/Reduce就是这么干的,这听起来不够高端,也确实引起了一些数据库专 家(聪明人)的非议。不过,不管黑猫白猫,能抓住老鼠的都是好猫

分布并行计算,强调利用机器的蛮力,让你的笨算法也能跑高分!