求文件中包含"包租婆"的行数
从一个总计100行的文件中找出所有包含“包租婆”的行数,我们不用太动脑筋就有一个算法:
- 读一行,判断这一行有“包租婆”吗?如果有,全局变量count加1。
- 文件到末尾了吗?如果没有,跳转到第1步继续执行。
- 打印count。
这几步程序,我打赌在你的计算机上可以一眨眼的功夫就执行完。但是如果这个文件有100万行呢? 如果还用刚才不动脑筋的笨算法,可能就不好交差了......
并行分布计算采用了一个大智若愚的办法,通过将笨算法丢给一群机器同时去算,实现规定时间内规定 任务的完成。你要知道,如今流行的Map/Reduce就是这么干的,这听起来不够高端,也确实引起了一些数据库专 家(聪明人)的非议。不过,不管黑猫白猫,能抓住老鼠的都是好猫。
分布并行计算,强调利用机器的蛮力,让你的笨算法也能跑高分!