Spark的计算范式:数据集上的计算
Spark用起来的确简单,但有一点特别要注意,你得按照Spark的范式写算法。
Spark是在数据集的层次上进行分布并行计算,是的,它只认成堆的数据:
我们提交给Spark的计算任务,必须满足两个条件:
- 数据是可以分块的,每块构成一个集合。
- 算法只能在集合级别执行操作。
比如,对于文本文件,在Spark中,一行就是一条记录,若干条记录组成一个集合。我们 原来的算法直接在每一行上进行计算,就不行了。需要先构建数据集,然后通过数据集的操作, 实现我们的目的。
Spark是一种粗粒度、基于数据集的并行计算框架。