Apache Spark 互动版

Spark的计算范式:数据集上的计算

Spark用起来的确简单,但有一点特别要注意,你得按照Spark的范式写算法。

Spark是在数据集的层次上进行分布并行计算,是的,它只认成堆的数据

数据集

我们提交给Spark的计算任务,必须满足两个条件:

  1. 数据是可以分块的,每块构成一个集合。
  2. 算法只能在集合级别执行操作。

比如,对于文本文件,在Spark中,一行就是一条记录,若干条记录组成一个集合。我们 原来的算法直接在每一行上进行计算,就不行了。需要先构建数据集,然后通过数据集的操作, 实现我们的目的

Spark是一种粗粒度、基于数据集的并行计算框架。