Apache Spark / 基于数据集的计算框架 - 汇智网

Apache Spark 互动版

分布并行计算

从搬砖说起一个简单的计数问题 Spark解决什么了问题基于数据集的计算框架数据集概念之SQL 数据集概念之JavaScript Spark牛刀小试操作符简介

Scala语言快速扫盲

Scala语言 Scala中的变量与常量 Scala函数定义与调用 Scala中的匿名函数 Scala对象定义

交互分析

启动Spark Shell 获得集群对象构造分布数据集操作数据集不一样的动作和变换 RDD动作 RDD变换 RDD操作组合

RDD动作

count函数来计数 top函数取前N个记录 take函数采样N个记录 first函数取第一个记录 max函数取最大值记录 min函数取最小值记录 reduce规约RDD collect函数取全部记录

RDD变换

map函数对RDD记录进行映射 filter筛选函数对RDD记录过滤 sample函数可以从RDD中随机采样 union函数合并两个RDD为新的RDD intersection函数取两个RDD记录相交 distinct函数剔除RDD中的重复记录

Spark的计算范式：数据集上的计算

Spark用起来的确简单，但有一点特别要注意，你得按照Spark的范式写算法。

Spark是在数据集的层次上进行分布并行计算，是的，它只认成堆的数据：

数据集

我们提交给Spark的计算任务，必须满足两个条件：

数据是可以分块的，每块构成一个集合。
算法只能在集合级别执行操作。

比如，对于文本文件，在Spark中，一行就是一条记录，若干条记录组成一个集合。我们原来的算法直接在每一行上进行计算，就不行了。需要先构建数据集，然后通过数据集的操作，实现我们的目的。

Spark是一种粗粒度、基于数据集的并行计算框架。

Spark解决什么了问题

数据集概念之SQL