Apache Spark / Spark牛刀小试 - 汇智网

Apache Spark 互动版

分布并行计算

从搬砖说起一个简单的计数问题 Spark解决什么了问题基于数据集的计算框架数据集概念之SQL 数据集概念之JavaScript Spark牛刀小试操作符简介

Scala语言快速扫盲

Scala语言 Scala中的变量与常量 Scala函数定义与调用 Scala中的匿名函数 Scala对象定义

交互分析

启动Spark Shell 获得集群对象构造分布数据集操作数据集不一样的动作和变换 RDD动作 RDD变换 RDD操作组合

RDD动作

count函数来计数 top函数取前N个记录 take函数采样N个记录 first函数取第一个记录 max函数取最大值记录 min函数取最小值记录 reduce规约RDD collect函数取全部记录

RDD变换

map函数对RDD记录进行映射 filter筛选函数对RDD记录过滤 sample函数可以从RDD中随机采样 union函数合并两个RDD为新的RDD intersection函数取两个RDD记录相交 distinct函数剔除RDD中的重复记录

将算法移植到Spark上

现在我们修改原始的笨算法，使之适用于Spark：

将数据载入并构造数据集
在Spark中，这个数据集被称为RDD ：弹性分布数据集。
对数据集进行map操作
指定行为：如果一行原始记录包含“包租婆”，该行记录映射为新值1，否则映射为新值0 。
对map后的数据集进行collect操作，获得合并的结果。

上面的map操作，和前面JavaScript数组的map方法类似，将原始记录映射为新的记录，并返回一个新的RDD。 collect操作提取RDD中的全部数据到本地。

魔术发生在RDD上。Spark的RDD自动进行数据的切分和结果的整合。我们假装不知道就好了，就像这一切只发生在本地的一台机器上。

Spark的RDD是一切魔力产生的根源！

数据集概念之JavaScript

操作符简介