Apache Spark / 一个简单的计数问题 - 汇智网

Apache Spark 互动版

分布并行计算

从搬砖说起一个简单的计数问题 Spark解决什么了问题基于数据集的计算框架数据集概念之SQL 数据集概念之JavaScript Spark牛刀小试操作符简介

Scala语言快速扫盲

Scala语言 Scala中的变量与常量 Scala函数定义与调用 Scala中的匿名函数 Scala对象定义

交互分析

启动Spark Shell 获得集群对象构造分布数据集操作数据集不一样的动作和变换 RDD动作 RDD变换 RDD操作组合

RDD动作

count函数来计数 top函数取前N个记录 take函数采样N个记录 first函数取第一个记录 max函数取最大值记录 min函数取最小值记录 reduce规约RDD collect函数取全部记录

RDD变换

map函数对RDD记录进行映射 filter筛选函数对RDD记录过滤 sample函数可以从RDD中随机采样 union函数合并两个RDD为新的RDD intersection函数取两个RDD记录相交 distinct函数剔除RDD中的重复记录

求文件中包含"包租婆"的行数

从一个总计100行的文件中找出所有包含“包租婆”的行数，我们不用太动脑筋就有一个算法：

读一行，判断这一行有“包租婆”吗？如果有，全局变量count加1。
文件到末尾了吗？如果没有，跳转到第1步继续执行。
打印count。

这几步程序，我打赌在你的计算机上可以一眨眼的功夫就执行完。但是如果这个文件有100万行呢？如果还用刚才不动脑筋的笨算法，可能就不好交差了......

包租婆

并行分布计算采用了一个大智若愚的办法，通过将笨算法丢给一群机器同时去算，实现规定时间内规定任务的完成。你要知道，如今流行的Map/Reduce就是这么干的，这听起来不够高端，也确实引起了一些数据库专家（聪明人）的非议。不过，不管黑猫白猫，能抓住老鼠的都是好猫。

分布并行计算，强调利用机器的蛮力，让你的笨算法也能跑高分！

从搬砖说起

Spark解决什么了问题