Apache Spark 互动版

在线工具推荐: Three.js AI纹理开发包 - YOLO合成数据生成器 - GLTF/GLB在线编辑 - 3D模型格式在线转换 - 可编程3D场景编辑器

RDD动作:获取数据的控制权

对一个RDD执行动作指示集群将指定数据返回本地,返回的数据可能是一个具体的值、一个数组或一个HASH表。

让我们先执行几个动作:

scala> textFile.count() // 这个动作返回RDD中的记录数
res0: Long = 126

scala> textFile.first() // 这个动作返回RDD中的第一个记录

count是一个动作,负责获取这个RDD的记录总数。first也是一个动作,负责返回RDD中的第一条记录。

在使用Spark时,最好在脑海中明确地区隔出两个区域:本地域集群域。RDD属于集群域,那是Spark管辖的地带; RDD的动作结果属于本地域,这是我们的地盘。只有当RDD的数据返回本地域,我们才能进行再加工,比如打印等等。

RDD动作将数据集返回本地

请使用你的textFile变量,将其第一条记录保存到变量 x0 中。