RDD动作:获取数据的控制权
对一个RDD执行动作指示集群将指定数据返回本地,返回的数据可能是一个具体的值、一个数组或一个HASH表。
让我们先执行几个动作:
scala> textFile.count() // 这个动作返回RDD中的记录数 res0: Long = 126 scala> textFile.first() // 这个动作返回RDD中的第一个记录
count是一个动作,负责获取这个RDD的记录总数。first也是一个动作,负责返回RDD中的第一条记录。
在使用Spark时,最好在脑海中明确地区隔出两个区域:本地域和集群域。RDD属于集群域,那是Spark管辖的地带; RDD的动作结果属于本地域,这是我们的地盘。只有当RDD的数据返回本地域,我们才能进行再加工,比如打印等等。
RDD动作将数据集返回本地
请使用你的textFile变量,将其第一条记录保存到变量 x0 中。