集群对象:SparkContext
当我们启动Spark-Shell后,就自动获得一个SparkContext对象实例,这个对象被存入变量sc。
在提示符下输入:sc ,可以看到sc的类型是org.apache.spark.SparkContext:
scala> sc res1: org.apache.spark.SparkContext = org.apache.spark.SparkContext@3c5a3436
SparkContext对象代表 整个 Spark集群,是Spark框架 功能的入口 ,可以用来在集群中创建RDD、累加器变量和广播变量。 SparkContext对象创建时可以指明连接到哪个集群管理器上,在Spark-Shell启动时,默认 连接到本地的集群管理器。
使用SparkContext对象(在Shell里,就是sc变量)的master方法,可以查看当前连接的集群管理器:
scala> sc.master res10: String = local[*]
显示结果表明,我们确实连接到了本地的集群管理器上,*代表不明确指定在每个计算节点上使用的CPU核心数(资源限额)。
获得Spark集群的SparkContext对象,是构造Spark应用的第一步!
看看你的sc.master提示什么信息?