Apache Spark 互动版

在线工具推荐: Three.js AI纹理开发包 - YOLO合成数据生成器 - GLTF/GLB在线编辑 - 3D模型格式在线转换 - 可编程3D场景编辑器

集群对象:SparkContext

当我们启动Spark-Shell后,就自动获得一个SparkContext对象实例,这个对象被存入变量sc

在提示符下输入:sc ,可以看到sc的类型是org.apache.spark.SparkContext

scala> sc
res1: org.apache.spark.SparkContext = org.apache.spark.SparkContext@3c5a3436

SparkContext对象代表 整个 Spark集群,是Spark框架 功能的入口 ,可以用来在集群中创建RDD、累加器变量和广播变量。 SparkContext对象创建时可以指明连接到哪个集群管理器上,在Spark-Shell启动时,默认 连接到本地的集群管理器。

使用SparkContext对象(在Shell里,就是sc变量)的master方法,可以查看当前连接的集群管理器:

scala> sc.master
res10: String = local[*] 

显示结果表明,我们确实连接到了本地的集群管理器上,*代表不明确指定在每个计算节点上使用的CPU核心数(资源限额)。

获得Spark集群的SparkContext对象,是构造Spark应用的第一步!

看看你的sc.master提示什么信息?