Apache Spark 互动版

在线工具推荐: Three.js AI纹理开发包 - YOLO合成数据生成器 - GLTF/GLB在线编辑 - 3D模型格式在线转换 - 可编程3D场景编辑器

sample : 采样

采样变换根据给定的随机种子,从RDD中随机地指定比例选一部分记录,创建新的RDD。采样变换 在机器学习中可用于进行交叉验证。

语法

def sample(withReplacement: Boolean, fraction: Double, seed: Long = Utils.random.nextLong): RDD[T]

参数

  • withReplacement : Boolean , True表示进行替换采样,False表示进行非替换采样
  • fraction : Double, 在0~1之间的一个浮点值,表示要采样的记录在全体记录中的比例
  • seed :随机种子

示例

下面的示例从原RDD中随机选择20%的记录,构造一个新的RDD,然后返回新RDD的记录数:

scala> textFile.sample(true,0.2).count()
res12: Long = 26

使用RDD的sample方法获得一个采样RDD!

请使用你创建的textFile变量,随机抽取10%的单词,保存到变量 wordShuffle 中。