当前位置：网站首页>spark RDD转换算子 sample

spark RDD转换算子 sample

2022-08-09 02:21:00 【但行益事莫问前程】

文章目录

- sample
- - 1.抽取数据不放回（伯努利算法）
  - 2.抽取数据放回（泊松算法）

sample

函数签名：

  def sample(withReplacement: Boolean,fraction: Double,seed: Long = Utils.random.nextLong): RDD[T]

函数说明：
根据指定的规则从数据集中抽取数据，应用于发现倾斜数据解决数据倾斜、预估内存；根据第一个参数可划分为抽取数据不放回和抽取数据放回2种规则

1.抽取数据不放回（伯努利算法）

伯努利算法：又叫0、1分布。例如扔硬币，要么正面，要么反面。
具体实现：根据种子和随机算法算出一个数和第二个参数设置几率比较，小于第二个参数要，大于不要

第一个参数：抽取的数据是否放回，false：不放回
第二个参数：每条数据抽取的几率，范围在[0,1]之间,0：全不取；1：全取；
第三个参数：随机数种子（随机数不随机：随机算法）

  def main(args: Array[String]): Unit = {
    
    val sparkConf = new SparkConf().setMaster("local[*]").setAppName("CZ")
    val sc = new SparkContext(sparkConf)
    val dataRDD = sc.makeRDD(List(1, 2, 3, 4, 5, 6, 7, 8, 9, 10), 1)
    val newRDD = dataRDD.sample(false, 0.1,1)
    newRDD.collect().foreach(println)
    sc.stop()
  }