当前位置:网站首页>spark RDD转换算子 sample
spark RDD转换算子 sample
2022-08-09 02:21:00 【但行益事莫问前程】
sample
函数签名:
def sample(withReplacement: Boolean,fraction: Double,seed: Long = Utils.random.nextLong): RDD[T]
函数说明:
根据指定的规则从数据集中抽取数据,应用于发现倾斜数据解决数据倾斜、预估内存;根据第一个参数可划分为抽取数据不放回和抽取数据放回2种规则
1.抽取数据不放回(伯努利算法)
伯努利算法:又叫0、1分布。例如扔硬币,要么正面,要么反面。
具体实现:根据种子和随机算法算出一个数和第二个参数设置几率比较,小于第二个参数要,大于不要
第一个参数:抽取的数据是否放回,false:不放回
第二个参数:每条数据抽取的几率,范围在[0,1]之间,0:全不取;1:全取;
第三个参数:随机数种子(随机数不随机:随机算法)
def main(args: Array[String]): Unit = {
val sparkConf = new SparkConf().setMaster("local[*]").setAppName("CZ")
val sc = new SparkContext(sparkConf)
val dataRDD = sc.makeRDD(List(1, 2, 3, 4, 5, 6, 7, 8, 9, 10), 1)
val newRDD = dataRDD.sample(false, 0.1,1)
newRDD.collect().foreach(println)
sc.stop()
}
运行第一次:
运行第二次:
注:
随机数是通过复杂的数学算法得到的,随机种子(Random Seed)就是这些随机数的初始值。一般计算机里面产生的随机数都是伪随机数。 伪随机数,也是就一个一直不变的数。
2.抽取数据放回(泊松算法)
第一个参数:抽取的数据是否放回,true:放回;
第二个参数:重复数据的几率,范围大于等于0.表示每一个元素被期望抽取到的次数
第三个参数:随机数种子
边栏推荐
- 显著性检验--学习笔记
- 力扣刷题记录4.1-----209. 长度最小的子数组
- 2020.10.13 Development log
- Phenomenon 1 during RF debugging
- ROS2错误:不支持OpenGL 1.5 GLRenderSystem:: ci initialiseContext在C: \ \ ws \构建……
- 通过安装VNC服务器x11vnc(或vnc4server)和配置x11vnc.service实现远程通过VNC-Viewer访问VNC服务器。
- 虹科技术|如何阻止供应链攻击?
- MT4/MQL4 Getting Started to Mastering EA Tutorial Lesson 1 - MQL Language Common Functions (1) OrderSend() Function
- 使网络安全威胁风险更高和成本更高的五个趋势
- Codeforces Round #809 (Div. 2)A~D1
猜你喜欢
随机推荐
Design of Go-7-RESTful API
项目经理VS产品经理,二者到底有何不同?
Open3D 随机采样
New Swagger3.0 tutorial, OAS3 quick configuration guide, to automate API interface documentation!
Duplicate class com.google.common.util.concurrent.ListenableFuture found in modules
Etcd realize large-scale application service management of actual combat
UsernameAuthenticationFilter授权成功后调用AuthenticationSuccessHandler时的解析
Several ways to use JS to achieve array flattening
终于有人把灰度发布架构设计讲明白了
为什么应用程序依赖关系映射对于云迁移至关重要
Programmer's Daily Life | Daily Fun
C#计算两个时间相差多少天、时、分、秒
电磁辐射安全标准及检测方法
工具类:base64格式的数据与本地文件的相互转换
.reduce()的简单例子
Z-Game on grid(牛客多校赛)
18.flink Table/Sql API之 catlog
Composer usage record
物联网未来:未来五年的预期
C#计算SHA1加密和base64编码









