当前位置:网站首页>spark RDD转换算子 sample
spark RDD转换算子 sample
2022-08-09 02:21:00 【但行益事莫问前程】
sample
函数签名:
def sample(withReplacement: Boolean,fraction: Double,seed: Long = Utils.random.nextLong): RDD[T]
函数说明:
根据指定的规则从数据集中抽取数据,应用于发现倾斜数据解决数据倾斜、预估内存;根据第一个参数可划分为抽取数据不放回和抽取数据放回2种规则
1.抽取数据不放回(伯努利算法)
伯努利算法:又叫0、1分布。例如扔硬币,要么正面,要么反面。
具体实现:根据种子和随机算法算出一个数和第二个参数设置几率比较,小于第二个参数要,大于不要
第一个参数:抽取的数据是否放回,false:不放回
第二个参数:每条数据抽取的几率,范围在[0,1]之间,0:全不取;1:全取;
第三个参数:随机数种子(随机数不随机:随机算法)
def main(args: Array[String]): Unit = {
val sparkConf = new SparkConf().setMaster("local[*]").setAppName("CZ")
val sc = new SparkContext(sparkConf)
val dataRDD = sc.makeRDD(List(1, 2, 3, 4, 5, 6, 7, 8, 9, 10), 1)
val newRDD = dataRDD.sample(false, 0.1,1)
newRDD.collect().foreach(println)
sc.stop()
}
运行第一次:
运行第二次:
注:
随机数是通过复杂的数学算法得到的,随机种子(Random Seed)就是这些随机数的初始值。一般计算机里面产生的随机数都是伪随机数。 伪随机数,也是就一个一直不变的数。
2.抽取数据放回(泊松算法)
第一个参数:抽取的数据是否放回,true:放回;
第二个参数:重复数据的几率,范围大于等于0.表示每一个元素被期望抽取到的次数
第三个参数:随机数种子
边栏推荐
- 史上最猛“员工”,疯狂吐槽亿万富翁老板小扎:那么有钱,还总穿着同样的衣服!
- 2022/8/8 Competition thinking + state pressure dp
- 力扣刷题记录10.1-----19. 删除链表的倒数第 N 个结点
- 使用JS实现数组扁平化的几种方式
- 力扣刷题记录5.1-----59. 螺旋矩阵 II
- MT4/MQ4L入门到精通EA教程第二课-MQL语言常用函数(二)-账户信息常用功能函数
- Summary of pytorch related knowledge points
- 力扣刷题记录7.1-----707. 设计链表
- JDBC technology (2) - set up common sql and configuration files
- OJ:L3-001 凑零钱 DFS
猜你喜欢

The first lesson of HNUMSC-C language

pytorch相关知识点总结

力扣刷题记录4.1-----209. 长度最小的子数组

The 7 taboos of time management summarized by the postgraduate students, how many have you won?

Flume (四) --------- Flume 企业开发案例

终于有人把灰度发布架构设计讲明白了

为什么应用程序依赖关系映射对于云迁移至关重要

HCIP-R&S By Wakin自用笔记(3)OSPF之各类LSA及LSA更新规则

gpio子系统和pinctrl子系统(上)

2.1-----27. Remove elements
随机推荐
ZCMU--5115: Buying Keys(C语言)
帮助安全红队取得成功的11条建议
通过安装VNC服务器x11vnc(或vnc4server)和配置x11vnc.service实现远程通过VNC-Viewer访问VNC服务器。
增额终身寿险哪家最好呢?真的安全吗?
17.flink Table Api基础概念讲解
jmeter的websocket插件安装和使用方法
MT4/MQL4 entry to proficient foreign exchange EA tutorial Lesson 1 Getting to know MetaEditor
Apache站点下载大文件自动中断或者文件不完整
How js implements array deduplication (7 kinds)
2022杭电多校第五场1007(生成函数+启发式合并+ntt)
16.flink 自定义KeySelector
Z-Game on grid
2020.10.13开发日志
软件开发之我的一点想法
配置文件的读取-TOML
The most fierce "employee" in history, madly complaining about the billionaire boss Xiao Zha: So rich, he always wears the same clothes!
Maya engine modeling
mysql连接超过八小时报错
最新工业界推荐系统数据集-召回排序模型原理、结构及代码实战整理分享
历史最全DL相关书籍、课程、视频、论文、数据集、会议、框架和工具整理分享