当前位置:网站首页>spark shuffle
spark shuffle
2022-08-09 14:55:00 【yisun123456】
Shuffle 是数据从map端到reduce数据流转的一种形式,当发生join、groupby等操作的时候,父类数据将会根据key进行shuffle write当本地,然后reduce根据相同key进行shuffle read,这样就产生了同一个父RDD可能存在于多个子RDD中。
在这个过程中主要有两种shuffle形式,hashshuffle是很早之前的一种方案,在map段进行shuffle write的时候,会产生大量的小文件,这会造成大量的IO开销,很容易造成找不到文件而报错,这时只能重跑stage。
在spark 新版本中,引入了sortshuffle。这种机制默认会对map段shuffle write进行排序汇总并生成索引。下游reduce 在拉取数据的时候会根据索引拉取对应的文件。同时,sortshuffle也支持bypass,通过这种机制,可以避免map端不必要的排序,提高效率。
边栏推荐
- Sequelize配置中的timezone测试
- pytorch从零搭建神经网络实现多分类(训练自己的数据集)
- 跨平台桌面应用 Electron 尝试(VS2019)
- 利用qrcode组件实现图片转二维码
- [Mysql]--Transaction, transaction isolation level, dirty read, non-repeatable read, phantom read analysis
- flex布局总结
- 英语议论文读写01 Business and Economics
- 从数组到js基础结束
- Simply record offsetof and container_of
- 双摄像头系列原理深度剖析【转载】
猜你喜欢

浏览器中的302你真的知道吗

原子的核型结构及氢原子的波尔理论

PAT1027 打印沙漏

(12)Cookie和Session

如何正确使用防关联浏览器

OpenCV简介与搭建使用环境

响应式布局总结

Inverted order at the beginning of the C language 】 【 string (type I like Beijing. Output Beijing. Like I)

【C语言初阶】倒置字符串(输入 I like beijing. 输出beijing. like I)

Different compilers, different modes, impact on results
随机推荐
【小白必看】初始C语言(下)
.Net Core后台任务启停(BackgroundService)
What are the implications of programmatic trading rules for the entire trading system?
在服务器上远程使用tensorboard
Different compilers, different modes, impact on results
In the process of quantitative trading, retail investors can do this
[Elementary C language] Detailed explanation of branch statements
PHP开源 | ysKit(ys工具包) - 微型Web框架
ASP.Net Core实战——身份认证(JWT鉴权)
Left-handed and Right-handed Binary Sorted Trees
js总结,基础篇
What is an index in MySql?What kinds of indexes are commonly used?When does an index fail?
Qt对话框中show和exec的区别
LNK1123: Failed during transition to COFF: invalid or corrupt file
How can I know if quantitative programmatic trading is effective?
如何保证电脑硬盘格式化后数据不能被恢复?
ASP.Net Core实战——使用Swagger
How to achieve long-term benefits through the Tongdaxin quantitative trading interface?
PAT1027 Printing Hourglass
C language operator precedence