当前位置:网站首页>spark shuffle
spark shuffle
2022-08-09 14:55:00 【yisun123456】
Shuffle 是数据从map端到reduce数据流转的一种形式,当发生join、groupby等操作的时候,父类数据将会根据key进行shuffle write当本地,然后reduce根据相同key进行shuffle read,这样就产生了同一个父RDD可能存在于多个子RDD中。
在这个过程中主要有两种shuffle形式,hashshuffle是很早之前的一种方案,在map段进行shuffle write的时候,会产生大量的小文件,这会造成大量的IO开销,很容易造成找不到文件而报错,这时只能重跑stage。
在spark 新版本中,引入了sortshuffle。这种机制默认会对map段shuffle write进行排序汇总并生成索引。下游reduce 在拉取数据的时候会根据索引拉取对应的文件。同时,sortshuffle也支持bypass,通过这种机制,可以避免map端不必要的排序,提高效率。
边栏推荐
- 记一次解决Mysql:Incorrect string value: ‘\xF0\x9F\x8D\x83\xF0\x9F...‘ for column 插入emoji表情报错问题
- What is an index in MySql?What kinds of indexes are commonly used?When does an index fail?
- Talking about quantitative trading and programmatic trading
- 升职加薪之SQL索引
- 自定义指令,实现默认头像和用户上传头像的切换
- encapsulation of strlen(), strcpy(), strncpy(), strcat(), strncat(), strcmp(), strncmp() functions
- PHP开源 | ysKit(ys工具包) - 微型Web框架
- pyspark explode时增加序号
- 回收站一直显示未清空的图标问题
- What are the implications of programmatic trading rules for the entire trading system?
猜你喜欢

双摄像头系列原理深度剖析【转载】

原子的核型结构及氢原子的波尔理论

Simply record offsetof and container_of

【C语言初阶】倒置字符串(输入 I like beijing. 输出beijing. like I)
It is deeply recognized that the compiler can cause differences in the compilation results

几何光学简介

At the beginning of the C language order 】 【 o least common multiple of three methods

正则化原理的简单分析(L1/L2正则化)

More than pytorch from zero to build neural network to realize classification (training data sets)

How to create a new project with VS+Qt
随机推荐
链游是什么意思 链游和游戏的区别是什么
[Elementary C language] Detailed explanation of branch statements
PAT1027 打印沙漏
工作不等于生活,但生活离不开工作 | 2022 年中总结
为什么要学编译原理
PAT1027 Printing Hourglass
In the process of quantitative trading, retail investors can do this
(12)Cookie和Session
Different compilers, different modes, impact on results
.Net Core动态注入
量子力学初步
Several important functional operations of general two-way circular list
Database multi-table link query method
【小白必看】初始C语言(下)
C language operator precedence
跨平台桌面应用 Electron 尝试(VS2019)
Arduino 飞鼠 空中鼠标 陀螺仪体感鼠标
排序方法(希尔、快速、堆)
How do quantitative investors obtain real-time market data?
The recycle bin has been showed no problem to empty the icon