当前位置:网站首页>spark shuffle
spark shuffle
2022-08-09 14:55:00 【yisun123456】
Shuffle 是数据从map端到reduce数据流转的一种形式,当发生join、groupby等操作的时候,父类数据将会根据key进行shuffle write当本地,然后reduce根据相同key进行shuffle read,这样就产生了同一个父RDD可能存在于多个子RDD中。
在这个过程中主要有两种shuffle形式,hashshuffle是很早之前的一种方案,在map段进行shuffle write的时候,会产生大量的小文件,这会造成大量的IO开销,很容易造成找不到文件而报错,这时只能重跑stage。
在spark 新版本中,引入了sortshuffle。这种机制默认会对map段shuffle write进行排序汇总并生成索引。下游reduce 在拉取数据的时候会根据索引拉取对应的文件。同时,sortshuffle也支持bypass,通过这种机制,可以避免map端不必要的排序,提高效率。
边栏推荐
- 如何正确使用防关联浏览器
- It is deeply recognized that the compiler can cause differences in the compilation results
- 众所周知亚马逊是全球最大的在线电子商务公司。如今,它已成为全球商品种类最多的在线零售商,日活跃买家约为20-25亿。另一方面,也有大大小小的企业,但不是每个人都能赚到刀! 做网店的同学都知道,
- Qt控件-QTextEdit使用记录
- 九、【Vue-Router】缓存路由组件 keep-alive标签
- For programming trading, focusing on forecast or on countermeasures?
- 内存泄露检测工具VLD(Visual Leak Detector)使用说明
- Several important functional operations of general two-way circular list
- 如何防止浏览器指纹关联
- How to List < Map> grouping numerical merge sort
猜你喜欢

如何正确使用防关联浏览器

走得通,看得见!你的交通“好帮手”

WebGL:BabylonJS入门——初探:注入活力

Inverted order at the beginning of the C language 】 【 string (type I like Beijing. Output Beijing. Like I)

跨平台桌面应用 Electron 尝试(VS2019)

记一次解决Mysql:Incorrect string value: ‘\xF0\x9F\x8D\x83\xF0\x9F...‘ for column 插入emoji表情报错问题

Mathematica 作图详解
It is deeply recognized that the compiler can cause differences in the compilation results

【C语言初阶】倒置字符串(输入 I like beijing. 输出beijing. like I)
深刻地认识到,编译器会导致编译结果的不同
随机推荐
内存泄露检测工具VLD(Visual Leak Detector)使用说明
WebGL探索——抉择:实践方向(twgl.js、Filament、Claygl、BabylonJS、ThreeJS、LayaboxJS、SceneJS、ThinkJS、ThingJS)
【小白必看】初始C语言(下)
Mathematica 数据分析(简明)
你知道亚马逊代运营的成本是多少吗?
MIUI12.1.5安装google App store,无需ROOT,不闪退
物理学专业英语(词汇整理)--------07
What are the implications of programmatic trading rules for the entire trading system?
stream去重相同属性对象
浏览器指纹识别是什么意思?
九、【Vue-Router】缓存路由组件 keep-alive标签
二叉排序树的左旋与右旋
Simple analysis of regularization principle (L1 / L2 regularization)
Server运维:设置.htaccess按IP和UA禁止访问
Use tensorboard remotely on the server
排序方法(希尔、快速、堆)
The recycle bin has been showed no problem to empty the icon
Simply record offsetof and container_of
How do quantitative investors obtain real-time market data?
pyspark dataframe分位数计算