当前位置:网站首页>spark算子讲解
spark算子讲解
2022-08-04 08:28:00 【this is a book】
1 背景
写spark 程序重要特性就是基于算子开发
每一个算子都有自己的特性和用途
某一类算子是性能瓶颈的所在
2 分类
spark 算子有两种主要的分类

3 Transformation
3.1 简介
用来对RDD进行转化
每一次 Transformation 操作都会产生新的RDD
这个操作时延迟执行的
4 Action
4.1 简介
用来触发RDD的计算;得到相关计算结果 或者 将结果保存的外部系统中
5 两者特点总结
Transformation 是异步的,并不会影响性能
返回结果int、double、集合(不会返回新的RDD),遇到 Action 操作时,开始从血 缘关系(lineage)源头开始,进行物理的转换操作所以Action的算子是消耗性能的
边栏推荐
猜你喜欢
随机推荐
Redis分布式锁的应用
第一次用postgreSQL,想装主从,用的12.7 tar.gz版本。安装好后没在 share目录下找到样例配置recovery.conf.sample,是安装方式不对,还是路径不对?
【电脑录制屏】如何使用bandicam录游戏 设置图文教程
华为设备配置VRRP与路由联动监视上行链路
【JS 逆向百例】某网站加速乐 Cookie 混淆逆向详解
此时已莺飞草长,愿世间美好与你环环相扣
C语言strchr()函数以及strstr()函数的实现
LeetCode 135. 分发糖果
Detailed explanation of TCP protocol
redis stream 实现消息队列
RT-Thread Studio学习(十二)W25Q128(SPI)的读写
一天学会JDBC04:ResultSet的用法
unittest使用简述
关于常用状态码4XX提示错误
解决报错: YarnScheduler: Initial job has not accepted any resources
C# DirectoryInfo类
推荐几种可以直接翻译PDF英文文献的方法
binder通信实现
LeetCode 97. 交错字符串
最近的一些杂感-20220731









