当前位置:网站首页>Spark Sql之union
Spark Sql之union
2022-08-09 13:11:00 【南风知我意丿】
spark union和hive union的区别
spark中data frame 有union和union all算子,均不去重
这点,不像hive中那样,hive sql中union all不去重,union去重
示例
val df3: DataFrame = sc.makeRDD(Seq((1, "xm"), (2, "xl"))).toDF("id", "name")
val df4: DataFrame = sc.makeRDD(Seq((1, "xm"), (2, "xl"), (3, "xw"))).toDF("id", "name")
df3.union(df4).show(false)
+---+----+
|id |name|
+---+----+
|1 |xm |
|2 |xl |
|1 |xm |
|2 |xl |
|3 |xw |
+---+----+
df3.unionAll(df4).show(false)
+---+----+
|id |name|
+---+----+
|1 |xm |
|2 |xl |
|1 |xm |
|2 |xl |
|3 |xw |
+---+----+
如果想达到hive中的效果,可以使用distinct算子
df3.union(df4).distinct().show(false)
+---+----+
|id |name|
+---+----+
|1 |xm |
|3 |xw |
|2 |xl |
+---+----+
边栏推荐
猜你喜欢
随机推荐
技嘉显卡 RGBFusion 不能调光解决方法
将 .json 格式 转换成 .xml格式
JS本地存储 sessionStorage和localStorage
Oracle Recovery Tools修复空闲坏块
Unity3d_API_GPS_LocationService
面试攻略系列(二)-- 秒杀系统
X264性能优化
01_iTween_第一天--小球抛物线
LeetCode 37. Solve Sudoku
机器学习web服务化实战:一次吐血的服务化之路 (转载非原创)
分布式系统关注点(8)——99%的人都能看懂的「熔断」以及最佳实践 (转载非原创)
Professor Chen Qiang's "Machine Learning and R Application" course Chapter 13 Assignment
group by的工作原理和优化思路
eslint语法规则报错
PO、DO、TO、VO、DO、DTO、DAO、POJO都是什么?
蓝桥历届真题-跑步锻炼
【面试高频题】可逐步优化的链表高频题
行程和用户[阅读理解法]
FFmpeg multimedia file processing (the basic concept of ffmpeg processing stream data)
【瑞吉外卖】day05:增、删、改、查分类以及公共字段自动填充