当前位置:网站首页>数据迟到超过1天
数据迟到超过1天
2022-08-05 19:23:00 【小基基o_O】
流数据中有2个时间,1个是程序时间,1个是事件时间
事件时间:事件发生的事件
程序时间:数据被服务端接收的时间
程序时间≥事件事件例如
某个事件在客户端15点23分00秒发生
数据上传到服务端的时间是15点23分01秒
那么
事件时间=15:23:00
程序时间=15:23:01
数据延时=1秒一般来说,数据延时不会太大
内网数据传输延时毫秒级别
外网数据传输延时远不达到秒级
多数情况下,延时不会超过1小时然而某些手机应用
手机在断网情况下操作,数据临时保存到手机
直到手机有网,数据才上传到服务端,程序时间远大于事件时间,甚至延时超过1天使用Flume把流数据写到HDFS,路径含动态时间(如:
/temp/flume/kafka/%{topic}/%Y-%m-%d)%Y-%m-%d默认会用Flume的程序时间
通常会给Flume配置时间拦截器,使得%Y-%m-%d使用事件时间Flume有个按时间滚动文件的参数,滚动中的文件以
.tmp作为后缀
当%Y-%m-%d使用事件时间,某个2022年7月4号21点的数据在5号3点才到,产生2022-07-04/xxxx.tmp文件
如果HIVE在每天2点执行LOAD DATA任务,数据装载就会不全通常数据分析允许一定限度的 系统误差
比如,延时6小时执行LOAD DATA任务可得到99.9%的数据,剩下的迟到数据可忽略不计
如果高延时情况下仍丢迟到很多数据,就应优化源头数据采集程序

边栏推荐
猜你喜欢
随机推荐
带头双向循环链表的实现(C语言)
元器件选型实例(一、如何选一款合适的 DC-DC )
jdbc数据持久化
【StoneDB模块介绍】工具类
d标准库选讲
sast/dast/iast对比介绍
[Illustrated and textual] Detailed explanation of the method of one-click reinstallation of the Win11 system
使用postman等API工具请求接口不会跨域
不要小看一个Redis~ 从头到尾全是精华,阿里Redis速成笔记太香了
rhcsa 学习笔记(持续更新)
软测人面试 ,HR 会问到哪些问题?学会涨薪3000+
加密熊市为企业并购提供机遇!野心勃勃or救世主?唯一真理便是利益至上!
Develop SQL editors with Monaco Editor
Umi4 集成阿里低代码框架lowcode-engine
测试用例设计方法-场景法详解
抽象工厂模式与工厂方法模式代码结构的区别
【每日一题】623. 在二叉树中增加一行
tiup cluster check
【StoneDB模块介绍】服务器模块
windbg查看模块中的方法时报错no code found








