当前位置:网站首页>Pytorch GPU模型推理时间探讨2——显卡warm up
Pytorch GPU模型推理时间探讨2——显卡warm up
2022-08-10 16:37:00 【pip install USART】
问题背景在上一篇文章里
还没看过上一篇的小伙伴可以戳这里
改进
步入正题,上文说到,每10批推理的第一批10次推理的时间都很慢,于是重新改写了一下代码,这次每个模型只进行10次推理,继续观察现象。结果以截图的形式给出:
结论
从这些结果来看,每个模型的前两次推理都很慢,尤其是第一次。到谷歌上找了一下原因,这是因为显卡需要warm-up,就是“热身”,这样才能发挥出显卡的性能。而至于后续的推理时间的计时仍有较大偏差,还是因为异步计时的问题,这个留着后面再解决。
关于热身,个人理解,显卡开始工作时控制单元需要对资源进行调度,例如分配warp等。这些应该都是在第一次推理的时候进行。类似的,举个栗子,在F1比赛中,每场赛车的正赛开始前,都会有一圈“暖胎圈”,各个车手依次起步,在赛道上不停画龙——连续左转右转——来对轮胎进行一定的磨损,使其与地面充分摩擦,来达到工作状态与工作温度,进一步使赛车达到最佳状态,跑出最好成绩。这就类似显卡的“warm-up”一样。
如果有说的不对的地方,还请路过的大佬评论区指正
边栏推荐
猜你喜欢
随机推荐
kuangbin专题一 简单搜索
C专家编程 第10章 再论指针 10.4 向函数传递一个一维数组
Taurus.MVC WebAPI 入门开发教程4:控制器方法及参数定义、获取及基础校验属性【Require】。
如何使用Swift Package插件生成代码
开源生态与AI芯片的碰撞&Dragonfly基于P2P的镜像加速系统 | 第 39-40 期
Meaning of CDF graph
Pigsty:开箱即用的开源数据库发行版
接口测试中,应不应该用数据库
在Istio中,到底怎么获取 Envoy 访问日志?
matsuri.icu 筛选单场直播中 指定用户的弹幕
超宽带uwb精准定位,厘米级室内定位技术,实时高精度方案应用
#夏日挑战赛#【ELT.ZIP】啃论文俱乐部——学术科研方法论沉淀辑
requests库访问接口
promise笔记(四)
Andorid源码编译需要掌握的shell语法(三)
LeetCode-922. Sort Array By Parity II
FTXUI基础笔记(botton按钮组件进阶)
sprintboot验证码kaptcha 自定义图片样式
WIZnet 物联网设计大赛 - WizFi360大赛延迟通知
神经网络有哪些激活函数,卷积神经网络有哪些