当前位置:网站首页>小白大白读论文-关于EfficientNetV2论文的 疑问 与 总结
小白大白读论文-关于EfficientNetV2论文的 疑问 与 总结
2022-08-08 13:45:00 【fighterflyfly】
主要参考了这篇csdn博客,但是存在一些问题:EfficientNetV2网络详解
Questions
1. Depthwise convolutions结构为什么相比普通卷积拥有更少的参数以及更小的FLOPs?
假设作用的特征图是 H * W * C,那么一个3 * 3的普通卷积的参数量就是 3 * 3 * C * C = 9C^2,而一个深度可分离卷积对应的参数量就是 3 * 3 * C = 9C,这个非常好理解,普通卷积和深度可分离卷积都需要C个卷积核,但是普通卷积的卷积核是三维的,是同时作用在原始的C个通道的,而深度可分离卷积的卷积核是二维的,是只用单个通道的。
在不改变图像尺寸的情况下,普通卷积的计算量是 3 * 3 * C * H * W * C = 9HWC^2, 深度可分离卷积的计算量是 3 * 3 * H * W * C = 9 HWC。
2. 为什么说理论计算量Flops小不代表推理速度快?
我觉得是因为理论计算量是计算的次数,并没有把每种数学计算所消耗时间的不同考虑在内,比如求导和求和操作的耗时肯定不同。
3. 为什么说增大参数量反而可以提高训练的效率?
暂未透彻理解,只谈自己的猜测,欢迎大佬指正小弟。
这里提到了将注意力加入到卷积模块、在大规模数据集上使用transformer,我觉得说明了:注意力的计算过程没有卷积耗时。注意力中Q、K、W以及权重的计算都依靠的是线性转化,包含相加求和的原子操作;卷积上本质也是相加求和等原子操作,但是求和的时候需要找到准确的 3 * 3网格区域,个人怀疑底层的这个定位操作会比较耗时。
4 progressive learning 怎么简短快速理解?
论文中是渐进式地增加图片尺寸来提高训练速度,**其属于渐进式训练的一种类型。**小图片给的正则化强度比较弱,这是因为小图片会使得模型学习到的东西也相对有限一些;而大尺度的图片会给一个较强的正则化强度来避免过拟合。
5 NAS搜索的目的直接从为模型效果服务演变成了优化训练和参数效率,这是通过怎么改变NAS的搜索原理实现的?
只贴出原论文的介绍,希望大佬看到了能解答一下吧。
6 论文任务scale up模型的深度应该在更侧重于在网络的更晚阶段进行,这一点并没有做出解释,只给出了这个结论,所以该作何理解呢?
7 FixRes方法是在训练阶段使用比测试阶段更小的图片,这样不会降低泛化性能吗?
边栏推荐
猜你喜欢
更改C盘用户目录下的用户名(亲测有效)
复盘:什么是秋招提前批?什么是普通秋招?都是招聘,为啥要设置这两个招聘时间段
论文理解:“Self-adaptive loss balanced Physics-informed neural networks“
HackTheBox | Previse
自动当道,效率至上 | 快来解锁财务共享服务中心数字化秘籍
哈佛大学砸场子:DALL-E 2只是「粘合怪」,生成正确率只有22%
路由器——交换机——网络交换机:区别
【Rust—LeetCode题解】1408.数组中的字符串匹配
机器学习+深度学习笔记(持续更新~)
Full of dry goods, Yu Jingxin class of the Institute of Information Technology, Chinese Academy of Sciences will help you get academic research and thesis writing skills
随机推荐
UnsatisfiedDependencyException: Error creating bean with name ‘
win32&mfc————win32菜单栏&库
【索引】图神经论文之GCN(持更)
mysql 查询一个字段为特定值,并且另一个字段的值出现两次的记录?
MySQL:索引(1)原理与底层结构
什么样的程序员在35岁依然被公司抢着要?打破程序员“中年危机”
Verilog语法基础HDL Bits训练 09
Prometheus监控Harbor(二进制版)
window停掉指定端口的进程
更改默认打开应用程序设置
idea增加左右箭头
keil5——安装教程附资源包
浅学一下二叉树链式存储结构的遍历
PHP中使用XML-RPC构造Web Service简单入门
R语言ggplot2可视化:使用ggpubr包的ggtexttable函数可视化表格数据(直接绘制表格图或者在图像中添加表格数据)、使用tab_add_hline函数为表头添加横线并自定义线条宽度
leetcode 155. Min Stack最小栈(中等)
哈佛大学砸场子:DALL-E 2只是「粘合怪」,生成正确率只有22%
医药行业转型发展,探索数字化供应链升级之道
6.【opencv鼠标回调事件】
R语言patchwork包将多个ggplot2可视化结果组合起来、使用plot_annotation函数以及tag_level参数为组合图添加自定义编码序列(字符向量列表)