当前位置:网站首页>论文解读TransFG: A Transformer Architecture for Fine-grained Recognition
论文解读TransFG: A Transformer Architecture for Fine-grained Recognition
2022-08-11 05:25:00 【pontoon】
此篇文章是transformer在细粒度领域的应用。
问题:Transformer还未应用在图像细分类领域中
贡献点:1.vision transformer的输入把图像切分成patch,但是是没有overlap的,文章改成切分patch用overlap(这只能算个trick)
2.Part Selection Module
通俗讲就是最后一层的输入与vision transformer不同,即把最后一层前的所有层(红框所示)的权重累乘,再筛选出权重大的token拼接起来作为第L层的输入。
首先第L-1层的输出原本是这样的:
前面某层的权重如下:
其中下标l的取值范围为(1,2,...,L-1)
假设有K个self-attention head,那么每个head中的权重为:
其中上标i的取值范围为(0,1,...,K)
则对最后一层前面的所有层累乘权重:
然后选择权重最大的A_k个token作为最后一层的输入。
所以经过处理后,其输入可表示为:
从模型架构上看,可以发现红框内带有箭头的token是被选中了的,也是经权重累乘后权值大的token,右侧蓝色框代表选中的token对应的patch。
3.Contrastive loss
作者说细粒度领域不同类别之间的特征很相似,因此单纯用交叉熵损失来学习特征是不够的,在交叉熵损失后加了新的Contrastive loss,这个损失里引入了余弦相似度(用来估计两个向量的相似情况),向量越相似余弦相似度越大。
作者提出此loss function的目的是缩小不同类别“分类token”的相似程度,最大化相同“分类token”的相似程度,通俗说就是不同类的尽量不相似,同类的尽量相似。Contrastive loss其公式如下:
其中a是人为设定的常量。
所以总体函数为:
实验:
在细分类的几个数据集上与CNN和ViT进行比较,为SOTA
边栏推荐
- 梅科尔工作室-Pr第二次培训笔记(基本剪辑操作和导出)
- STM32 基于固件库的工程模板的建立
- OpenPCDet installs the latest version: spconv in one step
- CKEditor富文本编辑器工具栏自定义笔记
- CVPR2020: Seeing Through Fog Without Seeing Fog
- Safety helmet recognition system
- promise.all 学习(多个promise对象回调)
- STM32学习笔记(白话文理解版)—外部IO中断实验
- CMT2380F32模块开发3-GPIO例程
- AI-based intelligent image recognition: 4 different industry applications
猜你喜欢
360° large field of view helmet recognition system-deep learning intelligent video analysis
swin-transformer训练自己的数据集<自留>
目标检测思维导图
STM32学习笔记(白话文理解版)—搞懂PWM输出
STM32学习笔记(白话文理解版)—小灯的点亮、闪烁、呼吸
梅科尔工作室-Pr第一次培训笔记(安装及项目创建)
HTTP缓存机制详解
LAGRANGIAN FLUID SIMULATION WITH CONTINUOUS CONVOLUTIONS
CKEditor富文本编辑器工具栏自定义笔记
音乐竞品分析:酷狗、QQ音乐、网易云、酷我、汽水音乐
随机推荐
HTTP缓存机制详解
Introduction of safety helmet wearing recognition system
TAMNet: A loss-balanced multi-task model for simultaneous detection and segmentation
JVM调优整理
STM32F407-浅~~析UART异步通信&USART_Init函数入口参数
Asp doNet Mvc4绑定js脚本用法
物联网IOT 固件升级
IIC 和 SPI
我心仪的数据集—目标检测为主
STM32 基于固件库的工程模板的建立
目标检测——LeNet
aPaaS和iPaaS的区别
Diagnostic Log and Trace——DLT 离线日志存储
SWOT分析法
Node-2.垃圾回收机制
红外线一认识
Toward a Unified Model
支付牌照是什么意思
vscode插件开发——懒人专用markdown插件开发
Hard hat recognition algorithm