当前位置:网站首页>CVPR2022 | 基于知识蒸馏的高效预训练

CVPR2022 | 基于知识蒸馏的高效预训练

2022-04-23 21:44:00 智源社区

论文链接:https://arxiv.org/abs/2203.05180

大规模的预训练已被证明对广泛的计算机视觉任务都十分关键,能够带来显著的涨点;然而,随着预训练数据量的增大,私有数据的出现,模型结构的多样化,将所有的模型结构都在大规模预训练数据集上进行预训练,变得昂贵、低效、不实际。
研究者们思考:是否一个已经在大量数据上预训练好的模型已经提取了大量数据的知识,并且可以仅通过少部分预训练数据,将其高效快速的传递给一个新的模型?
进而,研究者们提出通过知识蒸馏来实现高效模型预训练。他们发现,传统的知识蒸馏由于在分类的 logits 上进行蒸馏,而这些分类的 logits 并不会被利用到下游迁移任务中,因此并不适合于预训练需要的特征学习。对此,研究者们提出一种基于无额外参数特征维度对齐的纯特征蒸馏方法。

版权声明
本文为[智源社区]所创,转载请带上原文链接,感谢
https://hub.baai.ac.cn/views/16630