微软亚研提出TinyMIM,用知识蒸馏改进小型ViT|实验|vit|预训练|科学家|财务报表|财务会计|tinymim

用微信扫码二维码

微软亚研提出TinyMIM用知识蒸馏改进小

分享至好友和朋友圈

掩码建模(MIM,MAE)被证明是非常有效的自监督训练方法。然而,如图1所示,MIM对于更大的模型效果相对更好。当模型很小的时候(比如ViT-T5M参数,这样的模型对于现实世界非常重要),MIM甚至可能一定程度上降低模型的效果。比如用MAE训练的ViT-L比普通监督训练的模型在ImaGenet上的分类效果提升3.3%,但是用MAE训练的ViT-T比普通监督训练的模型在ImageNet上的分类效果降低了0.6%。

在这篇工作中我们提出了TinyMIM,其在保持ViT结构不变并且不修改结构引入其他归纳偏置(inductivebias)的基础上、用蒸馏的方法迁移大模型上的知识到小模型。

我们系统性的研究了蒸馏目标、数据增强、正则化、辅助损失函数等对于蒸馏的影响。在严格的只用ImageNet-1K作为训练数据的情况下(包括Teachermodel也只用ImageNet-1K训练)和ViT-B作为模型,我们的方法实现了当前最好的性能。如图所示:

把我们的方法(TinyMIM)和基于掩码重建的方法MAE,以及监督式学习的方法从头开始训练的DeiT作比较。MAE在模型比较大的时候有显著的性能提升,但是在模型比较小的时候提升幅度有限甚至会伤害模型的最终效果。我们的方法TinyMIM在不同模型的大小上都有大幅提升。

1.蒸馏的目标(Distillationtargets):1)蒸馏token之间的关系比单独蒸馏classtoken或者特征图(featuremap)更有效;2)用中间层作为蒸馏的目标更有效。

2.数据增强和模型正则化(Dataandnetworkregularization):1)用带掩码的图片效果更差;2)学生模型需要一点droppath,但是teacher模型不需要。

3.辅助损失函数(auxiliarylosses):MIM作为辅助损失函数没有意义。

4.宏观蒸馏策略(Macrodistillationstrategy):我们发现序列化的蒸馏(ViT-B->ViT-S->ViT-T)效果最好。

我们系统性的调研了蒸馏的目标,输入的图片,蒸馏目标模块。

2.1影响蒸馏效果的因素

a.中间block特征和输出特征

当i=L时,指的是Transformer输出层的特征。当i

b.注意力(Attention)特征和前馈层(FFN)层特征

Transformer每一个block有Attention层和FFN层,蒸馏不同的层会带来不同的影响。

在Attention层内会有Q,K,V特征,这些特征用于计算注意力机制,我们也调研了直接蒸馏这些特征。

Q,K,V用于计算注意力图,这些特征之间的关系也可以作为知识蒸馏的目标。

传统的知识蒸馏是直接输入完整的图片。我们的方法为了探索蒸馏掩码建模模型,所以我们也探索了带掩码的图片是否适合作为知识蒸馏时候的输入。

2.2知识蒸馏方法对比

最简单的方法就是类似DeiT直接蒸馏MAE预训练模型的classtoken:

2)特征蒸馏:我们直接参考了featuredistillation[1]作为对比

我们的方法在ImageNet-1K上预训练,而且教师模型也是在ImageNet-1K预训练。然后我们将我们预训练的模型在下游任务(分类、语义分割)上进行了微调。模型表现如图:

我们的方法显著超过之前基于MAE的方法,尤其是小模型。具体来讲,对于超小的模型ViT-T,我们的方法实现了75.8%的分类准确性,相比MAE基线模型实现了4.2的提升。对于小模型ViT-S,我们实现了83.0%的分类准确性,比之前最好的方法提升了1.4。对于Base尺寸的模型,我们的方法分别超过MAE基线模型和以前最好的模型CAE4.1和2.0。

同时我们也测试了模型的鲁棒性,如图所示:

TinyMIM-B对比MAE-B,在ImageNet-A和ImageNet-R分别提升了6.4和4.6。

同时蒸馏QK,VV关系而且在计算关系的时候有Softmax实现了最好的效果。

TinyMIM这种蒸馏关系的方法实现了比MAE基线模型,classtoken蒸馏,特征图蒸馏都更好的效果,在各种尺寸的模型上都是如此。

我们发现蒸馏第十八层实现了最好的效果。

全局中部横幅
手机靓号网【集号吧】手机号码大全

买手机号码、卖手机号码,想办手机卡就上集号吧!手机靓号文化网站!提供各地手机号码大全,移动靓号、联通靓号、电信号码网上选号,最新套餐资费介绍,还有更多固话座机号、车牌号、新能源车牌、400电话、电话号码等你来拿,集号吧号码网为卖家提供号码发布、靓号店铺等服务,打造号码行业电子商务平台

乐报修

乐报修是杭州笛升科技有限公司旗下为家庭或企业用户提供在线报修服务的网络平台,通过乐报修平台,可以让用户更快更方便的报修。

山东双软认证

山东恒标知识产权服务有限公司是由知识产权局认可的备案代理机构,作为全方位知识产权保护专家,主营ISO体系认证,ISO9001、ISO14001、ISO18001、ISO20000,双软认证,高企认定,商标、专利,等业务。

贵州健康报科普宣教中心

《贵州健康报》是经国家新闻出版署批准,由贵州省卫生健康委员会主管,国内统一刊号为CN52-0041的权威报刊。我们秉承“传播健康知识,引领美好未来”的办报理念,以宣传健康为使命、讲好健康知识为核心、服务全国人民为已任、深化融媒推广为重点;密切关注医疗卫生服务体系、大健康产业,构建最具权威性和影响力的健康传播综合服务平台。

星智汇商务花园

星智汇南京独栋写字楼

视多发卡网

视多发卡网隶属于河南售权益网络科技有限公司,视多发卡网是全网最大的发卡网类型网站,专注发卡网类型网站一条龙搭建,网络安全运维服务,高防防御策略部署,系统维护托管运营!

伺服电机

十年伺服电机技术服务-深圳欧诺克,200+客户的认可与支持,业务遍布全国各地,主要以伺服电机,伺服驱动器,交流直流伺服电机,大功率直流无刷驱动器占据市场份额,欢迎您的来电咨询.

北京中招国联科技有限公司官网

北京中招国联科技有限公司成立于2007年,主要负责集团旗下“招标网”(zhaobiao.cn)的平台运营。针对招投标过程中的供应商提供信息服务,以会员服务的方式建立营收。

心标教育网:小学试卷题库

心标教育网专注于小学试卷、初中试卷、高中试卷等下载资源的试卷网站。为广大家长提供免费在线心标诊断,并生成诊断报告及进一步的诊断试卷。新增针对薄弱环节的专项练习试卷题库供家长下载。

小何的个人博客

一款基于Vue3、element-plus开发的个人博客网站,用于记录自己的前端学习、生活等

全局底部横幅