微软亚研提出TinyMIM,用知识蒸馏改进小型ViT|实验|vit|预训练|科学家|财务报表|财务会计|tinymim

用微信扫码二维码

微软亚研提出TinyMIM用知识蒸馏改进小

分享至好友和朋友圈

掩码建模(MIM,MAE)被证明是非常有效的自监督训练方法。然而,如图1所示,MIM对于更大的模型效果相对更好。当模型很小的时候(比如vit-T5M参数,这样的模型对于现实世界非常重要),MIM甚至可能一定程度上降低模型的效果。比如用MAE训练的ViT-L比普通监督训练的模型在ImageNet上的分类效果提升3.3%,但是用MAE训练的ViT-T比普通监督训练的模型在ImageNet上的分类效果降低了0.6%。

在这篇工作中我们提出了TinyMIM,其在保持ViT结构不变并且不修改结构引入其他归纳偏置(inductivebias)的基础上、用蒸馏的方法迁移大模型上的知识到小模型。

我们系统性的研究了蒸馏目标、数据增强、正则化、辅助损失函数等对于蒸馏的影响。在严格的只用ImageNet-1K作为训练数据的情况下(包括Teachermodel也只用ImageNet-1K训练)和ViT-B作为模型,我们的方法实现了当前最好的性能。如图所示:

把我们的方法(TinyMIM)和基于掩码重建的方法MAE,以及监督式学习的方法从头开始训练的DeiT作比较。MAE在模型比较大的时候有显著的性能提升,但是在模型比较小的时候提升幅度有限甚至会伤害模型的最终效果。我们的方法TinyMIM在不同模型的大小上都有大幅提升。

1.蒸馏的目标(Distillationtargets):1)蒸馏token之间的关系比单独蒸馏classtoken或者特征图(featuremap)更有效;2)用中间层作为蒸馏的目标更有效。

2.数据增强和模型正则化(Dataandnetworkregularization):1)用带掩码的图片效果更差;2)学生模型需要一点droppath,但是teacher模型不需要。

3.辅助损失函数(auxiliarylosses):MIM作为辅助损失函数没有意义。

4.宏观蒸馏策略(macrodistillationstrategy):我们发现序列化的蒸馏(ViT-B->ViT-S->ViT-T)效果最好。

我们系统性的调研了蒸馏的目标,输入的图片,蒸馏目标模块。

2.1影响蒸馏效果的因素

a.中间block特征和输出特征

当i=L时,指的是Transformer输出层的特征。当i

b.注意力(Attention)特征和前馈层(FFN)层特征

Transformer每一个block有Attention层和FFN层,蒸馏不同的层会带来不同的影响。

在Attention层内会有Q,K,V特征,这些特征用于计算注意力机制,我们也调研了直接蒸馏这些特征。

Q,K,V用于计算注意力图,这些特征之间的关系也可以作为知识蒸馏的目标。

传统的知识蒸馏是直接输入完整的图片。我们的方法为了探索蒸馏掩码建模模型,所以我们也探索了带掩码的图片是否适合作为知识蒸馏时候的输入。

2.2知识蒸馏方法对比

最简单的方法就是类似DeiT直接蒸馏MAE预训练模型的classtoken:

2)特征蒸馏:我们直接参考了featuredistillation[1]作为对比

我们的方法在ImageNet-1K上预训练,而且教师模型也是在ImageNet-1K预训练。然后我们将我们预训练的模型在下游任务(分类、语义分割)上进行了微调。模型表现如图:

我们的方法显著超过之前基于MAE的方法,尤其是小模型。具体来讲,对于超小的模型ViT-T,我们的方法实现了75.8%的分类准确性,相比MAE基线模型实现了4.2的提升。对于小模型ViT-S,我们实现了83.0%的分类准确性,比之前最好的方法提升了1.4。对于Base尺寸的模型,我们的方法分别超过MAE基线模型和以前最好的模型CAE4.1和2.0。

同时我们也测试了模型的鲁棒性,如图所示:

TinyMIM-B对比MAE-B,在ImageNet-A和ImageNet-R分别提升了6.4和4.6。

同时蒸馏QK,VV关系而且在计算关系的时候有Softmax实现了最好的效果。

TinyMIM这种蒸馏关系的方法实现了比MAE基线模型,classtoken蒸馏,特征图蒸馏都更好的效果,在各种尺寸的模型上都是如此。

我们发现蒸馏第十八层实现了最好的效果。

全局中部横幅
微店官网

微店,从工具到流量,一站式解决社交网络开店的所有问题。为商家提供微信微商城、小程序分销、小程序商城、微信开店、微信分销等一体化多场景多行业的解决方案;帮助全行业商家玩转私域流量,实现业绩持续增长!使用商家超9000万,年GMV超1000亿。

供应继电保护

上海源倾电气有限公司专业提供继电保护测试仪_直流电阻_回路电阻_绝缘电阻_接地电阻测试仪等电力设备,免费提供各种仪器仪表选型指南和技术方案,欢迎来电咨询订购!

防水补漏

本地防水补漏公司专业从事防水补漏,防水工程,卫生间漏水维修,厨房防水,外墙防水,地下室防水,楼顶补漏,房顶防水堵漏等服务,快速漏水抢修,随叫随到,闪电上门服务。

骐迹

北京国联融合科技有限公司(骐迹教育)多年来一直从事于项目管理培训、企业内训、企业咨询服务,是经项目管理协会PMI)授权认可的注册教育机构,GLOBALREP.NO.4757是中国国际人才交流基金会授权培训机构

调压器线圈

浙江红日电源有限公司专业生产防水变压器,墙暖变压器,控制变压器,调压器线圈,环型变压器等,是专业的变压器厂家,公司始终坚持“诚信立业,质量为本”的原则,在未来我们将一如既往.开拓创新,致力于产品质量的不断优化,服务措施更加完善,欢迎来电咨询。

知识问答库

我行网知识问答平台,可信赖的知识问答库平台,领域主要包括:消防安全、健康、趣味知识、法律、教育、科普、环保、育儿、历史、宠物、科技、奥运、计算机等知识问答。有问题,上我行网。

福建资讯网

福建资讯网-分享生活,热爱生活

昆仑网

昆仑网(新疆党建网)是自治区党员教育辅助教学网,全国党建网站联盟网站,2005年7月1日正式开通。现有中文、维吾尔文、哈萨克文版面,域名为www.xjkunlun.gov.cn,www.xjkunlun.cn。

享道出行

享道出行是上汽集团旗下的移动出行战略品牌,整合上汽集团优势资源及强大技术实力,布局专车,出租车,顺风车,个人租车,代驾,企业租车等产品线,专业之上更以人为本,为您提供多元化“一站式”出行服务,想到的地方陪你到。

酷特喵

在这里,你每天都能发现新鲜有趣、有价值的各类互联网工具。我们坚持每日分享10至30个新奇的产品工具,致力于发现最新、最酷、最有趣互联网产品工具。无论你是互联网行业的专业人士,还是充满好奇心的普通用户,这里都能满足你的探索欲望。

南京虚拟仿真

京宇和政盛软件科技有限公司坐落于“六朝古都”,是一家专业从事虚拟仿真、三维演示动画、游戏开发、三维产品演示动画制作公司、团队拥有多年的行业经验 、联系电话:025-85308000转205

全局底部横幅