这篇论文在标签平滑和知识蒸馏的关系上取得了重大突破! 审稿人 ICLR (论文标注在标点之后吗)

文章编号:46673 资讯动态 2024-12-10 ICLR2021
ICLR 审稿人:这篇论文在标签平滑和知识蒸馏的关系上取得了重大突破!

AI 科技评论今天给大家介绍一篇 已被接收的论文,论文作者来自 卡耐基梅隆大学、香港科技大学、北京大学和马萨诸塞大学阿默斯特分校 (是MEAL系列作者的一篇最新力作)。

ICLR 审稿人:这篇论文在标签平滑和知识蒸馏的关系上取得了重大突破!

这是一篇非常特别的文章,其中一个审稿人评价这篇文章是标签平滑和知识蒸馏领域有突破性的一篇文章,并给出了8分的高分。

为什么说它特殊呢,因为论文的核心 并不是常见的刷点打榜的工作, 而是在 澄清和纠正过去一篇比较有名的文章中提出的一个重要发现 ,基于这个发现衍生出来的一个观点和在这个问题上的认知,进而让人们更好的理解标签平滑和知识蒸馏的工作原理, 那篇被纠正的文章发表于 NeurIPS 2019 [1] ,作者之一是我们大家都非常熟悉的深度学习先驱之一的Geoffrey Hinton。

大家应该很好奇, 大佬的文章也会有不完善的观点吗?答案是肯定的。人们对于某些问题的认知本来就是在曲折中不断前进的。 我们首先来介绍一下Hinton那篇文章在讲一个什么事情。

Hinton 这篇文章主要是在探究和解释标签平滑的机制和工作原理,下面这张图很好解释了这种机制:

ICLR 审稿人:这篇论文在标签平滑和知识蒸馏的关系上取得了重大突破!

这篇文章里第一个有意思的发现是: 这是一个非常重要的发现,它的大意是在说 标签平滑可以消除类内样本之间的差异,让学到的同一类别的特征表达更加紧凑。

更具体来说,比如狗这个类别的图片通常会包含不同的姿态,拍照角度,曝光程度,不同背景等等,标签平滑可以很好的消除不同样本特征中这些差异的或者称为noisy的信息,而更多地保留它的高层语义信息,即狗这个类别信息。

基于标签平滑这个特点,作者进一步提出了一个观点,即:

如上图最后一行所示,右侧某类样本在使用标签平滑之后会聚集在类中心点,因此不同样本到其他两种样本的距离信息会趋向于相同,即标签平滑抹去了同一类别不同样本到其他类别的距离的细微差别,作者认为这种现象对于知识蒸馏来说是有害的,因为蒸馏正是需要teacher能拥有这种捕捉同一类别不同样本之间细微差别的能力才会有效的,因此他们还认为: a teacher with better accuracy is not NECessarily the one that distills better. 大概意思就是说teacher性能好对于知识蒸馏来说并不重要。

上述推理听上去是不是非常合情合理,那么ICLR 2021 这篇文章又在纠正一个什么事情呢?下面这张图很好的解释了它究竟在纠正什么:

ICLR 审稿人:这篇论文在标签平滑和知识蒸馏的关系上取得了重大突破!

作者首先重现了NeurIPS 2019那篇文章中的可视化过程,并证明了上述论文中提到的现象是真实存在并可重现的,但是他们还有了一个新的惊人的发现:

如果我们重新来审视上图中两个语义相似的类别(每个子图左侧的两个靠近的类别),当使用标签平滑训练的teacher时,同一类别样本聚集会更加紧密,因为标签平滑会促使每个样本与该类中其他样本的类中心等距,而紧密的聚类会显著促使语义相似但不同类别的样本的表达变得更加可分离,即两个类中心距离 Dc 增大了,这进一步体现为语义相近但是不同类别的样本获得更可区分的特征。

这个现象非常重要,因为这些相似类别(分辨困难的类别)是提高分类模型性能的关键。一般来说,我们没有必要去衡量"狗和鱼有多像或者有多不像",因为我们有足够的线索和特征来区分它们(即右侧类样本到左侧类别的距离不重要),但对于细粒度的类别之间比如不同种类的狗,如果能得到" toy poodle与miniature poodle不同的程度"的信息对于区分它们是非常关键的。

上述分析作者从原理上解释了为什么标签平滑和知识蒸馏并不冲突,为了更好地阐述两者关系, 作者提出了一个能定量地衡量被抹去信息大小的指标,称之为stability metric

ICLR 审稿人:这篇论文在标签平滑和知识蒸馏的关系上取得了重大突破!

物理意义为:如果标签平滑会抹除类内的信息,类内样本的特征表达的差异也将相应减少,因此,我们可以使用这种差异来监测标签平滑抹除信息的程度,因为此指标也可以评估同一类别中不同样本特征表达波动程度,因此我们也称之为稳定性指标。

文章还有一个重要的观点是:

如果知识蒸馏不考虑使用原始数据集one-hot标签项,本质上标签平滑和知识蒸馏优化方式是一致的(都是cross-entropy loss),唯一差别是soft的监督信息的来源方式不一样,知识蒸馏使用的是固定权重参数的teacher模型(一种动态的监督信息获取方式),标签平滑使用的是人为制定的平滑规则(固定不变的标签信息)。

总言而之,文章中作者试图去解答下面几个关键问题:

teacher网络训练时候使用标签平滑是否会抑制知识蒸馏阶段的有效性?

哪些因素将真正决定student在知识蒸馏中的性能?

标签平滑在什么情况下会真正失去有效性?

ICLR 审稿人:这篇论文在标签平滑和知识蒸馏的关系上取得了重大突破!

作者在图像分类,二值化网络,机器翻译等任务上进行了大量的实验来验证他们的观点,并且完全抛弃了可能会带来误导的小数据集,比如CIFAR。众所周知,CIFAR上的实验结果和现象经常会跟ImageNet上的不一致,从而产生误导。

作者首先可视化了teacher产生的soft的监督信息的分布如下图所示,我们可以看到使用标签平滑训练teacher产生的监督信号整体上是低于不使用标签平滑,这跟标签平滑本身的工作机制是一致的。

作者还展示了在一些次要类别上的信号分布(下图2),这也是为什么soft标签可以提供更多细微的语义信息差别的原因。

ICLR 审稿人:这篇论文在标签平滑和知识蒸馏的关系上取得了重大突破!

接下来是在图像分类任务上的结果,包括ImageNet-1K以及CUB200-2011。我们可以看到, 不管teacher有没有使用标签平滑训练,student的性能基本是跟teacher的性能保持正相关的,即teacher性能越高,student也越高。

ICLR 审稿人:这篇论文在标签平滑和知识蒸馏的关系上取得了重大突破!

作者进一步可视化了知识蒸馏过程的loss曲线和测试误差曲线,如下图。作者发现如果teacher是使用标签平滑训练出来的,那么在知识蒸馏过程中产生的loss会比较大,如下图左侧,但是这个更大的loss值并不会影响student的性能,也就是说, 标签平滑训练的teacher产生的抑制作用只会发生在训练数据集上,并不会延续到测试数据上,即student的泛化能力还是得到保证的。

这也是一个非常有意思的发现,本质上,这种更大的loss是由于监督信号更加扁平(flattening)造成的,它具有一定的正则作用防止模型过拟合。

ICLR 审稿人:这篇论文在标签平滑和知识蒸馏的关系上取得了重大突破!

那么什么情况会真正导致标签平滑无效或者效果变弱呢?

作者发现在下列两种情况下标签平滑会失效或者没那么有效:

1、数据集呈现长尾分布的时候(long-tailed);

2、类别数目变多的时候。具体猜测原因可以去阅读原文。

最后回答一个大家或许最关心的问题:

知识蒸馏到底需要怎么样的teacher?

本质上,针对不同的场景和任务,需要的teacher类型也不尽相同,但大体上来说, 精度越高的网络,通常可以蒸馏出更强的student (如下图),当然student的性能也受其自身的结构容量限制。

ICLR 审稿人:这篇论文在标签平滑和知识蒸馏的关系上取得了重大突破!

更多细节大家可以去阅读原论文:

ICLR 审稿人:这篇论文在标签平滑和知识蒸馏的关系上取得了重大突破!

特约稿件,未经授权禁止转载。详情见 转载须知 。

ICLR 审稿人:这篇论文在标签平滑和知识蒸馏的关系上取得了重大突破!

全局中部横幅
搜狗移动权重

查询搜狗移动权重和搜狗移动的关键字排名

上海禹亿机电科技有限公司

上海禹亿机电科技有限公司(上海东芝|美的中央空调总代理)东芝空调,美的中央空调销售;提供空调价格表,空调报价咨询;销售代理区域:黄浦区,长宁区,静安区,普陀区,虹口区,浦东新区,黄浦区,宝山区,青浦区,金山区,崇明区,宝山区,闵行区,嘉定区。咨询热线021-31126661

北京玉泉路通发音响商行

北京玉泉路通发音响商行为您提供无线话筒,无线音响,音响品牌,音响大全,通发音响,玉泉路音响,组合音响,会议设备,KTV音响设备,专业音响,广场舞音响,广播系统,无线麦克风,音响扩音,功放机,5.1音响,家庭音响等产品.

苏州阿尔太机械有限责任公司

苏州阿尔太机械有限责任公司是一家专业定制设计导卫,切分导卫,扭转出口导卫,圆钢导卫,高线导卫,导辊,切分轧制,切分调试,切分孔型设计等。

宠物品种

重庆善绍宠物网是互联网上最全面的宠物平台,涵盖详细的宠物品种介绍、日常的宠物护理、可爱的宠物图片、宠物的日常用品以及宠物知识大全,专门为宠物爱好者提供咨询服务。

e律师

e律师系统采用互联网B/S架构,结合律师行业的业务特点,操作简便、界面美观、权限规划严谨、功能创新实用,实现与客户沟通便捷及时、冲突检索全面准确、管理简单方便,高效的提升了律务的工作效率。

伊秀女性网

伊秀女性网致力于做专业的女性门户网站,为中国职业女性24小时提供全面及时的中文时尚资讯,内容覆盖国内外时尚、娱乐、美容、美体、情感、服饰等,设有护肤,减肥,服饰搭配,街拍,明星等多个内容频道,同时开设博客、论坛等自由互动交流空间。

海参的功效与作用

海参百科提供:海参的功效与作用,海参的营养价值与功效,海参的吃法与做法,海参价格多少钱一斤,海参如何泡发,海参怎么吃最有营养,海参的简单最佳吃法,海参的家常做法,海参排行榜.

干衲股识

干衲股识为您搜集新鲜财经新闻、财经资讯及实用的股票知识,内容覆盖全面,为您推荐投资理财和金融管理方案

微擎

公众平台自助引擎(www.w7.cc),简称微擎,微擎是一款免费开源的微信公众平台管理系统,是国内最完善移动网站及移动互联网技术解决方案。

全局底部横幅