对Xception 2017精彩论文解读 一种深度可分离卷积 CVPR 模型的介绍

文章编号:45545 资讯动态 2024-12-09 CVPR论文

雷锋网 AI 科技评论按:虽然CVPR 2017已经落下帷幕,但对精彩论文的解读还在继续。下文是Momenta高级研究员王晋玮对此次大会收录的 Xception:Deep Learning with Depthwise Separable Convolutions

Inception模块是一大类在ImageNet上取得顶尖结果的模型的基本模块,例如GoogLeNet、Inception V2/V3和Inception-ResNet。有别于VGG等传统的网络通过堆叠简单的3*3卷积实现特征提取,Inception模块通过组合1*1,3*3,5*5和pooling等结构,用更少的参数和更少的计算开销可以学习到更丰富的特征表示。

通常,在一组特征图上进行卷积需要三维的卷积核,也即卷积核需要同时学习空间上的相关性和通道间的相关性。将这两种相关性显式地分离开来,是Inception模块的思想之一:Inception模块首先使用1*1的卷积核将特征图的各个通道映射到一个新的空间,在这一过程中学习通道间的相关性;再通过常规的3*3或5*5的卷积核进行卷积,以同时学习空间上的相关性和通道间的相关性。

但此时,通道间的相关性和空间相关性仍旧没有完全分离,也即3*3或5*5的卷积核仍然是多通道输入的,那么是否可以假设它们可以被完全分离?显然,当所有3*3或5*5的卷积都作用在只有一个通道的特征图上时,通道间的相关性和空间上的相关性即达到了完全分离的效果。

若将Inception模块简化,仅保留包含3*3的卷积的分支:

CVPR 精彩解读:对Xception(一种深度可分离卷积)的介绍

再将所有1*1的卷积进行拼接

CVPR 精彩解读:对Xception(一种深度可分离卷积)的介绍

进一步增多3*3的卷积的分支的数量,使它与1*1的卷积的输出通道数相等:

CVPR 精彩解读:对Xception(一种深度可分离卷积)的介绍

此时每个3*3的卷积即作用于仅包含一个通道的特征图上,作者称之为“极致的Inception(Extream Inception)”模块,这就是Xception的基本模块。事实上,调节每个3*3的卷积作用的特征图的通道数,即调节3*3的卷积的分支的数量与1*1的卷积的输出通道数的比例,可以实现一系列处于传统Inception模块和“极致的Inception”模块之间的状态。

运用“极致的Inception”模块,作者搭建了Xception网络,它由一系列SeparableConv(即“极致的Inception”)、类似ResNet中的残差连接形式和一些其他常规的操作组成:

CVPR 精彩解读:对Xception(一种深度可分离卷积)的介绍

作者通过TensorFlow实现了Xception,并使用60块NVIDIA K80分别在ImageNet和JFT(Google内部的图像分类数据集,包含17000类共3.5亿幅图像)上进行训练,并分别在ImageNet和FastEval14k上进行测试。在ImageNet上,Xception的准确率相比Inception V3有一定的提升,并比ResNet-152或VGG-16有较多提升(单个模型,单个crop):

CVPR 精彩解读:对Xception(一种深度可分离卷积)的介绍

在JFT/FastEval14k上,Xception取得了比ImageNet上相比于Inception V3更多的准确率提升:

CVPR 精彩解读:对Xception(一种深度可分离卷积)的介绍

同时,和Inception V3相比,Xception的参数量有所下降,而训练时的迭代速度也没有明显变慢:

CVPR 精彩解读:对Xception(一种深度可分离卷积)的介绍

另外,在ImageNet和JFT上的训练过程都显示,Xception在最终准确率更高的同时,收敛过程也比Inception V3更快:

CVPR 精彩解读:对Xception(一种深度可分离卷积)的介绍

在Xception中加入的类似ResNet的残差连接机制也显著加快了Xception的收敛过程并获得了显著更高的准确率:

CVPR 精彩解读:对Xception(一种深度可分离卷积)的介绍

值得注意的是,在“极致的Inception”模块中,用于学习通道间相关性的1*1的卷积和用于学习空间相关性的3*3的卷积之间,不加入任何非线性单元相比于加入ReLU或ELU激活函数将会带来更快的收敛过程和更高的准确率:

CVPR 精彩解读:对Xception(一种深度可分离卷积)的介绍

这篇文章中提及的Depthwise Convolution操作,即group数、输入通道数和输出通道数相等的卷积层,在最近一年内被多篇CNN模型结构设计方面的工作所使用,包括Factorized Convolutional Neural Networks,Xception,MobileNet和ShuffleNet等,以及ResNeXt一文中使用的大量分group卷积操作也与之有相似之处。它们有的在ImageNet上取得了非常好的结果,有的大幅降低了模型的理论计算量但损失较少的准确度。本文作者从空间相关性和通道间相关性的角度解释Depthwise Convolution,认为这是将学习空间相关性和学习通道间相关性的任务完全分离的实现方式。

事实上,这一操作也可以从低秩角度理解,即将每个输入通道上可学习的卷积参数的秩限制为1。不过潜在的问题是,虽然Depthwise Convolution可以带来准确率的提升或是理论计算量的大幅下降,但由于其计算过程较为零散,现有的卷积神经网络实现中它的效率都不够高,例如本文中Xception的理论计算量是远小于Inception V3的,但其训练时的迭代速度反而更慢一些。期待后续会出现更加高效的Depthwise Convolution实现。

版权文章,未经授权禁止转载。详情见 转载须知 。

CVPR 精彩解读:对Xception(一种深度可分离卷积)的介绍

全局中部横幅
网易公开课

网易公开课汇集清华、北大、哈佛、耶鲁等世界名校共上千门课程,覆盖科学、经济、人文、哲学等22个领域,在这里你可以开拓视野看世界,获取有深度的好知识。

广州市人民政府门户网站

广州市人民政府门户网站(网址:www.gz.gov.cn)是由广州市人民政府办公厅主办,广州市政务服务和数据管理局承办,利用政府的设备、网络和信息等资源整合建设而成。它以政府部门网站为依托,以需求为导向,以服务为宗旨,遵循“以人为本”的设计理念,围绕信息公开、在线服务和公众参与三大政府网站功能定位,设置了“政务公开”、“政务服务”、“互动交流”、“营商环境”、“魅力广州”五大频道,以丰富的内容、人性化的服务和强大的功能为用户提供服务。

东方体育新闻

东方体育是东方网旗下的体育新闻直播门户网站,提供NBA直播、CBA直播、中超|英超|西甲足球直播等体育赛事直播,还有乒乓球、羽毛球、网球、篮球、足球等更多精彩体育赛事新闻报道和视频集锦回放。了解最新足球/篮球等体育赛程,敬请关注东方体育,海量体育新闻,每一秒都有你的世界!

“www.yjbys.com”的百度权重查询结果

查询百度权重和百度的关键字排名,查询360权重和360的关键字排名

百度关键词排名查询

通过关键词排名工具查询,可以快速得到当前网站的关键字在百度的排名情况。

一键杀毒

腾讯电脑管家官网网站,提供正版电脑管家软件下载,最大的安全云库,全新的杀毒引擎,深度清理电脑垃圾,为电脑重回巅峰状态,远程控制电脑,保护电脑安全。

福建兴东方眼镜有限公司

海峡东南眼镜是一家专注于东南眼镜、东南眼镜加盟、眼镜加盟为一体的现代化眼镜企业,是一家集眼镜检查,验光、配镜、隐形眼镜配戴为一体的专业眼镜店。详询13950429652

乐山大佛景区官网

乐山大佛,乐山大佛门票,乐山大佛旅游,乐山大佛酒店,四川旅游,,拜佛,乐山大佛攻略,乐山美食-乐山大佛旅游网

十一层流延膜

浙江中诚塑业有限公司成立于2014年11月,是专业生产七层共挤膜、十一层流延膜、气阀袋、单向排气阀袋、压纹膜、发酵饲料袋、冷鲜肉热收缩袋、真空袋等软包装的生产企业。公司拥有标准规范的全封闭式生产车间,配备先进精细的透氧、透水、层厚、拉力、摩擦系数等检测仪器。多年来秉承以诚信为本、以品质为上、以诚意为服务等不断去追求、开拓、创新,同时公司秉承守法,经营合法,依法纳税的经营理念也是公司应尽的责任和义务。

化工储罐拆除

巴洛仕集团为您提供专业的水下清淤机器人服务。化工储罐拆除,储罐拆除公司,储罐拆除资质,储罐拆除施工方案厂家就找巴洛仕储罐拆除一站式解决方案提供者。

Hysitron纳米压痕仪

广州创仪欣仪器有限公司(www.gzcyxyq.com)是Hysitron纳米压痕仪,电势诱导衰退检测仪PID,电池缺陷测试仪B-LAB供应商,广州创仪欣仪器有限公司有良好的售后服务和优质的解决方案,欢迎来电洽谈

全局底部横幅