对Xception 2017精彩论文解读 一种深度可分离卷积 CVPR 模型的介绍

文章编号:45545 资讯动态 2024-12-09 CVPR论文

雷锋网 AI 科技评论按:虽然CVPR 2017已经落下帷幕,但对精彩论文的解读还在继续。下文是Momenta高级研究员王晋玮对此次大会收录的 Xception:Deep Learning with Depthwise Separable Convolutions

Inception模块是一大类在ImageNet上取得顶尖结果的模型的基本模块,例如GoogLeNet、Inception V2/V3和Inception-ResNet。有别于VGG等传统的网络通过堆叠简单的3*3卷积实现特征提取,Inception模块通过组合1*1,3*3,5*5和pooling等结构,用更少的参数和更少的计算开销可以学习到更丰富的特征表示。

通常,在一组特征图上进行卷积需要三维的卷积核,也即卷积核需要同时学习空间上的相关性和通道间的相关性。将这两种相关性显式地分离开来,是Inception模块的思想之一:Inception模块首先使用1*1的卷积核将特征图的各个通道映射到一个新的空间,在这一过程中学习通道间的相关性;再通过常规的3*3或5*5的卷积核进行卷积,以同时学习空间上的相关性和通道间的相关性。

但此时,通道间的相关性和空间相关性仍旧没有完全分离,也即3*3或5*5的卷积核仍然是多通道输入的,那么是否可以假设它们可以被完全分离?显然,当所有3*3或5*5的卷积都作用在只有一个通道的特征图上时,通道间的相关性和空间上的相关性即达到了完全分离的效果。

若将Inception模块简化,仅保留包含3*3的卷积的分支:

CVPR 2017精彩论文解读:对Xception(一种深度可分离卷积)模型的介绍

再将所有1*1的卷积进行拼接:

CVPR 2017精彩论文解读:对Xception(一种深度可分离卷积)模型的介绍

进一步增多3*3的卷积的分支的数量,使它与1*1的卷积的输出通道数相等:

CVPR 2017精彩论文解读:对Xception(一种深度可分离卷积)模型的介绍

此时每个3*3的卷积即作用于仅包含一个通道的特征图上,作者称之为“极致的Inception(Extream Inception)”模块,这就是Xception的基本模块。事实上,调节每个3*3的卷积作用的特征图的通道数,即调节3*3的卷积的分支的数量与1*1的卷积的输出通道数的比例,可以实现一系列处于传统Inception模块和“极致的Inception”模块之间的状态。

运用“极致的Inception”模块,作者搭建了Xception网络,它由一系列SeparableConv(即“极致的Inception”)、类似ResNet中的残差连接形式和一些其他常规的操作组成:

CVPR 2017精彩论文解读:对Xception(一种深度可分离卷积)模型的介绍

作者通过TensorFlow实现了Xception,并使用60块NVIDIA K80分别在ImageNet和JFT(Google内部的图像分类数据集,包含17000类共3.5亿幅图像)上进行训练,并分别在ImageNet和FastEval14k上进行测试。在ImageNet上,Xception的准确率相比Inception V3有一定的提升,并比ResNet-152或VGG-16有较多提升(单个模型,单个crop):

CVPR 2017精彩论文解读:对Xception(一种深度可分离卷积)模型的介绍

在JFT/FastEval14k上,Xception取得了比ImageNet上相比于Inception V3更多的准确率提升:

CVPR 2017精彩论文解读:对Xception(一种深度可分离卷积)模型的介绍

同时,和Inception V3相比,Xception的参数量有所下降,而训练时的迭代速度也没有明显变慢:

CVPR 2017精彩论文解读:对Xception(一种深度可分离卷积)模型的介绍

另外,在ImageNet和JFT上的训练过程都显示,Xception在最终准确率更高的同时,收敛过程也比Inception V3更快:

CVPR 2017精彩论文解读:对Xception(一种深度可分离卷积)模型的介绍

在Xception中加入的类似ResNet的残差连接机制也显著加快了Xception的收敛过程并获得了显著更高的准确率:

CVPR 2017精彩论文解读:对Xception(一种深度可分离卷积)模型的介绍

值得注意的是,在“极致的Inception”模块中,用于学习通道间相关性的1*1的卷积和用于学习空间相关性的3*3的卷积之间,不加入任何非线性单元相比于加入ReLU或ELU激活函数将会带来更快的收敛过程和更高的准确率:

CVPR 2017精彩论文解读:对Xception(一种深度可分离卷积)模型的介绍

这篇文章中提及的Depthwise Convolution操作,即group数、输入通道数和输出通道数相等的卷积层,在最近一年内被多篇CNN模型结构设计方面的工作所使用,包括Factorized Convolutional Neural Networks,Xception,MobileNet和ShuffleNet等,以及ResNext一文中使用的大量分group卷积操作也与之有相似之处。它们有的在ImageNet上取得了非常好的结果,有的大幅降低了模型的理论计算量但损失较少的准确度。本文作者从空间相关性和通道间相关性的角度解释Depthwise Convolution,认为这是将学习空间相关性和学习通道间相关性的任务完全分离的实现方式。

事实上,这一操作也可以从低秩角度理解,即将每个输入通道上可学习的卷积参数的秩限制为1。不过潜在的问题是,虽然Depthwise Convolution可以带来准确率的提升或是理论计算量的大幅下降,但由于其计算过程较为零散,现有的卷积神经网络实现中它的效率都不够高,例如本文中Xception的理论计算量是远小于Inception V3的,但其训练时的迭代速度反而更慢一些。期待后续会出现更加高效的Depthwise Convolution实现。

版权文章,未经授权禁止转载。详情见 转载须知 。

CVPR 2017精彩论文解读:对Xception(一种深度可分离卷积)模型的介绍

全局中部横幅
铭源物流

铭源武汉物流平台,是集物流查询、物流配货的专业一站式物流货运信息网,是货运物流公司、货车、快递公司、搬家公司、海运公司、空运公司、发货商的汇聚地,是物流货运信息非常全面、社会需求面极广、实用性极强的物流行业网站!

氪空间

氪空间是中国领先的灵活办公服务商,氪空间依托智能化办公系统、精细化运营能力、空间产品规划能力及创投资源,覆盖企业全办公周期及发展需求。氪空间为中小型企业提供一站式办公解决方案,为大型企业提供专属定制、拎包入驻的办公解决方案。

站大爷

站大爷始创于2012年,专注企业级高品质代理IP领域,2000万活跃代理IP池赋能大数据,为HTTP代理IP和Socks5代理服务器提供了丰富的API接口和技术文档,且实时更新免费代理服务器资源为入门开发者学习用。

领克官网

“生而全球,开放互联”,领克(LYNK&CO)是由吉利控股、吉利汽车与沃尔沃汽车共同创立的全球新高端品牌。领克始终以“挑战惯例”的精神推动品牌发展,打造了多款“高颜值、高性能、高科技、高安全、高价值”的产品。

沈阳办公室装修,写字楼装修,店铺装修

沈阳拓翔装饰工程公司主营办公室装修,写字楼装修,店铺装修,专业设计施工团队,优质优价,深受客户和业界同仁好评!

首页

深圳市披克科技有限公司是一家以打造门禁管理系统的整体安全解决方案为愿景的科技创新企业。公司产品线丰富,涵盖了非接触式IC卡的各个应用领域,包括智能访客系统、手机门禁系统、智慧停车系统、电梯管理系统、车辆出入管理系统、车位引导及反向寻车、智能车牌识别等,

经典句子

和米句子网提供最新句子大全,唯美句子,励志句子,正能量句子,伤感的句子,优美的句子,伤心的句子,想念的句子,爱情的句子,名人名言名句等等!

云盒子

云盘解析服务,苹果CMS入库,云盘永久直链

西宁鲜花,西宁花店,西宁订花送花,西宁鲜花预订

以低的价格,制作出好的,特色的花束,西宁鲜花店非常值得不满意,可退款,青海鲜花连锁,较好品牌,西宁市订花市区免费送花1~3小时送达,送花到西宁专业送花,价格合理,签收满意后再付款,西宁送鲜花专注服务,西宁鲜花鲜花店上上之选。

全局底部横幅