对Xception 2017精彩论文解读 一种深度可分离卷积 CVPR 模型的介绍

文章编号:45545 资讯动态 2024-12-09 CVPR论文

雷锋网 AI 科技评论按:虽然CVPR 2017已经落下帷幕,但对精彩论文的解读还在继续。下文是Momenta高级研究员王晋玮对此次大会收录的 Xception:Deep Learning with Depthwise Separable Convolutions

Inception模块是一大类在ImageNet上取得顶尖结果的模型的基本模块,例如GoogLeNet、Inception V2/V3和Inception-ResNet。有别于VGG等传统的网络通过堆叠简单的3*3卷积实现特征提取,Inception模块通过组合1*1,3*3,5*5和pooling等结构,用更少的参数和更少的计算开销可以学习到更丰富的特征表示。

通常,在一组特征图上进行卷积需要三维的卷积核,也即卷积核需要同时学习空间上的相关性和通道间的相关性。将这两种相关性显式地分离开来,是Inception模块的思想之一:Inception模块首先使用1*1的卷积核将特征图的各个通道映射到一个新的空间,在这一过程中学习通道间的相关性;再通过常规的3*3或5*5的卷积核进行卷积,以同时学习空间上的相关性和通道间的相关性。

但此时,通道间的相关性和空间相关性仍旧没有完全分离,也即3*3或5*5的卷积核仍然是多通道输入的,那么是否可以假设它们可以被完全分离?显然,当所有3*3或5*5的卷积都作用在只有一个通道的特征图上时,通道间的相关性和空间上的相关性即达到了完全分离的效果。

若将Inception模块简化,仅保留包含3*3的卷积的分支:

CVPR 精彩论文解读:对Xception(一种深度可分离卷积)模型的介绍

再将所有1*1的卷积进行拼接:

CVPR 精彩论文解读:对Xception(一种深度可分离卷积)模型的介绍

进一步增多3*3的卷积的分支的数量,使它与1*1的卷积的输出通道数相等:

CVPR 精彩论文解读:对Xception(一种深度可分离卷积)模型的介绍

此时每个3*3的卷积即作用于仅包含一个通道的特征图上,作者称之为“极致的Inception(Extream Inception)”模块,这就是Xception的基本模块。事实上,调节每个3*3的卷积作用的特征图的通道数,即调节3*3的卷积的分支的数量与1*1的卷积的输出通道数的比例,可以实现一系列处于传统Inception模块和“极致的Inception”模块之间的状态。

运用“极致的Inception”模块,作者搭建了Xception网络,它由一系列SeparableConv(即“极致的Inception”)、类似ResNet中的残差连接形式和一些其他常规的操作组成:

CVPR 精彩论文解读:对Xception(一种深度可分离卷积)模型的介绍

作者通过TensorFlow实现了Xception,并使用60块NVIDIA K80分别在ImageNet和JFT(Google内部的图像分类数据集,包含17000类共3.5亿幅图像)上进行训练,并分别在ImageNet和FastEval14k上进行测试。在ImageNet上,Xception的准确率相比Inception V3有一定的提升,并比ResNet-152或VGG-16有较多提升(单个模型,单个crop):

CVPR 精彩论文解读:对Xception(一种深度可分离卷积)模型的介绍

在JFT/FastEval14k上,Xception取得了比ImageNet上相比于Inception V3更多的准确率提升:

CVPR 精彩论文解读:对Xception(一种深度可分离卷积)模型的介绍

同时,和Inception V3相比,Xception的参数量有所下降,而训练时的迭代速度也没有明显变慢:

CVPR 精彩论文解读:对Xception(一种深度可分离卷积)模型的介绍

另外,在ImageNet和JFT上的训练过程都显示,Xception在最终准确率更高的同时,收敛过程也比Inception V3更快:

CVPR 精彩论文解读:对Xception(一种深度可分离卷积)模型的介绍

在Xception中加入的类似ResNet的残差连接机制也显著加快了Xception的收敛过程并获得了显著更高的准确率:

CVPR 精彩论文解读:对Xception(一种深度可分离卷积)模型的介绍

值得注意的是,在“极致的Inception”模块中,用于学习通道间相关性的1*1的卷积和用于学习空间相关性的3*3的卷积之间,不加入任何非线性单元相比于加入ReLU或ELU激活函数将会带来更快的收敛过程和更高的准确率:

CVPR 精彩论文解读:对Xception(一种深度可分离卷积)模型的介绍

这篇文章中提及的Depthwise Convolution操作,即group数、输入通道数和输出通道数相等的卷积层,在最近一年内被多篇CNN模型结构设计方面的工作所使用,包括Factorized Convolutional Neural Networks,Xception,MobileNet和ShuffleNet等,以及ResNeXt一文中使用的大量分group卷积操作也与之有相似之处。它们有的在ImageNet上取得了非常好的结果,有的大幅降低了模型的理论计算量但损失较少的准确度。本文作者从空间相关性和通道间相关性的角度解释Depthwise Convolution,认为这是将学习空间相关性和学习通道间相关性的任务完全分离的实现方式。

事实上,这一操作也可以从低秩角度理解,即将每个输入通道上可学习的卷积参数的秩限制为1。不过潜在的问题是,虽然Depthwise Convolution可以带来准确率的提升或是理论计算量的大幅下降,但由于其计算过程较为零散,现有的卷积神经网络实现中它的效率都不够高,例如本文中Xception的理论计算量是远小于Inception V3的,但其训练时的迭代速度反而更慢一些。期待后续会出现更加高效的Depthwise Convolution实现。

版权文章,未经授权禁止转载。详情见 转载须知 。

CVPR 精彩论文解读:对Xception(一种深度可分离卷积)模型的介绍

全局中部横幅
小一步

小一步微官网小一步微简介关于我们小一步是一个AI应用与数字化技术普及公益行动。旨在帮助更多的青少年使用和了解数字化工具、AI工具,培养和激发他们在信息化数字化方面的思维能力。小一步,每一步都算数。微简介

海南2023年

【海南售楼热线400-000-9012】买100平送40平,「今日特价」超大景观长廊,大露台赏海,精装现房,天然氧吧,来电享特价,「海南市房子上房歌网」专业可靠,全程陪同看房,免费咨询房产资讯.

美易搭

美易搭专注软装美学场景落地,以家居软装美学场景SaaS系统为依托、依靠物联网、大数据、云计算和AI人工智能等核心技术打造的家居软装数字化智慧解决方案。

学古诗

学古诗(www.xuegushi.net)提供古诗大全,古诗词名句,古诗词鉴赏,名诗名句大全,古诗词三百首,唐诗大全,宋词名句,经典古诗文,古诗文大全,古代诗歌大全等古诗古词,尽在学古诗.

厦门市数据管理局

主要用于,单位概况,政务公开,网上办事,交流互动,预约服务,专题专栏,其他,数字厦门等信息的发布

黑龙江龙电律师事务所

黑龙江龙电律师事务所始创于1997年,经过二十余年的不懈努力,已发展成为中国律师行业中优秀的综合性律师事务所之一。

发卡网

发卡网是96云店网专注虚拟商品自动发货发卡平台,公司运营资质齐全的发卡平台,拥有电信业务经营许可,支付通道齐全常年无缺,D0当天秒结算,六年品牌老站专注稳定,企业个人软件开发者零售开店首选寄售平台

摘繁华主页

白衣无尘,亦如初见。在下摘繁华,陇右人士,喜古风与汉服。相互珍重,各自安好。

优学教育网

优学教育网(www.xueba78.com),我们的团队由经验丰富的教育专家组成,他们将为您提供个性化的建议和解决方案,帮助您实现学业和职业上的目标。无论您正在寻找学习机会、考试准备、职业规划,还是寻求教育领域的最新见解,我们都为您提供全面的支持。期待与您一同探索知识的海洋,共同追求教育和职业生涯的成功。

全局底部横幅