why 2017最佳论文作者解读 CVPR CVPR DenseNet 和 2017 what 的 how (why20130806TFB)

雷锋网 AI 科技评论按：CVPR 2017上，康奈尔大学博士后黄高博士（Gao Huang）、清华大学本科生刘壮（Zhuang Liu）、Facebook 人工智能研究院研究科学家 Laurens van der Maaten 及康奈尔大学计算机系教授Kilian Q. Weinberger 所作论文《 Densely Connected Convolutional Networks 》当选 CVPR 2017 最佳论文，与苹果的首篇公开论文《 Learning From Simulated and Unsupervised Images through Adversarial Training 》共获这一殊荣。

在大会期间，雷锋网 AI 科技评论第一时间与获奖论文作者黄高博士及刘壮取得联系，以下为两位作者对DenseNet 的详细介绍及常见疑问解答，雷锋网 AI 科技评论做了不改动原意的编辑和整理。

DenseNet 的基本结构

DenseNet 是一种具有密集连接的卷积神经网络。在该网络中，任何两层之间都有直接的连接，也就是说，网络每一层的输入都是前面所有层输出的并集，而该层所学习的特征图也会被直接传给其后面所有层作为输入。下图是 DenseNet 的一个示意图。

CVPR 2017最佳论文作者解读：DenseNet 的“what”、“why”和“how”｜CVPR 2017

如果记第 l 层的变换函数为 H_l（通常对应于一组或两组 Batch-Normalization，ReLU 和 Convolution 的操作），输出为 x_l，那么我们可以用一个非常简单的式子描述 DenseNet 每一层的变换：

x_l = H_l([x_0, x_1, …, x_{l-1}])

可以看到，DenseNet 的思想非常简单，从理解到实现都不难（代码已经开源，并且 GitHub 上有用各种框架写的第三方实现）。可能很多人更关心的问题是为什么要提出 DenseNet，它有什么用，为什么会有用以及怎么把它用好。

DenseNet 是受什么启发提出来的？

DenseNet 的想法很大程度上源于我们去年发表在 ECCV 上的一个叫做随机深度网络（Deep networks with stochastic depth）工作。当时我们提出了一种类似于 Dropout 的方法来改进ResNet。我们发现在训练过程中的每一步都随机地「扔掉」（drop）一些层，可以显著的提高 ResNet 的泛化性能。这个方法的成功至少带给我们两点启发：

DenseNet 的设计正是基于以上两点观察。我们让网络中的每一层都直接与其前面层相连，实现特征的重复利用；同时把网络的每一层设计得特别「窄」，即只学习非常少的特征图（最极端情况就是每一层只学习一个特征图），达到降低冗余性的目的。这两点也是 DenseNet 与其他网络最主要的不同。需要强调的是，第一点是第二点的前提，没有密集连接，我们是不可能把网络设计得太窄的，否则训练会出现欠拟合（under-fitting）现象，即使 ResNet 也是如此。

DenseNet 有什么优点？

省参数。 在 ImaGenet 分类数据集上达到同样的准确率，DenseNet 所需的参数量不到 ResNet 的一半。对于工业界而言，小模型可以显著地节省带宽，降低存储开销。

省计算。 达到与 ResNet 相当的精度，DenseNet 所需的计算量也只有 ResNet 的一半左右。计算效率在深度学习实际应用中的需求非常强烈，从本次 CVPR 会上大家对模型压缩以及 MobileNet 和 ShuffleNet 这些工作的关注就可以看得出来。最近我们也在搭建更高效的 DenseNet，初步结果表明 DenseNet 对于这类应用具有非常大的潜力，即使不用 Depth Separable Convolution 也能达到比现有方法更好的结果，预计在近期我们会公开相应的方法和模型。

另外，我们还提出了一个可实现自适应推理的多尺度 DenseNet，用于提高深度学习模型的推理效率。这个方法的主要思想是用浅层的特征来预测相对「简单」的图片，而只用深层的特征来预测比较「难」的图片。由于很多实际应用中，简单的图片占有较大的比例，而它们并不需要非常深的模型也能被正确预测，因此这种自适应推理方法可以有效的降低深度模型推理时的平均计算开销，而不降低精度。感兴趣的读者请关注我们的 arXiv 论文《Multi-Scale Dense Convolutional Networks for Efficient Prediction》（），代码参见。

抗过拟合。 DenseNet 具有非常好的抗过拟合性能，尤其适合于训练数据相对匮乏的应用。这一点从论文中 DenseNet 在不做数据增强（data augmentation）的 CIFAR 数据集上的表现就能看出来。例如不对 CIFAR100 做数据增强，之前最好的结果是 28.20% 的错误率，而 DenseNet 可以将这一结果提升至 19.64%。对于 DenseNet 抗过拟合的原因有一个比较直观的解释：神经网络每一层提取的特征都相当于对输入数据的一个非线性变换，而随着深度的增加，变换的复杂度也逐渐增加（更多非线性函数的复合）。相比于一般神经网络的分类器直接依赖于网络最后一层（复杂度最高）的特征，DenseNet 可以综合利用浅层复杂度低的特征，因而更容易得到一个光滑的具有更好泛化性能的决策函数。实际上，DenseNet 的泛化性能优于其他网络是可以从理论上证明的：去年的一篇几乎与 DenseNet 同期发布在 arXiv 上的论文（AdaNet: Adaptive Structural Learning of Artificial Neural Networks）所证明的结论（见文中 Theorem 1）表明类似于 DenseNet 的网络结构具有更小的泛化误差界。

密集连接不会带来冗余吗？

这是一个很多人都在问的问题，因为「密集连接」这个词给人的第一感觉就是极大的增加了网络的参数量和计算量。但实际上 DenseNet 比其他网络效率更高，其关键就在于网络每层计算量的减少以及特征的重复利用。DenseNet 的每一层只需学习很少的特征，使得参数量和计算量显著减少。比如对于 ImageNet 上的模型，ResNet 在特征图尺寸为 7x7 的阶段，每个基本单元（包含三个卷积层）的参数量为 2048x512x1x1+512x512x3x3+512x2048x1x1=4.5M，而 DenseNet 每个基本单元（包含两个卷积层，其输入特征图的数量一般小于 2000）的参数量约为 2000x4x32x1x1 + 4x32x32x3x3 = 0.26M，大幅低于 ResNet 每层的参数量。这就解释了为什么一个 201 层的 DenseNet 参数量和计算量都只有一个 101 层 ResNet 的一半左右。

还有一个自然而然的问题就是，这么多的密集连接，是不是全部都是必要的，有没有可能去掉一些也不会影响网络的性能？论文里面有一个热力图（heatmap），直观上刻画了各个连接的强度。从图中可以观察到网络中比较靠后的层确实也会用到非常浅层的特征。

CVPR 2017最佳论文作者解读：DenseNet 的“what”、“why”和“how”｜CVPR 2017

我们还做过一些简单的实验，比如每一层都只连接到前面最近的 m 层（例如 m=4），或者奇（偶）数层只与前面的偶（奇）数层相连，但这样简化后的模型并没有比一个相应大小的正常 DenseNet 好。当然这些都只是一些非常初步的尝试，如果采用一些好的剪枝（prune）的方法，我觉得 DenseNet 中一部分连接是可以被去掉而不影响性能的。

DenseNet 特别耗费显存？

不少人跟我们反映过 DenseNet 在训练时对内存消耗非常厉害。这个问题其实是算法实现不优带来的。当前的深度学习框架对 DenseNet 的密集连接没有很好的支持，我们只能借助于反复的拼接（Concatenation）操作，将之前层的输出与当前层的输出拼接在一起，然后传给下一层。对于大多数框架（如 Torch 和 TensorFlow），每次拼接操作都会开辟新的内存来保存拼接后的特征。这样就导致一个 L 层的网络，要消耗相当于 L(L+1)/2 层网络的内存（第 l 层的输出在内存里被存了 (L-l+1) 份）。

解决这个问题的思路其实并不难，我们只需要预先分配一块缓存，供网络中所有的拼接层（Concatenation Layer）共享使用，这样 DenseNet 对内存的消耗便从平方级别降到了线性级别。在梯度反传过程中，我们再把相应卷积层的输出复制到该缓存，就可以重构每一层的输入特征，进而计算梯度。当然网络中由于 Batch Normalization 层的存在，实现起来还有一些需要注意的细节。为此我们专门写了一个技术报告（Memory-Efficient Implementation of DenseNets,）介绍如何提升 DenseNet 对内存的使用效率，同时还提供了 Torch, PyTorch, MxNet 以及 Caffe 的实现，代码参见：

Torch implementation:

PyTorch implementation:

MxNet implementation:

Caffe implementation:

新的实现极大地减小了 DenseNet 在训练时对显存的消耗，比如论文中 190 层的 DenseNet 原来几乎占满了 4 块 12G 内存的 GPU，而优化过后的代码仅需要 9G 的显存，在单卡上就能训练。

另外就是网络在推理（或测试）的时候对内存的消耗，这个是我们在实际产品中（尤其是在移动设备上）部署深度学习模型时最关心的问题。不同于训练，一般神经网络的推理过程不需要一直保留每一层的输出，因此可以在每计算好一层的特征后便将前面层特征占用的内存释放掉。而 DenseNet 则需要始终保存所有前面层的输出。但考虑到 DenseNet 每一层产生的特征图很少，所以在推理的时候占用内存不会多于其他网络。

使用 DenseNet 有什么需要注意的细节？

总的来说，训练 DenseNet 跟训练其他网络没有什么特殊的地方，对于训练 ResNet 的代码，只需要把模型替换成 DenseNet 就可以了。如果想对 DenseNet 的模型做一些改进，我们有一些建议供参考：

DenseNet 用于图像语义分割和物体检测等视觉任务效果如何？

由于 DenseNet 不容易过拟合，在数据集不是很大的时候表现尤其突出。在一些图像分割和物体检测的任务上，基于 DenseNet 的模型往往可以省略在 ImageNet 上的预训练，直接从随机初始化的模型开始训练，最终达到相同甚至更好的效果。由于在很多应用中实际数据跟预训练的 ImageNet 自然图像存在明显的差别，这种不需要预训练的方法在医学图像，卫星图像等任务上都具有非常广阔的应用前景。

在图像语义分割任务上，CVPR 2017 的一篇 workshop 文章《The One Hundred Layers Tiramisu: Fully Convolutional DenseNets for Semantic Segmentation》 () 表明，基于 DenseNet 的全卷积网络（FCN）模型在不需要预训练的情况下甚至可以达到比其他预训练方法更高的精度，并且比达到相同效果的其他方法的模型要小 10 倍。

同样，在物体检测任务上，我们即将发表在 ICCV 2017 上的工作也表明，基于 DenseNet 的检测方法可以在不需要 ImageNet 预训练的情况下达到 state-of-the-art 的效果，并且模型参数相比较其他模型要少很多。这是目前为止第一个不用 ImageNet 预训练的基于深度学习的物体检测系统。文章会在 8 月初放到 arxiv，敬请关注。

头图 via，正文图片由作者提供

特约稿件，未经授权禁止转载。详情见转载须知。

CVPR 2017最佳论文作者解读：DenseNet 的“what”、“why”和“how”｜CVPR 2017

谷普下载提醒您

本文链接：http://www.gpxz.com/article/8bb6f4dff25dbb2b4308.html

上一篇：显著降低模型训练成本的主动增量学习CVPR20

下一篇：2017错过CVPR绝对不能错过GAIR大讲堂错过了

长春洗车机厂家

洗车设备系列电脑洗车机,全自动洗车设备,无人洗车机,价格实惠,适合加油站及4S店,汽车修理厂,汽车美容连锁店等汽车售后服务业使用的隧道式洗车机,龙门往复式洗车机和公交客运站使用.

网站模板 2024-09-15 00:40:49

湖北新为光微电子有限公司

电影视频 2024-07-08 23:51:35

广州驰早信息科技有限公司

广州驰早信息科技有限公司为企业提供短信平台、短信通道、短信发群发服务。

商业服务 2024-08-18 13:27:14

365导航网

365ZV是一款方便、大气的简约导航/书签管理器,覆盖技术导航,安全导航,资讯导航,电影导航等多个领域。

电影视频 2024-07-16 11:36:50

昌乐鲁光塑料制品有限公司

我公司以先进的生产工艺和过硬的产品质量被全国各地用户认可，鲁珍牌鲁光农膜成为了农膜行业中的知名产品。比如：高效精品地膜、灌浆膜、PO膜、强力消雾二层膜、西瓜专用膜、金桔专用膜、葡萄专用膜、草莓专用膜以及销往海南、云南、贵州、四川等的抗紫外线专用膜。

行业信息 2024-08-18 18:07:14

多一个维度看世界港口

四维港口是一个立足全球海运垂直领域，具有全球影响力的一个海运资源整合共享平台。我们从您附近港口这一个点开始，以点带面，辐射到全世界每一个角落，我们还联合了各大船公司船期、航线，以及码头，集装箱，拖车，报关等资源。

下载资源 2024-11-19 23:33:14

逍遥静居

记录生活和学习的个人博客

博客日志 2024-12-03 17:14:27

高清美女图片免费下载

免费下载高清美女图片，尽情欣赏各类美女图片，满足你对美女图片的欣赏需求，快来收藏你喜欢的美女图片！

图片摄影 2024-12-03 17:22:20

卧式暗装风机盘管

德州旭日空调设备有限公司多年专注生产卧式暗装风机盘管，组合式空调机组，轴流风机，消防排烟风机，排烟防火阀，空调机组，新风换气机，暖风机，风幕机，水箱，中央空调配件等通风设备，竭诚为你服务、欢迎大家光临！

商业服务 2024-12-04 00:28:02

日喀则招聘信息网

日喀则人才信息网，致力于服务西藏自治区各地区的医院及同城企事业单位，打造专业的人才市场。在这里，招聘信息丰富，找工作变得简单快捷，为求职者提供最新|最全的招聘信息，助力人才与企业高效对接。

商业服务 2025-02-06 12:07:37

汽车电池回收

中国电池市场网是中国最大的电池回收公司，为用户提供汽车电池回收，三元电池回收，磷酸铁锂电池回收，钴酸锂电池回收，电池正极负极回收，电池模组回收，锂电回收，三元电池回收公司，电池回收公司。

汽车一族 2025-02-07 20:11:14

鸡排饭加盟怎么样 (鸡排饭加盟怎么加盟)

当人们进入忙碌的生活状态后，时间观念增强，无论是生活习惯还是饮食理念都发生了变化，便捷营养用餐成为了标配，此时整个餐饮市场的发展趋势和方向也随之而变，经过创立改良来更好的满足顾客的需求，鸡排饭就是很有代表性的，它能够将鸡排和米饭结合，给大家带来便利服务，也引起了很多智慧之选者的眼球，那么鸡排饭加盟怎么样，鸡排饭加盟怎么样，品牌加盟的创...。

2024-12-21 19:32:33

步西尼再次喜添3位成员！好消息不断 (步西尼是什么牌子)

俗话说，万事万物，不进则退，步西尼作为一个服装连锁品牌，就深谙此俗语暗藏的人生哲理，在多年的市场运营中，一直保持强劲的前进姿势，不断拓展自己的品牌版图，在国内开设多家连搜加盟店，这不，近日又传出好消息，在贵州、江西、浙江等地又开设了三家连锁加盟店，今天，小编就来给大家介绍一下这三家店，不过在介绍这三家店之前，小编先来简单介绍一下这个如...。

2024-12-02 22:09:51

AI 为什么雷锋网研究院安防企业抓不准客户痛点 (ai为什么这么难用)

AI时代的鱼肚白正现，变革前夜，大方向已定，真正的难点无疑在于寻找，破局点，千亿、万亿市场之下，哪些是一颗颗冒着火苗的晶石，哪些只是包裹着光泽的煤渣，需要深入行业，细细考察，约翰·科特在其著作，变革，和，变革之心，中说，身处时代中的我们，该如何寻找破局点，如何跳出自身心智局限，站在第三方视角审视行业与企业，行业何所痛、企业何所需当前...。

2024-11-30 22:51:47

联结国报告致少量平民死亡过去五周以军继续袭击加沙北部 (联合国报告)

联结国人权事务初级专员办事处外地时期12日发布最新报告，谴责以色列军队在过去5周时期继续袭击加沙地带北部，造成少量平民死亡，以军的围攻，切断了外地民众失掉人道主义声援物资、医疗与急救服务的门路，报告称，自往年10月6日以军在加沙北部增强进攻以来，该机构已记载到至少17次以军袭击报告，每次都形成了10人以上死亡，其中，至少有12次袭击，...。

2024-11-13 15:28:02

4年内转企业3次购置愈见幸福课程操持退费不时不给予回复 (4年的公司转让可以转多少钱)

申明，1.以上内容仅代表揭发者自己，不代表黑猫揭发立场，2.未经授权，本平台案例制止任何转载，违者将被清查法律责任，3.黑猫揭发处置揭发不收取任何费用，凡以黑猫揭发名义不要钱的均为混充、诈骗行为，请及时报警并与黑猫官网反应，揭发邮箱heimaotousu@vip.sina.com，4.请大家选用官网渠道处置生产纠纷，不要轻信第三方机构...。

2024-07-17 16:03:34

删完不退钱！！恶意删我的付费信息 (删除好友对方退款怎么没到账)

2024-07-17 13:11:01

宝骏610能源方面才干突出 (宝骏610能跑滴滴吗)

能源方面，宝骏610全系搭载的是1.5LDVVT人造吸气发起机，最大功率82kW，峰值扭矩145Nm，虽然能源输入不算充沛，但足以满足毕业生们的用车诉求，更关键是，除开5速手动外，它还提供了6速手自一体变速箱，关于新手和女性而言，这样的变速箱设计岂但更为便利温馨，同时也在油耗经济方面有较好的体现，不至于在油费方面让毕业生们感到惶恐，至...。

2024-07-06 21:24:38

一起赴抢险一线中部战区已设前方指挥部！省级党政一把手和两位上将 (一起抢劫有没有)

据，天津资讯联播，信息，8月8日，天津市委书记陈敏尔、市长张工区分与中部战区司令员黄铭、政治委员徐德清，武警部队副司令员白文祥一行到静海区大清河右堤审核会商天津市防汛抗洪救灾上班，据中部战区官网微信信息，8月7日下午，中部战区在天津大清河抗洪抢险一线开设前方指挥部，对负担天津方向抗洪抢险义务的战区陆军、天津警备区、武警部队官兵、民兵力...。

2024-07-03 15:46:35

混凝土c50什么意思 (混凝土c50回弹强度值是多少)

C50混凝土中C50是示意混凝土的一个等级，混凝土的强度等级是指混凝土的抗压强度，混凝土的强度等级应以混凝土立方体抗压强度规范值划分，驳回符号C与立方体抗压强度规范值，以N，mm^2，或MPa计，示意，混凝土的抗压强度是经过实验得出的，我国最新规范C60强度以下的驳回边长为100mm的立方体试件作为混凝土抗压强度的规范尺寸试件，依照，...。

2024-07-02 14:48:15

御剑江湖百度游戏下载-御剑江湖手游百度版下载v2.0.0安卓版

御剑江湖百度游戏是一款仙魔大战回合制手游，游戏中打造了了黑暗动荡的上古世界，玩家将开宗立派携手同门道友齐统诸天万界！喜欢的朋友可以到绿色资源网下载体验一下！御剑江湖手游百度版简介：御剑在手，谁与争雄！快乐武侠，逍遥江湖！全新的据点玩法考验您的策略

2023-11-16 06:00:02

格志票推针式打印机驱动-格志票推针式打印机驱动v80.20160721官方安装版

格志票推针式打印机驱动是格志官方用于解决官方的票推针式打印机连接电脑的问题而制作的官方驱动软件，软件支持TM210A、TM220型号的票推针式打印机，有使用以上型号打印机的用户可以下载使用。基本简介适用于格志所有小票打印机机型，型号：TM210A、TM220功能介绍专门用于解决格志官方的票推针式打印机链接电脑问题。使用方法下载解压得到格志票推针式打印机驱动。

2023-11-07 10:20:05

LuxRender(3D渲染引擎软件)下载v1.5官方版-

LuxRender(3D渲染引擎软件),LuxRender是一款功能强大，专业实用的优秀渲染器软件，软件能够在Windows，MacOSX和Linux上运行，拥有超多便捷的功能，在这里大家可以随时随地对各种图片进行渲染，还支持多种渲染模式,您可以免费下载。

2023-08-11 17:25:08

文章推荐

运营商再迎大调整移动电信联通齐换帅 (运营商大会)

运营商高层变动终于尘埃落定，8月24日上午10时，中国移动方面正式宣布，原工信部副部长尚冰同志任中国移动通信集团公司董事长、党组书记，奚国华同志不再任中国移动通信集团公司董事长、党组书记职务，据了解，中国联通董事长常小兵也正式与中国电信董事长王晓初职位对调，中共中央组织部副部长王京清已经在电信和联通内部宣布了这一消息，随后两家运营商将...。

2025-01-30 20:56:18

网络百科

轮融资智芯原动宣布完成 B 英特尔领投 (智芯原动b轮融资)

8月28日，北京智芯原动科技有限公司，以下简称智芯原动，于深圳举办，智芯原动投融资暨新品发布会，，宣布成功完成B轮融资，并发布新一代智慧停车和智慧社区解决方案，据雷锋网了解，本轮融资由英特尔投资领投，松禾资本和峰瑞资本跟投，B轮资金将用于人工智能算法和芯片领域的研发，成立于2012年的智芯原动是中国专业从事人工智能算法和算法芯片技术研...。

2024-11-30 23:27:06

资讯动态

脑机接口爆发前夜世界机器人大会伦理挑战如何攻克资金掣肘技术瓶颈 (脑机接口发展)

脑机接口距离落地还有多远，上海大学人工智能与医工交叉研究中心主任杨帮华教授告诉，医健AI掘金志，，，资本市场对脑机接口行业还处于观望阶段，资金，是现阶段限制行业发展的一个重要因素，1973年，美国加州大学洛杉矶分校的计算机科学家雅克·维达尔在前人研究的基础上，做出了一个全新的设想，通过放置在头皮上的电极可检测到大脑发出的实时信号，对...。

2024-11-30 20:50:41

资讯动态

什么app上可以陪玩陪聊 (什么APP上买机票便宜)

1.Hiya语音，这里是陪玩陪练的最佳去处，人皮话多却不高冷，既能刚又能狗，陪伴你在游戏中畅游，众多小可爱都在用的app，2.伴伴，如今最流行的游戏交友平台，这里汇聚了众多优质男女，丰富的社交游戏等你来体验，3.猎游，超有人气超火爆的语音连麦交友、游戏陪练开黑app，让你在游戏中不再孤单，4.皮皮，语音交友、线上派对，这里是最受年轻人...。

2024-11-19 01:37:33

资讯动态

以军对黎巴嫩首都贝鲁特南郊发起激烈空袭 (以军对黎巴嫩首都连发11次袭击)

△黎巴嫩首都贝鲁特，资料图，外地期间10月7日晚，以色列国防军发言人阿维凯·阿德拉伊经过其社交账号颁布，撤退令，，需要黎巴嫩首都贝鲁特南郊两栋修建左近的民众迅速撤退至距离该修建500米以上的区域，并称以军将对黎真主党在该地的设备启动打击，据多家黎巴嫩媒体报道，，撤退令，颁布约半小时后，以军对贝鲁特南郊发起了激烈空袭，总台记者王寅，点...。

2024-11-13 07:11:41

欧美电视

why 2017最佳论文作者解读 CVPR CVPR DenseNet 和 2017 what 的 how (why20130806TFB)

DenseNet 的基本结构

DenseNet 是受什么启发提出来的？

DenseNet 有什么优点？

密集连接不会带来冗余吗？

DenseNet 特别耗费显存？

使用 DenseNet 有什么需要注意的细节？

DenseNet 用于图像语义分割和物体检测等视觉任务效果如何？

相关文章

文章推荐