深度学习集体瓶颈产业化加速时代CV研究出路在哪里

文章编号：45546 资讯动态 2024-12-09 CVPR 计算机视觉自动驾驶深度学习

夏威夷当地时间7月26日，CVPR 2017最后一天，李飞飞教授等学者在ImageNet workshop上缅怀过去8年计算机视觉（CV）发展的ImageNet时代，同时宣布挑战赛最终归于Kaggle。

同一天上午，WebVision也公布了第一期获奖名单。

WebVision竞赛由苏黎世联邦理工、Google Reasearch、卡耐基梅隆大学等共同组织。但相较而言，WebVision所用数据集直接从网络爬取，没有经过人工标注，含有大量噪音之外，数据类别和数量也远大于ImageNet比赛所用数据，所以难度也高很多。

所以，ImageNet为什么结束？WebVision将如何推动CV发展？CV学术与应用研究的出路又在哪？带着这些问题，雷锋网AI科技评论与多位计算机视觉专家进行了交流。

深度学习集体瓶颈，产业化加速时代CV研究出路在哪里？

在CVPR研讨会上，李飞飞教授作为谷歌研究院代表暨比赛赞助方，向码隆科技算法团队颁发了WebVision冠军奖项

为何CVPR 2017没有惊喜？

六天会议过程中，CVPR 2017的论文成果通过oral presentation、workshop、poster、spotLight等环节普遍都得到了展示，但业内人士普遍认为，“今年并没有一个特别让人兴奋、惊喜的成果出来。”香港中大-商汤科技联合实验室林达华教授解释称，包括「Densely Connected Convolutional Networks」等最佳论文在内，我们看到了很多不同的网络设计的想法和切入角度，这些扎实的工作推动了现有体系、架构的一步前进，但是，却普遍缺乏一个根本性突破（fundamental breakthrough）。

关于计算机视觉和模式识别的研究，过去数年依靠ImageNet数据集之下，通过深度学习该领域获得长足的发展。但是，如WebVision主办方成员李文博士指出，依赖于数据标注进行训练，这也是过去到现在CV研究到达了瓶颈的原因。因为，很多实际场景中是没有大规模标注数据的，如果WebVision希望推动半监督或无监督学习进行图像理解的初衷能够实现，将更符合现实的应用。

地平线机器人技术创始人及CEO余凯接受雷锋网采访时指出，“现在的深度学习其实是一个有问题的框架，基本是用大数据和很多标注数据来训练，这过去几年很成功，但不代表是正确的方向。”余凯表示，现在的计算机视觉的系统是一个（特征为）training system的训练，而不是一个learning system，我们要从training system变成learning system，让机器主动，并结合数据的结构、时间空间结构去学习，而不是被动地用人工训练来标注它。“在自动驾驶领域尤其重要，因为驾驶中永远有好多corner case，这些在训练数据集里面是没有的。”

对于当前CV研究现状，林达华教授指出，“如今似乎是有新的成果诞生但又有所停滞的状态，就像当年deep learning流行起来之前几年的状态——虽然各种思路百花齐放，但是很多核心问题都尚未取得新的突破性进展。”

不过，面对今年来自全球各地超过五千人的参会盛况，林达华教授说道：“ 现在处于承前启后的阶段，大家都非常关注计算机视觉这个领域。目前很多研究组都在积极开拓新的问题和方向，我相信未来一两年内能够在多个方向实现新的突破。”

不过，面对今年来自全球各地超过五千人的参会盛况，林达华教授说道：“现在处于承前启后的阶段，大家都非常关注计算机视觉这个领域。目前很多研究组都在积极开拓新的问题和方向，我相信未来一两年内能够在多个方向实现新的突破。”

以大公司，比如腾讯AI Lab的两篇论文为例——「Deep Self-Taught Learning for Weakly Supervised Object Localization」，提出依靠检测器自身不断改进训练样本质量，破解弱监督目标检测问题中训练样本质量低的瓶颈；以及「Diverse Image Annotation」，用少量多样性标签表达尽量多的图像信息，该目标充分利用标签之间的语义关系，以使得自动标注结果与人类标注更加接近——都强调了模型的自主学习和理解的方法的突破。

寻找下一个“突破”的方向和出路

在今年的CVPR上，录取论文涉及的领域占比最高的五类是：计算机视觉中的机器学习（24%）、物体识别和场景理解（22%）、3D视觉（13%）、低级和中级视觉（12%）、分析图像中的人类（11%）。

所谓的“突破”，即是大家都迫切希望解决这个问题，但是暂时又没有很好的方法来解决，那么就看谁提出了很好的方法。从今年CVPR的成果来看，data set的研究依旧火热；不过，林达华教授指出，到现在，ImageNet基本上做到一个极限了。“当一个事情的标准做到98%、99%的时候，从学术的角度来说，这个事情做到这个程度，学术界的使命差不多终结了。”

所以，无论是新升级的WebVision竞赛，还是大公司的研发——对于做学术的人来说，如何寻找新的挑战？

林达华教授向雷锋网AI科技评论介绍，在其实验室的研究下，总结起来CV领域的突破方向主要有三个，而它们各自的未来和面临挑战是怎样的呢？

方向一：做更大更有挑战性的数据集

深度学习集体瓶颈，产业化加速时代CV研究出路在哪里？

在WebVision的workshop上，Google科学家介绍了他们如何用300Million的3D图片做deep learning。而在更早之前，雅虎被收购前也发布了一个“YFCC 100M”，数据库达到亿级。

不过，这些数据最大的问题是，上亿的数据集，像ImageNet那样把标签做好，几乎是不可能的事情。在数据量庞大的情况下，带来新的挑战是：怎么提供标签？同时，每个领域的AI应用都需要各自领域的数据集，是需要每一个领域都标注一个自己的ImageNet？显然这样的效率难以被产业界接受。

所以，现在大家也不选择提供标签了，比如Google可能就直接通过data采集了一些标签。只是也没有完全百分百能够确认标签是对的，就在于校验一下准确率达到70%、80%。WebVision比赛最重要的特点就是采用的非人工标注，而是通过特定的标签在互联网上搜索1000个类的图片，这样就容易引起图像和标签含有大量的错误信息（噪声）。这不同于“干净”的ImageNet数据，图片内容和对应的标签都非常单一和清楚。

深度学习集体瓶颈，产业化加速时代CV研究出路在哪里？

“那么，怎么样使用这些有噪音的数据？这其实是带来了一个非常大的挑战。我们内部拿现有的视觉模型和学习方法在有噪音的数据集上测试过，发现不用说20%，哪怕是10%的错误标签都会对性能产生严重的破坏。”林达华教授说道。

理论上说，如果有十倍以上的数据量，以及一个好的方法的话，机器识别和理解的水平必定要超越原本ImageNet的水平，但目前只能达到不相伯仲的结果。那么问题就来了：是要投入一些资源，继续做一百万级的标注数据，还是就想办法去解决上亿的数据集问题？

“这是一个很open的领域。”没有标注，就没标准参照，机器怎么处理这种带噪音数据？如何把握机器识别的准确性呢？……这些都是有待探索的问题。

作为本次WebVision第一名获奖得主，码隆科技首席科学家黄伟林博士向雷锋网AI科技评论表示，所以，要实现这个突破，需要发展半监督（semi-supervised），甚至无监督（unsupervised）学习。这就需要设计更好、更优化的损失函数（loss functions），来减少模型训练对标签数据的依赖。对于更复杂的图像分割任务，最重要的应该发展弱监督（weakly-supervised）学习算法，以尽量避免像素级别的标注。

在这个过程中，最近很火的生成式对抗网络（Generative Adversarial Networks，GAN），可以自动生成大量的人工样本，这些人工样本对训练缺乏样本和标注的图片数据有很大帮助，为解决多层次图像理解提供重要的思路。另外，如何利用少量的图片数据和标签来训练足够优化的深度模型也是重要的一个课题，而课程学习（curriculum learning）对提升模型的泛化能力非常有效。

不过，如果扩展到更广阔的计算机视觉应用领域，业内人士会觉得，这还不太够。这就是下一个方向需要解决的问题。

深度学习集体瓶颈，产业化加速时代CV研究出路在哪里？

方向二：需要带有结构的数据

“就是说我觉得计算机视觉要和robotics结合在一起，它是用时间的维度去看场景的变化，什么是前景什么是背景区，什么是一个物体，什么是形状。最后理解到的结果应该是有空间信息的语义识别理解，现在都还很少，都是用弱监督、生成对抗的方法去做。”地平线机器人技术创始人及CEO余凯指出，

所以，这里不是指NLP领域的所谓结构化数据。在自动驾驶领域中，林达华教授指出，很多人做自动驾驶的预测时，需要做路线的检测、三维重建等，这些许多任务当中的每一个，从传统学术的研究角度，是分开研究的。但是，实际中要解决这些问题，比如驾驶，就是个综合的问题，人开车时也不会把任务分成若干个方向分别做判断。

以往的图像分割，每一次分割用一次CNN这样的方法，并不能综合处理这些任务。比如，通过地图，周边环境明明存在一个空间结构，图像分割并不能将这些结构性空间考虑全面，“ 单纯的语义分割，比如一张图中标出这50万个像素是路，另外80万个像素是建筑物，这是无法直接指导驾驶的。”

林达华教授表示，从学术的角度看，只有把结构数据融合在一个几何的框架下面，才能知道客观世界是什么——前面多少米是人、是建筑，前面的车开得多快……这才是实际有用的成果。

“所以，所谓的结构就是有多个不同的方面，相互之间是有着数学上、语义上、物理上的各种联系。在多种补充结构相互联系的系统里面，用系统的角度，带着结构的角度，去系统地观察，把不同的视觉联合在一起解决问题，我觉得也是一个现在正在开始推进的方向。”

方向三：做视频领域的ImageNet

承接上述结构数据处理的问题继续展开想象，就会发现，整个CVPR 2017中，视频理解相关的研究大约只占整个会议论文不到30%的水平，但实际中这个问题的应用却是极其广泛。人脸识别、监控、互联网视频、自动驾驶等，全部有巨大商业价值的视觉数据，都是以视频的形式存在的，不是一帧一帧的。

视频相对与图像而言，最重要的一点就是多了一个维度：时间轴。怎么去利用这一个新的维度，利用时间的关系……

据了解，今年就有很多大公司、研究小组都做了新的视频数据集（video>挑战：学术与商用叠加的距离

WebVision在今年的CVPR大会上开设了一个专题，上面提出了 Visual understanding and learning from web target="_blank">转载须知。

谷普下载提醒您

本文链接：http://www.gpxz.com/article/25a42ab618c2fbddbb82.html

上一篇：2017精彩论文解读综合使用多形态核磁共振数

下一篇：对Xception2017精彩论文解读一种深度可分离

360企业安全云

360企业安全云广泛应用中小企业团队的终端安全管理，专注于企业级用户的在线安全解决方案，简单高效的后台控制中心与安全功能管理，解决企业对安全统一管理的需求。360企业安全云提供统一终端安全管理、勒索病毒防护、上网行为管理、数据安全管理、软件管理、资产管理等6大核心功能，致力解决企业用户普遍的网络安全问题，助力企业数字化转型，让网络更安全，管理更轻松。

网络应用 2023-12-12 18:43:02

神将世界官网

4399神将世界玩家化身武魂战三国，发掘掩藏梦境中的秘密。聊天交友、配招连击、打法视频，4399神将世界陪您一起体验神幻之旅

电影视频 2024-01-14 18:42:40

【远东电缆旗舰店】主营电缆附件

买卖宝mmbao.com入住供应商【远东电缆旗舰店】:公司主要致力于架空导线、电力电缆、电气装备用电线电缆、特种电缆等四大类线缆产品的系统研发、设计、制造、营销与服务。产销连续多年位居...

设计美化 2024-08-18 01:31:16

最新范文网

最新范文网，实用的精品范文美文网。最新范文网提供优质实用的范文大全，包括观后感，读后感，心得体会，文案句子，发言稿致辞，短美文等，供大家免费下载参考，帮您更好地进行文档写作。

下载资源 2024-07-13 06:05:00

天尼威环保

江苏天尼威环保科技有限公司，咨询电话：15261590666，是一家专业生产污泥和污水处理设备的厂家，产品包括：螺压式污泥脱水机、移动式污泥脱水车、自动加药装置、高效溶气气浮、水处理格栅等，拥有多项专利，我们坚持诚信经营，用户至上的理念，为用户提供优质的产品和服务。我们可以根据您的需求和实际情况提供适合的水处理解决方案。欢迎来电咨询！

商业服务 2024-11-13 14:18:18

珠海汇久科技有限公司

科技创新 2024-11-13 18:04:11

立信会计师事务所（特殊普通合伙）

立信会计师事务所拥有专业知识及技术支援，为客户提供顶尖的专业服务。立信与其他BDO国际网络成员均能透过综合的会计软件及技术，确保客户得到一致的高品质服务。

网络应用 2024-11-19 17:00:15

商业地产大讲堂

商业地产大讲堂――专注于商业地产培训，致力于为商业地产开发企业提供商业地产领域最前沿的培训课程，课程涉及商业地产选址、项目定位、规划设计、招商定位及策略、推广销售租赁、运营管理、项目资本运作等，提供全方位的优势培训服务，全面提升商业地产整体行业水平。

编程开发 2024-11-21 22:15:17

博云

博云专注为企业级客户提供自主可控，以容器和云资源调度技术为基础的云操作系统相关的基础设施软件、解决方案与技术服务，包括人工智能基础设施产品族、容器云产品族、云资源管理系统、开发支撑软件DevOps四大系列产品与服务。

手机软件 2024-11-24 17:21:43

金花葵健康科技研究院（北京）有限公司

健康医疗 2024-11-27 14:27:54

青秧灵感

写论文的这些时间，青秧来帮你节省

校园学生 2024-11-27 15:16:34

西安法拉电气有限公司

产品主要定位于高储能密度特种电容器，电力系统用特高压特种电容器等。

编程开发 2025-02-02 19:54:24

昕孕瑜伽加盟怎么样如何开店 (昕孕瑜伽加盟费多少钱)

现在女性对自己的健康要求都很高，特别是孕产妇更是大家关注的对象，很多创业者也能根据这一类人群的需求开展各种服务项目，昕孕瑜伽就能满足很多消费者的需求，给大家提供各种课程体验和选择，昕孕瑜伽加盟怎么样，如何开店，这也是创业者比较关注的问题，昕孕瑜伽专注于孕妇产妇健康已经有20多年时间，服务顾客数量突破上百万，公司有自己的线上课程平台，采...。

2024-12-21 19:28:16

搜索业务总裁向海龙辞职；被美国列入管制实体名单百度现首次亏损华为回应丨雷锋早报 (搜索业务总裁招聘)

美国将华为列入管制，实体名单，，华为回应当地时间15日，美国商务部发布声明，称将华为公司及其附属公司列入管制实体名单，华为发布声明称，反对美国商务部工业与安全局，BIS，的决定，这不符合任何一方的利益，会对与华为合作的美国公司造成巨大的经济损失，影响美国数以万计的就业岗位，也破坏了全球供应链的合作和互信，嫦娥四号证实月球背面幔源物质为...。

2024-11-30 20:26:50

华为WATCH Ultimate非凡探索绿野正式开售探索不止！绿野新生 (华为watch4)

在智能穿戴领域，华为一直致力于以领先的美学设计和科技实力赋能产品，不断突破创新边界，10月22日，在华为原生鸿蒙之夜暨华为全场景新品发布会上，华为WATCHUltimate非凡探索系列再添新成员——绿野传奇，以其独特的自然灵感设计和全面升级的功能，为各领域果敢无畏的精英们开启探索世界的全新篇章，华为WATCHUltimate系列自问世...。

2024-11-30 14:53:08

美联储发表降息25个基点 (美联储宣布降息意味着什么)

外地期间11月7日，美国联邦储藏委员会发表，将联邦基金利率指标区间下调25个基点，降至4.5%至4.75%之间的水平，往年9月18日，美联储发表将联邦基金利率指标区间下调50个基点，降至4.75%至5%之间，这是美联储自2020年3月以来初次降息，总台记者张颖哲，...。

2024-11-12 18:00:33

四川航空不给操持非被迫退票因父亲住院须要关照 (四川航空不给饭吃)

7月1日上午8，20左右，我父亲给我打电话，通知我他的嘴角和眼脸有点歪，身边的人说状况看起来比拟重大，须要及时尽快去医院审核，我接电话以后立刻给他挂了医院的号，随后父亲到医院启动审核后，医生说是面瘫，由于父亲年迈，兼并全身基础性疾病，医生说须要立刻住院治疗，因老人家住院需及时回去关照，我不得不于7月1日半夜退了我，李邕梅身份证号为45...。

2024-07-17 09:09:38

外围圈都有谁只要他们才干左右拜登政治出路挺拜登继续竞选的 (外围圈子到底什么样的)

[全球时报特约记者王渠]因在2024美国总统大选首场电视答辩中，车祸般的体现，，现总统拜登连日来被美国各界要求退选，连独裁党大佬、美国前众议院议长佩洛西都在10日地下喊话，称，留给拜登的期间不多了，不过，拜登依然拒绝退选，第一夫人，吉尔·拜登的前资讯秘书迈克尔·拉罗萨在接受美国广播公司采访时示意，只要拜登的，小圈子，——关键由他的...。

2024-07-13 14:31:41

尼桑皮卡多少钱多少钱? (尼桑皮卡多少钱一辆新车)

尼桑皮卡的多少钱大概在13万左右，这一多少钱使其成为了十分具备竞争力的车型，尼桑皮卡仰仗其出色的性能和适用性，在市场上赢得了宽泛的关注和好评，皮卡车型不时以来都被誉为最适用的车型之一，它们既可以用于拉货，又可以作为日常驾驶的车辆经常使用，近年来，随着国际对皮卡车的政策解禁，越来越多的消费者开局选用购置皮卡，这类车型不只具备突出的适用性...。

2024-07-07 06:24:41

公众捷达2019款柴油版 (捷达20款)

汽油发起机在做功冲目前市面上在售的，曾经没有柴油版的轿车了曾经烧柴油的轿车有公众捷达19公众SDI柴油发起机，公众宝来19公众TDI柴油发起机老款A6TDI等如今烧柴油的大都是SUV例如飞驰GLE级，欧洲有碳税，而柴油车的碳排放相对较少，所以人们自愿决定柴油车目前中国没有这个政策，对汽油车还是比拟友好的要趋利避害，决定更无利的汽油车也...。

2024-07-07 00:18:29

标致301怎样样? (标致301怎么打开前车盖)

标致301还是不错的，这车的品质和性能方面是不错的，买来家用是挺好的，1、标致301是一款合资紧凑型轿车，同时也是一款法系车，最近几年，法系车在国际的销量和影响力都越来越低了，重要要素还是法系车的翻新力无余，并且没有太多的亮点；2、并且随着国产车的始终崛起，很多人在选车的时刻都会思考国产车，然而法系车对比国产车来说还是有着必定的长处的...。

2024-07-06 15:02:13

北斗卫星多少颗 (北斗卫星多少个卫星)

北斗卫星导航系统由空间段方案由35颗卫星组成，包含5颗静百止轨道卫星、27颗中地球轨道卫星、3颗歪斜同步轨道卫星，5颗运动轨道度卫星定点位置为东经58.75°、80°、110.5°、140°、160°，中地球轨道卫星运转在3个轨道面上，轨道面之间为相隔120°平均散布，至2012年底北斗亚太区域导航正式申请时，版已为正式系统在西昌卫星...。

2024-07-05 12:28:01

正版手游排行榜前十名-最热门的正版手游推荐

小伙伴们在体验各种手机游戏的时候，一般都是想要体验正版的游戏内容，所以下载一个靠谱的正版手游比较重要，玩游戏都是玩各种热门的手游，将会带来最高的人气，下面就让小编给大家分享最热门的正版手游推荐。

2023-11-15 17:22:24

陕西相声演员玉浩遭遇维权难：不接受开发商和解就无法收房|交房|物业费|陕西省|315消费者权益日

相声演员玉浩买房遭遇维权难

2023-09-02 16:49:35

文章推荐

百度卫士2.0体验版发布 (百度卫士2024最新版下载安装)

日前，百度公司发布了百度卫士2.0体验版，该版本增加了抢票功能，完善了健康状态检测，浏览器保护入驻百宝箱等，具体更新如下，百度卫士2.0更新日志，一、新增百度抢票功能，二、一键锁定IE浏览器主页和默认浏览器，不再被篡改，保证系统安全，三、主页清晰展现是否存在高危系统修复项，智能提示、一键优化，四、Win8系统增加Metro界面开机小贴...。

2025-01-31 01:40:40

网络百科

万亿新零售市场的一张好牌? 小程序 (新零售业巨头)

随着跳一跳、弹一弹和拼多多等多款应用的刷屏，围绕强势微信衍生的小程序，在这个时间节点被推向了，风口，那小程序是否是万亿新零售市场的一张好牌呢?对于坐拥10亿用户的微信来说，很多线上线下的场景都会沉淀在微信里，微信生态里承载着非常多的可能性，微信只需要加强线下或特定场景里面，小程序，的使用习惯，便可撕开一个大的突破口，颠覆一个新的领域...。

2025-01-30 19:22:07

网络百科

嗒蟹肉蟹煲加盟吗 (蟹煲肉的做法)

肉蟹煲是当下备受人们欢迎的一种美食，相传它起源于明朝时期，主要选用的是砂锅作为主要的烹饪器皿，选用新鲜的肉蟹和虾作为主要的原材料，制作出来的美食具有营养丰富的特点，因此自进入市场中以来，就有着可观的销量，让创业者们看到了其中的商机，嗒蟹肉蟹煲自2016年成立以来，已经在全国间了一百五十多家连锁加盟门店，在美食市场中有着数一数二的地位，...。

2024-12-21 17:06:13

创业加盟

荐会 (海南推荐会)

作为当前炙手可热的研究领域，人工智能的发展可以用，日新月异，来形容，与此相对应的是，尽管目前已经有着诸多人工智能相关的学术会议，但这些学术会议或许过于大而全和不能很好体现出这一领域的最新研究发展趋势，因而一些细分领域的学者们开始，自立门户，，当中的代表如国际表征学习会议，InternationalConferenceonLearnin...。

2024-12-10 00:34:14

资讯动态

韩国科学家要用这支马克笔打印小红花 3D 送你一朵 (韩国科学家要学中文吗)

出现于上世纪90年代的3D打印技术，能把计算机上的模型变成实物，可以说是颠覆了人们对传统生产制造的认知，2015年，原本任职于SpaceX和蓝色起源的两位90后创立了RelativitySpace公司，旨在3D打印出用于商业轨道发射服务的运载火箭，火箭发动机正在进行关键测试，2017年，瑞士联邦理工学院运用3D打印技术制造出了世界上...。

2024-12-03 18:16:12

资讯动态

深度学习集体瓶颈 产业化加速时代CV研究出路在哪里

为何CVPR 2017没有惊喜？

寻找下一个“突破”的方向和出路

方向二：需要带有结构的数据

方向三：做视频领域的ImageNet

相关文章

文章推荐

深度学习集体瓶颈产业化加速时代CV研究出路在哪里