不要净吹牛逼 AI 踏踏实实做研究 对 Marcus 领域开炮 Gary (别吹牛了)

Gary Marcus 对 AI 领域开炮:踏踏实实做研究,不要净吹牛逼

雷锋网 AI 科技评论按:纽约大学心理学教授 Gary Marcus 曾是 Uber 人工智能实验室的负责人,如今他是Robust.AI 的创始人和 CEO,近期他还出版了一本书《Rebooting AI》。但Gary Marcus 并不是对深度学习的学术和应用成果津津乐道的技术人物,相反地,他经常对深度学习领域「泼冷水」,2018 年时他就曾在 arXiv 上公开文章, 指出深度学习存在十个问题 。

近期Gary Marcus 又发表了一篇文章,更针对性地指出 AI 相关的信息传播也有很大的问题,不仅媒体经常夸大报道,许多研究结构和学者也对 AI 的能力夸下海口。Gary Marcus 认为这是危险的,结合很多具体例子对这种风气进行了批评。雷锋网 AI 科技评论全文翻译如下。

每隔几天就要见证一次新的技术革命

媒体从来都会以满腔的热情报道 AI 或者纳米或者量子之类的科学领域的新进展,哪怕只有指甲盖大的成果也经常被说成是重大突破,然后不久之后就能改变整个世界云云。我们必须承认,有时候科学成果的意义确实被低估了,比如晶体管刚刚发明的时候并没有引发什么热潮,也没几个人在互联网刚刚出现的时候就预期到了它在几十年后迸发出的巨大潜力。

可是,随着每个晶体管、互联网这种级别的新成果出现,同时还会有成千上万被过度报道的小成果,这些想法或者产品设计可能从来都不会变成实物,又或者声称实现了室温核聚变之类的壮举但再也没有人能重现,最终只能静静地躺在文献库或者图书馆里,当初设想的美好愿景全都成了过眼云烟。

Gary Marcus 对 AI 领域开炮:踏踏实实做研究,不要净吹牛逼

之所以会出现这样的状况,是因为普通大众太喜欢听技术革命的故事了,小的技术进步要写得仿佛很大才能引起他们的兴趣。而研究人员们也经常成为媒体的共犯,因为他们也需要公众的关注度,这对他们的科研资金申请能产生切实的影响。可以说,当前这种科研成果经常被吹嘘炒作、然后就被悄悄遗忘的风气,不管是媒体还是相当一部分研究者都已经习以为常,乃至觉得「应当如此」。

过去的几周里刚好有那么几个好多知名媒体都在报道的大新闻,但可惜这几个报道都很有误导性

11 月 24 号,《经济学人》杂志发表了对 openai 的 GPT-2 文本生成系统的采访,而且故意说 GPT-2 给出的这些回答是「未经编辑的」,而实际上, 每个回答都是从 GPT-2 生成的 5 个候选回答中由人类挑选的,挑选标准是要语意连贯而且幽默 。这篇报道让大众以为能与人类自然交流的对话 AI 其实近在眼前了,但其实这只是一场表演。

知名 AI 专家 Erik Bryjngjolffson 转推了这篇采访,评价说这个采访「令人印象深刻」,以及「这些回答要比很多人类的回答还要通顺有趣」。从技术角度来说,这种通顺程度一方面来自于 GPT-2 训练时搜集使用了海量的人类撰写的句子,另一方面也是人类记者们精心挑选出了通顺有趣的句子。 所以作为圈内人的 Erik 本意是挖苦他们戏演得太假,在外行眼里却成了对这个系统、对这篇采访的高度赞扬 ,反倒对误解的传播推波助澜。后来 Erik 又发了一条推特澄清他的本意,但阅读量只有原来那条的 1/75 而已——这倒并不奇怪,吹捧巨大成果就是比严肃的澄清辟谣容易传播多了。

OpenAI 设计了一组神经网络,可以让机械臂学会玩一个专门定制的魔方。对外宣传的时候,OpenAI 在技术博客里用了一个有迷惑性的视频,让人误以为这个系统已经能从认识层面上理解魔方,但实际上它并没有真的学会如何解魔方。(实际上,仅仅针对求解魔方这个问题,1992 年的时候就有人提出了基于符号计算的解魔方算法,它不需要经过学习)

在这个视频里还有几件事没有体现出来,不仅这个定制的魔方是带有蓝牙传感器的,而且,在最好的情况下,随机打乱的魔方中也只有 20% 被成功还原了。在媒体报道里,这些细节都被忽略了,比如华盛顿邮报的报道是这样的「OpenAI 的研究人员说他们并没有明确地给机器编程教会它解魔方」,仿佛暗示解魔方是它自己学会的;后来华盛顿邮报发出了一则更正「更正为:OpenAI 的研究重点是让机械臂控制魔方的转动,而不是魔方的解法」。但是,正如前一个故事,会读这则更正启事的人,和阅读了原来的故事然后被误导的人相比,数量可谓不值一提。

还有两篇宣称用神经网络解决物理问题的论文也被过度报道了,甚至包括麻省理工科技评论(MITTR)这样的著名学术媒体,两篇论文仅仅是解决了复杂问题的经过高度简化后的某几个状况而已,但却被报道得仿佛完全解决了本来那个复杂问题一样。比如,有的报道写道「神经网络解决三体问题可以比传统方法快 1 亿倍」,但 首先,神经网络做的不是解决,而是近似计算,它仅仅近似计算了高度简化过后仅剩 2 个自由度的状况(简化前有 10 个自由度),而且这些天体的质量还要相同 。(详细论文解读见 这里 )

MITTR 的文章广为传播之后,我和 Ernest Davis 也撰写了一篇详细的批评文章,不过,这篇文章的转发数量,大概也就只有 MITTR 文章的 1/75 这个数量级而已。

过度乐观的研究人员们

不幸的是,AI 科研成果过度炒作的风气并不仅仅出现在媒体中。自从 AI 这个概念出现的几十年以来,即便是 AI 学术研究的领军人物里也有给它煽风点火的。从一开始就是这样, 1960 年代,AI 研究的几位奠基人就觉得可以集中精力研究,一个夏天搞定计算机视觉,以及十几年时间搞定通用人工智能。但如今,仅仅是计算机视觉都还没完全解决,通用人工智能更连门都没有摸到。

这种过度乐观的情绪在近几年也是一样,我们来看看这几位著名 AI 学者的例子:

另一方面,学术成果被误读的学者们通常都会保持沉默,说他们是默许了也可以。OpenAI 的首席科学家 llya Sutskever 就发推特表示《经济学人》对 GPT-2 的采访挺好的。当后来确认了采访里 GPT-2 的回答都是人工挑选出来的之后,我问了 Sutskever 是否还认同当时自己做出的评价,但Sutskever 没有回答。

再往前数一个月,OpenAI CTO Greg Brockman 自己就做了不少手工挑选的工作。他发推特说「我们把一篇 GPT-2 生成的短文投稿到了《经济学人》的青年作者文章栏目。其中一位评审者,并不知道这篇短文是 AI 写出来的,给出了这样的评价:文章用词考究,提出的观点都有证据支撑,不过思路的原创性并不高。」但 Brockman 没有说的是,还有几位评审者对这篇短文的评价要低很多,比如来自评审者 2 的「文章没有很快体现出论点,论点也并不新颖,太模糊,太激烈,有很多修辞问题」,评审者 6 也给出了非常低的评价「这篇短文并没有给问题做出完整的解答,也没有带来新的观点;它的论述水平不高,文章的用词、结构也很一般。除此之外,我觉得文章体现出作者对当前的气候策略以及 IPCC 撰写的科学文献都没有很好的理解」。对于读者来说,只要他们没有去查这个完整故事、只是读了 Brockman 的推特的话,是完全意识不到存在这样低的评价的。(其实,机器学习领域内的许多研究人员一直都觉得 OpenAI 一开始表示 GPT-2「太危险了所以不可以公开发布」的行为本身就是小题大做、言过其实)

学术研究人员们还有一个习惯也给「真正的 AI 近在眼前」的论调添油加醋,比如 DeepMind 就经常在论文里用专门的篇幅描写他们的成果未来的潜力,但是又很少提及潜在的限制是什么 ——如果是作为严谨的科学成果进行讨论,只说优点不谈缺点应该算不上正确的下结论的方式。另一方面,他们还会对论文中的实验场景设定做类比和引申,表明他们正在研究非常难的问题、正在攻克非常宏大的挑战,暗指他们目前使用的技术还可以解决更多的困难和挑战。但是我们需要知道,即便是比较复杂的游戏,也还和现实世界不是一回事。DeepMind 撰写的围棋 AI AlphaGo 和星际 2 AI AlphaStar 的论文都是这样,对潜在的限制几乎没有讨论。

好在并不是机器学习领域的所有学者都对自己的成果吹个没完,就在这一年中我先后听了Pieter Abbeel和 Yoshua Bengio 的演讲,都既精彩又克制,在介绍深度学习(以及深度强化学习)的优秀表现的同事,也坦诚指出了我们面前还有多少挑战、我们离终点还有多远。(具体来说,Abbeel 着重指出实验室的机器人技术成果和能在现实世界中工作的机器人之间还有很远的距离,Bengio 则强调了在现有的 AI 模型中加入因果推理能力的必要性)。 我多希望他们这样的态度能成为机器学习领域的正常状态 。当这不是常态的时候,政策制订者和普通大众很容易觉得迷惑,因为报道中的偏倚总是倾向于夸大成果而不是掩盖它,所以普通大众害怕的那个 AI 形象其实不仅现在不存在,可见的未来中也不会出现。

那么,这对做 AI 应用的、AI 商品化的人有什么损害呢?毕竟,如果鼓吹之下有更多的公众关注、更多的资金投入、更多的人员加入,也许我们实现通用人工智能的速度也能更快,似乎也不是什么坏事?

在我看来这是普通人遇到的一场悲剧,许多人看中了同一片领域里有机会,然后一拥而上、竭泽而渔,最后谁都落不到好下场。具体到 AI 这里,如果公众、政府、投资机构都发现 AI 其实只是画饼、AI 的长处短处其实和现实需求没有相符之处,那么一个新的 AI 寒冬可能就会到来。(1974 年开始的那个 AI 寒冬就是早期的狂热吹捧变成失望之后的后果)

我们现在从事后来看的话,有很多当时的热门事件其实都预兆了悲剧的结果:

聊天机器人 :Facebook 在 2015 年公布了一个名为 M 的聊天机器人系统,声称它可以给个人助理的能力范围带来革命性的升级。当时还没有成熟的 AI 技术可以实现他们设计的功能,但他们认为这是一个凭数据就能解决的问题,人类只需要回答最开始的几个问题,然后深度学习就会把后续的都搞定。等时间到了 2018 年,这个项目被取消了。

总体来说,2015 年的时候大家都对聊天机器人有充足的热情,然后如今领域内已经形成了共识,以目前的 AI 技术只能处理一部分有内容限制的对话,即便这样也无法保证完全可靠。当时做出承诺很容易,但是要做到就太难了。

Gary Marcus 对 AI 领域开炮:踏踏实实做研究,不要净吹牛逼

医疗诊断: IBM Watson 也承诺了很多做不到的事情,以至于医疗机构MD Andersen 癌症中心由于对结果不满所以终止了和 IBM Watson 的合作。现在看来,IBM 说要用 Watson 做医疗诊断肯定有吹嘘的成分。可能也有很多人期待 DeepMind 进入医疗诊断市场,因为 DeepMind 也和很多医疗机构有合作,可以获取很多数据,而且也有大量的计算和智力资源。但现实是,DeepMind 也一直都没有拿出什么有说服力的成果(DeepMind 的医疗业务也已经转给了谷歌)。即便只是在简单的、主要关注感知、额外带有一点点自然语言理解即可的医学图像分析任务中,把实验室成果搬到真正的医院里原来也相当困难。

Gary Marcus 对 AI 领域开炮:踏踏实实做研究,不要净吹牛逼

假新闻检测器: 2018 年 4 月,Facebook 创始人&CEOMark Zuckerberg 告诉美国国会,在未来的 5 到 10 年里 AI 可以开始帮助检测假新闻,但在今年(2019年)5 月,Facebook CTOMike Schroepfer 表示无法承诺在短期内做出可见的成果

无人驾驶汽车: 按照Elon Musk 的承诺,2020 年的时候我们就会有完全自主驾驶的汽车了,但目前整个自动驾驶研究领域的共识是,完全的自动驾驶要比大多数人预计的难得多,如果想要在高度限定的路况之外实现完全的自动驾驶,我们还需要很多年的时间

Gary Marcus 对 AI 领域开炮:踏踏实实做研究,不要净吹牛逼

如今,政府、大企业、风投都在 AI 相关领域做了许多投资,这其中的一大部分是直接针对深度学习的;而如果这些投入的资金发现深度学习的能力原来这么有限、原来当初的愿景这也实现不了那也实现不了,那么整个领域都会受到影响。如果完全的自动驾驶、对话机器人只是乐观地比原来预期的时间迟一两年,那可能并不是什么大问题。但这些技术、以及其它向大众承诺了的 AI 技术推迟的越久,我们面临一个新的 AI 寒冬的风险就越大。

一些建议

综上所述,有关 AI 的信息和报道出现不准确是常事。虽然也存在一些准确的报道,但即便是知名的新闻媒体也时不时会对学术结果做出错误的解读;企业出于自身宣传需要,常常在其中推波助澜;学术研究人员们,即便是知名的学者,也常常默许了对自己成果的错误解读,不做任何公开澄清。

有一部分信息是准确的:有些学者对于方法的不足非常坦诚,有些报道对成果的理解非常准确。但总体来说,整个风气仍然偏向于把任何的小成果不断放大,乐于宣称有各种革命性的改进。

这一切的后果可能会对这个领域产生反作用,过度激活的公众热情带来了当前的 AI 热潮,然后在公众变得失望之后带来下一个 AI 寒冬。

在Rebooting AI 中,Ernie Davis 和我一同提出了六条建议,每一条都希望可以帮助读者、记者们核对自己看到的信息是否客观、全面,以及让研究者们更慎重地评价自己的成果。

最后,如果每篇学术论文/技术报告以及媒体报道的最后都能加上几句冷静有建设性的、针对缺点的自我评价的话,能明显帮助避免大家对 AI 继续抱有不切实际的期待。

via thegradient.pub/an-epidemic-of-ai-misinformation/ ,雷锋网 AI 科技评论编译

原创文章,未经授权禁止转载。详情见 转载须知 。

Gary Marcus 对 AI 领域开炮:踏踏实实做研究,不要净吹牛逼

全局中部横幅
首页

首都医科大学宣武医院创建于1958年,是一所以神经科学和老年医学为重点,以治疗心脑血管疾患为主要特色,承担着医疗、教育、科研、预防、保健和康复任务的大型三级甲等综合医院。本院在以医院综合实力为主体,神经科学和老年医学为特色的“一体两翼…

《皮卡堂》官方网站

皮卡堂—可爱迷你的虚拟家园.快乐、创造、惊喜都可以在皮卡堂的世界中拥有.任意挑选家具和装饰,打造完全属于你的个性家园,和朋友们一起来体验皮卡堂的幸福生活吧

阿明工具

阿明工具专业电商数据统计分析工具,电商人手一个,服务于淘宝、拼多多、京东、1688电商平台商家,支持生意参谋一键转化,准确率高达99.99%、竞品销量实时监控、宝贝详情图片下载等,为商家提供全方位市场和竞争数据分析。

湖北宜昌天键石业有限公司石雕官网

湖北宜昌天键石业是一家专业定制石雕产品的生产厂家,主要经营石栏杆石浮雕和墓碑等石雕产品,墓碑主要承接大小型农村土葬墓碑批发,设计定制私人墓地,陵园公墓墓碑款式定做。石栏杆主要有汉白玉栏杆、花岗岩栏杆、青石栏杆。

直线电机

深圳博智达专业生产直线电机、线性电机、线性模组、直线电机模组、直线导轨、直线模组、DD马达、大理石龙门模组、直线滑台、环形直线电机等产品,可定制高端环形直线平台,面向深圳、东莞、广州、常州、苏州、无锡等各地客户服务。

移动式破碎机

红星机器是一家大型矿机直销商,其生产的移动式破碎机、建筑垃圾粉碎机、车载建筑垃圾破碎机等破碎设备,设备质量过硬,使用寿命长;厂家自产自销,价格优惠合理!销售热线:0371-67772626。

任丘门市表

查门市、找物品、找服务,到任丘门市表。新样式的114查询真诚服务,用心体验,谢谢关注

昆山品虹环保科技有限公司

昆山品虹环保科技专业生产各种曝气器、曝气软管、可提升曝气器、曝气盘、污水处理曝气设备及环保配件.

江苏华晨易泊软件科技有限公司

云停车,物联网,网站开发,智能监控

考拉游戏网

考拉游戏网是面向手机游戏玩家的综合门户,提供有趣有态度的最新手游内容。汇聚手游社区、热门手游礼包,新游、泛娱乐、手游排行榜等,让你Get最新手游、分享你的热辣点评。

图片114

图片114网提供海量原创素材,包括设计作品下载,ppt模板,画册封面,字体下载,淘宝素材,视频素材,3D素材,模板素材,装饰画,背景墙!

全局底部横幅