是时候放弃循环神经网络了！ (是时候放弃了)

文章编号：45995 资讯动态 2024-12-09 注意力机制卷积网络机器学习

有人说，不同语言之间的翻译，与其说是一门科学，不如说是一门艺术。

NLP 领域的机器学习工程师 Riccardo Di Sipio 日前提出了一个观点：使用卷积网络要比使用循环神经网络来做 NLP 研究，要幸福得多——是时候放弃循环神经网络了！

基于这一观点，他从卷积网络本身的基本原理出发，论述了为什么 NLP 不再需要循环神经网络的原因。

我们来看：

不久前，人工智能科学家侯世达（Douglas Hofstadter）就在The Atlantic上发表的一篇论文中指出，目前机器翻译尚处于「浅薄」的阶段。

尽管机器翻译存在局限性，但难以否认的是，自动翻译软件在许多情况下都有良好的效果，而其背后的技术在任何存在信息从一个领域流动到另一个领域的语境中都具有广泛的应用，例如基因组学中从RNA到蛋白质编码的翻译过程。

直到2015年，序列到序列的映射（或者说翻译）使用的主要方法都是循环神经网络，特别是长短期记忆（LSTM）网络。

我在前一篇文章中介绍了这些网络架构的基础知识，我还谈到了LSTM 被应用于大型强子对撞机的顶部夸克对衰变的运动学重建过程。这篇文章链接如下：

然后，出现了一些新的方法：比如残差网路架构和注意力机制的提出，为针对这类任务的更通用的框架的实现铺平了道路。

值得一提的是，这些新颖的网路架构还解决了另一个问题：事实上，由于RNN 固有的时序性，很难利用这种网络在像 GPU 这样的并行系统上进行训练。而这一点正是卷积神经网络使用起来非常方便的地方。

在数学中，卷积表示的是当函数 f 作用于另一个函数 g 时生成第三个函数的一种运算：

是时候放弃循环神经网络了！

不应与调制（例如AM传输中的EM信号）混淆，调制是将两个函数简单相乘。求知欲强的人可能会深究到：时间空间中的卷积傅里叶变换，实质上是频率空间中的调制

是时候放弃循环神经网络了！

所以这两种运算虽然密切相关，但切不可被混淆。

在计算机科学的离散世界中，积分被求和取代，两函数之间的乘法由矩阵间的乘法代替。用行话来说，就是将卷积核应用到图像上来生成卷积特征，一次卷积将生成一个新的特征。在下面每一对图像中，当对左边部分发生一次卷积变换，将于右边部分产生一个新的值，如下图所示：

是时候放弃循环神经网络了！

在对这个序列的操作中，图像（灰色矩阵）由一个卷积核（橙色矩阵）卷积操作以获得卷积特征（绿色矩阵）。

通常来说，卷积核是一个网络的权值矩阵，必须通过某种算法（如：反向传播）计算，才能得到它的期望输出。

这种操作的一个很好并且非常重要的特性是，一旦「图片」被加载到记忆中，不同的卷积核会对其进行操作，这样就可以减少输入/输出（I/O）次数，从而更好地利用带宽。通常，卷积操作由以下两种方式执行：

在卷积之后，通常会进行池化操作：在每个卷积块中，只将最大值传递到下一层。此操作用于降低图片维数以及过滤噪声。降维的关键是通过信息压缩来寻找更高水平的特征。

常用的做法是，通过将上述两个步骤的板块链合在一起，来构建一个卷积神经网络。一些成功的网络架构案例如下：

既然现在我们已经了解了卷积神经网络的基本知识，那么让我们回到最原始的问题：我们如何使用这样的网络代替循环网络来解析序列呢？

注意力机制背后的主要观点是，网络应该找出输入序列的哪些部分或元素与生给定的输出序列元素具有更强的相关性。它通过为每个输入元素创建一个注意力权重向量（权重介于0和1之间，通过Softmax产生），并使用它们来调整信息流。如果我们首先关注基于RNN的网络，这将变得更容易理解。

对于每个输入元素（时间阶），RNN层会存储一个隐藏状态。所以对于N个输入将会有N个隐藏状态。此时，我们可以通过简单地让注意力权重和隐藏状态逐个元素相乘（也就是哈达玛积）。来生成剩下文向量：

是时候放弃循环神经网络了！

例如，当翻译一个句子时，两种语言的专有名词都是一样的，因此相应的权重会非常大（例如0.95）。相邻单词的权重很可能也是比较大的（例如0.55），而相距较远的单词权重则较小（例如0.05）。

最后，信息被压缩成一个注意力向量，并传递到下一层：

是时候放弃循环神经网络了！

在解码阶段，则回为每个输入的词计算上下文向量。

现在我们基本掌握和理解了关于如何在机器翻译中摆脱RNN网络的所有要素。

Transformer网络利用注意力机制，但这次使用的是前馈网络。

首先，输入序列被嵌入（即被编码成N维空间中的一个数字）向量作为补充，该向量跟踪每个单词相对于彼此的初始位置。现在我们有了序列中所有单词（K）和一个给定单词（Q）的向量表示。

根据这些材料，我们可以像以前那样计算出注意力权重（代表了维度，它是一个标准化因子）：

是时候放弃循环神经网络了！

这个注意力权重决定了其他每个单词对于给定单词的翻译结果的贡献程度。

将这些权重作用于待翻译的给定序列（值V）的过程称为缩放的点积注意力（Scaled Dot-product Attention）。

多头注意力是一种注意力机制的合并方式，被用来将Q、K和V 线性映射到不同维度的空间中。其思想是，不同的映射可以分别从不同方面突出信息编码的方式。其中映射是通过将Q、K和V乘以训练过程中学习到的矩阵W来实现的。

最后值得一提的损失，在论文《Attention Augmented Convolutional Networks》中，作者提出了一种具有多头注意力机制的CNN，该论文链接如下：

而以上，便是为什么我们不再需要循环神经网络的原因～

via:雷锋网AI 科技评论编译。

原创文章，未经授权禁止转载。详情见转载须知。

是时候放弃循环神经网络了！

谷普下载提醒您

本文链接：http://www.gpxz.com/article/702737ab97624459cac9.html

上一篇：中科曙光全面布局AI将在青岛建全球研发总部

下一篇：杨柘出任小米中国区CMO曾担任魅族高级副总

酷我音乐

酷我音乐-无损音质正版在线试听网站，酷我音乐为您提供高品质音乐，无损音乐下载，拥有各类音乐榜单，快捷的新歌速递，完善的主题电台，个性化的歌曲推荐，高品质音乐在线听，好音质，用酷我。陪着我，不要停

音乐歌曲 2024-03-24 00:12:23

美国香港海外云服务器

纵横数据成立于2005年,是业内知名的企业级高可用云服务器提供商！主营全球服务器租用与托管、国内云主机、海外云服务器、动态拨号VPS、显卡服务器、大带宽服务器等一站式全球IT网络解决方案提供商。纵横数据一直致力于全球互联网数据基础业务和网络营销解决方案的实施，是一家极富创新性的科技公司。

网络应用 2024-01-14 20:41:08

二手车交易

优信拍是专业提供二手车交易服务的平台，通过集中车源网上交易服务模式，为全国二手车经营机构提供包括车况查定、安全支付、售后服务及远程物流在内的一站式服务，充分满足经销商“高效”的刚性需求。

安全杀毒 2024-08-17 00:48:09

澎湃新闻

澎湃，澎湃新闻，澎湃新闻网，新闻与思想，澎湃是植根于中国上海的时政思想类互联网平台，以最活跃的原创新闻与最冷静的思想分析为两翼，是互联网技术创新与新闻价值传承的结合体，致力于问答式新闻与新闻追踪功能的实践。

新闻资讯 2024-07-11 13:29:03

龙工

龙工控股有限公司在福建、上海、江西等三大生产基地拥有19家的全资子公司,占地4000多亩的生产厂房;产品覆盖装载机、挖掘机、叉车、滑移装载机、压路机等多种机械。

电影视频 2024-08-18 13:13:27

中国诗歌学会

诗歌

电影视频 2024-08-18 14:16:24

沈阳恩林房翻新沈阳总站

咨询热线：139-4034-4420。恩林房翻新是方林集团旗下品牌，专注老房维修改造，传承和坚持方林的独特施工工艺，通过集中采购，让用户以更低的价格即可享受高平直的产品和服务。

商业服务 2024-08-18 17:18:26

犀牛云客,企业数字化引擎！营销三剑客打造营销数字化和管理数字化平台

犀牛云客,中国大型的建站+推广全网营销服务品牌,营销数字化与管理数字化AI双引擎平台！从品牌、内容、营销覆盖企业发展的全生命周期,帮助企业实现经营业绩的成倍增长.

设计美化 2024-08-18 17:32:15

长裕玻璃

烟台长裕玻璃有限公司（以下简称“长裕玻璃”）成立于1999年1月1日，生产基地位于烟台福山经济开发区，占地600余亩，一、二期项目6座窑炉，18条生产线已建成投产，年产成品玻璃50万吨，三期投产后预计产能将达到80万吨以上。

编程开发 2024-11-19 21:33:11

7049手游网

7049手游网（www.7049.com.cn）专注分享迷你世界的游戏攻略！

游戏网游 2024-11-20 21:41:59

癞蛤蟆工具箱

癞蛤蟆工具箱，是一款能够帮助卖家做店铺的软件，包含了多款淘宝、拼多多上货助手的软件，有货源软件、淘词软件、竞争对手分析软件、直通车软件、生意参谋分析软件、宝贝复制等软件

手机软件 2024-11-25 16:01:16

乐吧车

乐吧车_战火金刚_幻影摩托_海豚贝贝_超级飞侠_游乐设备_广场车_游乐车_无轨小火车_金满鸿鸿

电影视频 2024-11-25 22:29:20

落伍者论坛因监管进入一个月严管期 (落伍者的拼音)

知名站长论坛落伍者，突然发布发布一条信息称，落伍者将于本月20日起进入严管，帖子内容为，接政府有关部门通知，落伍暂停用户注册，自2018，10，20起，晚上11点后发帖暂停，时间约30天左右，目前落伍者论坛，大部分帖子都均提示不存在状态，官方也未给出一个明确说明，但猜测还是跟论坛内容有很大关系，近几年国内各大论坛纷纷关闭，网易论坛、站...。

2025-02-02 00:01:01

中兴危机解除难言曙光拆分重组或成最终归宿 (中兴危机处理)

雷锋网注，本文作者为雷锋网专栏作者老解，文章首发于微信公众号，ICT解读者，自4月16日美国商务部针对中兴激活拒绝令至5月4日美国贸易代表团完成与中方的首轮经贸磋商，中兴公司已在，休克状态，中煎熬19天时间了，最新的进展是我国商务部发言人应询答记者问时表示，在3日至4日举行的中美经贸磋商中，中方就中兴公司案与美方进行了严正交涉，美方...。

2024-12-09 22:21:20

超越亚马逊！Shopee成为2021年购物应用全球下载量第一 SheIn第二 (超越亚马逊的电商平台)

近日，根据应用分析平台Apptopia数据显示，Shopee成为2021年全球下载量最高的购物App，SheIn排名第二，而亚马逊排名第四，第三名是2015年推出的印度社交商务应用程序Meesho，不过在美国，亚马逊的下载量依然排名第一，通过这张图我们还可以看到，排名前十的有多家中国企业，阿里速卖通排名第六，阿里系Lazada排名第九...。

2024-12-03 18:44:45

看看真实用户都是怎么评价的万德成H8投影仪使用评测 (真实用户是什么意思)

发表在其它家用投影仪品牌2022，4，2510，00万德成H8是一款性价比较高的投影仪，外观上相对方正，适合固定安装在一个位置使用，具体这款投影仪的实际使用效果怎么样呢，下面就从真实用户的实际体验了解这款设备，看看是否值得入手，万德成H8投影仪使用评测，1.万德成H8投影仪真不错，这个价格性价比超高了！晚上试了一下，清晰度还可以，关上...。

2024-11-29 00:26:43

杭州市生育保险办法杭州市人民政府办公厅通知 (杭州市生育保险办法)

杭州市人民政府办公厅近日发布了关于生育保险的新政策，具体文件名为，杭州市生育保险办法，，文件编号为杭政办〔2011〕22号，这份通知是针对杭州市各区、县，市，人民政府以及市政府各部门和各直属单位的，根据通知，经过市政府的审议和批准，，杭州市生育保险办法，已经正式出台，这个办法旨在为杭州市的职工提供生育保险保障，以确保他们在生育期间能得...。

2024-11-24 21:35:51

巴拿马与哥斯达黎加接壤地域海域出现5.6级地震 (巴拿马与哥斯达黎加边境)

依据巴拿马大学地球迷信钻研所报告，外地期间7月13日16时33分，巴拿马与哥斯达黎加接壤地域的一处海域出现5.6级地震，震源深度11公里，目前暂无海啸预警报告，总台记者马天静，...。

2024-07-15 20:55:41

宇智波鼬和大蛇丸的资料? (宇智波鼬和大蛇丸)

姓名，宇智波鼬，日语为，うちはイタチ，读作，UchihaItachi，，中文译作，内轮鼬太知，港版，、宇智波伊太刀，台版第一部，就义，性别，男星座，双子座忍者登录号身高，178cm体重，58kg血型，AB性情，冷漠，痴呆，果决，凌厉青睐的食物，甜食、三色丸子、卷心菜和昆布饭团厌恶的食物，牛排兴味，逛甜品屋，回想欢快的事件最宿愿的事...。

2024-07-10 08:49:43

瑞麒X1油耗是多少性能怎样样 (瑞麒x1油耗报告)

瑞麒X1油耗是多少，性能怎样样，网友FGHGH说，在数字化消息时代，以默认数字理念打造的瑞麒X1，领有涵盖安保、节能、驾控三大外围畛域的默认数字系统，尤其是节能体现方面，搭载奇瑞公司自主研发的ACTECO1.3L发起机，领有62kW的最大功率和122N.m的最大扭矩，在市区路线坚持60km，h匀速行驶的形态下，油耗仅为4.8L，在性能...。

2024-07-07 19:39:37

怎样下载QQ最新版本 (怎样下载qq软件到手机上)

你好，很快乐为您解答，在网络搜查2015版QQ手机qq怎样更新最新版本1、首先在手机运行商店中搜查，QQ，，找到手机QQ的最新版本，点击，更新，下载更新文件，2、其次将更新文件装置终了后，关上QQ运行，进入，设置，界面，点击，版本，，检查能否曾经完成更新到最新版本，3、最后更新终了后，即可享用最新的QQ版本带来的新配置和体验，ipho...。

2024-07-05 15:30:05

13岁女孩将一2岁女童从17楼楼道窗台推下江西都昌公安形成女童坠楼死亡 (13岁女孩将2岁小孩推下17楼坠亡)

江西都昌县公安局2024年5月30日通报称，2024年5月26月17时17分许，该县某小区出现一同刑事案件，立功嫌疑人谭某某，女，13岁，智力阻碍人员，将被害人秦某，女，2岁，从17楼楼道窗台推下，形成秦某坠楼死亡，江西一家人湖区游玩，6岁女童竟离奇失踪，可怕吗，这个确实挺可怕的，是作为家长的，我觉得他们的做法确实不够周到，这件事情其...。

2024-07-04 18:09:09

多名游客徒步游览时因高温身亡英媒希腊多地气温达40摄氏度以上 (多名游客徒步视频大全)

[全球时报综合报道]据路透社18日报道，希腊警方示意，一名55岁的美国游客于17日在希腊西部科孚岛上丧生，这是外地遭逢高温天气后，一周内出现的第三起游客死亡事情，南爱琴海警方发言人示意，这些死者都有一个独特特征，他们都是在高温下徒步游览时遭逢不测的，本月初开局，希腊多地出现40摄氏度以上的高温天气，本月9日，英国驰名电视节目掌管人...。

2024-07-03 20:30:32

联想a500手机最佳游戏推荐

一、《神庙逃亡》《神庙逃亡》是一款由西瓜游戏开发的动作类游戏，游戏中玩家将扮演一名古埃及的贵族，在古埃及神秘的神庙里进行大冒险。游戏中，玩家将面临许多危险，比如古埃及的

2023-09-19 02:13:46

文章推荐

iPhone13怎么分期付款 (iphone降价)

7、然后我们需要选择手机是快递给我们，还是我们自己去提货，小编选择的是快递，需要注意的是选择快递以后，为我送货下方的地区需要选择一下，然后才能点击下方的，继续填写送货地址，进入到填写界面，...。

2025-02-02 13:56:22

技术教程

精耕细作数通大华为何落子智慧物联行业比拼 (精耕细作是什么数字)

数通，即数据通信，这个名字朴实无华，却是智能设备，乃至整个互联网世界的神经，有着不可或缺的地位，数据爆炸、技术变革、效率提升......当下的万物互联，我们见证了高效通信与连接带来的惊喜，降本增效强需求下，竞争的底层逻辑已悄然发生转变，智慧物联领域，场景碎片化前提下，如何站在全局高度，让新一轮产品真正贴合市场需求，数据通信，是各类业务...。

2024-12-01 00:43:38

资讯动态

青海西宁市21中学是重点中学吗 (青海西宁市2023年中考分数线)

西宁二十一中学是一所重点中学，西宁二十一中学在当地具有较高的声誉和教育水平，这所学校之所以被认为是重点中学，主要是因为它在教育质量、师资力量、教学设施等方面表现出色，学校注重培养学生的综合素质，不仅注重学术成绩，还注重学生的品德、艺术、体育等多方面的发展，西宁二十一中学的师资力量雄厚，有一支经验丰富、教学水平高的教师团队，这些老师不仅...。

2024-11-24 17:37:12

资讯动态

店内商品更新快吗悠百佳食品价位如何 (门店商品更新率)

零食有着广阔的消费群体，不管任何年龄段的人群都难以抵挡零食多带来的诱惑，在大街小巷中随处可以看到不同的零食店身影，所经营的零食丰富多样，为食客们带来了广阔的选择，为加盟商们带来了商机，悠百佳食品致力于为消费者们提供美味、健康的休闲零食，在全国拥有上千家连锁合作门店，在零食行业中有着不可忽视的地位，那么悠百佳食品价位如何，店内商品更新快...。

2024-11-22 22:36:08

创业加盟

新泰移动联盟站内互动数据分析 (新泰移动联盟电话)

文字链接认证代码普通联盟标志认证代码企业广告联盟标志认证代码广告联盟评测代码说明，本页面的认证代码为新泰移动联盟专用评测代码，站长需懂简单html知识，直接复制代码粘贴到联盟网站相应页面即可使用，本代码不适用于其他广告联盟网站请勿获取！文字认证，文字链接代码认证适用所有类型的广告联盟，复制代码后放在新泰移动联盟网站首页底部或友情链接位...。

2024-11-19 15:53:50

网络百科

是时候放弃循环神经网络了！ (是时候放弃了)

相关文章

文章推荐