少于两层的transformer GPT 且只有注意力块 (两层以上含两层不得设置防盗窗)

文章编号：43259 资讯动态 2024-12-09 GPT 3 Transformer Anthropic AI

只有一层或两层、且只有注意力块的transformer，在性能上有望达到96层、兼具注意力块与MLP块的GPT-3的效果吗？

在过去的两年里，基于Transformer架构开发的大规模语言模型在性能（如语言流畅度）上达到了令人叹为观止的效果。

但是，Transformer对单词的处理方法是什么？学术界仍未有确定的答案。普遍的理解是，transformer模型能够以某种方式同时关注多个单词，以便立即进行“全局”分析。但它到底是如何工作的，或者这是否是transformer模型的真正处理方式，仍旧扑朔迷离。

换言之，我们知道菜品的配料，但不知道配方。

针对这一问题，一家叫做 Anthropic AI 公司的研究人员进行了两项研究，希望从根本上理清transformer在处理和生成文本时的工作内容是什么。

他们发现，少于两层、且只有注意力块的transformer在某些方面也能达到复杂transformer的效果，且能够帮助理解背后的工作机制。

少于两层的Transformer

在12月发布的第一篇论文（如下）中， Anthropic AI 公司的科研人员研究了transformer的简化版本，并全面解释了它们的功能。

这个工作得到了以色列理工学院 Yonatan Belinkov 的高度评价：“这篇论文很好地讲述了transformer架构在非常简单的情况下是如何工作的。”“我非常看好这项工作，它既有趣又有前途，并且有些独特和新颖。”

根据论文内容，他们所研究的简化版transformer是先学习基本语言模式，再获得语言处理的通用能力。哈佛大学的 Martin WattenBerg 教授评价，他们的研究使得transformer的竞争力得到大幅跃升，同时揭露transformer背后的工作原理。

在3月8日发布的第二篇论文中，研究人员发现，他们所提出的简化版transformer的能力在最复杂的transformer模型中也发挥了作用。他们在简单模型中的发现可以应用到规模更大的模型中。虽然这些简化模型的数学原理仍然高深莫测，但其结果为深入理解transformers提供了一条新途径。

理解 transformer 的难点在于其抽象性。传统的程序遵循一个合乎情理的过程，例如，每当看到“green”（绿色的）这个词，它们就会输出“grass”（草）这个词，而transformer将“green”这个词转换为数字，然后将它们乘以某些值。这些值（也称为参数）决定了下一个单词是什么。参数在训练过程中得到了微调，模型会学习如何生成最佳输出，但不清楚模型具体在学习什么。

大多数机器学习程序将其数学部分封装成模块化要素，并称之为“神经元”。transformer加入了另外一种要素，称为attention head（注意头），它们成组分层排列，就像神经元一样。但head执行的操作与神经元不同。一般认为，head允许程序记住输入的多个单词，但这仅是一知半解。

为了更好地理解transformer的工作原理， Anthropic AI的研究人员简化了transformer的结构，去除了所有的神经元层和除一层或两层以外的所有attention head层。这让他们发现了transformer和他们已经完全理解的更简单模型之间的联系。

我们可以看最简单的语言模型——二元模型，它再现了基本的语言模式。例如，在对大量文本进行训练时，二元模型会注意到“green”一词后面最常出现的单词（例如“grass”）并记住它。然后，在生成文本时，它会重现相同的模式。通过为每个输入单词记忆一个相关的后续单词，它可以获得非常基本的语言知识。

具有一层attention head的 transformer 模型也具备同样的能力：它再现了所记忆的内容。假设给定一个特定的输入，比如“Doctor Smith went to the store because Doctor X…”（史密斯博士去商店是因为X博士）这个输入被称为提示或上下文。对我们来说，下一个词X指向“Smith”是显而易见的。

在经过训练的单层模型中，attention head可以通过两个步骤进行预测。首先，它查看上下文中的最后一个单词（Doctor），并在上下文中搜索它已经学习（在训练期间）与最后一个单词相关联的特定单词。然后，对于它找到的任意单词，从中查找另一个它已经学会与找到的单词相关联的单词，就像在二元模型中一样，这可以是同一个词。再将这个关联的单词作为模型的输出。

在上述例子中，研究人员表明，根据最后一个单词“Doctor”，head通过训练知道如何搜索一个常用名称。在句子的前面找到“Smith”这个名字后，head会查看所学的与“Smith”关联的内容，并将该单词作为输出。在这种情况下，模型已经学会将同一个词“Smith”与找到的词“Smith”相关联。整个过程的最终效果是模型将“Smith”一词从上下文复制到输出。

图注：从左到右分别为 Chris Olah、Catherine Olsson 与 Nelson Elhage

不过，到目前为止，记忆只能采用一种模式。不妨想一下，当Smith的名字变成了一个虚构的名字，比如“Gigamuru”时会发生什么。对我们而言，预测下一个单词轻而易举，但模型在训练期间不会识别出虚构的词，因此不可能记住它与其他词之间的任何关系，也不会生成它。

引入归纳头

Anthropic 团队还发现，当他们研究一个更复杂的模型时，比如一个有两层attention head的模型，出现了一种解决方案。它依赖于attention head独有的能力：不仅可以将信息移动到输出，还可以移动到上下文中的其他位置。这种能力可以使第一层的head利用前面单词的信息，学习注释上下文中的每个单词。然后，第二个head可以搜索“Doctor”（在本例中为“Gigamuru”）之前的单词，并像单层模型中的head一样，将其移动到输出。

研究人员将后一层与前一层协作的attention head称为induction head（归纳头）。它不仅仅起到记忆的作用。根据Nelson Elhage的解释，它还可以做一些看起来更像是抽象推理或算法实现的工作。

induction head可以让两层模型发挥更大的作用，但它们与全尺度transformer的相关性尚不清楚，因为全尺度transformer有数百个attention head协同工作。在他们的第二篇论文中，研究人员表示这些发现得到了延续： induction head似乎对一些最复杂、多层结构的行为起到了关键作用。

因为模型只接受了完成文本的训练。例如，如果给出重复提示：“问:48+76是多少？答:124，问:48+76是多少？答:“全尺度模型会得到正确答案。”。在给出充足的非重复性示例后，它将能够正确回答从未见过的算术问题。这种从语境中学习新能力的现象被称为上下文学习。

这种现象令人费解，因为从上下文中学习是不可能的。这是因为决定模型性能的参数只在训练期间调整，而不是在模型处理输入上下文时调整。

induction head至少解决了部分难题。它们解释了如何使上下文学习的简单和重复形式成为可能，并且提供了所需的功能：能够复制模型没有训练过的新单词（如“Gigamuru”或“124”）。

另一位来自Anthropic的合著者Catherine Olsson说：“induction head更有可能执行任何模式，即使它有些奇异或新颖。”

研究人员进一步在多层次模型中识别出induction head，并表明它们参与了更新颖的上下文学习形式，比如学习语言间的翻译。

“这并不是要解释整个机制，”OpenAI 的 Jacob Hilton 说。“只是induction head似乎参与其中。”

这些结果为我们理解transformer模型提供了一个立足点。它们不仅在获取知识，还在学习如何处理他们根本没有学到的事物。也许通过了解其工作机制，我们可以对“大放异彩”的transformer少些惊讶与感叹。

版权文章，未经授权禁止转载。详情见转载须知。

少于两层的transformer，且只有注意力块，GPT-3：你怕不是搞事情？

谷普下载提醒您

本文链接：http://www.gpxz.com/article/0b1da8f812526635ecea.html

上一篇：基于序列对比学习的长视频逐帧动作表征浙大

下一篇：25篇顶会文章讲了什么下AAAI2018预讲会在哈

云酒楼影视论坛

云酒楼影视论坛发布绝版国产怀旧电视剧,港台电影修复版下载,日韩动画下载,欧美国配译制片下载,国产老电影网盘下载,4K高清电影下载,BT电影之家资源分享,无损音乐资源免费下载。

电影视频 2024-11-13 10:58:44

百度移动排名

根据域名和关键词返回百度移动关键词收录量、抓取时间、关键词排名（页数-第几条）、页面标题、页面链接地址。排名只返回排名前50名数据，50名后不体现。

站长资源 2024-01-14 20:43:54

王者荣耀下载2024安卓最新版

【豌豆荚】为你提供王者荣耀APP安卓版下载，历史版本、旧版下载，查看2024最新王者荣耀手机版介绍、应用截图、网友评论，方便快捷的将安卓版王者荣耀应用免费下载到手机。

网络应用 2024-08-16 22:34:09

江苏伟宇人防工程防护设备有限公司

江苏伟宇人防工程防护设备有限公司始建于2012年，是专业生产各种人防工程防护设备的专业厂家。公司注册资金1000万元人民币，固定资产2000多万元。企业员工60余人，其中高级职称1人

企业品牌 2024-07-04 17:03:55

中国数字品牌馆

中国数字品牌赋能、共享连接与渠道融合平台！

企业品牌 2024-07-05 15:30:19

陕电院招生就业网

陕西电子信息职业技术学院，陕西电子信息职业技术学院招生信息网

行业信息 2024-07-11 13:38:05

星动下载站

星动下载站属于天极网旗下,是国内安全的软件下载网站之一,提供安全无捆绑软件下载服务,涉及电脑软件和电脑游戏头部大牌公司软件推荐下载,下载好软件用好软件就到星动下载平台!

游戏网游 2024-07-08 20:13:55

大纲古玩

大纲古玩专门提供博物馆,古玩鉴定,文物鉴定,瓷器,古董,玛瑙,通宝最新资讯

新闻资讯 2024-08-07 15:46:00

欢迎光临中国工商银行苏黎世网站

欢迎光临中国工商银行Home

网站模板 2024-11-18 20:42:10

超低排放粉尘仪

上海北分科技股份有限公司产品主要应用在湿法除尘系统出口粉尘检测、火电厂烟气连续在线监测、水泥工艺烟气监测、垃圾焚烧发电厂烟气监测，以及石油、化工、钢铁等行业的粉尘监测。

网络应用 2024-11-20 00:37:14

四川秉亨乡村别墅

四川秉亨建设是一家专注于四川乡村别墅建设的公司，提供一站式的服务，包括四川别墅设计、施工、以及四川别墅图纸设计。我们拥有经验丰富的团队，致力于为客户打造独一无二的四川乡村别墅。从初步规划到最后的施工，我们都能为客户提供全方位的支持和服务。无论您的需求是什么样的四川别墅，我们都能根据您的要求进行量身定制，并提供高质量的设计和施工。选择四川秉亨乡村别墅，让您的四川乡村别墅梦想成为现实。

设计美化 2024-11-30 18:17:10

合肥深科机电技术有限责任公司

意大利Gemme-Cotti磁力泵大中华销售中心

电影视频 2024-12-05 20:01:06

经典的绳索逃生游戏推荐 2025好玩的逃生游戏合集 (经典的绳索逃生电影)

今天，小编和大家推荐一些绳索逃生游戏，这些游戏让玩家在虚拟战斗中，通过各种绳索技巧来完成多样化的任务挑战，绳索不仅是游戏中的核心生存工具，也让玩家有机会扮演多元化的角色，在尝试逃脱的过程中，精确地锁定目标是非常重要的，1、，绳索营救，一款解谜过关游戏，它以独特的智慧挑战为特色，每一关卡都精心设计，在游戏中，玩家会化身为救援者，通过观察...。

2025-02-12 00:42:33

今天小编给小伙伴们整理了关于左右移动方块消除的游戏有哪些，这几款游戏都是很好玩的消除游戏，也是目前比较受欢迎的消除类游戏，而且这类游戏上手比较简单，就算没有玩过网游的小伙伴也可以很快学会，那么接下来我们就继续往下看吧，如果有你喜欢的游戏就下载体验吧，小猫爱消除这款游戏是一款休闲消除游戏，在游戏里面有着多样的玩法，融合了众多元素，并且有...。

2025-02-11 22:02:23

好玩的休闲手游单机推荐2023 高人气休闲单机手游合集 (好玩的休闲手游推荐)

休闲游戏一直是游戏市场中一个经久不衰的游戏类型，游戏市场中也有不少可玩性很高，操作手感极佳的休闲手游，小编平时也喜欢玩这种类型的游戏，所以就为大家带来了休闲手游单机推荐排行榜供大家参考，这几款游戏的制作水平和玩法都很不错，感兴趣的小伙伴们看过来哦~1、，保卫萝卜4，保卫萝卜4，经过了三个大版本的更迭，其游戏玩法和游戏的操作难度都得到...。

2025-02-10 01:29:33

北京一居民楼突发火灾民警紧急疏散50多位居民 #警民同心# (北京一居民楼起火燃烧致火灾)

北京一居民楼突发火灾民警紧急疏散50多位居民，#警民同心#近日晚9点，北京朝阳一居民楼的房顶突然蹿出火苗，瞬间火势加大，火苗有5米高，家住发生火灾的居民楼对面的双井派出所民警闫研见状，一边飞奔下楼，一边拨打119，在闫研的疏导下，30多户、50多位居民转移到安全地带，没有造成人员伤亡，中国警方在线的微博视频来源，松松科技QQ，微信，...。

2025-01-31 03:02:24

合作了！2021 年首探全球地表水资源又和 NASA SpaceX (合作了20年日本客人退出中国市场感悟)

据国外网站TheVerge报道，ElonMusk的SpaceX最近又赢得了NASA的一份新合同，在未来五年内，SpaceX将为NASA发射观测地球海洋水域的卫星，该卫星主要被用来探测地表水和海洋地形随时间的变化情况，这也是首次对地表水进行的全球性调查，据了解，此次任务将由SpaceX的，猎鹰9号，Falcon9，火箭完成，预计发射时...。

2024-12-03 17:50:43

纯血鸿蒙的最难时刻才刚开始……

纯血鸿蒙，HarmonyOSNEXT，也正式发布了，绝对是一个历史性时刻，但最难的鸿蒙第二个阶段，也就是生态圈的建设，才刚刚开始，目前，我劝你现在不要升级到鸿蒙最新版，如果你直接升级，十有八九都会出问题，因为现在鸿蒙系统虽然有15000个应用，但真正能用的不多，很多APP只有一个登录按钮，你没看错，甚至有的应用只有一个图标，其他啥功能...。

2024-11-15 23:00:18

尼共分开尼泊尔联结政府联结马列 (尼泊尔尼共毛主义啥意思)

△尼泊尔首都加德满都，资料图，尼泊尔共产党，联结马列，外地期间7月3日晚分开总理普拉昌达指导的联结政府，并宣布撤销对联结政府的允许，尼共，联结马列，8名部长当晚向普拉昌达递交了辞呈，司法部长兼议会事务部长帕达姆·吉里说，他和其余7名部长递交辞呈时已告知普拉昌达，尼共，联结马列，撤销对联结政府的允许，尼共，联结马列，分开后，普拉昌达政府...。

2024-07-04 14:20:28

别克君越十大缺陷 (别克君越十大缺点)

别克君越的十大缺陷1.市场价过高，别克君越的参考价在21.98，28.98万元，这一同步费曾经超越了丰田亚洲龙、公众帕萨特、迈腾、雅阁、天籁2.0等诸多竞争对手，在自身商品闪光点不算太显著的状况下，别克君越的竞争才干就变得十分不够了，2.品牌影响力弱，别克汽车的奢侈印象兴许还只停留在，林荫小道，车型的身上，如今的别克汽车在中国也确实在...。

2024-07-02 16:18:02

05年的起亚远舰车没什么故障跑了27万公里了能卖多少钱 2.0手动GL那款有六成钱

这要看发票多少钱，和车辆的实践经常使用状况而定，举个便捷的公式，新车第一年普通来说折价20%，第二年10%，第三年以后每年折价5%...西风悦达起亚远舰品质怎样样品质十分过硬，尤其是作为出租车用的乞丐版，十分能跑，爱护的费用也不高，曾经坐过一个曾经开了五十万公里的远舰，不过，该车型如今好象曾经停产了，您可以咨询江苏盐城的嘉华或许捷翔4...。

2024-07-01 18:19:09

赶集网……！ (赶集网主页)

不必定就牢靠的什么都可以做假他网站又无法能给你每个认证帐户都去实地调查啊赶集网是做什么的，为什么要注册赶集网，赶集网是一个分类消息站点，可以提供当省当市的消息消息，比拟生存化，普通会有，二手消息，招聘消息，应聘者消息，产品消息等；这个注册赶集网，齐全由团体与企业选择的，可以依据须要在线启动注册，放开一个店铺定时颁布消息用，赶集网用户名...。

2024-07-01 17:21:44

LinuxSysMonitor下载-LinuxSysMonitor(Linux系统资源监控工具)v1.0免费版

LinuxSysMonitor是一款Linux系统资源监控工具，兼容Contos和Ubuntu，RedHat应该也支持的，需要jdk环境，可以检测系统CPU、内存、磁盘占用、磁盘写入速度

2023-11-09 19:05:41

【华文行楷下载】2022年最新官方正式版华文行楷免费下载

腾讯软件中心提供2022年最新1.0官方正式版华文行楷高速下载，本正式版华文行楷软件安全认证，免费无插件。

2023-09-19 01:25:51

文章推荐

2025不用看广告的小游戏推荐免广告版小游戏有哪些 (2025不用户口本可以领结婚证吗现在)

在玩游戏时如果遇上频繁跳出来的广告，会让人们的好心情大打折扣，即便看完广告后再玩也很难再找回原本的乐趣，所以不用看广告的游戏成为了很多人在寻找的目标，那么，免广告版小游戏有哪些，下边所整理的五部游戏都可以不用玩家们去看广告就能玩，有需求的玩家还请来了解下，1、，熊出没之熊大快跑，与熊大一起在森林里体验一场富有激情的跑酷之旅吧，为了避免...。

2025-02-11 16:00:15

资讯动态

全球市场是旗舰手机的试金石对话OPPO刘作虎 (全球市场是旗下的吗)

消息，10月24日，OPPO发布全新一代影像旗舰FindX8系列，这款全新一代影像旗舰，以其超轻薄直屏设计、无影抓拍、AI千里长焦等特性，彻底改变了用户的拍照体验，带来了，抬手就出片，抓拍氛围感，的全新影像体验，在发布会后，OPPO首席产品官刘作虎、Find系列产品负责人周意保、影像技术总监卓世杰、AI中心产品总监张峻、影像认知...。

2024-12-03 19:57:17

资讯动态

618哪些投影仪值得入手 2023年618什么投影仪值得买

发表在综合交流大区2023，6，1314，19618活动正在如火如荼的进行中，此时是入手家用投影仪的好时机，那么2023年618什么投影仪值得买呢，下面就来详细了解一下，看看家用投影仪有哪些值得用户入手，哪些投影仪的性价比高，适合家用，2023年618什么投影仪值得买，2023年618什么投影仪值得买家用旗舰投影仪推荐，第一款，当贝X...。

2024-11-28 23:01:53

网络百科

一文了解坚果N3UltraMax配置坚果N3UltraMax投影仪怎么样 (坚果百科)

发表在坚果投影仪2024，10，1119，59坚果N3UltraMax是坚果N3系列的最强产品，拥有出色的画质和性能，具体坚果N3UltraMax投影仪怎么样呢，下面就来全面了解坚果N3UltraMax投影仪，看看坚果N3UltraMax各方面有什么特点，实际是否值得入手，坚果N3UltraMax投影仪怎么样，1.光源技术坚果N3Ul...。

2024-11-28 17:32:07

网络百科

有温度的执法广西推行助推经济社会高质量发展 (有温度的执法更有力量)

11月26日，中国市场监管报记者从广西壮族自治区人民政府新闻办公室召开的，广西市场监管部门推行有温度的执法，助推经济社会高质量发展，新闻发布会上获悉，自今年7月推行有温度的执法新模式以来，广西市场监管系统编制办事指南1.4万件，服务经营主体10万户次，确立15方面共158项包容审慎监管措施，适用不予处罚、从轻处罚、减轻处罚案件累计1....。

2024-11-28 10:59:25

资讯动态

少于两层的transformer GPT 且只有注意力块 (两层以上含两层不得设置防盗窗)

少于两层的Transformer

引入归纳头

相关文章

文章推荐