cosFormer ICLR 重新思考注意力机制中的Softmax 2022 (cosforge)

导读：Transformer在自然语言处理、计算机视觉和音频处理方面取得了巨大成功。作为其核心组成部分之一，Softmax Attention模块能够捕捉长距离的依赖关系，但由于Softmax算子关于序列长度的二次空间和时间复杂性，使其很难扩展。针对这点，研究者提出利用核方法以及稀疏注意力机制的方法来近似Softmax算子，从而降低时间空间复杂度。但是，由于误差的存在，效果往往不尽如人意。

我们（商汤多模态研究组）认为，近似操作本身存在的误差使得其效果很难超越Softmax Attention。我们的观点是，与其近似Softmax，不如设计一种方式代替Softmax，并且同时降低时间空间复杂度。因此，本文提出了名为cosFormer的方法，在时间空间复杂度关于序列长度为线性复杂度的同时，其性能接近或者超越Softmax Attention，并在LRA benchmark上取得SOTA结果。我们的设计核心理念基于两点，首先是注意力矩阵的非负性，其次是对局部注意力的放大（非极大值抑制）。

本文主要介绍已收录于ICLR 2022的一篇文章 cosFormer : RethinkingSoftmaxinAttention。

ICLR cosFormer：重新思考注意力机制中的Soft

论文地址：

部分开源代码：

ICLR cosFormer：重新思考注意力机制中的Soft

图片表示各种transformer在LRA benchmark上的表现，其中y轴表示性能，x轴表示速度，圆圈大小表示内存，我们提出的cosFormer取得了明显的优势。

一、背景

ICLR cosFormer：重新思考注意力机制中的Soft

3、Softmax的两大性质

我们经过分析以及实验，归纳出Softmax Attention中比较重要的性质，这两个性质可以指导我们的模型设计：

1.注意力矩阵的非负性

2.局部注意力的放大（非极大值抑制）

ICLR cosFormer：重新思考注意力机制中的Soft

所以我们的方法需要在加了reweighting操作后也更加集中在对角线附近。注意并非所有的有类似权重的函数均适用，这个reweighting的函数需要跟前面的QK一样可以拆分成两个矩阵的乘法的形式。

至此，就可以引入我们的cosFormer了。

二、cosFormer

1、方法

我们的方法基于线性Attention，首先给出符号定义：

ICLR cosFormer：重新思考注意力机制中的Soft

2、实验结果

我们在单向模型，双向模型以及LRA benchmark上测试了我们的方法，均取得了非常不错的效果。

单向语言模型，指标表示困惑度（越低越好）： ICLR cosFormer：重新思考注意力机制中的Soft

论文地址：

版权文章，未经授权禁止转载。详情见转载须知。

谷普下载提醒您

本文链接：http://www.gpxz.com/article/be0e91d84d8569e6a9a1.html

上一篇：ICLR平均分最高8分姚班李志远等39名一作拿

下一篇：谷歌CEO回应一切谷歌CEO回应特朗普遭枪击

苏州

苏州浦阳瑞钢铁有限公司销售热线13814814096，专业生产加工苏州钢板切割加工，镀锌板，苏州冷板，常熟花纹板，开平板，酸洗板，张家港方管，镀锌方管，槽钢，热镀锌槽钢，工字钢，H型钢，常熟无缝管，镀锌管，厂家批发直销，价格优惠，有需要请联系我们，公司本着诚信为本，互惠互利的原则为客户提供最佳服务，欢迎新老客户惠顾！高质量产品值得您选购。

商业服务 2024-07-13 20:08:28

专注于广告

【牛云说营销】-用新广告，新策划，新营销的思路，帮助传统企业突破营销困境，利用移动互联网工具，依托于传统店面，进行线上线下互动营销，实现企业互联网+深度提炼，精华解读，用最简单的方式玩转，餐饮、装修、房地产、健身房等传统企业营销，让您迅速成为营销牛人！

网络应用 2024-08-17 22:29:15

PE自封袋,塑料方底袋,塑料包装袋厂家

丹阳康耐包装材料有限公司是一家专业生产塑料包装袋等产品的企业，主要产品有：PE袋、PE自封袋、塑料方底袋、PE塑料包装袋等，欢迎新老客户前来咨询合作。

管理咨询 2024-08-18 00:35:16

星空体育·（中国）官方网站

星空体育·（中国）官方网站_StarSkySports简称“星空体育”是亚洲顶级的在线游戏平台，星空体育平台官网面向全世界平台、登录、网站、网址、娱乐。选择星空体育，体验前所未有的体育盛宴。

新闻资讯 2024-08-18 00:56:33

武汉办公室磨砂膜

【企业推荐】武汉武卓玻璃贴膜公司电话：13797063828（同微信号）；是武汉建筑玻璃贴膜领导者，专业从事武汉隔热膜、武汉单向透视膜、武汉安全防爆膜，武汉防晒膜、武汉办公室磨砂膜，武汉装饰膜等；服务于武汉办公室玻璃贴膜、家居玻璃贴膜、幕墙玻璃贴膜，窗户玻璃贴膜等；还可以满足客户的各种玻璃膜定制。湖北省各地都有专业的施工队伍。欢迎您的来电。

安全杀毒 2024-07-10 19:22:39

武汉祥远复合材料有限公司

武汉祥远复合材料有限公司是一家集玻璃钢设计、研发、制造为一体的技术型企业，有着多年的真空导入工艺经验，能根据客户的要求来设计产品的成型工艺（轻质RTM、拉挤、手糊）、模具的设计开发以及原材料的优选。公司以武汉理工大学材料学院为技术支撑，以客户为导向，凭借着多年的设计、制造经验及专业人才优势，不断研发出市场前景可观、产品性能优越、客户满意度高的新型复合材料产品。公司主要产品有：玻璃钢天线罩、玻璃钢浮体、玻璃钢造型、玻璃钢外壳、玻璃钢风管、玻璃钢汽车部件、碳纤维产品等。 “以人为本，诚信务实，创新致远”是公司不变的宗旨。 “严格的品质控制，完善的售后服务体系”是对顾客要求的保证。武汉祥远复合材料有限公司热忱欢迎您

编程开发 2024-11-26 20:04:55

哈尼手游网

哈尼手游网为您提供各种最新最热的手机游戏攻略，手游副本攻略，手游关卡攻略，还提供了最全的新手攻略和各种手游技巧攻略，只为让您更懂手游！

游戏网游 2024-11-27 14:28:09

洛克化工网

专业化工网站，洛克化工网提供化工化工产品数据库、化工供求信息、化工供应商、化工字典等栏目。

网站模板 2024-11-27 14:57:54

阳澄湖大闸蟹

阳澄湖莲花岛小宋蟹庄

电影视频 2024-11-27 22:42:40

甬悦儿童青少年心理诊疗基地

夜团是国内新兴的夜生活休闲服务平台，项目隶属于广东伊步网络科技有限公司，运营总部坐落于“中国硅谷”深圳。该项目起源于2020年，针对目前网约车/出租车司机经营成本过高的现状以及乘客夜间出行消费场景，为司机提供一个即能省钱又能赚钱的平台。夜团聚集了同城夜晚餐饮、娱乐、休闲等多个业态的商家，包括夜游、夜购、夜娱、夜食、夜享，让用户以优惠的价格享受夜生活，体会众多实惠和乐趣。

明星娱乐 2025-01-15 18:03:42

东楚网·黄石新闻网

湖北,黄石,东楚风云，在线新闻.东楚网是您了解黄石新闻最权威最专业的平台。全面整合黄石日报、东楚晚报、黄石电视台、黄石人民广播电台，大冶，阳新，下陆，开发铁山新闻资源.

新闻资讯 2025-01-31 02:18:37

一路狂奔科技（深圳）有限公司

一路狂奔科技（深圳）有限公司专注于无人机行业应用的技术研究，在环境监测、安监、消防领域有着广泛的经验。我们的产品服务包括无人机气体实时监测，气体采集，水体采集等，产品体积小，便携，一人就能完成工作任务。

网络应用 2025-02-08 01:36:10

高通要用AR眼镜推元宇宙一把 (高通ar官网)

10月底，Facebook更名为Meta，这是Facebook转变为，元宇宙公司，的重要一步，也让元宇宙引发更多讨论，元宇宙并没有一个清晰明确的定义，简单理解，元宇宙就是现实世界在虚拟世界的一个映射，既然要映射现实世界，难度可想而知，AR、VR、MR，统称XR，应该是目前与元宇宙联系比较紧密的设备，但XR设备依旧处于早期，想要实现元宇...。

2024-12-09 17:53:04

AI聊天后继AI绘画一键生成没学过生物的也能门外汉蛋白质 (ai聊天工具)

ChatGPT引发的新一轮AI浪潮，正在席卷生命科学界，2023年初，ChatGPT大火，继去年11月30日上线第5天用户获增100万，如今短短两个月时间，ChatGPT日活用户已超1亿，成为历史上增长最快的消费级应用程序，直到今天，与之相关的讨论仍层出不穷，伴随着ChatGPT的火热，国内市场也很难平静，百度、阿里、腾讯、网易、京东...。

2024-11-30 20:46:04

天差地别手机相机CMOS传感器实际面积对比 (天差地别是什么)

在手机发布会上，相机总是会占据大量篇幅，，1，1.56英寸、1，2英寸，这些都是大家耳熟能详的说法，但实际上类似，1，XX英寸，的并不直观，导致大家难以感受到CMOS之间的面积差异，故本文罗列并计算了常见CMOS尺寸的实际面积，方便大家直观对比不同年代、不同定位的CMOS实际面积差距，千言万语，不如看表，主流CMOS尺寸对比图↑备注，...。

2024-11-30 14:25:08

想要提高价格就要做好这5个方面 (想要提高价格怎么说)

价格一般是由5个因素决定的，分别是成本、供需关系，效率、信息、客户感知价值，①成本成本越高，生产成本、运输成本等总的成本，，价格越高，②供需关系供大于求则价格降低，供不应求则，供小于求，价格上升，③效率同样的需求，同样的生产成本，同样的供给，但是运营效率不一样，价格就会不同，④信息也就是双方的信息差，当信息不对称的时候，就有获利空间，...。

2024-11-26 18:06:42

互联网创业底层逻辑信息差有多重要 (互联网创业)

很多大佬经常说这样一句话，以后信息差会越来少，虽然我没有华丽的头衔光环，但是我有宝贵的创业经验，对他们的这种说法完全不认同，其实我们每个人的注意力都是有限的，而互联网上大大小小的平台却有几百个，并且每天都在增加，我们每人每天只有24个小时，而互联网上大大小小的平台却非常非常多，就拿日活跃达到几千万用户以上的一些平台来说，爱奇艺，微信，...。

2024-11-21 22:31:05

你知道在十二星座中的狮子女应该如何去追吗 (你知道在十二生肖里吗)

好多人觉得狮子座女孩不易触碰，因此今天汇总怎样谋求狮子座女孩！如何追狮子座女孩汇总一同来看看吧！1，不要炫耀这一点十分关键，实践上，狮子座女孩喜欢暗藏自己的才干，她们不喜欢他人在他们眼前炫耀什么，他们想要取得的才干会很勤劳，你显摆她们不喜欢的才干是没有用的，2，富余牢靠狮子座女孩对周边的人说，谁靠谱，谁跑火车，她们自动，所以你毋庸承诺...。

2024-07-09 23:01:02

梦见自己去买米 (梦见自己去买衣服是什么意思)

1、梦见自己去买米的吉凶指数因勤勉而成功开展，名成利就之凶兆无疑，但只怕人格、地格为凶数，则易生家庭之错乱，再加以天地格水火相克，会恐好景不长，必有失败之一天，中吉，吉凶指数，83，仅供参考，2、梦见自己去买米的宜忌，宜，宜烹饪，宜分享旅行攻略，宜观星，忌，忌给花浇水，忌驾驶汽车，忌吃水果糖，3、梦见自己去买米的预兆梦见自己去...。

2024-07-09 13:16:06

尼桑蓝鸟是b级车吗 (尼桑蓝鸟是不是停产了)

对于尼桑蓝鸟能否属于B级车的不懂，这里可以明白地给出答案，日产蓝鸟并非B级车，而是归类于A级紧凑型轿车，只管其车身尺寸规格相对较大，但从产品定位和售价来看，它依然稳坐A级紧凑车型的行列，在车身尺寸上，蓝鸟，LANNIA，展现出了必定的好处，其长宽高区分为4683mm、1780mm、1465mm，轴距到达了2700mm，为乘客提供了较为...。

2024-07-07 19:58:16

英菲尼迪fx50 (英菲尼迪fx37)

目前看是雷克萨斯，雷克萨斯在国际的最高配是ls600hl，英菲尼迪是fx50，售价差异比拟大，而且竞争对手也不是一个层面的；FX35上可选的技术套装包含英菲尼迪的，盘绕视角，监控系统，在车子前部后部和侧部装置了摄相机以在FX周围的空间制作，鹰眼，视角，倒车时进行，预冲撞，安保带能够在感应或探测到来临的冲撞时智能绷紧技术套装还包含路途；...。

2024-07-07 17:27:32

保时捷是哪个国度的品牌 (保时捷是哪个国家生产的)

保时捷品牌引见，保时捷，Porsche，，德国公众汽车旗下环球驰名奢侈汽车品牌，，又译波尔舍，又因其品牌英文名谐音，外号，破二手车，总部位于德国斯图加特，是欧美汽车的重要代表之一，成立于1931年，开创人费迪南德·保时捷是一位享誉环球车坛的驰名设计师，保时捷汽车最后以其显明的特征，青蛙眼大灯，甲壳虫式的车形，后置式发起机和优秀的功...。

2024-07-07 01:16:16

【驱动人生网卡版下载】2022年最新官方正式版驱动人生网卡版免费下载

腾讯软件中心提供2022年最新8.2.12.74官方正式版驱动人生网卡版高速下载，本正式版驱动人生网卡版软件安全认证，免费无插件。

2023-09-19 02:01:05

那英姐姐正式表态：我没有为任何节目做制片人，网传都是假的|李玟|华少|那辛|好声音|曾志伟

那英姐姐正式表态：我没有为任何节目做制片人，网传都是假的,李玟,华少,那辛,好声音,曾志伟,那英姐姐

2023-09-02 16:49:18

文章推荐

iOS8终究是来了来解解馋 (ios8+)

苹果已经装点好自己WWDC2014会展，准备迎接来自世界各地的开发者和媒体，在会展显眼的位置，iOS8的蓝色横幅广告就已经挂出来，距离大会开始不到一周，库比提诺在设法做到密不透风的时候，用户的好奇心也如期而至，苹果在吊足胃口，但网友和媒体对于iOS8的各种概念与猜测，以及消息边角料的兴趣，却从没有停止过，桌面工具在所有靠谱的想象里，设...。

2025-01-31 01:39:19

网络百科

音乐流媒体软件Spotify付费转化率为何这么高 (音乐流媒体软件有哪些)

在2015年的时候，TheFader报道了一则关于Spotify的重磅新闻，在其7500万月活跃用户中，有2000万左右是付费用户，26.6%的转化率对于免费增值产品来说是令人难以置信的，正如JasonChen所说，如果说1%是普遍的水准，然后DropBox4%的转化率是非常不错的话，那26.6%绝对可以称的上是令人匪夷所思了，至于用...。

2024-12-09 21:50:48

资讯动态

用AI推动产业升级商汤科技林倞坚持原创技术 (推动ai技术发展的主要动力因素是哪些)

7月9日，全球人工智能与机器人峰会，CCF，GAIR，在深圳举办，商汤科技执行研发总监林倞出席峰会CV，专场，并发表题为，深度驱动的人工智能，从学术创新到产业落地，的演讲，林倞在演讲中表示，深度学习将带来将各项人工智能技术的突破，新一轮的科技革命蓄势待发，而商汤科技希望通过原创技术，用AI推动产业升级，图，商汤科技执行研发总监林倞同时...。

2024-12-09 16:57:46

资讯动态

big 苹果电脑macOS sur系统启动盘怎么设置 (big iphone)

使用苹果电脑的而且已经升级到了BigSur系统的用户，可能都比较头疼它经常会出现一些问题，那么使用苹果电脑的用户就可以自制一个安装启动盘，这样在恢复备份文件的时候也会方便很多，那么苹果电脑macOSbigsur系统启动盘怎么设置，下面就跟小编一起来看看吧！苹果电脑macOSbigsur系统启动盘设置方法1、准备一个16G以上的u盘2、...。

2024-12-04 14:33:12

技术教程

这个D (这个大佬画风不对)

语音播放文章内容由深声科技提供技术支持您的浏览器不支持audio元素，随着网络空间的规模和行动不断扩大，其与日常生活日益交织，往往在网络空间一起微小的安全事件可能带来一连串，蝴蝶效应，，譬如去年全球最大的半导体代工制造商台积电工厂意外，中毒，，造成工厂停工不说还连累了要发新品的苹果，三天亏了10亿，而这次煽动翅膀的是D，Link产品的...。

2024-11-30 22:29:11

资讯动态

cosFormer ICLR 重新思考注意力机制中的Softmax 2022 (cosforge)

一、背景

3、Softmax的两大性质

二、cosFormer

1、方法

2、实验结果

相关文章

文章推荐