两行代码解决大语言模型对话局限！港中文贾佳亚团队联合MIT发布超长文本扩展技术 (两行代码解决电脑卡顿)

文章编号：45842 资讯动态 2024-12-09 LongLoRA 贾佳亚长文本大语言模型

中途迷失、模型偷懒、上下文越长大模型越笨......如果体验过大语言模型产品,用户多少会对文本输入长度带来的限制有所感触，比如当想和大模型讨论一些稍长的内容，需要拆分输入，而前面输入的要点，很快就会被大模型忘记。

这是典型的大语言模型对话缺陷！就像先天有注意力缺陷的儿童，难以专注看完一本新书。而缺陷的关键，在于模型缺乏长文本处理能力。这个局面如今被打破。

近日，贾佳亚团队联合MIT发布的新技术和新模型悄然登上各大开源网站的热榜：hugging face热榜第一、paperwithcode热度第一，Github全部python项目热度第五、github stars一周内破千，Twitter上的相关技术帖子浏览量近18万......

两行代码解决大模型对话局限！港中文贾佳亚团队联合MIT发布超扩展技术

Twitter上的相关技术帖子浏览量近18万

这项名为LongLoRA的技术实用但却简单得令人惊讶：只需两行代码、一台8卡A100机器，便可将7B模型的文本长度拓展到100k tokens，70B模型的文本长度拓展到32k tokens；同时，该研究团队还发布了首个拥有70B参数量的长文本对话大语言模型LongAlpaca。

全球首个70B长文本大语言模型发布

LongLoRA的提出，让全球大语言模型的对话缺陷第一次得到解决，自此，几十页的论文、几百页的报告、鸿篇巨制不再成为大模型盲区。

对此，有专业人士激动地表示，LongLoRA是大语言模型迷宫中的希望之灯！它代表着业界对长文本大语言模型的重新思考和关注，有效扩展了大语言模型的上下文窗口，允许模型考虑和处理较长的文本序列，是大语言模型的革新性发明。

两行代码解决大模型对话局限！港中文贾佳亚团队联合MIT发布超扩展技术

除了技术革新外，大语言模型处理长文本问题的一大难点还在于缺少公开的长文本对话数据。

为此，研究团队特意收集了9k条长文本问答语料对，包含针对名著、论文、深度报道甚至财务报表的各类问答。

光会回答长问题还不够，该团队又挑选了3k的短问答语料与9K的长问答语料混合训练，让长文本大模型同时具备短文本对话能力。这个完整的数据集被称为LongAlpaca-12k，目前已经开源。

在LongAlpaca-12k数据集基础上，研究团队对不同参数大小7B、13B、70B进行了训练和评测，开源模型包括LongAlpaca-7B, LongAlpaca-13B和LongAlpaca-70B。

看小说、改论文、指点经济堪称全能王

话不多说，盲选几个demo,一起看看应用了LongLoRA技术叠加12K问答语料的大模型LongAlpaca效果。

两行代码解决大模型对话局限！港中文贾佳亚团队联合MIT发布超扩展技术

让系统新读一篇论文，并根据ICLR的审查指南，对其提出修改意见，从而提升该论文的接收率。LongAlpaca的意见是：通过更精确地阐明新颖性，提供更严格和更有对比性的实验结果(包括具体的数据集和指标)、更广泛的应用和未来发展方向，重点呈现关键贡献和影响，论文被接受的机会将得到提高。

两行代码解决大模型对话局限！港中文贾佳亚团队联合MIT发布超扩展技术

现在，让系统读两篇新的不同的论文，让LongAlpaca概括ICLR和CVPR两个会议之间的风格区别。LongAlpaca总结认为，CVPR论文倾向更具结构性和实验性的风格，专注于实用性和技术性。而ICLR的论文风格更加灵活，侧重关键的理论分析和数学推导，而非标准格式。

可以看出，经过训练的LongAlpaca模型已经可以很轻松地接受新的长篇学术论文，在学术相关问题的回答上相当精准。

接下来，再看看LongAlpaca模型在颇高阅读和理解门槛的经济领域的解读表现。

两行代码解决大模型对话局限！港中文贾佳亚团队联合MIT发布超扩展技术

根据国际货币基金组织从2012年到2023年的全球经济展望的概述合集，对经济形势进行逐年总结以及对未来经济趋势进行预测。LongAlpaca告诉我们，2023年全球经济形势不明朗，跟2022年相比，增长预计放缓;未来几年，全球经济扩张速度偏温和并将低于预期，而地缘政治紧张、金融市场波动等大的挑战依然存在，需通过多边合作和结构性改革小心应对。

LongAlpaca还可以读新的长篇小说，读完后对内容进行分析。下面选取的对比模型是13B参数的LongAlpaca和Llama2，且看各自表现。

两行代码解决大模型对话局限！港中文贾佳亚团队联合MIT发布超扩展技术

名著《西游记》中，为什么孙悟空在大闹天宫时很厉害，但取经路上却屡屡受挫?LongAlpaca 给出了5点原因，大概可总结为 “孙悟空的不成熟、强大的对手、力量的限制、敌人的欺骗、最初缺少同伴等因素导致了他在旅途中的失败。但随着时间推移，他获得了智慧、经验和战友，使他最终战胜了最强大的敌人。”

而 Llama2 的回答较为简单。“虽然他确实大闹天宫，但说他代表着不败的力量并不一定准确。事实上，他最终在西游记中被强大的唐三藏打败。”Llama2没有给出正确答案，并且还提出需要更多的内容信息。

两行代码解决大模型对话局限！港中文贾佳亚团队联合MIT发布超扩展技术

这一次让系统新读一次《三体》，然后问第一部中，叶文洁为什么要联系外星人，而后期又为什么后悔？LongAlpaca认为，叶文洁最初接触外星人是出于理想主义和复仇，但随着时间的推移，她对人类的看法发生了变化，意识到自己可能给全人类带来的危险，她的悔恨与日俱增。回答得十分清晰。

而Llama2的回答则是，“通过与外星人的互动，她希望能更深入地了解宇宙的本质，以及自己在宇宙中的位置。叶文洁逐渐意识到，外星人和他们的技术并不能解决她的问题。”回答笼统，之后开始对小说整体进行评论，答非所问。

从模型给出的答案可发现，一些模型如Llama2 [2] 可能在预训练过程中见过相关小说，但如果在提问时进行仅根据小说题目进行短文本提问的话，回答并不理想。

两个模型的回答对比，高下立见。LongAlpaca改学术论文、点评全球经济大势和读小说，都是一把好手，完胜Llama2。

两行代码和三个关键结论

Llama2可以说是 AI 社区内最强大的开源大模型之一，行业位置领先，LongAlpaca居然可以完胜。其背后的LongLoRA技术成功引起网友们的注意，到底是怎么做到的？

原来大语言模型对长文本处理过程中，计算量的主要开销集中在自注意力机制(self-attention)，其开销随着文本长度成平方次地增加。

针对这个问题，研究团队提出LongLoRA技术，并用分组和偏移的方式来对全局自注意力机制进行模拟。

两行代码解决大模型对话局限！港中文贾佳亚团队联合MIT发布超扩展技术

简单来说，就是将长文本对应的tokens拆分成不同的组，在每组内部做自注意力计算，而分组的方式在不同注意力头 (attention head) 上有所偏移。这样的方式既可以大幅度节约计算量，又可以维持全局感受野的传递。

而这个实现方法也非常简洁，仅两行代码即可完成！

两行代码解决大模型对话局限！港中文贾佳亚团队联合MIT发布超扩展技术

LongLoRA还探索了低秩训练的方式。原有的低秩训练方式，如LoRA [5]，无法在文本长度迁移上取得良好的效果。而LongLoRA在低秩训练的基础上，引入嵌入层 (Embedding layer和 Normalization layers) 进行微调，从而达到可以和全参数微调 (Full fine-tune) 逼近的效果。

两行代码解决大模型对话局限！港中文贾佳亚团队联合MIT发布超扩展技术

进行不同长度文本扩展和训练时，LongLoRA、LoRA和全参数微调不同技术的具体效果如何，可以参考三个维度表现：

在Perplexity-困惑度上，原有LoRA方法的性能在不断恶化，而LongLoRA和全参数微调都能在各种文本长度下维持很好的效果；

在显存消耗上，相比于全参数微调，LongLoRA和原有LoRA都有大幅度的节省。例如，对于8k长度的模型训练，相比于全参数微调，LongLoRA将显存消耗从46.3GB降低到25.6GB；

在训练时间上，对于64k长度的模型训练，相比于常规LoRA，LongLoRA将训练时间从90～100小时左右降低到52.4小时，而全参数微调超过1000小时。

极简的训练方法、极少的计算资源和时间消耗，以及极佳的准确性，令LongLoRA大规模推广成为可能。目前，相关技术与模型已全部开源，感兴趣的用户们可以自己部署感受。

值得一提的是，这是贾佳亚团队继8月9日发布的“可以分割一切”的多模态大模型 LISA 后的又一力作。相距不过短短两个月，不得不说，这研究速度和能力跟LongLoRA一样惊人。

版权文章，未经授权禁止转载。详情见转载须知。

两行代码解决大模型对话局限！港中文贾佳亚团队联合MIT发布超扩展技术

谷普下载提醒您

本文链接：http://www.gpxz.com/article/ebb9f1875e2d6ceb5ad6.html

上一篇：云游戏和数据中心领域做了些什么云计算NVID

下一篇：贸易战也挡不住对中国的热情Google贸易战只

“xueqiu.com”的百度权重查询结果

查询百度权重和百度的关键字排名，查询360权重和360的关键字排名

网站模板 2024-08-06 12:48:46

北京市公安局公安交通管理局

北京市公安局公安交通管理局，北京交管局，交管局，交通管理局，首页

管理咨询 2024-08-06 15:55:46

张家界旅游攻略―湖南西部（张家界）中国国际旅行社有限公司

湖南西部（张家界）中国国际旅行社有限公司专注于国内高品质纯玩旅游服务的专业旅游团队，提供旅游线路、私人定制、酒店预订、家庭小包团、商务会议安排等等相关的旅游事宜.

商业服务 2024-08-17 18:16:15

手机游戏下载

五星手游网为您提供十万海量精品游戏和手机应用免费下载，实用的手机应用，新热好玩的手机游戏推荐，手机游戏排行榜2023前十名。

游戏网游 2024-07-11 13:34:45

伊朗快递

BRE快递公司官网热线:0755-89823923,bre-line物流专业为国内客户提供门到门伊朗空运和bre快递单号跟踪查询等服务,寄伊朗专线咨询bre中伊专线,价格优惠,时效稳定,竭诚欢迎您的惠顾

商业服务 2024-07-13 18:49:33

QTouch跨平台软件

武汉舜通智能自主研发通讯管理机、电力通讯管理机、QTouch跨平台组态软件等组态软件与产品,并提供与电力监控、能源管理有关的电力监控系统、能源管理系统等解决方案.

手机软件 2024-08-18 14:44:19

Gendone

我们通过精细化工、生物化学和动物营养的跨领域融合研究，实现功能性氨基酸开发与应用的持续创新，为全球饲料生产商和养殖者，提供创新的产品和精准应用方案，帮助养殖场更高效地生产高品质肉蛋奶，助力全球畜牧业的可持续发展。

网络应用 2024-11-19 18:20:41

厦门恒兴集团有限公司

电影视频 2024-11-28 12:41:19

河北香河朋达无纺布厂

河北香河朋达无纺布厂专业生产销售无纺布，可生产1.6m.1.8m，2.4m以及3.2m，8g-200g重的无纺布产品，可以按客户来样生产各种颜色产品，强力指标达到国标，还可按客户要求指标生产，并可以生产高强土工布。公司以“专业品质，诚信服务”，期待与您携手合作，共创辉煌！

商业服务 2024-11-28 14:17:28

好书网

电影视频 2025-01-16 01:16:41

共青城龙鑫包装材料有限公司

共青城龙鑫包装材料有限公司是珍珠棉、原料等产品生产加工的公司，拥有完整、科学的质量管理体系。公司主营：珍珠棉；珍珠棉棒；珍珠棉管；珍珠棉护角；珍珠棉包装；epe珍珠棉；实心珍珠棉棒

管理咨询 2025-01-30 16:00:43

恒温恒湿试验箱价格

正航仪器是一家专业从事恒温恒湿试验箱，冷热冲击试验箱，PCT高压加速老化试验箱，高温高压试验箱，紫外线老化试验箱的生产公司。点击查看更多恒温恒湿试验箱价格信息。

企业品牌 2025-02-02 16:09:57

源自海外的音质传奇丹麦丹特声 (源自海外的音乐有哪些)

在音响爱好者的世界里，丹麦丹特声，dantax，无疑是一个充满魅力的名字，它不仅代表着高品质的音响产品，更承载着对声音的极致追求与热爱，许多人在选择音响时，都会关注一个关键问题，丹麦丹特声是进口的吗，答案无疑是肯定的，作为源自丹麦的知名音响品牌，丹特声以其卓越的音质表现和精湛的工艺水平，赢得了全球音响爱好者的青睐，丹麦，这个北欧的童话...。

2025-02-01 14:15:50

助你开店成功做老板千喜贝贝母婴用品 (助你开店成功的女人)

千喜贝贝母婴用品是母婴领域行业内的知名企业，目前已发展成为全国完整、专业的母婴用品机构在全国有直营店、加盟店逾上千家，公司产品涉及儿童内衣，外出服装，寝具等，生产基地在广东省佛山市南海区里水镇，面积22600平方米，集设计，生产，销售于一体，连续三年被消费者协会评为信得过产品，千喜贝贝母婴用品十年孕婴童用品连锁经营经验，拥有多个直营连...。

2025-01-31 21:13:22

给亚马逊自发货卖家铺货模式创业老板的一点建议 (给亚马逊自发货订单客户打电话)

以下内容谨慎阅读，可能会造成大部卖家不适，以及各大培训机构、招商公司的攻击，2018年，2020年两年来，跨境电商圈里突然涌出大量自发货从业人员，培训公司、孵化机构、招商团队大规模宣传亚马逊铺货、自发货模式，因为亚马逊的市场和平台机制，造就了自发货和铺货模式，很多卖家通过不断的上新就可以，运气，出单，如果再增加一些listing优化，...。

2025-01-30 20:15:09

工业互联网数字中国的重要抓手 (工业互联网数据体系有三个特性)

当前，全球制造业已进入到以智能化为核心的第四次工业革命，新一代信息技术的创新发展，加速了其向实体经济渗透融合，工业互联网作为驱动数字化转型，支撑制造业高质量发展的重要抓手，一直以来，受到党中央国务院的高度重视，习近平总书记先后四次对工业互联网做出重要批示，工业互联网之所以得到了党中央国务院的高度重视，是因为在当前数字经济发展过程中，工...。

2024-12-01 00:14:24

一无所知也许你对都在拆中台金融中台 360数科首席科学家张家兴 (一无所知也许会更幸福漫画)

银行为什么需要中台，360数科首席科学家张家兴表示，中台在金融行业的价值体现于对数据、技术、人才进行聚焦、打通、提效，银行拥有着大量的数据、技术和人才，但是这些资源往往，各行其是，银行的部门与部门之间没有配合意识、独立造烟囱；技术流于表面，无法链接、深入，这造成了银行资源的大量浪费，张家兴表示，中台可以很好解决这一痛点，形成聚集的效...。

2024-11-30 19:44:20

亲子餐厅加盟店要多少钱 (亲子餐厅加盟店排行榜)

当今餐饮行业发展迅速，各种餐饮经营形式满足顾客的需求，餐饮行业之间的竞争比较激烈，加盟者此时想要依靠加盟餐饮获得成功，选择有经营特色的餐饮店很重要，就以时下比较受欢迎的亲子餐厅为例，亲子餐厅以亲子互动和亲子就餐为主，是发展前景比较好的餐饮项目，现在有不少加盟者想要加盟亲子餐厅，想要了解亲子餐厅加盟店要多少钱，对于这一问题，小编下面会有...。

2024-11-22 21:36:35

感人的欧美电影 (感人的欧美电影插曲)

感人的欧美电影有，怦然心动，泰坦尼克号，爱你罗茜，一条狗的使命，这个杀手不太冷，恋恋笔记本，暮光之城，等，其中，怦然心动，讲述是，布莱斯全家搬到小镇，邻家女孩朱丽前来帮助，她对他一见倾心，希望是取得他的吻，两人是同班同窗，她不时千方百计凑近他，然而他避之不迭，她青睐爬在高高的梧桐树上看景色，但由于施工，树被要被砍掉，她誓死...。

2024-07-13 18:08:58

做梦梦见披麻戴孝 (做梦梦见披麻戴孝的队伍)

做梦梦见披麻戴孝做梦梦见披麻戴孝，做这个梦是对你生存中行将出现的一些事件的预兆，而不同的人做这个梦所预兆的事件也不同，有的人做这个梦是凶兆，寓意着有或许会升官发财，而有的人做这个梦是凶险，象征着你的好友或亲人会生病，上方为大家分享做梦梦见披麻戴孝的解释，做梦梦见披麻戴孝1梦到从某团体的手中接过麻衣或是孝服这是不吉利的梦，也是在暗示你在...。

2024-07-09 13:12:11

广州在哪里可以加入汽车团购 (广州在哪里可以办港澳通行证)

去汽车团购之家看看吧！还不错，参团的人数蛮多的，多少钱也蛮活动广州有哪些汽车站，增槎路251—253号购票咨询电话、贵州等省城市，中山小道1011—1013号购票咨询电话，开平、华东13省，运营线路、直辖市、湖北、化州、湖南，运营线路，燕岭路633号购票咨询电话，广州汽车客运站地址、衡东，夏茅汽车站地址、四川等省内外客运路途、粤北以及...。

2024-07-05 23:01:17

守护好青藏高原构建国度生态文化洼地新思维引领新征程 (守护好青藏高原)

央视网信息，资讯联播，青藏高原横跨六省区，约占我国1，4的疆土面积，习近平总书记指出，守护好青藏高原的生灵草木、万水千山，事关中华民族生活和开展，要致力把青藏高原打形成为全国乃至国际生态文化洼地，牢记总书记嘱托，青藏高原各省区保持以习近平生态文化思维为指引，锲而不舍走生态优先、绿色开展之路，实际包全好地球第三极生态，致力树立人与人造...。

2024-07-03 14:25:24

广汽本田与西风本田有什么区别吗 (广汽本田与西宁哪个好)

从我的阅历以为广汽本田与西风本田存在多方面差异，成立期间、地点不同，前者1998年成立于广州，后者2003年成立于武汉；产品线、开售战略有所区别，广汽本田有雅阁、奥德赛等，重华南市场，西风本田有思域、CR，V等，华东华中市场体现强；企业文明、治理格调各异，广汽本田重质量、工艺，西风本田重翻新、速度，这些差异使得两家企业在市场竞争中各具...。

2024-07-02 13:36:11

《何处是乡关》第一集：家在西古堡

2023-11-12 00:10:16

文章推荐

SHEFFORO 让创业更省心丝芙洛加盟 (Sheffon)

每个女性对美丽的追求之心都是较为强烈的，随着社会经济的上浮，当下百姓在购买力上的增长，让越来越多的女性在维护个人形象上的花费也在不断的增加，其中护肤就是众多女性消费的重点，甚至随着对待护肤问题上的意识性加深，更是有着很多的女性都会选择好的皮肤管理中心，来给自己的皮肤做加强型护理，而市场上这类需求的不断增加之中，让护肤行业的经营迅速火热...。

2024-12-21 17:44:19

创业加盟

雷锋早报英特尔侵犯芯片专利被判赔近22亿美元；中兴通讯成立汽车电子产品线；千元喜茶订单配送费仅5元为乌龙事件 (雷锋日报社)

中芯国际回应获美供应许可，尽最大努力保证生产扩产不受影响3月2日，针对媒体报道称，中芯国际的成熟工艺已获得部分美国设备厂商的供应许可，中芯国际在上证e互动上回复称，公司会尽最大努力，持续携手全球产业链伙伴，保证公司生产连续性及扩产规划不受影响，中芯国际强调，虽然不确定性依然存在，但公司始终坚持依法合规经营，有信心保证公司短期内生产经营...。

2024-12-09 21:10:30

资讯动态

马思纯晒海边美照愁容璀璨瘦身完成 (马思纯海边吹风照片)

金马最佳女主，金马最佳女配华鼎最佳女主，百花最佳女主，金像最佳女主，其它小奖就不举例了别说同龄，就整个演艺圈马思纯都可以算是很低劣那波里的，所以这手牌哪里烂了，...。

2024-09-07 22:39:16

娱乐热点

逸动plus三种驾驶形式 (逸动plus1.4T尊贵版)

三种形式区分为，1.驾驶形式为静止形式，2.驾驶形式为经济形式，3.驾驶形式为规范温馨形式，长劳碌动plus这款车型，是属于紧凑级别车，消费厂商为长安汽车，目前发售的是2020款车型，逸动plus是一款什么车型是一款紧凑级别车，目前在售的是2020款车型，一共有六款车型性能在售，车辆的厂商指点多少钱元到元，目前这款车型全国一般经销商领...。

2024-07-07 14:51:07

欧美电影

英菲尼迪ex25油耗归零方法 (英菲尼迪ex25)

保养灯的亮起，说明车辆一个周期的保养期间已到，需及时保养，当车子保养实现以后，保养灯是须要归零解决的，那么英菲尼迪ex25油耗归零方法是什么，首先点击一下汽车中控台上的INFO按钮，进入消息界面，而后在界面中点击保养消息按钮，接着点击发起机润滑油进入设定界面，接上去须要先把保养周期从1万公里减到2km，接着点从新设置行驶距离，接着按，...。

2024-07-02 14:37:30

销售培训

两行代码解决大语言模型对话局限！港中文贾佳亚团队联合MIT发布超长文本扩展技术 (两行代码解决电脑卡顿)

相关文章

文章推荐