AndrejKarpathy:大模型有内存限制,这个妙招挺好用|速度|序列|token|karpathy

微信扫码二维码

AndrejKarpathy大模型有内存限

分享至好友和朋友圈

AndrejKarpathy用通俗易懂的语言介绍了speculativeexecution。

「如今,LLM(大语言模型)并不是单点突破的——而是需要多个重要组件有效协同工作系统。Speculativedecoding是帮助我们从系统角度思考的一个很好的例子。」爱丁堡大学博士生符尧表示道。

人形机器人公司1XTechnologies的AI副总裁EricJang评价道:「Karpathy很好的解释了LLM的speculativeexecution。其他自回归模型可能会以类似的方式加速。连续(扩散)模型可能从K步中获益较少(可能在第1步后偏离猜测),但可以将其应用于VQ-latents的离散代码。」

看完上述评价,我们大概也了解了,Karpathy说的「Speculativeexecution」,这是优化技术的一类,采用这个技术的计算机系统会根据现有信息,利用空转时间提前执行一些将来可能用得上,也可能用不上的指令。如果指令执行完成后发现用不上,系统会抛弃计算结果,并回退执行期间造成的副作用(如缓存)。

为了让大家更好的理解Karpathy的内容。我们先介绍一下「Speculativedecoding」方法,对后续理解更加有益,其主要用于加速大模型的推理。据了解,GPT-4泄密报告也提到了openai线上模型推理使用了它(不确定是否100%)。

关于「Speculativedecoding」,已有几篇重要文献可供参考,这也是Karpathy为了写这则推特所参考的论文,包括谷歌今年1月发表的论文《FastInferencefromTransformersviaSpeculativeDecoding》、DeepMind今年2月发表的论文《AcceleratingLargeLanguageModelDecodingwithSpeculativeSampling》,以及谷歌等机构2018年的论文《BlockwiseParallelDecodingforDeepAutoregressiveModels》。

简单来说,「Speculativedecoding」使用两个模型:一个是原始目标模型称为大模型,另一个是比原始模型小得多的近似模型称为小模型。主要思想是先让小模型提前解码多个token进行猜测,并将它们作为单个batch输入到一个大模型中进行审核修正,其效果和直接用大模型解码等价。如果小模型猜测的不准确,那么大型模型会放弃小模型预测的token,继续使用大型模型进行解码。

由于小模型计算量小,从而大大减少了内存访问需求。

介绍完「Speculativedecoding」,我们再回到Karpathy的推特。Karpathy是针对下面内容回复的。

Karpathy表示:对于LLM来说,「Speculativeexecution」是一种极好的推理—时间优化方法。

它取决于以下方面:在单个输入token上分发LLM所花费的时间与在批处理中分发K个输入token所花费的时间一样多。产生这样的原因是因为采样严重受内存限制:模型运行时的大部分工作不是在做计算,而是从VRAM读取transformer的权重到片上缓存进行处理。如果你要做的工作是来读取这些权值,你可以把它们应用到一整批输入向量上。

但是我们不能一次性采样一批K个token,因为每N个token都取决于我们在第N-1步采样的token。由于存在串行依赖性,因此基线实现只是从左到右逐一进行。

这种方法起作用的原因在于,很多「草稿」token都会被接受,因为它们很容易,所以即使是更小的草稿模型也能得到它们。当这些简单的token被接受时,我们会跳过这些部分。大模型不同意的hardtoken会回落到原始速度,但由于一些额外的工作,实际上速度会慢一些。

Karpathy表示,这个奇怪的技巧之所以有效,是因为LLM在推理时受到内存限制,在对单个序列进行采样的batchsize=1设置中,很大一部分本地LLM用例都属于这种情况。因为大多数token都很「简单」。


相关资料:txt下载doc下载文章搜索网址搜索百度搜索、好搜搜索、搜狗搜索必应搜索

本文链接:http://www.gpxz.com/article/a735b091036354aa2eda.html


全局中部横幅
南京建筑实名制

南京软服是一家专业从事南京建筑实名制、南京工地实名制系统、南京e路筑福实名制平台对接、南京二道门系统、南京化工厂人员定位系统、南京食堂打卡机消费机、南京门禁考勤机

轻抖短视频创作工具

轻抖正版官网-百万达人在用的短视频工具:支持各大主流平台批量提取视频、找达人;全网高清素材一键搜索;AI智能视频混剪、文案生成等

霍邱县昌浩朗德鹅养殖专业合作社

霍邱县昌浩朗德鹅养殖专业合作社位于安徽西部霍邱县孟集镇吴岗村。联系人:李经理。手机:15556407999,本公司以饲养朗德鹅及生产鹅肥肝为主,常年聘用畜牧专家进行技术指导,技术力量雄厚,产品各项指标及质量标准达到同行业水准,可按用户要求进行鹅产品分割。我们的鹅肥肝产品是当今国际市场保健药物和食品不可少的重要成分。

搜狗下载

搜狗软件下载通过先进的搜索技术,为您提供最新最全的软件下载服务,全部软件都已经过安全杀毒检测

网站建设【企业网站制作

超级货仓(768800.cn)全国服务电话:400-111-6878,为您提供网站建设、网站制作、网页设计及定制高端网站建设服务,书生商友信息科技专注于企业网站建设、高端网页制作领域,对企业网站制作、平台高端网站建设,包括汽车、家装、农业、外贸、机械等多个行业拥有丰富建站经验,选择书生商友信息科技,为网站保驾护航。

广州固实能源科技有限公司

广州固实能源科技有限公司成立于1999年,是一家专注于高档次国际知名建材品牌的优质系统建材集成供应商。

锅炉

无锡杰能锅炉有限公司专业制造蒸汽锅炉、导热油锅炉、生物质锅炉、类型有燃煤锅炉、燃气锅炉、燃油蒸汽锅炉及非标定制等热水锅炉,拥有一流生产检测装备,主要设备有:蛇形管生产线、盘管生产线、自动焊接生产线、数控等离子(火焰)切割机、80mm三辊数控万能捲板机、管端成型设备、万能材料试验机、金相显微镜、射线探伤器、超声波探伤仪器、硬度仪、光谱分析仪、喷漆房回收系统、大型起吊设备等。

大邦科技【营巢云联】

”大邦科技【营巢云联】专业的智慧工地及三维智慧物联解决方案供应商”

北京华德

无锡新立液压有限公司主要经营:北京华德,上海立新,油研电磁阀,YUKEN油泵,YUKEN电磁阀,齿轮泵,叶片泵,上海立新电磁阀,北京华德液压阀,机电设备机械与传动高低压电器PLC与工控液压与工具等。我们一定将客户利益放在首位,保证产品质量和供货周期及各项服务,紧密把握产品信息和行业动态,以市场为导向,以产品为根本,不断改革创新,与时俱进。

觅办办公

觅办办公隶属于上海君至沪信息科技有限公司,专注全上海办公写字楼租赁,通过一站式办公选址服务以及全程资深业务顾问1对1贴心服务,同时提供完善的租赁方案和流程,海量房源,欢迎咨询021-52270027

[观奇洋服]西服定制

成都观奇服饰有限公司专注定做工作服,已为多家企业提供企业着装解决方案。观奇服饰是中铁等上市企业的指定职业装定做商。为企业提供:工作服定制、定做职业装、企业西装定制、工服定制、成都工作服定做等一站式企业着装解决方案,职员满意,快速提升企业形象。咨询热线:028-80518777

透平油滤油机

重庆通瑞(www.ccqtr.com)是机油真空滤油机,变压器油滤油机,透平油滤油机,三级过滤加油机等产品专业生产加工的公司,重庆通瑞过滤设备制造有限公司的诚信、实力和产品质量获得业界的认可.欢迎各界朋友莅临参观、指导和业务洽谈.

全局底部横幅