AndrejKarpathy:大模型有内存限制,这个妙招挺好用|速度|序列|token|karpathy

用微信扫码二维码

AndrejKarpathy大模型有内存限

分享至好友和朋友圈

AndrejKarpathy用通俗易懂的语言介绍了speculativeexecution。

「如今,LLM(大语言模型)并不是单点突破的——而是需要多个重要组件有效协同工作的系统。Speculativedecoding是帮助我们从系统角度思考的一个很好的例子。」爱丁堡大学博士生符尧表示道。

人形机器人公司1XTechnologies的AI副总裁EricJang评价道:「Karpathy很好的解释了LLM的speculativeexecution。其他自回归模型可能会以类似的方式加速。连续(扩散)模型可能从K步中获益较少(可能在第1步后偏离猜测),但可以将其应用于VQ-latents的离散代码。」

看完上述评价,我们大概也了解了,Karpathy说的「Speculativeexecution」,这是优化技术的一类,采用这个技术的计算机系统会根据现有信息,利用空转时间提前执行一些将来可能用得上,也可能用不上的指令。如果指令执行完成后发现用不上,系统会抛弃计算结果,并回退执行期间造成的副作用(如缓存)。

为了让大家更好的理解Karpathy的内容。我们先介绍一下「Speculativedecoding」方法,对后续理解更加有益,其主要用于加速大模型的推理。据了解,GPT-4泄密报告也提到了openAI线上模型推理使用了它(不确定是否100%)。

关于「Speculativedecoding」,已有几篇重要文献可供参考,这也是Karpathy为了写这则推特所参考的论文,包括谷歌今年1月发表的论文《FastInferencefromTransformersviaSpeculativeDecoding》、DeepMind今年2月发表的论文《AcceleratingLargeLanguageModelDecodingwithSpeculativeSampling》,以及谷歌等机构2018年的论文《BlockwiseParallelDecodingforDeepAutoregressiveModels》。

简单来说,「Speculativedecoding」使用两个模型:一个是原始目标模型称为大模型,另一个是比原始模型小得多的近似模型称为小模型。主要思想是先让小模型提前解码多个token进行猜测,并将它们作为单个batch输入到一个大模型中进行审核修正,其效果和直接用大模型解码等价。如果小模型猜测的不准确,那么大型模型会放弃小模型预测的token,继续使用大型模型进行解码。

由于小模型计算量小,从而大大减少了内存访问需求。

介绍完「Speculativedecoding」,我们再回到Karpathy的推特。Karpathy是针对下面内容回复的。

Karpathy表示:对于LLM来说,「Speculativeexecution」是一种极好的推理—时间优化方法。

它取决于以下方面:在单个输入token上分发LLM所花费的时间与在批处理中分发K个输入token所花费的时间一样多。产生这样的原因是因为采样严重受内存限制:模型运行时的大部分工作不是在做计算,而是从VRAM读取transformer的权重到片上缓存进行处理。如果你要做的工作是来读取这些权值,你可以把它们应用到一整批输入向量上。

但是我们不能一次性采样一批K个token,因为每N个token都取决于我们在第N-1步采样的token。由于存在串行依赖性,因此基线实现只是从左到右逐一进行。

这种方法起作用的原因在于,很多「草稿」token都会被接受,因为它们很容易,所以即使是更小的草稿模型也能得到它们。当这些简单的token被接受时,我们会跳过这些部分。大模型不同意的hardtoken会回落到原始速度,但由于一些额外的工作,实际上速度会慢一些。

Karpathy表示,这个奇怪的技巧之所以有效,是因为LLM在推理时受到内存限制,在对单个序列进行采样的batchsize=1设置中,很大一部分本地LLM用例都属于这种情况。因为大多数token都很「简单」。

全局中部横幅
云酒楼影视论坛

云酒楼影视论坛发布绝版国产怀旧电视剧,港台电影修复版下载,日韩动画下载,欧美国配译制片下载,国产老电影网盘下载,4K高清电影下载,BT电影之家资源分享,无损音乐资源免费下载。

PP导航网

本站专注于提供最新、最全的AI工具导航,包括各类人工智能应用、智能软件和技术工具,汇集了各类常用、精选和优质的网址资源,包括新闻、娱乐、购物、学习等多个领域。方便您快速找到所需网站,节省搜索时间,助您轻松探索、选择和使用各类AI工具,提高工作效率,创造更多价值。

高速光模块器件焊锡机,高速线束脉冲热压焊接机,墨盒芯片再生

亚贝智能装备有限服务于哈巴焊机,脉冲热压机,墨盒芯片再生热压机,光模块器件焊接机,电子行业高密度FPC、FFC与PCB、SFP、XFP、QSFP等高速线束连接器之间的热压焊锡,PCB分板机,LED灯条分板机,FPC冲床分板机,冲压分板机,FPC分板机,铡刀式分板机等,服务电话:13528582360

中科(辽宁)实业有限公司

中科(辽宁)实业有限公司成立于2014年1月,原名辽宁中科环境监测有限公司,注册资金4000万元,公司总部座落于辽宁省鞍山市高新区越岭路257号,建筑面积2400平方米,其中实验室面积1800平方米。公司旨在致力于环境检测,包括地表水、地下水、生活饮用水、生活污水、工业废水、环境空气、污染源废气、环境噪声、社会生活噪声、工业企业噪声、铁路噪声、建筑施工噪声、公共场所卫生、土壤等权威的第三方专业环境检测机构。公司具有专业的技术服务团队,公司现有员工11人,中级工程师共7名,技术人员大多毕业于环境工程、应用化学

防爆空调

深圳市鹏深冷暖设备有限公司主营:防爆空调、防爆除湿机、防爆加湿机、船用空调、全新风防爆空调、直膨屋顶式中央空调、防爆冰箱冷柜、防爆冷库机组、防爆机房空调、防爆直膨式风管式空调,防腐船用空调、石化,电力,军用系列产品齐全

艾特奖官网

国际空间设计大奖——艾特奖,极具国际影响力的设计大奖。艾特奖聚集了当代顶尖建筑师、设计师及产业资源,是粤港澳大湾区最重要的设计平台之一,也是众多境外建筑师、设计师参与中国建设的重要桥梁。

天翼云代理商

【天翼云节点】天翼云是一个运营商级别的一站式信息服务门户,云计算产品主要包含云主机、云服务器、云存储、对象存储、CDN、内容分发、大数据、云桌面、大数据分析、云主机租用、云主机试用等。(天翼云科技有限公司分公司)

广西正为生物科技有限公司

广西正为生物科技有限公司前身为创建于1986年的广东省廉江县横山卫星肥皂厂,于2016年将总部迁移至广西壮族自治区首府南宁,公司研发部及无尘车间位于南宁国家经济技术开发区通源路8号2栋204#。公司团队专注洗涤洁护产品研发生产30多年,主要从事个人护理产品、居家洁净产品及汽车护理产品的制造与销售。

吉林石棉瓦厂

吉林市专业的石棉瓦厂家――吉林市龙潭区哈达湾瓦厂是采用原松江石棉瓦工艺。主要生产吉林石棉瓦、松江石棉瓦。联系电话:13804416469、联系人:姜经理。

机器人焊接工作站,智能,装备,制造业,环缝自动焊机焊接设备

山东水泊智能装备股份制造有限公司(SHUIPO),专注于专用车智能装备,并提供全面的产线解决方案和完善的系统集成。水泊,立足于设计研发,打造专用车生产柔性化、多样性生产模式。依托视觉应用,成熟焊接工艺,拓展高度自动化产线;利用专机(环缝自动焊机焊接设备、自动焊、切割机、旋压机、旋边机、挤压机等)经验、机器人焊接工作站集成拓展产线业务;智能装备、环缝自动焊机焊接设备、切割机、旋压机、自动焊专机、机器人焊接工作站、工装等模块化工位衔接,提升产线流水线效率,定制专用车生产线“一站式配套服务”;使企业的生产柔性化、定制化、模块化,将用户的需求体现在生产过程中,实现客户柔性生产、灵活生产。水泊(SHUIPO)-多方位服务于专用车行业,拓展机器人焊接工作站落地应用!

油罐拆除

巴洛仕集团为您提供专业的油罐拆除,储罐拆除,加油站拆除等服务。油罐拆除施工方案,油罐拆除公司资质_储罐加油站拆除公司就找巴洛仕油罐拆除一站式解决方案提供者。

防水工程公司

找防水工程公司,首选优久防水,联系电话18583141914,我们有专业防水施工队伍,做防水补漏工程就应该找专业防水堵漏公司,优久防水工程有限公司绝对是你的不二选择!

全局底部横幅