AndrejKarpathy:大模型有内存限制,这个妙招挺好用|速度|序列|token|karpathy

用微信扫码二维码

AndrejKarpathy大模型有内存限

分享至好友和朋友圈

AndrejKarpathy用通俗易懂的语言介绍了speculativeexecution。

「如今,LLM(大语言模型)并不是单点突破的——而是需要多个重要组件有效协同工作的系统。Speculativedecoding是帮助我们从系统角度思考的一个很好的例子。」爱丁堡大学博士生符尧表示道。

人形机器人公司1XTechnologies的AI副总裁EricJang评价道:「Karpathy很好的解释了LLM的speculativeexecution。其他自回归模型可能会以类似的方式加速。连续(扩散)模型可能从K步中获益较少(可能在第1步后偏离猜测),但可以将其应用于VQ-latents的离散代码。」

看完上述评价,我们大概也了解了,Karpathy说的「Speculativeexecution」,这是优化技术的一类,采用这个技术的计算机系统会根据现有信息,利用空转时间提前执行一些将来可能用得上,也可能用不上的指令。如果指令执行完成后发现用不上,系统会抛弃计算结果,并回退执行期间造成的副作用(如缓存)。

为了让大家更好的理解Karpathy的内容。我们先介绍一下「Speculativedecoding」方法,对后续理解更加有益,其主要用于加速大模型的推理。据了解,GPT-4泄密报告也提到了OpenAI线上模型推理使用了它(不确定是否100%)。

关于「Speculativedecoding」,已有几篇重要文献可供参考,这也是Karpathy为了写这则推特所参考的论文,包括谷歌今年1月发表的论文《FastInferencefromTransformersviaSpeculativeDecoding》、DeepMind今年2月发表的论文《AcceleratingLargeLanguageModelDecodingwithSpeculativeSampling》,以及谷歌等机构2018年的论文《BlockwiseParallelDecodingforDeepAutoregressiveModels》。

简单来说,「Speculativedecoding」使用两个模型:一个是原始目标模型称为大模型,另一个是比原始模型小得多的近似模型称为小模型。主要思想是先让小模型提前解码多个token进行猜测,并将它们作为单个batch输入到一个大模型中进行审核修正,其效果和直接用大模型解码等价。如果小模型猜测的不准确,那么大型模型会放弃小模型预测的token,继续使用大型模型进行解码。

由于小模型计算量小,从而大大减少了内存访问需求。

介绍完「Speculativedecoding」,我们再回到Karpathy的推特。Karpathy是针对下面内容回复的。

Karpathy表示:对于LLM来说,「Speculativeexecution」是一种极好的推理—时间优化方法。

它取决于以下方面:在单个输入token上分发LLM所花费的时间与在批处理中分发K个输入token所花费的时间一样多。产生这样的原因是因为采样严重受内存限制:模型运行时的大部分工作不是在做计算,而是从VRAM读取transformer的权重到片上缓存进行处理。如果你要做的工作是来读取这些权值,你可以把它们应用到一整批输入向量上。

但是我们不能一次性采样一批K个token,因为每N个token都取决于我们在第N-1步采样的token。由于存在串行依赖性,因此基线实现只是从左到右逐一进行。

这种方法起作用的原因在于,很多「草稿」token都会被接受,因为它们很容易,所以即使是更小的草稿模型也能得到它们。当这些简单的token被接受时,我们会跳过这些部分。大模型不同意的hardtoken会回落到原始速度,但由于一些额外的工作,实际上速度会慢一些。

Karpathy表示,这个奇怪的技巧之所以有效,是因为LLM在推理时受到内存限制,在对单个序列进行采样的batchsize=1设置中,很大一部分本地LLM用例都属于这种情况。因为大多数token都很「简单」。

全局中部横幅
喵星进化论h5游戏在线玩

手机喵星进化论在线玩,喵星进化论h5游戏在线玩是一款玩法类似2048的休闲益智类合体消除h5游戏,很好玩的是,游戏画面十分有趣,音乐音效十分欢快,整体设置也是比较有爱的,休闲时间要找一款这样的游戏玩玩还是十分上瘾的。;您可以免费在线玩。

《剑网3》官网

年度资料片“万灵当歌”今日公测!旗舰画质beta登陆正式服,全新门派“万灵山庄”同步上线!还有更多新资料片内容以及老秘境地图重制亮相,快来一起领略全新的大美江湖吧!

重庆烟草网

重庆市烟草专卖局(公司)成立于1983年,实行“统一领导、垂直管理、专卖专营”的烟草专卖管理体制。市局(公司)主要履行对国有资产经营、管理、监督;专卖执法、打假打私;负责卷烟营销、烟叶生产经营、物流配送;负责财务、人力资源、薪酬分配管理等职能。

鹰牌改造家官网

鹰牌改造家是鹰牌集团旗下的整装局部改造品牌,专注服务老社区旧改翻新和新社区精装优化,实现48小时环保焕新交付,解决旧改翻新时间长、噪音大、污染重等问题,让装修变得更简单、更环保、更省心,即装即住焕新家,全方位打造理想的健康人居环境。

名人百科

名人百科平台版权服务中心,为全国工艺美术领域从业者提供作品版权登记、维护、维权的服务平台。无论你是演员、国画、油画、书法、诗歌艺术家还是剪纸、石木玉雕、核雕、陶艺、瓷器手艺人这里尽情为你推广服务。

隐形锯条

SAWTX锯天下专注带锯条29年,差异化服务1000多家中外优质企业,直供双金属带锯条,硬质合金锯条,金钢石锯条...

脱水筛

立友脱水筛厂家为你说明一下脱水筛和直线筛其实就是一种脱水筛机,扩展名有振动脱水筛,泥浆脱水筛,尾矿脱水筛,矿用脱水筛,高频振动脱水筛.请致电13782587121了解脱水筛价格.

天资网

天资整形网uisweb.com是一个为您量身定做的医美管家型网站。天资整形网加大微整形知识普及力度,紧跟时代步伐,更新热门美容资讯,让您的美丽与时俱进;另外邀请医美专家提供一对一的问答,有针对化的给予整形建议,让您的漂亮与众不同!

液体灌装机

广州冠浩机械专业液体灌装机有限公司,专业生产各种全自动液体灌装机,半自动液体灌装机,是广东知名液体灌装机生产厂家.专业液体灌装机网站,给您展示最新最详细的液体灌装机信息.

纱线

实力定制厂家[齐荣煊]专注设计,研发定制及销售纱线,纺纱,色纺纱,混纺纱,棉纱线,特种纱线,竹节纱,段染纱,段彩纱,彩点纱,ab纱,本着“让特种纱线定制化快捷简单”的经营理念,1对1量身定制,20分钟快捷检测分析并报价.定制热线电话:0571-8211672717867859495

讯飞开放平台

科大讯飞推出的移动互联网智能交互平台,为开发者免费提供:涵盖语音能力增强型SDK,一站式人机智能语音交互解决方案,专业全面的移动应用分析;

点胶机自动点胶机厂家

格润智能装备(深圳)有限公司.点胶机自动点胶机厂家,提供全自动焊锡机,AOI检测设备与品牌.格润智能成立于2006年,是专注于自动化装联和半导体设备的国家高新技术企业。秉承着“助力智能制造、振兴民族品牌”的使命和“让中国制造享誉世界”的愿景,格润智能布局了3C电子、新能源、半导体三大领域。

全局底部横幅