AI推理芯片 下半场 大模型 的入场券 (AI推理芯片需要具备低功耗实时性和定制化)

文章编号:44643 资讯动态 2024-12-09 推理芯片大模型云天励飞

2023是“群模共舞”的元年。

先是ChatGPT的横空出世给予众人致命震撼,随后国内诸多AI、互联网公司迅速加大资源投入“练模”。

在这场“模型大战”中,算力作为不可或缺的重武器,一度成为众公司争抢的关键要素。

作为人工智能的三驾马车之一,算力是训练AI模型、推理任务的关键。倘若把训练模型当作是做一道精致的菜肴,算力就好比一套称手的烹饪工具。

世人皆知巧妇难为无米之炊,但再好的厨子,没有一口好锅、一把好刀,面对鲜美的食材也只能望而兴叹。

“大模型动辄百亿级的参数,仓库里没有几百张A100、H100,都谈不上入围。”

所谓兵马未动、粮草先行。为了练模,模型厂商们对算力芯片的购买达到了前所未有的水平。大模型这波风潮下,最先受益的,既不是躬身入局的企业,也非下游场景用户,而是以Nvidia为代表的算力芯片厂商。

如果把这场肇始于“练模”的造富奇迹归结于大模型的「上半场」,那么大模型的「下半场」财富机遇,则是如何把大模型装入应用场景之中。这正如云天励飞CEO陈宁所言——

“生产大模型不是目的,千行百业的落地和应用才是最终目的。”

大模型虽然改变了传统AI算法模型的生产模式,效率更高、效果更好、泛化能力更强。但从商业化层面,仍然跳脱不了AI落地的困境。

过去几年时间,无数AI公司前赴后继,趟出了一条血淋淋的路子,即AI+场景。而对于诸多碎片化、多样化场景,AI公司们发现,边缘计算能够较好地解决AI落地应用的商业难题。

如今,大模型已然成为AI新范式,诸多厂商在尝试商业化时,也提出了“行业大模型”“一行一模”的观点,即用 大模型来解决碎片化场景的业务痛点。

从这个角度看,在这条通往AI盈利的道路上,以灵活调度著称的边缘计算,将成为未来大模型广泛落地到场景的重要一环。而为边缘计算提供算力的AI推理芯片,也会迎来一次市场扩容。

掣肘AI落地的两个难点:场景与成本

场景与成本是AI老生常谈的话题,就像一道横亘在理想与现实之间的长河,无法避开又很难绕行。即便是最知名的AI公司、技术天才,以及商业巨子,在这条河面前都束手无策、有心无力。久而久之,AI公司套上了“盈利魔咒”。

以ChatGPT为代表的大模型之所以备受推崇,原因无他:在众人身处迷途之时,大模型让逐梦者们看到了一丝黎明前的曙光。AI创业者林夕感叹道:“大模型,AI之光。”

如果没有大模型,很多AI公司可能熬不过2023的冬天。 林夕表示,ChatGPT强大的逻辑推理能力,让人们第一次近距离感受到了人工智能的厉害之处。“信心比黄金重要”,当整个社会认可大模型之后,资本才愿意继续加注。

毫不夸张地说,大模型给那些资金流转困难的AI公司们,强行续命了几年。毕竟AI之梦,也难逃现实的鸡零狗碎。

当然,这只是表象,AI如长夜、资本永不眠。资本从不为情怀买单,而是看到了 大模型以极强的泛化能力,能够有效解决场景和成本这一本质难题, 从而带来巨大的商业价值空间。这也正是逐梦者们看到的曙光——困扰AI商业化的难题有望得到破解。

过去,AI从实验室走向应用场景,许多创业公司开始吭哧吭哧搞业务,在一个个碎片化场景里掘土挖地。但高昂的研发投入与实际业务产生的经济价值相去甚远,人效比极低,即所谓的“造血能力严重不足”。

以安防为例,虽然AI给这个行业带来了革命性的变化,最终受益者却并不是AI公司,而是为数不多的几个安防巨头。原因在于,安防碎片化场景特别多,需要AI,但并不需要昂贵且强大的AI。

这些安防大厂能够从AI竞赛中脱颖而出的秘密,除了原来to B稳定的渠道关系,更为重要的是,他们的人效比很高。这种优势体现在产品上就是:同样一个摄像头,AI公司的产品天然贵上几十块。客户自然而然用脚投票。

如今,那些名噪一时的CV公司,安防业务已经偃旗息鼓。究其原因,AI公司在解决碎片化场景需求时,一个任务一个模型的模式,造成研发成本居高不下,加之重复建设,导致整体的运营成本处于高位,而安防本身属于脏活儿累活儿,事儿多钱少,AI公司自然而然会“水土不服”。

这种“牛刀杀鸡”的现象并不局限于安防行业,但凡是AI所及之处,基本上都会面临碎片化场景这一核心命题。在大模型未出世之前,AI对于碎片化场景非常头疼,也尝试过各种解题方式,比如小样本学习、自动机器学习等,但效果并不明显。

大模型无疑是当下解决碎片化场景的最优解,其极强的泛化能力,能够实现“一模多用”,即一个模型解决N个任务。 大模型从根本上改变了算法生产的模式,能够解决碎片化、非标化问题,直接降低AI的各类成本,成为当下AI公司打破魔咒的重要路径。

大模型「下半场」:边缘计算成为重点

如果说大模型「上半场」是技术的较量,那么「下半场」则是商业化的比拼。

无可置疑,大模型将解决掣肘AI落地的碎片化难题,并极大地削减研发成本,给AI带来质的飞跃,使其具备更大的想象空间。但这只能算是阶段性胜利,只有客户乖乖掏出钱包里的金币,并持续复购,产生价值,AI才算取得成功。

这个AI商业闭环中,还涉及到一个部署成本的问题。

AI不是消费电子,即买即用,尽管其常常被嵌入至各类电子设备中。但AI的消费大户,仍是以降本增效为目的的B/G客户。这类客户对于AI的最后一公里交付尤为重视,他们并不愿意为AI方案的部署花费任何多余的金币。

传统AI部署常见于云端一体,主要通过云端进行计算,感知端仅有微弱算力,数据在端侧采,算法在云上跑。这种模式存在几个问题:

为此,AI公司们在云端一体之间,增加了边缘计算,来解决云端算力浪费及端侧算力不足的问题。

边缘计算的灵感得益于章鱼的八只触手。作为云端计算的协同和补充,边缘计算能够在数据源头附近的网关执行数据处理、分析,这种独特的优势可以实现各单元之间执行不同的任务并实现多任务协同,既满足碎片化场景的算力调度需求,又具备低延时、安全等特点。

并且,边缘计算设备的部署成本相对较低,客户不需要部署昂贵的云服务器就能用上AI,这一核心优势使得边缘计算备受青睐,已然成为AI落地的重要途径之一。

但要真正让算法模型在边缘计算设备上跑起来,仍有两个比较重要的难点。

第一,边缘设备的算力比云端服务器弱,而大部分的算法模型,是在服务器上训练的,算法模型要实现迁移,需要做大量的优化工作。

第二,算法模型要在边缘设备上部署、执行推理任务,需要一颗强大的AI算力芯片,并针对芯片做适配,才能保证算法模型的运行效率。也就是说,AI算力芯片的生态极其重要,但现阶段比较尴尬的是,AI算力芯片厂商较为分散。

可以预见的是,在大模型时代,第一个问题较为容易解决,因为大模型自带极强的泛化能力。至于第二个点,则要比想象中难得多,其涉及到底层芯片技术的研发和攻关,以及对应的生态协同。 如何让边缘设备运行大模型,对于AI芯片厂商而言,这既是机遇,也是挑战。

大模型时代下,AI芯片的国产替代潮

AI芯片功能上分两类,分别是训练芯片和推理芯片。

训练芯片主要用于大模型的训练、学习和优化,侧重于计算性能,而推理芯片则主要为模型的推理运算提供算力。二者之间的区别在于,训练芯片重计算,推理芯片重效率(时延、功耗)。并且,从云边端协同的角度看,训练芯片多用于服务器,推理芯片则主要部署在边端设备之上。

当前,国内大模型正处于“练模”阶段,需要极强的算力支撑,因此AI公司们将目光更多放在了训练芯片上,即购买大量的GPU算力来训练算法模型。这也直接成就了Nvidia的万亿市值神话,其H100、H800等芯片一骑绝尘,国内则有华为、寒武纪等厂商在努力追赶。

一旦大模型成熟,与之而来的便是落地应用,这时必然要用到边端设备,从而滋生出对推理芯片的庞大需求。

然而,由于不可抗力因素,现阶段的训练芯片和推理芯片皆受到贸易管制,在此背景下,AI芯片的国产替代提上了日程。

作为深圳AI第一股,云天励飞在边缘侧AI芯片的布局已经成果初显。2020年,云天励飞第一代AI推理芯片DeepEye1000实现商用,并落地到AI相机、安全PC、商业机器人等边缘计算场景。

云天励飞副总裁、芯片产品线总经理李爱军告诉,大模型作为AI的进阶态,本质上还是要落地到具体业务场景才能产生价值,而边缘计算则是不可逆的趋势,因此做好边缘计算的推理芯片,对于未来大模型的应用至关重要。

在过去三年多的时间中,DeepEye1000广泛落地到各行各业,但同时也带来了诸多反馈: 算力碎片化、算法长尾化、产品非标化、规模碎片化等痛点依旧存在,传统以追求单一场景PPA的传统芯片模式难以适应AI边缘计算场景下人工智能落地的需求。

基于此,云天励飞打造了新一代的边缘计算芯片平台DeepEdge10。

DeepEdge10属于主控级SoC,可以满足绝大部分场景的控制需要,同时基于云天励飞自研的新一代的处理器NNP400T,可以高效支持Transformer。在架构方面,DeepEdge10采用了D2D Chiplet封装结构,可以实现算力灵活扩展,并通过C2CMesh互联扩展,可以支持千亿级大模型部署。

相较于第一代DeepEye1000,DeepEdge10集成了2+8核通用算力CPU,整体算力提升了4倍以上,采用D2D Chiplet封装,实现从12T到48T的算力覆盖,总体性能比上一代芯片超过20倍。

在DeepEdge10的基础上,云天励飞还打造了Edge Server算力加速卡,最高支持1024Tops的npu算力、1920GB/S的内存带宽,以及512GB统一内存。目前,DeepEdge10已经支持主流开源模型超过100种,模型支持的数量还在更新,同时支持客户模型定制化的部署。

具体性能上,在Edge Device 端,DeepEdge10Max运行端侧70亿参数的大模型可以获得每秒27Token/s,最高可兼容130亿参数的大模型。而在Edge Server上,采用C2C Mesh互联,多卡协同,运行700亿参数大模型可获得42Token/s的生成速度,最高兼容千亿级别参数的大模型。

据了解,DeepEdge10芯片平台核心竞争力在于边缘计算,可以针对不同的场景提供差异化算力,从而满足碎片化、多样化需求。目前,DeepEdge10已经进入了大规模的应用中,有近30家算法芯片化合作伙伴,所有使用云天芯片的产品合作伙伴,均可在线下载更新云天超过100多种算法。

李爱军表示,大模型未来落地到机器人、无人驾驶汽车等场景,都需要用到推理芯片,而推理芯片正处于百家争鸣的过程。 而在国内,如何基于国产工艺实现推理芯片的研发、流片和商用至关重要。

现阶段,国内芯片的成熟工艺处于14nm的节点。对于千亿级、万亿级别的大模型,其推理芯片不但需要极强的计算能力,还要保持超低的功耗和超低的成本,对芯片制程的工艺达到了5nm、2nm。显然,国产芯片离最高端的芯片还有一段距离。

不过,结合当前国内的生产工艺,云天励飞与合作伙伴于2020年开始技术攻关,在ChipletD2D的技术上定制了一系列IP,实现了可以在14nm芯片上运行千亿大模型的功能。虽然成本、功耗会高一些,但这已经是国产芯片的最优水平。至于更高工艺的芯片,国内芯片厂商既需要资源,也需要时间。

“我们志在打造国产工艺自主可控的AI芯片。”李爱军告诉,这条路道阻且长,但云天励飞会坚定地走下去。

原创文章,未经授权禁止转载。详情见 转载须知 。

AI推理芯片,大模型「下半场」的入场券

全局中部横幅
天一网校

天一网校-隶属于河南天一新奥教育科技有限公司;是公司沉淀19年的厚积薄发,重磅推出的集考试和远程教育的综合性教育门户网站,旨在建立全国专业的在线考试、资源下载的网络学习基地,通过应用先进的信息化工具、计算机技术、网络技术、数字出版和移动应用技术等为考生和参与学习教育的用户打造时尚,高科技、高智能的智慧教育平台。

手机APP制作平台

手机APP制作平台,原生手机APP制作平台,APP制作平台,手机APP制作平台工具,APP制作网站,原生APP制作网站,免费APP制作网站,更好的免费APP制作平台尽在叮铛应用APP制作平台

宁波市文化馆(宁波市展览馆

以人民为中心,需求为导向,围绕全民艺术“知识普及、欣赏普及、技能普及、活动普及”四大任务和“中小学生、特殊群体”两个专项普及,整合全市文化馆(站)和相关社会机构的力量,以丰富多彩的内容、形式多祥的方法,为全体市民提供艺术普及服务。

NSK中空轴丝杠

搜索NSK中空轴丝杠?我们提供高精密、高速度的NSK中空轴丝杠解决方案,满足您运动控制需求。联系我们获取报价和技术支持。

费斯托工具中国

电动工具,切入式圆锯,圆锯,斜切锯,圆形偏心振动磨机,磨机,方形轨道磨机鲁锹,曲线锯,无绳电钻,电动冲击扳手,木榫开槽机,修边机,铣机,CARVEX,KAPEX,SHINEX,IMPACT

佛山市朱雀跨境电商有限公司

佛山市朱雀跨境电商有限公司(广东泓亿科技有限公司)位于广东省,是中国贸易促进委员会淄博委员会下属实体,佛山电子商务协会理事单位。

网吧管家

网吧管家,专业网吧营销工具,产品包含游戏活动,营销玩法,桌面管理,网吧公告,语音播报,顾客留言,数据报表等营销功能,一站式网吧管理软件,贴心为网吧经营管理服务。网吧经营,网吧系统,网吧维护,网吧管理,网吧活动,网吧游戏,网吧营销大师,领航,小妖,银杏,网乐,熊猫掌柜

警翼执法记录仪

青岛集群通科技有限公司是国家工信部备案的无线电通信设备经销商,主营提供无线对讲机,警翼执法记录仪,酒精检测仪,执法终端,电子证据管理系统一体化的销售服务,服务热线:0532-83800935

临沂400电话,临沂400电话办理,临沂400电话申请

山东智顺网络400电话代理商,专业的临沂400电话办理平台,正规渠道专业受理,确保400电话服务完善,开通快速。与中国电信、联通、移动三大通信运营合作从事电信增值服务(400电话、短信)。

手机游戏代理

有彩科技专业从事手机游戏软件代理加盟渠道,合作热线:18372019116,可制作安卓、ios、h5以及pc手机游戏盒子,可提供游戏平台代理渠道合作,时下热门手游代理,游戏推广代理加盟。

包头市四友木业有限责任公司

包头市四友木业有限责任公司坐落于内蒙古包头市九原区麻池镇,是集木门的研发、生产、销售于一体的现代化木制品加工制造企业。公司拥有10000多平方米的现代化厂房及先进的生产设备,并拥有一批专业的生产技术人员,经验丰富,技术精湛、实力雄厚。

全局底部横幅