下马威 AI推理的 供应链的 英伟达B300 加速器 (下马威百科)

文章编号:52235 资讯动态 2025-02-01 英伟达大模型B300

近日,黄仁勋让海外科技圈提早过上了圣诞节。

由于硅、封装以及芯片背板的问题,英伟达的Blackwell GPU曾多次传出延迟发布的信息,但这并没有让英伟达的脚步放缓。

在GB200和B200发布6个月后,英伟达就宣布将推出全新的GPU GB300和B300。外界看来似乎是一个循序渐进的过程,但事实上,这是非常高效的迭代。全新GPU为大模型的推理和训练性能带来巨大的提升,对大模型公司和存储供应商来说,无疑是一份巨大的圣诞礼物。

B300是台积电4NP工艺(英伟达定制工艺,属于5nm制程节点的一部分)节点上的一个全新流片。定制化工艺做了一个调整设计,专用于计算芯片,使得B300浮点运算比B200高50%,GB300和B300的热设计功耗分别达到1.4KW和1.2KW,相比之下,GB200和B200的热设计功耗分别为1.2KW和1KW。

此外,B300的内存从8-Hi(8层堆叠)升级到12-Hi HBM3E,每个GPU的HBM容量增加到288GB,但引脚速度将保持不变,所以每个GPU的内存带宽仍然是8TB/s。不过,三星并没有收到黄仁勋带来的礼物,因为至少在未来的9个月内,他们都没有机会拿到GB200和GB300的订单

GPU卷内存的背后,是大模型的下一场战事「推理」

英伟达改进GPU内存的背后,是为满足OpenAI O3对推理性能的更高要求。

OpenAI O3采用KVCache技术对模型的推理能力进行优化,即通过缓存注意力机制中的键(Key)和值(Value)来减少冗余计算,从而提高模型推理的速度。关键就是缓存之前的旧数据, 仅对新输入的Token进行计算 ,所以对缓存的性能提出了更高的要求。

下图是在不同批处理大小下,使用H100和H200两种GPU处理长序列时,Meta开源大模型Llama3.1405B在FP8(8位浮点数表示法)精度下的处理速度。输入设置为1000个Token,输出19000个Token,由此模拟OpenAI o1和o3模型中的思维链。

英伟达B300:AI推理的「加速器」,供应链的「下马威」

H100升级到H200的两个改进是: 内存更高,速度更快。

内存容量提升,在多个维度都会产生影响。

当然,英伟达并不是唯一一家可以提高内存容量的公司。ASIC同样可以做到,且事实上AMD在这方面可能处于更有利的地位,MI300X的192GB、MI325X的256GB以及MI350X的288GB,这些产品的内存容量比英伟达要高。

GB200 NVL72和GB300 NVL72在性能和成本方面都有很大的提升,在推理中使用NVL72的关键是它使得72个GPU能够处理同一个问题,并共享内存,且延迟极低。世界上没有其他加速器拥有全互联的交换连接以及能够通过交换机进行全约简操作。GB200 NVL72和GB300 NVL72为实现许多关键功能带来了革命性的变化:

因此,NVL72的推理性价比比之前提高了10倍以上,特别是在长推理链上。KVCache占用内存对经济效益是致命的,但NVL72能够将推理长度扩展到10万以上token并在高批量中进行。

英伟达的「转身」,供应链的「震动」

英伟达在GB300的设计上有很大的改动,对于GB200, 英伟达提供整个BIanca板(包括Blackwell GPU,Grace CPU, 512GB的LPDDR5X、VRM全部集成在一块印刷电路板上)以及交换托盘和铜背板。

英伟达B300:AI推理的「加速器」,供应链的「下马威」

对于GB300,英伟达不再提供整个Bianca板,只提供“SXM Puck”模块上的B300以及BGA封装上的Grace CPU。HMC(混合内存立方体)将由美国初创公司Axiado提供,替换掉了之前的供应商Aspeed。此外,交换托盘和铜背板将仍由英伟达提供。

客户现在需要自主采购计算板上其余的组件,外部存储器将采用LPCAMM模块,而不是焊接的LPDDR5X,美光或将成为这些模块的主要供应商。

英伟达B300:AI推理的「加速器」,供应链的「下马威」

向SXM Puck的转变,为更多的OEM和ODM提供了参与供应计算托盘的机会,以前只有纬创资通和工业富联可以生产Bianca板。在这次供应商调整中, 纬创资通成为最大输家 ,因为他们失去了Bianca板的份额。相对而言,工业富联虽然失去了Bianca板的份额,但他们是SXM Puck模块的独家制造商,这部分带来的收益完全可以抵消掉Bianca板带来的损失。英伟达虽然想找更多其他的SXM Puck模块供应商,但目前还没有实际下单。

另一个重大变化是VRM(电压调节模块),虽然SXM Puck上有一些VRM,但大部分的VRM将由超大规模厂商或者OEM直接从VRM供应商处采购。

此外,英伟达还在GB300平台上提供了800G ConnectX-8 NIC(网络接口卡),这使得在InfiniBand和以太网上的横向扩展带宽翻倍。由于上市时间的影响,英伟达之前取消了GB200的ConnectX-8,并且放弃了在Bianca板上启用PCIe Gen 6(PCI Express接口的最新一代标准)。

市场信息表明,GB200和GB300的延迟发布,给硅谷的大厂们带来了很大的影响。而这背后传递出的信号是从第三季度,大量订单转向了GB300。截至上周,所有大厂都决定使用GB300。一部分原因是更高的性能和更大的内存,另一方面, 英伟达已经控制了大厂模型训练的命运。

受制于产品上市时间、机架、冷却和电源功率密度的重大变化,大厂在服务器层级无法对GB200进行太多更改。这导致Meta放弃了希望从博通和英伟达两个渠道采购网络接口卡(NICs)的希望,转而完全依赖英伟达。谷歌也放弃了自家的网络接口卡,选择与英伟达合作。

硅谷大厂们习惯了成本优化,从CPU到网络,再到螺丝和金属板。

亚马逊是一个例外, 定制化让他们“被迫”选择了次优配置。 由于亚马逊使用了PCIe交换机和效率较低的200G弹性织物适配器NIC,无法像Meta、谷歌、微软、甲骨文、X和Coreweave那样部署NVL72,因此不得不使用NVL36,这也导致每个GPU的成本更高,因为背板和交换机内容更多。

GB300的出现为亚马逊带来转机,大厂能够定制主板、冷却系统等功能。这使得亚马逊能够构建自己的定制主板,随着更多组件采用水冷,以及K2V6 400G NIC在2025年第三季度支持HVM(硬件虚拟化管理),亚马逊同样可以使用NVL72架构,并大幅改善其总体拥有成本(TCO)。

本文由编译自:

原创文章,未经授权禁止转载。详情见 转载须知 。

全局中部横幅
攻城狮阿龙

一个热爱技术和生活的工程师。

挚诚手机评测

手机评测网(www.zuixincp.com)提供最新专业、靠谱的手机评测,手机推荐!致力打造一个帮用户真正了解手机的平台。另外提供专业手机资讯以及手机问答讨论社区。

高速线束哈巴焊机,高速光模块焊锡,脉冲热压焊锡机,铡刀式分板机,FPC冲压分板机,广东亚兰装备技术有限公司

广东亚兰装备技术有限公司专业电子设备研发、生产、销售、服务为一体的综合性配套厂商,公司主打产品有PCB分板机,LED灯条分板机,走刀式分板机,铡刀式分板机,气动式分板机,冲压分板机,冲床分板机,FFC/FPC焊接机,哈巴焊机,陶瓷片热压焊线,脉冲式热压机,墨盒芯片再生焊接机,SFP、XFP、QSFP等高速线束焊锡机,高速光模块焊锡,光器件热压焊锡机,光通讯模块焊接机等

美辰号

美辰号为求职者分享多方面的教育学习知识和相关的经验心得!

吊环

青岛同昌泰商贸有限公司主要从事吊环、吊带、钢丝绳、链条及成套索具、索具配件、五金工具等产品销售!

南京玻纤院

南京玻璃纤维研究设计院是一家专注于过滤材料、工程装备、宇航材料、特种高性能纤维和非通讯光纤的研究院所

众驿服饰

众驿服饰主营:工作服,校服,西服,职业装,西服,T恤,保安服等100万客户案例,20年专注于高档职业装定做.提供最新工作服款式制作价格,高档质量,独家设计,免费上门.

北京抖音代运营

朗创营销专业的北京抖音直播间代运营孵化,北京抖音代运营,北京抖音短视频代运营,北京抖音推广,用数据管理企业搜索引擎广告投放,效果卓越.

江苏恩菲环保装备有限公司

江苏恩菲环保专业从事大气污染治理的环保公司,公司主要生产产品有RTO焚烧炉、RTO、沸石转轮RTO、废气焚烧炉、废液焚烧炉、废气废液焚烧炉、回转窑、危废焚烧炉玻璃钢洗涤塔、废气洗涤塔、污水池加盖除臭、生物除臭设备、废气处理设备、活性炭吸附、焦化废气处理设备、具有多年的环保治理经验,具有环境工程专业总包资质

二级域名租用平台

二级域名租用平台专业提供企业二级域名申请、二级域名分发、免费二级域名、备案域名及已备案域名出租服务多年,可以绑定阿里云,可以绑定腾讯云,已成功为上万用户提供子域名租用服务,是国内最好的备案域名出租服务网站。更多详情请登录http://dns.2jiyumingzuyong.com

全局底部横幅