Graviton两年内为AWS提供超过50%的CPU算力 打破英特尔对市场节奏的掌控 (gravitational)
在超大规模和云计算厂商规模较小、ARM未能抢占数据中心市场以及AMD尚未走上复兴之路的时候,英特尔掌控着新计算引擎进入数据中心的节奏。
局势总是在变化。本周,英特尔的CEO帕特.基辛格(Pat Gelsinger)宣布离职,相比之下,亚马逊云科技(AWS)在拉斯维加斯举办年度re:Invent大会,线下参会人数达到6万,而线上人数高度40万人。谁在控制超大规模企业和云计算制造商的技术推出步伐,似乎有了新的答案。
对于AWS而言,他们也可以控制新技术的发布节奏,因为他们不需要像芯片厂商一样,进行定期的产品迭代。他们不需要像英特尔、AMD和英伟达那样,把计算引擎卖给ODM和OEM,而是直接向客户出售云上产品。显而易见的是,这是一项更容易的业务。
在re:Invent大会上,AWS以及其母公司亚马逊高管所带来的演讲,让外界对于他们的计算引擎有了新的期待,比如Graviton5、Inferentia3及Trainium3。
Trainium3使用3nm工艺蚀刻,相较于Trainium2能效提高40%、性能翻倍。AWS的新闻稿中表示,Trainium3 UltraServers的性能将是Trainium2 UltraServers的4倍,这意味着它们将从使用Trainium2的16台设备扩展到使用Trainium3的32台设备。
AWS CEO马特.加曼(Matt Garman)称,Trainium3将于2025年晚些时候推出,这意味着大概会在re:Invent 2025年会议发布这款产品。早在6月份,就有一些关于AWS高管确认Trainium3将突破1000瓦的传言,但这点并不出乎外界的意料,英伟达的Blackwell B200 GPU的峰值功率是1200瓦。
真正出乎外界意料的是,在上个月的SC24超级计算会议上,针对HPC应用的Graviton4E仍未推出,这与AWS在2021年11月推出的普通Graviton3和2022年11月推出的增强版Graviton3E的过往速度相比有所差异。2023年11月发布的Graviton4可以说是市场上基于Arm架构最好的服务器cpu之一,当然也是适用面最广的CPU。
AWS的CPU、人工智能加速器和DPU没有任何年度更新的压力,如果仔细观察英伟达和AMD的GPU路线图,就会发现他们的核心产品仍然是每两年发布一次,第二年会在第一年发布的GPU上进行内存升级或性能调整。
AWS在芯片领域的迭代周期大概是两年,其间会有一些波动。Graviton1实际上是一个基于Nitro架构的DPU卡,可以忽略不计。正如AWS公用事业计算高级副总裁彼得.德桑蒂斯(Peter DeSantis)在2018年发布的主题演讲中所说的,Graviton1只是“进入市场的一个信号”,主要用于验证客户需求。2019年推出的Graviton2, AWS采用了台积电的现代7纳米工艺,并使用了Arm的Ares N1内核,设计了一款64核CPU,与运行在AWS云上的英特尔和AMD的X86 CPU相比,性价比高出40%。
2021年,采用Arm Zeus V1内核的Graviton3问世,同样是64个内核却可以承担更多的任务。2023年,Graviton4问世了,这款芯片采用了台积电4纳米工艺,在插槽上塞入96个Demeter V2内核,与12个内存带宽为537.6 GB/秒的DDR5内存控制器搭配使用。与Graviton3相比,Graviton4的单核性能提高了30%,内核数量增加了50%,性能提高了2倍。根据我们的定价分析,产品的性价比提高了13%到15%。在实际的基准测试中,Graviton4带来的性能优化有时能达到40%。
AWS处理器投入的资金至少需要两年才可以收回。因此,在re:Invent大会上期待任何关于Graviton5的新消息都是不现实的。尽管如此,AWS的高管们还是会吊一下市场的胃口。
AWS的高管在主题演讲中提供了一些关于Graviton的数据。AWS计算和网络服务副总裁戴夫.布朗(Dave Brown)展示了这张图表,它在一定程度上解释了为什么英特尔最近几个季度的财务状况如此糟糕。粗略地说,AWS的四项核心服务(Redshift Serverless和Aurora数据库、Kafka的Managed Streaming和ElastiCache搜索)大约有一半的处理是在Graviton上运行的。
布朗称:“最近,我们达到了一个重要的里程碑,在过去的两年里,我们数据中心超过50%的CPU算力都来自Graviton,这比其他所有类型的处理器加起来还要多。”
这正是微软多年前所声称想做成的事情,而这也是AWS所期待达成的目标。从长远来看,X86是一种传统的平台,其价格也是传统的,就像之前的大型计算机和RISC/UniX。RISC-V也许最终也会这样颠覆Arm架构(开源的ISA与可组合的模块似乎是必由之路,就像linux开源系统让windows Server变成传统平台的)。
加曼让我们对AWS内部的Graviton服务器群规模有了一个大致的了解:“Graviton正在疯狂地增长,2019年,整个AWS的业务规模为350亿美元,而现在,单单Graviton运行的业务规模就与2019年整个AWS业务规模一样,这是非常快的增长。”可以估计的是,Graviton服务器集群的增长速度比AWS整体业务的增长速度还要快,而且幅度可能非常大。这对英特尔的伤害远大于对AMD的伤害,因为AMD多年来一直拥有比英特尔更好的X86服务器CPU。
Trainium系列,是否会成为英伟达和AMD之外的选择?
加曼谈论Trainium3的唯一原因是,人工智能训练对高性能计算的需求增长得比任何其他计算引擎快得多。面对英伟达在2025年加大其Blackwell B100和B200 GPU的产能,以及AMD扩大其Antares MI300系列,AWS如果想让客户将他们的人工智能工作负载移植到Trainium上,就必须在市场上展现出大力推行Trainium系列的决心。
在明年的re:Invent大会之前,希望能够看到AWS发布关于Trainium3的一些新优化,因为市场上的竞争对手太多,以谷歌和微软为首的一些公司将在2025年推出他们旗下的人工智能加速器。
就像Graviton系列一样,从现在开始,Trainium系列的更新周期或许将变为两年一更新。这些产品的研发投入都非常高昂,因此AWS要实现财务效益必须将Trainium的开发成本摊销到尽可能多的设备上。与Graviton一样,我们认为AWS的Trainium达成这一目标的日子不会太遥远。从长远来看,这对英伟达和AMD来说不是好事,特别是如果谷歌、微软、腾讯、百度和阿里巴巴都采取同样的行动。
AWS还没有愚蠢到试图在GPU加速器市场上与英伟达直面抗衡,但与谷歌的TPU、SambaNova的RDU、Groq 的 GroqChip和Graphcore的IPU一样,这家云计算商同样认为自己可以构建一个系统阵列来进行人工智能训练和推理,并为云计算客户带来差异化体验和附加值产品,与购买英伟达相比,客户购买AWS的产品可以节省成本并且掌握更多的主动权。
正如我们上面所指出的,AWS高管对Trainium3并没有透露太多的信息,但他们对Trainium2在UltraServer中的使用到非常兴奋。
今年的re:Invent大会上,AWS更多地介绍了使用Trainium2加速器的系统架构,并展示了基于这些加速器构建的网络硬件,以扩展和扩展其人工智能集群。下面是德桑蒂斯展示的Trainium2:
正如我们去年报道的那样,Trainium2似乎在单个封装上放置两个芯片互连,可能使用NeuronLink die-to-die内部互连技术,以在其共享的HBM存储器上一致地工作。Trainium2服务器有一个节点,该节点带有一对主机处理器并与三个Nitro DPU相连,如下所示:
这是计算节点的俯视图,前端有四个Nitros,后端有两个Trainium2s,采用无线设计以加快部署速度。
两个交换机托架,一个主机托架和八个计算托架组成了一台Trainium2服务器,该服务器使用2TB/秒的NeuronLink电缆将16个Tranium2芯片互连成2D环面配置,每个设备上96GB的HBM3主内存都会与其他设备共享。每台Trainium2服务器具有1.5TB的HBM3内存,总内存带宽为46TB/秒(即每个Trainium2卡略低于3TB/秒)。此节点在密集FP8(一种浮点数表示格式)数据上的性能为20.8千万亿次浮点运算,在稀疏FP8数据上的性能为83.3千万亿次浮点运算。
AWS将四台服务器相互连接以搭建Trainium2 UltraServer,该服务器在64个AI加速器中拥有6TB的HBM3内存容量,内存带宽总计为184TB/秒。该服务器具有12.8Tb/秒的以太网带宽,可使用EFAv3适配器进行互连。UltraServer服务器在密集FP8数据上的运算速度为83.2千万亿次浮点运算,在稀疏FP8数据上的运算速度为332.8千万亿次浮点运算。下面是德桑蒂斯对Trn2 UltraServer实例硬件的展示:
在布满电线的机架顶部,隐藏着一对交换机,它们组成了3.2TB/秒的EFAv3以太网网络的端点,该网络将多个Tranium2服务器相互连接,以创建UltraServer服务器,并将服务器与外部世界连接。
这还不是整个网络架构。如果你想运行大规模的基础模型,需要的加速器将远远不止64个。为了将成千上万的加速器连接在一起,可以进行大规模训练,AWS设计了一种基于以太网的网络结构,名为10p10u,其目标是在延迟不到10微秒的情况下,为整个网络提供每秒数十PB的带宽。下面是10p10u网络结构机架的样子:
由于原先服务器内部的电线非常复杂,AWS研发了一款光纤主干电缆,将需要使用的电线数量压缩为原先的十六分之一。其原理是将数百个光纤连接放在一条较粗的管线中,这样做的好处是让服务器内部的架构更为简洁。如下图所示,右边的机架使用的是光纤主干电缆,它更简洁小巧。更少的连接和线路管理意味着更少的错误,当你试图快速构建人工智能基础设施时,这一点很重要。
据悉,这种专门用于人工智能工作负载的10u10p网络由于其优异的表现正在被大规模采用。德桑蒂斯展示了它与AWS创建的老式以太网网络相比的增长速度有多快:
假设这是累积链接数(有效的计算),旧的Euclid网络结构(大概是100Gb/秒)在四年内逐渐增加到近 150 万个端口。名为One Fabric的网络与10u10p网络在2022年年中大致同时推出,我们猜测其中One Fabric使用400Gb/秒以太网,而10u10p基于800Gb/秒以太网。One Fabric有大约100万个链接,而10u10p有大约330万个链接。
加曼表示,与基于AWS云上的GPU实例相比,Trn2实例的性价比将提高30%到40%。当然,AWS应该加大拉开外部计算引擎与自家计算引擎之间的差距,保持这样的差距是Trainium抢占人工智能计算器市场的正确举措。
作为主题演讲的一部分,德桑蒂斯和加曼都谈到了一个代号为“Project Ranier”的超级集群,这是AWS正在为其人工智能大模型合作伙伴Anthropic建造的一个超级集群。截至目前,亚马逊已向Anthropic投资80亿美元,该集群主要用于训练下一代Claude 4基础模型。加曼说,“Project Ranier”将拥有数十万个Trainium2芯片,其性能将是训练Claude 3模型时所用机器的5倍。
本文由编译自:
原创文章,未经授权禁止转载。详情见 转载须知 。