GTC 架构GPU性能暴涨30倍 Blackwell 2024 英伟达没给追赶者一点机会 (gp架构)
去年英伟达市值突破1万亿之后,这家加速计算公司在全球范围内就吸引了越来越多的关注。
今年2月,英伟达的市值一度突破2万亿,让这家加速计算公司的热度再次攀升,也让今天在加州圣何塞举行的GTC 2024挤满了来自全球各地超11000名与会者。
“ 未来将是可生成的,这就是为什么这是一个全新的行业。 ”NVIDIA 创始人兼首席执行官黄仁勋开场就说,“我们需要一种全新的计算方式——由此我们才可以继续扩展,继续降低计算成本,并在保证可持续性的同时继续进行越来越多的计算。”
黄仁勋说道,“ 加速计算已到达临界点,通用计算已失去动力。 与通用计算相比,加速计算使每个行业都可以大幅提速。”
全新的行业需要更大的模型,更大的多模态AI需要更大的GPU。
黄仁勋从口袋里掏出一块全新的Blackwell芯片,将它与Hopper芯片并排举起,后者显得小了一些。
基于NVIDIA GB200构建的DGX SuperPOD,相比英伟达前代H100 GPU构建的系统,大语言模型性能飙升了30倍,能够处理万亿参数的模型。
架构迭代带来如此巨大的性能提升,证明了英伟达依旧在加速计算的道路上飞速前进, 英伟达进一步拉大了与追赶者们距离。
英伟达还有更远大的目标,GTC2024上推出的NVIDIA NIM微服务,通过推理加速让生成式AI能够普及,这才是生成式AI商业价值更高的地方。
“下一波AI浪潮将是AI对物理世界的学习。”黄仁勋还有更长远的布局。
Blackwell 架构如何支撑10万亿参数模型需求?
最新的Blackwell 架构是两年前推出的Hopper架构的继承者,延续过去英伟达以科学家名字命名架构的方式,新架构是以一位加州大学伯克利分校的数学家 David Harold Blackwell 命名。这位数学家专门研究博弈论和统计学,是第一位入选美国国家科学院的黑人学者。
相比Hopper架构GPU,Blackwell架构GPU单芯片训练性能(FP8)是Hopper架构的2.5 倍,推理性能(FP4)是Hopper架构的5倍。
要让Blackwell架构支撑高达10万亿参数的模型训练和实时 LLM 推理,需要一系列独特的技术。
先进的工艺和Chiplet技术就是关键之一, Blackwell架构GPU具有2080亿个晶体管, 采用专门定制的双倍光刻极限尺寸 4NP TSMC 工艺制造, 通过 10 TB/s 的片间互联,将 GPU 裸片连接成一块统一的 GPU。
为了更好支持Transformer模型, Balckwell架构集成了第二代Transformer 引擎, 支持全新微张量缩放,集成于NVIDIA TensorRT-LLM 和NeMo Megatron框架中的NVIDIA动态范围管理算法,Blackwell将在新型FP4 AI推理能力下实现算力和模型大小翻倍。
为了扩大Blackwell规模, NVIDIA构建了一款名为NVLink Switch的新芯片。 每个芯片可以以每秒1.8 TB的速度(几乎是上一代的10倍)连接四个NVLink,通过减少网络内流量来消除流量拥塞,帮助构建GB200。
NVIDIA GB200 Grace Blackwell 超级芯片通过 900GB/s 超低功耗的NVLink芯片间互连,将两个 Blackwell NVIDIA B200 Tensor Core GPU 连接到 NVIDIA Grace CPU。
GB200是NVIDIA GB200 NVL72 的关键组件。
NVIDIA GB200 NVL72是多节点、液冷、机架级系统,将36个Grace Blackwell超级芯片组合在一起,其中包含通过第五代NVLink相互连接的72 个Blackwell GPU 和 36 个 Grace CPU,还内置 NVIDIA BlueField-3 数据处理器,可在超大规模 AI 云中实现云网络加速、组合式存储、零信任安全和 GPU 计算弹性。
相较于同样数量的NVIDIA H100 Tensor Core GPU,GB200 NVL72 最高可提供 30 倍的性能提升以及25 倍的成本和能耗降低。
NVIDIA GB200 NVL72在单个机架中可实现720 petaflops 的 AI 训练性能和 1.4 exaflops 的 AI 推理性能。 该机器包含600,000个零件,重3,000磅(约1360.78公斤)。
黄仁勋介绍:“此时此刻,地球上也许只有三台百亿亿次浮点运算(exaflop)机器。而这是一个单一机架中的 1 个百亿亿次浮点运算AI 系统。”
要进一步实现对10万亿参数大模型的支持,需要更强大的DGX SuperPOD。
Grace Blackwell 架构的 DGX SuperPOD 由 8 个或以上的 DGX GB200(每个包含36 个 NVIDIA Grace CPU 和 72 个 NVIDIA Blackwell GPU)系统构建而成,采用新型高效液冷机架规模架构。
这个系统还需要通过GTC 2024发布的第五代NVIDIA NVLink,NVIDIA BlueField-3 DPU,NVIDIA Quantum-X800 InfiniBand 网络(为每块GPU提供每秒800 GB 的带宽),新一代 DGX SuperPOD 架构的网络计算能力提高了4倍,可扩展到数万个 GB200 超级芯片。
用户可通过 NVLink 连接 8 个 DGX GB200 系统中的 576 块 Blackwell GPU,可在 FP4 精度下提供 11.5 exaflops 的 AI 超级计算能力和 240 TB 的快速内存,并可通过额外的机架进行扩展。
2016 年,黄仁勋给OpenAI的DGX算力是 0.17Petaflops,现在DGX GB200的算力以 exaflop 计算。
除了GB200,NVIDIA还发布了一款统一用于 AI 模型训练、微调和推理的通用 AI 超级计算平台 NVIDIA DGX B200 系统。
DGX B200是DGX 系列的第六代产品,使用风冷机架设计,包含 8 个 NVIDIA B200 Tensor Core GPU和2个第五代英特尔至强处理器。
DGX B200系统可提供144 petaflops(FP4精度)的AI性能、1.4TB的 GPU 显存和 64TB/s 的显存带宽,使得该系统万亿参数模型实时推理速度比上一代产品提升了 15 倍。
另外,DGX B200 系统也包含带有8个NVIDIA ConnectX-7 网卡和2个BlueField-3 DPU 的高性能网络,每个连接的带宽高达400 Gb/s,可通过 NVIDIA Quantum-2 InfiniBand 和 NVIDIA Spectrum-X 以太网网络平台支持更高的 AI 性能。
“未来,数据中心将成为 AI 工厂”,黄仁勋说,“AI 工厂的使命是创造收入,同时也创造智能。”
“生成式 AI 改变了应用程序的编写方式。”黄仁勋解释, 未来的公司会将精力放在组装 AI 模型, 赋予它们任务,给出工作产品示例,审查计划和中间结果,而不是编写软件。
GTC 2024上,NVIDIA NIM微服务推出,这是根据 NVIDIA 的加速计算库和生成式 AI 模型构建,提供基于 NVIDIA 推理软件的预构建容器,包括Triton 推理服务器和TensorRT-LLM,使开发者能够将部署时间从几周缩短至几分钟。
“企业IT行业正坐在一座‘金矿’上,” 黄仁勋说道, “他们拥有多年来创建的所有这些令人惊叹的工具(和数据)。如果他们能把这个‘金矿’变成 AI 助手,就能给用户提供更多可能。”
NVIDIA 帮助领先的科技公司,包括 Cohesity、NetApp、SAP、ServiceNow 和 Snowflake 构建 AI 助手和虚拟助理。其它领域也正在采用。
在电信领域,NVIDIA推出 6G研究云,这是由 AI 和 Omniverse 支持的生成平台,它采用 NVIDIA 的 Sionna 神经无线电框架、NVIDIA Aerial CUDA 加速无线电接入网络和 NVIDIA Aerial Omniverse Digital Twin for 6G 构建。
在半导体设计和制造领域,NVIDIA 正在与 TSMC 和 Synopsys 合作,将计算光刻平台 cuLitho 投入生产,这一平台将把半导体制造中计算最密集的工作负载加速 40-60 倍。
黄仁勋还宣布推出NVIDIA 地球气候数字孪生Earth-2,可实现交互式高分辨率模拟,户在数秒内发布预警和最新预报,使用传统模型在CPU上运行需要耗时数分钟乃至数小时。
黄仁勋表示,AI 的最大影响将体现在医疗领域,NVIDIA 已经涉足成像系统、基因测序仪器,并与领先的手术机器人公司合作。
NVIDIA 正在推出一种新型生物学软件。 GTC 2024发布了二十多个新的微服务,使全球医疗企业能够在任何地方、任何云上利用生成式 AI 的最新进展。
下一波AI浪潮将是 AI 对物理世界的学习
黄仁勋说,“我们需要一个模拟引擎,以数字方式为机器人呈现世界,这样机器人就有了一个学习如何成为机器人的‘健身房’,我们称这个虚拟世界为 Omniverse。”
NVIDIA宣布将以API形式提供 NVIDIA Omniverse Cloud, 将全球领先的工业数字孪生应用和工作流创建平台的覆盖范围扩展到整个软件制造商生态系统。
为了展示其工作原理,黄仁勋分享了一个机器人仓库的展示——使用多摄像头感知和追踪,看顾工人并协调机器人叉车,在整个机器人堆栈运行的情况下,这些叉车能够实现自动驾驶。
NVIDIA还宣布将把 Omniverse 引入 Apple Vision Pro 中, 通过新的 Omniverse Cloud API,开发者可以将交互式工业数字孪生流式传输到 VR 头显中。
一些全球大型工业软件制造商正在采用 Omniverse Cloud API,包括 Ansys、Cadence、达索系统旗下 3DEXCITE 品牌、Hexagon、微软、罗克韦尔自动化、西门子和 Trimble 等。
“所有会动的东西都可能成为机器人,汽车行业将是其中的一个重要部分。”黄仁勋表示。
了解到,比亚迪已选择 NVIDIA 的下一代计算平台用于其自动驾驶汽车,在 DRIVE Thor 上构建其下一代电动汽车车队。昊铂、小鹏、理想汽车、极氪也已经宣布将在DRIVE Thor上构建其未来的汽车产品。
人形机器人也是机器人的重要方向。
为此 NVIDIA宣布了 Project GR00T(代表通用机器人 00 技术) ,这是一个为人形机器人设计的通用基础模型。
GR00T 脱胎于英伟达的 Isaac 机器人平台工具,GR00T 驱动的人形机器人能够接受文本、语音、视频甚至现场展示的输入,并对其进行处理以采取特定的操作,包括理解自然语言、模拟人类行为、在现实世界中导航和交互。
黄仁勋还推出了一款用于人形机器人的新型计算机 Jetson Thor,它基于 NVIDIA Thor 系统级芯片,并对 NVIDIA Isaac 机器人平台进行了重大升级。
Jetson Thor采用Blackwell架构,可提供每秒 800 万亿次8位浮点运算 AI 性能,能够执行复杂的任务并使用 Transformer 引擎处理多个传感器,以运行 GR00T 等多模态生成式 AI 模型。
如果用一句话总结GTC的全新发布,可以借用黄仁勋的“我们创造了为生成式 AI 时代而生的处理器。”
原创文章,未经授权禁止转载。详情见 转载须知 。
Xilinx公司(中文名:赛灵思)于1984年在美国创立,Xilinx的成就,不止是发明了FPGA,也不止是繁荣了FPGA,更值得尊敬的是将FPGA的生态系统建立起来,成为目前几个最重要的主处理平台生态中最具发展活力又恰是最年轻的一个。Xilinx无论是它的世界第一颗FPGA芯片、Virtex、Spartan、嵌入式可编程处理器MicroBalze和Zynq,还是设计工具ISE,赛灵思的技术和产品在工业和学士界都赢得了巨大的影响,Xilinx的产品融合了开发板、FPGA、SoC和3DIC系列可编程器件,以及全可编程的开发模型,包括软件定义的开发环境等。Xilinx的产品支持5G无线、嵌入式视觉、工业物联网和云计算所驱动的各种智能、互连和差异化应用...