GTC 架构GPU性能暴涨30倍 Blackwell 2024 英伟达没给追赶者一点机会 (gp架构)

去年英伟达市值突破1万亿之后,这家加速计算公司在全球范围内就吸引了越来越多的关注。

今年2月,英伟达的市值一度突破2万亿,让这家加速计算公司的热度再次攀升,也让今天在加州圣何塞举行的GTC 2024挤满了来自全球各地超11000名与会者。

未来将是可生成的,这就是为什么这是一个全新的行业。 ”NVIDIA 创始人兼首席执行官黄仁勋开场就说,“我们需要一种全新的计算方式——由此我们才可以继续扩展,继续降低计算成本,并在保证可持续性的同时继续进行越来越多的计算。”

黄仁勋说道,“ 加速计算已到达临界点,通用计算已失去动力。 与通用计算相比,加速计算使每个行业都可以大幅提速。”

Blackwell 架构GPU性能暴涨30倍,英伟达没给追赶者一点机会 |GTC 2024

全新的行业需要更大的模型,更大的多模态AI需要更大的GPU。

黄仁勋从口袋里掏出一块全新的Blackwell芯片,将它与Hopper芯片并排举起,后者显得小了一些。

Blackwell 架构GPU性能暴涨30倍,英伟达没给追赶者一点机会 |GTC 2024

基于NVIDIA GB200构建的DGX SuperPOD,相比英伟达前代H100 GPU构建的系统,大语言模型性能飙升了30倍,能够处理万亿参数的模型。

架构迭代带来如此巨大的性能提升,证明了英伟达依旧在加速计算的道路上飞速前进, 英伟达进一步拉大了与追赶者们距离。

英伟达还有更远大的目标,GTC2024上推出的NVIDIA NIM微服务,通过推理加速让生成式AI能够普及,这才是生成式AI商业价值更高的地方。

“下一波AI浪潮将是AI对物理世界的学习。”黄仁勋还有更长远的布局。

Blackwell 架构如何支撑10万亿参数模型需求?

最新的Blackwell 架构是两年前推出的Hopper架构的继承者,延续过去英伟达以科学家名字命名架构的方式,新架构是以一位加州大学伯克利分校的数学家 David Harold Blackwell 命名。这位数学家专门研究博弈论和统计学,是第一位入选美国国家科学院的黑人学者。

相比Hopper架构GPU,Blackwell架构GPU单芯片训练性能(FP8)是Hopper架构的2.5 倍,推理性能(FP4)是Hopper架构的5倍。

Blackwell 架构GPU性能暴涨30倍,英伟达没给追赶者一点机会 |GTC 2024

Blackwell 架构GPU性能暴涨30倍,英伟达没给追赶者一点机会 |GTC 2024

要让Blackwell架构支撑高达10万亿参数的模型训练和实时 LLM 推理,需要一系列独特的技术。

先进的工艺和Chiplet技术就是关键之一, Blackwell架构GPU具有2080亿个晶体管, 采用专门定制的双倍光刻极限尺寸 4NP TSMC 工艺制造, 通过 10 TB/s 的片间互联,将 GPU 裸片连接成一块统一的 GPU。

为了更好支持Transformer模型, Balckwell架构集成了第二代Transformer 引擎, 支持全新微张量缩放,集成于NVIDIA TensorRT-LLM 和NeMo Megatron框架中的NVIDIA动态范围管理算法,Blackwell将在新型FP4 AI推理能力下实现算力和模型大小翻倍。

Blackwell 架构GPU性能暴涨30倍,英伟达没给追赶者一点机会 |GTC 2024

为了扩大Blackwell规模 NVIDIA构建了一款名为NVLink Switch的新芯片。 每个芯片可以以每秒1.8 TB的速度(几乎是上一代的10倍)连接四个NVLink,通过减少网络内流量来消除流量拥塞,帮助构建GB200。

Blackwell 架构GPU性能暴涨30倍,英伟达没给追赶者一点机会 |GTC 2024

NVIDIA GB200 Grace Blackwell 超级芯片通过 900GB/s 超低功耗的NVLink芯片间互连,将两个 Blackwell NVIDIA B200 Tensor Core GPU 连接到 NVIDIA Grace CPU。

GB200是NVIDIA GB200 NVL72 的关键组件。

NVIDIA GB200 NVL72是多节点、液冷、机架级系统,将36个Grace Blackwell超级芯片组合在一起,其中包含通过第五代NVLink相互连接的72 个Blackwell GPU 和 36 个 Grace CPU,还内置 NVIDIA BlueField-3 数据处理器,可在超大规模 AI 云中实现云网络加速、组合式存储、零信任安全和 GPU 计算弹性。

Blackwell 架构GPU性能暴涨30倍,英伟达没给追赶者一点机会 |GTC 2024

相较于同样数量的NVIDIA H100 Tensor Core GPU,GB200 NVL72 最高可提供 30 倍的性能提升以及25 倍的成本和能耗降低。

NVIDIA GB200 NVL72在单个机架中可实现720 petaflops 的 AI 训练性能和 1.4 exaflops 的 AI 推理性能。 该机器包含600,000个零件,重3,000磅(约1360.78公斤)。

黄仁勋介绍:“此时此刻,地球上也许只有三台百亿亿次浮点运算(exaflop)机器。而这是一个单一机架中的 1 个百亿亿次浮点运算AI 系统。”

要进一步实现对10万亿参数大模型的支持,需要更强大的DGX SuperPOD。

Grace Blackwell 架构的 DGX SuperPOD 由 8 个或以上的 DGX GB200(每个包含36 个 NVIDIA Grace CPU 和 72 个 NVIDIA Blackwell GPU)系统构建而成,采用新型高效液冷机架规模架构。

这个系统还需要通过GTC 2024发布的第五代NVIDIA NVLink,NVIDIA BlueField-3 DPU,NVIDIA Quantum-X800 InfiniBand 网络(为每块GPU提供每秒800 GB 的带宽),新一代 DGX SuperPOD 架构的网络计算能力提高了4倍,可扩展到数万个 GB200 超级芯片。

用户可通过 NVLink 连接 8 个 DGX GB200 系统中的 576 块 Blackwell GPU,可在 FP4 精度下提供 11.5 exaflops 的 AI 超级计算能力和 240 TB 的快速内存,并可通过额外的机架进行扩展。

2016 年,黄仁勋给OpenAI的DGX算力是 0.17Petaflops,现在DGX GB200的算力以 exaflop 计算。

Blackwell 架构GPU性能暴涨30倍,英伟达没给追赶者一点机会 |GTC 2024

除了GB200,NVIDIA还发布了一款统一用于 AI 模型训练、微调和推理的通用 AI 超级计算平台 NVIDIA DGX B200 系统。

DGX B200是DGX 系列的第六代产品,使用风冷机架设计,包含 8 个 NVIDIA B200 Tensor Core GPU和2个第五代英特尔至强处理器。

DGX B200系统可提供144 petaflops(FP4精度)的AI性能、1.4TB的 GPU 显存和 64TB/s 的显存带宽,使得该系统万亿参数模型实时推理速度比上一代产品提升了 15 倍。

另外,DGX B200 系统也包含带有8个NVIDIA ConnectX-7 网卡和2个BlueField-3 DPU 的高性能网络,每个连接的带宽高达400 Gb/s,可通过 NVIDIA Quantum-2 InfiniBand 和 NVIDIA Spectrum-X 以太网网络平台支持更高的 AI 性能。

“未来,数据中心将成为 AI 工厂”,黄仁勋说,“AI 工厂的使命是创造收入,同时也创造智能。”

“生成式 AI 改变了应用程序的编写方式。”黄仁勋解释, 未来的公司会将精力放在组装 AI 模型, 赋予它们任务,给出工作产品示例,审查计划和中间结果,而不是编写软件。

GTC 2024上,NVIDIA NIM微服务推出,这是根据 NVIDIA 的加速计算库和生成式 AI 模型构建,提供基于 NVIDIA 推理软件的预构建容器,包括Triton 推理服务器和TensorRT-LLM,使开发者能够将部署时间从几周缩短至几分钟。

Blackwell 架构GPU性能暴涨30倍,英伟达没给追赶者一点机会 |GTC 2024

“企业IT行业正坐在一座‘金矿’上,” 黄仁勋说道, “他们拥有多年来创建的所有这些令人惊叹的工具(和数据)。如果他们能把这个‘金矿’变成 AI 助手,就能给用户提供更多可能。”

NVIDIA 帮助领先的科技公司,包括 Cohesity、NetApp、SAP、ServiceNow 和 Snowflake 构建 AI 助手和虚拟助理。其它领域也正在采用。

在电信领域,NVIDIA推出 6G研究云,这是由 AI 和 Omniverse 支持的生成平台,它采用 NVIDIA 的 Sionna 神经无线电框架、NVIDIA Aerial CUDA 加速无线电接入网络和 NVIDIA Aerial Omniverse Digital Twin for 6G 构建。

在半导体设计和制造领域,NVIDIA 正在与 TSMC 和 Synopsys 合作,将计算光刻平台 cuLitho 投入生产,这一平台将把半导体制造中计算最密集的工作负载加速 40-60 倍。

黄仁勋还宣布推出NVIDIA 地球气候数字孪生Earth-2,可实现交互式高分辨率模拟,户在数秒内发布预警和最新预报,使用传统模型在CPU上运行需要耗时数分钟乃至数小时。

黄仁勋表示,AI 的最大影响将体现在医疗领域,NVIDIA 已经涉足成像系统、基因测序仪器,并与领先的手术机器人公司合作。

NVIDIA 正在推出一种新型生物学软件。 GTC 2024发布了二十多个新的微服务,使全球医疗企业能够在任何地方、任何云上利用生成式 AI 的最新进展。

下一波AI浪潮将是 AI 对物理世界的学习

黄仁勋说,“我们需要一个模拟引擎,以数字方式为机器人呈现世界,这样机器人就有了一个学习如何成为机器人的‘健身房’,我们称这个虚拟世界为 Omniverse。”

NVIDIA宣布将以API形式提供 NVIDIA Omniverse Cloud, 将全球领先的工业数字孪生应用和工作流创建平台的覆盖范围扩展到整个软件制造商生态系统。

为了展示其工作原理,黄仁勋分享了一个机器人仓库的展示——使用多摄像头感知和追踪,看顾工人并协调机器人叉车,在整个机器人堆栈运行的情况下,这些叉车能够实现自动驾驶。

NVIDIA还宣布将把 Omniverse 引入 Apple Vision Pro 中, 通过新的 Omniverse Cloud API,开发者可以将交互式工业数字孪生流式传输到 VR 头显中。

Blackwell 架构GPU性能暴涨30倍,英伟达没给追赶者一点机会 |GTC 2024

一些全球大型工业软件制造商正在采用 Omniverse Cloud API,包括 Ansys、Cadence、达索系统旗下 3DEXCITE 品牌、Hexagon、微软、罗克韦尔自动化、西门子和 Trimble 等。

“所有会动的东西都可能成为机器人,汽车行业将是其中的一个重要部分。”黄仁勋表示。

了解到,比亚迪已选择 NVIDIA 的下一代计算平台用于其自动驾驶汽车,在 DRIVE Thor 上构建其下一代电动汽车车队。昊铂、小鹏、理想汽车、极氪也已经宣布将在DRIVE Thor上构建其未来的汽车产品。

人形机器人也是机器人的重要方向。

为此 NVIDIA宣布了 Project GR00T(代表通用机器人 00 技术) ,这是一个为人形机器人设计的通用基础模型。

Blackwell 架构GPU性能暴涨30倍,英伟达没给追赶者一点机会 |GTC 2024

GR00T 脱胎于英伟达的 Isaac 机器人平台工具,GR00T 驱动的人形机器人能够接受文本、语音、视频甚至现场展示的输入,并对其进行处理以采取特定的操作,包括理解自然语言、模拟人类行为、在现实世界中导航和交互。

黄仁勋还推出了一款用于人形机器人的新型计算机 Jetson Thor,它基于 NVIDIA Thor 系统级芯片,并对 NVIDIA Isaac 机器人平台进行了重大升级。

Jetson Thor采用Blackwell架构,可提供每秒 800 万亿次8位浮点运算 AI 性能,能够执行复杂的任务并使用 Transformer 引擎处理多个传感器,以运行 GR00T 等多模态生成式 AI 模型。

如果用一句话总结GTC的全新发布,可以借用黄仁勋的“我们创造了为生成式 AI 时代而生的处理器。”

原创文章,未经授权禁止转载。详情见 转载须知 。

全局中部横幅
有客多

【有客多】是花儿绽放上市品牌旗下的微信小程序开发工具,制作过程无需代码,可视化拖拽即可,提供海量行业小程序模板,一键生成微信小程序,诚招微信小程序加盟代理。

微信小程序

PC6微信小程序让你了解微信小程序的一切。这里有小程序的资讯、入门指南、开发教程和活动消息,第一时间知道微信小程序。

佳友在线

中国摄影门户网站,提供全面的摄影资讯,摄影作品,摄影课堂,摄影论坛,摄影博客,摄影人的网上家园,PhotoFans摄影网

域名被墙检测

爱站网域名被墙检测功能可以帮助您批量查询域名是否被墙,更好地过滤和诊断域名是否被墙,防止域名被墙网站打不开而造成用户的流失以及避免因注册被墙域名而造成不必要的损失,及时对自己被墙域名进行申诉和解除被墙。

阻火器

上海庆工石化设备制造有限公司专业生产销售阻火器,呼吸阀,过滤器等相关设备,阻火器类型有储罐、砾石、放空、乙炔、天然气、氧气、煤气、波纹、水封、丝网、柴油、排气、不锈钢等类型,提供生产定制服务,品质有保障,放心购买

福州华研皮肤专科医院怎么样

福州皮肤病医院哪家好?福州华研是福建省福州市一家中医特色皮肤专科医院,我院免费预约电话0591-8383-2226,汇聚多名皮肤病医师,准确会诊,在看皮肤的领域有着杰出的特色,深受广大患者的好评与信任!

安徽普恒光学材料有限公司

安徽普恒光学材料有限公司成立于2017年7月24日,位于中国安徽自由贸易试验区芜湖片区,注册资金3800万元,拥有发明专利2项、实用新型20项,目前在职员工100余人,大专以上学历有60余人,硕士研究生及以上学历6人,其中研发为中科院化学所博士团队。

金伟邦科技

第一铺为关注股票的股民提供交流互动的平台,从多角度帮助您筛选个股,它们汇聚了各路投资高手的心得与洞见.,是您发掘潜力股的重要平台。

南京玻纤院

南京玻璃纤维研究设计院是一家专注于过滤材料、工程装备、宇航材料、特种高性能纤维和非通讯光纤的研究院所

文德半导体丨Xilinx代理商丨赛灵思代理商丨是一家分立及定制器件Xilinx代理商

Xilinx公司(中文名:赛灵思)于1984年在美国创立,Xilinx的成就,不止是发明了FPGA,也不止是繁荣了FPGA,更值得尊敬的是将FPGA的生态系统建立起来,成为目前几个最重要的主处理平台生态中最具发展活力又恰是最年轻的一个。Xilinx无论是它的世界第一颗FPGA芯片、Virtex、Spartan、嵌入式可编程处理器MicroBalze和Zynq,还是设计工具ISE,赛灵思的技术和产品在工业和学士界都赢得了巨大的影响,Xilinx的产品融合了开发板、FPGA、SoC和3DIC系列可编程器件,以及全可编程的开发模型,包括软件定义的开发环境等。Xilinx的产品支持5G无线、嵌入式视觉、工业物联网和云计算所驱动的各种智能、互连和差异化应用...

拓冰网站建设

拓冰网站建设主要为昆明拓冰关于网站建设,网页设计等相关业务对外展示的企业门户网站

一体分离式液压拉马

上海岑诺机械生产液压油缸,液压拔轮器,BETEX轴承加热器,EQUALIZER校正器,液压拉马,法兰分离器,法兰撑开器,适用于各行各业咨询热线:862169028082!

全局底部横幅