对话 十万卡集群 的必要性 从背景到技术储备 深入解析建

文章编号:36027 资讯动态 2024-11-30 AI百度人工智能

前不久,马斯克旗下的xAI122天建成十万卡集群,也让外界意识到算力集群对AI的重要性。

之前坊间还流传一句话:服务器集群的规模越大,其训练出来的人工智能表现就越出色。

在这波浪潮之下,全球科技巨头纷纷投入巨资建设高性能AI计算集群,以提升AI算法的效率和能力。谷歌推出了其AI Platform,依托多模态生成式AI模型Gemini,大幅提升了在文本、图像、音频和视频处理上的能力。微软的Azure AI Compute Cluster整合了最新AI技术,为开发者提供了从数据处理到模型训练的全方位支持。(添加微信Who123Start,解锁独家科技内幕和行业趣闻)

作为国内最早推出大模型之一的百度,也展现出其强大的创新能力。11月6日,在百度智能云举办的百舸媒体沙龙,深入探讨“十万卡集群”的技术创新、实施过程及其对AI行业的推动作用,并邀请百度杰出系统架构师、百度AI计算部负责人王雁鹏在现场做了分享和交流。

以下是媒体与三位嘉宾在会上的对谈实录,在不改变原意的情况下做了编辑和调整:

Q:百舸的客户群是哪些?重点的行业客户是否之前有一些成功案例可以来分享?

A:我们的客户主要分为两类。一类是大模型创企,他们需要万卡规模的计算能力,因而对快速建设和成本控制有较高的需求。这类客户虽然数量较少,但其需求非常明确;

另一类是典型的互联网客户,他们的需求规模通常在千卡到5000卡之间。这些客户包括教育行业的公司。

这些互联网客户的主要需求是利用他们大量的自有数据进行后期训练(Post Train),以适应各种场景和优化,从而构建他们的数据飞轮。目前,这些训练需求依然是我们的主要业务,而推理需求相对较少。这也解释了为什么业界对AI算力落地效果仍存疑虑。预计在今年或明年,算力需求仍将以训练为主,而推理和SFT(小规模微调)的长尾客户将会增多,但总体资源需求仍低于头部客户。

Q:百舸客户的主要需求和痛点是什么?我们是如何解决的?

A:各类客户的需求其实有很多共通之处,我们可以一层层来分析。

1. 基础设施层面:这些客户首先需要一个强大的网络硬件互联架构。企业在尝试自行搭建大规模集群时,常常会遇到网络上的难题。我们的任务是为他们提供更好的网络硬件互联架构,使他们能够成功搭建一个大规模的计算集群。

2. 系统稳定性:没有经验的客户在自行搭建系统时,常会遇到有效训练时间过低的问题。这些稳定性问题是客户面临的第二大难题,我们需要帮助他们提高系统的可靠性和有效训练时间。

3. 加速框架:在提供加速框架方面,我们帮助客户优化并行策略,提升性能。通过更好的框架,我们能显著提升计算速度,解决加速问题。

4. 资源利用率:客户购买大量资源后,需要有效利用这些资源。他们可能既有推理任务又有训练任务,最初可能是为训练任务购买资源,但随后也需要利用这些资源进行推理。我们通过任务混合部署,提升资源利用率,确保资源能够被高效利用。

Q:您刚才花很大篇幅讲跨地域网络问题,能否举例说明实际效果?

A: 跨网络问题主要涉及两个方面:一是当进行十万卡规模的部署时,确实需要跨地域的支持;二是我们云服务的能力。举例来说,我们可以在云上两个机房同时部署计算任务,但客户在使用时完全感知不到差异。例如,即使客户使用的是5000卡的规模,我们在不同地点分配资源,但使用体验依然一致,这是我们的一大优势。

Q:面对不同客户需求,如1000到5000卡的规模,如何确保任务级别的混合调度的效率提升?

A: 混合调度我们已经做了许多工作,实质上是通过混合集群实现不同特征的工作负载的混合。

例如,推理任务有波峰波谷,波峰时使用的资源更多,波谷时使用较少;而训练任务则需要固定数量的计算卡(如1000卡),如果资源不足,比如仅有990卡,任务将无法运行。

为了解决这些问题,我们提供了一个非常灵活的队列机制,将业务视为虚拟队列,并配置优先级策略。这些队列根据实际情况动态调整资源分配,当资源不再需要时,可以被其他队列的任务抢占,从而提高资源利用率。此外,我们的框架能够自动重新分配并行策略。例如,一个需要1000卡的任务,在资源不足时(如仅有900卡),能够调整并行策略以继续运行,从而确保任务的连续性和有效性。

Q: 请详细聊一下Checkpoint环节,大家有不同的策略,可能有些效果更好,有些则影响训练有效时间和成本,我们在这方面是怎么做的?

A: 原来的Checkpoint策略是隔一段时间创建一个Checkpoint,在故障发生后恢复。但是,这种方法的缺点是,如果每小时创建一次Checkpoint,出现故障时通常会浪费一半的时间,即30分钟。因此,我们希望Checkpoint越密集越好,但这也带来新的问题。

最初的Checkpoint策略需要停止训练,将数据写入存储,这会耗费大量时间,因为存储带宽有限。当时停下来写Checkpoint需要几分钟,这显然无法接受,尤其在Checkpoint频繁时。

第一阶段:改进为异步Checkpoint,训练过程不中断,先将数据复制到内存,然后异步写入存储。这样可以缩短Checkpoint时间,从原来的两小时一次缩短到每30分钟一次。但依然存在瓶颈,如存储带宽限制。

第二阶段:引入触发式Checkpoint。在正常情况下不创建Checkpoint,只有在故障发生时才创建。很多GPU故障不会导致数据丢失,可以在故障点恢复数据并存储。这种方法在大多数情况下有效(95%以上),仅在传统Checkpoint保留的情况下无回退和浪费。

对话|从背景到技术储备:深入解析建“十万卡集群”的必要性

全局中部横幅
杭州装修公司

浙江国富装饰24小时服务热线:13777594082(微信同号),公司专业承接办公室厂房、教育培训、餐饮酒店、美容医美、口腔医院、展厅展馆、健身运动等各式工装装修设计项目,年行业经验,设计乙级施工贰级资质,欢迎您的咨询!

检测实验室设计

广州澳企实验室技术股份有限公司致力打造智慧实验室云平台,15年实验室用户的信赖选择,提供实验室整体设计、生物安全实验室设计、环境检测实验室设计、高校食品实验室建设、化学实验室设计方案、实验室整体解决方案、实验室总包等一站式服务。业务覆盖广东广州、深圳、东莞、珠海、广西南宁、海南等地。

深圳网站建设

深圳星极速科技有限公司专注于APP设计与开发、微信公众号设计与开发、微信小程序设计与开发、企业网站设计与开发等外包服务业务,同时运营着第三方公众号管理平台及源码商城等产品

咸阳油罐厂家

陕西满宏荣建筑工程有限公司专业从事西安立式油罐,西安车载罐,西安不锈钢罐,西安搅拌罐等各种容器制造生产,咨询电话:18149257737

服饰珠宝网

服饰珠宝网,珠宝饰品网,服饰饰品珠宝传媒,中国珠宝服饰网络媒体,服饰饰品珠宝资讯行业门户网站,提供黄金珠宝,饰品配饰,鞋帽服饰,腕表手表,箱包皮具等服饰珠宝行业动态;发布服饰珠宝流行趋势元素。

云上南宁官网

云上南宁官网-云上公司注册,简称云上南宁官网-云上公司注册,是互联网线上虚拟园区,通过互联网的办法提供线下园区几乎所有的配套服务。除电子营业执照办理外,还能提供政策申报与兑现、线上培训、引导基金等服务。

金刚石,CVD金刚石,修整滚轮,散热片,光学窗口,欢迎访问天津市宝利欣超硬材料有限公司官网!

CVD金刚石,修整滚轮,散热片,光学窗口,PolycrystallineCVDdiamondwafer,heatsinkfilm,opticalwindow,宝利欣

清图

清图是一款在线图片处理工具,可以将模糊图片秒变清晰,支持动漫图片、证件照、黑白图片上色功能。

CRC防锈剂

上海鹤佑国际贸易有限公司是上等的“CRC防锈剂,crc清洁剂,crc润滑剂,CRC70,三防漆,CRC”供应商,主要经营产品有:CRC防锈剂,crc清洁剂,crc润滑剂,CRC**代理,三防漆,CRC,CRC70,带电清洗剂,CRC5-56,绝缘漆,精密电器清洗剂,检漏剂,食品级润滑脱模剂,除油清洗剂,高温极压油脂

EHRE德国皮带

上海汉唐传动设备有限公司是一家销售EHRE德国皮带,EHRE同步带,盖板带等传动产品的公司.我们提供质优的产品和竞争力的价格,满足客户的需求.库存充足,发货及时.联系方式:18821157085

济南朗化化工有限公司

六氟异丙醇|六氟环氧丙烷二聚体|六氟丙烯二聚体|六氟丙烯三聚体|六氟环氧丙烷三聚体|六氟磷酸锂--济南朗化化工有限公司

中诺普宣教育科技发展有限公司

中诺普宣聘请各大高校学院的专家教授作为顾问,委任实战经验丰富的专业人才教官,为给大众提供全面、专业、科学实用的知识,举办讲座和培训活动,公司旨在提高公众对健康和消防领域的认知和理解。

全局底部横幅