万卡集群 进入AI核心圈的入场券 (万集卡怎么进不去了)

OpenAI的单点集群大概5万张卡,谷歌2.6万张卡,Meta2.45万张卡。

万卡集群,进入AI核心圈的入场券

顶级的AI公司已经为这场“暴力美学”的竞赛,设定了单点集群万卡的门槛。

华为昇腾AI集群规模在去年7月已经扩展至16000卡。去年10月科大讯飞启动万卡集群算力平台“飞星一号”。

今年3月,天翼云上海临港国产万卡算力池启用。4月,中国移动宣布今年将商用3个自主可控万卡集群。

摩尔线程创始人兼CEO张建中在2024世界人工智能大会(WAIC)前夕的摩尔线程AI DAY 暨万卡智算集群解决方案发布会上表示, “AI主战场,万卡是最低标配。”

可实现万卡集群至少面临6个层面的挑战,国内公司如何实现国产算力的万卡智算集群?

最近两年火爆的生成式AI,被许多人称为“暴力美学”。

也就是在数据量足够大、模型参数数量大到一定程度,模型的精度、准确度会出现智能涌现会,突破传统大模型的准确度。

比如,在自然语言理解场景,当算力参数量和数据量综合算力达到10的23次方时,准确度有极大的飞跃。

万卡集群,进入AI核心圈的入场券

这个规律被称作Scaling Law。 与Scaling Law相伴的是对算力的指数级增长。

比如训练GPT4,大概需要1千张H100的算力,而如果使用A100则需要3万张。

“GPT5需要的算力是10万卡。”张建中认为。

这是基于假设Scaling Law按照线性比例成长,估算参数、数据量和算力之间的关系。

从GTP3到GPT4,模型的参数从百亿到万亿,100倍的参数增长,数据量也从几TB到几十TB,是10倍的提升,两者一乘,整个算力的需求就是1000倍的提升。

满足Scaling Law的唯一办法就是建立一个单点超大规模算力集群。

“只有这样,才可以把这个大模型在一个地方,一个网络,单节点之内把它训练完成。”张建中指出。

假设训练一个5000亿参数的模型,15TB的数据,如果使用1000P的集群,三年都训练不完。 如果要在一个月内,甚至1-2周内训练完5000亿参数的模型,至少要1万P的算力集群。

万卡集群,进入AI核心圈的入场券

“从今年开始,所有智算中心万卡是最低标配,万卡以上的智算中心才有价值。”张建中认为。

Scaling Law持续奏效的同时,还不能忽视算法和架构的演进。

目前,Transformer架构虽然是主流,但新兴架构如Mamba、RWKV和RetNet等不断刷新计算效率,加快创新速度。

“有公司专门为Transformer架构做加速计算,这个创意很好,但如果很容易实现一定会被融合到GPU当中,成为GPU当中的Transformer引擎。我们相信未来还会出现各种架构的变种, 要支持不停出现的新框架,只有一个办法,就是通用且能持续发展的计算平台。 ”张建中表示。

那就应该建设一个万卡规模加上通用可扩展的智算中心,这面临众多挑战。

万卡智算中心的6大难题

有统计数据,2024年国内有上百个在建的智算中心。这是一项超高额的投入, 建设几万P的智算中心成本高达几十亿,更大算力规模则需投资上百亿。

“连市场客户都没有就盲目建设智算中心肯定不对,不是所有人都应该去建算力中心,应该由专业的人干专业的事。”张建中进一步表示,“智算中心是否好用,能否通用,能不能稳定运行,有没有能力运营都是建设智算中心需要考虑的事情。”

很多客户喜欢喜欢DIY,但张建中建议不要太多DIY,而是采用整体解决方案,这样集群买回去之后马上就可以用起来,能够避免风险。

特别是从千卡到万卡集群,不是简单的堆叠,复杂度指数级增加 国产 千卡/万卡超级系统工程面临着6大难题:包括超大规模组网互联、集群有效计算效率、训练高稳定性与可用性、故障快速定位与可诊断工具、生态Day0级快速迁移、未来场景通用计算。

万卡集群,进入AI核心圈的入场券

“可以把万卡想象成一个万人团队,需要有非常强的沟通机制,才能协同的把一件事情完成。”摩尔线程CTO张钰勃说,“对于万卡集群,仅靠单卡算力还不够,提供匹配单卡算力的通讯也至关重要。”

卡间互联和交换机是关键。了解到, 摩尔线程千/万卡集群的卡间互联是自研的MTLink,和NVLink作用相同,目前已经演进到MTLink2.0版本。

“我们还没有交换机芯片,是用行业里的交换机芯片去搭建我们的集群。”张建中透露,“后期我们会自主研发,或者是和行业合作伙伴一起研发下一代大规模的交换机。”

互联之外的另一个难题是稳定性。

“集群规模越大越不稳定。”张建中对表示,“ 千卡集群故障率可能做到0.1%就可以,万卡集群要提升到0.01%甚至是0.001%, 这对硬件设计和生产制造都是很大的挑战。摩尔线程投入了很多,确保架构本身的稳定性,以及让芯片的平均无故障时间更长。”

散热也是提升万卡集群稳定性的关键,千卡集群还可以考风冷解决,万卡就需要液冷保证集群的稳定运行。

“还需要不同的容错机制,在出问题的时候硬件自动恢复,而不是靠软件。”张建中表示。

为此, 摩尔线程推出了智算中心全栈解决方案夸娥(KUAE) ,以全功能GPU为底座,构建了夸娥计算集群为核心的基础设施、夸娥集群管理平台(KUAE Platform)以及夸娥大模型服务平台(KUAE ModelStudio)的一体化交付的解决方案。

万卡集群,进入AI核心圈的入场券

夸娥智算集群也可以实现从千卡至万卡集群的无缝扩展。

夸娥国产万卡万P智算集群的差异化优势

全新一代夸娥智算集群实现单集群规模超万卡,浮点运算能力达到10Exa-Flops,大幅提升单集群计算性能,能够为万亿参数级别大模型训练提供坚实算力基础。

万卡集群,进入AI核心圈的入场券

同时,夸娥万卡集群达到PB级的超大显存总容量、每秒PB级的超高速卡间互联总带宽和每秒PB级超高速节点互联总带宽,实现算力、显存和带宽的系统性协同优化。

算力利用率(MFU)方面, 千卡夸娥集群MFU有50%多,万卡夸娥集群的MFU目标是60%。

稳定性层面,摩尔线程夸娥万卡集群平均无故障运行时间超过15天,最长可实现大模型稳定训练30天以上,周均训练有效率在99%以上。

月级长稳训练远超行业平均水平,得益于摩尔线程自主研发的一系列可预测、可诊断的多级可靠机制,包括软硬件故障的自动定位与诊断预测实现分钟级的故障定位,Checkpoint多级存储机制实现内存秒级存储和训练任务分钟级恢复以及高容错高效能的万卡集群管理平台实现秒级纳管分配与作业调度。

夸娥智算集群还有一个对所有用户来说非常友好的特性——CUDA兼容。

“我们的产品跟国内外主流生态在兼容性方面做的很好, 开发者移植到夸娥集群几乎不需要修改代码,迁移成本接近0,可以在数小时之内就完成迁移工作。 ”张钰勃表示,“当然用户可能需要花数天的时间去调优性能,但整体的迁移成本很低,并不需要几周这么长的时间。”

在诸多的智算中心中,张建中认为摩 尔线程夸娥的差异化优势在于,是国内唯一一家用全功能GPU实现通用加速计算的公司。

万卡集群,进入AI核心圈的入场券

“摩尔线程有1000多人,我们花了4年时间,把GPU的图形能力、编解码能力、科学计算能力、人工智能训练推理能力都做了提升,我们希望能够搭建首个中国本土通用型的万卡集群。”张建中指出。

摩尔线程的GPU也几乎适配了所有国产cpu,这也是夸娥智算集群的差异化所在。

“我们与国内所有的CPU、操作系统一起打造了一个生态系统,叫PES联盟,形成一个本土化完整生态。”张建中说。

万卡集群,进入AI核心圈的入场券

不少人都知道摩尔线程的GPU能做图形渲染,却 忽视了基于摩尔线程全功能的GPU能够实现的AI功能。 摩尔线程的夸娥千卡集群,已经有包括无问芯穹、清程极智、360、京东云、智平方等合作伙伴。

在摩尔线程夸娥千卡集群上,360分别部署70亿、700亿参数大语言模型,全程软硬件即插即用,工作有效训练时间占比100%;全程稳定无软硬件故障,集群有效训练时间占比100%。

京东基于摩尔线程夸娥集群完成Chatglm2-6B、Qwen-14B、baichuan2-13B的大模型推理测试,Chatglm2-6B推理测试,S4000的单卡推理性能是RTX 4090D性能的1.26倍,其他两个模型,S4000性能均能达到RTX 4090D性能的90%左右。

夸娥万卡集群,摩尔线程与中国移动通信集团青海有限公司、中国联通青海公司、北京德道信科集团、中国能源建设股份有限公司总承包公司、桂林华崛大数据科技有限公司,分别就青海零碳产业园万卡集群项目、青海高原夸娥万卡集群项目、广西东盟万卡集群项目进行了战略签约。

接下来,夸娥万卡智算集群就将考验摩尔线程能够作为一家系统级公司,解决国内AI算力紧缺的难题。

张建中要带领摩尔线程做难而正确的事。

原创文章,未经授权禁止转载。详情见 转载须知 。

全局中部横幅
Maigoo品牌榜

知识榜品牌榜查排行上买购网MAIGOO!以十大品牌榜中榜、生活十大排行榜、装修家居建材、招商加盟、知识体系策划、专题串联、名企排行、行业统计研究、信息数据剖析解读分析、各种生活百科讲解的知识性、研究型门户网站。以名牌导购、精华推荐为核心的一站式大数据查询平台,上面可以查询哪个牌子比较好和各种排行榜。

公开课网

最专业的公开课网站,提供海量公开课视频在线学习、公开课视频和公开课教案课件下载。

新泉自来水(明光)有限公司

自来水有限责任公司,供水,新泉

海星体育tv

海星体育是一款非常专业的足球篮球体育赛事直播平台,海星体育tv汇聚了全球热门的体育赛事资讯,为用户提供了足球赛事直播、篮球赛事直播、赛事详细数据等服务;海星体育直播国内外近百位懂球权威专家入驻海星体育直播平台官网,多角度全方位解读每日各大联赛热门赛事,带领广大足篮球爱好者轻松玩转足篮各级联赛!

挚诚手机评测

手机评测网(www.zuixincp.com)提供最新专业、靠谱的手机评测,手机推荐!致力打造一个帮用户真正了解手机的平台。另外提供专业手机资讯以及手机问答讨论社区。

台式车床

无锡市帕沃尔科技有限公司专注于台式车床,工装治具,冷冻机的制造、销售和服务.力图用精湛的技术为广大国内外客户提供全面的现场解决方案以及完善的产品与服务.

TVG写真

TANGVISION官方网站,TVG官网,个性写真品牌,TANGVISION杂志级的拍摄体验,TANGVISION写真,TANGVISION婚纱摄影,TVG写真TVG婚纱照网红摄影个人写真闺蜜写真肖像写真婚纱摄影婚纱照

全自行升降机,铝合金升降机,移动剪叉升降机,曲臂升降机,济南恒鼎升降机械有限公司

济南恒鼎升降机械有限公司是一家集设计、研发、生产、销售、安装、服务于一体的升降机械生产服务商。现有产品:全自行升降机,铝合金升降机,移动剪叉升降机,曲臂升降机,移动登车桥,固定登车桥,装卸平台,固定式升降平台,导轨式升降平台,车载升降平台,液压登车桥,曲臂式高空作业平台,升降舞台,自行走曲臂升降车,自行走直臂升降车,自行走伸缩臂升降车等产品,还可为客户设计合理的各规格型号的特殊产品。

五一网

玩游戏,上51.COM。51游戏是国内知名的网页游戏社区化平台,集游戏研发运营、真人交友、博客空间、美女主播等娱乐业务为一体,51游戏只做口碑最好的网页游戏运营和客户服务。

HD
HD

四川东测仪器仪表有限公司(www.scdcgs.cn)是HD-ST-6振动速度传感器,HTD-6位移变送器,转速传感器CS-1供应商,公司技术力量雄厚,生产工艺先进,检测设备齐全,质量可靠,更有良好的售后服务和优质的解决方案。

武汉市惠立广告有限公司

武汉市惠立广告有限公司,成立于2005年,是一家专注于广告策划、设计、制作、发布及服务的综合性广告公司。公司位于湖北省武汉市,紧邻繁华的商业区,交通便利,是一家在业界颇具影响力的广告服务提供商。公司秉承“创意无限,品质卓越”的经营理念,凭借专业的团队、精湛的技术和丰富的行业经验,为各类客户提供全方位的广告解决方案

全局底部横幅