IPU首度公开MLPerf成绩 性价比收益胜过英伟达 (ip首部作用)

文章编号:41512 资讯动态 2024-12-03 GraphcoreNvidiaIPU

本周四,MLCommons发布了最新MLPerf Inference v1.0基准测试(Benchmark)结果,英伟达GPU一如既往地表现不俗,但值得英伟达注意的是,其超大规模数据中心的竞争对手,Graphcore公司专为机器智能设计的 IPU也参加了此次基准测试。

MLPerf基准测试发布至今已有三年之久,此前英伟达、谷歌、阿里巴巴等大公司一直通过MLPerf跑分成绩强调其产品实力,能够挑战英伟达GPU的IPU为何今年才加入MLPerf基准测试?首次参加MLPerf测试的IPU,究竟表现如何?

IPU首度公开MLPerf成绩,性价比胜过

首次提交两个模型,性价比收益胜过英伟达

在今年提交的MLPerf训练1.0版本任务中,Graphcore提交了两个模型:计算机视觉模型ResNet-50和自然语言处理模型BERT。

IPU首度公开MLPerf成绩,性价比胜过

新一轮MLPerf基准测试结果(部分)

Graphcore高级副总裁兼中国区总经理卢涛称,之所以提交这两个模型,是因为这两个模型在相应领域里颇具代表意义且被广泛使用。

“许多骨干网络还是基于ResNet,BERT虽然有很多变种版本。但标准的BERT就还是大家比较认可的Benchmark基准。”

基于IPU-M2000,Graphcore用了两种配置的硬件进行基准测试,由4个1U IPU-M2000和1个双路服务器组成的IPU-POD16,可以提供4 PetaFLOPS的AI算力,由16个IPU-M2000和4台双路服务器组成的IPU-POD64 ,可提供16 PetaFLOPS的AI算力。

IPU首度公开MLPerf成绩,性价比胜过

测试结果显示,在BERT模型训练中,IPU-POD16在开放分区(Open Division)的训练时间在半小时以内,约为27分钟,封闭分区(Closed Division)的训练时间为34分钟。两个分区的区别在于,在封闭分区中,需要完全按照规定的网络架构优化方式和硬件配置完成提交,而在开放分区拥有更多的自主灵活性。

同样的模型训练在IPU-POD64上,训练时间缩短3.5倍,且在开放分区的训练时间10分钟以内,这意味着相关科研工作者在模型训练过程中能够更快地得到研究结果。

在ResNet-50模型训练中,IPU-POD16的封闭分区训练时间为37分钟,IPU-POD64能在这一基础上能将时间缩短3倍。

一直以来将英伟达视为竞争对手的Graphcore这次也同英伟达基于DGX A100 640G提交的训练结果进行比较。基于DGX A100,其ResNet-50的MLPerf训练时间28分钟,BERT的MLPerf训练时间为21分钟,均高于IPU-POD16。

不过IPU训练时间更久并不意味着其AI能力就落后于GPU。

IPU首度公开MLPerf成绩,性价比胜过

IPU首度公开MLPerf成绩,性价比胜过

卢涛表示,一方面,ResNet、BERT等应用都是在过往基于GPU架构选择出来并深度优化的应用,对IPU可能并不是很友好,另一方面,对于最终用户非常关注“每花费一美金所能获得的训练收益”,如果将训练收益和目录折算成性价比,ResNet训练任务下,IPU-POD16相对DGX A100 640G版本的性价比收益有1.6倍,BERT训练任务下,IPU-POD16相对DGX A100 640G版本的性价比收益有1.3倍。

也就是说,如果单纯从性价比收益来看,IPU可能是更好的选择。

参加MLPerf基准测试,源于Graphcore 资源更加充足

事实上,Graphcore IPU与英伟达GPU跑分对比并不是第一次,不过当时并未选择在业内认可度和接受度更高的MLPerf。

去年8月,Graphcore通过参加谷歌发布的EfficicentNet模型、ResearchNEt模型以及NLP模型等基准测试且与英伟达A100 GPU对比。测试数据表明,多维度比较后,IPU的推理性能与训练性能均优于GPU。

为何当时未提交MLPerf的结果?“因为当时资源有限,更多地聚焦在对SDK的打磨、优化、功能开发,和头部客户及合作伙伴联合探索应用场景落地。”卢涛如此回答。

卢涛解释到,参加MLPerf Benchmark需要较大的投入,Graphcore十几个团队成员分别间接或直接参加了这一项目,且至少耗费半年以上的时间。“今天Graphcore整体软硬件,尤其是软件和生态,更加成熟完善,公司整体实力和之前相比更加雄厚。在几个因素叠加的影响下,我们参加了MLPerf训练1.0的Benchmark,后续也有持续投入的计划。”

选择在资源充足后参加MLPerf基准测试,同时也表明Graphcore对这一基准测试的认可。

“AI芯片产业的整体出发点是DSA(Domain Specific ArCHItecture),与不论是在整体架构上还是计算机体系结构上相对比较类似的CPU相比,各个AI处理器的架构之间会有较大的差异。对于最终用户来说,就很难体现所选择的架构对于业务受益产生的影响。”

“我并不能说MLPerf代表了整个AI产业所有的任务,但是它代表了今天工业界比较主流部署的应用场景。我认为MLPerf是有一定指导意义的。”卢涛说道。

虽然基于GPU架构选择出来的应用模型对IPU而言并不友好,但Graphcore认为,需要积极参与产业标准的探讨,逐渐成为产业中有力的声音,才能影响产业标准的走向。

“之后我们会积极参与MLPerf的提交,提供一些不同的任务,让MLPerf的工作负载更具代表性。”卢涛说道。

不是GPU的IPU,为什么更值得英伟达警惕?

超越全球最大7nm芯片A100!Graphcore第二代IPU晶体管数量高达594亿个

原创文章,未经授权禁止转载。详情见 转载须知 。

全局中部横幅
免费分班软件系统

自动分班系统实现分数均衡分班、男女人数均衡分班、特长生均衡分班、预设人员分班。学校分班软件是真正的免费学生分班系统,是一款免费破解版分班软件。

禾丰绣花机

欢迎来到禾丰绣花机网站。禾丰是国内电脑绣花机技术领先的高新技术企业。禾丰全系列产品采用标准模块化方式生产,精工制造,让刺绣更简单。

琪岸网络动态牛

动态牛-以技术创造价值|微信程序开发|电商程序开发|抖音电商|小程序开发|微信公众号解决方案

阳煤化工股份有限公司销售分公司

阳煤化工,潞安化工,化工股份,化工销售,有限公司,官网,化工,化肥,商城,农资

在线客服系统解决方案一洽(Echat)客服软件

在线客服系统、在线客服软件解决方案提供商,一洽客服系统十五年行业经验,服务全球十万家企业,人工客服系统、智能客服系统、智能客服机器人实现7*24小时服务。不仅仅只是网站客服系统,而是小程序、公众号、APP、微博、Facebook等全渠道接入。支持集团架构、多商户架构、多店铺架构、多语言架构。多路由、多样式、多分配策略支持。开放API,支持集成企业会员、订单等业务系统。

锦推网络助力设备维修与知识推广

优专修网为大家分享机械设备维修知识与经验,帮助大家深入了解家电维修、机械设备维修、电器维修、手机电脑维修等知识!

智慧工地

智慧工匠科技有限公司以物联网、大数据、云计算技术为依托,专注建筑行业信息化领域,集软件研发和大数据分析应用、平台运营为一体,打造互联网+建筑施工项目管理平台,实现工程施工项目全过程管理。为您提供智慧工地管理平台系统:人员安全管理,施工安全管理,设备安全管理,质量管理,物资管理,项目进度管理,及BI数据大屏等。

全局底部横幅