为AI设计特定的HPC解决方案 浪潮吴韶华 (ai的设计)
今年4月初,浪潮正式对外公布成立人工智能部,并推出面向AI应用的创新计算平台,并表示未来浪潮将在人工智能计算的数据中心产品创新、深度学习算法框架优化、生态系统建设等方向全面发力。
对于浪潮,被人们所熟知的是持续增长的服务器业务。而对于那时的“不务正业”发力AI,很多人都发出了不同的声音。对此,雷锋网也发文, 面对人工智能,传统的浪潮想做什么?
三个月即将过去,正如浪潮所判断,人工智能的火越烧越旺,AI+正已空前的速度传彻各个行业。以BAT为代表的中国技术风向标企业也已全面布局,而在这段时间内,浪潮的人工智能转型到底怎么样?发布了哪些新技术?藉由此,雷锋网关注了浪潮人工智能和高性能专家吴韶华近期在雷克大会上的的演讲《Designing Specific HPC Solutions for AI》。
在本次报告中,吴韶华主要讲了几个点:
1、人工智能市场趋势利好。
2、浪潮致力于在计算硬件和深度学习领域做出努力。
3、海量数据及巨大计算量带来的挑战。
4、浪潮为AI特别设计了服务器。
吴韶华还表示,浪潮从AI兴盛开始,就紧跟着AI领域里各种热点做相关的工作,到现在为止已经形成了很完整的一条生态链。
以下是吴韶华的演讲全文:
大家好,我是吴韶华,在过去的几年里,浪潮一直在致力于为人工智能设计特定的解决方案,我们在这方面也取得了一些成绩。今天在报告里,我想主要讲一下,我们在计算硬件和深度学习框架里面所做出的努力。
首先,我们都知道人工智能现在是非常兴盛的行业,从权威数据可以得知,2020年的市场预测规模是48亿,在之前的五年间,AI市场投资额已经达到42亿美金,所以我们非常看好AI这个行业,而且市场趋势也是一直利好。
接下来,AI技术发展趋势有以下几点。
一、大数据
如今,数据量越来越大,对于语音识别来讲,前几年,我们如果能拿到一万小时的标注后的语音识别数据,就会非常满足。但是今天我们已经拿到十万小时,甚至更多标注过的数据,在未来我们肯定可以获得更大量的数据,数据的增加是不断完善、向上的过程。
二、大模型
这些模型有能力通过这些数据获得精确的结果。对于模型,如果大家关注云、图象识别、语音识别等技术就会知道,模型精度会越来越高、越来越深、需求也会越来越大,最后大数据大模型,两方面叠加,对计算量的需求也会提到很高的高度。
目前,对于获得廉价的、可标注的数据非常困难,同时在获得这些数据之后如何快速的进行数据处理将变得非常棘手。比如如何在语音识别里汲取音频数据的特征等等。
另外,模型的数据量会越来越大,待处理的计算量也会越来越大,这就需要我们有更为高效并行的计算方式,我们将其称为分布式的计算方式;而这对计算平台的要求也会更为苛刻,因此,我们需要针对此设计专门AI,应用于特定的高性能计算平台。
在整个AI生态里面,浪潮已经做了很多工作,从顶层架构到端对端的方案,今天主要讲一下我们计算硬件和深度学习框架方面的工作。今年5月份,我们在硅谷大会上发布了一款产品,这款产品目前是业界为AI特别设计的密度最高服务器,它最多可以达到170个T,与传统服务器不一样的是,它可以提供多达四个高速网络的支持,如果每一条网络,我们连接的话,可以多达四百TB的连接。
另外,基于这款服务器,我们希望数据中心对于不同的应用要用不同的服务器硬件,因此,在这其中,我们支持各种各样的硬件以及GPU计算设备,再者,这款服务器设计有一个特别之处,它在机器后端提供了两个16条线的PCRE接口,这两个接口连在一起,可以提供翻一番的计算能力。
对于我们现在GPU计算设备来说,我们不可能指望一台服务器就可以解决我们计算问题,通常情况下会搭建一个集群,我们通过高速网络来连接,在AGS2这样的设备里面,可以提供一百到四百GB的带宽,因为这款服务器面对的是数据中心,以及众多用户,因此我们有像这样的四个高速网络的连接,提供四倍这样的速度。
另外,服务器在数据中心或者机房里面的时候,对环境温度有一个要求,机器过热会死机。对此,我们通过高效的、智能的设计,让服务器的可控温度高达45度;同时我们也提供一种混合方式,还可以进一步的提升效率和性能。
这个服务器内部包含了八块GPU,GPU里面可以用技术来做系统引导,通过这种方式极大的降低数据中心的花费。通过数据对比,我们得知这不仅仅是简单的翻倍性能,直接是2.5倍,这就是高速的连接所带来计算性能的好处。
再者是我们的框架,针对这样一个模型,我们通过比较发现,最初贾俊博士开发的Caffe-MPI(雷锋网注:浪潮在第31届国际超算大会(ISC2016)上,全球首发基于最新KNL平台的深度学习计算框架Caffe-MPI,这标志着浪潮称为全球第一个在英特尔最新的KNL平台上完成Caffe并行开发的公司。)模型只能运行在单服务器上,不支持多服务器,我们做模型训练,需要好几周时间。为了解决这个需求,浪潮针对Caffe框架,设立出一套并行版的Caffe,我们可以给多个服务器提供高速的,分布式的计算方案。
我接下来讲一下针对并行版的开发,它做了针对性的优化。我们知道,单个服务器内部,GPU个数会越来越多,在这种情况下,为了得到最好的性能,我们针对这种特定的硬件架构,改变设计思路。我们GPU服务器之间的连接是通过高速网络来连接的,但是GPU内的连接是通过PCIE,PCIE目前比高速网络快很多。考虑到这个特点,我们在单个服务器内部采用这种高速的通信方式,NCCL。在服务器之间,我们通过MPR来做,同时为了更进一步的降低服务器之间的通信频率,我们把服务器的通信都控制在通信内部,在服务器内部给他降到很低的程度,这里也就是我们如何降低通信的一种方式。
在每个服务器内部,我们给出四个GPU或是八个GPU,主GPU概念只是一个虚拟的概念,他所做的工作和我们做的都是一致的。因为我们知道,在深度学习模型,训练过程中,反向传播的时候,每一层的梯度值被计算出来之后,我们需要把这些梯度值发送到所有的设备上,从而对梯度进行更新,我们在发送的过程中,如果我们不考虑这种方式的话,没有一个主GPU,四个GPU情况下,网络带宽需要把四倍的模型做交互。在我们这种设计下,如果有主GPU,节点只通过主GPU进行交互的话,网络带宽的压力只会到最初设计的四分之一,所以通过这种设计,报节点之间带宽的需求直接降低下来。
我的讲述到这就结束了,浪潮从AI兴盛开始,就紧跟着AI领域里各种热点做相关的工作,到现在为止我们就形成了很完整的这样一条生态,在这个生态我们也相信会做的越来越好,谢谢。
以上是吴韶华的演讲全文,雷锋网稍微做了不改变原意的修改。通过以上信息,我们不难知道,几个月以来,浪潮在布局人工智能业务上“乐此不疲”,通过其领先的服务器技术储备及市场洞悉力为AI的快速落地提供动力,2017年作为浪潮的战略转型关键之年,后续究竟发展的如何,我们持续关注。
原创文章,未经授权禁止转载。详情见 转载须知 。