16800首秀如何推动数据中心网络从云迈入AI时代 华为CloudEngine
2019.01.09,华为将数据中心网络推入了AI时代。
雷锋网1月9日消息,华为正式推出内置自家AI芯片昇腾310的数据中心交换机CloudEngine 16800,也是业界首款搭载高性能AI芯片的数据中心交换机。距离华为上一款旗舰产品CloudEngine 12800系列的发布已经过去了6年,CloudEngine 12800在云时代大获成功,CloudEngine 16800显然是华为坚定押宝在AI时代的一款拳头产品,而且做好了打好几年粮食的准备。
发布会地点选在了北京国贸大酒店,北京的CBD核心区迎来送往,数据中心交换机其实也是这么个角色,只不过运输转发的是数据。
数据中心的流量主要分为东西向流量和南北向流量,还有一部分流量是数据中心之间的流量。据说是因为早期绘制网络架构图,从上到下(从北到南)是核心网络设备到客户端,从左到右(从西到东)是服务器到服务器,所以就沿用了这个说法。
南北向流量即指数据中心服务器到数据中心以外客户端之间的流量,东西向流量即指数据中心内部服务器之间的流量。不过很大的变化是目前东西向流量已经远超南北向流量,数据中心服务器规模的扩大,更多应用需要池化资源来满足,服务器集群内部流量骤升。有数据显示,2020年全球数据中心东西向流量占比将超过80%,而早期数据中心的流量80%为南北向流量。
我们平常所使用的各类终端接入互联网也是依靠各种交换机和路由器来实现数据传输,如此庞大的流量其实只占两成,这还只是非数据中心交换机,数据中心交换机将处理转发八成流量,足以说明其重要程度。关于数据中心交换机引用一句话非常合适——“就算未来所有硬件盒子形态网络设备终将消亡,数据中心交换机作为连接服务器的总线,将永远存在。”
数据中心网络进入AI时代
雷锋网了解到,上一代产品CloudEngine 12800以82%的复合增长率连续六年增速全球第一,已在全球6400+个数据中心成功商用部署。另外相关数据显示,华为2017年(2018年数据还没出)全年中国数据中心交换机市场份额排名第一,为39.48%,超过第二名6个百分点,主要原因就是CloudEngine 12800抓住了云数据中心的发展机遇。
自2012年CloudEngine 12800发布后,华为数据中心网络产品在市场一路走高,2013年华为成为增长最快的数据中心网络厂商;2014年年增长率达137%;2015年华为成为唯一进入全球SDN领导者行列的中国厂商;2016年中国区市场份额第一,全球份额第三;2017年迈入Gartner数据中心网络魔力象限的挑战者象限,距离挑战者象限仅一步之遥;2018年迈入数据中心SDN网络硬件厂商领导者行列。
华为CloudEngine系列交换机包括核心交换机、虚拟交换机、接入交换机,16800就是核心交换机的旗舰,典型数据中心应用场景是核心交换机与TOR交换机通过端口互联,采用TRILL、VxLAN等协议组建无阻塞二层网络。
华为在发布会现场没有言明新产品的小目标,但从产品角度可一窥华为野望。
华为网络产品线总裁胡克文在现场表示,AI时代数据中心有三大挑战:
相对应的,在华为看来,AI时代的数据中心交换机应具备三大特征:
内嵌AI芯片
业界首款内嵌AI芯片数据中心交换机,100%发挥AI算力。 华为实现0丢包低时延高吞吐的无损数据中心网络主要包括靠两点:一方面是单流局部调优,华为内嵌AI芯片的数据中心交换机对网络状态实时检测,实现交换队列动态ECN门限,队列缓存的智能调整,并在最佳时刻给予发送端最快的反馈,实现源端发送速率的动态调整;
另一方面是整网全局调优,CloudEngine 16800承载独创的iLossLess智能无损交换算法,能够对全网流量进行实时的学习训练,并根据不同业务流量模型的特点动态设置最优的网络参数,更精准地控制流量,实现百万流和基于应用的队列自适应不同场景的全局网络自优化能力。从而在零丢包基础上获得更低时延和更高吞吐的网络性能,克服传统以太网丢包导致的算力损失,将AI算力从50%提升到100%,数据存储IOPS(Input/Output Operations Per Second)性能提升30%。
单槽48 x 400GE
业界最高密度单槽位48 x 400GE,满足AI时代5倍流量增长需求 ,为了满足AI流量需求,华为主要强调了三个“Super”
CloudEngine 16800全面升级了硬件交换平台,在正交架构基础上,应用如上技术,使单槽位可提供业界最高密度48端口400GE线卡,单机提供业界最大的768端口400GE交换容量,交换能力高达业界平均的5倍,同时单比特功耗下降50%,还绿色节能。
向自动驾驶网络演进
使能自动驾驶网络,秒级故障识别、分钟级故障自动定位。 秒级故障识别、分钟级故障自动定位,CloudEngine 16800基于内置的AI芯片,可大幅度提升“网络边缘”即设备级的智能化水平,使得交换机具备本地推理和实时快速决策的能力;通过本地智能结合集中的FabricInsight网络分析器,构建分布式AI运维架构,可实现秒级故障识别和分钟级故障自动定位,使能自动驾驶网络加速到来。同时,该架构还可大幅提升运维系统的灵活性和可部署性。
CloudEngine16800作为一款面向AI时代的数据中心交换机,提出了一个新概念——数据中心AI交换机,这也是大厂分外看中的一个方向。雷锋网获悉,早在2017年,思科就以1.25亿美元的代价收购了人工智能初创公司MindMeld,彼时就给AI交换机这个新物种带来了一些期待,但后来却鲜有声音,在全球市场华为拔得头筹,是否会掀起行业对于该类产品的追捧?竞品遍地开花的情况可能不会太遥远,不过其他厂商首先要妥当解决AI芯片的问题。
必然性与演进性
交换机在华为历史上有着浓墨重彩的一笔,被无数次提及的万门C&C08交换机,曾经让任正非表态“研发不成功就跳楼”,C&C08的命名有两层含义,一是 Country&City (农村&城市),表达了华为希望进入城市的决心;二是 Computer&Communication(计算机&通信),数字程控交换机就是计算机和通信的组合,至于08就是图个吉利。
万门C&C08交换机救了当时的华为,华为后来不少副总裁级别领导都出自该部门,华为也从彼时进入到传输、移动、智能、数通等领域。CloudEngine 16800会是华为引领AI时代数据中心网络领域的先遣军么?
根据华为GIV 2025(Global Industry Vision)的预测,到2025年,新增数据量达到180ZB,95%的非结构化数据(语音/视频等)依赖AI处理。就算这些数据只有一部分存放在数据中心,对数据中心流量处理的影响也是“灾难性”的。
Gartner研究总监Owen Chen表示,AI将在很大程度上影响IT基础架构,包括计算、存储和网络等,同时Gartner认为AI驱动数据中心网络变革即将开始,一方面,AI业务运行对网络交换提出新诉求,比如网络要求超大带宽(从100G到400G、800G),0丢包、E2E低时延;另一方面,AI驱动网络部署运维重构,即从人工运维到AIOPS,关键词包括意图驱动、预测性维护、自治自愈、自动驾驶网络、无人值守等。
雷锋网此前总结,“谈云不谈网,都是耍流氓”,用以说明云网协同的重要性,云计算必须有足够的网络能力支撑。而其实计算、网络和存储的发展中,存储介质有了闪存盘,时延降低不止100倍,计算领域的GPU和AI专用芯片,将数据处理能力提升了100倍以上,处理的协议由TCP/IP演进到RDMA,网络的发展亦步亦趋,慢了一大拍。
雷锋网同时观测到,有一些超大规模数据中心采用白盒或者品牌白盒交换机,这是否已经成为一种趋势?对此,华为交换机与企业网关产品线总裁钟开生表示,这涉及到不同路径的选择,白盒交换机并不代表节约成本,比如要满足运维要求就需要专业的人来做专业的事,华为多年来的积累能为客户提供全套解决方案。
CloudEngine 16800雷锋网现场实拍图
超大规模数据中心的数量不断增加,计算、存储和数据三网融合,传统人工运维手段已难以为继,亟需引入创新的技术提升智能化运维的能力,关于AI运维,业内也有不同观点,认为AI运维现在还是概念化阶段,至多是简单运维管理的自动化、批量化操作。
其实不管是内嵌AI芯片,还是智能运维,从现在的角度看都有其局限性,技术的发展也不可能一蹴而就,华为是在探索的同时推陈出新,比如12800\12008E\16800三大产品硬件平台均不一样,也反映出华为的仍在寻找更适合的技术路径。
正如华为交换机的崛起一样,性价比加服务模式让华为收割市场,CloudEngine 16800则在性能上更进一步,适合于AI时代数据中心综合需求。数据中心网络进入AI时代有其必然性,但同样有很大的演进空间。
从华为IT变革说起:探秘华为云的数据中心“硬”实力
华为苗彩霞:数据驱动+边云协同,构建AIoT基础设施 | AIoT+智慧城市峰会
华为发布 ARM-based 处理器「鲲鹏920」,创造计算性能新纪录
联想收购 IBM 的 BNT 产品组后,在网络交换机中发现了“后门”
原创文章,未经授权禁止转载。详情见 转载须知 。