和腾讯的DX 阿里发布的机器学习平台PAI2.0 (和腾讯的捕鱼来了替代)
今天,云栖大会·深圳峰会在深圳如期举行,这是今年云栖大会的第一站,虽然规模不及阿里主场杭州的云栖小镇,但按照惯例,每届云栖大会阿里都会发布一系列重磅产品,这次也不例外。
本届云栖大会的主题是“飞天 · 智能”,和去年10月杭州站的“飞天·进化”相比看似没有太大的变化,但很明显的是,无论是主题演讲还是会场展区,人工智能已经取代云计算成为了出现频率最高的词,而其最新发布的机器学习平台PAI2.0当之无愧成为了大会的焦点。
有趣的是,在大会前一天,腾讯刚刚发布了DX-I深度学习平台,根据腾讯官方的介绍,DX-I将基于腾讯云的大数据存储与处理能力来提供一站式的机器学习和深度学习服务,随着阿里机器学习平台PAI2.0的发布,两大平台孰优孰劣便引起了一阵热议。当然,两款产品都是刚发布不久,要下结论,还需要等待第三方应用的检验。
但本着求知探索的精神,雷锋网还是找出了PAI2.0与DX-I之间一些微妙的差异。
定位
毋庸置疑,DX-I和PAI2.0分别是腾讯和阿里人工智能战略的重要组成部分,PAI2.0还是阿里NASA计划发布后的首款重磅产品。但从字面上就可以看出,二者定位还是有一定的差异。
雷锋网从腾讯内部人士得知的信息是,DX-I更注重深度学习,而PAI2.0则是包含深度学习在内的机器学习,因此PAI2.0的辐射范围会更大,换言之,如果你如果使用的不是深度学习算法和模型,那么DX-I就失效了,但你可以选择PAI2.0。
当然,换个角度看,在深度学习火爆的今天,DX-I可能会保持更高的专注度。
深度学习框架的支持
根据阿里官方的信息,PAI2.0可以支持Tensorflow、Caffe以及MXNet,用户可以通过拖拉拽的方式可视化的操作组件来进行试验。
DX-I也支持三大深度学习框架,不过这三个框架是TensorFlow、Caffe以及Torch,除了这一点区别之外,它也支持可视化的拖拽布局,即拖即用。
不过,PAI2.0还提供了逻辑回归、随机森林、GBDT、KMeans等常规的机器挖掘算法,以及文本分析和图算法。
底层计算资源的支持
对于底层计算资源,PAI2.0提供了云端异构计算资源,包含CPU、GPU、FPGA。在GPU方面,PAI2.0可以灵活实现多卡调度。
DX-I主要基于腾讯云的GPU计算平台,和异构计算相比还是略显单薄。
不过,对于深度学习而言用GPU来计算也有一定的优势,绿米联创首席算法工程师曲晓峰告诉雷锋网,“深度学习可以轻易的通过GPU提升准确率和并行加速,其它方法都还没有这样的效率。”他继续指出,很多其它算法也可以不断迭代优化,但没法达到深度学习这样地高效充分利用GPU的并行性。
曲晓峰表示,“异构计算的优势在于绝对运算量要求高的那些传统应用,例如气象、核爆模拟、渲染等。其劣势是,异构计算为了可以调用不同的底层对于算法的要求较高,现在缺乏杀手级的领军算法。”
内部测试以及应用情况
据雷锋网了解,从PAI1.0开始,该机器学习平台已经在阿里巴巴内部使用了2年。基于该平台,在淘宝搜索中,搜索结果会基于商品和用户的特征进行排序。通过使用参数服务器,淘宝可以把百亿个特征的模型,分散到数十个乃至于上百个参数服务器上,打破了规模的瓶颈。
而DI-X在腾讯内部使用了一年,其主要用于游戏流失率预测、用户标签传播以及广告点击行为预测等。以用户行为预测为例,借助DI-X平台,可以方便的拖拽出一个BRNN Encoder模型(双向循环神经网络编码器),从用户自身和用户圈子好友的行为序列数据中提取出基础特征,进行栈式自编码(Stacked Auto-Encoder)模型的训练,充分利用RNN的模型特点,得到比常规模型更精准的行为预测效果。
不难发现,PAI和DI-X都是经内部测试成熟后才对外开放出来的,只不过相较而言,PAI是一个更加成熟的产品,其已经在广东省气象局和华大基因等机构实现了应用。
因此,从多个维度比较的结果来看,两个平台很难一分高下,主要还得看应用场景,如同Tensorflow、Caffe和MXNet这三大主流的深度学习开源框架:Tensorflow的优势是开源算法和模型最丰富;Caffe则是经典的图形领域框架,使用简单;MXNet在分布式性能上表现优异。
原创文章,未经授权禁止转载。详情见 转载须知 。