带你大视角看人工智能发展 七场高端报告 (带你看视界)
雷锋网 AI 科技评论消息:2018 年 3 月 30 日,AITech 峰会在深圳龙岗区正式召开。
本次会议以配合国家新一代人工智能发展规划实施,支撑人工智能产业技术协同创新,加强人工智能领域的国内外技术交流为目的,由深圳市人民政府指导,深圳市龙岗区人民政府、中关村视听产业技术创新联盟、新一代人工智能产业技术创新战略联盟主办,深圳龙岗智能视听研究院承办。雷锋网作为独家战略合作媒体将进行现场内容详细报导。
为期两天的会议将包括两场主论坛和四场分论坛,分别为:
下面我们详细介绍 AITech 主论坛一的详细内容,其他内容将稍后呈现。
在该论坛中,共有四项议程。
首先,深圳市龙岗区区长戴斌先生和深圳市政协副主席张晓莉女士作为东道主为大会致辞。
据戴斌先生介绍,龙岗区在 2017 年实现地区生产总值 3858 亿元,增长 9.8%,跃居全深圳市各区第二,稳居全国经济十强区。目前已集聚了包括智能机器人在内的六大产业集群,拥有华为、比亚迪等知名企业。力争到 2020 年,人工智能等新兴产业工业增加值占 GDP 比重超过 60%,成为驱动发展的强大引擎。
张晓莉女士在致辞中表示,目前深圳在人工智能和机器人密切相关的智能制造、智能汽车、无人机等领域已形成较为完备的产业链,在全球人工智能企业数量排名榜上深圳位居第八。
随后龙岗区副区长陈广文先生详细介绍了龙岗区作为全国经济十强区的创新创业环境。主要概括有以下几个特点:产业基础雄厚;创新势头强劲;文体氛围浓厚;环境配套优越;政府服务超前。
接着在高文院士、徐扬生院士、丁文华院士等人的见证下,龙岗区金融投资控股有限公司董事长张静女士、中国国新基金管理有限公司副总经理姜开宏先生以及新一代人工智能产业技术创新战略联盟联合秘书长张伟民先生签署了新一代人工智能产业基金框架性合作协议。
在最后一项议程,由7位领域内专家分别作出精彩报告。
下面我们对几位专家的报告一一做简要介绍。
一、AI 开源平台的挑战与机遇
报告人:高文院士,中国工程院院士,新一代人工智能产业技术创新战略联盟理事长。
高文院士针对 AI 开源平台的四个方面进行了介绍,他认为这里既有挑战,也有机遇。
首先是我国人工智能发展的瓶颈问题。高文院士认为这有四点:(1)开源平台多,但平台之间相互隔离,模型不可相互转换,导致形成「算法孤岛」;(2)算法需要适配的异构硬件,性能和效率受制于硬件的组织管理;(3)应用绑定在 AI 算法平台与硬件,基础受制,推广性受限;(4)国际巨头通过 AI 开源工具打造生态和垄断智能硬件,严重挤压我国 AI 产业发展空间。针对这些问题,对这些瓶颈的应对策略就是,通过构建支撑开源软/硬件基础平台来支持人工智能技术产业链。
深圳云脑计划正是这样一个平台,它是为了配合国家新一代人工智能重大专项,解决上述四项瓶颈问题而成立的一项计划。这项计划近期主要为深圳云脑(SCB-AI),长期来看则还包括深圳量子云(SCB-QS)。
深圳云脑的体系架构分为三层:云脑硬件平台、云脑操作系统、重大应用。其中硬件平台包含了 GPU 集群,FPGA 推理节点、专用人工智能芯片推理部件。其次将这些硬件连接起来构成云脑操作系统,并提供给各种各样的人工智能应用,例如智能交通、智能医疗、自动驾驶等。通过这种方式,可以保证智能硬件的高能效、智能操作系统与软件的高效和可扩展,以及人工智能决策应用平台的高效实时、高性能和可解释。
在开源硬件之上就是依托联盟,建立 AI 技术的开源开放平台,实现 AI 数据共享、模型共享、技术共享等,共同开发建设 AI 开源共享社区。例如 AI 交流社区、AI 开发社区、AI 共享社区、AI 标准化社区、AI 教育社区等等。此外还会通过联盟来维护开源开放平台,建设开源开放平台子基金,通过联盟向深圳以及国内外开放,建立人工智能协同开发的生态。
高文院士总结到:我国人工智能发展面临四个挑战,解决这些挑战则需要强大的开源平台,深圳云脑是可能的选择之一。希望这个计划对整个中国人工智能计划起到帮助。
二、人工智能时代的教育
徐扬生:中国工程院院士、香港中文大学(深圳)校长
徐扬生院士在报告中首先给我们简单介绍了机器人的发展,随后提出「智能革命将是从生产力解放到心脑解放的一次革命」,这次革命所带来的影响将远远大于人类历史中所有通过解放肉体的革命所引起的影响。在这种智能革命下,人类以前以及现在所做的许多事情都将被人工智能所取代,人类社会也将进行重新分工,很多行业将会消失,同时也会产生许多新的行业。
在这种情况下,人类的教育需要做什么样的改变是一个严峻的问题。徐扬生院士认为,我们时代的教育主要还是在训练人类的弱点(例如记忆、逻辑判断;相比于人工智能),这需要改变。因此他提出人工智能时代下的教育的四条原则:
三、Deep Learning Research
John E. Hopcroft,美国工程院院士、美国科学院院士、中国科学院外籍院士、图灵奖获得者
在报告中,图灵奖获得者 John Hopcroft 分享了一些深度学习领域中比较有趣的研究问题和对此的一些思考。
最近几年,随着深度神经网络的引入,特别是卷积神经网络(卷积神经网络,由卷积层、池化层、全连接层组成,最后是 softmax 输出每个类别的概率)的引入,图像分类等方面的错误率逐年下降,在 2015 年微软亚研院提出的 152 层深度残差网络(ResNet)在图像分类中超过了人的识别水平。但是在这方面还有很多问题值得研究,例如每个门学习的是什么、怎样让第二层的门与第一层的门学习不同的信息、怎样让一个门学习的内容随时间演化、用不同的初始权重门学习的是否是相同的内容、用不同的图像集训练两个网络早期的门学习的是否相同等等。
此外,在训练一个深度网络时,可能会有许多局部极小值,有些极小值可能会比其他的好。如何保证我们在训练的过程中能够找到一个好的局部极小值呢?训练深度网络往往会花费很长的时间,我们是否可以加速训练呢?这些也都是非常有意义的研究方向。
随后 John 考虑了当训练两个网络时会出现什么有趣的研究。对于两个网络,我们可以同时训练,也可以一先一后。那么这两种情况,两个网络在激活空间里是否共享相同的区域呢?一个当前比较火的例子就是生成式对抗网络(GAN),这个网络便属于一先一后的情况。
最后 John 提出了一个问题:人工智能是真的吗?他认为,现在的人工智能只是高维空间中的模式识别,AI 还不能提取出一个事物的本质或者理解它的功能。在 John 看来,要想实现这一点,只是需要另外 40 年的时间。他还说到,其实很多现在看来是智能的任务其实都不是 AI,有些只需要强大的计算以及大数据就足够了,例如棋类比赛。计算机正在做越来越多的人们以为需要智能的事情,实际上有些并不是 AI。所以我们在从事人工智能相关的工作时要想一想,这个问题的核心的是 AI 吗?还是仅仅需要大计算而已?
四、人工智能的字母表
芮勇:联想集团首席技术官,高级副总裁,ACM Fellow,IEEE Fellow
芮勇博士在演讲中介绍了人工智能字母表中的 A(Algorithm,算法)、B(Business,行业)、C(Computing,算力)、D(Data,数据)。他认为想要把一个人工智能系统做好,这四方面缺一不可;如果把人工智能看做一辆车的话,算法就是引擎,算力就是轮子,数据就是汽油,而行业则是方向盘。
A:算法-引擎
从人工智能出现至今,算法的沿革及演化大概是:逻辑回归,神经网络,支持向量机,隐马尔科夫模型,专家系统,深度学习。而事实上人工智能的算法也分为不同的阵营,例如符号学派(规则和决策树);连接学派(神经网络);贝叶斯学派(概率图模型);类推学派(SVM);进化学派(遗传算法)。目前来看,则是连接学派发展势头很好,其他稍次。
C:算力-车轮
计算力是车轮,承载了整个人工智能的运行。在几年前大家主要还是通过 CPU 集群来跑算法,而目前主流的计算引擎则是 GPU,CPU 则主要用于控制和参数同步;另一方面 FPGA 在嵌入式解决方案上的前景比较光明,而专用的 ASIC 芯片则羽翼未丰。
D:数据-汽油
数据是整个人工智能的能量来源。我们现在处于一个新数据时代,面临着一些列的挑战。
首先是数据量爆发,例如目前 90% 的数据都是两年内生成的,预计到 2020 年全球平均每人每秒都会产生 1.7MB 的数据,如何充分地利用这些数据是一个很有挑战性的问题。其次如何解决数据的质量问题,让数据能够覆盖更广泛的领域,而不只是集中在某些特定的领域。再次,如何高效地进行新数据的生成,例如生成对抗网络(GAN)。
B:行业-方向盘
行业就是人工智能的方向盘,决定着整个大方向向哪个地方发展。芮勇分别举了智慧交通、智慧医疗、智能心电衣等几个行业案例说明了这个问题。
芮勇总结到:请记住人工智能字母表的这前四个字母,A,B,C,D。它们是开好人工智能这辆车必须掌握的。
五、IoT时代的只能语音交互
鄢志杰:阿里巴巴达摩院-机器智能技术研究院 语音交互首席科学家
我们知道阿里前两天刚刚发布要全面进军 IoT 领域,鄢志杰博士在报告中则介绍了阿里巴巴在 IoT 方面的工作。简单来说,阿里巴巴想要数字化整个物理世界,其观点是:计算是心脏,AI 是大脑,而 IoT 则是神经;神经能够使他们触达更多的用户,产生更多的数据,产生更大的价值。其表现为,阿里要做 IoT 基础建设的搭建者,在 5 年内布置 100 亿个 IoT 设备。
随后鄢志杰博士详细介绍了语音交互智能在 IoT 与互联网内容和服务中的桥梁作用,下面这张图是阿里内容架构图:
更详细地,鄢志杰博士则分别介绍了阿里的智能音箱、智联网汽车、电视(盒子)、公共场所服务机、多模态语音交互打平等产品。他认为在 IoT 时代,必须将技术、产品和商业打造成一个闭环才能够共同促进发展。
六、城市数据湖——城市发展
林拥军:易华录总裁
林拥军先生介绍了在大数据时代,数据如何存储和利用的问题。在现代,我们有了更多和更先进的感知器来收集数据,也有光纤、5G 等等数据传输管道;在计算上我们也有 GPU、TPU 以及超算等高性能计算硬件,但是在存储上我们仍然还在使用以硬盘、磁带等为主的器件,这些存储设备不仅能耗大,寿命短,而且安全性也较差。林拥军先生在此介绍了蓝光存储技术。
他把数据分为热数据、温数据和冷数据。其中热数据一般采用电存储,优点是速度快,轻便;而缺点是容量低、成本高、寿命短。温数据则一般采用磁存储,优点是速度较快,容量大;但缺点是能耗大、寿命短、易故障。而大量冷数据可以采用光存储的方式,其能耗只有磁存储的 0.3%,成本只有磁存储的 6.5%,寿命为 50-100 年,单张容量 300GB。他认为以「冷技术」保存冷数据,使冷、热数据得以完美结合,将成为人工智能时代数据存储的最优选择。
林拥军先生等人以蓝光存储技术为基础,构建一个城市新的基础设施,他们称之为城市「数据湖」。他认为这以后将是每一个城市的标配基础设施。在这个构想中,数据湖将成为政府主导建设的存储节能优先的基础设施,IDC 则将是企业主导建设的计算性能优先的商业实施。林拥军先生认为「古人逐水而居,今人逐数兴业」,因此数据将成为地方政府吸引人才的一个重要因素。
数据湖的 IT 架构将是湖存储+ABCD,其中 ABCD 分别为为人工智能(AI)、区块链(Blockchain)、大数据(Data)和云计算(Cloud)。而其特点有四个:海量(存储容量大、单机柜 1.6PB、数据密度高)、绿色(能耗低、磁存储、存储成本低、磁存储的 6.5%)、安全(寿命 50 年以上、数据不可修改、方电磁公积、防病毒删改)、生态(数据开放)。
最后林拥军先生还提出了数据湖构建的三部曲——建湖、引水和水资源利用。建湖即为以光磁融合技术作为构建城市数据湖的核心要素;引水为政府已有数据的引入;水资源利用为数据驱动、决策支撑,推动改进政府治理方式,提升政府治理的高度。
七、端到端AI计算系统设计与优化
张清:浪潮集团AI首席架构师
目前人工智能计算面临着一系列问题,例如如何优化模型、自动学习模型、构建大规模算法等,这往往需要专家才能完成,且限于硬件设备的限制往往也不能达到最优化。
张清先生在报告中介绍了浪潮集团提出的端到端 AI 计算系统的设计思路。大概分为四层:
AI 计算平台:在平台中会针对某一问题的计算特点、领域特点、部署环境等进行设计算法。例如参数密集型或者计算密集型,平台会根据这些特点做出不同的配置。
AI 系统管理:对于个人来说可能只能配置少量的 GPU,硬件设施会限制运算的效率。但是如果基于大型的集成计算硬件平台,它们可以根据硬件资源的具体情况进行资源管理、调度和监控,可以有效地利用资源和提升运算效率。
AI 计算框架。系统将根据不同的场景要求、模型特点和平台特征选择合适的框架(TensorFlow、Caffe 或者别的)。
AI 应用方案:对 AI 应用实现进行分析,则会有四个过程,包括任务分解(例如是图像识别、语音合成还是机器翻译等)、数据准备(数据清洗、数据增强、数据标注等)、算法选择(RNN、ResNet、FCN 等)、系统构建(管理平台、计算平台等)。
端到端的 AI 计算系统优化技术方向包括三个:计算、通信和 IO。其中计算为 CPU 与 GPU 并行训练,进一步提高资源利用率。通信则采用硬件技术,实现通信的低延时域高贷款;IO 则采用线上与线下同意存储架构设计,降低数据传输时间。雷锋网总结:以上为 AITech 主论坛一的内容介绍。在半天会议中,通过深圳市以及龙岗区政府领导的讲话,我们能够了解到深圳市(龙岗区)政府在人工智能以及相关产业方面做出的巨大投入。从高文院士的报告中可以看出国家层面正在以及将要如何布局人工智能发展;徐扬生院士的报告让我们认识到,人工智能时代我们应当重新思考(子女)教育问题;John Hopcroft 则通过浅显的语言让我们认识到深度学习的不足、可能改进的方向以及对此应该有哪些反思;芮勇博士的报告,则形象化地阐明了人工智能良好发展的 A、B、C、D 四大要素;鄢志杰博士的报告则非常具体地阐述了阿里巴巴在 IoT 方面的架构;林拥军先生则给我们展示了一个宏大的数据存储场景,对各级地方政府都有很大的参考价值;张清先生则介绍了端对端 AI 计算系统的设计和优化,类似平台的出现或许将让大量研究人员不再需要单独购买 GPU 或者自己设计算法。总之,每场报告都让人有一种心灵和视野的激荡。更多内容请关注雷锋网随后报道。
原创文章,未经授权禁止转载。详情见 转载须知 。