四大研究领域揭示自然语言技术的奥秘 MSRA副院长周明博士 (四大研究领域是什么)

文章编号：38466 资讯动态 2024-12-01 自然语言处理 NLP 自然语言理解自然语言

副院长周明：四大研究领域揭示自然语言技术的奥秘

雷锋网 AI 科技评论按：在 EmTech China 峰会上，微软亚洲研究院副院长周明博士围绕自然语言四个方面的进展，结合 MSRA 在自然语言上的一系列研究成果做了介绍，雷锋网 AI 科技评论根据速记整理如下：

人工智能最重要的分支就是自然语言的理解与处理，即语言智能，通过对词、句子、篇章进行分析，对内容里面的人物、时间、地点等进行理解，然后在此基础上，去支持一系列核心技术，比如跨语言的翻译、问答系统、阅读理解、知识图谱等技术，基于这些技术，又可以把它应用到其它应用领域，比如说搜索引擎、客服、金融、新闻等等领域。总之，就是通过对语言的理解，实现人跟电脑的直接交流，从而实现人跟人更加有效地交流。自然语言技术不是一个独立的技术，其受云计算、大数据、机器学习、知识图谱等等各个方面的支撑。

接下来将从四个方面介绍自然语言的进展，即神经机器翻译、聊天机器人、阅读理解及机器创作。

神经机器翻译就是模拟人脑的翻译过程，人在翻译的时候，首先是理解这句话，然后在脑海里形成对这句话的语义表示，最后再把这个语义表示转化到另一种语言。

神经机器翻译有两个模块，一个是编码模块，把输入的源语言变成一个中间的语义表示，用一系列的机器的内部状态来代表，另一个模块是解码模块，根据语义分析的结果，逐词生成目标语言。

神经机器翻译在这几年发展非常迅速，2017 年的研究热度更是一发不可收拾，现在神经机器翻译已经取代了统计机器翻译，成为机器翻译的主流技术。目前有统计数据表明，在一些传统的统计机器翻译难以完成的任务上，神经机器翻译的性能远远超过了统计机器翻译，而且跟人的标准答案非常接近，甚至说是相仿的水平。围绕着神经机器翻译，研究者们已做了很多的工作，比如如何提升训练的效率，如何提升编码和解码的能力。还有一个重要的研究问题就是数据问题，神经机器翻译依赖于双语对照的大规模的数据集来训练，端到端地训练神经网络参数，这涉及很多语音段和很多的垂直领域，但我们实际上并没有那么多的数据，我们只有小量的双语数据和大量的单语数据。

所以，我们就提出了半监督的联合垂直模型，已知一个双语推导语料，分别对之训练，从而达到中英翻译系统与英中翻译系统的相互促进，比如拿中英翻译系统去翻中文的语料，形成很多伪的中英对照语料，然后把这个语料去加到英中翻译里面去。同样，用英中翻译系统去翻译大量的英文语料，然后把这个语料加到中英翻译里面，这样经过多次迭代之后，翻译水平大幅度提升。

微软现在已经全面采用神经机器翻译，最近还跟华为的 Mate10 手机合作，得到了神经机器翻译类似于在云上的效果。

第二个话题是聊天机器人。聊天机器人就是人和机器对聊，在聊天的时候机器要理解人的意图，产生比较符合人的想法，以及符合当前上下文的回复，再根据人与机器各自的回复将话题进行下去。微软小冰就是这样的一个聊天机器人。基于当前的输入信息，再加上对话的情感，以及用户的画像，经过一个类似于神经机器翻译的解码模型生成回复，可以达到上下文相关、领域相关、话题有关，而且是针对用户特点的个性化的回复。

这样的技术已经应用到微软的很多产品里，比如会 5 种语言、拥有 1 亿以上用户的微软小冰、可以进行自然人机交互的 Cortana、可以在敦煌回答游客问题的敦煌小冰。

副院长周明：四大研究领域揭示自然语言技术的奥秘

via

下一个话题是阅读理解，阅读理解就是让电脑看一遍文章，针对这些文章问一些问题，看电脑能不能回答出来。斯坦福大学曾做过一个比较有名的实验，就是使用维基百科的文章提出 5 个问题，由人把答案做出来，然后把数据分成训练集和测试集，训练集是公开的，用来训练阅读理解系统，而测试集不公开，个人把训练结果上传给斯坦福，斯坦福在其云端运行，再把结果报在网站上，这也避免了一些人对测试集做手脚。阅读理解技术，自 2016 年 9 月前后发布，就引起了很多研究单位的关注，大概有二三十家单位都在做这样的研究，一开始的水平都不是很高，以 100 分为例，人的水平是 82.3 左右，机器的水平只有 74 分，相差甚远，后来通过类似于开源社区模式的不断改进，它的性能就得以逐步地提高了。

最近在阅读理解领域出现的一个备受关注的问题，就是如何才能做到超越人的标注水平。现在微软、阿里巴巴、科大讯飞和哈工大的系统，都超越了人工的标注水平，这标志着阅读理解技术进入了一个新的阶段。这几个系统都来自中国，也体现中国在自然语言处理的进步。

一个阅读理解的框架首先要得到每个词的语义表示，再得到每个句子的语义表示，这可以用循环神经网络 RNN 来实现，然后用特定路径来找出潜在答案，基于这个答案再筛选出最优的答案，最后确定这个答案的边界。在做阅读理解的时候，是用到了外部的知识，可以用大规模的语料来训练外部的知识，通过外部知识训练的 RNN 模型，加入到原来端到端的训练结果中，以此来大幅度地提高阅读理解的能力。

最后介绍机器创作，机器可以做很多理性的东西，那么它可以做一些创造性的东西吗？10 年以前，我们就开始做微软对联，在此基础上，创作绝句、律诗、唐诗宋词等等，现在进行写歌谱曲。在微软对联里，用户输入上联，系统就可以对出下联，也可以给出横批；在字谜游戏里，用户给出谜面，让系统猜出字；或系统给出谜面让用户猜出字。

我们的编码解码技术已经成功用于神经网络机器翻译、小冰机器人和词曲创作中。中央电视台《机智过人》节目就曾播过我们的小冰与人类选手进行词曲创作比拼的环节，结果是小冰险胜人类。这件事说明如果有大数据，那么机器学习或者深度学习就可以模拟人类的创造智能，创造出一些作品来，也可以与专家合作，帮助专家产生更好的想法，然后两者配合，产生出美妙的音乐。

这个在以前是难以想象的，做自然语言的人从来没有想到自然语言还可以延伸到音乐上去，其实音乐也是一种语言，自然语言的所有技术就可以应用到音乐上去，这需要大家的想象力。

今天我快速介绍了自然语言处理在神经机器翻译、阅读理解、聊天机器人以及机器创作领域的进展。随着未来大数据、云计算和深度学习的发展，模型还会进一步地提升，再加上合适的场景，技术就可以落地，就可以服务于成千上万的用户。可以预料，随着自然语言处理技术的提高与普及，它将会与其他的人工智能技术一起提升人类的生活水平。

雷锋网延伸阅读：

专访MSRA副院长周明：中国NLP如何跻身世界顶尖水平？

微软副院长周明：NLP目前存在的问题、以及未来的发展方向

版权文章，未经授权禁止转载。详情见转载须知。

副院长周明：四大研究领域揭示自然语言技术的奥秘

谷普下载提醒您

本文链接：http://www.gpxz.com/article/f5aa9d52f92cd46191e0.html

上一篇：一个核心深度贯彻落实清华大学人工智能研究

下一篇：追寻大师的脚步追寻大师的足迹

联想开放平台

网络应用 2023-08-11 20:59:56

厂房出租

产业园区招商推广平台，产业生态运营商、厂房租售信息服务平台，提供专业的厂房出租、厂房出售、仓库出租、写字楼出租、土地出售、产业园区招商信息，免费帮你找厂房，提供一站式产业园区招商策划推广服务。

商业服务 2024-09-15 00:05:57

美容整形网站导航大全

LOL网址导航网是专业的上网导航网站,精心收录各类优质热门网站信息,同时提供天气、快递、违章等各种生活便民查询工具网址,为您提供安全便捷的上网导航服务,现已被众多网友设为上网主页,网址导航大全首选LOL网址导航.

网站模板 2024-08-16 22:40:40

比熊网

比熊网为大家提供基金股票财经等综合资讯

新闻资讯 2024-07-11 13:29:56

首页

宽带发展联盟

电影视频 2024-07-07 12:01:50

气体防爆改造/粉尘防爆改造/设备防爆安装及改造

安徽金达防爆电气有限公司为二工防爆子公司，座落于中国-安徽-蚌埠，是一家集开发、生产、销售、安装、服务为一体的专业防爆公司，专业生产厂用防爆配电箱、防爆正压柜、防爆接线箱、防爆仪表箱、防爆操作柱、防爆冰箱、防爆冷风机、防爆油汀、防爆仪表柜、不锈钢防爆箱等产品。

编程开发 2024-07-14 18:59:45

回收商网

回收商网是提供废旧物资、二手设备、废金属、废塑料、废纸回收、废品回收的再生资源产业综合服务平台，是回收商人的网上助手，回收生意的利器。回收商网还提供：废塑料、废金属、废铁、废钢、废铜每日价格行情报价，废旧物资、二手设备拍卖等，回收商网不但拥有海量供求、拍卖信息，而且还具有完善的会员体系，使商户在网络大潮中运筹帷幄。做二手设备、废旧物资，就选回收商网。

网络应用 2024-08-18 13:13:26

在线糖锤度计

商业服务 2024-08-18 17:11:21

洋甘菊油

吉水县聚源堂天然香料油有限公司（www.jxjuyuantang.com）是洋甘菊油，丁香罗勒油现货供应商。

电影视频 2024-11-13 09:16:32

河北三龙起重机械有限公司

CKCMS是一款基于ThinkPHP5+AdminLTE的内容管理系统。后台界面采用响应式布局，清爽、极简、简单、易用，是做开发的最佳选择。

编程开发 2024-11-22 23:27:22

乐清昊洋网络科技有限公司

网络应用 2024-11-26 20:47:48

食品商务网

食品商务网是食品行业企业间（B2B)网上电子商务平台。网站汇聚海量食品相关产品批发、行业资讯、行业标准法规则等信息。网站定位食品全产业链，为包括农产品、食品原料、食品工业、食品添加剂、食品机械等在内的企业提供服务,助力食品工业发展。

新闻资讯 2024-12-09 16:46:07

如何加盟温氏养鸡 (如何加盟温氏集团养猪)

每个人都有创业的梦想，但是面对众多的项目让人很难抉择，近年来养殖业比较发达，引起很多人的关注，现在的养殖都是采用规模化和自动化的模式，可以节省不多的人工，而且成功几率也非常地多，获取钱财的速度也比较快，温氏养鸡是我国智能养殖的开拓者，采取的是公司，农户的全新模式，全国的养殖农户已经超过5万，还在进行规模的扩大，销售额在逐步地提升，那么...。

2024-12-21 22:15:17

为什么说7nm是物理极限突破制程工艺美国的1nm是什么概念 (为什么说7年白茶是宝)

适用了20余年的摩尔定律近年逐渐有了失灵的迹象，从芯片的制造来看，7nm就是硅材料芯片的物理极限，不过据外媒报道，劳伦斯伯克利国家实验室的一个团队打破了物理极限，采用碳纳米管复合材料将现有最精尖的晶体管制程从14nm缩减到了1nm，那么，为何说7nm就是硅材料芯片的物理极限，碳纳米管复合材料又是怎么一回事呢，面对美国的技术突破，中国应...。

2024-12-09 14:32:10

渠道业绩目标13亿独家丨2024年天翼云全年业绩目标1300亿 (渠道业绩目标分析)

独家获悉，多位业内人士透露，天翼云已将2024年业绩目标定为1300亿元，相较于2023年的1000亿元业绩目标，同比增长30%，这一目标的实现将进一步巩固天翼云在市场上的快速增长态势，并巩固其在全球运营商云领域的地位，同时，天翼云还制定了渠道业绩目标，力争在2024年实现13亿元的渠道业绩，相较于2023年的5亿元渠道业绩目标...。

2024-11-30 23:56:38

实践洞察在线教育直播技术升级空中课堂从黄冈中学 (实践-17)

2020年10月23日至25日，第78届中国教育装备展示会在山城重庆召开，教育行业的这一盛会已经连续举办了77届，今年受疫情的影响，在线教育规模突飞猛进，不管是公立学校还是校外培训机构，都经历了线上教学的洗礼，教育信息化迎来了前所未有的发展，为今年的教育装备展赋予了特别的意义，教育智能设备悉数亮相，5G、AI、大数据等技术与教育的深度...。

2024-11-30 16:26:25

明基i780投影仪怎么样全面了解明基i780参数配置如何 (明基i780值得入手吗)

发表在明基投影仪2022，10，2409，54明基i780是一款4K家用投影设备，拥有出色的画质以及性能配置，具体明基i780投影仪怎么样呢，下面就通过详细的参数配置进行分析，看看明基i780投影仪有什么特点，家用效果如何，明基i780投影仪怎么样，1.光学参数在画面亮度方面，明基i780采用优质汞灯光源，实际亮度达到3200ISO流...。

2024-11-29 02:30:10

当贝X5Ultra用什么幕布最好?当贝X5Ultra适合哪些幕布 (当贝X5Ultra和明基tk860)

发表在当贝投影仪2024，2，713，07当贝X5Ultra是采用高端ALPD5.0超级全色激光技术的投影仪，拥有强大的性能和超强的亮度，那么当贝X5Ultra配什么幕布好呢，下面就来详细了解一下，看看当贝X5Ultra用什么幕布合适，使用哪些幕布会有更好的效果，一、当贝X5Ultra用什么幕布最好当贝X5Ultra用菲涅尔抗光幕布更...。

2024-11-28 15:39:12

多不要钱司机未尽工作

咱们预订了逆风车服务，车辆为车牌号为浙EDH2916的比亚迪新动力电车，上车后，司机说自己从昨天下午四点开局未劳动，并问咱们能否会开车，由于咱们是两位女生，面对男子司机比拟惧怕，又恐怖司机疲劳驾驶，过后赞同了乘客自己开车，司机也跟咱们说，平台会录音，别大声谈话，从临海市上高速，到海盐县下高速，抵达目标地，将近三个小时的途程，都由乘客自...。

2024-07-17 01:53:32

坐滩或致仁爱礁陆地环境劫难性结果吴士存军舰采取措施再不对菲律宾合法

华阳陆地钻研核心、中国南海钻研院和中国国内法学会7月11日在京联结发布了，南海仲裁案判决再批驳，报告，所谓，南海仲裁案判决，出台距今已有8年，报告重申了中国对仲裁案以及仲裁判决的立场，强调中国政府不会抵赖仲裁庭作出的合法判决，也不会接受任何基于判决的主张和执行，近日，中方发布，仁爱礁合法，坐滩，军舰破坏珊瑚礁生态系统考查报告，黄岩岛...。

2024-07-13 17:32:21

97年的日历6.3 农历是多少 (97年的日历表全年)

公历[1997年06月03日]=农历[1997年04月28日]1997年的第23周丁丑[牛]年乙巳月丙子日1997年7月2日农历是多少1997年五月二十八，依据日历消息查问可知，1997年7月2日农历是1997年五月二十八，农历是中国传统历法，它依据月相的变动周期，每一次性月相朔望变动为一个月；并把一个太阳回归年划分为24段，构成二十...。

2024-07-09 13:55:21

三星半导体全球分拨中心项目封顶，计划明年5月底交付使用-IT业界

三星半导体的全球分拨中心项目已于2023年10月31日提前5天完成结构封顶，这是本站于11月2日获悉的消息苏州工业园区高端制造与国际贸易区消息显示，三星半导体全球分拨中心项目是苏州自贸片区重要的物流旗舰项目，该项目占地40亩，建筑面积约2万平方米。三星（中国）半导体有限公司2012年落户西安高新区，是中国改革开放以来引进的单笔投资额最大的外商投资项目之一，项目总投资超过270亿美元（本站备注：当前约1976.4亿元人民币）。三星官方表示，他们对中国市场充满信心，并将继续在中国投资。据其透露，三星

2023-11-03 12:33:03

【Realtek高清晰音频管理器下载】2022年最新官方正式版Realtek高清晰音频管理器免费下载

腾讯软件中心提供2022年最新2.79官方正式版Realtek高清晰音频管理器高速下载，本正式版Realtek高清晰音频管理器软件安全认证，免费无插件。

2023-09-19 01:30:47

火星在吱吱作响，又一场战争要爆发了？|亚美尼亚|阿塞拜疆|土耳其|俄罗斯|纳卡

火星在吱吱作响，又一场战争要爆发了？,火星,亚美尼亚,阿塞拜疆,土耳其,俄罗斯,纳卡

2023-09-02 16:50:00

文章推荐

人气凉屋游戏有哪些凉屋游戏下载推荐2022 (人气凉屋游戏怎么玩)

随着时代的更替，游戏市场不再由腾讯、网易二分天下，一些优秀的小游戏厂商如雨后般春笋冒了出来，凉屋便是其中之一，那凉屋游戏下载推荐2022呢，这个厂商的游戏一直都是那种小而精的类型，十分有趣耐玩，接下来就让小编来为大家带来几款好玩的该厂商游戏吧！1、，元气骑士，游戏中你将扮演一位受国王委托前去拯救公主的骑士，在地牢中你将遇到许多的怪物，...。

2025-02-09 23:36:21

资讯动态

网剧大清洗腾讯视频百余部网剧被下架 (《大清洗》)

广电又开始新一轮的，大清洗，?近日，腾讯视频PGC影视组公布对107不网剧下架的重要通知，通知称凡是没有在片头添加网络试听节目信息备案编号的网剧都不满足网络试听节目上线条件，不具有公开传播的合法权利，遂将其下架处理，业内人士分析称，广电对网剧一次次的，大清洗，，给内容制作者敲了警钟，网生内容的野蛮式生长将要结束，107部网剧的集体下架...。

2025-01-30 22:58:00

网络百科

北京实现5G独立组网全覆盖 (北京实现碳达峰)

9月9日，工信部网站发出一条消息，指明了目前北京市的5G建设进度，数据显示，截至今年8月底，北京全市累计开通5G基站4.4万个，预计2020年底将超过5万个，实现五环内和城市副中心室外连续覆盖，五环外重点区域、典型应用场景精准覆盖，目前，北京市的5G用户数达到506万户；三家运营企业累计与有关垂直行业合作项目超过1000个，在全国处于...。

2024-12-01 00:47:07

资讯动态

To 腾讯的产业互联网之路将如何走 B迎来暖春 (腾讯tob产品)

作者丨何思思编辑丨周蕾1994年，中国第一次连接国际互联网开始，我们就顺利地迈入了互联网时代，经历了从四大门户到搜索、从从搜索到社交化网络、PC互联网到移动互联网三大阶段，纵观三大发展阶段，我们可以清晰地看出互联网的服务群体大多是C端用户，也就是我们所说的消费互联网，但如今，消费互联网逐渐向产业互联网转变，并呈现不可逆转之势向前发展，...。

2024-12-01 00:16:17

资讯动态

犯罪份子将需承担什么法律责任用生理盐水制作假新冠疫苗被抓 (犯罪需要)

犯罪分子索要承担的责任是比较重的，肯定被判刑，根据中华人民共和国刑法第140条，生产销售假冒伪劣产品，以假充好，不合格产品，销售额度满5万元以上不满20万元的会被判处两年以下有期徒刑并处罚金，如果销售额达到了200万元以上，有可能会被判处15年有期徒刑，甚至有可能会被判处无期徒刑，严重的还要没收财产，对于这个疫苗用生理盐水制作的，本身...。

2024-11-29 18:55:23

资讯动态

四大研究领域揭示自然语言技术的奥秘 MSRA副院长周明博士 (四大研究领域是什么)

相关文章

文章推荐