知识图谱搜狗同传3.0 引入视觉能力构建语境引擎 (知识图谱搜索功能)

文章编号：46591 资讯动态 2024-12-10 AI 知识图谱同传

2019年，距李世石与AlphGO的“人机大战”已有三年，似乎没有人再怀疑，在“下棋”这件事儿上，人类确实已经输给了AI，人类与AI下一个较量会在哪里？

同传（同声传译）将很可能是下一个面临挑战的应用场景。

12月21日，基于语境引擎的搜狗同传3.0以多模态和自主学习为核心，加入视觉和思维能力，这是AI同传在加入诸如视觉AI、知识图谱等能力后的再度进化。

从人到机器：困于行业知识的AI同传，破局定制化难题

多模态同传，顾名思义，聚合多种交互形式实现同传的能力。

据雷锋网了解，搜狗在多模态领域的探索和应用早已有之，包括此前在AI合成主播上的应用，结合了语音、唇语、表情动作等交互形式，最终形成的AI合成主播参与了2019年全国的两会报道，甚至还走出国门，与阿布扎比媒体集团达成合作，将推出全球首个阿拉伯语AI合成主播。

为什么经过两代迭代后，搜狗会在同传系统中引入图像识别的能力？

这要从搜狗此前两代同传系统，以及此前对数千场会议的同传支持的痛苦经历上谈起。

2016年，搜狗在「第三届乌镇互联网大会」上发布了行业第一个商用AI同传产品——搜狗同传1.0。这是搜狗同传的第一代产品，同时也是搜狗进入同传这一领域的第一次商业尝试。

“1.0阶段我们提供的是通用的同传能力，在实际应用过程中遇到的最大的问题是：每一位讲者在演讲时的背景信息和语义信息不一样，可能今天我们需要支持医疗会议，明天需要支持航空会议，我们很难获取这类专业会议的‘语义词’。”

回看最初的搜狗同传1.0时，搜狗AI交互技术部总经理陈伟认为当时实际应用中遇到最大的问题是难以获取各专业领域的“语义词”，这也影响了最初这一产品的识别及翻译的准确度。

如何获取这些专业的“语义词”，以此来训练专用的模型，改进通用的1.0版本？

这是搜狗同传研发团队当时在进行版本迭代时主要考虑的问题，也是最终搜狗同传2.0试图去解决的问题。

这也就有了2018年发布的搜狗同传2.0的几点重要能力的升级：通过行业深度定制和专属模型训练（例如事先上传演讲稿或给出重点词汇进行训练），输出行业方案。

“在迭代到2.0版本后，我们一般会投很多人针对演讲者要讲的内容做优化，但是我们往往很难拿到演讲稿，所以只能在网上找与这个人相关的背景知识，以前讲过的内容，基于此做模型优化。”

尽管2.0版本考虑到了专业化内容的优化，但是在具体应用过程中，由于难以会前获取实际演讲者的演讲内容，并未能用这些专业内容进行定制模型优化。

其实在这样的升级迭代过程中，搜狗同传的通用能力从2016年的搜狗同传1.0到2018年搜狗同传2.0已经有了明显的提升，“但是就通用能力和个性化能力上，在嘉宾演讲的PPT内容的识别和翻译效果仍有较大提升空间，这是一定存在的。”

也因此，搜狗仍在继续优化个性化能力，也就是搜狗同传的定制化能力，“我们希望让机器自己定制一个好的语境。”

这样的能力最终在搜狗同传3.0上得以实现。

同传3.0：引入视觉能力+知识图谱，构建语境引擎 10011814_59607.jpg" loading="lazy">

搜狗同传3.0：引入视觉能力、知识图谱，构建语境引擎

据陈伟介绍，搜狗同传3.0相对于上一代产品主要有三方面能力的提升：

“语境引擎能够真正做到对PPT内容的理解和推理，”陈伟点出搜狗同传3.0的核心能力所在。

具体搜狗同传3.0技术框图如下图所示：

同传3.0：引入视觉能力+知识图谱，构建语境引擎

从搜狗同传3.0技术框图中可以看到，语境引擎主要由「PPT文本理解」和「搜狗知识图谱」两部分组成。

语境引擎整个工作过程具体可以理解为：

这其中，搜狗还在同传系统中加入了识别翻译协同模块，对翻译模型的输入文本进行优化，这一模块的作用在两次迭代中也从最初、最基本的标点断句，逐渐升级为拥有标点断句、文本顺滑、语义单元三大能力。

在这个过程中，搜狗的机器翻译模块也从1.0系统的RNN模型、2.0系统的Transformer模型，升级为3.0多模态翻译系统，3.0系统是在Transformer模型基础上，将搜狗百科知识图谱和翻译历史融合到翻译系统中，并实现了流式解码。

据搜狗官方公布信息来看，通过构建语境引擎升级后的搜狗同传3.0系统的实测数据如下图所示：

同传3.0：引入视觉能力+知识图谱，构建语境引擎

这样现场识别PPT内容，结合搜狗百度百科知识图谱，构建语境引擎，是否对算力和硬件有特殊要求呢？

陈伟解释称，现场做PPT内容识别的时候可以直接通过截屏（本机播放PPT）或笔记本电脑上的摄像头来完成，语音训练用英伟达常规的P40或V100进行训练，训练推理方面没有额外增加负担。

AI同传尚难取代人类同传，多模态成趋势

引入视觉能力、加入知识图谱后的搜狗同传3.0，能够完全取代人类同传吗？

据搜狗官方在发布会上公布的信息显示：

在实际测评中，搜狗同传3.0的评测得分为3.82分，人工同传的评测得分为4.08分。

同传3.0：引入视觉能力+知识图谱，构建语境引擎

显然，就目前而言，AI同传还无法完全取代人类同传。

就此，陈伟也指出，

回归到语言本身时，各类传感器越来越多，设备能够收集到的数据及数据种类越来越多，亦即越来越多的多模态数据逐渐可以获得，当有了多模态数据后，相关模型和算法也逐渐开始受到业界所关注。

“但是大家一开始还是把多模态这件事想得太简单了，多模态的实现过程不是简单把模态融合在一起，从我们这些年在上面的认知来看，是一个蛮复杂的过程。”

当提到搜狗在多模态语音方面的技术发展，陈伟表示：

“我们是第一个在技术上主张多模态的公司，此次搜狗同传3.0也是从语音跨到了多模态，在这种多模态下将我们对于知识的理解、对语音的理解放进去，我们的同传就也开始具备一定的认知能力。”

“我们公司的终极目标是走向做VPA，即一个软件形态的AI助理，可能以硬件为载体，也可能放在搜狗输入法、搜狗的搜索引擎上。搜狗VPA的形态，是一个任务导向，中间会看到以对话为主的形象。同传这个场景下，我认为搜狗同传就是一种形态的VPA，是具备了同传能力的VPA，它可以与人做同传交互。”

原创文章，未经授权禁止转载。详情见转载须知。

谷普下载提醒您

本文链接：http://www.gpxz.com/article/50477676b6c08dae9c76.html

上一篇：能听会看会思考AI同传首次实现搜狗同传30上

下一篇：2019展现领域新突破深度学习浪潮下的自然语

- 空间 - 网盘/存储网址大全--123网址之家

-空间-网盘/存储网址

网址导航 2024-07-06 19:41:40

DJB加速度计

DJB加速度计，振动检测，振动监测

电影视频 2024-08-17 00:46:39

潍坊昊威工程机械有限公司

网站首页-潍坊昊威工程机械有限公司

网站模板 2024-07-14 00:48:01

半夏小说吧

半夏小说吧是广大书友最值得收藏的网络小说阅读网，网站收录了当前最火热的网络小说，免费提供高质量的小说最新章节，是广大网络小说爱好者必备的小说阅读网。

小说阅读 2024-08-07 00:54:47

远东电缆有限公司

远东电缆有限公司前身创建于1985年，地处长三角经济圈中心的千年陶都宜兴市，是中国综合实力位居前列的电线电缆制造企业，远东智慧能源股份有限公司股票代码：600869全资子公司。远东电缆荣获全国质量奖，是行业全国质量诚信企业，品牌价值达898.98亿元。

企业品牌 2024-07-17 05:07:46

机器视觉

盈泰德科技是一家专注于机器视觉检测设备及视觉检测系统方案的集成商，提供机器视觉自动化检测技术、深度学习AI检测、3D视觉检测、视觉定位、视觉对位、尺寸测量、缺陷检测、印刷检测、非标检测、品检机、光学筛选机、机器视觉算法与研发应用等机器视觉领域的解决方案。

网络应用 2024-11-20 18:07:12

iso9001体系认证机构

iso认证中心是iso9001体系认证机构，为客户提供iso9001认证咨询服务。许多客户有疑问：iso9001认证机构哪家好？iiso质量认证机构咨询？iso咨询公司？iso9001认证费用一般是多少钱？iso27001认证多少钱？iso认证费用？中科企服帮您解答。iso9001体系认证机构，iso认证选中科企服iso认证中心。

商业服务 2024-11-21 18:23:26

山东新超意智能机械

电影视频 2024-11-24 17:07:20

智能机器人科技

汝岩（上海）自动化科技有限公司主营业务包含:非标自动化设备的研发.设计.生产.销售以及售后服务于一体的高新技术企业。配套提供工装夹具、智能机器人、各类检测设备、自动化生产线等。公司恪守诚信,创新,务实,服务的宗旨,奉行以人为本,科技先行,质量至上,追求卓越的经营理念,如有产品需求,欢迎致电:18217283091

设计美化 2024-11-26 21:25:27

搜索信息流广告开户代运营公司

纽问网络营销(18503873017)是一家给企业提供各大平台搜索广告和信息流广告开户和代运营的公司，还提供的有程序开发和整合营销业务，为企业提供全流程的营销推广解决方案！

网络应用 2024-12-01 01:19:18

代开工资流水

本地代开工资流水服务商【电/微:186-7711-6696】提供代开入职薪资流水、企业对公流水、银行流水打印,业务覆盖北京、广州、上海、深圳、杭州、南京、济南、成都、昆明、沈阳、武汉、长沙、重庆、天津、郑州、长春、西安、合肥、太原、福州、南宁、南昌、石家庄、青岛、大连、珠海、银川、西宁、哈尔滨、乌鲁木齐、贵阳、兰州等城市.

商业服务 2024-12-03 00:22:20

南通神威锻压机床有限公司

南通神威锻压机床有限公司主要产品C41-40kg~2000kg系列空气锤、小型台式压力机及型号的有轨旋转式锻造操作机、出料机，规格的四柱液压机，辊式系列楔横轧机等，咨询热线13901476914，欢迎光临惠顾！

管理咨询 2024-12-09 21:27:25

2024Q1 AI 财报爱奇艺成为新亮点创新高 ARM (2024Q1是什么意思)

5月16日，爱奇艺发布截至2024年3月31日未经审计的第一季度财报，一季度，爱奇艺总营收79亿元人民币，爱奇艺Non，GAAP，非美国通用会计准则，运营利润为11亿元，运营利润率为14%，创历史新高，得益于经营效率的稳步提升，我们的运营利润和运营利润率创历史新高，生成式AI赋能运营初见成效，期待利用生成式AI提升头部内容的供给能力...。

2024-12-03 22:02:59

深睿医疗宣布完成数亿元C 获批医疗AI三类证后轮融资 (深睿医疗宣布破产了吗)

雷锋网消息，12月15日，继获批中国创新AI产品NMPA三类证后，深睿医疗宣布已完成数亿元C，轮融资，本轮融资由中关村龙门投资领投，上海联新资本等机构跟投，老股东君联资本本轮继续跟投加码，中关村龙门投资是由全国社会保障基金、北京市政府和海淀区政府共同作为基石投资人，由知名企业家和资深投资人等联合发起的市场化投资管理机构，跟投方上海联新...。

2024-11-30 20:53:44

极米H6Pro对比当贝F6区别有哪些极米H6Pro和当贝F6哪款好 (极米h6pro参数)

发表在极米投影仪2023，8，715，04极米H6Pro是最新上市的投影仪，拥有不错的性能配置，那么和当贝F6对比有什么区别呢，下面就通过详细的参数配置进行对比分析，看看极米H6Pro对比当贝F6区别有哪些，究竟哪款更值得入手，一、极米H6Pro对比当贝F6区别有哪些1.光学参数对比在光源方面，极米H6Pro采用超级混光光源，当贝F6...。

2024-11-29 02:53:10

详细对比分析小明Q2和Q1哪款值得入手小明Q2和Q1有什么区别 (详细对比分析怎么写)

发表在小明投影仪2022，8，1610，13小明Q2是最新上市的投影仪，相比前代Q1有了不少的提升，具体小明Q2提升了哪些方面呢，下面就通过详细的参数对比分析了解，看看小明Q2和Q1有什么区别，哪款投影仪更值得入手，小明Q2和Q1有什么区别，1.光学参数对比在画面亮度方面，小明Q2的实际亮度要比Q1更高一些，达到了500ANSI流明，...。

2024-11-28 19:40:03

差评 (差评回访话术)

关注新科技类资讯，同时努力于经过科普、黑幕揭发、批评维权、生产更新等模式发明更美妙的环球，其中触及金融安保、网络坑骗、隐衷走漏、物流弊病等外容屡次引发社会关注，微博年度最具影响力数码机构、科技自媒体，...。

2024-07-17 02:59:20

搜狗输入法怎样下载 (搜狗输入法怎么设置打字的时候显示出拼音)

网络输入法，作为业界上游的智能输入处置打算，仰仗其弱小的词库、智能化的组词配置和用户友好的界面设计，赢得了亿万用户的青眼，无论是手机还是电脑，网络输入法都能提供极速、准确的输入体验，如今您可以轻松下载最新版本的网络输入法，享用极致的输入新体验，最近，在Win10系统中遇到一个疑问，那就是桌面右下角的图标总是智能乱跳，或许点击之后乱动，...。

2024-07-09 00:43:42

五笔输入法字根表是什么 (五笔输入法字根表口诀更好记方法)

五笔字型字根表是支经常使用五笔字型输入法时刻按键上代表的符号，五笔字型输入法自1983年降生以来，共有三代定型版本，第一代的86版、第二代的98版和第三代的新世纪版，这三种五笔统称为王码五笔，字根表如下图，五笔字根表口诀如下，1区横起笔11G王旁青头五一提12F土士二干十寸雨13D大三肆头古石厂14S木丁西边要无女15A工戈草头右框七...。

2024-07-08 20:03:13

长安之星6363怠速不稳 (长安之星6350)

汽车进行后怠速不稳的详细要素及处置方法，1.进气歧管漏气，当不该进入进气歧管的空气、汽油蒸气和熄灭废气，混合气过浓或过稀，造成汽车怠速不稳，处置方法，审核歧管，如有漏气及时改换，2.节气门积碳过多，节气门及周围进气口积碳过多，气道截面积出现变动，使管理单元，查成交价，参配，活动政策，不可准确管理怠速进气口，也形成混合气过浓或过稀，造成...。

2024-07-06 17:32:13

帝豪rs怎样样 (帝豪rs怎样自动升降车窗玻璃)

帝豪RS是一款装备了初级奢侈外观的轿车，它联合了杰出的性能，为生产者提供了愈加温馨的驾驶体验，帝豪RS驳回了降级的外观设计，让汽车看起来愈加时兴，外观繁复慷慨，搭配上粗劣的内饰，令人蔚为大观，1、外观设计帝豪RS驳回了家族式设计，领有奢侈外观，让汽车看起来愈加时兴，它驳回了降级的外观设计，搭配上粗劣的内饰，令人蔚为大观，外部的噪音更低...。

2024-07-01 20:57:51

本田CRZ和标致RCZ哪个更好? (本田crz和ct200)

本田的是款双门混合能源小心轿车~~1.4的排量，辅佐发电机~~RCZ是1.6T的小钢炮~~这两个没法比啊~~就像你拿烧汽油的摩托车和电瓶车比一样本田CRZ什么时刻到中国上市，价钱多少呢日本或北美上市5年后就有或者在中国上市了，而且如今这车还属于概念车吧，短期间内不会上市的本田crz售价多少，什么时刻能上市，23万，往年年底上市...。

2024-07-01 18:17:39

批量被撤销，这才是大学最劝退的专业_网易数读

批量被撤销，这才是大学最劝退的专业,社会,本科,本科生,管理学,院校,管理类,高校

2023-09-02 16:49:35

延时启动软件-延时启动器下载0.4绿色版-

延时启动器,延时启动器是一款免费小巧的程序延时启动工具，主要功能可帮助您将指定的程序进行延时启动，支持启动浏览，游戏，或其他软件，同时支持让多个程序进行延时启动,您可以免费下载。

2023-08-11 17:27:05

文章推荐

大卫博士健康内裤代理价格是多少 (大卫博士健康内裤厂家地址)

内裤作为贴身衣物，要具备安全和舒适的特点，才能够赢得市场认可，现有很多可供选择的内裤品牌，大卫博士健康内裤值得大家选择，现有关注到内裤项目的创业者，选择代理大卫博士健康内裤，于是来询问大卫博士健康内裤代理价格是多少，下面介绍的内容能够帮助解答这里的疑问，现有不同地区的创业者选择代理大卫博士健康内裤，要是选择在省会城市开设一家40平米的...。

2024-12-21 20:08:26

创业加盟

K70 Redmi 至尊版解禁兰博基尼联名不按套路 (k70热点不稳定)

7月18日，RedmiK70至尊版的数据解禁，但要7月19日晚的发布会才会公布价格，现在RedmiK70至尊版的规格和测试数据都已经出来了，华为有比发布会早的开卖，小米，Redmi有比发布会早的评测，，真喺估你地唔到啊，这一代依然有兰博基尼联名的RedmiK70至尊冠军版↓规格就不复读了，直接上对比表，RedmiK70至尊版，对比...。

2024-12-02 18:00:06

手机评测

IP68 迪丽热巴代言 3999元起的骁龙8s 1.5K曲屏 3 Ultra发布 Gen X50 moto

在我们以为魅族有点过于自信的时候，moto给我们展示了什么才叫幽默，5月16日晚，motoX50Ultra发布，迪丽热巴代言，它是配置最高，也是价格最高的骁龙8sGen3手机，定价3999元起，骁龙8sGen3，LPDDR5x内存，UFS4.0闪存6.7英寸1.5K144Hz曲屏pOLED，LTPS，类DC调光，大猩猩Victus玻璃...。

2024-12-02 17:58:13

手机评测

已开始帮助超10万智能体赚钱百度文心智能体平台推出五大商业组件 (显示帮助)

11月12日，百度创始人李彦宏在百度世界2024大会上表示，智能体是AI应用最主流的形态，即将迎来爆发点，同时他还现场发布了文心智能体平台TOP100智能体，在当天下午举行的，文心智能体，新智生产力，分论坛上，百度副总裁、百度搜索总经理赵世奇发表致辞，称文心智能体平台一直坚持着，易开发、有分发、有钱赚，的三大原则，努力降低智能体开发门...。

2024-11-30 23:24:17

资讯动态

加盟艺苑美术培训学校流程 (加盟艺苑美术馆多少钱)

1、加盟咨询，浏览官方网站、电话咨询、寄发资料等方式了解信息，2、经营申请，填写经营申请表，递交公司总部，经审核给予明确答复，3、考察论证，赴总部现场参观、考察、洽谈，了解项目及合作具体事宜，4、签订合同，签订正式合同书，办理授权书，颁发授权牌，5、开店筹备，协助选址，提供店面装修方案，进行技术和营销培训，6、物流配送，由培训物流中心...。

2024-11-23 01:05:04

创业加盟

知识图谱 搜狗同传3.0 引入视觉能力 构建语境引擎 (知识图谱搜索功能)

从人到机器：困于行业知识的AI同传，破局定制化难题

搜狗同传3.0：引入视觉能力、知识图谱，构建语境引擎

AI同传尚难取代人类同传，多模态成趋势

相关文章

文章推荐

知识图谱搜狗同传3.0 引入视觉能力构建语境引擎 (知识图谱搜索功能)