知识图谱 搜狗同传3.0 引入视觉能力 构建语境引擎 (知识图谱搜索功能)

文章编号:46591 资讯动态 2024-12-10 AI知识图谱同传

2019年,距李世石与AlphGO的“人机大战”已有三年,似乎没有人再怀疑,在“下棋”这件事儿上,人类确实已经输给了AI,人类与AI下一个较量会在哪里?

同传(同声传译)将很可能是下一个面临挑战的应用场景。

12月21日,基于语境引擎的搜狗同传3.0以多模态和自主学习为核心,加入视觉和思维能力,这是AI同传在加入诸如视觉AI、知识图谱等能力后的再度进化。

从人到机器:困于行业知识的AI同传,破局定制化难题

多模态同传,顾名思义,聚合多种交互形式实现同传的能力。

据雷锋网了解,搜狗在多模态领域的探索和应用早已有之,包括此前在AI合成主播上的应用,结合了语音、唇语、表情动作等交互形式,最终形成的AI合成主播参与了2019年全国的两会报道,甚至还走出国门,与阿布扎比媒体集团达成合作,将推出全球首个阿拉伯语AI合成主播。

为什么经过两代迭代后,搜狗会在同传系统中引入图像识别的能力?

这要从搜狗此前两代同传系统,以及此前对数千场会议的同传支持的痛苦经历上谈起。

2016年,搜狗在「第三届乌镇互联网大会」上发布了行业第一个商用AI同传产品——搜狗同传1.0。这是搜狗同传的第一代产品,同时也是搜狗进入同传这一领域的第一次商业尝试。

“1.0阶段我们提供的是通用的同传能力,在实际应用过程中遇到的最大的问题是:每一位讲者在演讲时的背景信息和语义信息不一样,可能今天我们需要支持医疗会议,明天需要支持航空会议,我们很难获取这类专业会议的‘语义词’。”

回看最初的搜狗同传1.0时,搜狗AI交互技术部总经理陈伟认为当时实际应用中遇到最大的问题是难以获取各专业领域的“语义词”,这也影响了最初这一产品的识别及翻译的准确度。

如何获取这些专业的“语义词”,以此来训练专用的模型,改进通用的1.0版本?

这是搜狗同传研发团队当时在进行版本迭代时主要考虑的问题,也是最终搜狗同传2.0试图去解决的问题。

这也就有了2018年发布的搜狗同传2.0的几点重要能力的升级:通过行业深度定制和专属模型训练(例如事先上传演讲稿或给出重点词汇进行训练),输出行业方案。

“在迭代到2.0版本后,我们一般会投很多人针对演讲者要讲的内容做优化,但是我们往往很难拿到演讲稿,所以只能在网上找与这个人相关的背景知识,以前讲过的内容,基于此做模型优化。”

尽管2.0版本考虑到了专业化内容的优化,但是在具体应用过程中,由于难以会前获取实际演讲者的演讲内容,并未能用这些专业内容进行定制模型优化。

其实在这样的升级迭代过程中,搜狗同传的通用能力从2016年的搜狗同传1.0到2018年搜狗同传2.0已经有了明显的提升,“但是就通用能力和个性化能力上,在嘉宾演讲的PPT内容的识别和翻译效果仍有较大提升空间,这是一定存在的。”

也因此,搜狗仍在继续优化个性化能力,也就是搜狗同传的定制化能力,“我们希望让机器自己定制一个好的语境。”

这样的能力最终在搜狗同传3.0上得以实现。

同传3.0:引入视觉能力+知识图谱,构建语境引擎

搜狗同传3.0:引入视觉能力、知识图谱,构建语境引擎

12月21日,基于语境引擎的搜狗同传3.0以多模态和自主学习为核心,加入视觉和思维能力,这是AI同传在加入诸如视觉AI、知识图谱等能力后的再度进化。

据陈伟介绍,搜狗同传3.0相对于上一代产品主要有三方面能力的提升:

“语境引擎能够真正做到对PPT内容的理解和推理,”陈伟点出搜狗同传3.0的核心能力所在。

具体搜狗同传3.0技术框图如下图所示:

同传3.0:引入视觉能力+知识图谱,构建语境引擎

从搜狗同传3.0技术框图中可以看到,语境引擎主要由「PPT文本理解」和「搜狗知识图谱」两部分组成。

语境引擎整个工作过程具体可以理解为:

这其中,搜狗还在同传系统中加入了识别翻译协同模块,对翻译模型的输入文本进行优化,这一模块的作用在两次迭代中也从最初、最基本的标点断句,逐渐升级为拥有标点断句、文本顺滑、语义单元三大能力。

在这个过程中,搜狗的机器翻译模块也从1.0系统的RNN模型、2.0系统的Transformer模型,升级为3.0多模态翻译系统,3.0系统是在Transformer模型基础上,将搜狗百科知识图谱和翻译历史融合到翻译系统中,并实现了流式解码。

据搜狗官方公布信息来看,通过构建语境引擎升级后的搜狗同传3.0系统的实测数据如下图所示:

同传3.0:引入视觉能力+知识图谱,构建语境引擎

这样现场识别PPT内容,结合搜狗百度百科知识图谱,构建语境引擎,是否对算力和硬件有特殊要求呢?

陈伟解释称,现场做PPT内容识别的时候可以直接通过截屏(本机播放PPT)或笔记本电脑上的摄像头来完成,语音训练用英伟达常规的P40或V100进行训练,训练推理方面没有额外增加负担。

AI同传尚难取代人类同传,多模态成趋势

引入视觉能力、加入知识图谱后的搜狗同传3.0,能够完全取代人类同传吗?

据搜狗官方在发布会上公布的信息显示:

在实际测评中,搜狗同传3.0的评测得分为3.82分,人工同传的评测得分为4.08分。

同传3.0:引入视觉能力+知识图谱,构建语境引擎

显然,就目前而言,AI同传还无法完全取代人类同传。

就此,陈伟也指出,

回归到语言本身时,各类传感器越来越多,设备能够收集到的数据及数据种类越来越多,亦即越来越多的多模态数据逐渐可以获得,当有了多模态数据后,相关模型和算法也逐渐开始受到业界所关注。

“但是大家一开始还是把多模态这件事想得太简单了,多模态的实现过程不是简单把模态融合在一起,从我们这些年在上面的认知来看,是一个蛮复杂的过程。”

当提到搜狗在多模态语音方面的技术发展,陈伟表示:

“我们是第一个在技术上主张多模态的公司,此次搜狗同传3.0也是从语音跨到了多模态,在这种多模态下将我们对于知识的理解、对语音的理解放进去,我们的同传就也开始具备一定的认知能力。”

“我们公司的终极目标是走向做VPA,即一个软件形态的AI助理,可能以硬件为载体,也可能放在搜狗输入法、搜狗的搜索引擎上。搜狗VPA的形态,是一个任务导向,中间会看到以对话为主的形象。同传这个场景下,我认为搜狗同传就是一种形态的VPA,是具备了同传能力的VPA,它可以与人做同传交互。”

原创文章,未经授权禁止转载。详情见 转载须知 。

全局中部横幅
网站首页

我们提供提供店铺注册、产品的选择与定位、产品的上传,产品关键词的策划与分析、店铺整合营销,产品海外仓储物流投递,线下平台引流推广等一系列服务

万帮体育

万帮体育全方位为您提供欧洲杯、nba、五大联赛等最新体育资讯。

深圳市吉尔传动设备有限公司

深圳市吉尔传动设备有限公司是SEW赛威斜齿轮减速机,SEW电机配件,赛威SEW三相异步电机,SEW电机,SEW减速机油泵核心代理商,欢迎咨询

成语大全

乐生成语大全网_为广大网友提供成语,成语词典,字典,知识库,文学库,四字成语大全,成语大全在线查询等,是您探索和理解汉语成语的最佳平台。

新沂市华洋金属制品有限公司

江苏省新沂市华洋金属制品有限公司成立于2008年8月,注册资金200万元,现有员工150人.

螺丝库首页

工品标件网|永年镀锌厂|永年恒创镀锌厂电话|永年物流|永年物流信息电话大全|

高新财经

高新财经作为一家专注于提供金融理财、股票投资等各方面资讯和帮助的权威财经类资讯网站,我们致力于为用户提供最全面、专业的金融市场动态、理财策略和股市分析。

秉亨模具有限公司

秉亨模具有限公司是一家专业从事塑胶模具制造和塑胶加工的公司。我们拥有先进的气辅注塑技术和双色模具制造能力,为客户提供高品质的注塑工程服务。无论您需要定制模具还是进行塑胶加工,我们都能够满足您的需求。欢迎联系我们,与我们合作共创美好未来!

北京绿亨动保科技发展有限公司

北京绿亨动保科技发展有限公司是一家专业从事兽药的研究、开发、生产与推广的综合性公司,公司的领导层由一批教授与博士组成,公司以中国农业大学、农科院等高校、科研院所为技术依托,一靠科技,二靠信誉,组装市场,营销起步,开发推广一流产品,加速科研成果商品化、市场化。公司的宗旨是:把深奥复杂的农业高新技术产品以简单、明了的形式服务于中国农民。

梧桐财经网

梧桐财经网,专注财金知识科普服务网站平台,包括理财知识,股票知识,基金知识,保险知识等信息分享。

全局底部横幅