知识图谱 搜狗同传3.0 引入视觉能力 构建语境引擎 (知识图谱搜索功能)

文章编号:46591 资讯动态 2024-12-10 AI知识图谱同传

2019年,距李世石与AlphGO的“人机大战”已有三年,似乎没有人再怀疑,在“下棋”这件事儿上,人类确实已经输给了AI,人类与AI下一个较量会在哪里?

同传(同声传译)将很可能是下一个面临挑战的应用场景。

12月21日,基于语境引擎的搜狗同传3.0以多模态和自主学习为核心,加入视觉和思维能力,这是AI同传在加入诸如视觉AI、知识图谱等能力后的再度进化。

从人到机器:困于行业知识的AI同传,破局定制化难题

多模态同传,顾名思义,聚合多种交互形式实现同传的能力。

据雷锋网了解,搜狗在多模态领域的探索和应用早已有之,包括此前在AI合成主播上的应用,结合了语音、唇语、表情动作等交互形式,最终形成的AI合成主播参与了2019年全国的两会报道,甚至还走出国门,与阿布扎比媒体集团达成合作,将推出全球首个阿拉伯语AI合成主播。

什么经过两代迭代后,搜狗会在同传系统中引入图像识别的能力?

这要从搜狗此前两代同传系统,以及此前对数千场会议的同传支持的痛苦经历上谈起。

2016年,搜狗在「第三届乌镇互联网大会」上发布了行业第一个商用AI同传产品——搜狗同传1.0。这是搜狗同传的第一代产品,同时也是搜狗进入同传这一领域的第一次商业尝试。

“1.0阶段我们提供的是通用的同传能力,在实际应用过程中遇到的最大的问题是:每一位讲者在演讲时的背景信息和语义信息不一样,可能今天我们需要支持医疗会议,明天需要支持航空会议,我们很难获取这类专业会议的‘语义词’。”

回看最初的搜狗同传1.0时,搜狗AI交互技术部总经理陈伟认为当时实际应用中遇到最大的问题是难以获取各专业领域的“语义词”,这也影响了最初这一产品的识别及翻译的准确度。

如何获取这些专业的“语义词”,以此来训练专用的模型,改进通用的1.0版本?

这是搜狗同传研发团队当时在进行版本迭代时主要考虑的问题,也是最终搜狗同传2.0试图去解决的问题。

这也就有了2018年发布的搜狗同传2.0的几点重要能力的升级:通过行业深度定制和专属模型训练(例如事先上传演讲稿或给出重点词汇进行训练),输出行业方案。

“在迭代到2.0版本后,我们一般会投很多人针对演讲者要讲的内容做优化,但是我们往往很难拿到演讲稿,所以只能在网上找与这个人相关的背景知识,以前讲过的内容,基于此做模型优化。”

尽管2.0版本考虑到了专业化内容的优化,但是在具体应用过程中,由于难以会前获取实际演讲者的演讲内容,并未能用这些专业内容进行定制模型优化。

其实在这样的升级迭代过程中,搜狗同传的通用能力从2016年的搜狗同传1.0到2018年搜狗同传2.0已经有了明显的提升,“但是就通用能力和个性化能力上,在嘉宾演讲的PPT内容的识别和翻译效果仍有较大提升空间,这是一定存在的。”

也因此,搜狗仍在继续优化个性化能力,也就是搜狗同传的定制化能力,“我们希望让机器自己定制一个好的语境。”

这样的能力最终在搜狗同传3.0上得以实现。

同传3.0:引入视觉能力+知识图谱,构建语境引擎10011814_59607.jpg" loading="lazy">

搜狗同传3.0:引入视觉能力、知识图谱,构建语境引擎

12月21日,基于语境引擎的搜狗同传3.0以多模态和自主学习为核心,加入视觉和思维能力,这是AI同传在加入诸如视觉AI、知识图谱等能力后的再度进化。

据陈伟介绍,搜狗同传3.0相对于上一代产品主要有三方面能力的提升:

“语境引擎能够真正做到对PPT内容的理解和推理,”陈伟点出搜狗同传3.0的核心能力所在。

具体搜狗同传3.0技术框图如下图所示:

同传3.0:引入视觉能力+知识图谱,构建语境引擎

从搜狗同传3.0技术框图中可以看到,语境引擎主要由「PPT文本理解」和「搜狗知识图谱」两部分组成。

语境引擎整个工作过程具体可以理解为:

这其中,搜狗还在同传系统中加入了识别翻译协同模块,对翻译模型的输入文本进行优化,这一模块的作用在两次迭代中也从最初、最基本的标点断句,逐渐升级为拥有标点断句、文本顺滑、语义单元三大能力。

在这个过程中,搜狗的机器翻译模块也从1.0系统的RNN模型、2.0系统的Transformer模型,升级为3.0多模态翻译系统,3.0系统是在Transformer模型基础上,将搜狗百科知识图谱和翻译历史融合到翻译系统中,并实现了流式解码。

据搜狗官方公布信息来看,通过构建语境引擎升级后的搜狗同传3.0系统的实测数据如下图所示:

同传3.0:引入视觉能力+知识图谱,构建语境引擎

这样现场识别PPT内容,结合搜狗百度百科知识图谱,构建语境引擎,是否对算力和硬件有特殊要求呢?

陈伟解释称,现场做PPT内容识别的时候可以直接通过截屏(本机播放PPT)或笔记本电脑上的摄像头来完成,语音训练用英伟达常规的P40或V100进行训练,训练推理方面没有额外增加负担。

AI同传尚难取代人类同传,多模态成趋势

引入视觉能力、加入知识图谱后的搜狗同传3.0,能够完全取代人类同传吗?

据搜狗官方在发布会上公布的信息显示:

在实际测评中,搜狗同传3.0的评测得分为3.82分,人工同传的评测得分为4.08分。

同传3.0:引入视觉能力+知识图谱,构建语境引擎

显然,就目前而言,AI同传还无法完全取代人类同传。

就此,陈伟也指出,

回归到语言本身时,各类传感器越来越多,设备能够收集到的数据及数据种类越来越多,亦即越来越多的多模态数据逐渐可以获得,当有了多模态数据后,相关模型和算法也逐渐开始受到业界所关注。

“但是大家一开始还是把多模态这件事想得太简单了,多模态的实现过程不是简单把模态融合在一起,从我们这些年在上面的认知来看,是一个蛮复杂的过程。”

当提到搜狗在多模态语音方面的技术发展,陈伟表示:

“我们是第一个在技术上主张多模态的公司,此次搜狗同传3.0也是从语音跨到了多模态,在这种多模态下将我们对于知识的理解、对语音的理解放进去,我们的同传就也开始具备一定的认知能力。”

“我们公司的终极目标是走向做VPA,即一个软件形态的AI助理,可能以硬件为载体,也可能放在搜狗输入法、搜狗的搜索引擎上。搜狗VPA的形态,是一个任务导向,中间会看到以对话为主的形象。同传这个场景下,我认为搜狗同传就是一种形态的VPA,是具备了同传能力的VPA,它可以与人做同传交互。”

原创文章,未经授权禁止转载。详情见 转载须知 。

全局中部横幅
DJB加速度计

DJB加速度计,振动检测,振动监测

潍坊昊威工程机械有限公司

网站首页-潍坊昊威工程机械有限公司

半夏小说吧

半夏小说吧是广大书友最值得收藏的网络小说阅读网,网站收录了当前最火热的网络小说,免费提供高质量的小说最新章节,是广大网络小说爱好者必备的小说阅读网。

远东电缆有限公司

远东电缆有限公司前身创建于1985年,地处长三角经济圈中心的千年陶都宜兴市,是中国综合实力位居前列的电线电缆制造企业,远东智慧能源股份有限公司股票代码:600869全资子公司。远东电缆荣获全国质量奖,是行业全国质量诚信企业,品牌价值达898.98亿元。

机器视觉

盈泰德科技是一家专注于机器视觉检测设备及视觉检测系统方案的集成商,提供机器视觉自动化检测技术、深度学习AI检测、3D视觉检测、视觉定位、视觉对位、尺寸测量、缺陷检测、印刷检测、非标检测、品检机、光学筛选机、机器视觉算法与研发应用等机器视觉领域的解决方案。

iso9001体系认证机构

iso认证中心是iso9001体系认证机构,为客户提供iso9001认证咨询服务。许多客户有疑问:iso9001认证机构哪家好?iiso质量认证机构咨询?iso咨询公司?iso9001认证费用一般是多少钱?iso27001认证多少钱?iso认证费用?中科企服帮您解答。iso9001体系认证机构,iso认证选中科企服iso认证中心。

智能机器人科技

汝岩(上海)自动化科技有限公司主营业务包含:非标自动化设备的研发.设计.生产.销售以及售后服务于一体的高新技术企业。配套提供工装夹具、智能机器人、各类检测设备、自动化生产线等。公司恪守诚信,创新,务实,服务的宗旨,奉行以人为本,科技先行,质量至上,追求卓越的经营理念,如有产品需求,欢迎致电:18217283091

搜索信息流广告开户代运营公司

纽问网络营销(18503873017)是一家给企业提供各大平台搜索广告和信息流广告开户和代运营的公司,还提供的有程序开发和整合营销业务,为企业提供全流程的营销推广解决方案!

代开工资流水

本地代开工资流水服务商【电/微:186-7711-6696】提供代开入职薪资流水、企业对公流水、银行流水打印,业务覆盖北京、广州、上海、深圳、杭州、南京、济南、成都、昆明、沈阳、武汉、长沙、重庆、天津、郑州、长春、西安、合肥、太原、福州、南宁、南昌、石家庄、青岛、大连、珠海、银川、西宁、哈尔滨、乌鲁木齐、贵阳、兰州等城市.

南通神威锻压机床有限公司

南通神威锻压机床有限公司主要产品C41-40kg~2000kg系列空气锤、小型台式压力机及型号的有轨旋转式锻造操作机、出料机,规格的四柱液压机,辊式系列楔横轧机等,咨询热线13901476914,欢迎光临惠顾!

全局底部横幅