一帮不懂手语的工程师研发出了会比手语的AI主播 (不懂的手语)

文章编号:38434 资讯动态 2024-12-01 AI主播

一帮不懂手语的工程师研发出了会比手语的AI主播

雷锋网消息,5月17日,搜狗CEO王小川在搜狐科技5G&AI峰会对外发布了新一代搜狗AI合成主播——手语AI合成主播“小聪”。

作为搜狗AI合成主播经过两年多时间迭代后的新品,手语AI合成主播集成了超写实3D数字人建模、机器翻译、多模态数字人生成、迁移学习、实时面部动作生成及驱动技术。据搜狗官方信息显示,在组织的聋人可懂度测评中,搜狗手语AI合成主播可懂度达到了85%以上。

搜狗这款手语AI合成主播研发初衷是什么?

为什么有了语音识别生成字幕技术后,还要做搜狗手语AI合成主播?

搜狗手语AI合成主播与一脉相承的语音识别、AI分身在技术研发过程中又有何异同?

这些问题都在5月19日的媒体沟通会上由搜狗AI交互技术部总经理陈伟及他的团队进行了一一解答。

研发初衷:听障人士看字幕如学外语般艰辛

2018年11月,搜狗与新华社合作研发的AI合成主播正式问世,几经迭代后,在2020年5月,又与新华社联合推出了3D AI合成主播。

当时陈伟和他的团队在为搜狗为3D AI合成主播规划未来发展方向时,着重考虑了三个方面:

第一,要把3D能力做好;

第二,我们希望搜狗在“数字人”这个方向上有自己更高的技术壁垒;

第三,我们要找到有强烈需求的场景。

综合考虑场景、渠道和技术迭代中的创新后,2020年5月,手语AI合成主播在搜狗内部正式立项。

既然有字幕了,还要手语干什么?

这也是搜狗手语AI合成主播立项之初,陈伟当时需要考虑的问题。

对此,陈伟总结了三方面原因:

第一,并非所有听障人士能看懂字幕。

在我国2700万听障人士中,整体受教育程度参差不齐,有高中、大学学历的听障人士在这一群体中仍然只占非常小的比例,现在大家对字幕获取的能力还在逐渐培养中,要想让绝大部分听障人士看懂字幕还有很长的路要走。

第二, 「有字幕」这件事儿和「做手语」不是必须二选一的。

我们在了解信息、获取信息过程中必然会通过多种方式,我们自己在看电影的时候,有时候尽管中文的电影我们可能也会看字幕,大家本能的想法是我怎么能更快更高效的获取信息,他能看懂字幕更好,如果看不懂,还有手语可以提供信息。

第三,手语语言和有声语言之间是完全不同的语言体系,听障人士对有声语言的接受程度类似健听人对第二外语的接受程度。

听障人士即便学习了汉语,对他来说也是第二语言,就像我们在学习英语过程中,尽管我们学习了很长时间,但还是很难产生熟悉的感觉。

与此同时,听障人士在学习汉语的过程中其实天生是有障碍的,因为汉语或者普通话更多的是表音文字,每个字都有发音,我们之所以能够快速学习语音,是因为有语境。我们跟别人沟通的时候,沟通的前提是眼睛看着大家,看到了唇形,同时听到了声音,结合在一起是多模态的,但是听障人士在听力上天生有障碍,就少了一个因素让他更快地学习有声语言。他们之所以学手语学得快,是因为手语是视觉语言,不需要辅以声音进行理解。从这个角度来看,手语短期内不可能完全被字幕替换掉,它仍然是听障人士的主要学习方式,手语表达也更符合听障人士的习惯。

就在搜狗手语AI合成主播发布的同时,搜狗还对外发布了柳岩同款明星“数字人”。

一帮不懂手语的工程师研发出了会比手语的AI主播

据陈伟透露,柳岩同款明星“数字人”从录制到上线用了有一个月的时间,其中录制仅用了两个半天(合计一天),数据标注花了30%-40%的时间,剩下的则是技术研发和迭代用的时间。

手语AI合成主播“小聪”的技术难度要远远大于明星“数字人”。

研发历路:手语是门“视觉语言”

搜狗研发了多代AI合成主播,在语音识别技术上也积累颇丰。然而,手语AI合成主播对于搜狗而言,仍是一个全新的领域。

据陈伟介绍,搜狗在做手语AI合成主播“小聪”时,主要做了三方面工作:

「语言侧手语的研究」、「语言体系的翻译」和「表征表达」。

一帮不懂手语的工程师研发出了会比手语的AI主播

首先,在研发“小聪”过程中,搜狗最先遇到的就是手语数据库建立的问题。

搜狗开始接触手语发现了一个问题:手语语言和所有其他(有声)语言都不一样,它是一个视觉语言。

随之而来的一个问题是:“小聪”的训练数据从何而来?

陈伟解释称,手语语言如何转换成计算机语言,之前行业在做手语语言体系时并没有特别明确的做法,要么是纯语言学,要么是计算机相关背景的人根据自己的想象做手语。

在搜狗团队的认知中,手语本身是没有可记录的文字信息的,因为它本身就是视觉信息。

《国家通用手语词典》一共8000多个词,“小聪”基于《国家通用手语词典》进行健听人语言与听障者手语语言的机器翻译,在这个过程中,为了构建用于模型训练的数据库,搜狗做了三方面工作:

第一,从语序到选词,我们会考虑把健听人的语言和听障人士的语言做一个平行的翻译,这样就可以积累大量的资源,用这样的资源作为翻译系统的数据;

据陈伟透露,从翻译角度来讲,现在初步建立起来的精标数据达到几万。

其次,搜狗要考虑的第二个问题是——语言体系如何构建。

手语和汉语本质上不是一个语言体系,存在着诸多结构、表达上的差异。在这之中,“小聪”研发团队特别提到三个难点:

为此,搜狗建立了相应的语言规则尝试做相应的语序转化,通过搜狗构建数据库给算法进行训练。

为此,搜狗建立了手语到汉语之间的映射辞典,尝试去解决手语和汉语之间词汇上的差异问题。

表情、身体姿态、口动等非手控信息是搜狗在做“小聪时”遇到最大的难题,目前也在尝试通过一些建立一些表情库或存在表情标记的数据库驱动算法的设计等规则的方式来解决这一问题。

最后,搜狗还需要用这样的语言体系驱动“数字人”“小聪”完成自然连贯的手语动作、面部表情表达。

“手语翻译是一个新的话题”

陈伟一语道破研发团队立项初期的窘境。

在进行过深入研究后,陈伟发现,手语翻译是一个新的话题。

为此,陈伟请来了制定手语标准的残联及相关协会专家、教手语的手语老师、做手语推广的专业人士,由这些人组成了搜狗手语AI合成主播语言体系、产品体系、研发体系之外的智囊团作为顾问团队。

从立项之初,搜狗就一直与这一顾问团队保持着紧密联系,这也成为搜狗手语AI合成主播在技术迭代过程中不至于偏离最终用户的一个保障。

“数字人”的一个终极目标是手、嘴、表情、姿态的实时联动,完美复刻真人表达能力,这也正是手语对表达能力的需求。

据搜狗官方信息显示,“小聪”在测评中可懂度已经可以达到85%以上,能够进行有效信息传递。

对此,陈伟也向雷锋网解释:

与此同时,陈伟也指出:

原创文章,未经授权禁止转载。详情见 转载须知 。

全局中部横幅
鹅卵石制砂机

山美机器是专业的鹅卵石制砂机厂家,生产的大型VSI系列鹅卵石制砂机型号众多可满足不同产量需求,质量可靠,价格优惠!本厂可提供整套鹅卵石制砂机生产线设备报价。

中国改革开放全纪录(1978

信息库分电子库、实物库两种形式建设,以40年改革开放历程为主线,以经济体制改革为重点,同时反映政治、文化、社会、生态全面改革,突出“历史性、客观性、专业性、非营利性”的特点,构建改革领域信息化建设的重要平台、研究及宣传改革的重要平台。

侠客网

侠客网是一家专门做vps云服务器及虚拟主机优惠信息的网站,这里聚集了国内及海外、香港vps、美国vps、云主机、高防服务器、国外服务器、站群服务器、虚拟主机等IDC及云产品优惠信息。

全景网

全景网提供7X24小时专业的财经资讯报道;提供专业的网上路演服务和投资者关系互动管理;通过全景资本圈、全景商学院、WE言堂等高端交互平台打造资本圈高端人脉;专注新三板原创深度报道,为众多新三板企业实现一站式投融资对接;全景数据为资本市场提供专业的数据服务。全景网正成为覆盖媒体、路演互动、金融服务等业务的一站式资本服务平台。

4425教程网

4425教程网提供win11教程,为广大网民用户解决windows11使用途中遇到的各种问题,让小白用户也能放心更新升级win11系统。

侨大教育

广东升学考试,提供专升本,专插本,成人自考,成人大专,成人本科,艺术考试,继续教育,自考,函授,业余,电大,网络教育,学历提升服务

赣州市亿星钢材有限责任公司

赣州市亿星钢材有限责任公司(潘总:18270754930)是一家主要从事生产镀锌钢管、H型钢、工字钢,槽钢,角钢,焊接钢管,无缝钢管,焊管等产品生产批发销售的公司。有需要模具钢、H型钢、工字钢,槽钢,角钢,焊接钢管可以联系潘总。

长春汽车租赁,大客车出租,企业学校班车,旅游会议活动包车

长春租车,长春汽车出租,长春汽车租赁公司,企业班车,长春市汽车租赁,长春旅游租车,长春客车出租,长春客车租赁,长春租车公司,长春汽车租赁,长春大客车租赁

Canvas

CanvasLMS是一个基于网络的学习管理系统平台。学校机构、教育工作者和学生使用它来访问和管理在线课程学习材料,并就技能发展和学习成就进行交流。Canvas包括各种可定制的课程创建和管理工具、课程和用户分析和统计以及内部沟通工具。Canvas辅助学校管理数字式学习、教育工作者创建和展示在线学习材料并评估学生的学习情况,以及学生、家长参与课程并接收有关技能发展和学习成就的反馈。

GrowingIO

GrowingIO广告分析平台,多终端多渠道监测,数据统计精准实时,智能反作弊确保投放效果,打通广告监测数据与用户行为数据分析闭环。

全局底部横幅