思必驰俞凯 端到端与半监督语音识别的技术进展 (思必驰俞凯个人简介)

文章编号:44065 资讯动态 2024-12-09 端到端半监督学习语音识别

雷锋网按:如何低成本高效率地利用少量带标注的数据,挖掘大量语音数据中的有效信息,半监督学习正成为当下研究趋势之一。在这种趋势背景下,端到端的训练方法也正尝试结合预训练或先验知识,投入在语音识别网络的探索中。

在8月8日的ccf-GAIR 2020全球人工智能与机器人大会·前沿语音技术专场上,俞凯教授分享了端到端和半监督学习技术在语音识别问题中的最新研究思路及进展。

思必驰俞凯:端到端与半监督语音识别的技术进展 | CCF-GAIR 2020

俞教授指出,在深度学习发展以来,语音识别研究领域现在所面临的问题,除了在工程技巧和数据对接上做一些工作之外,最重要的事情是长尾的非配合语音识别。

其中,具备高效率的高精度系统和高质量的精准大数据构建是两个比较重要的进展和趋势。

一是具备高效率的高精度系统。高精度语音识别在前几年已经超过人的识别,但是高精度语音识别在长尾上仍有很多工作值得研究。很重要的一点是,现在大家的关注点由一般意义的高精度语音识别变成高效率的语音识别。如何在保持高精度的同时,还要保证系统构建和复杂度、响应速度、规模化能力和灵活性都必须同等提高,这是目前端到端语音识别引起很大兴趣的原因。

二是高质量精准大数据。大数据很有用,但有了大数据,精度就能提高吗?其实并非如此,越来越多的人发现真正的大数据应该是结构上的大,而不仅仅是数量上的大,也就是要在声学因素的分布、监督信号获取和识别系统适配方面,有高质量的精准数据。于是,也就出现了很多半监督、生成式的数据扩充方法。

何为端到端,以及为什么需要端到端?

在俞教授看来,传统的识别框架是结构不同的模型模块组成,称之为异构识别系统。首先,它本质上不是统一的参数化模型,中间需要WFST解码器,对各个模块分别建模训练;其次,声学、语言、字典等模型的类型和结构本质上完全不同,且解码器是不可缺少的连接模块信息的核心,需要构建复杂的搜索网络。

端到端识别框架不同之处在于,在大数据的背景下,能通过完整神经网络实现声学信号到识别结果的直接映射,各个组成部分是“同构”的。今天报告中谈到的端到端更多指的是,直接或简单转换后输出结果是“词序列”。

从优势上讲,端到端能够降低复杂度,减少参数量(不是声学上的减少,有神经网络语言模型的参数来描述语言空间),从而使得训练的流水线得以简化。其次,大数据资源的使用更为简单,数据驱动更为友好;此外,搜索解码速度加快,但是否真的需要构建搜索网络,俞教授指出,这项研究目前存在争议。

端到端的定义与分类

端到端主要分为两类,一类是同步框架,另一类是异步框架,主要解决语音识别的两个基本问题:分类与对齐。解决“对齐”问题通常采用的思路包括:马尔可夫模型(HMM)、标签填充、序列解码网络等方法。其中,后两种是端到端中比较常用的方法。

同步端到端框架采用的是,与输入同步逐帧输出,通过引入blank标签实现变长序列对齐;异步端到端框架采用的是,输入与输出使用两个网络分别处理,使用attention(注意力机制)解决对齐问题。

同步端到端框架最典型的就是CTC和RNN-T:前者通过引入相应的标签填充,同时在条件独立性假设上,每一帧输出之间条件独立,而后者没有条件独立性的假设。

随后,俞教授详细讨论了异步端到端存在的研究价值和争议。

俞教授表示,异步端到端最大的特点是输出与输入没有统一的时钟,是两个不同的网络。

在encoder-decoder架构上,encoder对整体输入序列提取所有信息,然后根据输出的要求再进行输出,时钟和输出标签是逐词进行的。这时,会通过attention的方式处理对齐。一般情况下,输出序列的个数会远远小于时间帧的个数,这种情况下,输出序列信息速率会远低于输入信息速率,beam搜索效率会变得很高。

不少研究指出,异步端到端的识别精度会优于同步端到端模型(上文讲到的CTC 、RNN-T),但这目前也是存在争议的。

端到端的问题与挑战

即便端到端存在一定优势,但问题在于,类似于encoder-decoder这样的架构,实时响应迟延可能会变长;同时,端到端的提出主要是在声学数据上的训练,对语言数据使用的讨论不够充分,直到最近才有一些新的工作。那么,端到端具体会有怎样的挑战?

这种情况下双向的神经网络无法使用,只能用单向网络,这就造成输入的信息变少。这时,如果通过注意力机制进行在线化解码,从而得到即时的、短迟延识别结果,就会变得非常有挑战性。

为此,俞教授指出,当下解决端到端的在线解码迟延问题,已有的思路主要有三类:一是固定短时窗口预测(Neural Transducer);二是基于单帧触发的变长窗口方法(MoChA,Triggered Attention);三是基于多帧累计触发阈值的方法(Adaptive Computing Steps)。其本质都是只用历史信息或非常小的前探信息。

再回来上文所提到的,早期的端到端模型是融合声学语料文本的超大声学模型,它并不包括语言模型,那么海量的文本数据如何使用?

当前端到端框架下的文本数据使用的解题思路主要有三种:一是模型融合(Fusion)——将文本数据训练的神经网络LM,在decoder输出层进行插值融合; 二是语言模型模块嵌入——将端到端系统的部分网络作为LM建模,允许额外文本数据训练更新; 三是半监督训练——利用文本数据做端到端模型训练的数据扩充(无显示的语言空间建模)。

从海量数据到高质量精准大数据

想要从海量数据中提取到高质量、精准的大数据,最大的挑战在于没有监督信号、标注起来也很难。解决该问题主要会运用到三个思想:一是自监督预训练,二是半监督训练,三是使用生成数据训练。

首先是自监督预训练,这种思路下数据自身就是标注,不需要额外标注,这与自然语言处理使用词序列作为标注,设计一些训练任务使得能够提取比较好的预训练特征是比较一致的方法。比较典型的是wav2vec或结合了预训练模型BERT的方法,以及重构任务DecoAR。

其次是半监督训练,可以是海量无标注音频或海量文本加适量有标注音频的方式。大体思路也有三种:置信度选择、先验知识蒸馏、音频文本一致性训练。

在报告最后,俞教授还表达了对精准的环境数据扩充及语音合成研究方向的看好。对于语音合成,俞教授认为合成语音数据的难点在于,不同于语音识别,语音合成是一个信息增加的过程,这个过程需要解决的问题会更为复杂,往往这种“无中生有”的过程基本上是通过引入生成模型进行解决。比方说,在低资源数据下使用VAE建模说话人空间,或者不使用句子级的VAE,而是通过逐个phone的音频提取隐变量序列z。这些都是当下比较主流的解决问题的思路。

(雷锋网雷锋网)

原创文章,未经授权禁止转载。详情见 转载须知 。

思必驰俞凯:端到端与半监督语音识别的技术进展 | CCF-GAIR 2020

全局中部横幅
搜图导航

搜图导航精选及整理国内外优秀的设计行业网站,并且提供一站式快速搜索图像服务支持全网正版图片搜索。拥有以图搜图、智能配色、字体生成、个性定制等功能。给你带来更好的搜图体验,并且收录了十几类设计相关网站包括高清图库、灵感创意、素材资源、教程文章、设计工具、绘画涂鸦、建模贴图、设计社区、字体下载、图标下载等网站。

找石雕加工哪家好

河北曲阳石雕加工厂家,石材雕刻厂生产各种石雕人物雕塑、广场园林小品石雕,有15年加工经验厂家直销质量保证,团队开发经验丰富,欢迎新老客户来电咨询洽谈图片和报价!

公装网

公装网专业办公室装修,酒店装修,厂房办公楼装修,工装装修公司排名,提供写字楼装修,展厅装修,饭店装修,会所设计及餐饮店铺装修,公装设计首选装饰联盟工装网站★★★

绿植租赁

青友园艺是杭州市盆栽观叶植物行业协会理事单位,青友园艺专业提供绿植租赁、植物租赁、绿植租摆、绿化养护、办公室绿植、植物出租服务,包括发财树,绿萝盆栽等。销售名贵花卉,蝴蝶兰盆栽、庆典花篮、商务鲜花服务。办公室绿植租赁哪家好?就选青友园艺

易木科技

易木科技致力于提供供应链教育的解决方案,帮助校企进行供应链模式的讲授,通过沙盘模拟系统体验供应链各流程的衔接,让学员轻松但清晰的学到供应链思维

云梦泽

云梦泽是一个专注于知识付费资源的平台,提供丰富的免费知识付费项目,包括SEO优化、抖音运营、小红书运营、快手运营等热门课程。我们致力于为自媒体人提供优质的学习资源和项目分享,帮助您在自媒体领域取得成功。在这里,您可以找到各种项目拆解、教程和资源,轻松实现兼职和赚钱的目标。 在云梦泽,您将获得优质的闲鱼电商和pdd助力货源,让您轻松开展电商业务。我们还提供丰富的知识付费项目,如项目分享、项目拆解等,让您在短时间内掌握关键技能。在这里,您将结交更多志同道合的朋友,共同成长和进步。 让我们一起加入云梦泽,开启您的知识付费之旅吧!

宁波东海液压件实业有限公司

本公司生产的多路阀,集美、德、日、意大利等国产品之长,形成了多品种、系列化。产品包括:DL8通径至DL20通径系列片式多路换向阀,FDL20型整体式多路换向阀,GD6通径至GD20通径隔爆电磁、电液换压阀,wy1.3、wy3.5、wy7.5、wy12.5挖掘机中央回转接头等矿山、煤矿、石油、化工、工程机械配套的各种液压阀。

官网

商务信用服务平台是由商务部信用办指导、50余家国家级商协会与APEC等国际组织指定,由中国国际电子商务中心(CIECC)建设的集认证、发布、查询和监督功能于一体的企业信用信息公共服务平台。

包装机

裕恒科技[dabaocheng.com]专业研发生产包装机、粉末包装机、颗粒包装机、全自动包装机、包装生产线定制、沙子包装机等,咨询电话:13903862276

非稳态阻火器

温州中伟石化设备制造有限公司是专业的不锈钢蓝式过滤器,定制蓝式过滤器,直通平底过滤器,非稳态阻火器,定制阻火器供应商,主营产品有:不锈钢蓝式过滤器,定制蓝式过滤器,直通平底过滤器,非稳态阻火器,定制阻火器等,温州中伟石化设备制造有限公司不仅具有专业的技术水平,更有良好的售后服务和优质的解决方案,欢迎来电洽谈

全局底部横幅