WaveNet 做出了这些重大变化 你可能还不知道 Assistant 为了进驻 Google (WaveNet)

雷锋网 AI 科技评论按:DeepMind 提出的 WaveNet 是目前顶级的语音生成模型, 论文 最初于2016年9月发表,雷锋网 AI 科技评论也立即跟进报道 DeepMind发布原始音频波形深度生成模型WaveNet 。WaveNet抛弃了以往通过声学模型拼接语音音素的做法,完全通过深度神经网络生成原始音频波形,并且大幅提高了语音生成质量。

今年10月,我们也报道过 WaveNet正式商用:效率提高1000倍 ,仅一年时间就走出实验室,在 GoogleAssistant 中落地。在庆贺深度学习又一次完全颠覆传统做法的同时,大家想必也会好奇,到底DeepMind做了哪些改进才得以实现这样数量级的效率提升呢?DeepMind自己最近就发布了介绍商业化改进后的 WaveNet 的论文,并撰写了一篇博文通俗地介绍了其中的改进点。雷锋网 AI 科技评论把这篇博文翻译如下。

你可能还不知道,WaveNet 为了进驻  Assistant 做出了这些重大变化

自 DeepMind 在2016年发表WaveNet论文后,这一顶级表现的语音生成模型已经于今年10月开始用在 GoogleAssistant 中,为全球的用户生成逼真的日语和美国英语语音。现在这个用于生产环境的模型称作“并行WaveNet”,它的运行速度要比最初发布的模型快一千多倍,而且生成的语音质量也更高。

在近期的论文()中,DeepMind的研究人员们就介绍了新模型的一些细节;以及为了让这个系统能在大规模并行化的计算环境中运行,DeepMind还开发了一个新技术“概率密度蒸馏”。

最初版本的WaveNet在生成语音时用了很激进的连接方式,每次生成一个采样点,而且每个新生成的采样点都需要把前一个采样点作为输入(条件生成)。虽然这种做法能够生成高质量的音频,每秒最高也能生成2万4千个采样点,但这种顺序生成的方式对于生产环境来说还是太慢了。

你可能还不知道,WaveNet 为了进驻  Assistant 做出了这些重大变化

最初版本的模型中,生成每个新的样本都需要把前一个生成的样本作为条件

为了解决这个问题,DeepMind的研究人员们认为他们需要一种新的方案,它应当能一次生成一个长序列中的所有采样点,而且没有生成质量的损失。他们的想到的办法叫做probability density distillation,“概率密度蒸馏”。它的做法是,用一个完全训练好的 WaveNet 模型教另一个“学生”网络如何推理;这个学生网络更小、并行度更高,从而也就更适合运行在现代计算硬件上。这个学生网络的架构是一个规模不大的卷积神经网络的拓展,跟原来的WaveNet很相似,但它有一点根本性的不同,就是生成新的采样点时不需要依赖任何之间生成的采样点。这也就意味着,语音生成时可以把第一个单词、最后一个单词、以及所有当中的单词全部同时生成出来,就像下面的动图里这样。

你可能还不知道,WaveNet 为了进驻  Assistant 做出了这些重大变化

新的WaveNet把白噪音作为输入,然后一次同步生成所有的输出采样点。

训练的时候,学生网络是从一个随机状态开始的。它的输入是随机白噪声,要训练它做的任务就是产生连续的音频波形作为输出。学生网络生成的输出会被交给训练过的WaveNet模型,它会给每个采样点打分,作为提供给学生网络的信号,让它了解它的输出和理想输出之间的差距。随着训练过程进行,学生网络就可以根据反向传播不断调节、更新,从而学会产生理想的输出。从另一个角度说,“老师”网络和“学生”网络都会给每一个音频采样点的取值输出一个概率分布,然后训练的目标就是让老师的分布和学生的分布之间的KL距离最小化。

这样的训练过程和生成式对抗性网络(GANs)的设定有不少相似之处,学生网络就像是GANs中的生成器,老师网络就像是鉴别器。不过与GANs不同的是,学生的目标并不是像GANs中那样“骗过”老师,而是与老师合作,尝试学习、达到老师的表现水平。

虽然这种训练技巧有不错的表现,DeepMind的研究人员们还是需要增加几个额外的损失函数,引导学生更好地向理想的行为前进。具体来说,他们增加了一个感知损失来避免模型产生糟糕的发音,增加了一个对比度损失来进一步减少噪声,以及一个能量损失来让网络的音频输出与人类语音的能量相匹配。能量损失的作用是,如果没有它的话,模型的音量很小,更像窃窃私语而不是朗声说话。

应用了以上所有这些方法之后,DeepMind就得以让训练出的并行WaveNet达到与最初的WaveNet同等的语音质量,人类测试者听过之后的平均意见打分(MOS,5分为满分)结果如下。值得一提的是,真正的人类语音也只有4.667的MOS分数。

你可能还不知道,WaveNet 为了进驻  Assistant 做出了这些重大变化

当然,概率密度蒸馏仅仅是让WaveNet达到生产化系统的速度和质量的众多必须手段之一。为了把并行WaveNet集成到GoolgeAssistant的服务流水线中,DeepMind的技术应用团队和谷歌语音团队也同样在工程方面付出了大量努力。也正是靠着这样的紧密协作,最初是基础性研究的技术只花了12个月多一点点的时间就成为了谷歌规模、能够服务全球用户的正式产品

并行WaveNet论文地址:

via DeepMind Blog ,雷锋网 AI 科技评论编译

Deepmind语音生成模型WaveNet正式商用:效率提高1000倍

DeepMind发布最新原始音频波形深度生成模型WaveNet,将为TTS带来无数可能

版权文章,未经授权禁止转载。详情见 转载须知 。

你可能还不知道,WaveNet 为了进驻  Assistant 做出了这些重大变化

全局中部横幅
问卷网

免费问卷调查平台-问卷网,拥有创新的编辑界面和结果分析界面,海量的问卷和表单模板,提供20余万精品模板;支持微信,微博,QQ等多种发布模式。专注于为企业和个人提供问卷表单的创建,发布,管理,收集及分析服务。

冰与火之歌h5游戏在线玩

手机冰与火之歌游戏,冰与火之歌h5游戏在线玩是一款放置类角色扮演h5游戏在线玩,顶级的战斗场面,庞大的世界地图,炫酷奥义技能,多职业上阵,多人在线PK,丰富的游戏玩法活动,让你欲罢不能。快来拯救暗黑军团降临的大陆,与邪恶势力对抗吧,称霸暗黑世界,舍我其谁。;您可以免费在线玩。

【官方正品】附近范围内号码采集器,精准客源采集,附近人号码采集设备

特迪云科技(19554192544)专业生产附近号码采集器,电话号码采集器,周围号码采集设备,小区号码采集器,手机号码采集软件,号码采集软件,电话号码收集,周边手机号码收集器,附近人获客神器,手机号码采集盒子稳定运行第五年,行业领先、技术源头

55Y音乐社区App

55Y音乐社区APP是一个聚合数千万音乐爱好者的专业的音乐内容分享社区,在这里你可以建立你的音乐自媒体,分享你的音乐生活!

青岛诚誉食品检测有限公司

青岛诚誉食品检测有限公司多年从事食品卫生检测,一切为了安全与安心

福建南安日康卫浴洁具有限公司

福建·日康卫浴洁具厂,是一家集研发、生产、销售高级水龙头、淋浴、地漏、下水、角阀的高新生产企业。 日康卫浴自建立以来坚持“以人为本”。凝聚了一批高素质的技术人才为管理人员。引进先进生产设备及工艺技术,不断加大技术设备投入。雄厚的技术和精良的设备

提花牛津布生产厂家

吴江鸿达织造有限公司,提花牛津布生产厂家,提供家纺面料,沙发布定制与批发.吴江鸿达织造有限公司主营:提花牛津布,化纤面料,工装面料,箱包面料等.秉承着“诚信,平等”的经营理念以及“友好互助,共同进步”的企业文化,在国内外市场享有良好的声誉和公认的品质认可.

PHP服务网

欢迎来到PHP服务网学习各种PHP知识,这里有最新的PHP教程可以免费学习,也能下载到很多的PHP源码,PHP模板,PHP插件,也能以更加优惠的价格购买到PHP的虚拟主机,服务器等,PHP服务网为PHP生态助力。

济南皇冠油墨有限公司

济南皇冠油墨有限公司公司拥有完整、科学的质量管理体系。本着“敢于创新,稳重求进”的精神,大胆引进先进生产设备,加强生产管理、严把质量关,以其产品质量稳定、交货快捷和价格优势,在激烈的竞争市场中脱颖而出,稳步发展。

长丝土工布

安平县鑫巡土工布厂家专业长丝土工布,无纺土工布,短丝,防水,复合土工布生产厂家,为您提供2021年土工布价格,无中间利润,免费提供施工支持特殊规格定做,一站式服务厂家

湖北利普达管业科技有限公司

湖北利普达,利普达管业,湖北利普达管业,镀锌防腐管,碳钢管,薄壁碳钢管,卡压连接,燃气专用管,不锈钢管,燃气不锈钢管,PE管,燃气PE管,卡压阀门,专用阀门,钢塑转换

全局底部横幅