将为TTS带来无数可能 DeepMind发布最新原始音频波形深度生成模型WaveNet

文章编号：46408 资讯动态 2024-12-10 WaveNet DeepMind

编者按：Google的DeepMind研究实验室昨天公布了其在语音合成领域的最新成果——WaveNet，一种原始音频波形深度生成模型，能够模仿人类的声音，生成的原始音频质量优于目前Google采用的两种最优文本-语音模型Parameric TTS与Concatenative TTS。

WaveNets是一种卷积神经网络，能够模拟任意一种人类声音，生成的语音听起来比现存的最优文本-语音系统更为自然，将模拟生成的语音与人类声音之间的差异降低了50%以上。

我们也将证明，同一种网络能够合成其他音频信号，如音乐，并能够自动生成沁人心脾的钢琴曲。

使人们能够与机器自由交谈是人机交互研究领域长久以来的梦想。过去几年中，深度神经网络的应用（如Google语音搜索）为提高计算机理解自然语音的能力带来了革新。但是，运用计算机生成语音——通常用于指代语音合成或文本-语音(TTS)系统——在极大程度上还要依托拼接TTS，TTS中包含一个超大型记录单个说话者的简短语音片段的数据库，随后将这些语音片段重新合成形成完整的话语。在不记录一个新的完整数据库的前提下，这种语音合成方法难以做到修饰声音（例如，转换到一个不同的说话者，或者改变其语音中强调的重点或传达的情感）。

为了解决语音合成的这一难题，迫切需要运用一种参数TTS,在这种文本-语音系统中，生成数据所需要的所有信息被存储于模型的参数中，语音所传达的内容及语音特征可以通过模型的输入信息得以控制。然而，目前参数（Parametric）TTS模型生成的语音听起来不如拼接（Concatenative）TTS模型生成的语音自然，这种现象至少出现在音节类语言中，如英语。现有的参数模型通常是运用信号加工算法vocoders计算获得的输出信息，以此生成音频信号。

WaveNet通过直接为音频信号的原始波形建模，一次为一种音频样本建模，来改变这种范式。同生成听起来更为自然的语音相同，使用原始波形意味着WaveNet能够为任意类型的音频建模，包括音乐。

DeepMind发布最新原始音频波形深度生成模型WaveNet，将为TTS带来无数可能

研究者通常避免为原始音频建模，因为原始音频往往瞬间发生变化：通常情况下，每秒出现16,000种或更多音频样本，在很多时间标尺内出现重要的结构。很明显，构建一个完全自动回归模型是一项具有挑战性的任务，在这种模型中，对每一种音频样本的预测均受到之前所有音频样本的影响（用统计学方面的话来讲，每一种预测性分布是建立在所有先前观察的基础之上的）。

但是，我们今年公布的PixelRNN和PixelCNN模型显示，做到以每次一个像素，甚至于每次一个颜色通道的方式生成复杂的自然图像是可能的，这将要求对每个图像做数千次预测。这也启发我们将原有的二维PixelNets转变为一种一维WaveNet。

DeepMind发布最新原始音频波形深度生成模型WaveNet，将为TTS带来无数可能

上方动画所示为一个WaveNet模型的内部结构，通常是一种完整的卷积神经网络，卷积层中有各种各样的扩张因子，允许其接受域深度成倍增长，并且覆盖数千个时间步长。

在训练时间段内，输入序列是从人类说话者记录得来的真实波形。在训练之后，我们可以对网络取样，以生成合成话语。在取样的每一个步骤中，将从由网络计算得出的概率分布中抽取数值。所抽取的数值随后被反馈到输入信息中，这样便完成下一步新预测。像这样每做一次预测就取样会增加计算成本，但是我们已经发现，这样的取样方法对于生成复杂且听起来真实的音频是至关重要的。

改善最优文本-语音转换模型

我们曾经运用Google的一些TTS数据集来训练WaveNet,以便用于评估WaveNet的性能。下图所示为与Google当前最优TTS系统（参数型TTS和拼接型TTS）和使用Mean Opinion Scores（MOS：用于评估语音通讯系统质量的方法）获得的人类语音相比，在标尺（1-5）上WaveNets的质量。MOS是一种用于主观语音质量测试的标准测定方法，在人群中进行盲试验。我们可以看到，WaveNets将最优模型生成语音的质量与人类自然语音（US英语和汉语普通话）之间的差距降低了50%以上。

就汉语和英语来讲，Google当前的TTS系统在世界范围内被认为是最优文本-语音系统，因此，用一种单一模型来改善生成汉语与英语语音质量将会是一项重大成就。

DeepMind发布最新原始音频波形深度生成模型WaveNet，将为TTS带来无数可能

为了实现运用WaveNet将文本转化为语音，我们得告诉WaveNet文本的内容是什么。我们通过将文本转换成语言和语音特征（包括音位、音节、单词等），把转换得来的特征提供给WaveNet，完成这一过程。这意味着网络的预测步骤不仅仅基于先前获得的音频样本，而且要基于文本所传达的内容。

如果我们想要脱离文本序列来训练网络，网络依然能够生成语音，但是得自行编造想要传达的内容。这种条件下生成的音频简直是胡言乱语，有意义的单词被编造的像单词的声音隔断开。

注意，有时WaveNet也会生成一些非语音类型的声音，如呼吸或口腔运动；这反映出一种原始音频模型具有高度灵活性。

一个单一的WaveNet具备学习许多不同声音（男性和女性）的特征。为了确保WaveNet能够知道用何种声音匹配给定的任何一段话语，我们训练网络使之学习获得说话者的身份特征。有趣的是，我们发现，与单一训练单个说话者的特征相比，用许多说话者的语言、语音及身份等特征来训练网络使得WaveNet能够更好地模拟单个说话者，这种训练模式暗含着一种迁移学习形式。

通过改变说话者的身份，我们可以用WaveNet以不同的声音表达同一段话语。

同样，我们可以为该模型提供额外的输入信息，如情感或口音，使得生成的语音变得更为多样化，更有趣。

由于WaveNet能够用来模拟任何一种音频信号，我们认为,尝试用WaveNet生成音乐也将很好玩。与TTS实验不同，我们的网络不是基于一个输入序列，告诉它怎么演奏音乐（如一篇乐谱）；相反，我们只是简单地允许WaveNet任意生成一种音乐。当我们采用一个古典钢琴曲数据集来训练WaveNet时，它将生成一曲美妙乐章。

WaveNets将为TTS带来无数可能，大体上来讲，有生成音乐和模拟音频两类。事实上，直接运用深度神经网络一个时间步长一个时间步长地生成音乐，这种方法适用于所有16kHZ音频，这将是非常令人惊喜的。我们非常期待WaveNets未来将会带给大家的惊喜。

想要获取更多详细信息，请参考我们的论文详细

原文链接

原创文章，未经授权禁止转载。详情见转载须知。

DeepMind发布最新原始音频波形深度生成模型WaveNet，将为TTS带来无数可能

谷普下载提醒您

本文链接：http://www.gpxz.com/article/013a361f4664f8adc615.html

上一篇：2019LeCun年的预测Yann年的里程碑以及AI201

下一篇：中国芯BAT谁是新希望AI芯片布局盘点中国芯

TOM网首页

TOM是国内领先的互联网公司，为全球用户提供全面的最新新闻资讯、邮箱及游戏定制等服务，内容涵盖新闻、娱乐时尚、体坛赛事、汽车科技、母婴生活、健康旅游、商业财经等近30个频道的资讯内容和最新热点。

电影视频 2024-07-13 21:18:00

深圳中环博宏环境技术有限公司

公司业务涵盖环境影响评价、环境政策及规划研究、垃圾分类综合咨询、环保第三方调查监管、环卫第三方监管考评、环保工程设计建设运营、系统平台开发等。

编程开发 2024-08-17 17:34:33

西安钢结构集成房屋,西安集装箱租赁,西安活动房厂家.陕西雅致钢结构集成房屋有限公司

西安钢结构集成房屋,西安集装箱租赁,西安活动房厂家，西安集装箱,西安活动房

奖券活动 2024-07-11 13:32:06

快速熔断器

上海龙熔电气有限公司是一家新兴技术型现代化企业,坐落于素有“国际花园城市”美誉的松江区。原公司拥有30多年的熔断器开发生产经验,产品以过硬的质量、出色的服务,赢得于广大客户的长久青睐。

编程开发 2024-08-09 19:29:30

分享呦

分享呦是一个收集超多资源至此的资源站，供广大用户朋友们更方便的查找自己想要的内容，拒绝繁琐，拒绝收费，拒绝引流，感谢大家支持。

下载资源 2024-08-18 13:13:25

找铸铜雕塑哪家好

河北曲阳铸铜雕塑加工厂家，支持定制各种铜雕塑造型工艺免费报价，有15年加工经验厂家直销质量保证,团队开发经验丰富,欢迎新老客户来电咨询洽谈图片和报价！

图片摄影 2024-08-18 13:34:15

实用文书网

实用文书网为大家提供各类实用文书，包含感谢信，检讨书，道歉信，邀请函，倡议书，保证书，委托书等实用的文书，供大家阅读参考，欢迎大家阅读！

小说阅读 2024-08-18 19:24:24

纱线

实力定制厂家[齐荣煊]专注设计,研发定制及销售纱线,纺纱,色纺纱,混纺纱,棉纱线,特种纱线,竹节纱,段染纱,段彩纱,彩点纱,ab纱,本着“让特种纱线定制化快捷简单”的经营理念,1对1量身定制,20分钟快捷检测分析并报价.定制热线电话:0571-8211672717867859495

设计美化 2024-11-13 04:05:22

H5案例

H5创意汇是全国最全的H5创意案例分享平台，第一时间分享最好玩最有创意的H5互动展示

游戏网游 2024-11-19 17:28:11

太湖雪

太湖雪致力于打造中国真丝家纺第一品牌，让全世界的消费者都能感受到丝绸之美，感悟中国五千年的丝绸文化,秉承太湖流域五千年的蚕丝制被技术，并不断创新，开创了“蚕丝被全过程无污染手工拉网”的制被新工艺，确保产品的高品质与环保性。公司产品远销美国、加拿大、韩国、日本、芬兰、丹麦、俄罗斯等几十个国家和地区，深受国内外消费者的喜爱

企业品牌 2024-11-24 19:24:35

熹熹禾禾

网站介绍

网站模板 2024-11-26 19:43:21

游戏代理平台哪家靠谱

闲徕科技有限公司是专业从事游戏代理，资询电话：18372019116，包含1000多款时下热门手机游戏，平台运行流畅稳定，免费解答手机网络游戏代理加盟费用、网页游戏手游平台代理加盟、加盟游戏代理需要哪些条件等手游方面问题，为客户提供雄厚的技术支持。

游戏网游 2024-12-05 16:30:45

U88广告联盟是否是创业者理想的营收平台 (888广告联盟)

广告联盟作为一种灵活、低成本的营收模式，吸引了越来越多的创业者加入其中，U88广告联盟，作为其中的一员，凭借其高效的广告分发和多样的营收方式，逐渐在行业中占据一席之地，那么，U88广告联盟真的是创业者理想的营收平台吗，本文将通过具体案例分析这一问题，U88广告联盟的优势首先，U88广告联盟为广告主和网站主提供了一个高效的互动平台，能够...。

2024-12-05 21:06:35

邢波等13位华人入选 2022 李航 Fellow ACM 名单公布！恭喜梅宏俞栋 (邢波简介)

AI科技评论消息，当地时间1月18日，美国计算机学会，ACM，宣布了2022年新当选ACMFellow名单，共有57位科学家当选，其中包括梅宏、俞栋、李航、俞益洲、邢波、郭宗杰、朱文武、郑海涛、纪怀新、方玉光、洪宜安、苏振东、JimmyLin等13位华人学者！作为世界上最大的计算机领域专业性学术组织，ACM的影响力不言而喻，它创...。

2024-12-04 00:54:36

超10000个评测点细节控理想汽车为什么要做 (超10000工资的个税是多少钱)

和很多车圈一把手不同，李想在入局车圈之后所推崇的对象并非亨利福特，也不是马斯克，而是从未造过车的苹果公司创始人乔布斯，作为乔布斯的信徒，李想从不讳言理想汽车就是要向苹果学习，对苹果产品逻辑和简洁风格的推崇，在发布会的风格上、在现有的理想SUV车型中都有体现，李想认为，苹果的产品理念有两个核心，一是如何把极致奢侈的东西变成大众买得起的产...。

2024-12-03 22:26:53

云开发对腾讯C2B意义几何 (云开发对腾讯的影响)

2018年9月，小程序云开发初次上线，集成了腾讯云的云函数、云调用、云数据库、云存储等后端基础能力，以小程序为主要端口释放云能力，这些特性在此期间曾得到了很多前端开发者的认可，但也带来了一些使用体验后的建议，如，难以支持纯web端的小程序管理后台、无法支持Mpvue、Taro、uni，app等通用框架……小程序云开发需要回答如何更，简...。

2024-12-03 19:05:24

上海二一一学校好吗 (上海市二学校)

上海二一一学校是一所非常不错的学校，它拥有优秀的师资力量，先进的教学设备，完善的课程体系以及丰富的课外活动，学校注重培养学生的创新精神和实践能力，鼓励学生积极参与各种竞赛和社会实践活动，提高自身综合素质，同时，学校也关注学生的身心健康，提供了良好的学习和生活环境，总的来说，上海二一一学校是一所值得信赖和选择的学校，北京市昌平区二一学校...。

2024-11-24 21:03:43

加盟艺苑美术培训学校流程 (加盟艺苑美术馆多少钱)

1、加盟咨询，浏览官方网站、电话咨询、寄发资料等方式了解信息，2、经营申请，填写经营申请表，递交公司总部，经审核给予明确答复，3、考察论证，赴总部现场参观、考察、洽谈，了解项目及合作具体事宜，4、签订合同，签订正式合同书，办理授权书，颁发授权牌，5、开店筹备，协助选址，提供店面装修方案，进行技术和营销培训，6、物流配送，由培训物流中心...。

2024-11-23 01:05:04

奥迪a4allroad (奥迪a4allroad价格)

1、2021款奥迪a4allroad在性能层面虽然该车还处于预售阶段，但重新车上可以看出，新车装备了奢侈三区智能空调座椅加热奥迪虚构座舱全景天窗等性能坐在奥迪A4allroadquattro的车内，奥迪的家族式设计格调映入视野，与中期改，2、试驾A4allroadquattro，操控性和稳固性都不错缺陷后排空的觉得和A4L差不多不知道...。

2024-07-16 07:03:14

二十届三中全会在北京举办 (2023年三中全会召开时间)

中国共产党第二十届中央委员会第三次整体会议，简称，二十届三中全会，，于2024年7月15日至18日在北京召开，重要议程包含，中共中央政治局向中央委员会报告上班、重点钻研进一步片面深化革新、推动中国式现代化疑问、审议，中共中央对于进一步片面深化革新、...概略...。

2024-07-15 17:49:03

有高人晚辈大虾求教一下吉利美日之星各方面的消息 (晚辈有哪些人)

美日之星这车还算可以啦比拟介绍奇瑞A5车型成熟开起来挺体面比亚迪、华晨骏捷也不错~`奇瑞A5，是奇瑞公司第一款全正向开发的车型，融合了环球的先进技术和开发资源，先进的设计理念、气度稳重的形状、兽性化奢侈性能建立了中级车的新价值标杆，成功A级车的多少钱轻松领有B级车的气度，构筑了一个谋求幻想的平台，奇瑞A5的目的人群是经过妥协取得初步成...。

2024-07-06 16:30:05

帕萨特2012款1.8t荣尊版和御尊版有什么区别 (帕萨特2017款)

楼上说了一些~我补充一下~多配置方向盘，折合溢价2000元左右~中控彩屏，倒车视频，折合溢价2500元左右~17轮毂，折合溢价300*4=1200左右~前头部气帘，折合溢价1000*2=2000左右~前排电动座椅，折合溢价3000*2=6000元左右~氙气大灯，日行灯总成，溢价7000元左右~另外多碟CD、大灯荡涤和遮阳帘...。

2024-07-01 23:35:10

kingroot高级权限pc版是一款使用非常简单人一键root工具，完全傻瓜式操作，小白一样轻松root；root后还可以管理应用权限，保护手机安全。赶快下载体验吧！kingrootpc版介绍“一键root”（Kingroot）是由Kingroot工作室开发，针对Android（安卓）系统一键获取R

2023-11-16 12:40:14

ddbike单车押金是多少ddbike单车押金怎么退还

ddbike单车押金是多少?ddbike单车是一款单车租赁软件，操作非常简单，不过来使用ddbike单车之前，是需要交押金的，ddbike单车押金是多少呢，其实ddbike单车押金只需要199元哦。 ddbike单车软件图片 ddbike单车押金金额： ddbike单车需要缴纳199元押金

2023-10-11 01:59:30

文章推荐

怎样加盟幼儿园 (怎样加盟幼儿园需要投资多少)

以上就是怎样加盟幼儿园的相关内容，希望对大家有所帮助，如果，智慧之选者选择一个知名的幼儿园品牌加盟的话，品牌总部将会为加盟商提供全套的开店支持，那么，加盟商所需承担的压力和相对就会少一点，如果，您对幼儿园加盟感兴趣的话，那就赶快行动吧！...。

2025-01-15 23:49:10

创业加盟

汉堡加盟哪个品牌好 (汉堡加盟哪个比较好)

在进行加盟创业时，智慧之选者只有选对了加盟品牌，才能成功开启自己的创业道路，选对加盟品牌的关键在于要选择有实力的品牌，就拿加盟汉堡品牌来说，汉堡属于小而美的创业项目，因而选择加盟汉堡的智慧之选者也有很多，要想突出重围，就要选对汉堡品牌，接下来，希望下面的介绍，让大家知道知道汉堡加盟哪个品牌好如今市面上的汉堡品牌有很多，例如汤姆之家汉堡...。

2024-12-21 18:27:26

创业加盟

奇瑞iCAR 新智驾独家该品牌首款车型12月开启交付 CTO单红艳已离职 (奇瑞icar03)

新智驾获悉，奇瑞新能源iCARCTO单红艳已于2个月前左右离职，单红艳2022年加入奇瑞新能源，负责iCAR品牌的技术开发，单红艳有30余年的汽车从业经验，曾在华晨汽车、吉利汽车、长城汽车担任高管，在新能源汽车开发，项目管理及国际合作方面具有丰富经验，1992年，单红艳本科毕业后加入华晨汽车工程研究院，离开华晨汽车研究院前，已升任为新...。

2024-12-09 17:14:08

资讯动态

猫王发型有点酷网友 AI突破次元壁又火了！飞屋环游记动漫角色一秒变真人小罗的 (猫王发型)

从，换脸，到，生成漫画脸，，AI在图像合成方面的技术已经非常成熟了，因为支持一键切换，而且效果逼真，之前抖音的一款，变身漫画，特效还登上微博了热搜，从明星到路人，近千万用户参与，国外也有一款，秒变迪士尼公主，工具网站，上线当天就因为访问量过大而被迫下线，它的火爆程度可以从这张效果图来感受下，从发型、面部轮廓到五官，妥妥地定制化动漫脸，...。

2024-12-03 21:47:48

资讯动态

创下多项世界纪录天府杯网络安全大赛落下战幕 (港珠澳大桥的建设创下多项世界)

雷锋网消息，经过两天的激烈赛程之后，2021，天府杯，国际网络安全大赛于10月17日在成都天府国际会议中心落下帷幕，本次大赛由奇安信、启明星辰、绿盟、天融信、360、永信至诚、亚信安全、华为、百度、阿里巴巴、清华大学、赛博昆仑、中科院信息工程研究所、国家工业信息安全发展研究中心、成都天投集团等多家行业顶尖组织共同主办，安恒信息、中国网...。

2024-11-30 22:34:38

资讯动态

将为TTS带来无数可能 DeepMind发布最新原始音频波形深度生成模型WaveNet

改善最优文本-语音转换模型

相关文章

文章推荐