开源首个 Meta AI 闽南话和英语可以直接语音互译! 语音翻译系统 (开源 mq)

文章编号:36779 资讯动态 2024-11-30 语音翻译系统Meta闽南话AI

机器翻译是现今人类消除语言障碍、重建巴别塔的新工具。然而,在世界现存的 7000 多种已知语言中,许多低资源语言还未得到足够的关注,尤其是有近一半的语言没有标准的书面系统,这是构建机器翻译工具的一大障碍,所以目前 AI 翻译主要集中在书面语言上。

在利用 AI 推动自然语言翻译这件事上,Meta 一直致力于“No Language Left Behind”(没有一种语言被落下)的目标。

,现在也有了专属的机器翻译系统,讲闽南话的人可以与讲英语的人进行无障碍对话了。

第一个由 AI 驱动的非书面的、语音到语音的翻译系统。 来听听这项工作的负责人、Meta AI 研究员 Peng-Jen Chen 与小扎的对话,Chen 出生于中国台湾。

视频见:

该系统可以将闽南话的语音翻译成英语语音,反之亦可。会讲闽南话的读者可以来检验一下,是不是翻译效果还挺不错?

据了解,这个开源翻译系统是 Meta 的通用语音翻译(UST) 项目的一部分,该项目致力于开发新的人工智能方法,帮助实现所有现存语言的实时语音到语音的翻译。目前,Meta 已经开源了该翻译模型和评估数据集,研究论文如下:

Meta 开源首个 AI 语音翻译系统,闽南话和英语可以直接语音互译!



克服训练数据的挑战

闽南话是汉语方言之一,是一种低资源语言,没有标准的书写系统,人工的英语到闽南话翻译人员也相对很少,所以为模型收集和标注训练数据就变得更加困难。

Meta 开源首个 AI 语音翻译系统,闽南话和英语可以直接语音互译!

图注:讲闽南话(Hokkien)的人的数量

为此,来自 Meta AI 的研究团队采用了一种特殊放方案, 利用汉语普通话(属于高资源语言)作为中间语言 来构建伪标签和人工翻译。他们首先将英语(或闽南话)语音翻译成普通话文本,然后再翻译成闽南话(或英语)并将其添加到训练数据中。这种方法通过利用来自类似高资源语言的数据,极大地提高了模型性能。

是训练数据生成的另一种方法。使用预训练的语音编码器,能够将闽南话语音嵌入编码到与其他语言相同的语义空间中,所以闽南话没有书面形式也不造成问题。闽南话语音可以与语义嵌入相似的英语语音和文本对齐,然后从文本中合成英语语音,产生并行的闽南话和英语语音。

Meta 开源首个 AI 语音翻译系统,闽南话和英语可以直接语音互译!

图注:无需人类标注的语音翻译模型




新的建模方法:语音到语音

许多语音翻译系统都依赖转录或者是语音到文本的系统。但是,闽南话的形式主要是口语,缺乏标准的书面文字系统,无法转录成文本作。所以,Meta 所构建的是一个

研究人员使用语音到单元(speech-to-unit,S2UT)翻译, 将输入语音直接翻译成一系列的声学单元, 这也是 Meta 先前最早开创的一种路径。然后,从这些声学单元中生成 。此外,研究人员还采用了 Unity 作为双通道解码机制,第一通道解码器生成相关语言(即汉语普通话)的文本,第二通道解码器创建单元。

Meta 开源首个 AI 语音翻译系统,闽南话和英语可以直接语音互译!




新的准确性评估系统

语音翻译系统的评估工具通常是 ASR-BLEU 指标,该指标首先使用自动语音识别 (ASR) 将翻译后的语音转录为文本,然后将转录文本与人工翻译的文本进行比较,计算 BLEU 分数。

但要评估闽南话的语音翻译系统,难处还是在于它没有标准的书面文字系统。所以,为了实现自动评估,研究人员开发了一个系统,将闽南语语音转录为一种称为 Tâi-lô 的标准化注音符号。这样就能在音节的层面上计算 BLEU 分数,从而比较不同方法的翻译质量。

除了开发这种评估闽-英语音翻译的方法外,研究人员还基于闽南话语料库 Taiwanese Across Taiwan,创建了第一个闽-英双向语音到语音翻译基准数据集。该基准数据集将开源,以方便更多研究人员从事闽南话语音翻译工作。




不止闽南话

这项工作所用技术可以进一步扩展到许多其他书面和非书面语言。

为此,Meta 还发布了 SpeechMatrix,它是一个大型的语音到语音翻译语料库,使用了 Meta 的创新数据挖掘技术 LASER, 从欧洲议会录音的真实演讲中挖掘数据。该数据库包含 136 种语言对的语音对齐,共 41.8 万小时的语音。挖掘的数据和模型都是免费的,研究人员可以创建自己的语音到语音翻译 (S2ST) 系统。

Meta 开源首个 AI 语音翻译系统,闽南话和英语可以直接语音互译!

图注:LASER 挖掘获得的语音到语音成对数据

Meta 在无监督语音识别 ( wav2vec-U ) 和无监督机器翻译( mBART )方面的研究进展,也为口语翻译工作提供了支持。比如用于预训练语音模型的无监督域自适应技术,提高了下游无监督语音识别的性能,尤其是对于低资源语言,在没有任何人工标注的情况下,可以构建高质量语音到语音翻译模型。

该模型仍在不断推进中,目前一次只能翻译一个完整的句子,但这迈出了未来实现语言间同声传译的一步。

据 Meta AI 的研究员 Peng-Jen Chen 说,这个闽南话翻译系统其实有一部分是出于他的一个私人心愿。他在中国台湾长大,同时会讲普通话,但是他的父亲普通话不好,他希望他的父亲能够用闽南话与每个人都顺畅地交流。这也是 AI 之于人类的意义之一。

Meta 开源首个 AI 语音翻译系统,闽南话和英语可以直接语音互译!

版权文章,未经授权禁止转载。详情见 转载须知 。

Meta 开源首个 AI 语音翻译系统,闽南话和英语可以直接语音互译!

全局中部横幅
搜索网站导航大全

LOL网址导航网是专业的上网导航网站,精心收录各类优质热门网站信息,同时提供天气、快递、违章等各种生活便民查询工具网址,为您提供安全便捷的上网导航服务,现已被众多网友设为上网主页,网址导航大全首选LOL网址导航.

vivo开放平台

vivo开放平台,拥有千万级高质量用户,日分发达数千万级!多样化的应用推广,海量资源等你来拿,期待与你合作共赢

呼叫中心外包

【云天祥客服服务外包公司】【咨询热线:13667326711(WX同号)】,云天祥500多为人工座席客服致力为企业提供:客服外包,邀约外包,电商客服外包,电销外包,呼叫中心外包,市场调研外包,电话外呼外包业务。飞祥专业的服务团队能为客户提供更稳定、费用成本更节省、转化更高的外包客服托管服务!

铭安潮居

浙江铭安潮居智能科技有限公司(简称“铭安潮居”)是专注于乡村装配式建筑领域的B2B2C产业互联网平台。公司致力于提升装配式建筑的销售与服务效率,通过提供标准化的产品解决方案、智能化的业务管理工具、模块化的服务支撑体系、多样化的科技金融服务,赋能行业经销商,助力其服务更多家庭;同时深度整合供应链、研发、物流、家装等产业链资源,为上下游各参与方输出更好的增值服务。铭安潮居作为浙江第一区一一余杭区2020年度重点招商引资项目落户杭州城市副中心临平新城建筑数字化产业园,余杭区政府产业基金亦持有公司股份。、公司主营业务为装配式建筑,别墅,建筑一站式采购、供应链仓储配送,别墅别墅造价、别墅厂家、别墅价格、别墅生产厂家、别墅.多少造价、农村别墅、别墅怎么样造价、别墅厂家公司、别墅厂家生产、别墅公司

通给水处理

四川省乐山通给水处理设备有限责任公司是一家集四川污水处理,给水处理生产销售安装于一体的厂家,公司主营四川一体化净水器,四川全自动净水器,四川除草除砂取水头等的研发销售业务.通给水处理在整个水处理行业具有丰富的经验和业绩,同时可以根据客户不同的需求,提供切实所需的专业服务.有需要欢迎来电13881375086洽谈业务.

浙江凯士德断路器

浙江凯士德电气有限公司生产的塑壳断路器,双电源自动切换开关,资质齐全,质量可靠,厂家直接发货,价格优惠,大量现货销售,有塑壳断路器采购需求,欢迎来电咨询:13588995109.

沧州烈焱环保科技有限公司

沧州烈焱环保科技有限公司主营燃油燃烧机,燃气燃烧机,低氮燃烧机,全预混表面燃烧机,集设计、生产、销售、售后服务于一体的新型企业。

91下载站

91下载站是一家安全绿色的免费应用分享网站,主要为用户提供绿色软件、小众应用、手机游戏、软件教程、游戏攻略等内容。

富生集团,富生医疗,吉林省富生医疗器械有限公司,富生特医食品,吉林省血液透析浓缩物,吉林省透析机消毒液

吉林省富生医疗器械有限公司【电话0431-85858205】是东北三省第一家也是吉林省唯一生产血液透析浓缩物的专业厂家,公司主要经营项目有吉林省血液透析浓缩物,吉林省透析机消毒液,吉林省B干粉等。

联系方式

德国狼牌内窥镜联系方式

中数智汇

中数智汇公司,依托大数据,聚焦金融业服务,致力于成为最权威的市场主体大数据服务商,相信数据不仅可以改变金融,也可以改变世界

全局底部横幅