商业语音识别系统存在高错误率 研究发现 (商业语音识别软件)

文章编号:40799 资讯动态 2024-12-03 语音识别系统特征提取ASR

雷锋网讯,“某些语音识别系统(ASR)的准确性可能要比之前假定的差很多。”这是最近约翰·霍普金斯大学、波兰波兹南工业大学、弗罗茨瓦夫科技大学以及初创公司Avaya的研究人员一项正在进行的研究主要发现。

这项研究对内部创建的数据集上的商业语音识别模型进行了基准测试。共同作者声称,词错误率(Word Error Rate, WER)(一种常见的语音识别性能指标)要显著高于最佳报告结果,这可能表明自然语言处理NLP)领域存在更多待克服的问题。

据了解,目前ASR已广泛应用于诸多场景中,如电话会议、电子邮件、智能设备等。ASR模型的综合基准中,标准语料库的WER仅有2%~3%,而正是这一统计数据遭到了上述作者的质疑。他们声称,大多数ASR的交互场景都是在“类似于聊天机器人”的背景下进行的,说话人往往因为意识到跟他们的交互对象是聊天机器人,因此通常会将命令简化成结构紧凑的简短词语,而非正常的自然对话。

作者基于来自1595个供应商和1261个客户的50个呼叫中心对话数据集对几套ASR系统进行了评估。其通常时间长达8.5个小时,其中2.2个小时是对话。通过测试,作者发现ASR系统的错误率基本在15%以下,这与基准测试中的2%相悖。

研究发现,商业存在高错误率

研究人员将这一问题归结为领域适应性问题——基准测试使用了单一性语料,例如Librispeech(1000小时英语有声读物录音)、WSJ(新闻口述的谈话)和Switchboard(电话交谈),这些都可能太过简单而无法真正挑战ASR系统的可靠性。

而且,尽管他们试图刻意模仿真实、自发的对话,但本质上还是受约束的,比如需要配音演员,就某一合适主题进行脚本/半脚本对话,而且正是由于配音演员的存在,几乎都不需要考虑因性别、母语因素而产生的发音问题。

作为一种补救措施,研究人员建议ASR和NLP社区收集和注释音频数据集,使其更好地与ASR系统的实际应用场景保持一致,他们还呼吁建立更具包容性的声学模型,更广泛的方言语料库,这些改变将会促进音频信号处理的技术改进。

因此,这些问题并非无法克服。“学界和工业界应该深思熟虑,考虑可以创建高质量的测试数据集。我们认为,对ASR准确性的过于乐观会损害NLP领域下游应用程序的开发。”研究人员最后表示。

雷锋网讯,“某些语音识别系统(ASR)的准确性可能要比之前假定的差很多。”这是最近约翰·霍普金斯大学、波兰波兹南工业大学、弗罗茨瓦夫科技大学以及初创公司Avaya的研究人员一项正在进行的研究主要发现。

这项研究对内部创建的数据集上的商业语音识别模型进行了基准测试。共同作者声称,词错误率(Word Error Rate, WER)(一种常见的语音识别性能指标)要显著高于最佳报告结果,这可能表明自然语言处理(NLP)领域存在更多待克服的问题。

据了解,目前ASR已广泛应用于诸多场景中,如电话会议、电子邮件、智能设备等。ASR模型的综合基准中,标准语料库的WER仅有2%~3%,而正是这一统计数据遭到了上述作者的质疑。他们声称,大多数ASR的交互场景都是在“类似于聊天机器人”的背景下进行的,说话人往往因为意识到跟他们的交互对象是聊天机器人,因此通常会将命令简化成结构紧凑的简短词语,而非正常的自然对话。

作者基于来自1595个供应商和1261个客户的50个呼叫中心对话数据集对几套ASR系统进行了评估。其通常时间长达8.5个小时,其中2.2个小时是对话。通过测试,作者发现ASR系统的错误率基本在15%以下,这与基准测试中的2%相悖。

研究人员将这一问题归结为领域适应性问题——基准测试使用了单一性语料,例如Librispeech(1000小时英语有声读物录音)、WSJ(新闻口述的谈话)和Switchboard(电话交谈),这些都可能太过简单而无法真正挑战ASR系统的可靠性。

而且,尽管他们试图刻意模仿真实、自发的对话,但本质上还是受约束的,比如需要配音演员,就某一合适主题进行脚本/半脚本对话,而且正是由于配音演员的存在,几乎都不需要考虑因性别、母语因素而产生的发音问题。

作为一种补救措施,研究人员建议ASR和NLP社区收集和注释音频数据集,使其更好地与ASR系统的实际应用场景保持一致,他们还呼吁建立更具包容性的声学模型,更广泛的方言语料库,这些改变将会促进音频信号处理的技术改进。

因此,这些问题并非无法克服。“学界和工业界应该深思熟虑,考虑可以创建高质量的测试数据集。我们认为,对ASR准确性的过于乐观会损害NLP领域下游应用程序的开发。”研究人员最后表示。

(雷锋网雷锋网)

原创文章,未经授权禁止转载详情见 转载须知 。

全局中部横幅
爆团猫

爆团猫是专业的防爆行业一站式采购与服务平台,产品覆盖防爆电气、防爆电机、防爆监控通讯、防爆手机、防爆灯具、防爆箱柜开关、防爆空调、防爆风机、防爆装备、防爆摄像机防爆合格证认证取证、防爆附件、防爆工具等产品领域。爆团猫隶属于南阳爆团防爆电气科技有限公司

比熊网

比熊网为大家提供基金股票财经等综合资讯

东莞影视公司,东莞市更好影视制作有限公司欢迎您!

东莞市更好影视制作有限公司以不断创新,锐意进取的企业精神,力求为客户提供更好的影视摄制服务。更好影视经过八年的奋斗和探索,已发展成集影视广告宣传策划摄制,大型活动直播,MTV摄制,微电影、纪录片、电视剧投资创作的专业影视摄制公司。公司拥有行业领先的摄、录、编设备,其中高清摄像机red2、索尼F3、佳能C100等不同层级的摄像设备,以及灯光、摇臂、导轨等其他影视附属设备,能满足不同客户及不同项目的影视摄制需求。公司网罗了一批影视行业的精英团队,其中影视后期、动画专业本科以上的技术人员多名,专职导演及合作导演4人。

ZBZ
ZBZ

ZBZ-瓦房店中北轴承制造有限公司主营类目:轧机轴承/深沟球轴承/滚动轴承/推力轴承/圆锥滚子轴承/微型轴承。瓦房店中北轴承制造有限公司前身为瓦房店市金属材料冷拔厂,为瓦轴集团(ZWZ)下属单位,始建于1990.10.01日,主要为瓦轴集团生产加工轴承配套产品,企业改制后改名为瓦房店中北轴承制造有限公司。

众创网

众创网是一家专业的创业资源网站,主营技术投资、技术咨询、技术外包,以及创业企业的各种增值孵化服务。

思亿欧外贸快车官方网站

思亿欧外贸快车是专业的外贸独立站SaaS平台,通过一站式外贸独立站智能建站、智能管理、智能运营、智能洽谈,帮助中国外贸企业品牌出海,询盘精准质量高!

新胜公司上分电话

老街新胜公司开户网址:www.TL9272.com微Q:3834200新胜公司上分客服,开户电话,客服微信,注册网址,新胜集团公司是一家综合性文化娱乐公司,成立于2013年,由多家财团与湖南步步高集团合作成立,名为老街新胜娱乐文化投资有限公司。该公司致力于构建中国文化娱乐产业创新平台,旨在提升全体中国人的生活品质,主要业务涵盖电影产业、娱乐产业、动漫产业、影视制作产业、文化地产、文化产业园等。

猪之家

猪之家为网友提供生猪价格,仔猪价格,猪肉价格,饲养管理,繁育管理,饲料行情,科学养猪,猪病防治,行业技术新闻热点等,答您疑惑,帮您解决问题,欢迎进站访问。

养老服务网

养老服务网,专为养老院和老年用户提供养老相关信息及配套服务,是一个方便、快捷、可靠的养老生活指引平台;养老网拥有强大的养老机构库,信息实时更新;拥有“找养老院”“养老咨询”“老年商城”“找护工”等栏目,提供全面的线上养老服务!

你来

「你来」是一款以帮助一亿国人正确高效地锻炼为使命的健身小程序。无论是想减肥增肌或塑形,还是寻找健身跑步瑜伽计步等训练计划,你可以随时随地选择课程进行训练!权威教练视频教学,健身干货自由分享.在这里健身打卡,结识志同道合的运动好友,让运动不再是孤单的坚持!

浙江思源节能电子科技有限公司

浙江思源节能电子科技有限公司是国家发改委、财政部首批备案的节能服务公司和浙江省高成长科技型企业,在稳步发展的同时积极创新“第五能源”。

全局底部横幅