商业语音识别系统存在高错误率 研究发现 (商业语音识别软件)

文章编号:40799 资讯动态 2024-12-03 语音识别系统特征提取ASR

雷锋网讯,“某些语音识别系统(ASR)的准确性可能要比之前假定的差很多。”这是最近约翰·霍普金斯大学、波兰波兹南工业大学、弗罗茨瓦夫科技大学以及初创公司Avaya的研究人员一项正在进行的研究主要发现。

这项研究对内部创建的数据集上的商业语音识别模型进行了基准测试。共同作者声称,词错误率(Word Error Rate, WER)(一种常见的语音识别性能指标)要显著高于最佳报告结果,这可能表明自然语言处理(NLP)领域存在更多待克服的问题。

据了解,目前ASR已广泛应用于诸多场景中,如电话会议、电子邮件、智能设备等。ASR模型的综合基准中,标准语料库的WER仅有2%~3%,而正是这一统计数据遭到了上述作者的质疑。他们声称,大多数ASR的交互场景都是在“类似于聊天机器人”的背景下进行的,说话人往往因为意识到跟他们的交互对象是聊天机器人,因此通常会将命令简化成结构紧凑的简短词语,而非正常的自然对话。

作者基于来自1595个供应商和1261个客户的50个呼叫中心对话数据集对几套ASR系统进行了评估。其通常时间长达8.5个小时,其中2.2个小时是对话。通过测试,作者发现ASR系统的错误率基本在15%以下,这与基准测试中的2%相悖。

研究发现,商业语音识别系统存在高错误率

研究人员将这一问题归结为领域适应性问题——基准测试使用了单一性语料,例如Librispeech(1000小时英语有声读物录音)、WSJ(新闻口述的谈话)和Switchboard(电话交谈),这些都可能太过简单而无法真正挑战ASR系统的可靠性。

而且,尽管他们试图刻意模仿真实、自发的对话,但本质上还是受约束的,比如需要配音演员,就某一合适主题进行脚本/半脚本对话,而且正是由于配音演员的存在,几乎都不需要考虑因性别、母语因素而产生的发音问题。

作为一种补救措施,研究人员建议ASR和NLP社区收集和注释音频数据集,使其更好地与ASR系统的实际应用场景保持一致,他们还呼吁建立更具包容性的声学模型,更广泛的方言语料库,这些改变将会促进音频信号处理的技术改进。

因此,这些问题并非无法克服。“学界和工业界应该深思熟虑,考虑可以创建高质量的测试数据集。我们认为,对ASR准确性的过于乐观会损害NLP领域下游应用程序的开发。”研究人员最后表示。

雷锋网讯,“某些语音识别系统(ASR)的准确性可能要比之前假定的差很多。”这是最近约翰·霍普金斯大学、波兰波兹南工业大学、弗罗茨瓦夫科技大学以及初创公司Avaya的研究人员一项正在进行的研究主要发现。

这项研究对内部创建的数据集上的商业语音识别模型进行了基准测试。共同作者声称,词错误率(Word Error Rate, WER)(一种常见的语音识别性能指标)要显著高于最佳报告结果,这可能表明自然语言处理(NLP)领域存在更多待克服的问题。

据了解,目前ASR已广泛应用于诸多场景中,如电话会议、电子邮件、智能设备等。ASR模型的综合基准中,标准语料库的WER仅有2%~3%,而正是这一统计数据遭到了上述作者的质疑。他们声称,大多数ASR的交互场景都是在“类似于聊天机器人”的背景下进行的,说话人往往因为意识到跟他们的交互对象是聊天机器人,因此通常会将命令简化成结构紧凑的简短词语,而非正常的自然对话。

作者基于来自1595个供应商和1261个客户的50个呼叫中心对话数据集对几套ASR系统进行了评估。其通常时间长达8.5个小时,其中2.2个小时是对话。通过测试,作者发现ASR系统的错误率基本在15%以下,这与基准测试中的2%相悖。

研究人员将这一问题归结为领域适应性问题——基准测试使用了单一性语料,例如Librispeech(1000小时英语有声读物录音)、WSJ(新闻口述的谈话)和Switchboard(电话交谈),这些都可能太过简单而无法真正挑战ASR系统的可靠性。

而且,尽管他们试图刻意模仿真实、自发的对话,但本质上还是受约束的,比如需要配音演员,就某一合适主题进行脚本/半脚本对话,而且正是由于配音演员的存在,几乎都不需要考虑因性别、母语因素而产生的发音问题。

作为一种补救措施,研究人员建议ASR和NLP社区收集和注释音频数据集,使其更好地与ASR系统的实际应用场景保持一致,他们还呼吁建立更具包容性的声学模型,更广泛的方言语料库,这些改变将会促进音频信号处理的技术改进。

因此,这些问题并非无法克服。“学界和工业界应该深思熟虑,考虑可以创建高质量的测试数据集。我们认为,对ASR准确性的过于乐观会损害NLP领域下游应用程序的开发。”研究人员最后表示。

(雷锋网雷锋网)

原创文章,未经授权禁止转载。详情见 转载须知 。

全局中部横幅
东莞市泓鹏琪电子商务有限公司

东莞市泓鹏琪电子商务有限公司,是一家集汽车电瓶,汽车配件,汽车音响等产品的专业销售企业。致力于为汽车电瓶,汽车配件,汽车音响技术及产品服务。经营产品种类涵盖不同的客户需求:汽车电瓶,汽车配件,汽车音响等产品。我们无以为报,唯有不断努力,为您带来更优质的服务,更多样化的交流机会和更精彩的参展体验。

∽一鹿顺风∽

往事随风,一鹿顺风,一鹿顺风的博客“生活笔谈”,记录生活的点点滴滴,分享快乐的每个一个源泉,分享生活分享快乐,LBS技术交流平台,博客营销原创文学网络...

广东聚氨酯砂浆地坪

东莞市益典实业有限公司是一家集地坪漆研发、生产、设计销售和工程施工为一体的综合性地坪服务商。

公证云

公证云在线公证平台专注于为用户提供一体化公证服务。平台对接29个省市662家公证处,为各地用户提供便捷的公证申办通道。一对一线上咨询,不用到线下公证处排队,累计已为270000+用户提供高质、便捷、周到的线上公证服务。

CAXA数码大方

,数码大方是中国自主的工业软件公司,提供数字化设计CAD、数字化管理PLM和数字化制造MES等产品及服务,贯通企业研发设计和生产制造全流程,致力赋能智能制造和数字化转型,推动产教融合引领人才培养,成为中国自主的设计制造数字底座。

阳澄湖大闸蟹

阳澄湖莲花岛小宋蟹庄

杭州艾珀耐特工程科技有限公司

Ampelite(艾珀耐特)是澳大利亚专业的FRP采光板和防腐板制造商,工厂内设有两条全自动化生产线,年产量达720万米,FRP板材系列产品在澳大利亚市场占有率在八成以上。

范文大全

懒人范文网是专注工作总结范文的网站!提供免费范文模板,自我介绍范文,论文范文,入党申请书范文,个人简历范文,求职信范文,年终总结范文等等。

全局底部横幅