商业语音识别系统存在高错误率 研究发现 (商业语音识别软件)

文章编号:40799 资讯动态 2024-12-03 语音识别系统特征提取ASR

雷锋网讯,“某些语音识别系统(ASR)的准确性可能要比之前假定的差很多。”这是最近约翰·霍普金斯大学、波兰波兹南工业大学、弗罗茨瓦夫科技大学以及初创公司Avaya的研究人员一项正在进行的研究主要发现。

这项研究对内部创建的数据集上的商业语音识别模型进行了基准测试。共同作者声称,词错误率(Word Error Rate, WER)(一种常见的语音识别性能指标)要显著高于最佳报告结果,这可能表明自然语言处理(NLP)领域存在更多待克服的问题。

据了解,目前ASR已广泛应用于诸多场景中,如电话会议、电子邮件、智能设备等。ASR模型的综合基准中,标准语料库的WER仅有2%~3%,而正是这一统计数据遭到了上述作者的质疑。他们声称,大多数ASR的交互场景都是在“类似于聊天机器人”的背景下进行的,说话人往往因为意识到跟他们的交互对象是聊天机器人,因此通常会将命令简化成结构紧凑的简短词语,而非正常的自然对话。

作者基于来自1595个供应商和1261个客户的50个呼叫中心对话数据集对几套ASR系统进行了评估。其通常时间长达8.5个小时,其中2.2个小时是对话。通过测试,作者发现ASR系统的错误率基本在15%以下,这与基准测试中的2%相悖。

研究发现,商业语音识别系统存在高错误率

研究人员将这一问题归结为领域适应性问题——基准测试使用了单一性语料,例如Librispeech(1000小时英语有声读物录音)、WSJ(新闻口述的谈话)和Switchboard(电话交谈),这些都可能太过简单而无法真正挑战ASR系统的可靠性。

而且,尽管他们试图刻意模仿真实、自发的对话,但本质上还是受约束的,比如需要配音演员,就某一合适主题进行脚本/半脚本对话,而且正是由于配音演员的存在,几乎都不需要考虑因性别、母语因素而产生的发音问题。

作为一种补救措施,研究人员建议ASR和NLP社区收集和注释音频数据集,使其更好地与ASR系统的实际应用场景保持一致,他们还呼吁建立更具包容性的声学模型,更广泛的方言语料库,这些改变将会促进音频信号处理的技术改进。

因此,这些问题并非无法克服。“学界和工业界应该深思熟虑,考虑可以创建高质量的测试数据集。我们认为,对ASR准确性的过于乐观会损害NLP领域下游应用程序的开发。”研究人员最后表示。

雷锋网讯,“某些语音识别系统(ASR)的准确性可能要比之前假定的差很多。”这是最近约翰·霍普金斯大学、波兰波兹南工业大学、弗罗茨瓦夫科技大学以及初创公司Avaya的研究人员一项正在进行的研究主要发现。

这项研究对内部创建的数据集上的商业语音识别模型进行了基准测试。共同作者声称,词错误率(Word Error Rate, WER)(一种常见的语音识别性能指标)要显著高于最佳报告结果,这可能表明自然语言处理(NLP)领域存在更多待克服的问题。

据了解,目前ASR已广泛应用于诸多场景中,如电话会议、电子邮件、智能设备等。ASR模型的综合基准中,标准语料库的WER仅有2%~3%,而正是这一统计数据遭到了上述作者的质疑。他们声称,大多数ASR的交互场景都是在“类似于聊天机器人”的背景下进行的,说话人往往因为意识到跟他们的交互对象是聊天机器人,因此通常会将命令简化成结构紧凑的简短词语,而非正常的自然对话。

作者基于来自1595个供应商和1261个客户的50个呼叫中心对话数据集对几套ASR系统进行了评估。其通常时间长达8.5个小时,其中2.2个小时是对话。通过测试,作者发现ASR系统的错误率基本在15%以下,这与基准测试中的2%相悖。

研究人员将这一问题归结为领域适应性问题——基准测试使用了单一性语料,例如Librispeech(1000小时英语有声读物录音)、WSJ(新闻口述的谈话)和Switchboard(电话交谈),这些都可能太过简单而无法真正挑战ASR系统的可靠性。

而且,尽管他们试图刻意模仿真实、自发的对话,但本质上还是受约束的,比如需要配音演员,就某一合适主题进行脚本/半脚本对话,而且正是由于配音演员的存在,几乎都不需要考虑因性别、母语因素而产生的发音问题。

作为一种补救措施,研究人员建议ASR和NLP社区收集和注释音频数据集,使其更好地与ASR系统的实际应用场景保持一致,他们还呼吁建立更具包容性的声学模型,更广泛的方言语料库,这些改变将会促进音频信号处理的技术改进。

因此,这些问题并非无法克服。“学界和工业界应该深思熟虑,考虑可以创建高质量的测试数据集。我们认为,对ASR准确性的过于乐观会损害NLP领域下游应用程序的开发。”研究人员最后表示。

(雷锋网雷锋网)

原创文章,未经授权禁止转载。详情见 转载须知 。

全局中部横幅
北京天鹅到家保姆

北京天鹅到家为您提供专业、便捷、安心的标准化到家服务,主要包括家电维修、汽车养护、健康美食、保姆月嫂服务、便民服务、丽人美甲、搬家速运等专业服务,北京天鹅到家,简单、美好、轻松的全新生活方式。

源码

站长下载提供免费网站源码下载(asp源码,php源码,.net源码),源码动态,使用教程和源码评测;为站长推介有价值的源码,为开发者宣传源码作品。

创业项目一站式低成本创业投资加盟代理产品知识网

创业项目汇聚了互联网上热门、低成本创业项目,创业机会,行业分析等创业实战经验知识为您免费分享。

成都静脉曲张医院

成都治疗静脉曲张最好的医院-成都川蜀血管病医院创建于2014年,医院位于四川省成都市武侯大道双楠段217号,是治疗血管瘤|胎记|鲜红斑痣|康复于一体的国家二级医院。

杭州活动策划公司

杭州隐秀道易活动策划,发布会年会策划,周年庆,开业庆典礼仪,行业峰会布置,演艺舞美.创意活动策划方案省心,年会策划流程省钱,公关活动靠谱!1000家成功活动案例

北京天使儿童医院地址

北京天使儿童医院「预约挂号」是一家以多动症、抽动症等疑难儿童为主要治疗对象的儿科医院,是北京治疗多动症、抽动症、自闭症、矮小症、性早熟、脑瘫等儿科疾病好的医院,坐落于北京市朝阳区广渠路大郊亭2号楼的北京儿童医院,口碑好为人熟知.

提供专业的各类CMS网站建设开发服务

寻找专业的CMS网站建设服务?【辣辣建站吧】是您的首选。我们是一家专业的CMS网站建设开发工作室,专注于为客户提供定制化的CMS网站建设开发服务。凭借我们的专业技术和丰富经验,我们致力于为客户提供高品质的网站解决方案。联系我们,让我们共同实现您的网站梦想!

地下管线探测

地下管线探测|排水管道污染源调查|管线数据处理软件研发、销售|排水管道CCTV检测|多功能管线探测仪销售-保定市长信地下管线探测有限公司

办理ICP证

中企百通是一家专业的icp许可证代理公司,业务包含文网文证(网络文化经营许可证)ICP许可证,edi许可证,idc许可证,isp许可证等互联网通信资质代办服务。

全局底部横幅