微软研究新进展告诉你答案 会话转录可以实时进行 (微软新技术)

文章编号:42456 资讯动态 2024-12-04 微软人工智能会话转录语音

雷锋网按:会话转录能够实时进行?而且还支持多人、远场语音转录?是的,这些新的转录功能都是微软研究所近期在口语处理上取得的新进展,雷锋网将其文章全文编译如下。

在强大的云计算基础设施和大量训练数据的支持下,深度学习算法如今已经成为了 AI 进化之旅的最重要驱动力。下面的几个任务是语音和语言社区里广泛使用的公开基准测试,在过去的三年里,微软首次在这些任务上取得了可以和人类相媲美的表现。

2017:语音识别:对话语音转录任务(总机)

2018:机器翻译:汉英新闻翻译任务(WMT17)

2019:对话问答:斯坦福会话问答任务 (CoQA)

这些突破对从翻译应用到智能扬声器的众多口语应用产生了深远的影响。虽然现在市面上已经有了智能音箱,但大多数智能音箱一次只能处理一个人的语音指令,并且在发出这样的指令之前,需要一个唤醒词。微软研究在Azure语音服务中加入了一些重大的技术突破,并提供了新的对话转录功能,该功能将在今天的预览版中提供。通过微软所引用的设备SDK (DDK),纯音频或视听麦克风阵列设备的可用性增强了这一功能。这是人工智能进化过程中的重要一步,因为几十年来,环境远场多人语音转录一直是科幻小说的主要内容。

新的会话转录功能扩展了微软现有的Azure语音服务,支持实时、多人、远场语音转录和说话人归因。与语音DDK相结合,会话转录可以有效地识别房间里一小群人的会话语音,并生成一个处理常见但具有挑战性的场景(如“串话”)的转录。

对于有兴趣尝试具有视频功能的端到端转录解决方案的客户,微软正在与部门客户和像Accenture、Avanade和Roobo这些的系统集成伙伴接洽,分别在美国和中国定制和整合对话转录解决方案。这种先进的能力类似于微软在去年的构建中首次展示的功能。感兴趣的企业可以向微软申请预览,体验由人工智能支持的对话转录是如何提高协作力和生产力的。

会话转录功能够利用多通道数据,包括来自代号为普林斯顿塔的语音DDK的音频和视觉信号。边缘设备是建立在微软参考设计的360度音频麦克风阵列或360度鱼眼摄像头的基础上的,通过视听融合来支持更好的转录。边缘设备将信号发送到Azure 云端进行神经信号处理和语音识别。纯音频麦克风阵列DDKs可以从购买。先进的视听麦克风阵列DDKs可从微软的系统集成合作伙伴处获得。

微软不断创新去超越传统的麦克风阵列和先进的视听麦克风阵列DDKs。今天,微软还公布了最新的研究进展(丹麦项目),该项目利用一组现有的设备,如配备普通麦克风的手机或笔记本电脑,动态创建虚拟麦克风阵列。虚拟麦克风阵列将现有设备(如手机或笔记本电脑)与普通麦克风(如乐高积木)动态地组合成一个更大的阵列。丹麦项目可以帮助微软的客户更容易地使用Azure语音服务,随时随地转录对话,无论有没有一个专门的麦克风阵列DDK。未来的应用程序场景是非常广泛的。例如,我们可以对多个微软翻译器应用进行配对,以帮助多人更有效地使用移动电话进行沟通,从而将语言障碍降到最低。可以在//build Vision Keynote查看最新研究进展和展示。

会话转录可以实时进行?微软研究新进展告诉你答案

【 图片来源: Microsoft ReseArch Blog 所有者:Microsoft Research Blog 】

最后,如果有像缩略语这样的专业词汇,准确的语音转录是非常困难的。为了解决这个问题,微软正在扩展Azure的自定义语音识别功能,并允许组织使用Office 365数据轻松地创建自定义语音模型。对于选择使用该服务的Office 365企业客户,Azure可以自动生成一个自定义模型,该模型利用Office 365中的联系人、电子邮件和文档等数据,以一种完全隔离、安全且兼容的方式进行操作,在组织特定的方言上提供了更准确的语音转录,如技术术语和人员姓名。对于有兴趣尝试这个新功能的客户,微软将为您的组织提供一个私人预览,让您从专用的和优化的语音服务中获益。

会话转录可以实时进行?微软研究新进展告诉你答案

【 图片来源: Microsoft Research Blog 所有者:Microsoft Research Blog 】

微软的Azure语音服务一直支持微软自己的M365解决方案以及许多使用相同统一语音平台的第三方客户。从Allstate到小米,都开始利用Azure语音服务来加速他们的数字化转型。 微软可以使用NLP技术进一步增强最终的自动会议记录和Azure会话转录,例如机器翻译、QA,去帮助客户实现更多目标。

雷锋网注:本文编译自Microsoft Research Blog

版权文章,未经授权禁止转载。详情见 转载须知 。

全局中部横幅
湖南九鼎科技(集团)有限公司

湖南九鼎集团是一家专注于猪饲料的研究与开发,勇于探索、不断创新,致力于和养猪业主一道挖掘养殖潜力,提升养殖水平,提高养殖效益的公司,总部设在湖南省长沙市雨花区万家丽中路2段8号华晨世纪广场B栋8楼,现拥有近30家分子公司.拥有产品:九鼎小猪料,九鼎大猪料,九鼎教槽料,九鼎哺乳料,九鼎浓缩料,九鼎预混料.热线:400-9618-660

猫粮代理

加粮站平台提供全国上百种猫粮代理,致力于狗粮微商代理加盟,工厂一手货源直供一件代发,欢迎免费宠物粮代理咨询。

矿山工程监理甲级资质

矿山工程监理甲级资质公司拥有矿山工程监理甲级资质,具备卓越的技术实力和丰富的行业经验。矿山工程监理甲级资质公司专业团队由众多资深的矿山工程专家组成,他们以精湛的专业知识和高度的责任心,为每一个项目提供全方位的监理服务。

研课堂

济南大学研究生在线学习平台

贵阳网络推广,贵阳网站建设,贵阳seo优化

贵阳盛世齐天信息技术有限公司是一家以提供全套的网络营销服务为发展主线,集网站建设、网络推广、seo优化、竞价托管等网络服务为一体的服务提供商.现已成为贵阳互联网行业的佼佼者!

蒙牛官网

中国领先的乳制品供应商,FIFA世界杯官方赞助商。欢迎访问蒙牛官方网站,了解蒙牛最新产品,预约参观蒙牛工厂。

热台

上海绘统光学仪器厂是专业的生物显微镜,偏光显微镜,相称显微镜,金相显微镜供应商,主营产品有:生物显微镜,偏光显微镜,相称显微镜,金相显微镜等,上海绘统光学仪器厂不仅具有专业的技术水平,更有良好的售后服务和优质的解决方案,欢迎来电洽谈

上海蠡慧投资管理合伙企业(有限合伙)

上海蠡慧投资合伙企业成立于2017年7月,注册于上海市黄浦区,注册资本1000万元人民币。公司于2018年1月通过中国基金业协会备案,公司协会备案号P1066660。

焕发生物

广东省肇庆焕发生物科技有限公司是一家以玉米为原料生产淀粉糖及其衍生物的高新技术企业,厂家主营淀粉糖、山梨醇、焦糖色、植脂末、烘焙、油脂、结晶糖醇等产品的生产制造,公司是全国淀粉糖十强企业,中国农业500强,广东省重点农业龙头企业。

【天成医疗】医疗设备管理和综合服务平台

为医疗器械企业、医院等机构提供医学工程设计施工、招标采购、电子商务、信息系统、科研成果转化、进出口、产品报证和体系考核、设备管理服务、物流配送、健康管理、媒体宣传与推广服务,是目前国内领先的线上线下一体化医疗产业专业服务平台

全局底部横幅