多语种语言理解再上新台阶! 2022三项冠军 科大讯飞拿下SemEval (多语种研究)
近日,第十六届国际语义评测(The 16thInternational Workshop on Semantic Evaluation, SemEval 2022)大赛落下帷幕,科大讯飞在三项主要赛道中拿下冠军,标志着科大讯飞在多语种语言理解领域持续进阶。
SemEval 2022评测由国际计算语言学协会(Association For Computational Linguistics, ACL)旗下SIGLEX主办,迄今已举办16届,参赛者覆盖国内、外一流高校及知名企业,包括达特茅斯学院、谢菲尔德大学、华为、阿里达摩院等,代表着最前沿国际技术和水平。
经过角逐,科大讯飞分别在“多语种新闻相似度评测任务”(Task8)、“多语种惯用语识别任务” 子赛道(Task2: Subtask A ONE-shot)、“多语种复杂命名实体识别任务”(Task11)三个子赛道中拿下冠军。
新闻相似度评价:目光如炬
本次SemEval2022评测聚焦的Task 8是多语种新闻相似度评价任务。科大讯飞与哈尔滨工业大学联合组建的“哈工大讯飞联合实验室”(Joint Laboratory of HIT and iFLYTEK Research,简称HFL)以显著优势摘得冠军。
简单来说,参赛队伍需要在每组新闻中判断是否描述了同一个事件,并以1-4分为两篇新闻的相似度打分,其中包含了多达10种语言,分别为阿拉伯语、德语、英语、西班牙语、法语、意大利语、波兰语、俄语、土耳其语和中文。但新闻相似度究竟是什么?让我们用一则示例为大家解读。
图中列举了两篇相似度极高的新闻稿件,参赛队伍必须将文中相似的主要元素剥离出来并逐一分析,比如地理信息、叙事技巧、实体、语气、时间及风格,最终得出两篇文章的相似度与差异化。
与普通的文章相比,该项比赛更强调跨语言理解能力,除了写作风格和叙述方式外,还需要把握文章中描述的具体事件。通俗来说,该项技术可以甄别外网的一些新闻报道是否存在偏差与曲解,从而有效预防虚假信息、不良信息的传播。
科大讯飞在这样的赛道上拔得头筹,充分展示了在跨语言理解能力上的强硬实力。
惯用语检测:熟能生巧
哈工大讯飞联合实验室拿下的第二项任务冠军,便是Task2SubtaskA的惯用语检测。通俗来说,无论你是哪国人,在日常表达中都有一类短语的固定用法,并且该固定用法通常与短语的字面语义不同,我们会将这些短语称为“惯用语”。想要理解包含惯用语的句子,首先需要判断句子中的多字短语是否为惯用语,比如“说曹操,曹操到。”句中的曹操是否真实存在。
该任务的形式便是给定一个目标语句,包括其上下文和多字短语,继而判断该语句中的多字短语用法究竟是惯用语还是字面意思。该任务为多语言任务,包含英语、葡萄牙语、加利西亚语三种语言。其中加利西亚语没有在训练集中出现过,因此科大讯飞代表队需要在不同语言之间进行迁移学习。
还是不懂?别担心,让我们来看一则示例。
如例所示,Literal表示字面意思,第一句话可翻译为:当你从网中抓一条大鱼时,最好撑住它的腰。Idiomatic表示惯用语,所以第二句话中再次出现了大鱼一词,但却不是简单的字面意思,而是“大人物”。
所以该任务要求参赛队伍区分不同句子中同一个词的不同语义,这需要强大的分析及跨语言理解能力。有了该项技术,在日常写作和翻译工作中,即可有效鉴别惯用语的表达用意,极大提高内容准确率。
科大讯飞不负众望,再摘桂冠。
复杂命名实体识别:披荆斩棘
这第三冠有多难?光听名字就觉得复杂:多语种复杂命名实体识别任务(MutiCoNER)。科大讯飞联合中国科学技术大学语音及语言信息处理国家工程研究中心迎难而上,在该项任务中一举拿下三个子赛道冠军。
我们先拆解一下MuticoNER这个词,Muti是multilingual(多语言)的简称,Co即是complex (复杂),而NER则是Named Entity Recognition,又称作“命名实体识别”,是指识别文本中具有特定意义的实体,主要包括人名、地名、机构名、专有名词等。
该任务是一个多语言赛道数据集,包含11项单独语言命名实体评测任务,以及2项多语言统一建模的评测任务。该榜单数据来源于Wikidata(维基数据),数据量庞大且极具应用价值。参赛团队需要在单个语言以及多个语言混合的文本数据中,精准预测不同语言实体的类别标签。该任务采用国际通用的槽位F1评价指标,我们在多语言混合、中文、孟加拉语赛道上,分别以92.9%、81.6%、84.2%的F1成绩登顶。
这项任务究竟有多难?举个例子:NER是指从用户文本中按照业务需求识别出实体的类别,之前任务基本上一句话中仅会出现一到两个实体,本次任务需要抽出多实体增加实体抽取难度,同时需要具备多语种能力,例如【(皇马)[organization]除了首轮负于[克星拉科](organization)以外,现在已是四连胜。(Rafael van der Vaart)[PER]、(Gonzalo Higuaín)[PER]和(Arjen Robben)[PER]的表现出色。】既要识别出多个相关实体,同时是各语种夹杂的文本。
此前针对中文和英文需要单独进行模型建模,此次有关赛道的挑战是仅使用一个模型来可以完成不同语种任务,能够快速识别复杂、专有词汇,提高准确率。
拒绝纸上谈兵,技术应用要落地
当前,人类已进入“人、机、物”智能互联时代,智能语音是这个时代最为关键的入口之一,有助于实现语言大互通,建设人类命运共同体。科大讯飞始终保持初心、坚持源头核心技术创新,在语音、语义等国际赛事中为国争光。
在去年11月举办的国际低资源多种语音识别竞赛OpenASR中,科大讯飞参加了所有15个语种受限赛道和7个语种非受限赛道,并全部取得了第一名,而在SemEval 2022多语种NLP领域中取得佳绩也标志着科大讯飞在多语言理解与跨语言迁移能力再上新台阶,从多语种语音到多语种语言都有着顶尖技术实力。
而在今年的北京冬奥会和冬残奥会上,科大讯飞作为“官方自动语音转换与翻译独家供应商”,为所有观众展现了一场“无障碍沟通”的体育盛会。
基于强大的多语种语音语言技术,我们可以做到语种足够全、翻译足够准、反应足够快,支持包括冬奥体育在内的16大行业领域翻译,在冬奥应用场景下,中文与英/俄/法/西/日等重点语种的翻译准确率超过90%,平均每句语音翻译响应时间不超过1.5秒,一方面帮助各国观众、游客快速掌握赛事信息,另一方面我们特别希望帮助听障人士运用科技的手段听得见奥运文字,看得见奥运声音。
值得一提的是,科大讯飞AI虚拟人 “爱加(i+)”也成为了冬奥会的一名“虚拟志愿者”。在北京冬奥小屋中,爱加可以用多种语言与各国运动员进行面对面的交流,助力冬奥的无障碍沟通。科大讯飞运用语音识别、语音合成、口唇驱动、面部驱动、肢体动作驱动等多项核心技术,打造出虚拟形象自动化内容生产方案,让虚拟人不仅会说普通话,同时支持31种语言及方言,是不折不扣的“语言通”,不仅能进行面对面的冬奥赛事、赛程实时互动交流,还能陪你玩一把冬奥知识游戏大PK,周边交通、文化、旅游等咨询问答也不在话下。
除此之外,在教育、医疗、司法等场景中的各类行业人工智能应用中,多语种语音交互系统都将发挥重要作用。经过多年的技术积累,除了中英以外,当前科大讯飞已经具备其他69种语言的语音识别能力,其中已经有35个语种准确率已经超过90%,并已在新加坡、俄罗斯、印度、日本等国家部署了海外站点,将持续为海内外开发者提供语音识别、语音合成、机器翻译、图文识别等语音语言服务。
如何更好地研发包括中文在内的多语种语音及语言技术的AI能力并实现大规模应用落地,如何更好地用人工智能技术服务社会、建设美好世界,是我们不断奋斗努力的方向。
未来,科大讯飞将不断开展人工智能源头技术创新,助力中国人工智能在全球赢得话语权,实现更多人工智能创新应用真正解决社会刚需,蓬勃向上,生生不息。
版权文章,未经授权禁止转载。详情见 转载须知 。
宁夏恒康科技有限公司成立于2013年,位于宁夏贺兰工业园区,占地面积13万平方米,注册资金2亿元,是集胍盐类中间体、医药原料、动物营养、食品保健、新型材料等产品的研发、生产、销售为一体的科技型企业。公司现有员工300余名,53%以上拥有大专以上学历。公司建有1300平米的研发实验室,拥有独立的研发技术中心及配套的研发设备,具有完善的产品检测设备,QC实验室拥有液相色谱仪(HPLC)、气相色谱仪(GC)、红外光谱仪(IR)、质谱仪(MS)等实验设备,可独立开展相关的产品研发项目。依托自身丰富的人才优势和先进的硬件设施,公司承担多项自治区级科研示范项目,在盐酸二甲双胍、GAA、肌酸、DICY超细粉工艺技术创新方面取得了突出成果,相关技术指标达到国际先进水平。公司先后获评国家高新技术企业、自治区瞪羚企业、自治区科技型中小企业、专精特新中小企业、宁夏氰胺类医药中间体工程研究中心、宁夏医药中间体(贺兰)技术创新中心、贺兰县节水型企业及获得欧盟CEP和韩国KFDA等法规市场的通行证。