多语种语言理解再上新台阶! 2022三项冠军 科大讯飞拿下SemEval (多语种研究)

近日,第十六届国际语义评测(The 16thInternational Workshop on Semantic Evaluation, SemEval 2022)大赛落下帷幕,科大讯飞在三项主要赛道中拿下冠军,标志着科大讯飞在多语种语言理解领域持续进阶。

科大讯飞拿下SemEval 2022三项冠军,多语种语言理解再上新台阶!

SemEval 2022评测由国际计算语言学协会(Association for Computational Linguistics, ACL)旗下SIGLEX主办,迄今已举办16届,参赛者覆盖国内、外一流高校及知名企业,包括达特茅斯学院、谢菲尔德大学、华为、阿里达摩院等,代表着最前沿国际技术和水平

经过角逐,科大讯飞分别在“多语种新闻相似度评测任务”(Task8)、“多语种惯用语识别任务” 子赛道(Task2: Subtask A one-shot)、“多语种复杂命名实体识别任务”(Task11)三个子赛道中拿下冠军。

新闻相似度评价:目光如炬

本次SemEval2022评测聚焦的Task 8是多语种新闻相似度评价任务。科大讯飞与哈尔滨工业大学联合组建的“哈工大讯飞联合实验室”(Joint Laboratory of HIT and iFLYTEK Research,简称HFL)以显著优势摘得冠军。

简单来说,参赛队伍需要在每组新闻中判断是否描述了同一个事件,并以1-4分为两篇新闻的相似度打分,其中包含了多达10种语言,分别为阿拉伯语、德语、英语、西班牙语、法语、意大利语、波兰语、俄语、土耳其语和中文。但新闻相似度究竟是什么?让我们用一则示例为大家解读。

科大讯飞拿下SemEval 2022三项冠军,多语种语言理解再上新台阶!

图中列举了两篇相似度极高的新闻稿件,参赛队伍必须将文中相似的主要元素剥离出来并逐一分析,比如地理信息、叙事技巧、实体、语气、时间及风格,最终得出两篇文章的相似度与差异化。

与普通的文章相比,该项比赛更强调跨语言理解能力,除了写作风格和叙述方式外,还需要把握文章中描述的具体事件。通俗来说,该项技术可以甄别外网的一些新闻报道是否存在偏差与曲解,从而有效预防虚假信息、不良信息的传播。

科大讯飞在这样的赛道上拔得头筹,充分展示了在跨语言理解能力上的强硬实力。

惯用语检测:熟能生巧

哈工大讯飞联合实验室拿下的第二项任务冠军,便是Task2SubtaskA的惯用语检测。通俗来说,无论你是哪国人,在日常表达中都有一类短语的固定用法,并且该固定用法通常与短语的字面语义不同,我们会将这些短语称为“惯用语”。想要理解包含惯用语的句子,首先需要判断句子中的多字短语是否为惯用语,比如“说曹操,曹操到。”句中的曹操是否真实存在。

该任务的形式便是给定一个目标语句,包括其上下文和多字短语,继而判断该语句中的多字短语用法究竟是惯用语还是字面意思。该任务为多语言任务,包含英语、葡萄牙语、加利西亚语三种语言。其中加利西亚语没有在训练集中出现过,因此科大讯飞代表队需要在不同语言之间进行迁移学习。

还是不懂?别担心,让我们来看一则示例。

科大讯飞拿下SemEval 2022三项冠军,多语种语言理解再上新台阶!

如例所示,Literal表示字面意思,第一句话可翻译为:当你从网中抓一条大鱼时,最好撑住它的腰。Idiomatic表示惯用语,所以第二句话中再次出现了大鱼一词,但却不是简单的字面意思,而是“大人物”。

所以该任务要求参赛队伍区分不同句子中同一个词的不同语义,这需要强大的分析及跨语言理解能力。有了该项技术,在日常写作和翻译工作中,即可有效鉴别惯用语的表达用意,极大提高内容准确率。

科大讯飞不负众望,再摘桂冠。

复杂命名实体识别:披荆斩棘

这第三冠有多难?光听名字就觉得复杂:多语种复杂命名实体识别任务(MutiCoNER)。科大讯飞联合中国科学技术大学语音及语言信息处理国家工程研究中心迎难而上,在该项任务中一举拿下三个子赛道冠军。

我们先拆解一下MuticoNER这个词,Muti是multilingual(多语言)的简称,Co即是complex (复杂),而NER则是Named Entity Recognition,又称作“命名实体识别”,是指识别文本中具有特定意义的实体,主要包括人名、地名、机构名、专有名词等。

该任务是一个多语言赛道数据集,包含11项单独语言命名实体评测任务,以及2项多语言统一建模的评测任务。该榜单数据来源于Wikidata(维基数据),数据量庞大且极具应用价值。参赛团队需要在单个语言以及多个语言混合的文本数据中,精准预测不同语言实体的类别标签。该任务采用国际通用的槽位F1评价指标,我们在多语言混合、中文、孟加拉语赛道上,分别以92.9%、81.6%、84.2%的F1成绩登顶。

这项任务究竟有多难?举个例子:NER是指从用户文本中按照业务需求识别出实体的类别,之前任务基本上一句话中仅会出现一到两个实体,本次任务需要抽出多实体增加实体抽取难度,同时需要具备多语种能力,例如【(皇马)[orGANization]除了首轮负于[克星拉科](organization)以外,现在已是四连胜。(Rafael van der Vaart)[PER]、(Gonzalo Higuaín)[PER]和(Arjen Robben)[PER]的表现出色。】既要识别出多个相关实体,同时是各语种夹杂的文本。

此前针对中文和英文需要单独进行模型建模,此次有关赛道的挑战是仅使用一个模型来可以完成不同语种任务,能够快速识别复杂、专有词汇,提高准确率。

科大讯飞拿下SemEval 2022三项冠军,多语种语言理解再上新台阶!

科大讯飞拿下SemEval 2022三项冠军,多语种语言理解再上新台阶!

拒绝纸上谈兵,技术应用要落地

当前,人类已进入“人、机、物”智能互联时代,智能语音是这个时代最为关键的入口之一,有助于实现语言大互通,建设人类命运共同体。科大讯飞始终保持初心、坚持源头核心技术创新,在语音、语义等国际赛事中为国争光。

在去年11月举办的国际低资源多种语音识别竞赛OpenASR中,科大讯飞参加了所有15个语种受限赛道和7个语种非受限赛道,并全部取得了第一名,而在SemEval 2022多语种NLP领域中取得佳绩也标志着科大讯飞在多语言理解与跨语言迁移能力再上新台阶,从多语种语音到多语种语言都有着顶尖技术实力。

而在今年的北京冬奥会和冬残奥会上,科大讯飞作为“官方自动语音转换与翻译独家供应商”,为所有观众展现了一场“无障碍沟通”的体育盛会。

基于强大的多语种语音语言技术,我们可以做到语种足够全、翻译足够准、反应足够快,支持包括冬奥体育在内的16大行业领域翻译,在冬奥应用场景下,中文与英/俄/法/西/日等重点语种的翻译准确率超过90%,平均每句语音翻译响应时间不超过1.5秒,一方面帮助各国观众、游客快速掌握赛事信息,另一方面我们特别希望帮助听障人士运用科技的手段听得见奥运文字,看得见奥运声音。

科大讯飞拿下SemEval 2022三项冠军,多语种语言理解再上新台阶!

值得一提的是,科大讯飞AI虚拟人 “爱加(i+)”也成为了冬奥会的一名“虚拟志愿者”。在北京冬奥小屋中,爱加可以用多种语言与各国运动员进行面对面的交流,助力冬奥的无障碍沟通。科大讯飞运用语音识别、语音合成、口唇驱动、面部驱动、肢体动作驱动等多项核心技术,打造出虚拟形象自动化内容生产方案,让虚拟人不仅会说普通话,同时支持31种语言及方言,是不折不扣的“语言通”,不仅能进行面对面的冬奥赛事、赛程实时互动交流,还能陪你玩一把冬奥知识游戏大PK,周边交通、文化、旅游等咨询问答也不在话下。

除此之外,在教育、医疗、司法等场景中的各类行业人工智能应用中,多语种语音交互系统都将发挥重要作用。经过多年的技术积累,除了中英以外,当前科大讯飞已经具备其他69种语言的语音识别能力,其中已经有35个语种准确率已经超过90%,并已在新加坡、俄罗斯、印度、日本等国家部署了海外站点,将持续为海内外开发者提供语音识别、语音合成、机器翻译、图文识别等语音语言服务。

如何更好地研发包括中文在内的多语种语音及语言技术的AI能力并实现大规模应用落地,如何更好地用人工智能技术服务社会、建设美好世界,是我们不断奋斗努力的方向。

未来,科大讯飞将不断开展人工智能源头技术创新,助力中国人工智能在全球赢得话语权,实现更多人工智能创新应用真正解决社会刚需,蓬勃向上,生生不息。

版权文章,未经授权禁止转载。详情见 转载须知 。

全局中部横幅
360移动权重

查询360权重和360的关键字排名,查询360权重和360的关键字排名

新浪娱乐首页

新浪娱乐是最新最全面的娱乐新闻信息综合站点,包括明星、电影、最新影讯/影评、电影院在线购票订座、电视剧、音乐、戏剧、演出等娱乐信息。

健康网站导航大全

LOL网址导航网是专业的上网导航网站,精心收录各类优质热门网站信息,同时提供天气、快递、违章等各种生活便民查询工具网址,为您提供安全便捷的上网导航服务,现已被众多网友设为上网主页,网址导航大全首选LOL网址导航.

蜻蜓手游下载网

蜻蜓手游网为全网下载速度最快的移动下载网站,全站游戏软件皆为绿色免费下载,提供的下载内容包括安卓游戏下载,安卓软件下载及最新最热门的手机游戏等,蜻蜓手游网将精心为用户推荐每一款app。

中国科普博览

中国科普博览(简称博览),中国科学院权威出品、专业打造的中科院科普云平台,提供高品质的科普教育与科学文化服务, 共享人类科学,与科学同行。博览以科研为依托,汇聚百余所科研机构的高端科学资源,聚焦国内外前沿科技和科学突破;以专业为基 础,云集千余位各科学领域的科学大家,洞察热点和生活中的科学真相;以创新为引领,讲述当代科技、教育与文化等领域创新的非凡 思想和生命故事,传播有温度有态度的新科学观。

广东比实希科技有限公司

广东比实希科技有限公司是一家以条码设备制造、条码软件研发为核心的高新技术企业。企业立足于自动化、自动识别领域,以先进的自动化、条码、RFID、技术为核心,坚持走自主研发,品牌化的发展道路,企业拥有十几年的条码设备、条码软件研发、生产、销售、服务经验,并打造了“bsc”标签回卷器、标签剥离机、手持贴标机、条码打印机、条码扫描器系列产品,成为了自动化、自动识别技术应用领域领先的、专业的条码设备、条码软件研发生产制造厂商。

沧州万群管道设备制造有限公司

沧州万群管道设备制造有限公司主营:碳钢法兰,碳钢弯头,碳钢弯管,碳钢三通系列产品,公司是集产品制造,制造,销售,为一体的科技型规模公司,从事高压管件,管道配件及组件的设计制造。

深圳宣传片拍摄制作公司

【象美传媒】深圳宣传片制作,拍摄产品广告片,海外众筹视频拍摄,企业短剧拍摄公司,深圳宣传片制作影视团队,企业宣传片拍摄/产品TVC广告宣传片,产品短视频拍摄制作筹划执行

两高律师事务所

北京市两高律师事务所是经北京市司法局批准成立的合伙制律师事务所,是一所专家型综合性律师事务所。两高所律师是由一批毕业于中国政法大学、中国人民大学、北京大学等著名高等学府的法学博士、法学硕士等法学精英创办的,他们接受过严格系统的法学教育,严谨敬业,从业经验非常丰富。

宁波波导股份有限公司

欢迎光临宁波波导股份有限公司,宁波波导股份有限公司是专业从事移动通讯产品开发、制造和销售的高科技上市公司,是通过国家科技部和中国科学院的高新技术企业评审的国家级重点高新技术企业

外墙清洗,地毯清洗,园林绿化

东莞市浩忆清洁服务有限公司以专业的管理团队,以及独到的管理模式在同行业中迅速崛起,不断吸引高端管理人才,引进先进的管理模式,为顾客提供一系列精细保洁服务。专业提供驻场保洁、外墙清洗、园林绿化、开荒保洁、四害消杀、石材养护、地毯清洗、空气治理等保洁服务。

全局底部横幅