EMNLP 2021 (Emnlp2023)

文章编号：43857 资讯动态 2024-12-09 罗氏博阿齐奇大学 2021 EMNLP

EMNLP 2021 | 罗氏和博阿齐奇大学研究合作团队提出：多标签文本分类中长尾分布的平衡策略

作者简介：黄毅，本文一作，目前为罗氏集团的数据科学家，研究领域为自然语言处理的生物医学应用。

摘要

多标签文本分类是自然语言处理中的一类经典任务，训练模型为给定文本标记上不定数目的类别标签。然而实际应用时，各类别标签的训练数据量往往差异较大（不平衡分类问题），甚至是长尾分布，影响了所获得模型的效果。重采样（Resampling）和重加权（Reweighting）常用于应对不平衡分类问题，但由于多标签文本分类的场景下类别标签间存在关联，现有方法会导致对高频标签的过采样。本项工作中，我们探讨了优化损失函数的策略，尤其是平衡损失函数在多标签文本分类中的应用。基于通用数据集 (Reuters-21578，90 个标签) 和生物医学领域数据集（PubMed，18211 个标签）的多组实验，我们发现一类分布平衡损失函数的表现整体优于常用损失函数。研究人员近期发现该类损失函数对图像识别模型的效果提升，而我们的工作进一步证明其在自然语言处理中的有效性。

引言

多标签文本分类是自然语言处理（NLP）的核心任务之一，旨在为给定文本从标签库中找到多个相关标签，可应用于搜索（Prabhu et al., 2018）和产品分类（Agrawal et al., 2013）等诸多场景。图 1 展示了通用多标签文本分类数据集 Reuters-21578 的样例数据（Hayes and Weinstein, 1990）。

图1 Reuters-21578 的样例数据（仅展示文章标题）。

标签后面的数字代表数据集中带有该标签的数据实例个数。

当标签数据存在长尾分布（不平衡分类）和标签连锁（类别共现）时，多标签文本分类会变得更加复杂（图2）。长尾分布，指的是一小部分标签（即头部标签）有很多数据实例，而大多数标签（即尾部标签）只有很少数据实例的不平衡分类情况。标签连锁，指的是头部标签与尾部标签共同出现导致模型对头部标签的权重倾斜。现有的 NLP 解决方案包括但不限于：在分类中对尾部标签重采样（Estabrooks et al., 2004; Charte et al., 2015），模型初始化时将类别共现信息纳入考虑（Kurata et al., 2016），以及将头尾部标签混合的多任务架构方案 (Yang et al., 2020) 。但这些方案依赖于模型架构的专门设计，或不适用于长尾分布数据。

EMNLP 2021 | 罗氏和博阿齐奇大学研究合作团队提出：多标签文本分类中长尾分布的平衡策略

图2 Reuters-21578的长尾分布和标签连锁现象。

热图矩阵展示了第i列标签在含第j行标签数据实例中的条件概率p(i|j)

近年来，计算机视觉（CV）领域也有不少关于多标签分类的研究。其中，优化损失函数的策略已被用于多种 CV 任务，如对象识别（Durand et al., 2019; Milletari et al., 2016）、语义分割（Ge et al., 2018）与医学影像（Li et al., 2020a）等。平衡损失函数，如 Focal loss (Lin et al., 2017)、Class-balanced loss (Cui et al., 2019) 和 Distribution-balanced loss (Wu et al., 2020) 等，提供了针对多标签图像分类的长尾分布和标签连锁问题的解决方案。由于损失函数的调整可以独立于模型架构地灵活嵌入常见模型，NLP 中也逐步有类似的优化损失函数的策略探索（Li et al., 2020b; Cohan et al., 2020）。例如，(Li et al., 2020b) 将医学图像分割任务中的 Dice loss (Milletari et al., 2016) 引入 NLP，显著改善了多种任务的模型效果。

本项工作中，我们将一类新的平衡损失函数引入 NLP，用于多标签文本分类任务，并使用 Reuters-21578（一个通用的小型数据集）和 PubMed（一个生物医学领域的大型数据集）数据集进行了实验。对于这两个数据集，分布平衡损失函数在总指标上优于其他损失函数，并且显著改善了尾部标签的模型表现。我们认为，平衡损失函数为多标签文本分类的应用提供了一个有效策略。

方法介绍

多标签文本分类中，二值交叉熵（Binary Cross Entropy, BCE）是较常用的损失函数 (Bengio et al., 2013)。原始的 BCE 容易被大量头部标签或负样本干扰。近年来，一些新的损失函数通过调节 BCE 的权重，实现了模型训练过程的相对平衡。我们在此回顾了三类损失函数设计。

Focal loss （FL）通过模型对数据实例标记标签的“难易程度”为 BCE 设计权重 (Lin et al., 2017)。对于同一数据实例，相比可轻松分类（p值接近真实值）的标签，难以标记（p值远离真实值）的标签将获得比 BCE 更高的权重。由于 FL 在模型训练过程中良好的自适应效果，下述两类损失函数也采用了这一组件。

Class-balanced focal loss（CB）通过估计数据采样的有效数量，将每个标签增量训练数据的边际效用纳入考虑，在不同训练数据支持的标签间调节权重 (Cui et al., 2019)。

Distribution-balanced loss（DB，分布平衡损失函数）则是在 FL 基础上添加了两部分组件 (Wu et al., 2020)。其一为 Rebalancing 组件，减少了标签连锁带来的冗余信息，其二为 Negative Tolerant Regularization （NTR）组件，在不同正负样本数目的标签间调节权重，降低尾部标签的阈值。

上述损失函数的具体设计如图3所示（简单起见已略去求和平均项）。

EMNLP 2021 | 罗氏和博阿齐奇大学研究合作团队提出：多标签文本分类中长尾分布的平衡策略

图3 损失函数的具体设计。

本项工作中，我们使用了两个不同数据量和领域的多标签文本分类数据集（表 1）。Reuters-21578 数据集包含1987 年刊登在路透社的一万多份新闻文章（Hayes and Weinstein, 1990）。我们按照（Yang and Liu, 1999）使用的训练-测试分割数据，并将 90 个标签平均分为头部（30 个标签，各含 ≥35 个实例）、中部（31 个标签，各含 8-35 个实例）和尾部（30 个标签，各含 ≤8 个实例）标签的子集。PubMed 数据集则来自 BioASQ 竞赛（Licence：8283NLM123），包含PubMed 文章的标题、摘要及对应的生物医学主题词标记 (MeSH)（Tsatsaronis et al.，2015; Coordinators, 2017）。类似地，18211个标签按分位数分为头部（6018 个标签，各含≥50 个实例）、中部（5581 个标签，各含 15-50 个实例）和尾部（6612 个标签，各含 ≤15 个实例）标签的子集。

EMNLP 2021 | 罗氏和博阿齐奇大学研究合作团队提出：多标签文本分类中长尾分布的平衡策略

表1 实验用数据集的基本信息

实验

我们比较了不同损失函数与经典 SVM one-vs-rest 模型的表现。对于各个数据集和模型，我们计算了标签集整体以及头部、中部、尾部标签子集的micro-F1 和 macro-F1 得分（Wu et al., 2019；Lipton et al., 2014 ）。表 2 汇总了不同损失函数的实验结果。Reuters-21578 结果中，BCE 的表现最差。依次对比 micro-F1 和 macro-F1之间、及不同组间的得分可以看出长尾分布的影响。PubMed 数据由于不平衡更明显，长尾分布的影响更大。

对于 Reuters-21578 数据集，损失函数 FL、CB、R-FL 和 NTR-FL 在头部标签中的表现与 BCE 相似，但在中部和尾部标签中的表现优于 BCE，说明它们对于不平衡问题的改进。DB 在尾部标签改进最明显，整体表现也优于先前使用相同数据集的解决方案，例如 Binary Relevance、EncDec、CNN、CNN-RNN、Optimal Completion Distillation和 GNN 等（Nam et al., 2017 ; Pal et al., 2020；Tsai and Lee et al., 2020）。对于PubMed 数据集，由于BCE 中部和尾部标签已失效，我们使用 FL 作为更强的基线。其他损失函数在中部和尾部标签中的表现均优于 FL。DB 再次证明了其在整体、中部和尾部标签的良好效果。

我们进一步尝试从 DB 中去除一个组件，即移除 NTR 组件得到 R-FL、移除 Rebalancing 组件得到 NTR-FL，移除 FL 组件得到 DB-0FL，通过比较三个残缺模型探索对应三个组件的效果。如表 2 所示，对于两个数据集，移除 NTR 组件 (R-FL) 或 FL 组件 (DB-0FL) 会降低所有亚组的模型效果。移除 Rebalancing 组件 (NTR-FL) 产生相似的整体 micro-F1，但整体 macro-F1 及中部和尾部标签 F1 得分不如 DB，显示增加Rebalancing 组件的作用。最终，我们还尝试将 NTR-FL 与 CB 集成，从而得到一个全新的损失函数 CB-NTR，它在两个数据集上得到的所有 F1 值均优于 CB。 CB-NTR 和 DB 间的唯一区别是使用 CB 权重替换了 Rebalancing 权重，而 DB 在中部和尾部标签中的表现优于或非常接近 CB-NTR，可能来自于通过 Rebalancing 权重处理标签连锁对模型效果的提升。

结语

针对多标签文本分类中的不平衡分类问题，我们研究了优化损失函数的策略，并系统比较了各种平衡损失函数的效果。次将 DB 引入 NLP，并设计了全新的平衡损失函数 CB-NTR。在开放数据集 Reuters-21578（90 类标签，通用领域）和 PubMed（18211 类标签，生物医学领域）的实验表明，DB 的模型效果优于其他损失函数。这项研究证明，优化损失函数的策略可以有效解决多标签文本分类时不平衡分类的问题。该策略由于仅需调整损失函数，可以灵活兼容各种基于神经网络的模型框架，也适用于其他受到长尾分布影响的 NLP 任务。

罗氏集团制药部门中国 CIO 该工作来自于合作团队在生物医学领域的深度学习应用探索。相比于日常文本，生物医学领域的语料往往更专业，而标注更稀疏，导致 AI 应用面临“最后一公里”的落地挑战。本论文从稀疏标注的长尾分布等问题入手，由 CV 前沿研究引入损失函数并优化，使得既有 NLP 模型可以在框架不变的情况下将训练资源向实例较少的类别平衡，进而实现整体的模型效果提升。很高兴看到此策略在面临类似问题的日常文本上同样有效，希望继续与院校、企业在前沿技术的研究与应用上扎实共创。

EMNLP 2021 | 罗氏和博阿齐奇大学研究合作团队提出：多标签文本分类中长尾分布的平衡策略

版权文章，未经授权禁止转载。详情见转载须知。

EMNLP 2021 | 罗氏和博阿齐奇大学研究合作团队提出：多标签文本分类中长尾分布的平衡策略

谷普下载提醒您

本文链接：http://www.gpxz.com/article/a31b345cfed398ad90d8.html

上一篇：成为全球最大智能手机芯片厂商首次登顶联发

下一篇：亚马逊用AI语音技术为企业提供品牌服务亚马

百一测评

百一测评是亚信科技(中国)旗下功能强大的，免费的企业级在线考试系统。用户群包括：[一]企业事业类：校园招聘大规模在线笔试、员工考核、人才职业测评，能力测评，技能测评；[二]学校类：K12电子作业平台、技工学校技能评测、高校知识竞赛；[三]资格证模考：在线模考试卷、资格证题库等。同时支持手机考试、电脑考试的企业级在线考试云平台和在线考试系统。

手机软件 2024-07-13 17:03:00

云上杭州官网

云上杭州官网-云上公司注册，简称云上杭州官网-云上公司注册，是互联网线上虚拟园区，通过互联网的办法提供线下园区几乎所有的配套服务。除电子营业执照办理外，还能提供政策申报与兑现、线上培训、引导基金等服务。

互联资讯 2024-08-18 00:28:16

工业除湿机

江苏湿井电器制造有限公司专业销售工业除湿机,加湿器设备公司,提供恒温恒湿机,调温除湿机,防爆除湿机,防爆除湿机,工业除湿器,工业抽湿机等,销往:长沙,武汉,沈阳除湿机,杭州,广州,南京除湿机,郑州，西安,太原,兰州,银川,西宁除湿机,乌鲁木齐,呼和浩特,海口,南宁除湿机,大连,深圳,福州,济南,石家庄,长春,昆明,沈阳抽湿机等城市,承接各种工业除湿器耐低温除湿机等科技型企业之一.

企业品牌 2024-08-11 00:54:36

广州市唯我品牌策划有限公司

唯我品牌策划专业提供公关活动,活动策划,年会策划庆典策划开业庆典策划开业庆典,启动仪式,发布会,公关活动案例,公关活动形式,搭建制作,活动制作,舞美制作,公关传播等上千场各式活动的策划和管理经验案例在等你！

管理咨询 2024-08-18 18:21:15

山明王

东方哲学应用传承传递传播

网络应用 2024-08-18 18:49:27

广州救护车租赁,高危转运接送

广州安捷救护车出租专业高危病人长途跨省转运护送,提供全国及跨国包机,专业接送其他公司不敢接不能接的重患,设备齐全,安全及时送达到目的地,一家方便、快捷、舒适的正规救护车租赁

安全杀毒 2024-11-13 18:24:45

云投稿

云投稿网是国内专业的论文投稿自助平台，全天24小时自助投稿；本投稿网站收录了数千本学术期刊，方便了各界学者对期刊更好的了解，向适合自己文章的杂志投稿，丰富了我国期刊网数据资源，是国内学术期刊网中值得推荐的网站之一。

下载资源 2024-12-09 22:31:31

二手气流纺设备,二手清花机,二手并条机,二手粗纱机,二手纺纱设备

正阳纺机供销调剂公司主营二手清花机,二手气流纺设备,二手梳棉机,二手并条机,二手粗纱机,二手络筒机等二手纺织设备.

电影视频 2025-01-15 19:36:56

广西大胜利农资有限公司

电影视频 2025-01-29 17:37:13

签证旅游网

韩国5年多次签证,韩国10年多次签证,韩国留学签证,日本3年多次签证,日本5年多次签证,美国10年多次

网站模板 2025-02-09 17:17:21

成都失眠医院

成都哪家医院治疗失眠较好,成都治疗失眠医院:成都棕南医院精神科，环境优美，交通方便，主任医师带队，一堆一面诊，收费透明，平价医院，一直以来，深受广大患者的好评！地址：成都市二环路南二段19号。

电影视频 2025-02-09 23:09:45

Germany

GermanyTrinit德国特瑞尼特是一家专业从事采暖材料设计、生产、销售的品牌制造商，产品品类涵盖采暖管道、分集水器、电热执行器、地暖温控器、散热器阀门、地暖挤塑保温板等辅材及配件。

设计美化 2025-02-24 16:29:33

松松2023年工作汇报 (松松207关)

各位同事，大家上午好，今天是2024年1月2号，是我们新年上班的第一天，今天我们的开会内容主要是回顾2023年公司整体发展的情况，1.人员方面整个2023年是我们松松公司人员是最稳定的一年，招聘了2位兼职、离职了1位同事，但也是我们花在人力资源上最少的一年，2023年的前四个月，尤其是春节前后，应该是人心最不稳的前四个月，但是到了后半...。

2025-02-01 18:06:26

加盟费用高吗龙胜管业品质怎么样 (加盟费用高吗知乎)

健康饮用水管对于现在装修行业来说有着很大的需求，水管工程属于隐蔽工程，对于水管的质量，品牌的认可度都很高，龙胜管业品牌创办时间就很长，在市场经营已经有20多年时间，龙胜管业品质怎么样，加盟费用高吗，龙胜管业经过很多年的努力以后，能够在给水管、采暖管、开关插座、灯具照明、集成吊顶、换气扇等一些领域做的更出色，把水电建材产品做好生产和批发...。

2024-12-21 23:19:48

外带寿司店加盟哪家好 (寿司外带加盟)

寿司是日本的传统美食，后来传入中华，并发展成为中华民众喜爱的食品之一，有投入者想要做寿司这一行，不知道外带寿司店加盟哪一家好，中之禾餐饮就是一个不错的选择，这家店在提供堂食的同时，也为消费者提供外送业务，您可以经过网络预定或者打电话预定的方式来选择您喜爱的寿司类型，中之禾餐饮提供的寿司种类繁多，营养丰富，口感多样，深受广大消费者的喜爱...。

2024-12-04 18:15:52

滴滴跨界联动原神抽全年打车免单和原神好礼 (滴滴跨界联动是啥意思)

再过几天就是农历春节了，路边的灯笼、门上的福字、窗上的窗花，每天都在提醒我们年更近了点，打个车去赶大集、逛庙会、看舞狮，也是不少人会选择的迎春节方式，这其中被称为，太平乐，的舞狮往往会吸引不少人的眼光，与传统舞狮一样，游戏世界里也有一个舞兽少年，嘉明，，新近走进了大家的视野，并与，原神，游戏一起，走到了滴滴出行App中，2月2日，滴滴...。

2024-11-30 23:28:55

银行局中人眼里的AI江湖五大赛道八位专家 (银行局人物)

2020于全体银行而言，是一场无预告的终极考验，一轮最直观的金融科技对决，疫情让网点流量骤降到接近于0，全方位挑战银行线上服务水平，检验那些连年增加的科技投入，有多少真正变作数字化、智能化的一点一滴，踏进2021，银行们迎来周密复盘、整装待发的最好时间节点，在过去这一年，银行更努力地摆脱大象转身的刻板印象，告别以往被各路创新推着走的窘...。

2024-11-30 20:05:13

小红书 UGC 社区的一体两面 (小红书ugc什么意思)

十年前，小红书初创，站在UGC和PGC的十字路口，小红书创始人星矢，毛文超，决心选择了，UGC，方向，一个原因是，PGC只能提供标准答案，亲身经历有时候比权威更重要，十年后，小红书用户过亿，坚持的仍是，UGC，内核，50%流量分给素人，另外50%交给算法，成为当下过亿产品独树一帜般的存在，这种，反常识，的思考和抉择，让人们看到了主流内...。

2024-11-30 15:19:01

一文了解雷神银翼F60配置雷神银翼F60投影仪怎么样 (一文了解雷神的作品)

发表在其它家用投影仪品牌2024，11，2715，19雷神银翼F60是一款千元价位的投影仪，雷神本是一个显示器品牌，做投影仪还算手生，那么雷神银翼F60投影仪怎么样呢，下面就来全方面了解一下，看看雷神银翼F60投影仪是否可以满足家用观影需求，雷神银翼F60投影仪怎么样，1.光学参数在亮度方面，雷神银翼F60的实际亮度达到800CVIA...。

2024-11-28 13:05:20

彩纸屋下载-彩纸屋(少儿编程系统)v1.5.7官方最新版

彩纸屋是一款专注于少儿编程学习的优秀软件。为您提供入门级别的编程界面，极大的提高了孩子们的编程学习兴趣

2023-11-10 14:02:57

mysql远程连接数据加密方式，mysql远程连接设置-MySQL

怎么连接远程的数据库怎么连接远程的数据库软件选择数据库，安全性，点击新建链接服务器。选择链接服务器属性，常规，输入名称：TEST，选择ORACLE数据库提供程序，输入名称、数据源。进行安全性设置。首先本地通过在安装目录bin下disql命

2023-11-03 22:44:15

8月二手房、新房成交量同比下降，北京楼市静待房地产新政|房源|郭毅|签约量|新建商品住宅

8月二手房、新房成交量同比下降，北京楼市静待房地产新政,房源,郭毅,二手房,签约量,房地产,北京市,北京楼市,新房成交量,新建商品住宅

2023-09-02 16:47:02

CAD迷你画图官方下载-CAD迷你画图下载v2023R4官方免费版-

CAD迷你画图,CAD迷你画图是一款小巧便捷、经典的CAD制图软件，功能专业齐全，简洁易用。CAD迷你画图免费版支持PDF随心转换、云图库、云字体、智能3D等等众多黑科技,您可以免费下载。

2023-08-11 17:25:08

毛笔字体免费下载和在线预览

站长字体(font.chinaz.com)提供毛笔字体免费下载，以及毛笔字体在线预览服务，您可以实时预览并下载您所需要的字体。

2023-08-11 16:19:38

文章推荐

任天堂 Switch 版 OLED 马力欧红色套装开卖售价2599元 (任天堂switch能玩什么游戏)

10月6日消息，以，马力欧红色，作为主配色的，NintendoSwitch，OLED版，马力欧红色套装，于今日全球同步发售，建议零售价2599元，官方表示，，NintendoSwitch，OLED版，马力欧红色套装，的主色调，是经典角色马力欧服装外观中的，马力欧红色，，基座背面还设计有马力欧的剪影和隐藏金币，此外，套装中的2只Joy，...。

2025-02-02 18:38:17

资讯动态

有屏幕是一种趋势智能音箱市场还有机会腾讯李学朝 (有屏幕是一种什么现象)

凭什么她有最新、最热门的电影和歌曲；凭什么我们都要听她指挥，她说怎样就怎样；凭什么小主人都不和我玩游戏了；凭什么大家都不用我视频了，只要喊她一声就能和爷爷奶奶通话，一回来就围着她转……，，，不要问凭什么，要问什么屏，这是，继今年4月20日，腾讯首次发布其智能音箱产品，腾讯听听之后，腾讯在该领域的又一动作，2018年12月18日下午...。

2024-12-03 16:42:05

资讯动态

大眼橙C1D高亮版投影仪怎么样一文了解大眼橙C1D高亮版配置 (大眼橙C1D参数)

发表在大眼橙投影仪2024，10，2809，26大眼橙C1D高亮版是大眼橙C1D的升级版本，主要提升了投影亮度，具体大眼橙C1D高亮版投影仪怎么样呢，下面就分享大眼橙C1D高亮版投影仪的详细参数配置，看看这款投影仪优缺点有哪些，是否可以符合家用需求，大眼橙C1D高亮版投影仪怎么样，1.光学参数在亮度方面，大眼橙C1D高亮版的实际亮度达...。

2024-11-28 19:56:20

网络百科

寸头有几种 (寸头有几种类型)

寸头种类主要有三种，寸头是一种很常见的发型，指的是头发的长度剪得很短，基本上接近头皮，根据不同的剪发方式和风格，寸头主要分为以下三种类型，1.基础寸头，这是最经典的寸头样式，头发的两侧和后部被剪得非常短，几乎接近皮肤，头顶的头发稍微留长，可以稍微梳理一下，呈现出自然的线条，这种寸头适合各种场合和年龄段，给人一种干练、利落的感觉，2.渐...。

2024-11-18 18:39:29

资讯动态

中介小哥奋战国庆长假清晨才吃上饭两天卖出两套新房 (中介小哥奋战国庆:凌晨才吃上饭丬L)

广州某名目售楼处受访者供图，长假第一天加第二天，贝壳在全广州卖了1000多套新房，我卖了2套，10月3日，贝壳广州区域中介陈敏，化名，通知，每日经济资讯，记者，片面敞开限购，叠加，止跌回稳，定和谐一系列组合拳，广州楼市的购置力被迅速激活，很多中介小哥又进入了，一天只吃一顿，的超长待机形态，家里人都不允许我干这行，我的肠胃也不好，但...。

2024-11-12 21:56:29

游戏娱乐

EMNLP 2021 (Emnlp2023)

相关文章

文章推荐