最简单的自然语言处理数据增广方法 EDA (最简单的自然笔记)

文章编号:41465 资讯动态 2024-12-03 EDA数据增广自然语言处理

数据增广常用于计算机视觉。在视觉领域,你几乎肯定可以翻折、旋转或镜像一幅图片,而不用担心它的标记发生变化。然后,在自然语言处理(NLP)领域,情况完全不同。改变一个词有可能改变整个句子的意思。所以,没有简单的方法能做到数据增广。真的是这样么?

我向你介绍EDA:简单数据增广技术,可以大大提升文本分类任务的性能(在EDA Github repository有简单的实现代码)。EDA包含四个简单操作,能极好地防止过拟合,并训练出更强健的模型,分别是:

这些技术真有效吗?出乎意料,答案是肯定的。尽管生成的某些句子有点怪异,但是在数据集中的引入一些噪声,对于训练出一个健壮的模型来说,是极有好处的,特别是数据集比较小的时候。这篇论文指出,在5个文本分类任务的对比测试中,基于几乎所有大小的数据集,使用EDA都击败了常规训练方法,在训练数据集较小的时候,表现尤其突出。平均来说,用EDA训练一个循环神经网络(RNN),只需50%的训练数据,即可达到常规方法同等的精度。

文本分类任务的性能表现,相对于训练集的使用百分比。 使用EDA(简单数据增广),在小数据集时,远胜常规方法。

EDA会保留增广句子的真实标记吗?

我知道你在考试这个问题。真的能在做增广操作的同时,保留其真实标记吗?我们用画图形的方法来验证一下。

假设你训练一个关于产品的正面、负面评价的RNN,使用常规和增广的句子都跑一遍,抽取神经网络的最后一层,用sTNE画一个潜在空间图:

ProCon数据集原生及增广句子的潜在空间图

可以看到增广句子的潜在空间图紧紧围绕着原生句子!这表明所生成的增广句子极大可能的保留了原始句子的标记。

这些操作都有效吗?

现在,我们来看看数据增广技术中每个单独操作的效果是什么样的。同义词替换好理解,但是另外三个操作真的起作用吗?我们可以做一个实验,单独做其中一种操作,并代入不同的α值,参数α大致可理解为“句子中被改变的单词的百分比”:

在不同大小的数据集下,对比其它五种文本分类方法,EDA操作的平均性能增益。 参数α大致可理解为“句子中被每种增广操作改变的单词的百分比”。

你能看到,在小数据集时,性能增益非常大,达到大约2-3%,数据集大的时候,增益变小(~1%)。但是,各项操作综合起来,如果设置的增广参数合理(句子中改变的单词不超过四分之一),能使训练出的模型更健壮。

做多少增广?

最后,对于一个真实句子,我们应该增广出多少句子呢?答案取决于你的数据集的大小。如果你的数据集很小,很可能会出现过拟合,此时你应该生成多一些的增广句子。如果数据集比较大,增加太多的增广句子,意义不大,因为原有的数据已经能训练出一个好的模型了。这个图表显示了相对于每个原生句子生成的增广句子的数量的性能增益:

不同大小的数据集下全部五种文本分类任务的EDA平均性能增益。n_aug表示每原生句子生成的增广句子的数量。

下一步?

我们已经展示了在文本分类中,简单数据增广能显著提升性能。如果你正用小数据集训练一个文本分类器,并想取得更好的效果,请在模型中编程实现这些操作,或者从Github中下载EDA代码。更多详情请查看原文。

想要继续查看该篇文章相关链接和参考文献?

点击 EDA:最简单的自然语言处理数据增广方法 】 即可访问:

AI研习社今日推荐: 2019 最新斯坦福 CS224nNLP 课程

自然语言处理(NLP)是信息时代最重要的技术之一,也是人工智能的关键部分。NLP的应用无处不在,因为人们几乎用语言进行交流:网络搜索,广告,电子邮件,客户服务,语言翻译,医学报告等。近年来,深度学习方法在许多不同的NLP任务中获得了非常高的性能,使用单个端到端神经模型,不需要传统的,任务特定的特征工程。在本课程中,学生将深入了解NLP深度学习的前沿研究。

课程链接:

原创文章,未经授权禁止转载。详情见 转载须知 。

EDA:最简单的自然语言处理数据增广方法

全局中部横幅
个人理财

专业理财产品评测,权威海量理财专家顾问,及时全面理财资讯,新浪财经个人理财版为您提供专属财富服务。

小龙虾加盟品牌

四川虾霸天餐饮连锁管理有限公司是一家经营特色小龙虾餐饮的服务型机构平台,全部采用深水精养小龙虾,是全国规模较大的自有小龙虾养殖基地,已成为原生态小龙虾的领导者。

耐磨陶瓷片,耐磨陶瓷

淄博科峰陶瓷有限公司集技术研发、生产、销售于一体,是国内专业的耐磨陶瓷片,陶瓷橡胶复合衬板,耐磨陶瓷管道,耐磨陶瓷弯头,施工工程陶瓷供货商。服务电话:13805335977

超级股票模拟器

超级股票模拟器,凭一指软件开发,用于离线学习股票玩法提升眼光和技术,拥有实时数据模拟、非实时模拟,支持多界面皮肤模板切换身临其境模拟,支持手机/电脑模拟持仓股票交割单生成器,凭一指软件免费下载官网。

微位科技

微位科技是国内领先的数字身份服务商,基于区块链、加密和通讯技术,搭建可信数字身份平台,帮助商业伙伴实现可信通讯服务。客户包括中国电信,中国联通,中国平安、顺丰、滴滴、联想等50余万家知名企业。公司布局于区块链数字身份领域,拥有发明专利、软件著作、商标二十余项知识产权。2019年首批获得网信办备案登记的区块链企业,2019年入选科创委评选的深圳创新70强企业。微位科技的数字身份技术还支撑了5G网络下,视频电话的可信身份认证。

分享呦

分享呦是一个收集超多资源至此的资源站,供广大用户朋友们更方便的查找自己想要的内容,拒绝繁琐,拒绝收费,拒绝引流,感谢大家支持。

三国志11

三国之家提供三国系列题材游戏下载与攻略大全:包含三国志11、三国志11威力加强版、三国志11血色衣冠等三国志11系列MOD,以及经典的三国志9-14,真三国无双系列游戏,三国群英传系列游戏,以及同类型的全面战争三国、信长之野望、骑马与砍杀、三国杀、三国志战略版等各类型三国主题游戏攻略、秘籍、图文流程剧情介绍等内容。

胶体磨

乳品设备,胶体磨,混合机,研磨机,转子泵,乳化机,钛白加工设备,钛白粉胶体磨,均质机,封闭式胶体磨,胶体泵-销售0577-86999999浙江昊星机械设备制造有限公司-混合器|液料混料泵,沥青胶体磨,气动浆料泵,高剪切乳化机,乳化均质泵.釜底分散乳化机,分散均质乳化混合机,混合泵,卫生阀门管件胶体泵,,饮料加工机械,化工机械,制药机械,制药设备,轻工机械,乳品机械,温州胶体磨厂家,价格优惠,品质优良,欢迎订购!

山西寰烁电子科技股份有限公司

山西寰烁电子科技股份有限公司(简称“寰烁股份”,股票代码832773),初创于1998年,定位全国县域智慧教育生态运营服务商,新三板挂牌公司,山西省高新技术企业,“国家智慧教育示范区”核心支撑工程战略服务单位。总部位于山西运城盐湖高新区,在北京、深圳、太原、西安、三亚等地设有分子公司,主要从事县域智慧教育整体解决方案的提供;县域智慧教育生态运营;教育信息化设备制造与教育创新项目服务。

兴土股份有限公司

兴土股份专注中国桥梁施工服务:钢便桥、交通钢桥、钢平台、钢围堰、0#块托架、挂篮、模板、连续梁施工、安全楼梯、临边护栏、墩身防护架、安全护栏施工作业车、卸落块、预压块、预应力智能张拉设备。

全局底部横幅