最简单的自然语言处理数据增广方法 EDA (最简单的自然笔记)

文章编号:41465 资讯动态 2024-12-03 EDA数据增广自然语言处理

数据增广常用于计算机视觉。在视觉领域,你几乎肯定可以翻折、旋转或镜像一幅图片,而不用担心它的标记发生变化。然后,在自然语言处理(NLP)领域,情况完全不同。改变一个词有可能改变整个句子的意思。所以,没有简单的方法能做到数据增广。真的是这样么?

我向你介绍EDA:简单数据增广技术,可以大大提升文本分类任务的性能(在EDA GitHub repository有简单的实现代码)。EDA包含四个简单操作,能极好地防止过拟合,并训练出更强健的模型,分别是:

这些技术真有效吗?出乎意料,答案是肯定的。尽管生成的某些句子有点怪异,但是在数据集中的引入一些噪声,对于训练出一个健壮的模型来说,是极有好处的,特别是数据集比较小的时候。这篇论文指出,在5个文本分类任务的对比测试中,基于几乎所有大小的数据集,使用EDA都击败了常规训练方法,在训练数据集较小的时候,表现尤其突出。平均来说,用EDA训练一个循环神经网络(RNN),只需50%的训练数据,即可达到常规方法同等的精度。

文本分类任务的性能表现,相对于训练集的使用百分比。 使用EDA(简单数据增广),在小数据集时,远胜常规方法。

EDA会保留增广句子的真实标记吗?

我知道你在考试这个问题。真的能在做增广操作的同时,保留其真实标记吗?我们用画图形的方法来验证一下。

假设你训练一个关于产品的正面、负面评价的RNN,使用常规和增广的句子都跑一遍,抽取神经网络的最后一层,用sTNE画一个潜在空间图:

ProCon数据集原生及增广句子的潜在空间图

可以看到增广句子的潜在空间图紧紧围绕着原生句子!这表明所生成的增广句子极大可能的保留了原始句子的标记。

这些操作都有效吗?

现在,我们来看看数据增广技术中每个单独操作的效果是什么样的。同义词替换好理解,但是另外三个操作真的起作用吗?我们可以做一个实验,单独做其中一种操作,并代入不同的α值,参数α大致可理解为“句子中被改变的单词的百分比”:

在不同大小的数据集下,对比其它五种文本分类方法,EDA操作的平均性能增益。 参数α大致可理解为“句子中被每种增广操作改变的单词的百分比”。

你能看到,在小数据集时,性能增益非常大,达到大约2-3%,数据集大的时候,增益变小(~1%)。但是,各项操作综合起来,如果设置的增广参数合理(句子中改变的单词不超过四分之一),能使训练出的模型更健壮。

做多少增广?

最后,对于一个真实句子,我们应该增广出多少句子呢?答案取决于你的数据集的大小。如果你的数据集很小,很可能会出现过拟合,此时你应该生成多一些的增广句子。如果数据集比较大,增加太多的增广句子,意义不大,因为原有的数据已经能训练出一个好的模型了。这个图表显示了相对于每个原生句子生成的增广句子的数量的性能增益:

不同大小的数据集下全部五种文本分类任务的EDA平均性能增益。n_aug表示每原生句子生成的增广句子的数量。

下一步?

我们已经展示了在文本分类中,简单数据增广能显著提升性能。如果你正用小数据集训练一个文本分类器,并想取得更好的效果,请在模型中编程实现这些操作,或者从Github中下载EDA代码。更多详情请查看原文。

想要继续查看该篇文章相关链接和参考文献?

点击 EDA:最简单的自然语言处理数据增广方法 】 即可访问:

AI研习社今日推荐: 2019 最新斯坦福 CS224nNLP 课程

自然语言处理(NLP)是信息时代最重要的技术之一,也是人工智能的关键部分。NLP的应用无处不在,因为人们几乎用语言进行交流:网络搜索,广告,电子邮件,客户服务,语言翻译,医学报告等。近年来,深度学习方法在许多不同的NLP任务中获得了非常高的性能,使用单个端到端神经模型,不需要传统的,任务特定的特征工程。在本课程中,学生将深入了解NLP深度学习的前沿研究。

课程链接:

原创文章,未经授权禁止转载。详情见 转载须知 。

EDA:最简单的自然语言处理数据增广方法

全局中部横幅
爱企查首页

爱企查是百度推出的企业信用查询工具,提供一站式的企业信息查询服务,能够快速查询浏览工商信息、企业法人股东、主要成员、变更记录、企业风险、企业股权、网站icp备案、对外投资、分支机构、年报、企业财务信息等相关信息,查询信息就到爱企查官网,省时省力!

高顿教育官方网站

高顿教育集团,中国财经教育创导者。目前,已在全球50多座城市开设近150家分校及学习中心,累计获得百余项荣誉。加入高顿,与全球600万同学一起实现梦想的职业生涯!

上海楠傲网络科技有限公司

上海楠傲网络科技有限公司www.jnljm.com经营范围含:家居用品、来电显示器、轿车、熏香、工程承包、室外照明灯、灯具、户外服装、旅游休闲旅游用品、商务服务(依法须经批准的项目,经相关部门批准后方可开展经营活动)。

生活频道

360生活频道,包罗生活相关的方方面面,在这里你可以看到时尚、亲子、美食、健康、养生等相关资讯,通过快速实用的网址入口便捷到达您感兴趣的生活网站。

评论

评论频道是环球网的特色原创频道。环球网评论频道长期坚持“理性解读中国客观解读世界”的理念,逐渐形成了高端、权威、全面、争鸣等特点,严谨而不失活泼、犀利而不乏理性,在纷繁复杂的互联网上有效展示环球人的声音。

宁波邻家网络科技有限公司

邻家网络所运营的草料二维码是国内专业的二维码在线服务平台,占国内二维码云服务领域80%的市场份额,为用户提供一整套的二维码管理系统、二维码行业解决方案和定制开发服务

宝胜电缆

宝胜电缆是国内知名的电线电缆品牌。宝胜电缆主要从事电线电缆产品销售,包括民用住宅、商业地产、家用电器、开关设备电气连接、车辆线束、电子行业等线缆类别,是国家和行业二十多项电线电缆产品标准的编制单位。

成都血管医院排名哪家好

成都治疗血管病的医院有哪些?成都川蜀血管病医院是一家集外科/血管科/中医科/康复科等多科室血管专科医院,汇集省内外行业打卡,对格种血管疾病有全方位、多体系治疗方法。针对血管疾病有先进的技术和设备,在西南地区血管病临床诊疗取得了显著的成绩。

扬州高邮专业家政月嫂服务

想了解家政月嫂的价格和服务费用吗?我们提供扬州高邮家政月嫂价格一览,让您对月嫂服务的费用有一个清晰的了解。

哈尼手游网

哈尼手游网为您提供各种最新最热的手机游戏攻略,手游副本攻略,手游关卡攻略,还提供了最全的新手攻略和各种手游技巧攻略,只为让您更懂手游!

优派数码

优派数码,一个集知识分享与技术交流于一体的平台,专注于电脑、数码、家电等产品的深度解析与使用指南,为追求科技生活的您提供全面的支持。

博盛瑞泰(北京)科技有限公司

博盛瑞泰,SOPAT,sopat,在线粒度分析仪

全局底部横幅