谈谈深度学习中记忆结构的设计和使用 从NLP终生学习开始

从NLP终生学习开始,谈谈深度学习中记忆结构的设计和使用

雷锋网 AI 科技评论按:终生学习,简单说是让模型有能力持续地学习新的信息,但更重要的是让模型学习新信息的同时还不要完全忘记以往学习过的内容(避免「灾难性遗忘」),是深度学习的长期发展和大规模应用中必不可少的一项模型能力。

近期,「NLP 网红」Sebastian Ruder 小哥把终生学习能力融入了语言模型中,方法是加入一个片段式记忆存储模块。实际上类似的做法也并不是第一次得到应用了,雷锋网 AI 科技评论一并介绍几篇相关论文。

终生语言学习中片段式记忆的作用

论文地址:

内容简介:首先我们把「终生语言学习」(lifelong language learning)任务定义为:模型需要从连续的文本样本流中学习,其中不会指明数据集的边界。作者们提出了一个用片段式记忆存储结构增强语言模型的方式,模型中的存储可以进行稀疏经验重放,也可以进行局部适应,以减缓这种任务中的灾难性遗忘现象。另外,作者们也表明,这个记忆存储结构的空间复杂度可以进行大幅简化(可以降低 50% 到 90%),只需要随机选择把哪些样本存储在记忆中,这种做法对性能的影响非常小。作者们认为片段式记忆存储部件是通用语言智能模型中不可或缺的重要组件。

通过记忆能力增强模型表现其实并不是新鲜事,「经验重放(experience replay)」的思路最早可以追溯到 1990 年代的强化学习机器人控制论文《Programming Robots Using ReinForcement Learning and Teaching》()以及《Self-Improving Reactive Agents Based On Reinforcement Learning, Planning and Teaching》 (),论文中用教学的方式让机器人学会新的技能,那么记忆能力就与教学过程相配合,记录已经学会的技能。

下面我们再介绍几个新一些的成果

通过深度强化学习实现人类级别的控制

论文地址:

论文亮点:DeepMind 发表在《Nature》的鼎鼎大名的 DQN 论文中也使用了经验重放。在强化学习的设定中,智能体通过与环境交互获得数据(相当于监督学习中的标注数据集),经验重放可以让智能体重放、排练曾经执行过的动作,更高效地使用已经采集到的数据。当然了,DQN 的另一大贡献是学习到原始输入的高维表征,不再需要人工的特征工程。

MEMOry-Augmented Monte Carlo Tree Search

记忆增强的蒙特卡洛树搜索

论文地址:~mmueller/ps/2018/Chenjun-Xiao-M-MCTS-aaai18-final.pdf

AAAI 2018 杰出论文

论文简介:这篇论文把一个记忆结构和蒙特卡洛树搜索结合起来,为在线实时搜索提出了一种新的利用泛化性的方式。记忆结构中的每个存储位置都可以包含某个特定状态的信息。通过综合类似的状态的估计结果,这些记忆可以生成逼近的估计值。作者们展示了,在随机情况下,基于记忆的逼近值有更高可能性比原始的蒙特卡洛树搜索表现更好。

经验重放还有一些高级改进

优先经验重放

论文地址:

论文亮点:这篇论文的作者们提出,在之前的研究中,智能体学习到的经验是均匀地从重放记忆中采样的。而既然记忆的存储来自于智能体实际的探索活动,这就意味着智能体进行活动、获得记忆的分布和从记忆中采样、利用记忆的分布是一样的。作者们认为,智能体获得的记忆中肯定有一些是重要的、有一些是不那么重要的,我们应当更多地利用比较重要的记忆,这样可以用同样多的记忆提高智能体的表现。这篇论文中作者们就设计了一个为记忆的优先程度排序的框架,更多地重放重要的记忆,以便更快地学习。作者们在 DQN 上做了这个实验,改进后的 DQN 比原来的(均一记忆)的 DQN 在绝大多数游戏中都取得了更好的表现。

后见经验重放

论文地址:

论文亮点:假想要让机械臂执行一个用末端在桌面上推方块到指定地点的任务。对于强化学习模型来说,初次尝试基本是注定失败的;如果不是特别的幸运,接下来的几次尝试也同样会失败。典型的强化学习算法是无法从这些失败经验中学习的,因为它们一直接收到固定的失败(-1)反馈,也就不含有任何可以指导学习的信号。

人类在执行任务的时候其实有一个直觉的感受是:即便我没有达成原来那个给定的目标,我起码还是完成了另外一个目标的。HER的核心思想就是把这一人类直觉公式化。在这里,HER会把实际达到的目标暂且看成要达到的目标;进行这个替换以后,算法认为自己毕竟达到了某个目标,从而可以得到一个学习信号进行学习,即便达到的目标并不是最开始任务要求的那个目标。如果持续进行这个过程,最终算法可以学会达成任意一个目标,其中也自然就包括了我们最开始要求的目标。

依靠这样的办法,即便最开始的时候机械臂根本就碰不到圆盘、以及反馈是稀疏的,最终它也学会了如何把圆盘拨到桌子上的指定位置。这个算法之所以称为Hindsight Experience Replay 后见经验重放,就是因为它是在完成了一次动作之后再选定目标、重放经验进行学习。也所以,HER可以和任何策略无关的强化学习算法结合起来使用,比如DDPG+HER。

这 7 篇论文打包下载:

雷锋网 AI 科技评论整理

原创文章,未经授权禁止转载。详情见 转载须知 。

从NLP终生学习开始,谈谈深度学习中记忆结构的设计和使用

全局中部横幅
新闻频道

搜狐视频新闻频道是中文互联网成立最早,最权威的视频新闻门户,为用户提供最新最全面的时事、社会、财经、名人、体育、地方等短视频资讯,看千里眼短视频,洞悉世间天下事。

图表秀

图表秀提供免费的在线图表制作工具,支持自由布局与联动交互分析,操作简单,支持动态交互的高级数据可视化分析图表的制作,图表美观,支持将图表分享到微信、微博等社交网络上。图表工具,免费图表,图表制作软件,数据可视化,数据分析,数据展示,图表软件,可视化分析软,酷炫图表,数据仪表盘,交互式数据,ppt图表,数据分析软件,Excel图表,柱状图,统计图,K线图,雷达图,热力图,关系图,四象限图,标签云

漫漫漫画

漫漫漫画是国内二次元漫画平台,连载大量原创正版国漫,不管是宅腐暖萌、古风奇幻、日常搞笑,统统都在这里。精美的漫画图片、高品质的漫画大全,看漫画就来漫漫漫画

次元小镇

次元小镇是一个动漫爱好者分享社区,动漫资源、资讯、动漫美图壁纸、音乐和cosplay资源小站,阿宅们快到碗里来ヽ(✿゜▽゜)ノ

马兰戈尼上海时装设计学院官网

马兰戈尼上海时装设计学院是马兰戈尼学院在上海的分校。马兰戈尼学院在2023年“QS世界大学学科排名”中的“艺术与设计”领域跻身世界前100所大学之列。马兰戈尼上海时装学院一直在培养新兴的时尚行业人才,在一系列时装设计、视觉营销设计与时尚买手培训课程中,让学生自由发展天赋,磨练他们的实力,并加强学生们对行业的认知。马兰戈尼上海时装设计学院的导师们拥有丰富的行业经验,能够帮助学生们学习如何成为优秀的时装设计师和时尚行业视觉营销的专家。

网易企业邮箱代理商

企业邮箱特价买三年送三年,买5年送5年,注册申请电话4000-789-168,现在申请购买网易企业邮箱还有更多精美礼品赠送、 网易企业邮箱购买另享5折优惠、iPhone、iPad、购物卡拿到手软,赶快找我们领取您的专属优惠吧,还可免费试用哦,不满意不付款 号外:如果目前使用的企业邮箱不好用,需要升级企业邮箱,都可以找我们更换网易企业邮箱,原邮箱的数据我们可以免费迁移

不锈钢轴承,不锈钢轴承价格,不锈钢轴承座

上海军旺轴承厂家直销,不锈钢轴承、不锈钢轴承座等产品,采购不锈钢轴承,不锈钢轴承座就找上海军旺轴承,电话:021-63563197

买牛,卖牛,带着健康数据的网上牲畜活体交易平台

云买牛是线上牛只交易平台,该网上交易软件连接买牛和卖牛双方,并提供地图搜索活畜信息,使用手机就可以在云买牛微信小程序上便捷地进行牲畜交易,通过云买牛购买的牛只,健康状态可溯源,放心可靠.

重庆渝府食品公司

渝府食品有限公司成立于2013年,是一家大型熟食生产企业。公司位于三峡核心城市―万州。公司旗下设有原生态养殖基地、食品生产分公司、研发中心、事业发展中心、营销发展中心、物流配送中心等。公司集百味,存精华,大胆创新研发出酱卤原味、成品熟食、凉拌菜系等多种独具风味的宴席佳肴。

西安团建公司

西安再续战火拓展团建公司,10年团建行业经验,100余种趣味游戏,周边20个拓展基地任选。免费量身定制方案,各种主题团建,趣味团建,创意团建,室内外等团建,满足你各种需求,全程一站保姆式服务!

全局底部横幅