强化学习的10个现实应用

文章编号:46631 资讯动态 2024-12-10 强化学习

译者:AI研习社( 季一帆 、)


强化学习的10个现实应用

在强化学习中,我们使用奖惩机制来训练agents。Agent做出正确的行为会得到奖励,做出错误的行为就会受到惩罚。这样的话,agent就会试着将自己的错误行为最少化,将自己的正确行为最多化。

强化学习的10个现实应用

本文我们将会聚焦于强化学习在现实生活中的实际应用。

很多论文都提到了深度强化学习在自动驾驶领域中的应用。在无人驾驶中,需要考虑的问题是非常多的,如:不同地方的限速不同限速,是否是可行驶区域,如何躲避障碍等问题。

有些自动驾驶的任务可以与强化学习相结合,比如轨迹优化,运动规划,动态路径,最优控制,以及高速路中的情景学习策略。

比如,自动停车策略能够完成自动停车。变道能够使用q-learning来实现,超车能应用超车学习策略来完成超车的同时躲避障碍并且此后保持一个稳定得速度。

AWS DeepRacer 是一款设计用来测试强化学习在实际轨道中的变现的自动驾驶赛车。它能使用摄像头来可视化赛道,并且可以使用强化学习模型来控制油门和方向。

强化学习的10个现实应用

Wayve.ai已经成功应用了强化学习来训练一辆车如何在白天驾驶。他们使用了深度强化学习算法来处理车道跟随任务的问题。他们的网络结构是一个有4个卷积层和3个全连接层的深层神经网络。例子如图。中间的图像表示驾驶员视角。

强化学习的10个现实应用

强化学习在工业自动化中的应用

在工业自动化中,基于强化学习的机器人被用于执行各种任务。这些机器人不仅效率比人类更高,还可以执行危险任务。

Deepmind使用AI智能体来冷却Google数据中心 是一个成功的应用案例。通过这种方式,节省了40%的能源支出。现在,这些数据中心完全由人工智能系统控制,除了很少数据中心的专家,几乎不再需要其他人工干预。该系统的工作方式如下:

当然,具体的措施还是由本地控制系统操作完成。

强化学习在金融贸易中的应用

有监督的 时间序列 模型可用来预测未来的销售额,还可以预测股票价格。然而,这些模型并不能决定在特定股价下应采取何种行动,强化学习(RL)正是为此问题而生。通过市场基准标准对RL模型进行评估,确保RL智能体正确做出持有、购买或是出售的决定,以保证最佳收益。

通过强化学习,金融贸易不再像从前那样由分析师做出每一个决策,真正实现机器的自动决策。例如,构建有一个强大的、面向金融交易的强化学习平台,该平台根据每一笔金融交易的损失或利润来调整奖励函数。

强化学习在自然语言处理NLP中的应用

RL可用于文本摘要、问答和机器翻译等NLP任务。

Eunsol Choi、Daniel Hewlett和Jakob Uszkoret在 论文 中提出了一种基于RL的长文本问答方法。具体而言,首先从文档中选出几个与问题相关的句子,然后结合所选句子和问句通过RNN生成答案。

强化学习的10个现实应用

该论文 结合监督学习与强化学习生成抽象文本摘要。论文作者Romain Paulus, Caiming Xiong和Richard Socher等人希望解决基于注意力的RNN编解码模型在摘要生成中面临的问题。论文提出了一种新的内注意力神经网络,通过该注意力可以关注输入并连续生成输出,监督学习和强化学习被用于模型训练。

强化学习的10个现实应用

至于机器翻译, 科罗拉多大学和马里兰大学的研究人员 提出了一种基于强化学习的机器翻译模型,该模型能够学习预测单词是否可信,并通过RL来决定是否需要输入更多信息来帮助翻译。

强化学习的10个现实应用

斯坦福大学、俄亥俄州立大学和微软研究所的研究人员提出Deep-RL,可用于 对话生成 任务。Deep-RL使用两个虚拟智能体模拟对话,并学习多轮对话中的未来奖励的建模,同时,应用策略梯度方法使高质量对话获得更高奖励,如连贯性、信息丰富度和简洁性等。

强化学习的10个现实应用

点此链接 查看更多RL在NLP中的应用。

强化学习在医疗保健中的应用

医疗保健领域,RL系统为患者只能提供治疗策略。该系统能够利用以往的经验找到最优的策略,而无需生物系统的数学模型等先验信息,这使得基于RL的系统具有更广泛的适用性。

基于RL的医疗保健 动态治疗方案(DTRs) 包括慢性病或重症监护、自动化医疗诊断及其他一些领域。

强化学习的10个现实应用

DTRs的输入是一组对患者的临床观察和评估数据,输出则是每个阶段的治疗方案。通过RL,DTRs能够确定患者在特定时间的最佳治疗方案,实现时间依赖性决策。

在医疗保健中,RL方法还可用于 根据治疗的延迟效应改善长期结果 。

对于慢性病,RL方法还可用于发现和生成最佳DTRs。

通过 本文 ,您可以深入研究RL在医疗保健中的应用。

强化学习在工程中的应用

在工程领域,Facebook提出了开源强化学习平台 ——,该平台利用强化学习来优化大规模生产系统。在Facebook内部,Horizon被用于:

Horizon主要流程包括:

一个典型例子是,强化学习根据视频缓冲区的状态和其他机器学习系统的估计可选择的为用户提供低比特率或高比特率的视频。

Horizon还能够处理以下问题:

强化学习在新闻推荐中的应用

在 新闻推荐 领域,用户的喜好不是一成不变的,仅仅基于评论和(历史)喜好向用户推荐新闻无法一劳永逸。基于强化学习的系统则可以动态跟踪读者反馈并更新推荐。

构建这样一个系统需要获取新闻特征、读者特征、上下文特征和读者阅读的新闻特征。其中,新闻特征包括但不限于内容、标题和发布者;读者特征是指读者与内容的交互方式,如点击和共享;上下文特征包括新闻的时间和新鲜度等。然后根据用户行为定义奖励函数,训练RL模型。

强化学习在游戏中的应用

RL在游戏领域中的应用备受关注,且极为成功,最典型的便是前些年人尽皆知的AlphaGoZero。通过强化学习,AlphaGoZero能够从头学习围棋游戏,并自我学习。经过40天的训练,AlphaGoZero的表现 超过了世界排名第一的柯洁 。该模型仅包含一个神经网络,且只将黑白棋子作为输入特征。由于网络单一,一个简单的树搜索被用来评估位置移动和样本移动,而无需任何 蒙特卡罗 展开。

实时竞价——强化学习在广告营销中的应用

该论文 提出了一种基于多智能体强化学习的实时竞价策略。对大量广告商进行聚类,然后为每个聚类分配一个策略投标智能体实现竞标。同时,为了平衡广告主之间的竞争与合作,论文还提出了分布式协同多智能体竞价(DCMAB)。

在市场营销中,选择正确的目标全体才可带来高回报,因此个人精准定位至关重要的。论文以中国最大的电子商务平台 淘宝网 为研究对象,表明上述多智能体强化学习优于现有的单智能体强化学习方法。

强化学习在机器人控制中的应用

通过和强化学习方法 训练机器人 ,可以使其能够抓取各种物体,甚至是训练中未出现过的物体。因此,可将其用于装配线上产品的制造。

上述想法是通过结合大规模分布式优化和(一种 深度Q-Learning 变体)实现的。其中,QT-Opt支持连续动作空间操作,这使其可以很好处理机器人问题。在实践中,先离线训练模型,然后在真实的机器人上进行部署和微调。

针对抓取任务,谷歌AI用了4个月时间,使用7个机器人运行了800机器人时。

强化学习的10个现实应用

实验表明,在700次实验中,QT-Opt方法有96%的概率成功抓取陌生的物体,而之前的方法仅有78%的成功率。

总结

强化学习是一个非常有趣且值得广泛研究的领域,RL技术的进步及其在现实各领域的应用势必将取得更大的成功。

在本文中,我们粗略介绍了强化学习的不同领域应用。希望这能激发起你的好奇心,并引起你对RL的热爱和研究。如果想了解更多,推荐查看这两个项目:,。


AI研习社是AI学术青年和AI开发者技术交流的在线社区。我们与高校、学术机构和产业界合作,通过提供学习、实战和求职服务,为AI学术青年和开发者的交流互助和职业发展打造一站式平台,致力成为中国最大的科技创新人才聚集地。

如果,你也是位热爱分享的AI爱好者。欢迎与译站一起,学习新知,分享成长。

强化学习的10个现实应用

版权文章,未经授权禁止转载。详情见 转载须知 。

强化学习的10个现实应用

全局中部横幅
百度贴吧

百度贴吧——全球领先的中文社区。贴吧的使命是让志同道合的人相聚。不论是大众话题还是小众话题,都能精准地聚集大批同好网友,展示自我风采,结交知音,搭建别具特色的“兴趣主题“互动平台。贴吧目录涵盖游戏、地区、文学、动漫、娱乐明星、生活、体育、电脑数码等方方面面,是全球领先的中文交流平台,它为人们提供一个表达和交流思想的自由网络空间,并以此汇集志同道合的网友。

按键精灵2014正式版

按键精灵简单易用,不需要任何编程知识就能做出功能强大的脚本。只要您在电脑前用双手可以完成的动作,按键精灵都可以替您完成。官方下载最新版本按键精灵!

斗球手机版

斗球直播免费提供高清NBA直播,CBA直播,中超直播,欧洲五大联赛直播,以及排球、网球、乒乓球、斯诺克、电竞等全球赛事直播,高清直播无广告,会员场次免费看!

上海品牌设计公司

深圳市全力形象设计有限公司(全力设计)倡导品牌一体化全程推广营销服务,以“品牌全案策略与传播”和“企业策划与管理顾问”两大核心业务为主,在公司架构上分为全力设计和全力策划两大服务部门。能够胜任不同行业不同品牌的品牌营销整合服务,主要包括市场调研、定位与分析、品牌策略制定、品牌推广、品牌监管等项目。

龙门剪

★山东威锻机械设备有限公司★专注龙门剪产品的生产销售,公司主营液压龙门剪、废钢龙门剪切机、液压龙门剪等其他液压产品,公司产品质优价廉,具有多年行业研发经验,24小时欢迎新老客户来电咨询剪切机价格!

明水县润美建筑安装有限公司,润美建筑,润美钢构,明水钢结构,望奎钢结构,绥化钢结构,黑龙江钢结构

明水县润美建筑安装有限公司,润美建筑,润美钢构,明水钢结构,望奎钢结构,绥化钢结构,黑龙江钢结构

阀门试压机

苏州班鲁尼特机械科技有限公司是一家专业研发、生产及销售各类阀门试压设备、阀门生产相关专用设备以及阀门自动组装线等的科技公司。主营:阀门试压机,阀门试验台,阀门测试,阀门泵验台。

观研报告网

行业信息,行业数据,行业政策,行业前景,行业趋势,行业排名,行业分析报告

考研

考研室网是专业的考研信息网站,提供报考资讯,考研时间,考研大纲,研究生招生简章,考研专业目录,考研报名,考研成绩查询,考研分数线,考研国家线,研究生分数线,考研调剂,考研真题等信息。

非金属膨胀节

江苏姜恒膨胀节厂家生产定做非金属膨胀节,圆形非金属膨胀节,矩形非金属膨胀节,非金属膨胀节蒙皮,金属膨胀节、四氟,橡胶,管道膨胀节,电站风门等,质优价实:13921724829石经理

永州师范高等专科学校

永州师范高等专科学校是经湖南省人民政府批准、教育部备案的全日制公办普通高等学校。学校办学条件优良,师资力量雄厚。

未来英才手游网

未来英才手游网为广大用户提供各种类型的手机软件、手机游戏下载,在这里你可以看到新鲜的手游资讯第一时间了解到游戏动态,同时还有精品攻略、手机教程等,为玩家提供丰富多彩的游戏体验。

全局底部横幅