只需1 (只需12个简单的步骤)

文章编号：46403 资讯动态 2024-12-10 高阳 EfficientZero RL模型清华叉院助理教授

只需1/500数据便可掌握Atari游戏！清华叉院助理教授提出小数据RL模型，引爆AI社区

EfficientZero的性能接近 DQN（Deep Q-Learning）在 2 亿帧时的性能，但消耗的数据却减少 500 倍。

近日，一项研究在学术界引起了广泛的关注和热议。有消息称，Deep Mind和Google已经在内部关门开会讨论了。粉丝众多的科技向youtube博主Yannic kicher甚至专门做了半个小时的视频来讲解这篇论文。学者们更是用“completely game- changing”、“major development in RL”、“this is impressive”来形它。其团队老师本人也在推特上表示：在使用相同数据的情况下，这是RL智能体第一次直接从像素中获得了超越人类的性能！这会让通用强化学习更接近真实世界的场景，比如机器人的采样效率会是关注重点。

只需1/500数据便可掌握Atari游戏！清华叉院助理教授提出小数据RL模型，引爆AI社区

现在，就让我们隆重的介绍下本文的主角—— EfficientZero 。

EfficientZero算法是在清华大学交叉信息研究院高阳团队的新研究《使用有限数据掌控Atari游戏》（ Mastering Atari Games with Limited>EfficientZero的性能接近DQN（Deep Q-Learning）在 2 亿帧时的性能，但消耗的数据却减少了500 倍！它能够在贴近现实复杂情况的Atari（雅达利）游戏中，从零训练并只需两个小时，就可达到同等条件下人类平均水平的190.4%，或116.0%的中值性能。

只需1/500数据便可掌握Atari游戏！清华叉院助理教授提出小数据RL模型，引爆AI社区

样本效率一直是强化学习中最“令人头疼”的挑战，重要的方法需要数百万(甚至数十亿)环境步骤来训练。一种从MuZero模型改进而来的高效视觉RL算法—— EfficientZero，该模型从零开始训练，最终在Atari中仅用两个小时的训练数据上就超过了经过相同条件下的的人类平均水平。

MuZero是通过将基于树的搜索与经过学习的模型相结合，可以在一系列具有挑战性和视觉复杂的领域中，无需了解基本的动态变化即可实现出色性能。AI科技评论在以往的文章中对MuZero有过报道： DeepMind又出大招！新算法MuZero登顶Nature，AI离人类规划又近了一步。那为什么会选择Atari游戏呢？Atari 游戏场景繁多，规则各异，一定程度上贴合现实复杂环境，因此长期被当作验证强化学习算法在多因素环境下的性能测试标准。EfficientZero的低样本复杂度和高性能可以使强化学习更接近现实世界的适用性。

只需1/500数据便可掌握Atari游戏！清华叉院助理教授提出小数据RL模型，引爆AI社区

如图所示，EfficientZero在人类平均标准得分中位数上分别比之前的SoTA性能出色170%和180%。是第一个在Atari 100k基准上优于人类平均性能的算法。

强化学习在挑战性的问题上取得了巨大的成功。如2015年DeepMind研发的DQN网络、击败了中国围棋世界冠军柯洁的AlphaGo、和会在Dota2中打团战的OpenAI Five等等。但这些都是站在巨大数据量的“肩膀上”训练出来的策略。像AlphaZero从国际象棋小白到顶尖高手需要完成2100万场比赛，一个职业棋手每天大约只能完成5场比赛，这意味着人类棋手要11500年才能拥有相同的经验值。

在模拟和游戏中应用RL算法，样本复杂性不成阻碍。当涉及到现实生活中的问题时，例如机器人操作、医疗保健和广告推荐系统，在保持低样本复杂性的同时实现高性能是能否可行的至关钥匙。

过去几年，我们在样本高效强化学习上已有许多成绩。来自真实环境的数据和来自模型的“想象数据”都可以训练策略。但大多数成功都是在基于状态的环境中。比如在基于图像的环境中，鱼和熊掌不可兼的情况比比皆是，MuZero和 Dreamer V2展示了超越人类的表现，但样本效率不高；SimPLe等其他方法非常有效，但性能较差。最近，在数据高效机制中，中数据增强和自监督方法应用无模型方法取得一定成功。然而，却依然达不到人类预期的水准。

为了提高样本效率并保持优越的性能，自监督环境模型、减轻模型复合误差的机制和纠正非策略问题的方法这三点对基于模型的视觉RL智能体至关重要。EfficientZero在MuZero的基础上，对这三点进行了改进：“利用时序预测一致性 (temporal contrastive consistency)，减少预测回报的不确定性 (aleatory uncertainty) 以及纠正离线策略价值的偏移 (off-policy correction)。”

在对DeepMind Control (DMControl)套件的模拟机器人环境进行的实验中，EfficientZero实现了最先进的性能，优于直接从真实状态中学习的模型state SAC，这进一步验证了EfficientZero的有效性。被有限数据“扼住”深度强化学习算法“喉咙”的时代也许不会再有了。

高阳：博士，清华大学交叉信息研究院助理教授。博士毕业于美国加州大学伯克利分校，本科毕业于清华大学计算机系。主要研究计算机视觉与机器人学。

只需1/500数据便可掌握Atari游戏！清华叉院助理教授提出小数据RL模型，引爆AI社区

原创文章，未经授权禁止转载。详情见转载须知。

只需1/500数据便可掌握Atari游戏！清华叉院助理教授提出小数据RL模型，引爆AI社区

谷普下载提醒您

本文链接：http://www.gpxz.com/article/7f785a811db59f0322b8.html

上一篇：中非共和国采用比特币作为法定货币使人困惑

下一篇：35万的车一点都不贵；雷军称小米汽车50万以内

江苏富林医疗设备有限公司

江苏富林医疗设备有限公司致力于专业医疗设备和家庭保健产品的研究与开发。打造顶尖医疗器械制造中心，为客户创造最大的经济效益。公司现有员工200多人，拥有先进的研发中心、一流的生产线、完善的销售渠道以及贴心服务的售后团队。

编程开发 2024-11-13 11:00:37

中文精选小游戏,中文精选小游戏大全,4399中文精选小游戏全集,4399小游戏

4399中文精选小游戏大全收录了国内外中文游戏精选类小游戏、中文版小游戏、中文做饭小游戏、中文塔防小游戏、中文小游戏下载。好玩就拉朋友们一起来玩吧！

游戏网游 2024-08-16 23:08:33

财融圈

财务招聘金融招聘会计招聘校园招聘应届生招聘求职全职实习证券招聘证券投行招聘投行券商基金信托审计招聘审计税务银行招聘银行保险期货外汇租赁IPO会计投资PEVC融资投融资理财互联网金融职业规划问答社区财务问答税务咨询金融问答InvestmentFinancefinancingTaxAccountingAuditFunSecuritiesJobRecruitment

互联资讯 2024-07-11 13:38:21

延边广播电视台（朝文）

중국조선족의중심채널,연변라지오TV넷,연변라지오TV방송국,연변텔레비죤방송국,연변TV방송국,연변인터넷TV,www.iybtv.com,연변뉴스,연변위성,연변축구,연변노래,연길뉴스,연변정보,연변조선족,중국조선족

电影视频 2024-08-18 00:14:32

南昌丰益肛肠医院

南昌丰益肛肠医院暨南昌最好的肛肠医院，南昌丰益中医肛肠医院是一所以肛肠为特色的医保定点南昌肛肠医院排名第一。

电影视频 2024-08-18 01:24:27

郑州跑步机,河南按摩椅,健身器材,速尔跑步机,西屋按摩椅,艾力斯特按摩椅,乔山跑步机,荣泰按摩椅,奥佳华按摩椅,戴美斯健身器材,健身房器材

弘康体育是从事跑步机,按摩椅,健身器材的专业供应商-400-6789-397,旗下有乔山,速尔,BH,泰诺健,力健,星驰,荣泰,奥佳华,星牌,戴美斯,红双喜等国内国际一线品牌,为消费者提供专业科学全方位的健身服务.

体育竞技 2024-08-18 18:14:15

苏州电商代运营,食品电商代运营,苏州短视频代运营

浩维网络，成立于2007年，是专业的苏州电商代运营和苏州短视频代运营公司，业务涉及苏州天猫代运营、京东代运营等，特别是对食品电商代运营有独特的运营方法。公司成立15年来，服务万达，周庄等国内上百家知名品牌，一致获得客户的认可。找苏州电商代运营公司和苏州短视频代运营就来浩维，专业、专心！

电影视频 2024-11-19 15:46:24

闻世手抄报

闻世手抄报提供素材范文、手抄报、简笔画、黑板报、折纸等图片大全以及各种文库资料等,希望能够帮助大家解决碰到的问题。

图片摄影 2024-12-02 23:32:32

伊津政电线电缆（上海）有限公司

伊津政电线电缆（上海）有限公司伊津政电线电缆（上海）有限公司-伊津政电线电缆（上海）有限公司是日本株式会社IZUMASA100%投资设立的外商独资企业，成立于2008年。我公司作为专业销售电线电缆的商社，与日本各大电线厂家间建立了良好的合作和信赖关系。我公司主要提供目前国内无法生产的日本及德国品牌的高端电线电缆产品伊津政电线电缆（上海）有限公司于2008年1月28日设立，是日本IZUMASA在中国100%出资的企业。总公司在日本大阪，已有75年的历史的电线电缆公司。我司是日本进口电缆代理商，主业务是日本进口机器人电缆/移动橡胶电缆、进口补偿导线，拖链电缆，UL认证电缆，PSE认证电缆，多连复合拖链电缆等代理。提供机器人线缆定制生产。大电ロボトップ机器人电缆起订量10米为单位切断销售；专业的日本工程师提供电线电缆的技术支持。伊津政电线电缆（上海）有限公司-伊津政电线电缆（上海）有限公司是日本株式会社IZUMASA100%投资设立的外商独资企业，成立于2008年。我公司作为专业销售电线电缆的商社，与日本各大电线厂家间建立了良好的合作和信赖关系

企业品牌 2024-12-04 19:37:32

济南看白癜风好的医院【官方网站】

济南天大白癜风医院专注于白癜风疾病的诊疗,济南天大白癜风医院是一所集白癜风预防、临床治疗、科研为一体的二级甲等医院，医院特色诊疗技术“黑色素细胞激活术”技术激活患者自身黑色素细胞产生黑色素咨询电话：4006688678！

网站模板 2024-12-06 12:36:31

优品飞旅游网

优品飞旅游网提供全国精选旅游目的地推荐，详细旅游攻略和特惠机票酒店预订服务，让您轻松规划完美旅行。

商业服务 2025-02-09 12:50:14

作文大全

98作文网为为广大中小学生提供全面的小学生作文,初中作文,高中作文等各年级优秀作文的网上交流平台，包括600字作文大全、中考满分作文、高考满分作文、英语作文等作文范文，同时欢迎大家踊跃投稿。

校园学生 2025-02-09 15:49:27

众所周知，节奏大师是一款音乐节奏极强的手游，你能够在里面听音乐的同时，也能玩游戏，小编带来节奏大师相似的游戏下载2022内容推荐，希望大家看了这些内容，也可以顺利的找到其他好玩的音乐手游，毕竟大家平时在听歌的时候，都会觉得比较单调，没有什么事情可以做，如果晚上这些类似节奏大师的手游，就可以一边听歌一边嗨玩，曾几何时，大家都希望自己变成...。

2025-02-12 01:07:26

趣味农场达人下载链接分享趣味农场达人预约渠道推荐 (趣味农场达人是谁)

在当今快节奏的生活中，休闲游戏为我们提供了一种放松和娱乐的方式，其中，趣味农场达人凭借其独特的农村经营主题和多样化的玩法，吸引了大量玩家的关注，今天小编带来趣味农场达人下载链接分享，如果你渴望体验农场生活的乐趣，享受种植与养殖的过程，那么这款游戏无疑是一个理想的选择，本文将为你分享趣味农场达人的下载链接和预约渠道，让你轻松开始这段农场...。

2025-02-12 00:23:26

学习编程软件免费下载合集 2022学习编程软件 (小学生编程软件scratch)

本期小编为大家带来2022学习编程软件免费下载的分享，编程对于很多人来说可能都是似曾相识又陌生的事情，但是现代科技的发展已经让编程变成了一种技能来提升自己的不足，那么2022免费下载什么编程APP呢，下面就让小编来给大家介绍一下这些APP，学习编程可以免费下载哦！希望用户能把编程的牛人学的很好！1、，编程狮，编程狮，是主打专业编程教...。

2025-02-11 19:32:22

人工智能两件事坚持做好安全周鸿祎获选2023中国民营企业社会责任优秀企业家 (人工智能两个)

近日，中华全国工商业联合会公示了，中国民营企业社会责任优秀案例，2023，名单，360集团创始人周鸿祎入选，中国民营企业社会责任优秀案例，企业家篇，并成为互联网行业唯一入选者，中国民营企业社会责任优秀案例，2023，企业家篇共10人入选，因坚持投身公益履行社会责任，同时以科技报国捍卫数字安全，周鸿祎获选，全国工商联表示，入选企业...。

2024-12-09 16:04:50

后来怎样花15万买凶杀死儿媳浙江女子因嫉妒儿子与儿媳太过恩爱 (后来的花)

有人曾说，在人性面前，再复杂的科技都要逊色，当然这句话还是夸张了，但更为主要的还是因为人性真的是太过于复杂，别说别人，哪怕是我们自己，都未必是绝对了解自己的，但关乎人性，浙江在2016年就发生了一件让人后背发凉的雇凶杀人案，而这起雇凶杀人，雇凶者与死者还是婆媳关系，据说这位老太太，只是因为嫉妒儿媳跟儿子太过恩爱，一口气掏出15万巨款，...。

2024-12-06 16:25:40

冒菜加盟 (冒菜加盟10大品牌)

成都出名的当属美食了，很多人想要去成都就是为了品尝各式各样的美食，冒菜就是其中的一种，冒菜是成都的特色，就是用中药和各种调料配出的汤汁烫熟的菜，把菜用一个竹勺装好，一般一勺就是一份，在锅里煮熟放到碗里，碗里要提前调好各种佐料，顺便再舀一勺汤汁顾名曰，冒菜，，再撒上点香菜、葱花和四川特有的豆豉，就成了成都有名特色的小吃，冒菜，简单点说...。

2024-12-04 17:45:14

Google 产品被撤老大走人 ATAP部门已经丧失了它的文化与使命 (google.com)

在约三年前，Google最知名的高管之一ReginaDugan在公司的开发者大会上宣称，她将领导一个秘密的硬件部门打造不一样的未来，她说，，你会看到一小撮江洋大盗完成史诗般的壮举，，并且声称正在开发十多种令人兴奋的产品，而且团队的执行效率极高，这个部门就是Google的先进技术和产品部门ATAP，但如今，ReginaDugan已经离开...。

2024-12-04 00:37:38

有哪些应用 AI在脑脱髓鞘病MRI中 2022 首都医科大学宣武医院副院长卢洁教授 CMAI (有哪些应用app)

近日，2022年医学人工智能大会，CMAI2022，暨第二届，中国医学学术期刊发展，高端论坛召开，本次高峰论坛邀请了多位顶尖医院的放射科主任及人工智能技术的权威专家，共同探讨人工智能技术在医学影像中的临床应用与科研进展，分享研究心得，，医健AI掘金志，作为本次大会的支持单位，全程参与嘉宾的演讲内容与深度报道，首都医科大学宣武医院...。

2024-11-30 21:15:46

中国拿出什么样的中国方案应对全球性的问题和挑战 (中国有什么拿的出手的东西)

1.在应对全球和平与发展问题上，中国提出了一带一路倡议，旨在促进各国间的互联互通与经济合作，2.中国还提出了构建人类命运共同体的理念，强调各国之间应携手应对共同挑战，实现共同繁荣，3.中国倡导全球治理体系改革，主张各国秉持共商共建共享的原则，推动构建更加公正合理的国际政治经济新秩序，中国为世界贡献了哪些方案1.中国提出了四点智慧与方案...。

2024-11-21 19:11:01

如何收费下载字体 (如何收费下载抖音视频)

字体下载经过点击进入阅读器，选用适合的字体，进入下载界面，点击立刻下载，点击装置即可，工具／原料，联想小新air14、windows10、网络12.21.0.121、关上阅读器点击进入电脑阅读器，2、进入字体下载界面在搜查栏中搜查，收费字体下载，，在产生的多个搜查结果中，选用一个适合的结果，点击进入字体下载界面，3、点击立刻下载选用一...。

2024-07-10 23:00:48

1982属狗狗五行属土为什么1982年出生的是水命 (1982属狗2024年的运势及运程)

1982属狗，狗五行属土，为什么1982年出生的是水命，网络...1982属狗，狗五行属土，为什么1982年出生的是水命最佳答案，由于纳音是最高方式的五行，你壬戌年出生，年命的纳音是大淡水，所以你就是水命了，大淡水的人普通都很众多，须要好好掌握，生存中有很多调节的方法，宿愿能对你有所协助，80后，压力大，不容易，82年属狗，五行属什么...。

2024-07-10 05:02:25

站酷仓耳渔阳体下载-站酷仓耳渔阳体ttf下载v1.0免费版

站酷仓耳渔阳体ttf是可以免费使用的公益字体，小编提供的安装包中包含了五个完整的ttf字体包，大家下载之后安装给出的方法进行操作，很快就能安装成功，这款字体给人的感觉比较端庄大气，方正规矩的字形看上去很舒适，可以用于多种场景。仓耳渔阳体字体介绍：站酷仓

2023-11-16 17:06:31

文章推荐

古风模拟经营手游推荐大全2021 好玩的古风模拟经营游戏介绍 (古风模拟经营游戏)

古风模拟经营手游是近日以来玩家喜爱的游戏之一，为此小编特地为大家总结了古风模拟经营手游推荐大全2021，1、，我是大东家，我是大东家是一款古风经商题材的游戏玩家，穿越回古代变成了商铺老板需要做的事就是通过策略布局，挽救西楼破产的危险，在此过程中不断招揽各路奇人异士，帮助玩家经营店铺，扩大商业版图，最终成为富甲一方的富豪，手机扫码下载普...。

2025-02-12 00:31:32

资讯动态

好玩的模拟农场手游有哪些 2023热门的农场游戏大全 (好玩的模拟农场游戏)

在很多年前，市面上就出现过和农场有关的游戏，现在有很多玩家依旧非常喜欢这些游戏类型，为了可以满足这些玩家的要求，小编特地整理了好玩的模拟农场手游，这些游戏都可以让玩家感受到非常新奇有趣的农场设定，比较喜欢种植经营或者是农场建设的都可以来尝试一下这些游戏，这些游戏也都带有一定的养成设定，是玩法非常丰富的游戏类型之一，1、，奇异大陆，这是...。

2025-02-11 23:15:13

资讯动态

耐玩的花游戏分享2024 受欢迎的花游戏在哪里 (耐玩的花游戏推荐)

平日里无数的压力全部向自己袭来，我们所能够做的就是让这些困难逐渐的消逝，但是有怎样的方式可以去选择呢，或许这也是很多朋友所面临的难题，不过小编的推荐倒是你们可以看看的，这一次分享的花游戏的内容，你们可能也会摸不着头脑，不知道它们的玩法是怎样的，那么就来听小编的讲解好了，之后你们就可以去选择自己感兴趣的内容了哦，鲜明有趣的主题特色，邀请...。

2025-02-10 01:14:38

资讯动态

赫拉护肤品怎么加盟 (赫拉护肤品怎么样怎么那么便宜)

赫拉护肤品起源于澳大利亚，它在产品制作的过程中传承了澳大利亚的远古智慧以及传统的工艺进行产品的制作，并且在产品制作的过程中，它会严选当地较为纯净的成分，依托当地好的成分与先进的高科技进行结合，不断的研发探索出更加适合肌肤的好的护肤品，它也以此研发推出更加出色的肌肤润护系列，从这样的角度来看，这个品牌的护肤品是很不错的，那么现在，可随着...。

2025-01-31 21:04:54

创业加盟

2020联想智慧教育峰会成功召开新基建成就智慧教育新变革 (2020联想拯救者r7000)

近期，，智慧新基建教育新变革，2020联想智慧教育峰会，在无锡宜兴成功举办，此次大会由宜兴市教育局指导、联想企业科技集团联合中国移动共同举办，苏皖浙教育界、宜兴市、中国移动、联想企业科技集团等来自政府、企业、教育多领域专家共同出席，在此次盛会中，共同探讨智慧新基建在引领教育领域实现智能化变革及发展方面的持续动力，以5G、人工智能、大数...。

2024-12-09 15:28:26

资讯动态

只需1 (只需12个简单的步骤)

相关文章

文章推荐