谷歌又推出全新世界模型助力导航继LSTM之父用世界模型来模拟2D赛车后就问你怕了没 360度无死角 (google全)

文章编号：42116 资讯动态 2024-12-03 世界模型导航机器人

近年来，世界模型（World Model）在机器人、模拟与强化学习中均取得了出色的研究结果。

2018年，Jürgen Schmidhuber 与 DaVID Ha 首次以无监督的方式训练世界模型，使模型能快速学习环境中的压缩时空表征，再将世界模型中的特征作为智能体的输入，训练出了一个非常压缩与简单的策略来解决模拟2D赛车等任务。

今年2月，Google AI 也用世界模型，在 Atari 游戏中实现了达到人类水平的表现。

但是，相比简单的游戏环境，现实的世界环境要复杂得多。

不久前，在发表于 ICCV 2021 的一篇工作（“Pathdreamer: A World Model for Indoor Navigation”）上，Google AI 团队提出了一个世界模型，叫作“Pathdreamer”，可以仅基于有限的种子观察与原先计划的导航路线，生成一幅智能体“肉眼”不可见的建筑物区域的、360º 高清摄像。

继LSTM之父用世界模型来模拟2D赛车后，谷歌又推出全新世界模型助力导航：360度无死角，就问你怕了没？

论文链接：

Google AI的团队将Pathdreamer应用于机器人导航任务中，成功率高达50.4%！仅比ground truth设置低了 8.6%（59%）！

1、什么是世界模型？

世界模型（World Model）首次由 Jürgen Schmidhuber 与 David Ha 在 NeurIPS 2018中提出，主要出发点是打造一个通用强化学习环境的生成神经网络模型，为强化学习技术的落地提供完美的模拟环境。这篇工作入选了当年 NeurIPS 的 oral paper。

继LSTM之父用世界模型来模拟2D赛车后，谷歌又推出全新世界模型助力导航：360度无死角，就问你怕了没？

论文地址：

在人对世界的理解过程中，我们往往是以有限的感官所能感知到的事物为基础，形成一个心理世界模型。我们所做的决定和行动都是基于这个模型。

为了处理流经我们日常生活的大量信息，我们的大脑学会了信息的空间域和时域的抽象表示。我们能够观察一个场景并记住其中的抽象描述。

继LSTM之父用世界模型来模拟2D赛车后，谷歌又推出全新世界模型助力导航：360度无死角，就问你怕了没？

图注 / 世界模型示例，源自 Scott McCloud 的《理解漫画》一书

证据还表明，我们在任何时刻所感知的，都是由我们的大脑根据我们的内部心理模型对未来的预测所决定的。

心理模型不仅仅是预测未来，而且会根据我们当前的运动行为来预测未来的感官数据。我们能够在这种预测模型上采取行动，并在我们面临危险时表现出快速的行为，而不需要有意识地规划一个行动路线。

以棒球为例，一个棒球运动员只有毫秒级的时间来决定如何挥动球棍，这个时间甚至比视觉信号从眼球传到大脑的时间还要短。对专业运动员来说，这个动作几乎是下意识的，他们的肌肉在正确的时间和地点挥动球棍，与他们内部模型的预测一致。他们可以根据他们对未来的预测迅速采取行动，而不需要有意识地推出可行的击球计划。

继LSTM之父用世界模型来模拟2D赛车后，谷歌又推出全新世界模型助力导航：360度无死角，就问你怕了没？

在许多强化学习问题中，智能体既需要一个对过去和现在状态的良好描述，还需要一个优秀的模型来预测未来的状态。作为真实世界的一个表征，世界模型采用无监督的方式进行训练，能取得较好的策略。

2018年，当 Jürgen Schmidhuber 与 David Ha 提出世界模型后，他们将世界模型用于解决一个赛车竞速的强化学习任务。

继LSTM之父用世界模型来模拟2D赛车后，谷歌又推出全新世界模型助力导航：360度无死角，就问你怕了没？

带有预测能力的世界模型可以有效地提取空域与时域特征，再将这些特征应用于控制模型，然后训练一个最小的控制模型来完成连续域控制任务，即赛车。

2、Pathdreamer的诞生

受到 Jürgen Schmidhuber 等人的工作启发，谷歌团队开始将世界模型的研究思想应用在同样是智能体控制的机器人导航任务中，使用世界模型来获取周围环境的信息，使智能体能够在特定的环境中预测自己的行为后果。

图 / 世界模型的工作原理

在了解Pathdreamer之前，我们不妨设想一下：

如果你出去旅游，住进一间完全陌生的民宿，你会如何判断房子的方位？

一般来说，当我们推开大门，我们会知道首先映入眼前的是客厅，然后顺着客厅猜测卧室、厨房、阳台等等空间的方位。继LSTM之父用世界模型来模拟2D赛车后，谷歌又推出全新世界模型助力导航：360度无死角，就问你怕了没？

图 / 人的导航习惯是依据眼前所见之物来判断

那么，机器人呢？如果一个机器人来到一个完全陌生的房子里，它会如何导航？

人在判断方位时，善于利用视觉与常识，通过眼前的事物推理出空间的布局，从而找到自己的目标。但是，对于机器人来说，在一个新的建筑里，要利用语义线索与事物的规律分布来定位，并不是一件容易的事。

此前，针对上述问题，Facebook AI 提出了一个算法，叫“DD-PPO”，主要是：通过无模型强化学习（model-free reinforcement learning），以端到端的方式让智能体学习辨认一个空间内的线索、并利用这些线索来完成导航的任务。

但是，这种方式的学习成本高，难以检验，而且泛化难，另一个智能体必须从头开始学习同样的方式、才能掌握依据理解线索来定位的能力。

相比之下，Pathdreamer 模型可以从单一视角合成一幅沉浸式场景图，预测当智能体移动到一个新的视点、或是移动到一个完全看不见的区域（比如角落）时，智能体可能会看到什么。

这不仅可以用于视频编辑、使照片看起来栩栩如生，最重要的是，它还可以将人类环境的知识告诉机器智能体，帮助机器人在现实世界中定位导航。

比如，如果我们给机器人一个任务，让它在一栋陌生的建筑里寻找某个房间或物体，那么它就可以先在世界模型中进行模拟，学习识别物体在空间中可能的位置，减少实际投入后的导航错误。

除了模拟导航以外，机器人在Pathdream等世界模型中训练，还可以增加训练数据的数量。

3、Pathdreamer的工作原理

Pathdreamer 将原来的一个或多个观察序列作为输入，生成通往目标位置的预测路线。预测的路线是事先提供，或由智能体在返回途中接触到的观察迭代更新。输入与预测均包含 RGB、语义分割与深度图像。

在内部，Pathdreamer 使用了 3D 点云来表示环境的表面。云中的点都标了它们的 RGB 颜色值和它们的语义分割类，比如墙壁、椅子或桌子。

要在新的建筑物里预测即将映入眼前的事物，首先要将点云重新投射到新建筑的 2D 图像中、以提供“指导”图像，然后，Pathdreamer 会从中生成逼真的高分辨率 RGB、语义分割和深度。

随着模型的“移动”，点云会积累新的观察结果（要么是真实的，要么是预测的）。使用点云来记忆的一个优势是时序一致性（temporal consistency）——重新访问的区域会以与先前观察一致的方式呈现。

为了将指导图像转换为合理、真实的图像输出，Pathdreamer 分为两个阶段运行：第一阶段，用结构生成器生成分割和深度图像；第二阶段，用图像生成器将分割与深度图像渲染为 RGB 输出。

从概念上讲，就是第一阶段提供了关于场景的合理高级语义表示，第二阶段再将其渲染为逼真的彩色图像。这两个阶段都用到了卷积神经网络（CNN）：

继LSTM之父用世界模型来模拟2D赛车后，谷歌又推出全新世界模型助力导航：360度无死角，就问你怕了没？

在具有高度不确定性的区域，比如拐角或视线以外的房间，可能会出现许多不同的场景。而Pathdreamer能够生成满足区域高度不确定的多样化结果。

有感于受到纽约大学Rob Fergus与Emily Denton提出的随机视频生成思想，Pathdreamer的结构生成器以噪音变量为条件，该变量表示指导图像中没有捕获的下一个导航位置的随机信息。通过对多个噪音变量进行采样，Pathdreamer可以合成多个不同场景，允许智能体在一条给定的导航路线中对多个合理的结果进行采样。

这些不同的输出不仅反映在第一阶段的输出（语义分割和深度图像）中，还反映在生成的 RGB 图像中。

如下图所示，最左侧的一列指导图像表示智能体先前看到的像素。其中，黑色像素表示智能体原先看不见的区域，对此，Pathdreamer 通过对多个随机噪声向量进行采样，生成了不同的图像输出。在实践中，当智能体在一个环境中定位导航时，它可以通过新的观察结果来生成输出图像。

继LSTM之父用世界模型来模拟2D赛车后，谷歌又推出全新世界模型助力导航：360度无死角，就问你怕了没？

Pathdreamer 基于来自 Matterport3D 的图像和 3D 环境重建进行训练，并且能够合成逼真的图像与连续的视频序列。由于输出图像具有高分辨率和 360º 无死角的特征，现有的导航机器人可以轻松地将图像转换，以适应机器人配有的相机视野。

4、将Pathdreamer应用于视觉导航任务

他们将 Pathdreamer 应用于视觉与语言导航 (VLN) 任务，其中，机器人必须遵循自然语言的指令定位到真实 3D 环境中的某一个位置。他们使用 Room-to-Room（R2R）数据集进行了一项实验，让指令机器人在模拟多条可能的行走轨迹前进行规划，并根据导航指令对每一条轨迹进行排名，然后选择排名第一的轨迹进行导航。

实验考虑了三种设置：

1）地面实况（ground truth）设置：机器人通过与真实的环境互动（比如移动）来进行规划；

2）基线（Baseline）设置：机器人提前规划，无需与导航图交互、对建筑内的导航路线进行编码，但没有提供任何视觉观察；

3）Pathdreamer 设置：机器人提前规划，无需与导航图交互，且还能接收到Pathdreamer所生成的对应视觉观察。

在Pathdreamer设置中，机器人提前三步（大约6米）规划，导航成功率高达 50.4%，而基线设置的成功率只有 40.6%。这表明，Pathdreamer对现实室内环境中的有用、且可以访问的视觉、空间与语义知识进行了编码。

而在地面实况的设置中，机器人通过移动进行规划，导航成功率达到了 59%。不过，地面实况设置要求机器人花费大量的时间与资源进行多轨迹探索，在现实世界中的代价可能十分高昂。

继LSTM之父用世界模型来模拟2D赛车后，谷歌又推出全新世界模型助力导航：360度无死角，就问你怕了没？

图注：VLN机器人在三种设置（地面实况、基线与Pathdreamer）中的表现

实验结果表明，类似 Pathdreamer 的世界模型在处理复杂的导航任务中具有出色表现。

参考链接：

1、

2、

3、

4、

5、

6、

7、

8、

原创文章，未经授权禁止转载。详情见转载须知。

继LSTM之父用世界模型来模拟2D赛车后，谷歌又推出全新世界模型助力导航：360度无死角，就问你怕了没？

谷普下载提醒您

本文链接：http://www.gpxz.com/article/44c2fe47b9650ed64e5a.html

上一篇：经济而生的AIGoogle对话算想未来创始人AWS

下一篇：登上热搜；李佳琦薇娅一天卖了189亿；法拉第未

- 文学 - 小说下载网址大全--123网址之家

-文学-小说下载网址

小说阅读 2024-11-13 11:11:12

火爆化妆品招商网

火爆化妆品招商网【5588.TV】提供火爆的日化线,专业线,护肤品,彩妆用品,美发用品,养生用品,美体等招商产品、品牌化妆品代理及美博会信息。

企业品牌 2024-09-15 00:05:54

免费网站建设

使用vipcms建站平台可以免费网站建设、网站设计、自助建站、智能建站、创建永久免费网页、可以绑定域名、在线做网站、网站制作软件、VIPCMS建站平台。用户通过VIPCMS建站平台可以在线创建自己的网站，可以创建企业官网，个人网站等；平台使用简单，会打字就可以免费在线制作适合自己的网站；网站做好之后，可以申请绑定顶级域名；平台有丰富的精美模板风格可以选择；建站不求人，自己动手更省钱。

手机软件 2024-07-04 16:43:05

广州市得升智能科技有限公司

广州得升制卡_专业制卡_PVC卡制作,批发,定制|智能卡中心|制卡设备,生产:pvc卡,智能卡,电子标签,金属卡,纸卡,徽章,员工牌,胸卡

贸易批发 2024-07-05 19:18:01

悟空识字

悟空识字为了实现快乐高效的认识汉字，整个软件使用科学的多元识字法，并以中国传统经典《西游记》为背景，将识字过程融合在西游记故事当中，宁波启点教育科技有限公司诚挚奉献。

游戏网游 2024-07-06 00:40:01

南通域名注册

南通域名注册、南通虚拟主机、南通企业邮局、南通网站建设、南通网站优化推广、南通网络运营、南通网站设计制作等服务，专业网站设计制作和网络营销团队,为您赢得市场。

网络应用 2024-07-11 13:44:57

藏红花

藏红花，又名西红花、番红花，有“植物黄金”之称。属百合目鸢尾科番红花属植物，藏红花是一种名贵的中药材、名贵食品香料、价格昂贵，伊朗是藏红花的最大产地，世界80%的藏红花都产自伊朗，藏红花的功效与作用：藏红花可治疗头疼、牙痛，养神、美容、降压、活血等功能。

电影视频 2024-08-18 01:24:34

贵州正道实业投资有限责任公司

贵州正道实业投资有限责任公司_公司经营范围：动物饲养；种畜禽生产；家禽饲养；牲畜饲养；转基因种畜禽生产；建设工程施工；家禽屠宰；牲畜屠宰；生猪屠宰；饲料生产；肥料销售；肥料生产；粮食加工食品生产；食品生产；畜禽粪污处理利用；畜禽收购；道路货物运输（不含危险货物）；牲畜销售；鲜肉批发；鲜肉零售；畜牧渔业饲料销售；粮食收购；农产品的生产、销售、加工、运输、贮藏及其他相关服务；品牌管理；水果种植；蔬菜种植；动物无害化处理（依法须经批准的项目，经相关部门批准后方可开展经营活动）。

商业服务 2024-11-21 22:58:09

尼龙管厂家

宏发工程尼龙主要生产尼龙管,钢骨架尼龙管,尼龙轴套,MC尼龙管等产品,是一家集研发,生产,销售,服务为一体的生产型企业,团队技术精湛,质量有保障,欢迎新老客户前来咨询!

商业服务 2024-11-28 21:45:28

手抄报模板网

为您精选各种漂亮的手抄报样式图片，分类包含了：节日、爱国、安全、环保、法制、学科、季节、校园、健康、红色教育、德育等各种主题的手抄报图片。

图片摄影 2024-11-28 22:11:26

warm工具箱

warm工具箱为您提供json格式化,json代码压缩,json校验解析,json数组解析,json转xml,xml转json,json解析,json在线解析,json在线解析及格式化,unix时间戳转换,CSS美化压缩,json美化,json格式化输出,json数组,json实体类,json视图等

设计美化 2024-12-04 19:21:58

2022年家用激光投影市场总结激光中长焦投影成为增长主力 (2022年家具三包法最新规定)

根据洛图科技，RUNTO，最新发布的，中国大陆激光投影市场分析季度报告，ChinaLaserProjectorMarketAnalysisQuarterlyReport，，2022年，中国大陆家用激光投影市场销售量为43.6万台，同比增长27.2%；销售额为46.1亿元，同比下降8.9%，2020，2022年中国大陆家用激光投影市场...。

2025-02-02 18:40:38

第三方支付发展史 (第三方支付发展历程)

在当今中国，无论我们相信与否，每天的市场交易中，每10笔中就有8笔是通过第三方支付平台完成的，第三方支付已经融入到我们的生活的方方面面，演变为一种新式的消费习惯，第三方支付发展历史只有不到20年的时间，但它给世界带来的却是颠覆性的变化，回顾第三方支付发展的历史，充斥着跌宕起伏，也酝酿着生机与希望，回顾历史就是展望未来，我们从过去的各种...。

2025-01-30 19:09:59

头条的作战半径 (头条任务)

头条的作战半径张一鸣在14年融资时提过个概念，今日头条单位面积内的算法工程师数量，全球最高，到2017年他们又有个新提法，今日头条现在部署的服务器台数，非上市公司里面最高，张一鸣说今日头条做的都是一类产品，是沿着自己的产品理念和产品主线，以推荐为基础，以智能匹配为基础，在别人做的基础上做出创新，不是模仿抄袭某一家，不是具体针对某一家，...。

2025-01-30 17:54:37

技术好吗水胭脂美容院有多少美容师 (技术好啊)

美容护肤已经是全民热衷的生活服务了，不仅是年轻貌美的小姑娘喜欢追求美，就连男士群体以及中老年人，也都加入了美容的队伍中，这对于水胭脂美容院来说，是一个利好的消息，大大促进了企业的发展，那么，水胭脂美容院有多少美容师，技术好吗，水胭脂美容院有多少美容师水胭脂美容院成立至今，拥有二十多年的丰富经验，不断的成长与发展，令其不再只是单一的美容...。

2024-12-21 19:43:08

完全停用中国芯！戴尔宝宝树前CFO徐翀手持长剑拒绝交权；传富士康深圳工厂削减时薪丨雷峰早报正专注从中国以外采购零部件；内斗升级 (完全停用中国芯!戴尔:正专注从中国以外)

国内资讯内斗升级，宝宝树前CFO徐翀手持长剑拒绝交权近日，有消息曝出宝宝树集团CFO徐翀被免职后，手持长剑强行攻入办公室，并把自己反锁在里面3天，引发网友热议，相关词条也在4月19日迅速登上百度热搜，根据知情人士在某社交平台曝料，徐翀在被免职的当天，不仅拒绝和新任的CFO交接，当公司要求他离开办公区时，他竟提着一把长剑，强行攻入了自己...。

2024-12-09 14:51:50

加盟玛丽莲甜品加盟店怎么经营生意好 (加盟玛丽莲甜品可靠吗)

甜品是众多年轻人士喜爱的美食，丰富多样的美食系列，在颜值上也具有很高的吸引力，是当下追求时尚的年轻人士的美味选择，玛丽莲甜品作为一家知名的品牌，十多年的经营使其拥有强大的研发团队，结合现在人们对于美味的挑剔要求，不断的改进，研发出多样化的美味口感，深受消费者的青睐，同时也吸引了许多的创业人士关注，那么加盟玛丽莲甜品加盟店怎么经营生意好...。

2024-12-02 22:04:24

丰田fj酷路泽经常使用了什么发起机 (丰田fj酷路泽2024款)

丰田fj酷路泽经常使用了一款4.0升V型6缸人造吸气发起机，其最大功率到达了200千瓦，最大扭矩为380牛米，最大马力为272匹，这款发起机的杰出性能使得丰田fj酷路泽在越野性能上有着不俗的体现，同时，与这款发起机婚配的是5挡智能变速箱，使得驾驶体验愈加顺畅，车身尺寸方面，丰田fj酷路泽的长宽高区分是4670毫米、1905毫米、183...。

2024-07-07 21:26:03

吉利美日是帝豪吗 (吉利美日是帝豪哪个系列)

1、吉利美日是帝豪系列的，2、因为吉利汽车原来曾经有四个消费基地，上海基地消费华普汽车，其他三个基地区分消费吉利美日、吉利优利欧、吉利豪情，3、如今仅有上海基地仍在消费华普汽车，其他的基地区分消费其它汽车，原来的美日基地消费的帝豪汽车就是吉利帝豪美日牌，吉利美日牌属于什么车系，吉利美日是吉利汽车旗下的一款紧凑型轿车，这款车以其共同的外...。

2024-07-06 17:22:34

福特KUGA是什么车福特KUGA叫什么名字 (福特kuga中文叫什么)

福特，翼虎，中文名是福特，翼虎，，是福特旗下的一款SUV，其实kuga严厉来说并不是一个词，而是汉语拼音依据英语单词发音的产物，它的原文是cougar，听起来像，酷，意思是美洲狮，也就是说这车和美洲狮一样凶猛，第一代翼虎于2000年巴黎车展颁布，同年上市，起初通过一系列降级，全新福特翼虎Kuga于2012年4月22日在2012年国际汽...。

2024-07-06 16:05:01

电影《杨桥下》南京开机-江苏南京开机剧组

2022年5月5日报道，由江苏千羽映画影视文化有限公司、江苏保禾影业联合出品，王家善担任出品人、周天阳监制、裘志伟执导、丁明起总制片，演员严珊、张忘虚、郭氏郎、青松、贾茹、

2023-10-08 01:16:06

胡桃圣遗物穿搭指南打造出潮流时尚Look

《胡桃圣遗物穿搭指南》：打造出潮流时尚Look胡桃圣遗物是一款让玩家可以收集、穿搭特殊服装的游戏，在游戏中，玩家可以收集不同的服装，打造出自己想要的时尚Look。本文将介绍如何

2023-09-19 02:08:49

英语学习软件_外语学习软件免费下载

提供快速学习英语的软件,外语学习的软件免费下载。如CJC好玩背单词软件是近期最受欢迎的英语学习软件之一。PC6免费提供英语学习软件,外语学习软件下载

2023-08-11 23:05:06

文章推荐

国际化新进程 (国际化进程理论)

5月15日，德赛西威欧洲新科技园区奠基仪式在德国魏玛举行，图林根州长BodoRamelow、魏玛市长PeterKleine、德赛西威执行副总裁徐建、德赛西威欧洲公司总经理MichaelWeber出席了奠基仪式，新园区位于魏玛，紧邻德赛西威欧洲公司总部，占地近10000㎡，目前已启动的一期工程包括办公大楼和一座3D天线测量室，预计202...。

2024-12-09 18:26:43

资讯动态

蓝色广告联盟 (蓝色广告联盟官网)

最大化数据价值蓝色通过庞大的数据库，识别终端设备用户的行为喜好，以最大限度识别和归类，从而为多种多样的产品提供精准的用户，群体定向的服务，数据覆盖越广泛，价值就越大；最小化沟通成本蓝色为广告主降低了跟大量广告渠道沟通的成本，节省了精力，让其专注于投放素材、定向优化和ROI的分析上面，...。

2024-12-05 23:23:32

网络百科

把鱼塘承包了这个塘主用智能化设备 (把鱼塘承包了怎么办)

我要让所有的人知道，这个鱼塘，被你承包了，这当然不是，杉杉来了，的拍摄片场，而是全球创客马拉松深圳大学站上，一支名叫，豪城创财，的团队所做的项目——鱼儿在线的真实写照，而有资格说出这句宣言的人，自然是队长——深圳职业技术学院，深职院，的大三学生杨志豪，说杨志豪是，塘主，，绝对不是一句调侃的话，因为家里是从事养殖业的，杨同学耳濡目染...。

2024-12-03 22:18:48

资讯动态

这个自带养成模式的水杯让小孩也能享受智能的乐趣

让女神多喝点水的心愿，想必不少straightboy都有过，比如硬创邦举办的全球创客马拉松华农站的广药e创，就制作了一个心情水杯，不过为小孩设计一个有趣的智能水杯，你们想过吗，三个可爱的男孩子，就为宝宝们设计了这样一个有趣的智能水杯，这个名为，宇智波队，的团队，由姬兰宇、梁智铭、李博三人组成，说起它的来历，还有一段有意思的故事，因为他...。

2024-12-03 18:34:41

资讯动态

疫情防控常态化优必选克鲁泽机器人助力打造AI 金融 (疫情防控常态化下的企业生存与发展)

随着新冠疫情常态化发展，银行网点作为服务窗口单位，如何在做好疫情防控的同时保证业务井然有序，是各大银行都面临的棘手难题，上海银行联手优必选科技率先交出答卷，用企业的AI技术，保障人员健康，创新服务模式，打造智慧网点，8月，位于深圳的上海银行的6个营业网点也分别迎来了，新同事，——测温咨询机器人Cruzr，克鲁泽，戴上，帽子，的TA除...。

2024-12-03 18:10:28

资讯动态

谷歌又推出全新世界模型助力导航 继LSTM之父用世界模型来模拟2D赛车后 就问你怕了没 360度无死角 (google全)

相关文章

文章推荐

谷歌又推出全新世界模型助力导航继LSTM之父用世界模型来模拟2D赛车后就问你怕了没 360度无死角 (google全)