对话武汉大学李淼教授 以大模型视角看待一切机器人问题丨GAIR live (武汉大学采访)
“人们对机器人的抓取和操作存在很多误解,很多研究成果很难推进到实际应用环节。”
武汉大学李淼教授介绍,这是他放弃前往麻省理工 MCube Lab(操纵与机制实验室)Alberto Rodriguez教授团队做博士后研究,选择回国创业的重要原因。
李淼教授博士毕业于瑞士洛桑联邦理工学院,师从学习算法与系统实验室的创办者Aude Billard教授,长期致力于机器人学习和控制、物体抓取和操作等领域的研究。
他关于动态抓取算法研究的博士论文,在瑞士洛桑联邦理工学院获得了全球每两年仅一名的瑞士ABB奖(Asea Brown Boveri Ltd. ),也是该奖的唯一华人获得者。这项研究提出了复杂物体灵巧操作的鲁棒性算法以及成功应用于现实世界的机器人操作问题,尤其在机器人抓取、操作方面。
李淼教授回国后依然延续了这项研究,为抓取算法寻找合适的落地场景。
大模型技术出现后,李淼教授的研究内容也随之变化,一方面与业界合作,将大模型技术应用在家庭服务机器人的产品研发上;
另一方面,在学术研究上,也开始尝试将扩散模型(Diffusion Policy)和手术机器人动作生产策略相结合、将大模型和医疗影像相结合。
“我在与团队成员交流时一直强调,我们要以大模型的视角来看待一切机器人的问题,无论是算法研究还是其他各类工作,如果和大模型不相关,也许5年之内就会被淘汰。”
李淼教授指出,大模型将彻底改变机器人领域的发展进程。
4月8日(周一)20:00-22:00,将举办主题为「大模型时代,机器人的技术革新与场景落地」的线上圆桌论坛,届时李淼教授将分享更多前沿观察。
以下为对话(经编辑):
01 从理论研究到机器人研究
:硕士毕业后,您为什么选择了瑞士洛桑联邦理工学院读博?该校的机器人研究有何特色?
李淼: 我最开始是在华中科技大学申请的直博,硕士阶段结束后,考虑到当时国外的机器人研究比较领先,所以尝试申请了国际上机器人专业排名最高的几个学校,也拿到了很多offer,比如美国的约翰·霍普金斯大学、英国的帝国理工大学等等。
我希望选择一个与AI算法结合更紧密的方向,所以最终去了瑞士洛桑联邦理工学院Aude Billard教授的学习算法与系统实验室(Learning algorithms and systems Laboratory)。
由于我本科、硕士阶段的机器人研究方向更加偏向理论,和数学、医学、动力学等学科的相关性很高,而Aude Billard教授团队的研究则更加注重数据,通过模仿学习等手段收集机器人工作过程中的数据并进行分析,Aude Billard教授是这一领域的开创者,也是瑞士机器人专题网络负责人。
除Aude Billard教授的实验室之外,瑞士洛桑联邦理工学院还有很多技术领先的机器人研究团队,如研究仿生机器人的生物机器人实验室(Biorobotics Laboratory)、发明了折纸机器人的可重构机器人实验室(Reconfigurable Robotics Lab)等等。
瑞士洛桑联邦理工学院机器人研究的整体风格就是小而精,学校拓展了非常多具体的研究方向和团队。
:工业机器人四大家族之一的ABB也诞生于瑞士,您多次提名和获得该校的ABB奖,这对您后来的创业方向有什么影响?
李淼: ABB的总部在瑞士,与瑞士洛桑联邦理工学院有很多合作,ABB在学校里设立了的一个奖项(Asea Brown Boveri Ltd. ),每两年颁布一次,奖励奖励能源、自动化、电信等各个领域的原创科学工作,每次只有一个获奖名额,竞争非常激烈。
我凭借研发的复杂物体灵巧操作的鲁棒性算法以及成功应用于现实世界的机器人操作问题获得了2018年的奖项(论文:《Dynamic Grasp Adaptation -- From Humans To Robots》),同时我也是唯一的华人获得者。
以往的机器人研究中开发了大量的算法,但是并不能很好地解决实际问题,而我的这项研究第一次成功地应用于现实世界的机器人操作问题,尤其在机器人抓取、操作方面。
2016年我离开瑞士洛桑联邦理工学院后之后,发觉在机器人领域的很多研究成果仍旧很难推进到实际应用环节,人们对机器人的抓取和操作存在很多误解,所以我决定回国创办一家公司,将机器人技术推广到实际应用场景之中。
我回国后的创业团队依旧延续了对这项技术的探索,将其应用在物流、药房等场景的抓取、操作中,不断打磨解决方案。
:2016年您回国创业,从事机器人抓取与智能控制相关应用的研究。为什么决定回国创业?
李淼: 最开始回来时我还是一个fresh PHD,对行业的认知还有限,尝试为抓取的算法找到合适的落地场景,从物流、工业到医疗场景都进行了落地尝试,最后聚焦到医疗场景。
这时候我们发现,一个机器人产品不仅仅需要有抓取技术,还需要有很多辅助的硬件设配相配合,慢慢就形成了综合的解决方案。
2017年我来到武汉大学工作后,前期的这些工作也间接影响了我在学校里的研究方向,使我更加关注机器人的落地应用。
:早在2022年,您与港中文的陈翡教授就合作发表过一篇烹饪机器人的论文《Robot Cooking With Stir-Fry: Bimanual Non-PrehensileManipulation of Semi-Fluid Objects》,这篇论文的关注角度与孙宇教授此前发布在IJAIRR期刊上的《 Consolidating Trees of Robotic Plans Generated Using Large Language Models to Improve Reliability》一文有哪些不同?您认为在烹饪场景中机器人技术还有哪些值得探索的方向?
李淼: 在厨房这个场景中,对机器人的要求是最综合的,不论是精细的运动,还是更高维度的规划,以及对不同模块的理解,烹饪场景都是最丰富的。
甚至在其他场景中鲜少用到的味觉和嗅觉,烹饪场景中也有涉及。
机器人在烹饪场景的工作可以分为两个大的逻辑,一是上层的任务规划,二是底层的动作规划。我和陈翡教授的合作更多是动作层面的规划,孙宇教授的研究则是关于任务层面的规划。
要将上层的任务规划和底层的动作规划打通,还需要一个中间层 middle layer,也可以叫做胶水层。
在当前的研究领域,针对中间层架构的深入探究尚未达到预期的成熟度。
无论是采用规划领域定义语言(Planning Domain Definition Language, PDDL)以形式化地描述和连接自动化规划任务,还是依赖于基于规则的专家系统进行决策支持,亦或是利用神经网络构建的专家系统,这些方法在实现高效、可靠的中间层处理能力方面均显示出了一定的局限性。
这些技术在处理动态变化的环境、提升决策的透明度和解释性、以及增强系统的泛化能力等方面仍面临诸多挑战。
:在您对机器人领域的研究中,也融合了机器视觉、深度学习等不同学科知识,如何看待机器人研究中跨学科合作的意义?
李淼: 机器人研究可以大体分为四块:设计(具身)、感知、规划、控制。
我们从感知的角度来看,当机器人需要获取视觉信息时,就需要视觉传感器的配合;机器人需要获取触觉信息时,就需要触觉传感器的配合,看起来似乎是多学科交叉融合的研究。
但是我们从当下大模型的视角或数据驱动的视角来看,这些东西本身就是一体的。
不论是具身层面还是感知层面,机器人都是多模态的。机器人的外观既可以是人形,也可以是狗形;机器人的获取的信息既可以是视觉信息,也可以是触觉信息。我们可以将这些内容都看作是机器人研究的一部分。
:大模型技术的出现为机器人研究带来了巨大的影响。在您的研究中对这项技术进行了哪些应用?
李淼: 在我和业界的合作中,已经开始尝试将大模型技术应用在家庭服务机器人的研发上。
以扫地机为例,在扫地机的感知中,我们利用大模型进行数据生成,合成仿真数据以提升真实数据的不足;同时又将逻辑推理融入感知中,基于本身的语义地图,,让扫地机更智能地进行运动判断,避免线材、杂物等障碍物的干扰 ;
在清扫报告部分,我们利用大模型生成清扫报告, 同时允许用户进行报告中内容的自定义选项添加,从而更全面的了解家庭情况。
在学校的研究里我们还没有用到真实的大模型,但是也已经开始向这方面的研究靠近,比如扩散模型(Diffusion Policy)和手术机器人动作生产策略相结合、大模型和医疗影像的结合等等。
我在与团队成员交流时,一直强调我们要以大模型的视角来看待一切机器人的问题,无论是算法研究还是其他各类工作,如果和大模型不相关,也许5年之内就会被淘汰。
以前我们做的那些工作,现在从大模型的视角来看,所设计的模块一定要足够大,将其建成“data in、>
4月8日,北京时间20:00-22:00,将举办主题为「大模型时代,机器人的技术革新与场景落地」的线上圆桌论坛。
本次论坛嘉宾有,南佛罗里达大学孙宇教授、武汉大学李淼教授、南方科技大学张巍教授、优必选科技庞建新博士。
“全球人工智能与机器人大会”(GAIR)始于2016年与中国计算机学会(CCF)合作创立的 CCF-GAIR 大会,旨在打造人工智能浪潮下,连接学术界、产业界、投资界的新平台,而“连接三界”的全新定位也在此大会上得以确立。
经过几年发展,GAIR大会已成为行业标杆,是目前为止粤港澳大湾区人工智能领域规模最大、规格最高、跨界最广的学术、工业和投资领域盛会。
GAIR Live 作为旗下视频直播品牌,旨在输出新鲜、深度、原创的大咖访谈与对话内容,打造辐射产、学、研、投的特色线上平台。
大模型与机器人相关资料
1.《对话南佛罗里达大学孙宇教授:当大语言模型用于机器人任务规划丨IJAIRR》
2.论文:Consolidating Trees of Robotic Plans Generated Using Large Language Models to Improve Reliability
《国际人工智能与机器人研究期刊》(International Journal of Artificial Intelligence and Robotics Research,简称IJAIRR),是由新加坡GAIR研究院与世界科技出版社联合出版的国际学术期刊。
作为全球首本专注于人工智能(AI)、机器人技术(Robotics)以及基础科学交叉研究(Research)的期刊,IJAIRR致力于成为AI与机器人领域研究的权威发布平台。
如果您在本领域顶级会议上发表的文章(或即将发表)不超过一年,我们将协助您稍作修改后在IJAIRR期刊上发表。
如果您领导的团队在顶级会议上有多篇论文发表,并希望在IJAIRR上围绕特定主题策划一个专题(Special Issue),我们诚挚邀请您深入讨论合作事宜。
如果您是顶级会议的组织者,并有意与IJAIRR合作,针对特定会议策划一个专题(Special Issue),我们也期待与您具体商讨合作细节。
IJAIRR期待与您携手,共同推动人工智能与机器人研究的发展。图片
联系人:IJAIRR创刊主编朱晓蕊博士,xiaorui_zhu@gair.sg
关于期刊创刊主编等更多信息,可点击
关于、GAIR大会、GAIR研究院(期刊和在线社区)的详细介绍,请阅读朱晓蕊教授的专访:
IJAIRR期刊的主页链接为:
原创文章,未经授权禁止转载。详情见 转载须知 。