对话南佛罗里达大学孙宇教授 当大语言模型用于机器人任务规划丨IJAIRR (南佛罗里达博物馆)

文章编号:36795 资讯动态 2024-11-30 机器人大模型任务规划

现代化社会,哪些工作场景最需要机器人的帮助?

在工业领域,有著名的机器人“四大家族”——发那科、ABB、安川、库卡,经过百余年的发展技术越发成熟,在工业场景已经得到深入而广泛的应用。

相比之下,生活场景中的服务型机器人历史则短得多。

例如在餐饮场景,烹饪过程的标准化程度远远不如工厂流水线,这为烹饪机器人的研发带来了很大难度,在烹饪流程、烹饪方式、火候控制等环节,存在着诸多难题。

直到近年来这一方向才逐渐有所发展。

在2022年举办的北京冬奥会上,烹饪机器人已经进入智慧餐厅,烹饪中餐、西餐的各种菜品。

根据国外调研组织Market Research Future 发布的报告,2022年~2026年间,全球机器人烹饪设备的市场规模将成长至超1亿美元,年复合增长率近20%。

南佛罗里达大学计算机科学与工程系教授孙宇多年来一直致力于机器人领域相关研究,早在2015年便已开始尝试将知识图谱应用于机器人任务规划。

大模型技术出现之后,为人机的协同交互带来了巨大的影响。

虽然与小语言模型的模型架构和与训练目标类似,但大语言模型在大幅度扩展了模型大小、预训练数据和总计算量(扩大倍数)后,不但能够更好地理解自然语言,并根据给定的上下文(例如 prompt)生成高质量的文本,还展现出了一项全新的特征:涌现。

涌现为大语言模型带来的几种最具代表性的能力——上下文学习、指令遵循、循序渐进的推理等,使其在机器人研究发挥出更大的作用,大语言模型开始成为机器人任务规划研究中的一项重要工具。

自去年以来,孙宇教授开始尝试将大语言模型应用在烹饪机器人任务规划之中。

近期,相关论文之一《 Consolidating Trees of Robotic Plans Generated Using Large Language Models to Improve Reliability,上线初创期刊《人工智能与机器人研究国际期刊》(IJAIRR)。

借此契机,孙宇教授向介绍了该论文的研究过程,以及烹饪机器人研究中存在的难题。

论文链接:

基于知识网络的机器人任务规划

机器人任务规划即根据机器人的能力、任务需求及环境条件等因素,为其制定一系列详细的行动方案,使其在复杂的环境中,高效、安全、准确地完成任务。

在这一过程中,有许多复杂的因素需要考虑。

例如,机器人的移动路径需要适应工作环境中障碍物的分布,以避免碰撞;

任务执行的时间与顺序需要根据实际情况进行优化;

在交互方式上,还需要保证机器人的行为与指令易于理解等等。

早在2015年,孙宇教授及其团队就开始将知识网络在机器人任务规划之中,基于网络进行烹饪领域相关知识的采集和整合,指导机器人执行烹饪任务。

对话南佛罗里达大学孙宇教授:当大语言模型用于机器人任务规划丨IJAIRR

南佛罗里达大学孙宇教授

研究中使用的知识网络,正是由孙宇教授所带领的机器人概念和行为实验室(RPAL)所发明的面向功能对象网络(Functional Object-Oriented Network,简称 FOON)。

这是一个存储功能对象和操作信息的中心知识网络系统,可以通过处理在线视频、文本获取功能对象和操作信息。

经过一定的标注和矫正,这个知识网络可以很可靠的提供各种烹饪任务规划树。如果要求的烹饪任务的功能单元(functional unit)是FOON里有的,FOON可以给出100%正确和高效的任务规划树。

如果要求的烹饪任务的功能单元是FOON里没有的,但很相像,这个知识网络可以给出非常可靠高效的任务规划树。

但是如果要求的烹饪功能单元与FOON里功能单元没有任何相关,FOON就很可能给出错误的规划树。因为知识网络是封闭的,机器人无法无限延展超出知识网络范围的内容。

直到大语言模型的出现,为这项研究带来了新的转机。

如何规划一个知识库中完全不存在的任务?

烹饪机器人如何才能生成一个知识库中不存在的任务?

随着大模型技术的发展,自去年以来,孙宇教授及其学生Sadman Sakib博士开始尝试使用大语言模型技术(LLM)进行机器人任务规划。

对话南佛罗里达大学孙宇教授:当大语言模型用于机器人任务规划丨IJAIRR

Sadman Sakib博士

在自然语言处理、任务规划和执行以及人机交互等方面,GPT-4展现出强大的能力。

论文中以烹饪任务为例进行了介绍。

对话南佛罗里达大学孙宇教授:当大语言模型用于机器人任务规划丨IJAIRR

在接收到用户关于烹饪某样食物的指令后,传统的机器人规划方法通常只会生成一个任务计划,而该论文通过GPT-4这一语言模型的提示工程,生成了多个不同的高级任务规划,并以任务树的形式进行展现。

这些任务树为机器人提供了多种可能的执行方案,不同方案的资源需求、并行时间、风险各有不同。

利用Graph Merger(图形合并器)将这些任务树合并成一个统一网络后,再通过比较和分析剔除其中不可靠的组件,例如执行成本过高的节点,再将筛选出的正确、有效的组件进行集成,最终形成一个最优的解决方案,极大地提高了规划的准确性与整体任务执行的效率。

由于机器人无法直接执行高级任务计划,GPT-4还需要扮演翻译者的角色,将这一高级任务计划从自然语言的形式转化为低级的PDDL计划,用PDDL语言来描述并求解规划任务,使人类可以理解的语言转换为机器人可以理解的指令。

例如,当烹饪机器人收到“制作一碗包括胡萝卜、卷心菜和豆子的面条”这一任务后,GPT-4生成了多个高级任务计划,并将其合并、筛选得到一个最优的任务树,将其转化为PDDL计划,把这项工作分解成“拿起瓶子”、“将油葱瓶子中倒进锅里”等动作序列,再由机器人执行。

值得一提的是,孙宇团队通过研究表明,合并食谱可以通过让食谱共享信息并学习多样化的子任务方法,从而发现创新的烹饪方法。

于是研究团队创建了多个食谱及其对应的任务树,并合并为一个网络后,成功将不同食谱中的烹饪步骤和技巧融合在一起,形成了新的烹饪流程。

这些融合后的任务树不仅展示了烹饪任务的多样性,还揭示了不同子任务之间的潜在联系和互补性,构建出了一个更为丰富和复杂的烹饪网络。

“也就是说,有了这个网络,不仅能实现传统菜肴的制作,还能够创造出更加新颖、独特的菜品,为烹饪艺术注入了新的活力。”

孙宇教授指出,对这项研究进一步优化后,将开发出更加高效和智能的烹饪机器人或系统。

大语言模型与知识网络的相互补充

孙宇教授从事机器人领域的研究已二十余年。在USF,孙宇教授带领的机器人概念和行为实验室(RPAL)多年来围绕机器臂抓取和操作、人机交互、医学影像及虚拟现实、机器触觉及力学传感控制等诸多方向进行了大量研究。

后来在机器人任务规划研究中得到大量应用的FOON这一成果,就是出自RPAL。

对话南佛罗里达大学孙宇教授:当大语言模型用于机器人任务规划丨IJAIRR

孙宇教授与RPAL实验室成员合照

大语言模型和知识网络FOON有天然的互补性。以GPT-4为代表的大语言模型,虽然能够从开放的网络环境中学习各种任务规划,但产生的规划却未经把关,无法保证其正确性。

而有FOON里整合的任务规划树是经过人工标注和验证过100%正确的,但是它是有限的和不完全的。

所以可以用大语言模型来产生多个不保证正确的任务树,然后用FOON的结构特点来合并这些任务树,消除不正确的功能单元,由别的树或FOON里正确的功能单元所取代,来提高正确率。

此外,该研究具有很好的泛化能力,并不局限于烹饪场景,只需调整少量组件或不调整组件,即可为许多不同工作场景中的机器人找到最优计划。

孙宇教授指出,当前的机器人任务规划研究中仍旧存在许多挑战。

当机器人遇到任务规划或运动规划错误、系统故障等情况时,可能会导致任务失败,如何使机器人任务失败后自助纠正计划错误是一项至关重要的课题。

团队未来的研究将进一步关注环境反馈的影响,尝试使机器人借助视觉系统与GPT-4准确地识别与更新环境状态,从而减少或避免机器人纠正计划错误时的人为干预,使其自主应对任务失败的情况。

原创文章,未经授权禁止转载。详情见 转载须知 。

对话南佛罗里达大学孙宇教授:当大语言模型用于机器人任务规划丨IJAIRR

全局中部横幅
上海泰康拜博口腔医院

上海牙科医院哪家好?全口种植牙多少钱?牙套多少钱?来上海泰康拜博口腔医院,一家致力于隐形牙齿矫正,全口种植牙齿的口腔医院,目前在上海建立了33家门诊连锁,遍布于上海各个商业中心。欢迎前来了解就诊,热线400-080-1811。

《三国杀》官网

三国杀是一款集历史、美术、卡牌等元素于一身的原创三国题材策略卡牌游戏。支持PC、移动多端登录,数据互通!保留身份、国战经典玩法,创新推出2V2、斗地主模式,更有丰富主题的PVE玩法体验!怀旧国服,福利畅玩,等你体验!

哪里印

哪里印-是最便捷的印刷价格搜索平台。专业宣传单、画册、海报、折页、封套、手提袋等多种印刷产品的价格搜索服务。

请假系统

智慧请假是免费的请假管理系统,实现微信、云平台、网上请假的软件,支持请假系统app定制,关注公众号,无需下载请假系统app!

首页

宁波大学科学技术学院本科生招生网

PG电子·(中国)官方网站

PG电子官方网站✅328COM.COM,电子最新网站入口,我们为您提供:真人,棋/牌体育,彩/票电子,PG电子注册、登录、客户端下载以及发布平台优惠活动信息、招商代理加盟等,PG电子官方网站是您休闲娱乐的首选网站!

最有情的网站收录平台

网站分类网(wangzhanfenlei.com)是一个综合行业网站自动免费收录平台,信息推广、友链发布,为收录各行业优秀正规网站,每天都拥有几万的蜘蛛来访。并提供用户可以免费发布友链。

黑龙江龙电律师事务所

黑龙江龙电律师事务所始创于1997年,经过二十余年的不懈努力,已发展成为中国律师行业中优秀的综合性律师事务所之一。

行车记录仪网

车安坊网站是行车记录仪及电子狗等汽车安防论坛社区。专注于分享汽车安全行车记录仪的使用、安装、购买、使用心得经验等。

妙镜

妙镜是一款聚合国内外海量优质VR内容的APP,提供丰富的VR游戏、视频、图片的下载和使用。妙镜可以对优质VR内容, 比如OculusStore内容的获取进行加速、代购,帮用户解决注册海外帐号和翻墙付费等困难。妙镜内置强大的播放器,可以播放多种VR格式。

金华信诺达环境技术服务有限公司

金华信诺达环境技术服务有限公司组建于2013年10月,位于兰溪市经济开发区浒溪路7号,专业从事环评现状、污染源、环境普查、环保验收、ISO14000认证等环境检测,废水、废气等污染源治理工程和环境生态修复工程的设计、施工、调试,环保处理设施运营管理、企业环保设施操作人员技术培训,排污申报、总量核查、环境应急预案编制等环境技术咨询服务等项业务。 公司成立后通过一年多的筹备,实验室于2015年8月取得了检验检测机构认定证书,目前拥有气相色谱仪、原子吸收分光光度计、紫外可见分光光度计和红外测油仪等仪器设备及检测用各类器皿的近450平方米的检测实验室,能为企业在水和废水、空气和废气、噪声、土壤和沉积物四大方面提供115项检测指标。 公司在污染源防治与治理上,拥有浙江省产业协会颁发的废水、废气专业设计资质和总承包资质,在化工、电镀、印染、食品等行业的废水、废气治理拥有丰富的治理经验和成功案例。 作为企业环境技术专业服务商,致力于推动客户应对越来越严格、越来越细致的企业整体环境保护的能力。我公司根据国内环保形势发展,为确保现有业务能做精做强,不被激烈的竞争形势淘汰,公司在兰溪信达环保科技工程有限公司基础上,利用原二三十年环境治理技术积累和不下100多例实战经验沉积,组建一个富有朝气、勇于探索和创新的80、90科技人员为主体的环保专业技术队伍,为企业提供经济、可靠、稳定的环境保护技术和优质服务,让企业真正做到只专注企业生产,后顾之忧——环保问题我们替您解忧。

上海谱华森生物科技有限公司

上海谱华森生物科技有限公司(www.powerscin.com)是全自动显微镜、全自动荧光显微镜、数字病理扫描仪、电动载物台供应商,提供显微镜自动化改造服务,公司拥有专利20多项,软件著作权10多项,涵盖了自动对焦、微位移控制、智能传感、图像处理等生物显微方面的关键技术。

全局底部横幅