对话南佛罗里达大学孙宇教授 当大语言模型用于机器人任务规划丨IJAIRR (南佛罗里达博物馆)

文章编号:36795 资讯动态 2024-11-30 机器人大模型任务规划

现代化社会,哪些工作场景最需要机器人的帮助?

工业领域,有著名的机器人“四大家族”——发那科、ABB、安川、库卡,经过百余年的发展技术越发成熟,在工业场景已经得到深入而广泛的应用。

相比之下,生活场景中的服务型机器人历史则短得多。

例如在餐饮场景,烹饪过程的标准化程度远远不如工厂流水线,这为烹饪机器人的研发带来了很大难度,在烹饪流程、烹饪方式、火候控制等环节,存在着诸多难题。

直到近年来这一方向才逐渐有所发展。

在2022年举办的北京冬奥会上,烹饪机器人已经进入智慧餐厅,烹饪中餐、西餐的各种菜品。

根据国外调研组织Market ReseArch Future 发布的报告,2022年~2026年间,全球机器人烹饪设备的市场规模将成长至超1亿美元,年复合增长率近20%。

南佛罗里达大学计算机科学与工程系教授孙宇多年来一直致力于机器人领域相关研究,早在2015年便已开始尝试将知识图谱应用于机器人任务规划。

大模型技术出现之后,为人机的协同交互带来了巨大的影响。

虽然与小语言模型的模型架构和与训练目标类似,但大语言模型在大幅度扩展了模型大小、预训练数据和总计算量(扩大倍数)后,不但能够更好地理解自然语言,并根据给定的上下文(例如 prompt)生成高质量的文本,还展现出了一项全新的特征:涌现。

涌现为大语言模型带来的几种最具代表性的能力——上下文学习、指令遵循、循序渐进的推理等,使其在机器人研究发挥出更大的作用,大语言模型开始成为机器人任务规划研究中的一项重要工具

自去年以来,孙宇教授开始尝试将大语言模型应用在烹饪机器人任务规划之中。

近期,相关论文之一《 Consolidating Trees of Robotic Plans Generated Using Large Language Models to Improve Reliability,上线初创期刊《人工智能与机器人研究国际期刊》(IJAIRR)。

借此契机,孙宇教授向介绍了该论文的研究过程,以及烹饪机器人研究中存在的难题。

论文链接:

基于知识网络的机器人任务规划

机器人任务规划即根据机器人的能力、任务需求及环境条件等因素,为其制定一系列详细的行动方案,使其在复杂的环境中,高效、安全、准确地完成任务。

在这一过程中,有许多复杂的因素需要考虑。

例如,机器人的移动路径需要适应工作环境中障碍物的分布,以避免碰撞;

任务执行的时间与顺序需要根据实际情况进行优化;

在交互方式上,还需要保证机器人的行为与指令易于理解等等。

早在2015年,孙宇教授及其团队就开始将知识网络在机器人任务规划之中,基于网络进行烹饪领域相关知识的采集和整合,指导机器人执行烹饪任务。

对话南佛罗里达大学孙宇教授:当大语言模型用于机器人任务规划丨IJAIRR

南佛罗里达大学孙宇教授

研究中使用的知识网络,正是由孙宇教授所带领的机器人概念和行为实验室(RPAL)所发明的面向功能对象网络(Functional Object-Oriented Network,简称 FOON)。

这是一个存储功能对象和操作信息的中心知识网络系统,可以通过处理在线视频、文本获取功能对象和操作信息。

经过一定的标注和矫正,这个知识网络可以很可靠的提供各种烹饪任务规划树。如果要求的烹饪任务的功能单元(functional unit)是FOON里有的,FOON可以给出100%正确和高效的任务规划树。

如果要求的烹饪任务的功能单元是FOON里没有的,但很相像,这个知识网络可以给出非常可靠高效的任务规划树。

但是如果要求的烹饪功能单元与FOON里功能单元没有任何相关,FOON就很可能给出错误的规划树。因为知识网络是封闭的,机器人无法无限延展超出知识网络范围的内容。

直到大语言模型的出现,为这项研究带来了新的转机。

如何规划一个知识库中完全不存在的任务?

烹饪机器人如何才能生成一个知识库中不存在的任务?

随着大模型技术的发展,自去年以来,孙宇教授及其学生Sadman Sakib博士开始尝试使用大语言模型技术(LLM)进行机器人任务规划。

对话南佛罗里达大学孙宇教授:当大语言模型用于机器人任务规划丨IJAIRR

Sadman Sakib博士

在自然语言处理、任务规划和执行以及人机交互等方面,GPT-4展现出强大的能力。

论文中以烹饪任务为例进行了介绍。

对话南佛罗里达大学孙宇教授:当大语言模型用于机器人任务规划丨IJAIRR

在接收到用户关于烹饪某样食物的指令后,传统的机器人规划方法通常只会生成一个任务计划,而该论文通过GPT-4这一语言模型的提示工程,生成了多个不同的高级任务规划,并以任务树的形式进行展现。

这些任务树为机器人提供了多种可能的执行方案,不同方案的资源需求、并行时间、风险各有不同。

利用Graph Merger(图形合并器)将这些任务树合并成一个统一网络后,再通过比较和分析剔除其中不可靠的组件,例如执行成本过高的节点,再将筛选出的正确、有效的组件进行集成,最终形成一个最优的解决方案,极大地提高了规划的准确性与整体任务执行的效率。

由于机器人无法直接执行高级任务计划,GPT-4还需要扮演翻译者的角色,将这一高级任务计划从自然语言的形式转化为低级的PDDL计划,用PDDL语言来描述并求解规划任务,使人类可以理解的语言转换为机器人可以理解的指令。

例如,当烹饪机器人收到“制作一碗包括胡萝卜、卷心菜和豆子的面条”这一任务后,GPT-4生成了多个高级任务计划,并将其合并、筛选得到一个最优的任务树,将其转化为PDDL计划,把这项工作分解成“拿起瓶子”、“将油葱瓶子中倒进锅里”等动作序列,再由机器人执行。

值得一提的是,孙宇团队通过研究表明,合并食谱可以通过让食谱共享信息并学习多样化的子任务方法,从而发现创新的烹饪方法。

于是研究团队创建了多个食谱及其对应的任务树,并合并为一个网络后,成功将不同食谱中的烹饪步骤和技巧融合在一起,形成了新的烹饪流程。

这些融合后的任务树不仅展示了烹饪任务的多样性,还揭示了不同子任务之间的潜在联系和互补性,构建出了一个更为丰富和复杂的烹饪网络。

“也就是说,有了这个网络,不仅能实现传统菜肴的制作,还能够创造出更加新颖、独特的菜品,为烹饪艺术注入了新的活力。”

孙宇教授指出,对这项研究进一步优化后,将开发出更加高效和智能的烹饪机器人或系统。

大语言模型与知识网络的相互补充

孙宇教授从事机器人领域的研究已二十余年。在USF,孙宇教授带领的机器人概念和行为实验室(RPAL)多年来围绕机器臂抓取和操作、人机交互、医学影像及虚拟现实、机器触觉及力学传感控制等诸多方向进行了大量研究。

后来在机器人任务规划研究中得到大量应用的FOON这一成果,就是出自RPAL。

对话南佛罗里达大学孙宇教授:当大语言模型用于机器人任务规划丨IJAIRR

孙宇教授与RPAL实验室成员合照

大语言模型和知识网络FOON有天然的互补性。以GPT-4为代表的大语言模型,虽然能够从开放的网络环境中学习各种任务规划,但产生的规划却未经把关,无法保证其正确性。

而有FOON里整合的任务规划树是经过人工标注和验证过100%正确的,但是它是有限的和不完全的。

所以可以用大语言模型来产生多个不保证正确的任务树,然后用FOON的结构特点来合并这些任务树,消除不正确的功能单元,由别的树或FOON里正确的功能单元所取代,来提高正确率。

此外,该研究具有很好的泛化能力,并不局限于烹饪场景,只需调整少量组件或不调整组件,即可为许多不同工作场景中的机器人找到最优计划。

孙宇教授指出,当前的机器人任务规划研究中仍旧存在许多挑战。

当机器人遇到任务规划或运动规划错误、系统故障等情况时,可能会导致任务失败,如何使机器人任务失败后自助纠正计划错误是一项至关重要的课题。

团队未来的研究将进一步关注环境反馈的影响,尝试使机器人借助视觉系统与GPT-4准确地识别与更新环境状态,从而减少或避免机器人纠正计划错误时的人为干预,使其自主应对任务失败的情况。

原创文章,未经授权禁止转载。详情见 转载须知 。

对话南佛罗里达大学孙宇教授:当大语言模型用于机器人任务规划丨IJAIRR

全局中部横幅
寿县种丰农业种植专业合作社【官网】

寿县粮食种植、寿县小麦种植、寿县玉米种植、大豆种植,寿县种丰农业种植专业合作社成立于2022年5月20日注册地位于安徽省淮南市寿县小甸镇邵店村,目前流转托管土地涉及小甸镇六个村邵店、唐店、杨圩、姚郢、李山、马集共计托管26000多亩,本社重发展绿色高效农业,专业化小麦,玉米、大豆、高粱种植并且对所托管的耕地面积进行了平整改良,提高耕地粮食增产。

计算机房装修

河南星光机房系统技术有限公司在机房装修、计算机房工程施工,恒温恒湿实验室工程施工,高精度实验室装修,洁净净化工程施工、信息数据中心机房装修、IDC机房工程施工、监控机房等特殊环境场所提供综合设施工程服务方面居于领先地位。咨询电话:400-801-3619

PC下载网

PC下载网提供绿色免费软件官方下载,打造绿色免费软件下载基地,常用软件下载,来PC下载网就够了

泰安财务软件

金蝶软件山东分公司提供:泰安财务软件,泰安金蝶软件,财务软件,泰安金蝶财务软件,泰安金蝶库存软件,金蝶企业管理软件,金蝶财务软件,金蝶ERP系统等,服务电话:18953170889

杠杆式蒸汽疏水阀

永嘉县英科泵阀有限公司(www.ylkbf.com)是国内外专业的内外螺纹截止阀,杠杆式蒸汽疏水阀,防爆不锈钢电磁阀,排污球阀生产(供应)商,公司产品畅销全国各地,由于产品的设计合理、工艺先进、性能可靠及质量稳定、深受广大用户的信赖和好评。

外贸牛

【外贸牛,外贸牛营销中心】十余年专注助力跨境电商品牌出海,量身打造外贸牛、牛客云、牛贸通、牛视通等产品,提供一站式外贸整合营销系统,支持多种语言响应式建站,快速海外SEO+SEM+SNS推广引流,询盘多,见效快!咨询电话:400-9688-783

【学术之家】严谨的学术服务网站!

学术之家(xueshu.com)从事学术在线咨询、学术杂志订阅等学术在线咨询服务,是中国规模较大、服务人员较多的在线咨询网站,学术杂志、订阅不成功退款。

CCtalk

CCtalk丰富多元的综合内容平台,为知识内容创作者、分享者提供完整的在线内容交付、变现解决方案,构建丰富多元的创作者社区和内容生态,平台覆盖考研、公考、考试考证、语言、绘画、设计、IT互联网、职场、兴趣等几十个类型的内容,让每一个热爱生活,探索未知的用户可以轻松收获有趣内容,发现同好。

广东信与水性涂料有限公司

广东信与水性涂料有限公司|紫外光固化涂料|油墨|水性工业防护涂料广东信与水性涂料有限公司(以下简称广东信与)成立于2015年,是一家专业从事水性涂料研产销及服务的技术型企业,涉及产品包括紫外光固化涂料、油墨、水性工业防护涂料,目前具备3000吨/年的生产能力。

鸿源科技

基于java开发的一套javacms,也是轻量级开源内容管理系统,CMS简洁、安全、开源、免费,可运行在Linux、Windows、MacOSX、Solaris等各种平台上,专注为公司企业、个人站长快速建站提供解决方案,铭飞MS平台为您提供各类cms网站模板下载,公司网站、企业网站模板、网站后台系统模板、免费网站模板,10年建站公司老品牌值得信赖的cms!

多御企业安全浏览器

多御浏览器——丰富、安全、高速。支持隐身模式支持页面拦截、警告、提示。自定义下载器支持静默下载更新安装。

全局底部横幅