哈工深聂礼强 多模态大模型是具身智能发展的关键动力丨具身智能十人谈 (哈工深聂礼强是杰青吗)

文章编号:43951 资讯动态 2024-12-09 聂礼强具身智能产学研一体

作者丨陈鹭伊

编辑丨岑峰

具身智能的“智能”如何体现?

这是-AI科技评论启动“具身智能十人谈”栏目以来,在拜访这一领域的诸多研究者时最常提到的话题之一。

具身智能,简而言之,是指将智能系统与物理实体相结合,使其能够感知环境、进行决策并执行动作的一门技术。其关键词是“具身”,即不仅仅是抽象的算法和数据,而是要通过物理形态与世界进行交互。

然而,要实现真正的“智能”,具身智能系统需要一个强大的“大脑”来支撑其复杂的决策和学习过程。这里的“大脑”并非生物学意义上的器官,而是指一种能够处理和理解多模态信息的高级计算模型——多模态大模型。这种模型能够整合视觉、听觉、触觉等多种感官数据,以及语言、指令等抽象信息,为机器人提供更为丰富和全面的环境理解能力。

2022年11月,ChatGPT的问世展现了大型语言模型(LLM)的突破,不仅激发了对大模型在各行各业应用的无限想象,也将“具身智能”推到了聚光灯下,引发了对机器如何更自然地与人类及环境互动的深入探讨,激发了新一波多模态大模型研究的浪潮。

自然语言处理(NLP)是大模型底层核心技术之一。哈尔滨工业大学是NLP研究的老牌工科强校,大模型研究技术积累十分雄厚。哈工深自研的自主可控的多模态大模型——九天,受到业界的广泛关注。九天具有模态覆盖面广、多模态数据集十分顶尖、模态联系能力强、可扩展性强等显著特点,在多项评测指标中表现颇佳。九天对视频-文本处理部分和图片-文本处理部分相关论文获 ACM MM 2022的最佳论文奖。

哈工深的多模态大模型与具身智能研究由聂礼强教授领衔,他过去15年的科研专注于多模态内容分析与理解,深信多模态感知、融合和理解的重要性。他意识到传统机器人自主决策能力弱,而多模态大模型虽擅长理解决策却无法与物理世界互动。这启发了他将两者结合,以机器人为躯干、多模态大模型为大脑,实现优势互补。

有观点认为,多模态大模型技术将推动机器人“大脑”快速升级,其进化速度远超机器人本体,或将在未来2至3年内越过技术成熟点,进入规模化产业落地阶段。

哈工深聂礼强:多模态大模型是具身智能发展的关键动力丨具身智能十人谈

近日,AI科技评论拜访了聂礼强教授,与他探讨了具身智能领域的研究趋势、产学研一体面临的挑战等话题。以下即为AI科技评论与聂礼强就具身智能这一话题的访谈实录,限于篇幅,AI科技评论进行了不改原意的编辑:

"大脑"驱动具身智能发展

AI科技评论:您如何看待最近的具身智能热潮?当大家在研究和讨论具身智能时,究竟有哪些技术期待和应用期待?

聂礼强:具身智能热潮是人工智能大模型技术与机器人技术的结合产物。人工智能中大模型技术的突破,为机器人提供了新的“大脑”,而机器人与物理世界的互动也为大模型带来了新的着力点,两者相互促进、优势互补。

具身智能领域的研究趋势也在不断改变。在大模型赋能的起步阶段,一些工作是把人工智能领域的新成果直接用在机器人上,但不够深入。例如,多模态大模型常见的模态是视觉与文本,但机器人接触的信息更广——视觉、听觉、触觉、人的指令、机械臂的位姿等等,未来大模型需要去适配具身智能任务在物理现实世界感知交互的特点,把丰富的多种模态信息统筹融合起来。

近期大模型驱动的具身智能的研究也逐渐深化,正从初步应用转向深度融合,尤其是机器人运动控制的集成,这是技术发展的关键,也是一大挑战。随着研究的深化,我们期待大模型能更全面地理解和控制机器人的身体,实现更深层次的物理交互。

如果具身智能领域的挑战都得到了有效解决,其应用潜力是巨大的。具身智能应用可以把智能体融合到智能制造、服务业等各个垂直领域,比如工业巡检、家政服务等,让具身智能引领全新的制造业、服务业等产业升级。随着技术的成熟,其应用场景将更加广泛。

AI科技评论:多模态大模型在具身智能中扮演着怎样的角色?

聂礼强:多模态大模型是具身智能机器人的“大脑”,至关重要。它位于发展的上游,为机器人提供智能。没有这个“大脑”,下游的机器人“身体”也只是一个失去智能的机械装置。性能强大的多模态大模型,正是推动具身智能领域向前发展的关键动力。

多模态大模型超越了单一模态不足以应对复杂的实际场景的限制,极大地提升了机器人的感知与理解能力,使机器人能够更准确、全面地理解复杂场景和任务。此外,多模态大模型在大规模数据预训练后学习到了丰富的人类知识,赋予了机器人自主规划决策的能力。

多模态大模型还优化了人机交互。让机器人能通过语音、手势等多模态信息准确人类意图,让我们与机器人之间的交互更自然。多模态大模型强大的泛化能力也为机器人的自主学习能力打下了基础,帮助机器人适应多变任务,在向成为具有自主学习和适应环境变化的能力的真正意义上的智能体迈了一大步。

哈工深聂礼强:多模态大模型是具身智能发展的关键动力丨具身智能十人谈

我认为多模态大模型作为“大脑”影响着机器人的方方面面,其对机器人的上游赋能打通了具身智能落地的关键阻碍,是具身智能领域进步的的源头活水。

未来趋势:人性化与协作

AI科技评论:您认为多模态大模型在具身智能领域的未来发展有哪些趋势?

聂礼强:多模态大模型在具身智能领域的未来发展将带来革命性的变化,使AI系统在与物理世界的互动和理解方面更加人性化。可预见到以下几个关键趋势将在未来几年塑造这一领域:

多模态感知:模型将无缝整合触觉、嗅觉等多种感官信息,提供更全面的环境理解,接近人类的感知能力。

模型轻量化:开发高效的多模态大模型架构,利用模型压缩和知识蒸馏技术,提高具身系统的灵活性和效率。

迁移与少样本学习:具身AI将展现在迁移学习和少样本学习方面的进步,快速适应新任务而无需大量数据训练。

基底技术发展:模型将更好地连接抽象知识与物理现实,推动常识推理和因果理解的突破,增强长期记忆和持续学习能力。

自然交互能力:提升人与AI机器的交流直观性和上下文感知能力,使机器人能够进行复杂对话,解释环境和行动。

世界模型构建:创建全面的内部世界表示,用于具身AI的规划、预测和决策。

神经形态计算融合:多模态大模型与神经形态计算方法结合,模拟生物神经网络,提高能源效率和适应性。

这些趋势预示着,未来具身AI系统将通过多模态大模型在理解和与世界互动方面更加接近人类,开辟广泛应用和领域的可能性。

AI科技评论:您认为多模态大模型目前面临的最大的挑战是什么?

聂礼强:目前多模态大模型的最大的挑战是如何在保持连贯性、效率和伦理考虑的同时,整合和对齐多种数据模态。不同模态如文本、图像、音频和视频具有独特的特征,对齐它们是一个根本性难题,需要通过预训练、微调和架构设计等手段来实现有效共享表示。

大型多模态模型所需的计算资源需求随规模和模态的增加呈指数级增长,引发了可扩展性、可访问性和可部署性的问题,可能会限制模型的普及。

数据质量和多样性也是一个重大障碍。获取大规模、高质量且无偏见的多模态数据集既耗时又昂贵的过程。

模型的复杂性也使得确保可解释性和可理解性变得愈发困难。这对于模型在关键应用中的可信度至关重要。

最后,多模态大模型在伦理好社会影响方面也面临挑战。如错误信息、深度伪造和隐私侵犯等问题,需要制定相应的保障措施和伦理指南,更需要各方面的关注和合作。

学术与产业的共舞

AI科技评论:您如何看待当前学术界与产业界在具身智能研究方面的合作?

聂礼强:具身智能研究需要学术界的基础研究和创新思维与工业界的落地经验和数据相结合,共同克服复杂的科学和技术挑战。最近1-2年的具身公司,不少是高校孵化的。高校孵化公司的增多显示了学术界在推动技术商业化方面的关键作用。

政府的支持为校企合作提供了动力,通过鼓励校企联合申请项目,提供了必要的经济和平台支撑。联合实验室的建立促进了学术与工业的深度融合,加速了知识的交流和创新。

为加强合作,我们需要进一步对齐学术研究与产业需求,开发标准化的具身智能研究平台和协议,以及培养能够连接两界的人才。作为教育者,我们有责任培养学生在知识、技术和研究方法上的跨界能力。

总体来看,学术界与工业界的合作在具身智能领域展现出巨大潜力,通过政府支持、联合实验室和研究与需求的对齐,高校和企业将共同推动具身智能的创新发展。

AI科技评论:具身智能在学术界和工业界的前景如何,您及团队有哪些具体的研究案例?

聂礼强:具身智能在学术和工业界均备受青睐,开辟了前沿的交叉研究新径。无论是AI研究者还是机器人研究者,都在积极探索这一领域。工业界对大模型赋能机器人的挑战和应用前景持乐观态度。

哈工深聂礼强:多模态大模型是具身智能发展的关键动力丨具身智能十人谈 (若愚·九天项目无人厨房场景技术验证)

哈工深在具身智能领域有显著研究进展,如若愚·九天项目,它在无人厨房场景中实现了技术验证,突破了多模态大模型驱动群体智能等关键技术。我们成功结合了多模态大模型与机器人实体,开发了具备感知、交互、规划和行动能力的机器人系统。

这一过程中,我们面临了多模态信息融合、复杂任务规划和精确动作控制等挑战,每个步骤都需要细致研究。例如,大模型必须有效处理多种模态信息,机器人“大脑”需要准确规划任务,而“小脑”则要负责精确的动作执行。这些研究成果为具身智能的应用提供了坚实的基础。

AI科技评论:哈工深在具身智能领域有什么样的未来发展规划?

聂礼强:目前,基于哈工深目前在多模态大模型、机器人的研究基础,我们制定了系统的具身智能研究规划,包括智能体的感知、规划、操作、群体协同等多个方面,涵盖机械臂、无人机和人形机器人等各种智能体形态。

总之,具身智能是一个充满前景的研究领域,哈工深将继续推动科技创新和人才培养,力求为学术界和工业界做出更大贡献。

大脑+小脑范式的产业实践

AI科技评论:若愚科技曾提出“给机器人装上大脑”的口号,您如何看待大脑和小脑的协同关系,以及未来的研究方向?

聂礼强:若愚科技是从哈工深孵化出去的一家高科技公司,强调的是机器人认知系统(大脑)与运动控制系统(小脑)的协同工作。多模态大模型九天负责处理理解、感知、规划和决策任务,而小脑则执行精确的物理运动和交互。这种协同确保了机器人能够根据高层指令进行具体控制,并将执行反馈回大脑以调整策略,对适应性和稳健性至关重要。

若愚未来的研究将集中在加强这种协同作用上,集成模型规划与低级控制算法,包括开发错误修正和在线学习机制,使大脑能够根据小脑的执行结果快速调整,对长序列任务规划进行优化,并通过多模态感知和自适应学习提高机器人的感知和决策能力。此外,若愚还将探索如何利用大脑的高级理解能力来提升小脑的性能,如通过语义理解指导抓取规划或轨迹优化。

AI科技评论:若愚科技在多模态大模型和具身智能方面有哪些创新和突破?是如何将多模态大模型技术应用到产品中的?

聂礼强:若愚科技在多模态大模型驱动的具身智能上的开发上取得了突破,创新性地实施了大脑-小脑范式,整合了自然语言处理、视觉感知和行动规划,使机器人在多个领域具有智能“脑”。

核心技术包括增强检索大模型去幻觉规划,允许机器人根据自然语言指令自主执行复杂任务,如无人厨房中的订单处理和上菜协调。在3D感知上,使机器人能在无需预注册的情况下理解和操控复杂环境中的物体,显示出高灵活性和鲁棒性。

若愚科技还实现了通过扩散模型驱动的模仿学习,使机器人能够学习复杂技能而无需编程。这些技术被集成到我们的九天机器人“大脑”中,支持多模态交互,并通过标准化的以云+端交付方式,通过API+DK(SDK),与产业链伙伴合作,应用于食品加工、分拣、组装和3C产业等。

若愚已经在特种领域部署了“九天”机器人,利用模仿学习高效执行商业任务。未来,若愚将根据场景需求,推动多智能体规划的产品化,实现多机器人协同下的业务闭环。

AI科技评论:您如何评价目前具身智能技术在实际场景中的应用效果?

聂礼强:具身智能技术已在多个领域展现显著效益。在制造业,它提升了机器人的互动能力,增强了生产效率和灵活性,减少了人为错误。物流和仓储领域中,具身智能机器人通过自主导航和深度学习算法,优化了物品分类和搬运流程,提升了物流速度并降低了成本。

服务业也见证了具身智能的效益,如酒店和餐饮业中的迎宾、点餐和送餐机器人,它们提升了顾客体验并节约了人力成本。尽管存在技术成本、环境适应性及伦理方面的挑战,具身智能技术在实际场景中的应用效果是积极的,展现出广泛的前景,但仍需持续改进与优化以适应不断变化的市场需求。

原创文章,未经授权禁止转载。详情见 转载须知 。

哈工深聂礼强:多模态大模型是具身智能发展的关键动力丨具身智能十人谈

全局中部横幅
百度输入法

百度输入法是一款集手写、语音、win10、笔画、鼠标手写、手机输入法于一体,非常便捷、好用的输入法。下载百度输入法,还有海量皮肤及词库等你体验。

成都共板法兰风管厂家

四川吉瑞通机电是一家集风管研发生产制作于一体的成都风管加工厂,公司主营成都共板法兰风管,成都角钢法兰风管以及成都消防排烟管,同时吉瑞通还从事成都镀锌风管和成都人防风管的批发销售业务.我们拥有多条先进风管生产线和各类专用设备几十台,可达快速质优日产千余平方的高要求,如果您对风管有相关需求,欢迎来电18428369100洽谈合作.

五百丁简历

五百丁创办于2014年,目前已有全球超过800万精英用户正在使用,是国内使用人数最多的免费简历制作工具,智能-高效-便捷-实用,广受求职者和专业HR喜爱,平台汇集了海量优秀行业范例,精美模板,可以满足求职者的各类简历需求,有效提升求职成功率,做好简历就上五百丁!

滑州在线

滑州在线是滑县本地综合生活信息门户,为滑县网友提供滑县招聘求职、找工作招人才、滑县买房租房、闲置二手、相亲交友、同城优惠、头条信息、滑县本地热门活动等生活信息服务。滑县佰事通,滑县百事通,滑州百事通,关注滑县本地人、身边事,让家乡更美好!

河南环氧地坪漆

本公司专业研发生产环氧树脂地坪漆,混凝土密封固化剂原液,防滑地坪涂料,河南环氧地坪漆,河南混凝土密封固化剂,郑州弹性地坪等;厂家直销环氧树脂、稀释剂、固化剂等;提供技术、机械、施工队.咨询:陈18703836676.

广州越秀融资租赁有限公司

广州越秀融资租赁有限公司于2012年在广州南沙注册成立,目前注册资本达93.41亿港元。公司是中国融资租赁30人论坛理事单位、中国外商投资企业协会租赁业工作委员会副会长单位、广东省融资租赁协会常务副会长单位、广州融资租赁产业联盟理事长单位、广州市绿色金融协会理事单位、PGO绿色能源合作组织会员单位、中国融资租赁(西湖)论坛副理事长单位。公司于2018年6月获AAA级主体信用评级,自2015年起连续

UML软件工程组织

UML软件工程组织,火龙果软件培训与咨询典型客户:IBM,中国银行,华为,GE,爱立信,HP,中国移动,Sony,西门子,阿里巴巴,诺基亚,富士通研发中心

春兰除湿机总代理021

春兰除湿机官网厂家总代理,3kg/h和6kg/h两类产品,春兰除湿机厂家常年低价格销售各种家用型抽湿器和工业型去湿器, 春兰家用除湿器厂家,上海春兰除湿机CF3D,江苏春兰除湿机CFZ3BD,春兰除湿机CF6/C价格,春兰除湿机CFZ6B/C报价,电话:021-54296128, 德业低温吸潮机器价格,澳洲活仕除湿机报价,格力除湿机价格,春兰除湿机总代理,上海春兰除湿机春兰工业除湿机,德业低温除湿机, 格力除湿机价格

中能石油工程有限公司

中能石油工程有限公司--中能石油工程(天津)有限公司是一家拥有海外施工经验的石油化工安装公司

项目代理

全国项目代理机构网站,为全国各地科技企业提供从前期规划到后期售后的一站式项目代理服务,包括对于各省市各地项目条件、奖补、流程的深度解读、代理申请等,公司拥有高效、专业化的项目申报团队,具有多年项目申报经验和良好的社会资源背景。欢迎大家前来咨询。

北辰中心

北辰荟/北辰中心物业租赁电话:010-84946887,北辰荟/北辰中心地址:北京市朝阳区北辰西路6号院,北京中轴线新地标国家会议中心二期的核心商业,地铁8号线和15号线交汇直达。北辰荟商业面积约5.5万㎡,以国际精品、首店、概念店、体验店为载体,将展现独特的商业理念和新鲜活力,打造以品质生活、休闲娱乐、文化购物、美食体验为主要业态的京北首选目的型购物中心,向世界展示中国前沿的商业价值,北辰荟,北辰中心为您提供关于广场出租信息,包括广场的出租面积、交通位置、日租金、价格、地图、楼盘参数、周边配套、租赁详情和物业等相关信息.

光学测量产品电子测量产品

联景光电科技(北京)有限公司是联景实业发展有限公司在北京的子公司。联景实业有限公司成立于2005年,成立于中国香港。

全局底部横幅