解锁多模态大模型 大模型 港中文贾佳亚团队提出 LISA 推理分割 能力 (多模态界面)

文章编号:36790 资讯动态 2024-11-30 大模型港中文LISA贾佳亚

港中文贾佳亚团队提出 LISA 大模型:解锁多模态大模型“推理分割”能力

当前的视觉识别系统都依赖人类用户明确指代目标物体或预先设定识别类别,进而进行识别。它们仍然只能处理简单明确的指令(如“橙子”),而无法解析相对隐式和复杂的指令(如在下图中指出 “维生素C含量高的食物”)。

港中文贾佳亚团队提出 LISA 大模型:解锁多模态大模型“推理分割”能力

而真正的智能感知系统应该根据用户指令推理其真实意图。例如,在指示机器人时,人们往往倾向于直接给一个指令“我想要看电视“,而不是分几个步骤”走去茶几旁边,帮我找到遥控器,然后按下按钮打开电视“。这些场景都要求感知系统具有复杂推理和联系世界知识的能力。

最近,香港中文大学贾佳亚团队发布一项新研究,提出一项新任务——推理分割(ReaSONing Segmentation),该任务要求模型能够处理复杂的自然语言指令,并给出精细的分割结果。

港中文贾佳亚团队提出 LISA 大模型:解锁多模态大模型“推理分割”能力

如上图所示,推理分割任务具有很大的挑战性,可能需要借鉴世界知识(例如,左图需要了解“短镜头更适合拍摄近物体”),或进行复杂图文推理(如右图需要分析图像和文本语义,才能理解图中“栅栏保护婴儿”的含义),才能获得最终理想的分割结果。

尽管当前多模态大模型(例如Flamingo [1], BLIP-2 [2], LLaVA [3], miniGPT-4 [4], OTTer [5])使得AI能够根据图像内容推理用户的复杂问题,并给出相应的文本分析和回答,但仍无法像视觉感知系统那样在图像上精确定位指令对应的目标区域。

因此,此项研究工作提出LISA(Large Language Instructed Segmentation Assistant)多模态大模型。LISA通过引入一个标记来扩展初始大型模型的词汇表,并采用Embedding-as-Mask的方式赋予现有多模态大型模型分割功能,最终展现出强大的零样本泛化能力。

同时,该工作还创建了ReasonSeg数据集,其中包含上千张高质量图像及相应的推理指令和分割标注。

验证明,在训练过程中仅使用不包含复杂推理的分割数据(通过将现有的语义分割数据如ADE20K [6],COCO-Stuff [7]以及现有指代分割数据refCOCO系列 [8]中的每条数据转换成“图像-指令-分割Mask”三元组) ,LISA能在推理分割任务上展现出优异的零样本泛化能力。此外,进一步使用239个推理分割数据进行微调训练还能显著提升LISA在推理分割任务上的性能。而且LISA还表现出高效的训练特性,只需在8张具有24GB显存的3090显卡上进行10,000次训练迭代,即可完成7B模型的训练。

技术方案概述

港中文贾佳亚团队提出 LISA 大模型:解锁多模态大模型“推理分割”能力

首先将图像和文本送到多模态-大语言模型(在实验中即LLaVA),得到输出的文本结果,如果此时文本结果包含标记,则表示需要通过输出分割预测来解决当前问题。反之,若不包含标记,则无分割结果输出。

如果存在标记,则将标记在多模态大模型最后一层对应的embedding经过一个MLP层得到,并将其与分割视觉特征一起传递给解码器(其中分割视觉特征由输入编码器对图像进行编码得到)。最终,根据生成最终的分割结果。

LISA在训练过程中使用了自回归交叉熵损失函数,以及对分割结果监督的BCE和DICE损失函数。

模型效果

最终,LISA不仅在传统的语言-图像分割指标(refCOCO、refCOCO+和refCOCOg)上展现出优异性能,还能处理以下分割任务情景:1)复杂推理,2)联系世界知识,3)解释分割结果以及4)多轮对话。

在有复杂情景的ReasonSeg数据集上,LISA显著领先于其他相关工作(如Table 1),进一步证明其出色的推理分割能力。

港中文贾佳亚团队提出 LISA 大模型:解锁多模态大模型“推理分割”能力

港中文贾佳亚团队提出 LISA 大模型:解锁多模态大模型“推理分割”能力

效果展示

港中文贾佳亚团队提出 LISA 大模型:解锁多模态大模型“推理分割”能力 港中文贾佳亚团队提出 LISA 大模型:解锁多模态大模型“推理分割”能力 港中文贾佳亚团队提出 LISA 大模型:解锁多模态大模型“推理分割”能力

港中文贾佳亚团队提出 LISA 大模型:解锁多模态大模型“推理分割”能力

版权文章,未经授权禁止转载。详情见 转载须知 。

港中文贾佳亚团队提出 LISA 大模型:解锁多模态大模型“推理分割”能力

全局中部横幅
测速网

测速网(SpeedTest.cn)提供网速测试,网络质量测试,宽带测速,Wi-Fi测速,5G测速,IPv6测速,带宽检测,路由器测速,网关测速,宽带提速,宽带升级,网络加速,内网测速,专网测速,视频测试,游戏测速,直播测速,网络诊断,蹭网检测,物联网监测,网站监测,API监测,Ping测试,路由测试等专业服务,拥有国内外大量高性能测试点,覆盖电信,移动,联通,网通,广电,长城宽带,鹏博士等运营商,Wi-Fi7,Wi-Fi6,FTTR,全屋Wi-Fi。

哈尔滨展览展示,哈尔滨烤漆展柜定做

哈尔滨华恒展柜有限公司是一家集展示柜设计、制作、生产、销售于一体的综合性专业厂家!专业生产设计哈尔滨展览展示,哈尔滨展柜厂等各类展柜!一流品质欢迎定制。详询:15504628968

淘得过

淘得过-优惠券折扣直播第一站!每天更新千款,纯人工筛选验货,限时限量特卖,全场1折包邮!

温县照森陈家沟太极拳功夫院

陈家沟太极拳功夫学校坐落于太极拳发源地——中国陈家沟,其前身为陈家沟西北拳社,由陈氏十五世陈花梅创建于清道光年间。1988年,移地改建为陈家沟功夫院,于2005年更名为陈家沟太极拳功夫学校。

中至数据官网

中至数据集团股份有限公司(简称中至数据)始创于2000年,是一家专注于在线娱乐、在线营销及产业数字化的软件企业。公司获评“软件百强企业”,入选中国互联网领军企业100家重点研究企业、全国版权示范单位、江西省首批数字经济重点企业、江西功勋企业、江西省先进非公有制企业、江西省文化企业20强等。

阿里云国际版代理商

阿里云国际代理商,为全球客户提供阿里云产品代理代购,享受阿里云代理商专属优惠,VIP技术服务群支持.

培训资讯网

我们提供专业的职业培训资讯,帮助从业者提升职业技能和业务知识水平,以获取更好的工作机会.为兴趣爱好者提供全面的信息知识,更好的展示您的潜力和天赋。

不凡游戏网

不凡游戏网是老牌专业的手机手游应用下载网站,不凡游戏网汇集几万个精品手机游戏应用,为手机游戏玩家提供最好玩的游戏下载。不凡游戏网原创游戏推荐专题实时更新,人气应用、萌系手游应有尽有。来不凡游戏网找游戏,分分钟带给您劲爽掌上体验!

苏州意美特科技有限公司

苏州意美特科技有限公司主要业务涉及客户定制化真空灌封设备,项目方案、样品验证和新能电机灌封技术咨询,设备及产线自动化方案的实施和维修保养服务等

儿童菜谱网

儿童菜谱网是一个聚焦以“儿童”为主题的正规健康菜谱网站,让孩子吃上营养健康饭是儿童菜谱网创立的使命,儿童菜谱网始终坚信,只有让孩子吃的健康才能长的健康。

全局底部横幅