VLM 模型生图超级外挂！贾佳亚团队提出 Mini (m-v模型)

文章编号：40271 资讯动态 2024-12-03 图像推理大模型模型训练

生图超级外挂！贾佳亚团队提出 VLM 模型 -Ge<a href= Mini，堪比 GPT4+DALLE3 王炸组合" src="http://www.gpxz.com/zdmsl_image/article/20241203173709_56863.jpg" loading="lazy">

更高清图像的精确理解、更高质量的训练数据、更强的图像解析推理能力，还能结合图像推理和生成，香港中文大学终身教授贾佳亚团队提出的这款多模态模型Mini-Gemini堪称绝绝子，相当于开源社区的GPT4+DALLE3的王炸组合！

Mini-Gemini还提供了2B小杯到34B的超大杯，最强模型在多个指标上相比Google Gemini Pro甚至GPT-4V都不遑多让。目前，Mini-Gemini从代码、模型、到数据已全部开源，登上了PaperWithCode热榜。

Mini-Gemini线上Demo也已发布，超会玩梗，一起来体验下！

生图超级外挂！贾佳亚团队提出 VLM 模型 -Gemini，堪比 GPT4+DALLE3 王炸

Mini-Gemini Demo放出后受到广大网友关注，一番“品尝”后，他们认为Mini-Gemini跟商业模型差不了多少！

生图超级外挂！贾佳亚团队提出 VLM 模型 -Gemini，堪比 GPT4+DALLE3 王炸

目前，绝大多数多模态模型仅支持低分辨率图像输入和文字输出，而在实际场景中，许多任务都需要对高清图像进行解析，并用图像的形式进行展现。

如上图所示，Mini-Gemini不仅能够根据图片对做面包的过程进行手把手教学，也能够准确将不同电脑品种根据图片中的各种参数进行对比。网友表示：妈妈再也不用担心我的生活了。

更重要的是，Mini-Gemini在保留超强的图像理解和推理能力的同时，还解锁了图像的生成能力，就如同ChatGPT和生成模型的结合。

下面，让我们通过几个例子来更直观地感受这种能力：

还记得Google Gemini的官方展示视频么？当用户给出两个毛线团并问出能用它们做什么时，Gemini可以识别出图片内容并给出相应的建议。

生图超级外挂！贾佳亚团队提出 VLM 模型 -Gemini，堪比 GPT4+DALLE3 王炸

当我们把相似的输入给到Mini-Gemini，它会怎么回答呢？

生图超级外挂！贾佳亚团队提出 VLM 模型 -Gemini，堪比 GPT4+DALLE3 王炸

可以发现，Mini-Gemini也可以识别出图片中的元素，并且合理地建议，同时生成了一只对应的毛线小熊。

生图超级外挂！贾佳亚团队提出 VLM 模型 -Gemini，堪比 GPT4+DALLE3 王炸

通过一些抽象的多模态指令来让模型给出推理，并生成合适的图片，这个操作就很像是ChatGPT和DALLE3的联动了！

接下来让Mini-Gemini做自己最擅长的推理和图片理解，看看它表现：比如理解图片中的矛盾点并举一反三——输入冰川中的仙人掌，它会解释其中的矛盾并生成一张热带雨林中北极熊的图片：

生图超级外挂！贾佳亚团队提出 VLM 模型 -Gemini，堪比 GPT4+DALLE3 王炸

图片呈现了仙人掌的典型栖息地与冰的存在之间的视觉矛盾，因为在沙漠环境中自然不会出现冰。这种矛盾的类似例子可能是一只北极熊出现在热带雨林中，因为北极熊适应于寒冷、覆盖着冰的环境，在炎热潮湿的气候中无法生存。这种并置创造了一个引人注目且超现实的视觉效果，挑战观众的期待，并可能引发人们对气候变化、环境适应或不同生态系统融合的思考。

同时，正如ChatGPT+DALLE3的梦幻结合一样，Mini-Gemini的“推理生成”功能还可以在多轮对话中通过简单指令生成连环小故事。

生图超级外挂！贾佳亚团队提出 VLM 模型 -Gemini，堪比 GPT4+DALLE3 王炸

比方说，让它根据用户输入讲一个贵族小老鼠的故事。Mini-Gemini会根据前文的文字生成结果和用户输入进行推理，在保持一致性的情况下对图片进行修改，使其更符合用户的要求。

当然，Mini-Gemini对于多模态模型的传统技能图片理解也不在话下。比方让模型理解输入曲线图的数学意义（高斯分布），并让它使用代码复现这张图，通过运行生成的代码，模型可以高质量地还原曲线图，节省了复现的时间。

生图超级外挂！贾佳亚团队提出 VLM 模型 -Gemini，堪比 GPT4+DALLE3 王炸

又或者让Mini-Gemini理解梗图，通过其强大的OCR和推理能力，也可以准确指出笑点。

生图超级外挂！贾佳亚团队提出 VLM 模型 -Gemini，堪比 GPT4+DALLE3 王炸

高清复杂的多图表理解和归纳也是小菜一碟，Mini-Gemini直接秒变打工人效率提升的超级外挂。

生图超级外挂！贾佳亚团队提出 VLM 模型 -Gemini，堪比 GPT4+DALLE3 王炸

问题来了，Mini-Gemini是怎样做到这种惊艳的效果呢？核心在于三点，(1) 用于高清图像的双编码器机制，(2) 更高质量的数据， (3) 训练阶段结合生成模型数据拓展。

大道至简，Mini-Gemini的整体思路并不复杂。其中的Gemini（双子座）表达的是使用视觉双分支的信息挖掘（Mining-Info inGemini）解决高清图像理解问题。

详细来说，Mini-Gemini将传统所使用的ViT当做低分辨率的Query，而使用卷积网络(ConvNet) 将高分辨率的图像编码成Key和Value。使用Transformer中常用的Attention机制，来挖掘每个低分辨率Query所对应的高分辨率区域。从而在保持最终视觉Token数目不变的情况下去提升对高清图像的响应，保证了在大语言模型 (LLM) 中对于高清图像的高效编码。值得一提的是，由于高分辨率分支卷积网络的使用，可以根据需要对图像所需的分辨率自适应调整，能够遇强则强。对于图像的生成部分，Mini-Gemini借助了SDXL，使用LLM推理后所生成的文本链接两个模型，类似于DALLE3的流程。

生图超级外挂！贾佳亚团队提出 VLM 模型 -Gemini，堪比 GPT4+DALLE3 王炸

而对于数据这个万金油，Mini-Gemini进一步收集并优化了训练数据的质量，并加入了跟生成模型结合的文本数据进行训练。在仅使用2-3M数据的情况下，实现了对图像理解、推理、和生成的统一流程。

Mini-Gemini在各种Zero-shot的榜单上毫不逊色于各种大厂用大量数据训练出来的模型，可谓是“平、靓、正” ！

生图超级外挂！贾佳亚团队提出 VLM 模型 -Gemini，堪比 GPT4+DALLE3 王炸

可以看出，Mini-Gemini提供了多种普通和高清版本的模型，并且覆盖了2B的小杯到34B的超大杯，各个版本都取得了相似参数量下领先的效果，在许多指标上甚至超越Gemini Pro和GPT-4V。

值得一提的是，Mini-Gemini的图像理解和生成能力已经出了Demo，可以在线跟自定义图像对话的那种。

操作也极其简单，直接跟输入图像或文字进行对话即可，欢迎来撩！

生图超级外挂！贾佳亚团队提出 VLM 模型 -Gemini，堪比 GPT4+DALLE3 王炸

Github地址：

Demo地址:

论文地址：

模型地址：

数据地址：

文章

原创文章，未经授权禁止转载。详情见转载须知。

谷普下载提醒您

本文链接：http://www.gpxz.com/article/035becb6e71f1e05901e.html

上一篇：效果超GoogleDeepL等阿里国际发布首个大规

下一篇：宝马纯电野心用i5复刻5系的成功宝马纯电越

胶州包装

青岛胶州地区专业从事包装印刷三十年，涉及纸箱彩箱木箱，纸托盘，纸管，木托盘等

电影视频 2024-08-17 00:49:40

大律师网

大律师网是专业的法律咨询网站,拥有众多注册律师用户,提供免费法律咨询,律师在线解答法律咨询;为当事人提供详细的法律法规知识以及全国律师和律师事务所查询服务,找律师,就上大律师网。

网站模板 2024-07-11 13:35:45

佰益建建站平台,建站模板,网站建设,企业官网,五合一建站平台

佰益建建站平台是专业的企业网站建设模板站,是企业快速建站的快速选择,五合一建站平台,企业网站建设建好网站

网站模板 2024-07-11 13:37:31

投资家网

北京微金科技有限公司是一家以投资家为网络平台的新媒体公司，为股权投资，创业投资、风险投资、创业者提供报道和数据服务，同时为高端品牌客户提供解决方案式的整合营销服务，专注于为客户提供创新的、个性化的营销推广解决方案，多角度服务客户。

网络应用 2024-08-18 16:15:25

paperccb官网

PaperCcb查查呗官网-免费论文查重检测-首款免费论文检测软件，提供免费论文重复率检测，论文降重，论文格式规范，学术不端检测知网查重等一站式服务

手机软件 2024-11-13 06:14:50

低烟无卤线槽,阻燃缠绕管,编织网管,常州富润电器有限公司

常州富润电器有限公司专业生产、销售编织网管、尼龙扎带、接线端子、行线槽,电缆接头接线盒等系列配线器材。产品规格齐全,品质优异。低烟无卤线槽,阻燃缠绕管,编织网管

电影视频 2024-11-13 15:23:40

新闻

爱妻自媒体给大家推荐财经、汽车、美食、体育、星座、科技、生活等图文资讯信息让大家及时掌握图文资讯.

星座灵异 2024-11-16 17:33:43

汽车维修资料库

汽修帮手资料库是一个专业汽车维修手册电路图资料阅读平台，提供全球超过5000多车型维修手册电路图在线阅读查询，包括汽车维修手册、电路图、车身钣金维修数据、拆装、扭力、发动机大修、保养、正时、线路接线图、针脚定义、模块传感器、保险丝盒图解对照表位置等

小说阅读 2024-11-18 21:44:54

自贡冷库安装,自贡冻库造价,自贡冻库安装,自贡保鲜库设计,自贡小型冷库安装公司,自贡气调库建造,自贡冷藏库价格,自贡冷库设备,自贡冷库,自贡冻库,自贡气调库,自贡保鲜库工程

贡大洋绿洲制冷工程有限公司,13880221178造价低8%,冷库修建造价合理,专业承接各类大小型冷库、冻库、蔬菜保鲜库，水果保鲜库、气调库、冷藏库、设计安装,专业从事冷库设计、销售、安装8年，服务于上千余客户

设计美化 2024-11-19 02:03:13

广州上野原日语培训中心

上野原广州日语培训学校是广州地区最专业的日语学校之一.作为专业日语培训机构,提供纯正的日语培训小班课程.设:全日制日语培训班,业余日语培训班,假期日语班,日本留学服务,企业日语培训,日本留学培训班.纯正小班教学,专业日语教师.哪里学日语比较好-首选上野原广州日语培训中心.

商业服务 2024-11-27 16:39:14

外贴式液位计

济南图科电子有限公司为国家高新技术企业，公司潜心致力于超声技术应用领域的研究，建立了领先的科研技术团队，凭借强大的技术研发能力，开发了拥有核心技术和完全自主知识产权的外贴式超声波液位计、外贴式超声波液位开关、雷达物位计等产品。外贴式液位计，外贴式超声波液位计，外贴式液位开关，外测液位计，外测式液位计，外测式液位开关，声呐式液位计，液氨液位计，液化气液位计，液氯液位计、雷达物位计、音叉物位开关，油枕液位计、变压器油枕液位计，变压器油液位计；

网络应用 2024-12-10 01:11:50

敦煌旅游包车网

感谢亲爱的朋友访问敦煌旅游包车网,我是敦煌旅游包车魏师傅(13239499959).常年从事敦煌,张掖,兰州,青海,西宁等周边的旅游包车,租车,带司机包车服务.敦煌机场,火车站全程接送,敦煌一日游,敦煌二日游.努力将最真诚,实惠,周到,贴心的服务给予每一位朋友.

商业服务 2024-12-21 19:14:30

百亿美元的AIOps市场微软早已开始布局 (百亿美元的五棱星)

当AIOps与云计算相容，Azure还是那个Azure，2022年1月13日，微软亚洲研究院在，智能运维，媒体沟通会上分享了智能运维的应用场景、面临的挑战及未来发展方向，并详解微软亚洲研究院智能运维为Azure所提供的智能原动力，随着越来越多的企业拥抱云计算，企业上云成为共识，企业在享用云计算带来快捷服务的同时也要面对传统运维带来的挑...。

2024-12-03 21:37:58

死亡威胁字节回应员工雷峰早报女性事件；好莱坞大罢工抵制 AI 入侵；米哈游回应配音演员被欠薪 (死亡威胁啥意思)

字节回应员工，死亡威胁，女性事件，已劝退据九派新闻，近日，有网友在社交媒体爆料，自己近期受到字节员工陈某的，死亡威胁，，诱因是该网友拒绝了陈X的朋友、某已婚男老板进一步的性骚扰，针对此事件，抖音生活服务相关负责人告诉记者，经调查，该员工于今年6月5日入职，7月12日晚因过往纠纷参与辱骂他人，并造成了不良影响，公司已劝退该员工，与其解除...。

2024-12-01 01:40:13

索赔1000万优酷将起诉自媒体鞭牛士传播不实信息 (故意买2元过期食品索赔1000)

1月10日，优酷对外宣布将起诉网络自媒体BiaNews，鞭牛士，传播不实信息，侵犯优酷商誉，索赔1000万，并要求对方在官方渠道公开道歉，消除其传播不实信息带来的负面影响，1月9日晚间，鞭牛士在其官方网站发文，消息称今日头条已达成对优酷收购，，文章称有知情人士透露，今日头条已达成对优酷的收购，正在与西瓜视频对接业务，事实上，12月下旬...。

2024-11-26 17:45:48

三九鞋业加盟费多少钱 (三九鞋业加盟电话)

人们对于鞋子的需求量还是比较多的，所以不知道该去做什么的时候，也可以尝试开一个鞋店，但是有关品牌在进行挑选的时候可是很关键的，毕竟现在人们在买东西的时候都是比较看重牌子，三九鞋业作为比较有名气的鞋子品牌，自从成立就非常重视产品的品质，所以在市场上也是收获到了一定的人气和影响力，有关品牌在进行加盟的时候，也是应该要知道三九鞋业加盟费多少...。

2024-11-22 21:41:02

秦岚晒出游随拍一身黑装捧脸甜笑心境好 (秦岚旅游)

秦岚在社交平台分享一组自己的出游照，她现身澳门开心十足，齐全不理会与魏大勋的恋爱绯闻，一身黑装又酷又飒，在镜头前捧脸甜笑瞬间化身小可恶，...。

2024-09-07 21:12:11

俄副外长俄方将作出军事回应美国在德部署远程导弹是吓唬

[文，观察者网严珊珊]综合俄罗斯卫星通信社和塔斯社报道，俄罗斯外交部副部长里亚布科夫7月11日示意，美国在德国部署远程导弹的选择旨在破坏俄罗斯的安保，俄罗斯将以沉着和专业的形式对此作出军事回应，里亚布科夫今日在圣彼得堡举行的第十届金砖国度议会论坛间隙示意，美方此举只是造成形势更新的一环，，一种吓唬战术，稍早前，俄罗斯驻美国大使阿纳托...。

2024-07-13 04:16:29

一游客在南非公园不顾劝止下车拍照外地官员被象群围住踩死母象试图包全幼象 (中国游客南非遇害)

外地期间7月7日早上，一名43岁的西班牙游客在南非家养生物包全区下车拍摄象群照片时，被大象踩死，据悉，这名43岁的女子与未婚妻和另外两人一同旅游南非的匹林斯堡国度公园时，遭逢袭击，他们先是不时开着自己的车到处观赏，而后发现了3头大象和3头小象，随后，女子从车中爬进去，走向大象，想要拍照，南非西北省公园和旅游局在申明中称，，虽然他的同行...。

2024-07-10 19:24:04

AdobeFlashPlayer大厅是什么为什么须要下载新版本的FlashPlayer 有哪些配置 (adobeflash player)

1.AdobeFlashPlayer大厅是Adobe公司推出的一款用于网页阅读器的插件，准许用户在网页上观看视频、播放游戏和观看动画等，2.FlashPlayer大厅具备多种配置，包含支持网页上的丰盛媒体内容、提供交互式游戏和运行程序的运转环境、以及支持开发者创立复杂的网页设计和动画成果，3.须要下载新版本的FlashPlayer，重...。

2024-07-05 18:17:14

的人生选用迈巴赫少爷媒体高考学霸 (人生的选择可以用什么来比喻)

2024年高考时期，一则，迈巴赫送考，的视频引发了网友的热议，这名高三考生是中国工艺美术巨匠、国度级非遗铜雕技能代表性传承人朱炳仁的孙子朱也天，6月25日，该少年的高考效果出炉了，总分达700分，值得一提的是，朱也天还是奥林匹克化学金奖得主，朱也天接受记者采访时沉稳而虚心，他说，我如今确实挺激动的，，但700分，也不是很高的分数，我...。

2024-07-03 15:51:25

奥云网络电话下载-MOOGU奥云网络电话下载v2.0最新版

MOOGU网络电话是一款免费优质的网络通话软件，提供便宜的话费收取、高稳定的通话质量、贴心的来电显示的呢过功能，绿色资源网诚意推荐！MOOGU奥云网络电话官网介绍MOOGU网络电话软件是一款能从电脑打到电话，手机，小灵通的免费软件，使用MOOGU网络电话软件，超清晰

2023-11-17 05:20:45

Alook浏览器PC版下载-Alook浏览器电脑版v8.5官方最新版

Alook浏览器电脑版是一款非常好用的主页浏览工具，该浏览器的体积十分小巧，意味着占用空间极少，并且无广告无弹窗

2023-11-12 07:37:17

胡闹塔防安卓下载_胡闹塔防下载

胡闹塔防下载——保卫家园，挑战极限胡闹塔防是一款非常受欢迎的策略游戏，游戏中玩家需要建造防御塔来抵御敌人的攻击。这个游戏不仅操作简单，而且画面精美，玩家可以在游戏中体验到无尽的乐趣和挑战。如果你想下载

2023-09-19 02:21:09

文章推荐

索尼X95EK电视通过U盘安装软件教程 (索尼x95el)

通过U盘安装软件看电影视频教程，索尼X95EK电视当贝UI版安装当贝市场教程1、打开电视找到，设置，菜单，进入选择，应用，功能，找到，安全与限制，，将，安装未知来源，设为允许，2、在电脑下载安装当贝市场，拷贝到U盘，当贝市场下载地址，请点击此处下载，3、将U盘接入电视USB接口，系统会显示U盘已连接，点击，确定，按键，4、在，应用助...。

2024-11-25 17:13:36

技术教程

网上怎么开成人用品店开成人店优势在哪 (网上怎么开成商业模式)

你想在电商平台开店吗，你还在因为开店费用问题而迟迟不敢动手开店，网上开店是不收钱的，如果你已经决定了要开店，那么现在就来看看我为你们准备的网上成人用品开店教程吧，那么网上怎么开成人用品店，开成人店优势在哪，1、打开浏览器，在搜索框中输入网址，进入，点击亲，请登录，2、登录账号，完成后，选择右上方的千牛卖家中心，点击免费开店，3、系统会...。

2024-11-22 21:09:36

创业加盟

领跑中国乃至全球海上风电市场上海电气海上风电新增装机量为全球第一 (领跑中国速度)

根据彭博新能源财经最新发布的数据，上海电气风电集团股份有限公司在2021年全球风电整机制造商海上风电新增装机容量排名中位列第一，新增装机量达到4.1GW，中国的海上风电市场在过去一年经历了显著的增长，得益于补贴退坡引发的抢装潮，装机容量实现了251%的增长，在这其中，有四家中国整机商占据了前四位，而上海电气风电集团股份有限公司以4.1...。

2024-11-19 00:53:32

资讯动态

70岁女厅官艾书琴被开革党籍违规向指导干部赠送钱款 (女厅官退休年龄)

11月11日，中央纪委国度监委网站发布征引自黑龙江省纪委监委信息，黑龙江省社会迷信院原党委书记艾书琴被开革党籍，经查，艾书琴违犯政治纪律，反抗组织审查；违犯廉洁纪律，违规从事营利优惠，违规向指导干部赠送钱款；应用职权或许位置构成的便利条件，在企业运营方面为他人谋取利益，合法收受财物，涉嫌行贿罪，纪监部门点评，艾书琴身为党员指导干部，丢...。

2024-11-13 02:33:23

动漫动画

我的小尾巴开播伊能静张亮分享儿女趣事 (我的小尾巴开播时间)

网易文娱3月25日报道近日，，伊能静的育儿仪式感，话题在网络上惹起了宽泛关注，网友们就伊能静育儿观、父母育儿的仪式感等外容倒退深入讨论，而该话题正是源于，我的小尾巴，首期节目中伊能静对育儿阅历的分享，爱奇艺兄妹生长观察陪伴综艺，我的小尾巴，正式开播，五位生长见证官除了分享家庭教育干货，更有如，天天的第一句话是倒倒倒好嘞，、，汪苏泷希望...。

2024-09-07 20:35:49

娱乐热点

VLM 模型 生图超级外挂！贾佳亚团队提出 Mini (m-v模型)

相关文章

文章推荐

VLM 模型生图超级外挂！贾佳亚团队提出 Mini (m-v模型)