多模态能力再升级 阿里国际发布最新开源多模态模型Ovis (多模态理解)

看一眼菜品图就知道怎么做、能给植物看病、能把手写英文准确翻译成中文、还能精准分析财报数据……多模态能力再次升级!今天,阿里国际AI团队发布了一款多模态大模型Ovis,在图像理解任务上不断突破极限,多种具体的子类任务中均达到了SOTA(最新技术)水平。

多模态大模型能够处理和理解多种不同类型的数据输入,例如文本、图像。与大型语言模型(LLMs)相比,大语言模型在处理和生成文本数据方面有专长,而多模态大模型能够处理非文本数据,如图像等等。

根据多模态权威综合评测平台OpenCompass的数据,Ovis1.6-Gemma2-9B在30B参数以下的模型中取得了综合排名第一,赶超MiniCPM-V-2.6等行业优秀大模型。

阿里国际发布最新开源多模态模型Ovis,多模态能力再升级

图:Ovis在OpenCompass上的测评数据情况

据介绍,Ovis能够在数学推理问答、物体识别、文本提取和复杂任务决策等方面展现出色表现。例如,Ovis可以准确回答数学问题,识别花的品种,支持多种语言的文本提取,甚至可以识别手写字体和复杂的数学公式。

阿里国际发布最新开源多模态模型Ovis,多模态能力再升级

案例1:Ovis对手写文案的识别及翻译能力

阿里国际发布最新开源多模态模型Ovis,多模态能力再升级

案例2:Ovis对复杂数学公式的处理能力

阿里国际发布最新开源多模态模型Ovis,多模态能力再升级

案例3:Ovis通过对图片的识别处理能够给出菜谱

具体来说,Ovis模型有五大优点:

1、创新架构设计:可学习的视觉嵌入词表:首次引入,将连续的视觉特征转换为概率化的视觉token,再经由视觉嵌入词表加权生成结构化的视觉嵌入,克服了大部分MLLM中MLP连接器架构的局限性,大幅提升多模态任务表现。

2、高分图像处理:动态子图方案:支持处理极端长宽比的图像,兼容高分辨率图像,展现出色的图像理解能力。

3、全面数据优化:多方向数据集覆盖:全面覆盖Caption、VQA、OCR、Table、Chart等各个多模态数据方向,显著提升多模态问答、指令跟随等任务表现。

4、卓越模型性能:Ovis展现出了优异的榜单表现。在多模态权威综合评测Opencompass上,Ovis1.6-Gemma2-9B在30B参数以下的模型中取得了综合排名第一,超过了Qwen2-VL-7B、MiniCPM-V-2.6等模型。尤其在数学问答等方向表现媲美70B参数模型;在幻觉等任务中,Ovis-1.6的幻觉现象和错误率显著低于同级别的模型,展现了更高的生成文本质量和准确性。

5、全部开源可商用:Ovis系列模型License采用 Apache 2.0。Ovis 1.0、1.5的数据、模型、训练和推理代码都已全部开源,可复现。Ovis1.6系列中的Ovis1.6-Gemma2-9B也已开源权重。

在AI领域,多模态大模型的应用场景非常广泛,包括但不限于自动驾驶、医疗诊断、视频内容理解、图像描述生成、视觉问答等。例如,在自动驾驶领域,多模态大模型可以整合来自摄像头、雷达和激光雷达的数据,以实现更精准的环境感知和决策。由于多模态大模型能够学习如何联合理解和生成跨多种模式的信息,也被视为朝向通用人工智能的下一个步骤。

根据此前媒体报道,阿里国际在去年成立了一支AI团队,目前已经在40多个电商场景里测试了AI能力,覆盖跨境电商全链路,包括商品图文、营销、搜索、广告投放、SEO、客服、退款、店铺装修等,其中多个应用场景均基于Ovis模型进行开发,已帮助50万中小商家、对1亿款商品进行了信息优化。据介绍,商家的AI需求不断增长,近半年的数据显示,平均每两个月,商家对于AI的调用量就翻1倍。

附相关链接:

论文arXiv:

Github:

Huggingface:

Demo:

版权文章,未经授权禁止转载。详情见 转载须知 。

全局中部横幅
牛客网

求职之前,先上牛客,就业找工作一站解决。互联网IT技术/产品/运营/硬件/汽车机械制造/金融/财务管理/审计/银行/市场营销/地产/快消/管培生等等专业技能学习/备考/求职神器,在线进行企业校招实习笔试面试真题模拟考试练习,全面提升求职竞争力,找到好工作,拿到好offer。_牛客网_牛客在手,offer不愁

山东网站建设

东营云商网络科技有限公司Since2011年,10年来目前主要核心服务领域有:高端网站建设,App定制开发,微信小程序开发等互联网技术支持和服务。

北京时间

“北京时间”网站是北京首个市级融媒体平台,是北京广播电视台重要新媒体平台。汇聚海量新鲜资讯,聚合北京广播电视台优质节目,提供全方位便民服务,致力成为为全网用户提供综合服务的智慧融媒体平台。

银杏树

郯城龙耀园林绿化有限公司是经营银杏树,美国红枫,娜塔栎的批发厂家,兼营:樱花树,石榴树,法桐树,海棠树等各种绿化苗木,提供苗木价格咨询,电话:13583975902

广州轻松包装设备有限公司

广州轻松包装设备有限公司电子雾化器贴税票机专利设备厂家、可贴电子烟包装盒转角封口税票、电子烟油瓶封口税票、口含烟袋贴税票、烟草罐贴税票,各种不干胶贴标机,定制各种输送平台。

高温蒸煮袋

泉州市飞富润包装彩印定制厂家是一家专业生产各种高温蒸煮袋、铝箔袋、真空袋、高阻隔食品包装袋、可降解包装袋、自立吸嘴袋等产品,被广泛应用于各类食品、冷冻冷藏品、水产品、果蔬产品、调味品及种业等行业。

书画儿学习网

书画儿学习网为您提供各类国学知识,包括但不限于汉语字典、汉语词典、成语大全、古诗词、诗词名句、造句、近反义词、英文缩写词、二十四节气、百家姓起名大全、范文工作报告总结等精品精选国学知识文章大全,希望成为你学习之路上最可靠的港湾。

工资计算器,个人所得税计算器,个税计算器,个税计算

正穗广州个税网已经覆盖全广州市,为您提供个税申报等服务,公司注册代办、代理记账报税、商标注册代理等服务,为中小企业员工提供全面的工商财税服务,助力创业者和企业实现梦想!

苏州瑞得恩光能科技有限公司

专业研发、生产、销售新能源发电设备及配件,光能电子产品,工业自动化设备,模具,自动清洗机及配件,电站运行故障诊断仪及系统集成。提供节能材料,电力工程,风能,热能,分布式光伏发电系统的施工承装服务。销售高低压配电电柜,变压器,组合箱式变电站,机电设备,仪器仪表,金属材料,塑料制品。自营和代理各类商品及技术的进出口业务。一般项目包括专业保洁、清洗、消毒服务,以及软件销售。

全局底部横幅