挑战高考数学完胜!商汤日日新多模态大模型权威评测第一 (挑战高考数学试卷)

文章编号:52257 资讯动态 2025-02-01 商汤OpenCompass日日新

刚刚,商汤科技日日新SenseNova多模态大模型,在权威综合评测权威平台OpenCompass的多模态评测中取得榜单第一。 挑战高考数学完胜!商汤日日新多模态大模型权威评测第一 OpenCompass多模态大模型评测排名

商汤日日新平均得分达到77.4,领先GPT-4o、Claude 3.5 Sonnet以及国内所有不同尺寸的开源和闭源模型。尤其在涵盖算术、统计、代数、几何、数值常识、科学和逻辑的权威数据集MathVista维度上,取得78.4分的最高分,展现了领先的“数理”能力。

挑战高考数学完胜!商汤日日新多模态大模型权威评测第一

OpenCompass 多模态评测包含八个核心数据集,从多种视角客观量化多模态大模型的能力。此次评测中,商汤日日新在几乎所有维度上都达到或超过GPT-4o水平,其中四个维度上(MMStar、MathVista、OCRBench、MMVet)排名全球第一。

OpenCompass大模型开放评测体系是上海人工智能实验室推出的,拥有完整开源可复现的评测框架,定期发布对各类大模型的评测成绩和排名。体系覆盖了语言与理解、常识与逻辑推理、数学计算与应用、多编程语言代码能力、智能体、创作与对话等多个方面,是对大模型真实能力各个维度的全面诊断。

小试牛刀,商汤多模态进阶

作为计算机视觉领域的先行者和领军企业,早在几年前,商汤就确定了多模态大模型的研究方向,并在研发中,融合积累的领先算法、丰富数据和场景认知建立起核心优势。

2023年4月,商汤率先发布了行业领先的多模态大模型;

2024年2月,基于商汤日日新4.0的多模态大模型,在当时权威评测基准测试集MME BenchMark上位列第一,综合得分达2199.5(超过GPT-4V的1926.57),并应用到智能驾驶、智能车舱、电力行业等多个场景;

挑战高考数学完胜!商汤日日新多模态大模型权威评测第一

2024年7月,商汤发布国内首个交互体验上对标GPT-4o的大模型——日日新5o,实现无延时的实时流式交互。

全新阶段,跨模态深度融合

今年三季度以来,商汤已跨越初期探索,进入了多模态大模型的研发新阶段——实现跨模态深度融合。以此目标,商汤打造了全新原生多模态大模型——日日新SenseNova多模态大模型。

跨模态深度融合指能够跨越不同模态(自然语言、代码、语音、图像、医疗影像、视频等)之间的鸿沟,充分利用不同模态的信息,通过跨模态逆渲染、多模态思维链等技术创新,实现数据之间的集成和交互。由此,模型的感知和理解能力将得到极大增强,并支持多模态融合推理的实现。

跨模态融合有多种方法。例如,通过融合预训练以及后训练技术,商汤日日新多模态大模型大幅增强了数理逻辑和推理能力。

评测中,当我们从“五年高考,三年模拟”里随机抽取几道高考数学题,日日新多模态大模型都可以轻松应对。

提问:这道选择题要怎么做?

挑战高考数学完胜!商汤日日新多模态大模型权威评测第一

商汤日日新输出结果,并给出详细解题过程:

挑战高考数学完胜!商汤日日新多模态大模型权威评测第一

提问:这道题要怎么解?请告诉我详细的思路

挑战高考数学完胜!商汤日日新多模态大模型权威评测第一

商汤日日新输出结果:

挑战高考数学完胜!商汤日日新多模态大模型权威评测第一

商汤日日新再次输出正确结果。

数学回答满分,再来看看物理。

挑战高考数学完胜!商汤日日新多模态大模型权威评测第一

商汤日日新输出结果:

挑战高考数学完胜!商汤日日新多模态大模型权威评测第一

物理题也答对啦~

此外,通过多模态融合并对模型进行定向优化,商汤日日新多模态大模型还大幅提升了对统计图表和多模态文档的理解能力。

评测中,当难度提升,让我们看看结果如何。

提问:使用下表中的数据,计算2011年每股FCFE的金额。

挑战高考数学完胜!商汤日日新多模态大模型权威评测第一

商汤日日新输出推理结果:

挑战高考数学完胜!商汤日日新多模态大模型权威评测第一

商汤日日新成功输出推理结果,效果令人惊叹。

随着融合模态有效提升AI大模型性能,多模态融合未来可广泛应用于诸多场景,例如在线上教育、语音客服等场景,结合语音和自然语言来提升交互体验;在自动驾驶场景,融合视觉及多种模态数据,来提升感知精度和决策能力等。

数理还只是起点。目前,日日新SenseNova多模态大模型已经可以通过API调用,即将开放普通用户体验。

版权文章,未经授权禁止转载。详情见 转载须知 。

全局中部横幅
晋江文学城

晋江文学城(www.jjwxc.net)创立于2003年8月,是具备相当规模女性网络文学原创基地。站内作品题材多样,包括原创言情小说、都市小说、奇幻小说、纯爱小说、百合小说、轻小说以及衍生小说等,已诞生出《花千骨》《知否?知否?应是绿肥红瘦》《何以笙箫默》等上百部热门影视剧作品。晋江文学城已经从一个简单的文学爱好者集散地快速且稳健地成长为行业内的翘楚。

河间市党建云

河间党建云,河间市党建云,河间党建,河间市党建

华睿云科

华睿云科是国内领先的多用户商城系统源码及微信分销系统网上商城网站建设服务商,专业提供公司旗下开源多店电商系统,有php商城及java商城系统,支持APP商城开发、小程序商城搭建、微商城开发、新零售多门店管理系统。

传世资源站

5T6T传世资源站主要分享传奇等游戏引擎源码以及相关的编程开发例子,收集传世单机版本、传奇工具和传世工具以及游戏素材,为广大用户提供了一个交流分享的平台

米萌

米萌智能,专注于智能生活的小而美。将日常生活中的很多事物智能化,推出一系列方便生活,服务大众的“小而美”的智能设备。

杭州游卡桌游网

桌游圈,致力于聚集各方桌游玩家,是情侣互动、家庭娱乐、朋友聚会必选的在线交流平台。在这里获取桌游资讯,寻找桌友,讨论桌游的乐趣。我们还会将最好玩的棋牌桌游排行榜推荐给你,无论是线上经典卡牌的,还是策略烧脑的,各种游戏版本都带你疯狂烧脑。

建筑工地实名制管理系统

鲁班长(深圳)科技有限公司专注于建筑工地实名制人脸识别考勤系统和建筑工地劳务实名制人脸识别考勤机的研发,我们研发的建筑工地门禁考勤机和农民工劳务实名制门禁考勤管理系统适用于建筑工地、装修、工程等工人考勤,是建筑行业的考勤神器。

山西茂辉环保科技有限公司

山西茂辉科技有限公司是一家专注于净化水.软化水.供水.污水处理的集科研.生产、销售、施工、技术咨询与服务为一体的水处理公司。我公司根据国内水处理市场的需求,利用国内外的先进技术和产品,将国内、外的水处理技术和先进的生产工艺融合到茂辉的产品体系中。在产品引进方面创造了一种全新的与国内、外水工业界紧密合作的模式。引进目前先进的技术、涉及工业及民用水处理设备领域的产品,服务于广大的国内用户。

浙江蕴望律师事务所

浙江蕴望律师事务所(“蕴望”)是经过浙江省司法厅批准成立的综合类律师事务所。诚如蕴望的标志一样,蕴望自成立之日起,就始终以“客户利益至上,案件质量至上,诚实信用至上”为宗旨,不断追求高效、公正;

东方教育学习网

东方学习网(www.edu51.net)是免费的职教信息服务平台,平台聚合了全国10000余所中、高职院校的专业开设、就业详情等基础信息,专注于职教学生的升学指导服务,致力成为推动现代职业教育高质量发展的重要力量。

中国造纸原料交易配送中心

中国造纸原料交易配送中心-山东烟台福山保税物流中心,各类物品的进出口保税港区,便捷银行金融机构授信;3个工作日出口退税;入驻企业免费提供仓储、办公场所、更多扶持政策,更有机会成为园区的战略合作伙伴。

全局底部横幅