高分低能一秒侦破大模型贾佳亚团队联手剑桥清华等共推评测新范式 (高分低能儿)

文章编号：45776 资讯动态 2024-12-09 Ben 大模型 MR 贾佳亚

贾佳亚团队联手剑桥清华等共推评测新范式一秒侦破大模型“高分低能”

贾佳亚团队全新评测基准MR-Ben发布，拒绝大模型“高分低能”

随着人工智能领域经历GPT时刻，学术界和产业界共同发力，每月甚至每周都有新的模型问世，大模型产品之多可以说是让人眼花缭乱。为了筛选出真正业界领先的大模型产品，业内衍生出了错综复杂的各类大模型评测方式，大家都希望为大模型做出客观公正的评测，看看究竟哪家产品能力更强。

但为了在行业中“脱颖而出”，业内也不断出现类似“刷榜”的做法，通过专项针对评测题库进行“预训练”从而获取高评分，导致部分大模型出现“高分低能”的现象，在实际场景当中表现不佳。

为此，贾佳亚团队联合MIT、清华、剑桥等多家知名高校，与国内头部标注公司合作，标注了一个针对复杂问题推理过程的评测数据集MR-Ben，基于GSM8K、MMLU、LogiQA、MHPP等大模型预训练必测数据集的题目，进行“阅卷式”的范式改造，生成更难、更有区分度的新数据集，从而真实地反映模型推理能力。

贾佳亚团队联手剑桥清华等共推评测新范式一秒侦破大模型“高分低能”

从“刷题考生”变“阅卷老师”，阅卷式考察反映大模型真实水平

目前主流大模型评测是使用人类的标准化考试——选择题和填空题的方式去进行大模型评测。使用这套测试方式的好处有很多, 标准明确、指标直观，且量化结果天然具有话题性。

但作者认为这种逐步作答的思维链方式生成最终答案，并不“靠谱”。

结合大模型的训练方式来看，预训练模型在预训练时早已见过数以万亿级别的词元，很难说被评测的模型是否早已见过相应的数据，从而通过“背题”的方式回答正确。而在分步作答的时候，模型是否是基于正确的理解推理选出正确的选项，我们不得而知，因为评测的方式主要靠检查最终的答案。

尽管学术界不断地对诸如GSM8K、MMLU等数据集进行升级改造，如在GSM8K上引入多语言版本的MGSM数据集，在MMLU的基础上引入更难的题目等，依然无法摆脱选择或填空的窠臼。并且，这些数据集都已面临着严重的饱和问题，大语言模型在这些指标上的数值已经见顶，并逐渐丧失了区分度。

而贾佳亚团队的选择是从评测模式的底层进行改革，从而真实反映模型推理能力。

害怕数据泄露导致的大模型背题导致分数虚高吗？贾佳亚团队打造的MR-Ben不用重新找题出卷，也不用把题目变形来测试模型的稳健性，MR-Ben直接让模型从答题者的学生身份，转变为对答题过程的“阅卷”模式，让大模型当老师来测试它对知识点的掌握情况！

不是担心模型对解题过程毫无知觉，有可能出现“幻觉”或错误的理解，蒙对答案吗？MR-Ben直接招聘一批高水平的硕博标注者，对大量题目的解题过程进行精心标注。把解题过程是否正确，出错的位置，出错的原因都细致指出，比对大模型的阅卷结果和人类专家的阅卷结果来测试模型的知识点掌握情况。

具体来说，贾佳亚团队针对市面上主流的评测数据集GSM8K、MMLU、LogiQA、MHPP等数据集进行整理，并分成了数理化生、代码、逻辑、医药等多个类别，同时区分了不同的难度等级。针对每个类别、收集到的每个问题，团队精心收集了对应的分步解题过程，并经由专业的硕博标注者进行培训和标注。

从评测方式来看，MR-Ben所提出的方法需要模型对于解题过程的每一个步骤的前提、假设、逻辑都进行细致分析，并对推理过程进行预演来判断当前步骤是否能导向正确答案。

贾佳亚团队联手剑桥清华等共推评测新范式一秒侦破大模型“高分低能”

这种“阅卷”式的评测方式从难度上远超于仅答题的评测方式，但可有效避免模型背题所导致的分数虚高问题。而只会背题的学生很难成为一名合格的阅卷老师。

其次，MR-Ben通过使用了人力精细的标注流程控制，取得了大量的高质量标注，而巧妙的流程设计又使得评测方式能够直观地量化。

知名大模型公开评测，GPT4-Turbo表现最佳

贾佳亚团队针对性测试了时下最具代表性的十大大语言模型和不同版本。可以看到，闭源大语言模型里，GPT4-Turbo的表现最佳（虽然在“阅卷”时未能发现计算错误），在绝大部分的科目里，有demo（k=1）和无demo（k=0）的设置下都领先于其他模型。

贾佳亚团队联手剑桥清华等共推评测新范式一秒侦破大模型“高分低能”

部分开源大语言模型在MR-Ben数据集上的测评结果

可以看到，最强的部分开源大语言模型效果已经赶上了部分商用模型，并且哪怕最强的闭源模型在MR-Ben数据集上表现也仍未饱和，不同模型间的区分度较大。

除此之外，MR-Ben的原论文里还有更多有意思的解析和发现，例如：

•Qwen和DeepSeek发布的开源模型哪怕在全球梯队里，PK闭源模型效果也不逊色。

•不同的闭源模型定价策略和实际表现耐人寻味。在使用场景里关注推理能力的小伙伴，可以对照价格和能力找到自己心仪的模型去使用。

•低资源场景下，小模型也有不少亮点，MR-Ben评测中Phi-3-mini在一众小模型里脱颖而出，甚至高于或持平几百亿参数的大模型，展现出了微调数据的重要性。

•MR-Ben场景包含复杂的逻辑解析和逐步推断，Few-shot模式下过长的上下文反而会使得模型困惑，造成水平下降的后果。

•MR-Ben评测了不少生成-反思-重生成的消融实验，查看不同提示策略的差异，发现对低水平的模型没有效果，对高水平的模型如GPT4-Turbo效果也不明显。反而对中间水平的模型因为总把错的改对，对的改错，效果反而略有提升。

•将MR-Ben评测的科目粗略划分成知识型、逻辑型、计算型、算法型后，不同的模型在不同的推理类型上各有优劣。

目前贾佳亚团队已在github上传一键评测的方式，欢迎所有关注复杂推理的小伙伴在自家的模型上评测并提交，团队会及时更新相应的leaderboard。使用官方的脚本一键评测，只需花费12M tokens左右，过程非常丝滑，值得一试。

Project Page:

Arxiv Page:

Github Repo:

参考

1.Training Verifiers to Solve Math Word Problems（）

2.Measuring Massive Multitask Language Understanding（）

3.LogiQA: A Challenge>

版权文章，未经授权禁止转载。详情见转载须知。

谷普下载提醒您

本文链接：http://www.gpxz.com/article/c3e796495da8b15f4014.html

上一篇：连看好莱坞大片都学会了贾佳亚团队用2token

下一篇：人工智能的多模态发展丨CCF腾讯贾佳亚人工

龙腾畅想官网

龙腾政府及国有企业建设项目全过程管理的产品体系,经过9000多个实际建设项目的淬炼。为政府及国有企业平台投资项目“投”、“融”、“建”、“管”提供龙腾解决方案，贡献龙腾智慧。

手机软件 2024-07-03 14:37:46

美食大战老鼠

美食大战老鼠是一款集合策略性和挑战性的休闲塔防游戏。4399美食大战老鼠官网提供美食大战老鼠视频，美食大战老鼠网页版，美食大战老鼠在线玩，美食大战老鼠游戏攻略等。

电影视频 2024-07-03 15:51:26

江门蓬江民康门诊部【主站】

江门蓬江民康门诊部是江门民康男科医院,集江门男科医院,本院设男科,肛肠科等,网上预约免费专车接送!TLE:0750-3308788

电影视频 2024-07-11 13:26:54

苏州空压机厂家

苏州玉达压缩机压缩机有限公司是一家集螺杆空压机和活塞空压机专业生产销售及其空压机零部件销售，空压机维修的厂家。主要生产螺杆空压机，活塞空压机和增压机，永磁螺杆空压机行业领先水平，活塞空压机价格低，可为客户节约30-40%的运营成本，免费提供空压机安装维护技术咨询，提供整条空压机线解决方案。

管理咨询 2024-07-07 22:09:48

深圳市快印客电子商务有限公司2

快印客是国内专业二维码应用解决方案服务商,图文快印店加盟行业知名品牌，依托全国广告,印刷,快印,包装企业,在快印店加盟,图文快印连锁加盟,数码快印,人工智能名片,连锁领域具有广泛知名度和影响力的企业。

网络应用 2024-07-08 18:49:57

网易企业邮箱代理商

企业邮箱特价买三年送三年，买5年送5年，注册申请电话4000-789-168，现在申请购买网易企业邮箱还有更多精美礼品赠送、网易企业邮箱购买另享5折优惠、iPhone、iPad、购物卡拿到手软，赶快找我们领取您的专属优惠吧，还可免费试用哦，不满意不付款号外：如果目前使用的企业邮箱不好用，需要升级企业邮箱，都可以找我们更换网易企业邮箱，原邮箱的数据我们可以免费迁移

企业品牌 2024-07-11 13:45:36

热处理温控箱

吴江永强电热电器厂专业从事热处理温控箱，履带式陶瓷电加热器，电焊条烘干箱，焊剂烘干机，工业电阻炉等电热设备的研发和生产,并承接焊前预热、焊后消氢等焊接热处理工程,欢迎致电咨询

管理咨询 2024-07-10 19:28:05

广州云象文化传播有限公司

私域代运营，新媒体代运营，全域代运营，社交媒体代运营，内容营销代运营，电商代运营，品牌代运营服务，数字营销代运营，私域流量增长代运营策略，新媒体平台（如微信、抖音、小红书）代运营方案，全域营销代运营案例分享，企业私域社群代运营服务，新媒体内容创作与发布代管，提高电商店铺转化率代运营，品牌社交媒体形象塑造代运营，数据分析驱动的代运营服务，中小企业私域代运营解决方案，全渠道营销策略规划与执行代运营

电影视频 2024-07-16 00:29:11

手护一生成都小儿推拿培训（免费培训）

手护一生成都中医技能培训中心专业从事小儿推拿、中医技能培训、推拿培训、保健培训、艾灸培训、中医养生培训

儿童亲子 2024-11-13 04:14:44

北京中阔律师事务所

北京中阔律师事务所是一家经北京市司法局批准，依法成立的综合性合伙制律师事务所。中阔律所位于北京CBD核心区阳光金融中心，拥有高端的服务场所、数字化的服务设施和现代化的服务环境。

财经金融 2024-11-25 15:55:41

北京联合盛朝技贸有限公司

北京联合盛朝技贸有限公司主要生产销售里氏硬度计、布氏硬度计、维氏硬度计、洛氏硬度计、邵氏硬度计、韦氏硬度计等多种系列的硬度计。

电影视频 2025-02-16 20:09:53

音频拼接软件免费哪个好用音频拼接app大全 (音频拼接软件免费版手机)

相信有很多小伙伴在日常生活中都需要有一个能够对音频进行编辑和处理的软件，那今天小编借着这篇文章为大家介绍音频拼接软件免费哪个好用，希望可以通过这些软件满足大家对音频进行拼接或者是其他处理的需求，操作都非常简单，轻松点击就可以快速看到效果了，喜欢的小伙伴们可以直接点击下方的按钮下载体验，1、，音频剪辑，音频编辑和处理的专业神器，可以满足...。

2025-02-11 20:53:43

有趣的韩国恋爱游戏推荐韩国恋爱游戏有哪些介绍2025 (有趣的韩国恋爱综艺)

韩国恋爱游戏有哪些介绍，这些游戏不仅仅是娱乐，它们还提供了一种安全的环境，让玩家可以探索自己的感情和偏好，无需担心现实世界的后果，无论是寻找短暂的浪漫还是深度的情感连接，韩国的恋爱游戏都能满足你的需求，快来下载体验，开启你的虚拟恋爱之旅吧！1、，少女的王座，游戏中，玩家将置身于一个充满魔法与剑术的广阔世界，与各具特色的角色相遇，体验他...。

2025-02-09 23:19:10

AI性能与苹果和华为差多远 S10亮相三星首款7nm AI处理器将随Galaxy (ai性能评测是什么)

雷锋网消息，三星在手机市场面临越来越严峻的挑战，今年的旗舰手机GalaxyS9系列并未获得市场的广泛关注，这意味着明年初将推出的GalaxyS10对三星而言更加关键，据韩国媒体报道，GalaxyS10将会采用三星全新的代号Cheetah的7nmAI处理器，三星Galaxy10将搭载三星首款自主研发的7nmAI处理器，具体型号消息称是E...。

2024-12-09 19:26:13

少女歌手小冰养成记会作词作曲演唱的人工智能的诞生 (少女歌手小冰是谁)

微软的对话式人工智能微软小冰会唱歌，已经不是新鲜事了，雷锋网了解到，今年，小冰升级了演唱水平，且开始向作词、作曲、演唱全面发展，5月16日，小冰发布了一首新歌，我知我新，，宣布，演唱深度学习模型完成第四次重大升级，，，今天起，人工智能首次开始接近人类歌手水平，话不多说，先上歌，小冰演唱这首歌的声音还是一如既往地甜，歌曲风格也沿袭了轻...。

2024-12-03 19:38:13

中电金信吴守钰敏态系统互联网企业如何让银行的速度更像一家 (中电金信董事长)

银行IT人的心里有一个矛盾，那就是在，快，和，稳，之间如何保持平衡，近两年，利用科技革命实现银行产品和服务的线上化、移动化，成为大势所趋，从渠道体系到核心系统，银行正在经历全面的数字化，但是，2020年突发的疫情，让银行业从常态、稳态的运行环境中，切换到一个不确定状态，传统集中式架构和分布式架构，两者一直存在着技术争论，分布式架构银行...。

2024-11-30 17:08:01

AP广告联盟站内互动数据分析 (apc广告联盟)

代码说明，本页面的认证代码为AP广告联盟专用评测代码，站长需懂简单html知识，直接复制代码粘贴到联盟网站相应页面即可使用，本代码不适用于其他广告联盟网站请勿获取！文字认证，文字链接代码认证适用所有类型的广告联盟，复制代码后放在AP广告联盟网站首页底部或友情链接位置处，普通认证，普通联盟认证标志适用所有类型的广告联盟，能有效提升AP广...。

2024-11-19 15:53:16

少儿体适能运动是怎么训练孩子的协调能力的 (少儿体适能运动文案)

少儿体适能运动是怎么训练孩子的协调能力的，随着社会生活的发展，很多家长都关心自己孩子的成长问题，少儿体适能训练中有一项协调运动是可以帮助孩子的协调发展能力的，并且可以根据孩子的自身情况去针对性训练，接下来易贝酷小编为大家讲解一下少儿体适能运动是怎么训练孩子的协调能力的！协调能力是指在进行人体运动的过程中，调整与综合人体不同部位动作的能...。

2024-11-16 16:42:25

暴力催收及爆通信录 (暴力催收爆通讯录违法吗)

申明，1.以上内容仅代表揭发者自己，不代表黑猫揭发立场，2.未经授权，本平台案例制止任何转载，违者将被清查法律责任，3.黑猫揭发处置揭发不收取任何费用，凡以黑猫揭发名义不要钱的均为混充、诈骗行为，请及时报警并与黑猫官网反应，揭发邮箱heimaotousu@vip.sina.com，4.请大家选用官网渠道处置生产纠纷，不要轻信第三方机构...。

2024-07-17 17:51:06

俄方亚美尼亚加入北约峰会极度遗憾 (俄军亚美尼亚)

文，观察者网陈思佳，外地时期7月9日，北约峰会在美国华盛顿召开，身为集安组织成员国的亚美尼亚也派出初级官员列席，据俄罗斯卫星通信社11日报道，俄罗斯外交部副部长加卢津示意，俄方对亚美尼亚加入北约峰会感到遗憾，亚美尼亚政府的选择或者破坏南高加索形势的稳固，加卢津说，谈到安保疑问，我想强调的是，亚美尼亚如今依然是集安组织成员，是军事畛...。

2024-07-13 04:51:05

沃尔沃XC60落地价是多少 (沃尔沃xc60价格)

近年来，SUV市场炽热，各大厂家都推出了各自的SUV车型，其中，沃尔沃XC60作为一款奢侈SUV，备受生产者关注，那么，详细的落地价是多少呢，咱们来一摸索竟，沃尔沃XC60作为品牌旗下的一款奢侈中型SUV，驳回了极具辨识度的车身设计，同时还领有丰盛的性能和能源选用，该车型分为T5、T6、T8三个版本，其中T5和T6搭载2.0T发起机，...。

2024-07-07 11:26:24

奥迪4s爱护不知道经销商称号 (奥迪养护)

奥迪4S店的称号列表如下，<，北京，<，北京博瑞祥云汽车开售核心，北京中润发汽车开售有限公司，北京首汽腾迪汽车开售服务有限公司，北京联拓奥通汽车贸易有限责任公司，北京安洋伟业汽车科技有限公司，北京国服信奥兴汽车有限公司，北京天润汽车贸易服务有限公司天津，<，天津港保税区捷丰国内贸易有限公司河北，<...。

2024-07-06 18:13:56

为艺术而生的游戏佳作，你玩过几款？

有人把游戏称之为“第九艺术”，而它和其他艺术一样给我们带来了一些感官上的刺激和心理共鸣，甚至因为玩家的参与感更强，产生的感情也就更加强烈。

2023-10-18 01:46:19

文章推荐

最大的感触是什么毕业走上社会以后 (最大的感触是什么意思)

感触还是挺多的，可以说比整个学生生涯还要多，以20点来纪念下，第1点，是很无情的遭到了社会的毒打，不管是啥工作，工资就是三四千左右，再高的也没有，怀疑人生，然后就不工作了，估计很多人也会遭遇到，如果家是在小县城的话，第2点，想努力要趁早，最好高中毕业，大学就开始了，这是最合适的，永远别觉得时候未到，第3点，努力不一定是去打工做兼职，你...。

2025-01-28 23:29:19

好文分享

铁剑门串串加盟发展前景不错 (铁剑门串串加盟费多少)

在激烈的市场上为什么可以有这么多人选择餐饮行业，主要也是因为消费者对美食都是非常的追捧，特别是一些年轻的消费者，这几年广大的创业者也开始选择开一家特色的餐饮店，由于创业的费用不高，发展前景无限，更主要的全年无淡季，说到特色美食，很多的吃货都会想到串串，铁剑门串串品牌让每一位消费者感觉到舌尖的美食，可以说铁剑门串串加盟，发展前景不错，铁...。

2024-12-21 19:15:59

创业加盟

63LM广告联盟站内互动数据分析 (广告6w)

代码说明，本页面的认证代码为63LM广告联盟专用评测代码，站长需懂简单html知识，直接复制代码粘贴到联盟网站相应页面即可使用，本代码不适用于其他广告联盟网站请勿获取！文字认证，文字链接代码认证适用所有类型的广告联盟，复制代码后放在63LM广告联盟网站首页底部或友情链接位置处，普通认证，普通联盟认证标志适用所有类型的广告联盟，能有效提...。

2024-12-05 21:24:08

网络百科

云服务进入纵深区华为云如何助力千行百业步入云上创新坦途 (云服务怎么进去)

中国互联网已进入高速发展、百舸争流的阶段，行业场景也向万物互联发展，企业必须不断进行产品迭代和创新，快速提升用户体验，上云才能更高更快，已成为行业共识与标配，在全面数字化、云化的趋势下，越来越多的企业也对一站式服务和企业全流程的贯通，产生了大量需求，为此，华为正式提出了，云云协同，的策略，不断探索华为云与华为终端云服务的协同创新，12...。

2024-12-03 16:27:06

资讯动态

加盟晨光文具店多少钱 (加盟晨光文具店需要多少钱)

文具行业从传统计划经济中的卖方市场逐步过渡形成市场经济下的买方市场，迎合时代的发展需求的同时，晨光文具加盟的出现，更是一度掀起了行业的发展热潮，就加盟晨光文具店多少钱，对此感兴趣的朋友不妨跟着小编一起去了解一下，晨光文具，一家整合创意价值与服务优势的综合文具供应商，致力于让学习和工作更快乐、更舒适，主要经营涵盖写工具、学生文具、办公文...。

2024-12-02 22:37:22

创业加盟

高分低能 一秒侦破大模型 贾佳亚团队联手剑桥清华等共推评测新范式 (高分低能儿)

相关文章

文章推荐

高分低能一秒侦破大模型贾佳亚团队联手剑桥清华等共推评测新范式 (高分低能儿)