大模型可通过自我验证提高推理性能 AI 团队最新研究发现中科院 (大模型可通过什么传播)

文章编号：36806 资讯动态 2024-11-30 大模型中科院团队语言模型

语言模型越大，其自我验证能力越强，推理性能也更高。

推理能力是机器接近人类智能的一个重要指标。

最近的大型语言模型（Large language mode，LLM）正在变得越来越擅长推理，背后的一个关键技术是思维链（chain-of-thought，CoT），简单来说，CoT 可以让 LLM 模拟人类思考的过程，帮助大型语言模型生成一个推理路径，将复杂的推理问题分解为多个简单的步骤，而不仅仅只是一个最终答案，从而增强模型的推理能力。

对人类而言，我们推断得出一个结论后，往往会通过重新验证来进行核对、避免错误。但当 LLM 在通过 CoT 执行复杂推理尤其是算术和逻辑推理的过程中若出现错误，会在一定程度上影响推理效果，所以不得不进行人工验证。

那么能不能让语言模型也具备自我纠错和自我验证的能力呢？

近日，中国科学院自动化所的研究团队提出了一种新方法证明了 LLM 可对自己的推理结论进行可解释的自我验证，从而大大提高推理性能，这让 LLM 朝着人类智能又前进了一步。

正向推理+反向验证

当涉及复杂推理时，语言模型往往缺乏稳健性，一旦发生任何一个小错误，都可能会改变命题的全部含义，从而导致出现错误答案。使用CoT 提示进行推理时，问题会更严重，由于模型没有纠错机制，以至于很难从错误的假设中纠正过来。

以往的一种解决方法是通过训练验证器（verififiers）来评估模型输出正确性。但训练验证器有三个大缺点：需要大量的人力和计算资源、可能存在误报、可解释性差。

为此，中科院团队提出让 LLM 进行自我验证。

首先，假设推理问题中的所有条件对于得出结论都是必要的，给定结论和其他条件后，可推导出其余条件。自我验证分两个阶段进行：

如下图，对于“Jackie 有 10 个苹果（f1），Adam 有 8 个苹果（f2），Jackie 比 Adam 多了多少个苹果？”这个问题，可从 f1 和 f2 推理出结论 fy。然后，通过反向验证来检验该结论的准确性，就像解方程一样，如果以 f2 和 fy 为条件，可以得出 f1，通过验证 f1 是否与原来的 f1 结果一致，可以判断 fy 的正确性。

图 1：正向推理与反向验证

研究表明，LLM 仅需少量提示即可使用自我验证，无需训练或梯度更新。它们用候选结论来验证，解决了原 CoT 中偏离正确思维过程的问题。而且，验证分数源自整个思维推理过程，可解释性很高。

通过对 GPT‑3、CODEX 和 Instruct‑GPT 等大模型的实验分析，这项研究证明了 LLM 具备可解释的自我验证能力。

LLM 的自我验证过程

自我验证的整个过程如图 2所示。第一步与 CoT 类似，但研究通过采样解码生成多个候选结论，计算每个候选结论的验证分数，并选择最高分数作为最终结论。

中科院 AI 团队最新研究发现，大模型可通过自我验证提高推理性能

图 2：自我验证示例；LLM 在第一阶段中生成一些候选结论，三个预训练语言模型用于大量自动构建的数值推理问题，但这些方法需要大量的数据和专家注释，然后 LLM 依次验证这些结论，统计推理正确的屏蔽条件的个数作为第二阶段的验证分数

图 3：这是一个需要使用多个条件的示例；如果只屏蔽第一个证据，则不需要这个证据（前向推理时，需要计算周末的钱，周五的工作时数不影响最终结论）。因此，我们无法根据现有条件和任何候选结论来预测此证据

给定一个语言模型 M 和一个问答数据集 D，CoT 为 D 设计了一组样本 C，其中包含 n 个样本，epoch 样本有包含条件和问题的输入 X，思维过程 t 和结论 y。这些示例用作测试时间的输入。通常 n 是一位数，因此需要语言模型 M 在生成 y 之前安装 C 生成 t 的提示：

中科院 AI 团队最新研究发现，大模型可通过自我验证提高推理性能

C 中的每个示例都连接为提示。

使用 Sampling 解码生成 K y，K 是 y 的个数。具体来说，采样译码是一种随机译码方法，它可以在每一步从可能生成的词的概率分布中采样来选择下一个词，重复使用 Sampling 解码可以得到多个候选结论。

.2 条件和结论的重写

对输入的 X 进一步细分为中科院 AI 团队最新研究发现，大模型可通过自我验证提高推理性能其中每个 f 是一个条件，q 是一个问题。我们使用命令“请把问题和答案改成完整的陈述句[q] The answer is [y]”通过 M 把 q 和 y 改成新的陈述句 fy 。

在问题生成上，问题的多样性使得在实际操作中很难平衡问题和答案之间的连贯性和事实一致性的需要，因此直接屏蔽条件。首先，通过正则匹配找到 f1 中的值改写为 X，在新问题的末尾加入“What is the answer of X？”，从而提示语言模型指示目标。

.3 依次验证

如图 4 所示，如果给定的 X 不满足所有条件都是结论的必要条件，可以发现只有掩码的第一个条件会有局限性，难以准确评估其验证分数。为了解决这个问题，可以采用多个条件依次验证的方法：依次用 X 替换原始 X 中出现的所有 f，并要求 M 重新预测它，提高验证的可靠性和准确性。

图 4：在八个基准数据集上进行评估，这些基准数据集涵盖了算术推理、常识推理和逻辑推理任务

.4 验证分数

研究人员设计了一个类似于正向推理的 CoT 以指导 LLM 生成解决过程。而反向验证过程类似于求解方程式，可将其最终结果与屏蔽条件进行匹配。

由于 LLM 本身性能有限，在反向验证过程中，单次解码会因随机性导致验证结果出现偏差，难以保证更准确的验证分数。为了解决这个问题，采样解码过程将重复 P 次，这样验证分数就可以更准确地反映模型对给定结论的置信度。

中科院 AI 团队最新研究发现，大模型可通过自我验证提高推理性能

其中，1（.）为指示函数，从生成的 K 个候选答案中选择验证分数最高的一个作为结果，

中科院 AI 团队最新研究发现，大模型可通过自我验证提高推理性能

LLM 的自我验证能增强推理性能

任务和数据集

此项研究评估了6个算术推理数据集，进一步证明了自我验证在常识推理和逻辑推理数据集上的有效性。这些数据集在输入格式方面高度异质：

型号

研究人员在实验中测试来原始 CODEX 模型和 Instruct‑GPT 模型，此外还通过使用 GPT‑3 进行分析实验，研究了不同参数级别对可验证性的影响，LLM 的大小范围为 0.3B 到 175B 。这些实验使用了 OpenAI 的 API 来获得推理结果。

实验结果表明，使用了自我验证的两个模型在多个任务中实现了 SOTA 性能。

图 5：推理数据集上的问题解决率（%）

可以看到，自我验证在算术数据集上实现了1.67%/2.84%的平均改进，并为常识推理和逻辑推理任务带来了少量优化。此外，自我验证还直接导致高性能 Instruct‑GPT 模型结果平均增加2.33%，这表明，具有强大前向推理能力的模型也具有很高的自我验证能力。

研究人员进一步发现了以下几个关键结论。

可用条件越多，验证准确性越高

图 6：单条件验证与多条件验证的问题解决率（%）比较

图 6 中观察了对六个不同算术数据集使用单一条件掩码的效果：由于这些数据集输入中的每个数字都可以被视为一个条件，因此可以研究增加验证条件数量的影响。经大多数实验可发现，多条件掩码比单条件掩码表现更好，并且都比原始 CoT 表现更好。

模型越大，自我验证能力越强

图 7：不同尺寸模型的自我验证能力

图 7显示了参数从 0.4B 到 175B 的 GPT‑3 模型能力。实验结果表明，当参数较小时，模型的自验证能力较弱，甚至不如 CoT 的原始性能。这说明，模型的自我验证也是一种涌现能力，且往往出现在更大的模型中。

思维链提示很少并不影响自我验证能力

图 8：2 次提示和8 次提示的问题解决率（%）比较

图 8 所示的实验结果显示了不同的提示量对性能的影响。可以看到，自我验证在较小的样本中表现出更大的稳健性，甚至低至 2 次，这时候其 8 次提示的性能是 99.6%，而 CoT 只有 98.7%。不仅如此，即使只有 4 个提示（2 个 CoT 提示+ 2 个自我验证提示），自我验证也明显优于 CoT 8 次提示，突出了自我验证在数据有限情况下的重要性。

图 9：不同验证方式的提示对比

与其它方法相比， 条件掩码 的自我验证性能更优

有另一种方法可以验证模型答案的正确性：真-假项目验证，这以方法是模型对所有条件进行二分判断，如图 12 所示，不覆盖任何条件。此研究还提供了一个反向推理的例子，并尝试让模型自动从结论是否满足条件进行反向推理，但实验结果如图 10 所示，真-假项目验证的性能，要落后于条件掩码验证的性能。

图 10：6 个算术数据集的问题解决率（%）条件掩码验证和真-假项目验证的比较

为了理解这种差距的原因，研究分析了具体案例，如图 11 所示，结果表明：（1）缺乏明确的反向推理目标导致模型再次从正向推理，该结果没有意义、并且不利用现有的结论；（2）真-假项目验证提供了所有的条件，但这些条件可能会误导模型的推理过程，使模型没有起点。因此，更有效的做法是使用条件掩码验证，从而更好地激发模型的自我验证能力。

图 11：一些实际生成案例进一步展示了不同验证方法的影响

LLM 的自我验证 能纠错，但可也能「误伤」

图 12 展示了 LLM 使用自我验证来验证其自身结果的详细结果：

图 12：使用 Instruct‑GPT 为八个数据集中的每一个生成了五组候选答案，然后利用 Instruct‑GPT 的自我验证能力，对它们进行一一判断和排序

左边的扇形图显示了自我验证产生的候选结论的预测结果。LLM 在每次提示中产生1-5个候选结论（由于 LLM 的自洽性，可能会产生相同的候选结论），这些结论可能是正确的，也可能是错误的，再通过 LLM 自我验证来检验这些结论，并将其类为真阳性（TP）、真阴性（TN）、假阴性（FN）或假阳性（FP）。可以发现，除了 TP 和 TN 之外，还有大量的 FN，但只有少量的 FP。

右边的表格显示了召回率明显高于准确率，由此可以说明，LLM 的自我验证可以准确剔除不正确的结论，但也可能将一个正确结论错误地认为是不正确的。这可能是由于反向验证时方程错误或计算错误造成的，这一问题将在未来解决。

最后总结一下，这项工作提出的自我验证方法能够让大型语言模型和提示来引导模型验证自己的结果，能提高 LLM 在推理任务中的准确性和可靠性。

但需要注意的是，这些提示是人为构造的，可能会引入偏差。所以方法的有效性会受到 LLM 产生的候选结论中正确答案的存在的限制，因此取决于模型正确前向推理的能力。

此外，该方法涉及生成多个候选 CoT 和结论，这对于 LLM 来说也存在计算资源的消耗。虽然它可以帮助 LLM 避免来自不正确的 CoT 干扰，但也可能无法完全消除推理过程中的错误。

中科院 AI 团队最新研究发现，大模型可通过自我验证提高推理性能

未经「AI科技评论」授权，严禁以任何方式在网页、论坛、社区进行转载！

版权文章，未经授权禁止转载。详情见转载须知。

中科院 AI 团队最新研究发现，大模型可通过自我验证提高推理性能

谷普下载提醒您

本文链接：http://www.gpxz.com/article/0b3725b0f2eddb3b2aea.html

上一篇：李航ACM名单公布恭喜梅宏Fellow俞栋2022邢

下一篇：就没有啃不动的机器学习论文看懂这25个核心

阳光出行官网

阳光出行，2019年1月正式开始网约车运营，总部位于北京，目前已获得全国150多个城市网约车牌照并服务人次5亿+。阳光出行深耕聚合网约车出行市场，现已同腾讯出行、腾讯地图、百度地图、阿里商旅、美团打车、滴滴出行、高德地图、华为Petal出行、携程旅行、12306等100多家聚合出行平台达成战略合作。同时阳光出行积极推进网约车智能化布局，用户可在阳光出行自营乘客端体验自动驾驶出行服务。

网站模板 2024-09-15 01:30:05

腾讯云

腾讯云(tencentcloud)为数百万的企业和开发者提供安全稳定的云计算服务，涵盖云服务器、云数据库、云存储、视频与CDN、域名注册等全方位云服务和各行业解决方案。

电影视频 2024-08-17 00:39:47

奥鹏作业答案,奥鹏在线作业答案,奥鹏在线考核

本网站专业发布远程教育学习资料等

网站模板 2024-07-13 23:10:00

苏州展坤机电科技有限公司

科技创新 2024-08-17 22:22:29

一起备考网

一起备考网给广大考生提供职业、建筑、财会、外语、考研等专业考试资讯、报名时间、真题答案等考试服务,是各类考生顺利通过考试的好帮手,为广大考生免费提供职业资格考试信息。

新闻资讯 2024-08-18 13:06:14

襄阳月子中心,襄阳专业月子中心选择爱玛家品牌有保障24小时服务

襄阳爱玛家月子会所襄阳爱玛家月子会所是专业从事于襄阳爱玛家,襄阳月子中心,襄阳专业月子中心,您身边的孕育专家

商业服务 2024-07-17 16:37:57

上海实验台

鸿榜实验室设施装潢（上海）有限公司总部位于上海市闵行区，致力于实验室集成系统建设，包括：实验室设计、实验室装修、实验室家具、全钢通风柜、全钢试验台等；拥有先进的技术和丰富的施工经验；是提供实验室整体规划、设计及施工的一站式服务的专业工程公司。

设计美化 2024-11-19 15:46:50

软件下载中心

提供最安全的软件下载，下载软件就上软件下载中心，

手机软件 2024-12-03 19:14:49

微订

微订，专业做公众号+小程序+App一站式O2O移动商城系统，可以快速搭建微信外卖订餐系统、微信点餐平台、微信点餐系统、微信外卖系统、微信外卖平台、微信订餐系统、微信订餐平台、微信点单系统、校园点餐平台、跑腿服务、交易零售等本地多元化服务平台，基于SaaS模式，向商户提供强大的O2O平台解决方案。

编程开发 2024-12-09 18:59:18

彩虹摄影俱乐部提提供优秀摄影线路

济南彩虹摄影俱乐部为摄友提供各种摄影旅游线路，组织摄影旅行团，有专业的摄影老师为大家现场指导，为大家点评摄影作品

图片摄影 2024-12-09 21:06:54

山东儒商化肥有限公司

电影视频 2025-02-13 18:35:15

兰州精细化工有限责任公司

兰州精细化工有限责任公司成立于1991年，简称兰州精细化工公司，隶属于甘肃省化工研究院有限责任公司。是一个集科研开发与生产经管为一体的高新技术企业。

编程开发 2025-02-24 23:53:46

咖喱客加盟费多少 (咖喱客加盟费多少钱)

随着改革开放的脚步越来越快，许许多多的新式商业突飞猛进，餐饮行业本来就是竞争激烈的行业，如今更是飞速进展，外国食品更是占据了一席之地，好多朋友有心但是不知道费用什么，今天我带大家看看咖喱客加盟费多少，咖喱客融合中西快餐文化精髓与经营特色，是大陆单独经营历史较长的咖喱特色快餐知名品牌，作为，味百咖喱，品牌单独持有者，一直以绿色、环保、创...。

2025-01-31 17:40:18

刚刚大会主席快讯张成奇教授当选为2024年IJCAI (大会讲话顺序怎么安排)

雷锋网AI科技评论消息，刚刚，IJCAI理事会决定，评选张成奇杰出教授为2024年IJCAI大会主席，这也是进入IJCAI理事会的第三位华人，前两位分别为杨强和周志华，；另一方面，张成奇教授也将成为首位华人IJCAI大会主席，张成奇教授针对被评选大会主席一事向雷锋网表示，这主要得益于，三心，耐心、平常心和感恩心，1、耐心十年磨一剑，...。

2024-12-09 15:15:32

AI生成写真天花板秒画趣拍上线9天日活破52万人日请求破亿次！ (ai生成写真图代码)

近日，商汤科技基于，日日新·秒画，文生图大模型打造的一款帮助用户生成创意写真、自拍合照的AIGC产品——，秒画趣拍，小程序版进行试运营，上线后立刻得到用户青睐，注册量和日活用户持续飙升，据统计，试运营第9天日活跃用户突破52万，用户总量突破146万，日页浏览，PV，突破4117万，网络请求更是破亿次，秒画趣拍，小程序里覆盖丰富多样的...。

2024-12-03 19:45:20

无人关注的SaaS现金牛钉钉悄悄赚了大钱 (无人关注的诗句有哪些)

在本世纪初的大战之后，很多人以为它作为一项没落业务，格局业态早已固定，以至于，在Saas从热潮到寒冬的这两年，甚至没有多少人会关注它，但在创业家们的视野盲区里，它始终都是最优质的大厂造血单元，最古老的SaaS，却是最好的现金牛2022、2023年，被业内称为SaaS的寒冬之年，裁员缩编、IPO暂缓、投融资遇冷、创业公司艰难求生……然而...。

2024-12-01 00:25:40

被黑白气球解围像公主超可恶毛晓彤晒美照 (黑气球被白气球打了猜歌名)

青草山涧青草山涧[网易海南文昌网友]被闪现驱离的那个薛某某才是最犯云某某认为他有那个坐牢的资本可是连资历都没有很多关系人也都知道怎样一回事的这边一句话他认为他是王思聪么在街道上打人的开售也算怼回去了，预计他们关系的也吓尿了只能这样了要么地点能不能等尽快解了癌与艾再说事方圆10公里无一人，还没发火青草山涧[网易海南文昌网友]尚能街道否世...。

2024-09-07 22:59:57

这次还能收割中年男人吗全新丰田普拉多确定国产 (这次还能收割麦子吗)

在国际硬派越野圈，丰田普拉多堪称是神普通的存在，作为越野和温馨性兼具的SUV，齐全合乎每一个向往山和大海男人的热爱，不用穷则思变的走着固定的高速和线路，和它一同降服人造的觉得岂止是痛快，在很多中央，普拉多不只仅代表着丰田极致的牢靠性和保值率体现，同时也代表着必定的身份与位置，当国产普拉多停产、出口普拉多由于排放规范进不来的时刻，很多预...。

2024-07-07 16:21:50

森雅r9为什么停产了 (森雅R9为什么安装的是起停功能的电瓶)

你好，这个车最重要的疑问就是品质疑问比拟重大发起机漏油车身生锈，而后厂家不时也没有给出处置打算，造成销量间接下滑，原本消费量就不大，所以就应该就间接停产了普通的话，只需车的销量不好的话，服务器厂都会选用性的少，自从森雅R9上市以后，销量火爆的状况下，品质疑问也逐渐透进去其中最重大的就是发起机漏油和车身生锈发起机漏油重大会造成机油无余进...。

2024-07-07 11:42:24

求林青霞所演的所有影片的详细年份和称号 (找林青霞的电影)

电影作品年表，后附英文片名，1973年窗外OutsidetheWindow1974年云飘飘GoneWithTheCloud古镜幽魂GhostoftheMirro长情万缕LongWayFromHome纯纯的爱LoveLoveLove云河CloudRiver爱的小屋TheHouseofLove女记者青青草原上纯情1975年女好友Girl...。

2024-07-05 20:29:32

2022重阳节 (2022重阳节日在几月几日)

重阳节，是中国民间传统节日，节期在每年农历九月初九，古时民间在重阳节有登高祈福、秋游赏菊、拜神祭祖及饮宴祈寿等习俗，传承至今，又减少了敬老等内延，于重阳之日享宴高会，感恩敬老，登高赏秋与感恩敬老是当今重阳节日优惠的两大关键主题，2022年重阳节是几月几号2022重阳节是什么时间九月初九是重阳，我国的又一个传统节日，因为过节的主体是老人...。

2024-07-03 23:45:48

SQLiteExpertProfessional破解版下载-SQLiteExpertProfessional中文破解版v5.5.4.618免费版

SQLiteExpertProfessional中文破解版是一款可视化SQLite数据库管理工具，允许用户在SQLite服务器上执行创建、编辑、复制、提取等操作。

2023-11-09 08:17:57

ChatGPT下载-ChatGPT(AI聊天工具)v0.10.3官方最新版

ChatGPT是一款出色的人工智能技术驱动的自然语言处理软件，软件能够通过学习和理解人类的语言来进行对话

2023-11-12 00:46:01

APK下载器插件-APK下载器插件下载v1.0.2免费版-

APK下载器插件,APK下载器插件是一款功能强大，专业实用的优秀APK下载工具，这款插件能够帮助用户通过浏览器从安卓应用商店中下载你所需求的资源，可兼容各种类型的浏览器，操作简单使用方便，欢迎下载使用,您可以免费下载。

2023-08-11 23:41:17

文章推荐

天选之子史诗级表白C位助力表白各大商家占位给 (天选之子机制)

昨天，支付宝、天猫双11组委会官微透露，11月1日11时11分，天猫将公布新一轮的，天选之子，、，中国锦鲤，活动，支付宝表示自己将监督天猫开展此次活动，现在天猫正式公布了这项活动，那就是宇宙级表白，除了送上盘古开天辟地以来震古烁今的史诗级表白C位，还可以通过卫星把你的声音送向浩瀚宇宙，另外不可思议的惊喜加持，这个惊喜加持就是评论区这些...。

2025-01-30 19:28:50

网络百科

面向复杂场景的鲁棒机器学习大赛安全挑战赛 2022AI CVPR (面向复杂场景的自重构自演化AI芯片研制及应用)

近日，为了更好地推动安全可靠AI模型相关领域的技术研究与人才培养，鼓励研究者打造更安全、更可靠的AI，商汤科技联合北京航空航天大学共同发布，面向技术开发者和在校学生的科技类竞赛活动，面向复杂场景的鲁棒机器学习大赛RobustModelstowardsOpen，worldClassification，大赛官网，aisafety.sen...。

2024-12-09 15:34:14

资讯动态

即将到来碳纳米管制备技术取得重大突破后硅时代 (将来我们可能坐上碳纳米管天梯)

想象一下，未来，你的电子报纸可以被随意卷起来，就算你把咖啡打翻，将水倒在上面，也不会影响电子报纸的更新和阅读——当然，这只是众多被认为会在将来出现的黑科技之一，听起来的确很炫酷，但是想要完成这个目标还需要搞定一项关键技术，那就是如何对碳纳米管进行分离，而最近，加拿大麦克马斯特大学，McMaster，的AlexAdronov研究小组发明...。

2024-12-03 23:16:06

资讯动态

真刚需还是伪需求地产机器人 (真刚需与伪刚需)

▎，万科没有兴趣投资跟房地产无关的领域，只有机器人除外，2015年，万科曾对外宣称，未来重点是与研究机构做，机器人生产，，30%的万科物业管理员将由机器人来取代，当年，王石三提转型，机器人每次必点，豪言壮语，毫不掩饰对机器人的厚爱，说罢的万科随后率先入局，大刀阔斧搞起了机器人，物业机器人，大白，、多次跟随公司登上世界舞台的，爱娃，陪...。

2024-11-30 16:17:01

资讯动态

附PPT 神经认知学在机器人中的发展和应用视频 (神经ppt课件)

如何让机器人的大脑，模仿，得更像人类的大脑，科学家们给出的答案是研究人脑结构的分子层面，尝试深入地了解人脑细胞的情况，进而将，拼图，完成，还原大脑，那么，什么是神经认知学，神经认知在机器人领域都有哪些应用，本期雷锋网硬创公开课邀请到TIANBOT资深机器人研究工程师田博，为我们做主题为，神经认知学在机器人中的发展和应用，的分享，内容介...。

2024-11-30 15:53:46

资讯动态

大模型可通过自我验证提高推理性能 AI 团队最新研究发现 中科院 (大模型可通过什么传播)

.2 条件和结论的重写

.3 依次验证

.4 验证分数

未经「AI科技评论」授权，严禁以任何方式在网页、论坛、社区进行转载！

相关文章

文章推荐

大模型可通过自我验证提高推理性能 AI 团队最新研究发现中科院 (大模型可通过什么传播)