Codex 神经网络 推开高等数学世界大门 PNAS最新研究 81%解题率

文章编号:43953 资讯动态 2024-12-09 Codex神经网络高等数学
PNAS最新研究:81%解题率,神经网络 Codex 推开高等数学世界大门

近日,一项新研究发布于PNAS,再次刷新了神经网络的能力。这次神经网络被用来解决了高等数学题,而且还是麻省理工数学课程难度的数学题!

在这项新研究中,研究团队证明了 OpenAI 的 Codex 模型可以进行程序合成从而解决大规模的数学问题,并通过小样本学习自动解决数据集中 81%的数学课程问题,并且 Codex 在这些任务的表现上达到了人类水平。

PNAS最新研究:81%解题率,神经网络 Codex 推开高等数学世界大门

这项研究的出现,颠覆了人们普遍认为神经网络无法解决高等数学问题的共识。研究团队指出,Codex 之所以能做到实现这样的能力,正是因为团队进行了一大创新,过去那些不成功的研究只使用了基于文本的预训练,而此次现身的 Codex 神经网络不仅要基于文本进行预训练,并且还对代码进行了微调。

研究的问题数据集选用来自 MIT 的六门数学课程和哥伦比亚大学的一门数学课程,从七门课程中随机抽取 25 个问题:MIT的单变量微积分、多变量微积分、微分方程、概率与统计概论、线性代数和 计算机科学数学和哥伦比亚大学的 COMS3251 计算线性代数。

同时,研究团队使用了一个用于评估数学推理的最新高级数学问题基准 MATH,用 MATH 来检测OpenAI Codex 的能力,MATH 从6大数学板块:初级代数,代数,计数和概率,中级代数,数论,和初级微积分中各抽取15个问题。

PNAS最新研究:81%解题率,神经网络 Codex 推开高等数学世界大门
图注:研究中使用的课程问题数据集和MATH基准测试

研究显示,Codex 解决了问题数据集和 MATH 数据集中的 265 个问题,其中有 213 个是自动解决的。



创新何所在

在 Transformer 发布后,基于 Transformer 的语言模型在各种自然语言处理 (NLP) 任务,包括在零样本和少样本语言任务中取得了巨大成功。但是因为 Transformer 仅在文本上进行了预训练,所以这些模型基本上不能解决数学问题,GPT-3就是一个典型例子。

后来,通过小样本学习(few-shot learning)和思维链 (Chain-of-thought, CoT) 提示,GPT-3 的数学推理能力得到了提高;然而,在没有代码的情况下,即便有小样本学习和 CoT 提示, GPT-3 在大学水平数学问题和 MATH 基准测试中仍然无能为力。

过去关于解数学题的研究,可能在相对简单的数学水平上有一定成绩。举个例子,基于协同训练输出来验证或预测表达式树的技术,比如MAWPS 和 Math23k,能够以超过 81% 的准确率解决小学级别的数学问题,但是其不能解决高中、奥林匹克数学或大学难度的课程。协同训练与图神经网络 (GNN) 相结合以预测算术表达式树,能够以高达 95% 的准确率解决机器学习中的大学水平问题。但是这项工作也仅限于数字答案,并且产生了过拟合,不能推广到其他课程。

就是,不仅对Codex 这种Transformer 模型进行了文本上的预训练,还在代码上进行了微调,使得其可以生成大规模解决数学问题的程序。

PNAS最新研究:81%解题率,神经网络 Codex 推开高等数学世界大门

研究团队从数据集中随机选择不需要输入图像或证明的问题样本来进行测试。其中,仅对文本进行预训练的语言模型 (GPT-3 text-davinci-002) 仅自动解决了课程问题中的18%和 MATH基准测试问题中的25.5%。

相比之下,使用零样本学习和对文本进行预训练并在代码上进行微调的神经网络(OpenAI Codex code-davinci-002)合成的程序可以自动解决课程问题中的 71%和 MATH 基准测试问题中的72.2%。

而使用相同的神经网络 Codex 再加上少样本学习,便可自动解决课程中81%的问题和 MATH 基准测试中81.1%的问题。而其余模型无法自动解决的19%的课程问题和18.9%的MATH基准问题,最后通过手动提示解决。

小样本学习方式的补充,则是这项研究的 。从上图中可以看出,当零样本学习无法解答问题时,便会使用(问题,代码)对(pAIR)执行小样本学习:

1) 使用 OpenAI 的 text-similarity-babbage-001 嵌入引擎嵌入所有问题;

2) 使用嵌入的余弦相似度从其课程中计算与未解决问题最相似的已解决问题;

3) 将最相似的问题及其相应的代码作为小样本问题的示例。

PNAS最新研究:81%解题率,神经网络 Codex 推开高等数学世界大门

图注:4种方式的自动解题率对比

上图分别是Codex的零样本学习、小样本学习和GPT-3的零样本学习、小样本学习4种方式的自动解题率对比。图上可以看出,橙色条状所代表的小样本学习 Codex 在自动解题率上的优秀表现,基本上在每个数学领域上的表现都强于其他3种方式。

,便是提供了一条解决数学问题和解释为何如此解答的管道,下图展示了MIT 5门数学课程中管道的执行流程。

PNAS最新研究:81%解题率,神经网络 Codex 推开高等数学世界大门

以 18.01 单变量微积分问题为例,给定一个问题和自动生成的前缀“使用 SymPy”,Codex 被提示并输出一个程序。运行程序会产生正确答案的方程式。然后,程序会自动提示再次输入 Codex,从而生成生成的代码解释。




问题解决之后

除了解决数学问题和解释答案,Codex 也被用于为每门课程生成新问题。

为了评估生成的问题水平,团队在参加过这些课程或者同水平课程的MIT学生中做了调查,主要是比较机器生成的问题和人工编写问题的质量和难度。

在MIT的6门课程中,每门选择5个人工编写问题和5个模型生成问题混合起来并且随机呈现。对于 60 个问题中的每一个问题,参与调查的学生都需要回答 3 个调查问题:

1)你认为这个问题是人工编写的还是机器生成的?

2)你认为这个问题适合还是不适合特定课程?

3 ) 在 1(最简单)和 5(最难)之间,你认为这个问题的难度级别是多少

PNAS最新研究:81%解题率,神经网络 Codex 推开高等数学世界大门

在收回的问卷中,学生调查结果总结如下:

机器生成的问题已经能让学生无法辨别,说明Codex 在生成新内容方面已达到了人类的表现水平。

但是,该模型也有无法解决的问题,比如,如果问题以图像或其他非文本形式出现,它就无法回答;带有需要证明的解决方案的问题,或者计算上难以解决的问题,比如分解非常大的素数,该模型也无法解决。不过,最后一种问题也不应出现在任何数学课程作业中,因为就算是真人学生也没法回答。

更多内容,点击下方关注:

PNAS最新研究:81%解题率,神经网络 Codex 推开高等数学世界大门

PNAS最新研究:81%解题率,神经网络 Codex 推开高等数学世界大门

版权文章,未经授权禁止转载。详情见 转载须知 。

PNAS最新研究:81%解题率,神经网络 Codex 推开高等数学世界大门

全局中部横幅
拼音字典

根据你所输入的中文,输出相应的拼音。

renrendoc.com人人文库

人人文库(renrendoc.com)美如初恋,人人文库是一个在线文档分享平台。你可以上传设计图纸,研究报告,设计标准,策划管理方案,论文等电子文档,分享最新的行业资讯。

意大利餐的做法大全

豆果美食意大利餐栏目为您推荐意大利餐做法大全,意大利餐怎么做好吃技巧分享,意大利餐最正宗的做法和意大利餐家常做法推荐,更多意大利餐的简单做法就来豆果美食。

洁美专注护肤老师

一个专业的科学护肤网站,收集简单实用的祛痘  、祛斑 、 去皱方法方法大全,分享快速有效的小妙招,案例,让网友知道如何更好地祛痘  、祛斑 、 去皱,远离不知所措护肤苦恼!

武汉航空箱/防震箱/精密仪器箱/武汉铝合金箱定制

湖北国亨联创电力设备有限公司(15971508789)主营航空箱、防震箱、铝箱、铝合金箱、精密仪器箱等,可按客户提供的图纸或样板定制产品,价格实惠,欢迎来电!

中信银行门户网站

中信银行是中信集团旗下最大子公司,您可通过中信银行官方网站了解并办理理财、私人银行、出国金融、申请信用卡、个人不动产抵押贷款等业务,为您提供一站式综合金融服务,让您快乐享不停!

数字资产大全

区块链网址大全收集了区块链相关的各类网址,包含有交易所、国内媒体、海外媒体、数字货币、数字钱包、矿产及矿机、福利活动、区块链社区、微博大咖等各类数字货币网址。

锐56攻略网

  锐56攻略网专注于为玩家提供最新、最全面的游戏攻略和资讯。我们致力于通过详尽的游戏指南、技巧分享和深度评测,帮助玩家在游戏中快速提升水平。无论是热门大作还是独立游戏,锐56攻略网都为您带来专业、实用的游戏解决方案,成为您征服游戏世界的最佳伙伴。

北京数据恢复

秉文网络科技有限公司为客户提供IT运维外包、硬件维保续保、数据恢复迁移、服务器存储虚拟化、软硬件维修调试扩容、网络安全等一站式的IT整体解决方案.北京数据库修复,服务器数据恢复,虚拟化数据恢复,硬盘开盘恢复数据,勒索病毒数据库修复,固态硬盘数据恢复,北京数据恢复,服务器数据恢复,硬盘恢复数据,数据库修复,raid数据恢复,群辉NAS数据恢复.

蟒蛇科普

海南大蟒科技有限公司是中国维一一家获准合法养殖繁育蟒蛇的企业,公司的主营业务是蟒蛇皮销售,蟒蛇油生产和销售.

全局底部横幅