Codex 神经网络推开高等数学世界大门 PNAS最新研究 81%解题率

文章编号：43953 资讯动态 2024-12-09 Codex 神经网络高等数学

近日，一项新研究发布于PNAS，再次刷新了神经网络的能力。这次神经网络被用来解决了高等数学题，而且还是麻省理工数学课程难度的数学题！

在这项新研究中，研究团队证明了 OpenAI 的 Codex 模型可以进行程序合成从而解决大规模的数学问题，并通过小样本学习自动解决数据集中 81%的数学课程问题，并且 Codex 在这些任务的表现上达到了人类水平。

这项研究的出现，颠覆了人们普遍认为神经网络无法解决高等数学问题的共识。研究团队指出，Codex 之所以能做到实现这样的能力，正是因为团队进行了一大创新，过去那些不成功的研究只使用了基于文本的预训练，而此次现身的 Codex 神经网络不仅要基于文本进行预训练，并且还对代码进行了微调。

研究的问题数据集选用来自 MIT 的六门数学课程和哥伦比亚大学的一门数学课程，从七门课程中随机抽取 25 个问题：MIT的单变量微积分、多变量微积分、微分方程、概率与统计概论、线性代数和计算机科学数学和哥伦比亚大学的 COMS3251 计算线性代数。

同时，研究团队使用了一个用于评估数学推理的最新高级数学问题基准 MATH，用 MATH 来检测OpenAI Codex 的能力，MATH 从6大数学板块：初级代数，代数，计数和概率，中级代数，数论，和初级微积分中各抽取15个问题。

图注：研究中使用的课程问题数据集和MATH基准测试

研究显示，Codex 解决了问题数据集和 MATH 数据集中的 265 个问题，其中有 213 个是自动解决的。

创新何所在

在 Transformer 发布后，基于 Transformer 的语言模型在各种自然语言处理 (NLP) 任务，包括在零样本和少样本语言任务中取得了巨大成功。但是因为 Transformer 仅在文本上进行了预训练，所以这些模型基本上不能解决数学问题，GPT-3就是一个典型例子。

后来，通过小样本学习（few-shot learning）和思维链 (Chain-of-thought， CoT) 提示，GPT-3 的数学推理能力得到了提高；然而，在没有代码的情况下，即便有小样本学习和 CoT 提示， GPT-3 在大学水平数学问题和 MATH 基准测试中仍然无能为力。

过去关于解数学题的研究，可能在相对简单的数学水平上有一定成绩。举个例子，基于协同训练输出来验证或预测表达式树的技术，比如MAWPS 和 Math23k，能够以超过 81% 的准确率解决小学级别的数学问题，但是其不能解决高中、奥林匹克数学或大学难度的课程。协同训练与图神经网络 (GNN) 相结合以预测算术表达式树，能够以高达 95% 的准确率解决机器学习中的大学水平问题。但是这项工作也仅限于数字答案，并且产生了过拟合，不能推广到其他课程。

就是，不仅对Codex 这种Transformer 模型进行了文本上的预训练，还在代码上进行了微调，使得其可以生成大规模解决数学问题的程序。

PNAS最新研究：81%解题率，神经网络 Codex 推开高等数学世界大门

研究团队从数据集中随机选择不需要输入图像或证明的问题样本来进行测试。其中，仅对文本进行预训练的语言模型 (GPT-3 text-davinci-002) 仅自动解决了课程问题中的18%和 MATH基准测试问题中的25.5%。

相比之下，使用零样本学习和对文本进行预训练并在代码上进行微调的神经网络（OpenAI Codex code-davinci-002）合成的程序可以自动解决课程问题中的 71%和 MATH 基准测试问题中的72.2%。

而使用相同的神经网络 Codex 再加上少样本学习，便可自动解决课程中81%的问题和 MATH 基准测试中81.1%的问题。而其余模型无法自动解决的19%的课程问题和18.9%的MATH基准问题，最后通过手动提示解决。

小样本学习方式的补充，则是这项研究的。从上图中可以看出，当零样本学习无法解答问题时，便会使用（问题，代码）对（pAIR）执行小样本学习：

1）使用 OpenAI 的 text-similarity-babbage-001 嵌入引擎嵌入所有问题；

2）使用嵌入的余弦相似度从其课程中计算与未解决问题最相似的已解决问题；

3）将最相似的问题及其相应的代码作为小样本问题的示例。

图注：4种方式的自动解题率对比

上图分别是Codex的零样本学习、小样本学习和GPT-3的零样本学习、小样本学习4种方式的自动解题率对比。图上可以看出，橙色条状所代表的小样本学习 Codex 在自动解题率上的优秀表现，基本上在每个数学领域上的表现都强于其他3种方式。

，便是提供了一条解决数学问题和解释为何如此解答的管道，下图展示了MIT 5门数学课程中管道的执行流程。

PNAS最新研究：81%解题率，神经网络 Codex 推开高等数学世界大门

以 18.01 单变量微积分问题为例，给定一个问题和自动生成的前缀“使用 SymPy”，Codex 被提示并输出一个程序。运行程序会产生正确答案的方程式。然后，程序会自动提示再次输入 Codex，从而生成生成的代码解释。

问题解决之后

除了解决数学问题和解释答案，Codex 也被用于为每门课程生成新问题。

为了评估生成的问题水平，团队在参加过这些课程或者同水平课程的MIT学生中做了调查，主要是比较机器生成的问题和人工编写问题的质量和难度。

在MIT的6门课程中，每门选择5个人工编写问题和5个模型生成问题混合起来并且随机呈现。对于 60 个问题中的每一个问题，参与调查的学生都需要回答 3 个调查问题：

1）你认为这个问题是人工编写的还是机器生成的？

2）你认为这个问题适合还是不适合特定课程？

3 ) 在 1（最简单）和 5（最难）之间，你认为这个问题的难度级别是多少？

PNAS最新研究：81%解题率，神经网络 Codex 推开高等数学世界大门

在收回的问卷中，学生调查结果总结如下：

机器生成的问题已经能让学生无法辨别，说明Codex 在生成新内容方面已达到了人类的表现水平。

但是，该模型也有无法解决的问题，比如，如果问题以图像或其他非文本形式出现，它就无法回答；带有需要证明的解决方案的问题，或者计算上难以解决的问题，比如分解非常大的素数，该模型也无法解决。不过，最后一种问题也不应出现在任何数学课程作业中，因为就算是真人学生也没法回答。

更多内容，点击下方关注：

PNAS最新研究：81%解题率，神经网络 Codex 推开高等数学世界大门

版权文章，未经授权禁止转载。详情见转载须知。

PNAS最新研究：81%解题率，神经网络 Codex 推开高等数学世界大门

谷普下载提醒您

本文链接：http://www.gpxz.com/article/f1fe3d3cfd53131e9c24.html

上一篇：3D视觉成为CV新风口旷视做了这些来抢占赛道

下一篇：失忆症登上PNAS科学家提出基于相似性加权交

拼音字典

根据你所输入的中文，输出相应的拼音。

站长资源 2024-01-10 21:41:29

renrendoc.com人人文库

人人文库(renrendoc.com)美如初恋,人人文库是一个在线文档分享平台。你可以上传设计图纸,研究报告,设计标准,策划管理方案,论文等电子文档，分享最新的行业资讯。

新闻资讯 2024-09-14 23:44:53

意大利餐的做法大全

豆果美食意大利餐栏目为您推荐意大利餐做法大全,意大利餐怎么做好吃技巧分享,意大利餐最正宗的做法和意大利餐家常做法推荐,更多意大利餐的简单做法就来豆果美食。

电影视频 2024-08-17 00:25:37

洁美专注护肤老师

一个专业的科学护肤网站,收集简单实用的祛痘、祛斑、去皱方法方法大全,分享快速有效的小妙招,案例,让网友知道如何更好地祛痘、祛斑、去皱,远离不知所措护肤苦恼！

网站模板 2024-08-17 19:34:21

武汉航空箱/防震箱/精密仪器箱/武汉铝合金箱定制

湖北国亨联创电力设备有限公司(15971508789)主营航空箱、防震箱、铝箱、铝合金箱、精密仪器箱等，可按客户提供的图纸或样板定制产品，价格实惠，欢迎来电！

电影视频 2024-07-17 17:03:08

中信银行门户网站

中信银行是中信集团旗下最大子公司，您可通过中信银行官方网站了解并办理理财、私人银行、出国金融、申请信用卡、个人不动产抵押贷款等业务，为您提供一站式综合金融服务，让您快乐享不停！

网站模板 2024-11-17 18:21:59

数字资产大全

区块链网址大全收集了区块链相关的各类网址，包含有交易所、国内媒体、海外媒体、数字货币、数字钱包、矿产及矿机、福利活动、区块链社区、微博大咖等各类数字货币网址。

网址导航 2024-11-19 16:12:39

沂水信联信息科技有限公司

行业信息 2024-11-25 12:07:11

锐56攻略网

　　锐56攻略网专注于为玩家提供最新、最全面的游戏攻略和资讯。我们致力于通过详尽的游戏指南、技巧分享和深度评测，帮助玩家在游戏中快速提升水平。无论是热门大作还是独立游戏，锐56攻略网都为您带来专业、实用的游戏解决方案，成为您征服游戏世界的最佳伙伴。

游戏网游 2024-11-29 10:44:25

北京数据恢复

秉文网络科技有限公司为客户提供IT运维外包、硬件维保续保、数据恢复迁移、服务器存储虚拟化、软硬件维修调试扩容、网络安全等一站式的IT整体解决方案.北京数据库修复，服务器数据恢复，虚拟化数据恢复，硬盘开盘恢复数据，勒索病毒数据库修复，固态硬盘数据恢复,北京数据恢复，服务器数据恢复，硬盘恢复数据，数据库修复，raid数据恢复，群辉NAS数据恢复.

网络应用 2024-12-04 19:25:09

蟒蛇科普

海南大蟒科技有限公司是中国维一一家获准合法养殖繁育蟒蛇的企业,公司的主营业务是蟒蛇皮销售,蟒蛇油生产和销售.

企业品牌 2024-12-21 16:08:40

五粮液防伪专网

五粮液防伪官网

电影视频 2025-03-04 20:00:21

十大装扮游戏推荐十大公主游戏装扮小公主的推荐2021 (装扮类的小游戏)

公主装扮游戏一直都是女孩子非常喜欢的，十大公主游戏装扮小公主的推荐2021年有哪些呢，小编也是非常喜欢公主游戏装扮游戏的，为此小编通过收集整理，并评测出十大装扮游戏推荐，还等什么，快看看吧，1、，奇迹暖暖，奇迹暖暖，是苏州叠纸网络科技有限公司制作、腾讯游戏独家代理的一款换装养成手机游戏，该作是暖暖系列继，暖暖的换装物语，和，暖暖环游...。

2025-02-11 18:51:46

2024流行的3d模拟汽车驾驶手游合集 3d模拟汽车驾驶游戏有哪些 (2024流行歌曲)

如果想要在手机上驾驶车子，大家不仅可以选择以赛车竞速这种类型为主的，还可以注重一下自己想要驾驶的车型，及时的选择游戏，那么3d模拟汽车驾驶游戏有哪些呢，接下来将会为你分享几款，无论你是驾驶者，大型的公交车或者是小型的汽车，大家都能享受比较真实的驾驶模拟游戏所带来的欢乐，在这款以赛车为主的游戏中，你可看到3d真实的驾驶舱，玩法是很简单的...。

2025-02-11 18:15:14

20s 酷派COOL 5G评测千元档鬼见愁 (酷派 20)

6月13日发布的酷派COOL20s5G，是酷派回归中国主流市场后的第三款产品，这次，酷派把性价比推到了新高度，直接是冲进百元价位段的天玑700双5G，1080P屏幕，双扬声器，5000W主摄，酷派的主要出货渠道其实是线下，它对标的明显是OPPOA56、荣耀畅玩30Plus、vivoY32这些面向线下渠道的走量产品，为更好地了解2022...。

2024-12-03 18:07:57

客户数破千 OceanBase全面升级服务体系年增长150% (客户数量)

2020年6月，OceanBase正式开启商业化运作，大家都知道，作为基础设施的数据库，研发之路并非易事，而从写下第一行代码到开启商业化，OceanBase用了十年，如今，三年过去了，在这些年间，OceanBase做了很多事情，不断加快技术迭代速度、扩张海外版图、开源，等等，那么，从商业化运作初期的两位数客户，到现在，OceanBas...。

2024-11-30 19:31:36

相差数千元实拍效果如何 C1和极米H3S哪个好海信Vidda (相差()())

发表在极米投影仪2022，6，1616，13早就看很多人在比较海信ViddaC1和极米H3S哪个好了，一个是今年4K激光的机子，一个是去年3月发的机子，两个价格相差数千元，配置也不一样，但在亮度上确实是让人纠结不少，海信ViddaC1约1350ANSI流明，而极米H3S为2200ANSI流明，到底怎么选，我们直接上实拍效果看看，先卖个...。

2024-11-28 21:47:06

王妈手撕烤兔加盟费多少钱 (王妈手撕烤兔(玉林店)多少钱)

王妈手撕烤兔是一家以手撕烤兔等兔产品为关键特色，另外推动其它烤串产品、熟肉制品、炒工艺品市场销售的特色型外卖送餐店，在我店迁往成都迄今短短两年時间内，手撕烤兔的知名度就早已被成都市的每一家中所熟识，那麼，王妈手撕烤兔加盟费多少钱，王妈手撕烤兔已然成为广大群众家居接待客人、休闲娱乐及旅游、探亲访友的首先推荐特色食品类，做为成都名小吃的兴...。

2024-11-23 00:48:54

中国队对日本队交战记录

国足对日本共交锋12次，中国队3胜3平6负国足上一次赢球是什么时候国足上一次赢球是在2024年3月26日，当时国足在主场以4，1的比分战胜了新加坡队，这场胜利对于国足而言，是在一段时间低迷表现后的重要转折，此前，国足在各项赛事中的战绩并不理想，经历了多场不胜的尴尬局面，因此，这场胜利不仅为国足队员们带来了士气上的提升，也给广大球迷带来...。

2024-11-19 14:41:53

有什么音乐软件APP可以所有收费下载歌曲 (有什么音乐软件可以免费播放所有歌曲)

经过一番精心筛选，我发现了两款真正能让你享用无尽音乐盛宴的收费音乐APP，如今就为你揭晓，1、FlyMusic，音乐自在探求者的乐园FlyMusic以其片面的收费个性锋芒毕露，只管首页上有个小小的惊喜，但请安心，这仅是惟一的亮点，它允许无缝导入QQ音乐的歌单，关于操作新手，软件内详尽的教程是你的好帮手，只有便捷地复制链接，点击，减少，...。

2024-07-16 04:20:46

俄副外长美国在德部署远程导弹是吓唬俄方将作出军事回应

[文，观察者网严珊珊]综合俄罗斯卫星通信社和塔斯社报道，俄罗斯外交部副部长里亚布科夫7月11日示意，美国在德国部署远程导弹的选择旨在破坏俄罗斯的安保，俄罗斯将以沉着和专业的形式对此作出军事回应，里亚布科夫今日在圣彼得堡举行的第十届金砖国度议会论坛间隙示意，美方此举只是造成形势更新的一环，，一种吓唬战术，稍早前，俄罗斯驻美国大使阿纳托...。

2024-07-13 05:27:42

十二星座长什么样子图片 (十二星座长什么样子?)

十二星座状态如下，在西方占星学上，黄道12星座是宇宙方位的代名词，一团体出世时，各星体落入黄道上的位置，说明了一团体的先本能情及天分，黄道12星座意味心思层面，反映出一团体行为的体现的模式，于是将黄道分红12个星座，称为黄道12星座，依次为白羊座、金牛座、双子座、巨蟹座、狮子座、处女座、天秤座、天蝎座、射手座、摩羯座、水瓶座、双鱼座，...。

2024-07-10 04:35:37

标致107的细节改良 (标致107大概多少钱)

依照PEUGEOT原厂担任人稍早对媒体示意，标致107设计概念源自于旗下概念车Sesame而来，之前曾在巴黎车展中现身展出，其设计概念是向大家展现未来PEUGEOT在迷你车型上的创作起源，依据英国局部汽车媒体的观察，发现量产版本与概念版本仍有些许出入，并非齐全原汁原味，虽然如此，全车仿照概念保管，细节修正的局部很难判别，重要是集中在前...。

2024-07-07 23:36:26

第一人王天一被考查涉非国度上班人员行贿中国象棋 (象棋第一人王天一)

经济观察网记者李微敖延续十一年象棋棋手等级分位列全国第一，有中国象棋，第一人，之称的王天一数月前被浙江杭州警方考查，罪由涉嫌非国度上班人员行贿，2024年6月10日至6月26日，数位知情者向经济观察网记者证明了上述信息，1989年4月23日出世于北京的王天一，很早就展现出象棋天分，2002年，他取得首届，中国中在校生报杯，北京少儿三项...。

2024-07-03 21:39:40

文章推荐

2017首日结束开发者不可不知的AI内容全汇总微软Build (2017年首轮)

北京时间5月10日晚23点整，微软公司一年一度的开发者大会，即，MicrosoftBuild2017，在总部西雅图正式开幕，按照官方安排，本次大会将持续3天，主题围绕微软公司各项最新技术成果的展示和研讨，包括与微软相关的产业界人士的沟通和互动，以及对未来相关技术发展的展望和规划，首日Keynote演讲的前半段内容主要集中在云计算部分，...。

2024-12-09 20:42:50

资讯动态

2024开启埃米时代反超台积电 Intel 火力全开 2025或用下一代光刻机 (2024开启渐变色模式怎么关)

过去几十年间，英特尔凭借摩尔定律和先进半导体制程持续引领行业的发展，但摩尔定律的放缓以及在10纳米制程上的一再延期让许多人对英特尔的领导力失去了信心，英特尔新任CEOPatGelsinger也说，英特尔需要加速创新的节奏，不过，英特尔在先进制程上不被看好还有一个关键原因就是节点命名，因此，继今年三月宣布IDM2.0计划之后，英特尔今天...。

2024-11-30 22:00:37

资讯动态

复制最有前景达芬奇机器人难度较大这些技术路线点石资本李乐群 (复制最有前景的图片)

近日，雷锋网医疗科技·未来投资云峰会揭幕，本次峰会邀请到红杉中国、软银中国、高榕资本、联想创投、点石资本、磐霖资本、启明创投、国科嘉和、远毅资本的多位顶级观察者，以云峰会形式，从专业投资人的角度剖析医疗大数据、药企创新服务、医疗机器人等多个医疗科技新领域的投资逻辑和项目经验，来自点石资本的执行董事李乐群以，十年饮冰，难凉热血——国产腔...。

2024-11-30 21:12:40

资讯动态

微创植入式脑机接口企业微灵医疗完成数千万元天使轮融资 (植入式微创手术)

2023年2月21日，脑机智能融合技术领军企业，深圳微灵医疗完成数千万元天使轮融资，由国内知名投资机构蓝驰创投与鼎晖投资共同领投，纳通科技集团和果壳发起的未来光锥等跟投，颠覆性脑机接口技术走进临床微灵医疗成立于2019年4月，主要从事医疗级全植入式无线脑机接口系统研发，是国际领先的掌握植入式脑机接口全链条自主技术企业，目前，公司已在深...。

2024-11-30 16:57:40

资讯动态

极米无屏电视怎么连接电脑 (极米无屏电视多少钱)

发表在精选问答2020，12，1419，39将极米投影仪连接HDMI高清线；，HDMI高清线的另一端连接到电脑的HDMI接口；，极米无屏电视切换信号为HDMI，电脑选择拓展屏幕或复制屏幕即可，极米无屏电视怎么连接电脑1.将极米投影仪连接HDMI高清线；2.HDMI高清线的另一端连接到电脑的HDMI接口；3.极米无屏电视切换信号为H...。

2024-11-28 20:35:58

网络百科

Codex 神经网络 推开高等数学世界大门 PNAS最新研究 81%解题率

相关文章

文章推荐

Codex 神经网络推开高等数学世界大门 PNAS最新研究 81%解题率