Codex 神经网络 推开高等数学世界大门 PNAS最新研究 81%解题率

文章编号:43953 资讯动态 2024-12-09 Codex神经网络高等数学
PNAS最新研究:81%解题率,神经网络 Codex 推开高等数学世界大门

近日,一项新研究发布于PNAS,再次刷新了神经网络的能力。这次神经网络被用来解决了高等数学题,而且还是麻省理工数学课程难度的数学题!

在这项新研究中,研究团队证明了 OpenAI 的 Codex 模型可以进行程序合成从而解决大规模的数学问题,并通过小样本学习自动解决数据集中 81%的数学课程问题,并且 Codex 在这些任务的表现上达到了人类水平。

PNAS最新研究:81%解题率,神经网络 Codex 推开高等数学世界大门

这项研究的出现,颠覆了人们普遍认为神经网络无法解决高等数学问题的共识。研究团队指出,Codex 之所以能做到实现这样的能力,正是因为团队进行了一大创新,过去那些不成功的研究只使用了基于文本的预训练,而此次现身的 Codex 神经网络不仅要基于文本进行预训练,并且还对代码进行了微调。

研究的问题数据集选用来自 MIT 的六门数学课程和哥伦比亚大学的一门数学课程,从七门课程中随机抽取 25 个问题:MIT的单变量微积分、多变量微积分、微分方程、概率与统计概论、线性代数和 计算机科学数学和哥伦比亚大学的 COMS3251 计算线性代数。

同时,研究团队使用了一个用于评估数学推理的最新高级数学问题基准 MATH,用 MATH 来检测OpenAI Codex 的能力,MATH 从6大数学板块:初级代数,代数,计数和概率,中级代数,数论,和初级微积分中各抽取15个问题。

PNAS最新研究:81%解题率,神经网络 Codex 推开高等数学世界大门
图注:研究中使用的课程问题数据集和MATH基准测试

研究显示,Codex 解决了问题数据集和 MATH 数据集中的 265 个问题,其中有 213 个是自动解决的。



创新何所在

在 Transformer 发布后,基于 Transformer 的语言模型在各种自然语言处理 (NLP) 任务,包括在零样本和少样本语言任务中取得了巨大成功。但是因为 Transformer 仅在文本上进行了预训练,所以这些模型基本上不能解决数学问题,GPT-3就是一个典型例子。

后来,通过小样本学习(few-shot learning)和思维链 (Chain-of-thought, CoT) 提示,GPT-3 的数学推理能力得到了提高;然而,在没有代码的情况下,即便有小样本学习和 CoT 提示, GPT-3 在大学水平数学问题和 MATH 基准测试中仍然无能为力。

过去关于解数学题的研究,可能在相对简单的数学水平上有一定成绩。举个例子,基于协同训练输出来验证或预测表达式树的技术,比如MAWPS 和 Math23k,能够以超过 81% 的准确率解决小学级别的数学问题,但是其不能解决高中、奥林匹克数学或大学难度的课程。协同训练与图神经网络 (GNN) 相结合以预测算术表达式树,能够以高达 95% 的准确率解决机器学习中的大学水平问题。但是这项工作也仅限于数字答案,并且产生了过拟合,不能推广到其他课程。

就是,不仅对Codex 这种Transformer 模型进行了文本上的预训练,还在代码上进行了微调,使得其可以生成大规模解决数学问题的程序。

PNAS最新研究:81%解题率,神经网络 Codex 推开高等数学世界大门

研究团队从数据集中随机选择不需要输入图像或证明的问题样本来进行测试。其中,仅对文本进行预训练的语言模型 (GPT-3 text-davinci-002) 仅自动解决了课程问题中的18%和 MATH基准测试问题中的25.5%。

相比之下,使用零样本学习和对文本进行预训练并在代码上进行微调的神经网络(OpenAI Codex code-davinci-002)合成的程序可以自动解决课程问题中的 71%和 MATH 基准测试问题中的72.2%。

而使用相同的神经网络 Codex 再加上少样本学习,便可自动解决课程中81%的问题和 MATH 基准测试中81.1%的问题。而其余模型无法自动解决的19%的课程问题和18.9%的MATH基准问题,最后通过手动提示解决。

小样本学习方式的补充,则是这项研究的 。从上图中可以看出,当零样本学习无法解答问题时,便会使用(问题,代码)对(pAIR)执行小样本学习:

1) 使用 OpenAI 的 text-similarity-babbage-001 嵌入引擎嵌入所有问题;

2) 使用嵌入的余弦相似度从其课程中计算与未解决问题最相似的已解决问题;

3) 将最相似的问题及其相应的代码作为小样本问题的示例。

PNAS最新研究:81%解题率,神经网络 Codex 推开高等数学世界大门

图注:4种方式的自动解题率对比

上图分别是Codex的零样本学习、小样本学习和GPT-3的零样本学习、小样本学习4种方式的自动解题率对比。图上可以看出,橙色条状所代表的小样本学习 Codex 在自动解题率上的优秀表现,基本上在每个数学领域上的表现都强于其他3种方式。

,便是提供了一条解决数学问题和解释为何如此解答的管道,下图展示了MIT 5门数学课程中管道的执行流程。

PNAS最新研究:81%解题率,神经网络 Codex 推开高等数学世界大门

以 18.01 单变量微积分问题为例,给定一个问题和自动生成的前缀“使用 SymPy”,Codex 被提示并输出一个程序。运行程序会产生正确答案的方程式。然后,程序会自动提示再次输入 Codex,从而生成生成的代码解释。




问题解决之后

除了解决数学问题和解释答案,Codex 也被用于为每门课程生成新问题。

为了评估生成的问题水平,团队在参加过这些课程或者同水平课程的MIT学生中做了调查,主要是比较机器生成的问题和人工编写问题的质量和难度。

在MIT的6门课程中,每门选择5个人工编写问题和5个模型生成问题混合起来并且随机呈现。对于 60 个问题中的每一个问题,参与调查的学生都需要回答 3 个调查问题:

1)你认为这个问题是人工编写的还是机器生成的?

2)你认为这个问题适合还是不适合特定课程?

3 ) 在 1(最简单)和 5(最难)之间,你认为这个问题的难度级别是多少?

PNAS最新研究:81%解题率,神经网络 Codex 推开高等数学世界大门

在收回的问卷中,学生调查结果总结如下:

机器生成的问题已经能让学生无法辨别,说明Codex 在生成新内容方面已达到了人类的表现水平。

但是,该模型也有无法解决的问题,比如,如果问题以图像或其他非文本形式出现,它就无法回答;带有需要证明的解决方案的问题,或者计算上难以解决的问题,比如分解非常大的素数,该模型也无法解决。不过,最后一种问题也不应出现在任何数学课程作业中,因为就算是真人学生也没法回答。

更多内容,点击下方关注:

PNAS最新研究:81%解题率,神经网络 Codex 推开高等数学世界大门

PNAS最新研究:81%解题率,神经网络 Codex 推开高等数学世界大门

版权文章,未经授权禁止转载。详情见 转载须知 。

PNAS最新研究:81%解题率,神经网络 Codex 推开高等数学世界大门

全局中部横幅
首页

重庆昶斗源科技有限公司,以数字多媒体及智能控制为基础,智慧教室及智慧校园为发展方向,以多媒体中控,互动教室,智能物联,集控云平台,微课,录播及远程互动系统,资源云平台等产品,专业为客户提供结构化布线系统,网络技术工程,程控交换机系统安装,监控安防系统,一卡通系统,音视频系统,远程互动,机房建设等系统方案设计,施工及维护的服务,打造行业领跑者形象,以市场为导向,以客户为中心

格致健康

用科学的健康管理模式,造福慢性病患者

工业显示器厂家

深圳创腾翔专业研发生产工业显示器,工控一体机,工业一体机,工业电脑,安卓工业一体机,工控电脑,工业平板电脑多个型号自主研发、深圳工业显示器厂家自主创新,从硬件、软件及相关产品设计到制造一体化,产品技术拥有自主知识产权,保证品质稳定。

自动焊机

览众科技是自动焊机,自动焊接设备,自动焊接机,管道自动焊接机,筒体焊接机,环缝自动焊机,管道自动焊机,储罐自动焊等产品的生产厂家,可定制化研发,欢迎咨询,实地考察。

长江云

长江云是湖北广播电视台打造的湖北广播电视台官方门户APP,湖北广电APP汇聚平台,湖北广电媒体融合基础和功能性产品,是湖北官方政务信息汇聚平台。

郑州玉都环保设备有限公司

郑州玉都环保设备有限公司坐落于中国的交通枢纽中心郑州,是中原地区一家大规模的塑料容器生产厂家销售企业。 公司主要产品有:塑料水箱、PE水箱、加药箱、化工防腐储罐、塑胶水塔、周转箱、食品级储罐、塑料桶、腌制桶、锥形储罐、塑料水塔、酸洗槽、大型立式储罐、加药装置、外加剂复配设备、聚羧酸合成设备、酸碱化工储罐、PP焊接储罐、PE储罐、搅拌罐等塑料防腐容器;酸雾吸收塔、pp反应釜,真空罐,缓冲罐等塑料化工环保设备。另承接大型塑料定制产品。 郑州玉都环保设备有限公司产品严格选用优质进口塑料颗粒为原料并按照“中华人民共和国GB9687-88质量标准”为准制造。 郑州玉都环保设备有限公司拥有技术研发中心,具备丰富的研发能力可按不同用途进行各种设计和制造。近年来,为南水北调工程、河南城际高铁高速等国内大型工程配套提供了各种不同规格的塑料储罐产品及相关设备,为甲方基础建设做出贡献。另为多家化工企业提供环保治理产品及方案!欢迎新老用户咨询! 郑州玉都环保设备有限公司本着“创新科技、真情服务”的企业经营理念,倡导

瑞视光电

黄石瑞视光电技术股份有限公司成立于2010年6月,是一家研发、生产和销售触摸屏产品的国家高新技术企业:主要生产工控类电阻屏,四线电阻屏,五线电阻屏,电容式触摸开关,电容式触摸屏,具有年产75万组玻璃基板(按400MM*500MM)的生产能力,换算为3.5寸可达3000万片/年。公司拥有一栋五层共计11400平方米的标准厂房,和先进的生产及检测设备,为产品的质量、交期、价格和服务提供物质基础。

山东睿林工程机械有限公司

山东睿林工程机械有限公司有限公司成立于2021年9月,位于好客山东、独具特色的山水组群式、齐文化发祥地、中国历史文化名城的淄博市张店区公园街道办事处共青团西路121甲1号8号楼307号,承接建筑工程机械与设备租赁;工程管理服务;装卸搬运;园林绿化工程施工等

白银市中心医院

白银市中心医院始建于1958年,经过60余年几代人的艰苦创业,现已发展为基础设施完善,医疗设备先进,技术力量雄厚,集医疗、保健、科研、教学、康复、医养于一体的现代化综合性三级甲等医院,全国百姓放心示范医院、甘肃省健康促进医院。被确立为“应急管理部国家矿山医疗救护中心靖远分中心”,设立付小兵院士严重创伤救治和组织修复与再生医学协同创新基地。

鲜肉切片机

诸城市惠正机械科技有限公司是一家集研发、生产、销售、售后于一体的现代化食品机械生产企业。公司专业生产鲜肉切片机,鲜肉切条机,鸡柳成型机,真空滚揉机,冻肉切丁机,绞肉机,气泡清洗线,油炸线,加工定制车间实用型流水线,等不锈钢制品等,产品行销全国各地,现已拥有各类机械加工设备,能够满足不同层次用户的需要。

北方长龙新材料技术股份有限公司

北方长龙新材料技术股份有限公司公司拥有从德国引进的先进复合材料生产线,以树脂基复合材料的应用技术为基础平台,以材料创新、工艺创新和产品创新为先导,以国际化的视野持续不断地开展技术合作与创新,开发和设计应用于汽车及军工行业的复合材料产品。北方长龙新材料技术股份有限公司-公司拥有从德国引进的先进复合材料生产线,以树脂基复合材料的应用技术为基础平台,以材料创新、工艺创新和产品创新为先导,开发和设计应用于汽车及军工行业的复合材料产品。

华北科技网

华北科技网以独特视角呈现科技圈内大事小事,内容包括互联网、IT业界、通信、趋势、科技访谈信息等

全局底部横幅