大模型最新突破 帮科学家读论文 AI 小菜一碟 (大模型 ai)

文章编号:36812 资讯动态 2024-11-30 大模型Galactica语言模型AI

自人类迈入信息时代开始,信息资源总量越来越多,信息过载的现象非常严重。

英国学者带姆·乔丹曾说:“拥有太多信息使信息的利用变得不可能。” 美国工程师 Vannever Bush 也观察到信息过载的情况,在上个世纪就提出通过计算机来解决日益庞大的信息量问题。

Meta AI 新近推出的语言大模型 Galactica,正是在这样的背景下诞生。

由于语言模型可以潜在地储存、组织和推理科学知识,所以语言模型可以作为一种工具帮人类处理大量的信息。例如,语言模型可以在一个文献训练中发现不同研究中潜在的联系,并让这些见解浮出水面。Galactica 通过自动生成二次内容来整合知识,将论文与代码连接起来,为科学研究提供动力

目前,Meta AI 已开放了 Galactica 所有模型的源代码。

AI 大模型最新突破:帮科学家读论文,小菜一碟



精心设计的语料库

近年来,大型语言模型在 NLP 任务上取得了突破性的进展。这些模型在大型通用语料库上进行自我监督训练,并在数百个任务中表现良好。

但自监督的一个缺点是 倾向使用未经整理的数据 ,模型可能反映语料库中的错误信息、刻板印象和偏见等。对于重视真理的科学任务来说,这是不可取的,未经整理的数据也意味着会浪费更多算力预算。

Galactica 用一个大型科学语料库训练一个单一的神经网络,以学习不同的科学语言。Galactica 的语料库包括了论文、参考资料、百科全书和其他学科资源的 1060 亿个 token 组成,集合了自然语言来源,如论文、教科书和自然序列,如蛋白质序列和化学公式,能够捕捉到 LATEX 并对其进行处理,同时还用学术代码捕捉计算科学。

与其他规模更大、未经策划的大型语言模型项目相比, Galactica 使用的数据集规模更小,而且是经过精心策划的, 这很关键,即我们能否在一个经过策划和规范的语料库上制造一个好的大型语言模型。如果可以,我们就能通过设置语料库的内容,更有目的性地设计出大型语言模型。

研发者们主要通过专业化标记来设计数据集,这会形成不同的模态,例如:蛋白质序列是根据氨基酸残基来写的。研发团队还对不同模态进行了专门的标签化。在处理好了数据集后,研发者们在 Galactic 的解码器设置中使用了 Transformer 架构,并进行了以下修改:

GeLU 激活——对所有模型的尺寸都使用了 GeLU 激活;

上下文窗口——对所有的模型尺寸都使用了 2048 长度的上下文窗口;

无偏差——遵循 PaLM ,不在任何密集核或层规范中使用偏差;

学习的位置嵌入——对模型使用学习的位置嵌入,在较小的尺度上试验了 ALi Bi ,但没有观察到大的收益,所以研发者们没有使用它;

词语——使用 BPE 构建了一个包含 50k 个标记组成的词汇表,词汇量是由随机选择的 2% 的训练数据子集中产生的。




实验效果

研发者们还对大型语言模型作为科学模式和自然语言之间的桥梁的潜力进行了初步调查,展示了 Galactica 可以通过自监督来学习 IUPAC 命名等任务。他们发现,增加连接自然语言和自然序列的数据及数量和大小可能进一步提高模型的性能。

研发者们认为语言模型有更多潜力承担目前人类所擅长的事情。

而且为了考察 Galactica 吸收知识的情况,研发者们还建立了几个知识探针的基准,并用于确定语料库内的知识差距,并告知如何确定语料库内的知识差距和迭代语料库。

另外,Galactica 在推理方面表现十分出色, 在数学 MMLU 上的表现优于 Chinchilla 41.3% 至 35.7%,在 MATH 上的 PaLM 540B 得分分别为 20.4% 和 8.8%。

AI 大模型最新突破:帮科学家读论文,小菜一碟

AI 大模型最新突破:帮科学家读论文,小菜一碟

在经过四个 epoch 的训练之后,最大的 120B 参数模型从第五个 epoch 才开始过度拟合。

AI 大模型最新突破:帮科学家读论文,小菜一碟

尽管没有接受过一般语料库的训练,但 Galactica 在 BIG-bench 上的表现优于 BLOOM 和 OPT-175B。根据评估,Galactica 的毒性也明显低于其他语言模型。

AI 大模型最新突破:帮科学家读论文,小菜一碟

AI 大模型最新突破:帮科学家读论文,小菜一碟




Galactica 犹如自动驾驶

Meta AI 发布 Galactica 后,在 AI 领域引起广泛注意,并收获了一众好评。

Yann LeCun 评论: 这个工具( Galactica )于论文写作而言,就像 辅助 驾驶之于驾驶一样,它不会帮你自动写论文,但它会在你写论文的时候大大减轻你的认知负担。

AI 大模型最新突破:帮科学家读论文,小菜一碟

太神奇了!Galactica 甚至可以针对某个领域写评论,推导 SVM ,告诉我什么是线性回归算法!只是生产内容的长度好像有限制?

AI 大模型最新突破:帮科学家读论文,小菜一碟

真是太神奇了!我只是用这个来帮我写“选择性注意研究”评论——它看起来很不错,也许下一步它就可以产生真正的想法!

AI 大模型最新突破:帮科学家读论文,小菜一碟

50 多年来,人类获取科学知识的主要方式一直是通过存储和检索,信息的推理、组合、组织无法依靠机器,只能通过人的努力完成,这导致知识吞吐量存在瓶颈。在 Galactica 的实践中,研发者们探讨了语言模型可能如何破坏这种旧的形式,带来人与知识的新接口。

从长远来看,语言模型的上下文关联能力可能会给搜索引擎带来显著优势。在 Galactica 的实践中,研发者们还证明语言模型可以是一个精心策划的知识库,执行知识密集型的问答任务。

AI 大模型最新突破:帮科学家读论文,小菜一碟

未经「AI科技评论」授权,严禁以任何方式在网页、论坛、社区进行转载!

版权文章,未经授权禁止转载。详情见 转载须知 。

AI 大模型最新突破:帮科学家读论文,小菜一碟

全局中部横幅
揭阳招聘网

揭阳招聘网【jy.bczp.cn】百城招聘揭阳站,是揭阳地区人气最高、访问量最大的揭阳人才网,揭阳招聘网拥有150万份揭阳人才简历,揭阳招聘网是揭阳人才网站最佳品牌.揭阳招聘网提供揭阳人才网,揭阳人才,揭阳招聘,揭阳招聘网,揭阳人才市场的最新暑期工兼职信息.

傲蓝眼镜销售管理软件

傲蓝眼镜店销售管理软件全面支持眼镜,镜架,镜片,隐形眼镜等的销售管理,满足眼镜行业所有商品需求。眼镜店管理系统的功能可以支持条码扫描,会员管理,验光单管理,单码单品,单码多品,丰富营业统计报表...通过傲蓝眼镜店销售管理软件,管理员随时随地全面掌握企业状况,下达指示。

江苏永准科技有限公司

江苏永准科技有限公司,成立于2002年,注总部坐落于中国无锡,在全国各地及海外设有分公司和服务据点。 江苏永准科技致力于为客户提供自动化解决方案,集非标自动化领域研发方案设计、精密加工、组装调试、安装培训和服务支持于一体。解决方案涉及自动化组装线体、包装线、检测设备、工装夹(治)具、智能制造和智慧工厂整体规划等,具备技术咨询、可行性分析、数据实验、系统设计、程序编写、系统集成、安装调试等交钥匙工程的能力。产品广泛应用于消费电子、汽车、医疗、家电、日用品、食品、化妆品等行业领域。 江苏永准科技秉承“以客户为中心,以奋斗者为本”的管理理念,期待为中国的智能制造和全世界自动化应用贡献力量。

欢迎您来到广州奥天防雷检测机构公司

专业防雷检测,广东本地甲级资质防雷检测公司是广东省内第一家甲级防雷检测资质民营企业,已在省内各地市气象局备案,具备省内一、二、三类新建建筑物竣工验收、厂房年检、机站房防静电、接地电阻检测和其他需要防雷检测的检测能力,在佛山南海罗村、佛山桂城、广州市天河石牌、广州市荔湾区龙溪东路2号、东莞道滘大罗沙设立了防雷检测服务点,欢迎需要检测服务的广大朋友来电咨询,我们会全心全意为您提供服务!

优比网

优比网,优比网,优比网,优比网,优比网,优比网,优比网,优比网

农村生活污水处理设备

山东尚清环保科技有限公司十余年专注研发制造:农村污水处理设备,生活污水处理设备,农村生活污水处理设备等.专注于农村、乡镇、城市的污水处理,质量过硬,价格实惠,包安装调试.出水排放达标!

上海IT外包公司

[上海IT外包服务公司]上海弱电工程,机房建设请上上海IT服务公司网。致力于上海及周边地区的IT服务,网管外包、弱电工程、网络工程,监控工程,安防监控,网络监控,门禁系统,电脑维护外包,综合布线等服务。公司承接上海弱电工程同时为企业提供上海安防监控,上海网络监控,上海防盗报警,上海综合布线服务,上海安防监控,上海网络监控服务热线:15000939810.

车载充气泵

深圳沃新智创科技有限公司专注于智能气动产品,包括:电动球泵系列;轮胎泵系列;风泵系列;气球泵系列等。旗下“握风”车载充气泵为我公司的明星产品。

台州无忧直聘

台州人才网,温岭人才网,温岭招聘网,椒江人才,无忧直聘-无忧直聘人才网,无忧直聘招聘网,无忧直聘求职,无忧直聘招聘会,-无忧直聘

巨玩网络

supplyavarietyofNintendoeShopCard,switchcard,playstationnetworkgiftcard,xboxlivegiftcardatthemostattractivepricesonthemarket.–buycheap&safeatBigplayers.com!

舜甫装备

舜甫集团多年致力于食药领域EPC建厂服务,赋能用户高效生产,公司提供各类提取设备,浓缩设备以及植物提取生产线,骨素提取生产线,调味品生产线,中药提取生产线,蛋白肽生产线,酱料生产线,中试生产线.公司集科研开发、工艺设计服务、工程总包、设备制造、安装调试及培训为一体的综合性服务商.

晚宴查座位

免费扫码查座位系统,客户扫码一键查询会议/晚宴座位号;适用于婚礼、寿宴、百日宴、答谢宴、联谊会等扫码查座位。

全局底部横幅