ChatGPT 综合不敌最新研究 Gemini 谷歌还需努力 CMU (chatgpt官网)

文章编号：44839 资讯动态 2024-12-09 ChatGPT 大模型能力角逐谷歌Gemini

最近谷歌发布的 Gemini 格外引人注目，其号称是第一个在各种任务中可与 openai 的 ChatGPT 相媲美的大模型。

报道显示，Gemini 的“Ultra”版本在各种任务上都优于 GPT-4，而 Gemini 的“Pro”版本则与 GPT-3.5 不相上下。

针对两个当红炸子鸡的较量，美国卡内基梅隆大学近日展开了一项研究，深入探讨了谷歌 Gemini 的语言理解和生成能力，并将其与 OpenAI 的 GPT 系列作了对比，得到了有趣的结论——谷歌 Gemini 的综合性能与 ChatGPT 仍有较大差距。

CMU 最新研究：Gemini 综合不敌 ChatGPT，还需努力

论文地址：

一、Gemini 仅媲美 GPT-3.5 Turbo

CMU 的这项研究主要探讨了两个问题：

其一，对 OpenAI GPT 和 Google Gemini 模型的能力进行了第三方客观比较，并提供了可重现的代码和完全透明的结果；

其二，对结果进行了更深入的研究，找出两类模型中某一类模型分别拥有的优势领域。

研究团队对测试各种语言能力的 10 个数据集进行了分析，包括推理、回答基于知识的问题、解决数学问题、语言间翻译、生成代码以及充当指令遵循代理。

在所有的基准测试任务基础上，CMU 团队分析发现：

Gemini Pro 模型在模型大小和类别上与 GPT 3.5 Turbo 相当，其准确度一般与 GPT 3.5 Turbo 相当，但略逊于 GPT 3.5 Turbo，比 GPT 4 差很多。

Gemini Pro 的平均性能略低于 GPT 3.5 Turbo，尤其是在多选题的回答顺序偏差、多位数数学推理、过早终止智能体任务以及因激进的内容过滤而导致回答失败等方面存在问题。

在特别长和复杂的推理任务中，Gemini 的表现优于 GPT 3.5 Turbo，包括生成非英语语言以及处理更长、更复杂的推理链。而在不对回答进行过滤的任务中，Gemini 也善于使用多种语言。

CMU 最新研究：Gemini 综合不敌 ChatGPT，还需努力

图为基准测试的主要结果（最佳模型以粗体显示，次佳模型以下划线显示。Mixtral 只对部分任务进行了评估。）

二、大模型关键能力分析

在大模型的几项关键能力上，团队的具体研究结果如下：

CMU 最新研究：Gemini 综合不敌 ChatGPT，还需努力

在大模型的问答能力层面，从上图中可以看出每个模型在部分代表性任务上的表现，与 GPT 3.5 相比，Gemini Pro 在大多数任务上表现不佳，思维链提示降低了各子任务之间的差异。

团队又深入研究 Gemini Pro 性能低于/优于 GPT 的任务3.5 的差距，得出结论：

1）Gemini Pro 在 human_sexuality（社会科学）、formal_logic（人文科学）、elementary_mathematics（STEM）和 professional_medicine（专业领域）方面落后于 GPT 3.5。

2）在 Gemini Pro 优于 GPT 3.5 Turbo 的两项任务中，Gemini Pro 只取得了微弱的优势。

CMU 最新研究：Gemini 综合不敌 ChatGPT，还需努力

在推理能力层面， Gemini Pro 的整体准确率略低于 GPT 3.5 Turbo，远低于 GPT 4 Turbo，但Gemini Pro 在更长、更复杂的问题上表现不佳，而 GPT 模型对此则更为稳健。

文中亦给出了 GPT 3.5 Turbo 性能超过 Gemini Pro 最多的任务：

CMU 最新研究：Gemini 综合不敌 ChatGPT，还需努力

从数学推理的总体结果可以看出，在包含多种语言模式的 GSM8K、SVAMP 和 ASDIV 任务中，Gemini Pro 的准确率略低于 GPT 3.5 Turbo，远低于 GPT 4 Turbo。

在 MAWPS 任务中，所有模型的准确率都超过了 90%，但 Gemini Pro 仍略逊于 GPT 模型。

CMU 最新研究：Gemini 综合不敌 ChatGPT，还需努力

代码能力生成方面，在英语任务中，Gemini Pro 在较长的输入和输出方面表现较强。分析结果可以发现，在大多数使用库的情况下，如 mock、pandas、numpy 和 datetime，Gemini Pro 的性能比 GPT 3.5 差。

不过，在 matplotlib 的情况下，它的性能要优于 GPT 3.5 和 GPT 4，这表明 Gemini 在通过代码执行绘图可视化时具有更强的能力。

CMU 最新研究：Gemini 综合不敌 ChatGPT，还需努力

在翻译能力上，Gemini Pro 有 8 种语言的性能优于 GPT 3.5 Turbo 和 GPT 4 Turbo。相比之下，Gemini Pro 在 20 种语言中的 8 种语言上的表现优于 GPT 3.5 Turbo 和 GPT 4 Turbo，并在 4 种语言上取得了最佳表现。不过，Gemini Pro 在大约 10 种语言对中表现出强烈的阻塞响应趋势。

原创文章，未经授权禁止转载。详情见转载须知。

CMU 最新研究：Gemini 综合不敌 ChatGPT，还需努力

谷普下载提醒您

本文链接：http://www.gpxz.com/article/c07f3aabecdb6051e51d.html

上一篇：高通电脑平台更新骁龙8cx3Gen高通电脑平台

下一篇：5G时代如何打好安全牌360专家划重点5g时代

智能井盖监测系统

烟台久环电子科技有限公司成立于2007年,致力于智能物联通讯、NFC无线供电、智能锁控、结构驱动、无线监测和应用系统的设计开发与生产适合电力、通讯、燃气、热力、水务、市政、化工等多种行业应用的智能锁、智能井盖监测系统、智能警戒、智能监测监控监视等产品。

网络应用 2024-07-03 19:19:21

300英雄暑期福利活动

4399300英雄活动为您提供300英雄下载、300英雄攻略、300英雄视频大全、300英雄图鉴大全、300英雄玩法等

电影视频 2024-08-16 23:36:28

欢迎来到公司管理

欢迎来到公司管理-教育培训-生活服务-文学艺术-天德导航网

网址导航 2024-07-04 18:14:02

华夏经纬网

华夏经纬网，2001年4月29日在北京正式开通，由华夏经纬信息科技有限公司主办，是国内知名的涉台综合性网站。网站以

新闻资讯 2024-07-11 13:35:12

苏州金属材料

苏州市金来达科技有限公司成立于2001年，是一家集研发、生产和销售机加工工程塑料和特种工程塑料的公司，并拥有国内外多个知名品牌的产品代理权。公司为中外客户提供稀缺、优质的各种配套材料，是长三角规模较大的绝缘材料及工程塑料的供应商之一。我们的目标是：引领长三角，覆盖全中国

企业品牌 2024-07-16 04:21:02

珠海市德寿机电设备有限公司

珠海市德寿机电设备有限公司主营业务分为三部分：其一，冲床设备和冲床周边配套设备的销售.其二，冲床精密零配件的销售.其三，承接各种维修相关工事，包含冲床定期维护保养、冲床各种故障维修/大修、冲床翻新,设备搬迁/搬厂、二手冲床回收与修理。

电影视频 2024-07-16 08:14:33

【官网】工业铝型材生产厂家

鸿发有色是太阳能边框,工业铝型材的源头生产厂家。公司注册资金4600万，占地面积6万平米，近30年来专注于铝型材领域的研发生产。公司设备先进，技术过硬，产品质量把控严格，先后获得多项专业认证，详情请咨询025-56607199，期待您的来电！

管理咨询 2024-11-17 02:52:08

德国GWK温控机

苏州迈森自动化设备科技有限公司(www.maisenaut.com)是专业的德国GWK温控机，德国VEGA威格液位计，美国swagelok卡套接头等产品供应商。公司自成立以来，始终坚持客户

科技创新 2024-11-25 16:25:52

常州物流公司

常州鑫弘发物流是一家从事常州到全国的陆运、空运、海运物流服务的物流公司。常州物流公司以快捷、准时、安全、优惠的服务宗旨为广大客户服务！

安全杀毒 2024-11-25 17:08:40

雪球

雪球，聪明的投资者都在这里-4300万投资者都在用的投资社区，沪深港美全球市场实时行情，股票基金债券免费资讯，与投资高手实战交流。

新闻资讯 2024-12-06 18:47:06

鑫艾娱乐数字音乐发行管理平台

我们的全球数字音乐发行平台提供全面的音乐发行服务，让艺术家和音乐制作人能够将他们的作品推向全球市场。以下是我们可以提供的服务和内容类型，以及我们合作的中国流媒体和全球平台： **发行服务内容：** 1.**单曲发行**：允许艺术家发行单曲，包括单曲、混音和现场版本。 2.**专辑发行**：支持完整专辑的发行，包括标准版、豪华版和特别版等。 3.**EP发行**：为艺术家提供发行扩展播放（EP）的机会，展示他们的作品集。 4.**音乐视频**：支持音乐视频的发行，让视觉和听觉艺术相结合。 5.**独家内容**：提供独家内容发行，如独家单曲、未发布曲目或特别制作的音乐内容。 **合作平台：** -**中国流媒体平台**： -网易云音乐 -QQ音乐 -酷狗音乐 -酷我音乐 -咪咕音乐 -**全球流媒体平台**： -Spotify -AppleMusic -AmazonMusic -Tidal -Deezer -YouTubeMusic 我们的平台不仅提供音乐内容的全球发行，还确保艺术家能够通过这些平台获得广泛的曝光和收益。我们与这些平台合作，确保音乐作品能够以最高质量分发，并且艺术家能够通过版税获得公平的回报。此外，我们还提供市场推广和宣传支持，帮助艺术家提升知名度，扩大粉丝基础。我们的目标是让每一位艺术家都能在全球范围内被听见和欣赏，同时也让听众能够轻松发现和享受来自世界各地的优质音乐。

电影视频 2024-12-06 22:32:29

新商纪

新商纪，聚焦5G、AI人工智能、云计算、大数据等互联网科技驱动下的数字化商业创新及新潮生活，科技不仅是一种社会生产力，更是一种潮越平凡的生活态度。新科技、新商业、新趋势。

互联资讯 2024-12-07 01:20:28

2022全民农场游戏下载全民农场游戏下载安装链接 (2022全民k歌正版免费)

一直都有很多玩家想要了解2022全民农场游戏下载，作为一款农村的经营模拟玩法游戏，它的休闲趣味还是比较浓厚的，很多玩家都喜欢，今天小编就给大家带来全民农场游戏下载安装链接，想要体验这款游戏的话，大家就和小编一起来看看吧，全民农场2022最新下载地址作为一款农村的模拟经营类游戏，玩家可以在这里种植各种植物，同时也可以养殖动物，和自己的好...。

2025-02-12 00:16:33

一分钱一份货揭秘不良商家网售充电宝骗局 (一分钱一份货英文)

充电宝可以说是现在大家都离不开的一个重要物件，毕竟这年代手机要是没电了就等于没了小命啊，但是对于绝大部分平民百姓来说，买充电宝其实是个挺让人抓瞎的事，毕竟也不是谁都懂这样那样的参数，往往就是一看价格、二看容量、三看外观，觉得差不多就买了，但是小编要说的是，充电宝这种，小东西，，其实也是有大猫腻的，不仔细甄别购买的话，很有可能陷入卖家陷...。

2025-01-31 01:53:14

我在朝鲜教计算机的故事 (我在朝鲜的日子)

WillScott是一名华盛顿大学计算机科学系毕业生，也曾在谷歌工作过一段时间，去年秋天，他独自前往朝鲜，在平壤科技大学教授操作系统及数据库方面的课程，在此期间，他用图片记录了自己在朝鲜的生活，好让人们对朝鲜有了更深的了解，以下便是WillScott在朝鲜拍摄的一些照片，这些内容收集于他的Instagram相册以及在Reddit上发布...。

2025-01-30 23:04:16

百莲凯康养中心好不好开店要多少钱 (百莲凯康养中心)

国内的健康产业发展规模每年都在不断的扩大，如今越来越多的消费者对于养生服务项目青睐有加，成为了日常健康保护的选择项目，在国内就有着很多发展出色的健康服务项目，百莲凯康养中心以全面的康养服务方式面向不同类型的消费者，在服务品质上出色，百莲凯康养中心专注大健康产业发展多年，以智能全面的养生模式进军市场发展，多年来的出色发展获得了业内外人士...。

2025-01-16 02:10:14

英特尔为何力推vRAN 抢占边缘计算前排好座 (英特尔为何力气大)

随着全球网络向软件定义的方向转变，边缘计算正改编着各行各业，基于边缘计算的重要性越来越高，英特尔在2022年2月28日的巴塞罗那世界移动通信大会上发布了新的可编程硬件和开放软件，英特尔发布了一些列关于边缘计算和软件定义网络的成果，新一代英特尔至强可扩展处理器SapphireRapids架构；为边缘计算设计的英特尔至强D系列处理器；经过...。

2024-12-09 21:27:51

这艘宇宙飞船吗能登上旧船票元宇宙 VR的这张 (这艘宇宙飞船的名字是神舟五号英语)

作者，董子博编辑，赵青晖岑峰元宇宙的风口来得不会那么早，也不会去的那么快，厂商完全不必在短期内急于追高，以免重蹈2016年VR泡沫的覆辙，一、步入元宇宙时代，VR，AR能不能迎来又一个元年，元宇宙在2021年的爆发，如同为VR，AR行业打了一针强心剂，七年前，Facebook豪掷20亿美元买下了当红炸子鸡Oculus；同年，一大批创业...。

2024-12-09 16:14:53

即构科技推出TalkLine视频会议专注会议的每一个可能 (即构科技ceo)

语音播放文章内容由深声科技提供技术支持您的浏览器不支持audio元素，11月8日，ZEGO即构科技旗下TalkLine视频会议产品发布会在北京举办，会上，即构科技公布了生态合作战略，与亿联网络、咪咕视讯、中移国际三家合作伙伴进行合作仪式，并首次公开解读TalkLine各版本功能以及计费方式，据了解，即构科技已为全球200多个国家和地区...。

2024-12-03 19:14:51

宁波金华等多地最新通报杭州 (宁波金华多少公里)

杭州市通报，1.截至4月20日24时，杭州市累计报告新型冠状病毒肺炎确诊病例686例，现有病例10例，累计治愈出院病例已达676例，累计死亡病例0例，2.出于对南京市确诊病例输入的高度警惕，杭州市已首次提升至三级应急响应，全面加强疫情防控措施，3.已对南京市和江北区等地来杭人员进行核酸检测，并加强本地区的社区排查和流调工作，宁波市通报...。

2024-11-29 16:15:49

10个细节让你从自律到自然而然 (十个细节)

1.保证良好的状态，自律与你的身体状态有关，它会极大影响你的意志、情绪、智力等等能力，所以在自律之前，你至少应该做到早睡早起、规律饮食、适当运动，保证良好的状态，2.学会从小事小节开始修炼自律，不要一上来就给自己设计如何宏大的自律改变计划，自律的关键，就是在私底下、无人时、细微处能否做到慎独慎微，3.自律远不止管理时间，其实管理精力比...。

2024-11-21 22:49:10

种子下载工具介绍手机磁力链接& (种子下载工具手机)

在处置了电脑端的下载难题后，手机上的磁力链接和种子文件下载需求雷同关键，当天，咱们将为你提醒六款安卓手机上值得信任的磁力链接与种子下载工具，让你在移动设施上也能轻松失掉所需内容，1.tTorrentLite，粗劣轻量的种子客户端这款运行允许文件标签治理、RSS订阅、创立分享种子，耗电控制、方案义务，以及多种种子搜查引擎，包括谷歌定制和...。

2024-07-09 01:20:41

过路费途程南京开车到张家界路途油价 (过路费怎么算钱)

驾车路途，全程共1055.3公里，15小时1分钟7座及以下小客车不要钱430元，油费估量600元，终点，南京市1.南京市内驾车打算1，从终点向西南边向登程，沿北京东路行驶140米，过右侧的南京迷信会堂约160米后，直后退入兰家庄2，沿兰家庄行驶340米，右转进入北京东路3，沿北京东路行驶750米，右转进入龙蟠中路4，沿龙蟠中路行驶31...。

2024-07-07 13:26:07

AsteriskPasswordSpy下载-AsteriskPasswordSpy(星号密码查看器)v12.0免费版

AsteriskPasswordSpy是一款功能强大且实用的星号密码查看器，利用软件能够对程序中的所有星号进行查看，无论是WiFi密码还是其它被隐藏的密码等

2023-11-08 10:30:41

文章推荐

有红鸡毛店川菜怎么样川菜做得好吗 (有红鸡毛店川菜)

每个城市都有地方特色菜系，能够把产品口味做的让大家满意，特别是川菜，很多人都喜欢，有不少菜系口味，有红鸡毛店川菜就能做到让消费者更满意，给大家带来丰富产品选择，有红鸡毛店川菜怎么样，川菜做得好吗，有红鸡毛店川菜主要以四川小吃产品美食制作研究为主，把四川菜系做的让大家更满意，其中有辣子鸡、蒸菜、凉菜、川味小吃和养生汤，还有川卤现捞等，这...。

2025-01-31 20:24:00

创业加盟

全程帮扶孙丽丽烤猪蹄加盟 (全程帮扶孙丽老师)

烤猪蹄是大家喜欢吃的，而且至今市面上也开始出现一些不同的品牌，可以经过自己的方式来为大家提供不同的味道，而孙丽丽烤猪蹄却一直依靠自己的专业和特色来成为目前很有名气的一个，在沈阳当地更获得了一定的名气和口碑，多方面满足每一个时刻，而且可以带来更多的帮助给代理商，孙丽丽烤猪蹄加盟，全程帮扶，孙丽丽烤猪蹄是依靠中药来进行调配，而且在文化的卤...。

2025-01-16 02:17:51

创业加盟

全球区块链创客马拉松顺利闭幕阿希之夏巨人迪克和聚智队分获冠亚季军水木未名 (全球区块链技术)

雷锋网6月24日快讯，在刚刚结束的，阿希之夏，全球区块链创客马拉松上，经过48小时的连续编程鏖战，三只领先团队瓜分了万币大奖，来自清华的水木未名队以其算法实力获得了当之无愧的冠军，而来自美国的一对刚满18岁的双胞胎高中生获得了亚军，聚智队则通过杰出的团队协作和链上应用场景获得季军，本届创客马拉松一共有15只团队报名参与，经过两天一夜...。

2024-12-03 22:14:41

资讯动态

福州树人托管加盟优势 (福州树人托管老师待遇)

随着人们的经济水平不断提高，人们对托管服务的要求也越来越高，作为一个新兴的服务行业，虽然是一个挑战，但是吧肯定是不愁销路，这也是福州树人托管的独特加盟优势之一，而福州树人托管，作为一家企业的大品牌，为加盟商在宣传方面提供了独特的指导，还免费为加盟商提供宣传所需的传单和海报，加盟福州树人托管加盟优势是费用小市场大，同时，因为福州树人托管...。

2024-11-16 19:28:43

创业加盟

支付宝的第一笔交易

2003年的某一天，支付宝破天荒迎来了第一笔交易，一名叫焦振中的大学生，在网上看中了一个相机，售价750元，想了几天害怕被骗，最后还是付款了，可结果等来的确实一个意外惊喜，那个时候淘宝刚刚起步，没有名气，没有知名度，当时的淘宝在国内已经正式运行了半年多，但国内仍然没有人知道它的存在，直到这一天，第一笔订单的开始，终于打破了这个僵局，当...。

2024-11-15 23:57:45

字体字库

ChatGPT 综合不敌 最新研究 Gemini 谷歌还需努力 CMU (chatgpt官网)

相关文章

文章推荐

ChatGPT 综合不敌最新研究 Gemini 谷歌还需努力 CMU (chatgpt官网)