ChatGPT 综合不敌 最新研究 Gemini 谷歌还需努力 CMU (chatgpt官网)

最近谷歌发布的 Gemini 格外引人注目,其号称是第一个在各种任务中可与 openai 的 ChatGPT 相媲美的大模型

报道显示,Gemini 的“Ultra”版本在各种任务上都优于 GPT-4,而 Gemini 的“Pro”版本则与 GPT-3.5 不相上下。

针对两个当红炸子鸡的较量,美国卡内基梅隆大学近日展开了一项研究,深入探讨了谷歌 Gemini 的语言理解和生成能力,并将其与 OpenAI 的 GPT 系列作了对比,得到了有趣的结论——谷歌 Gemini 的综合性能与 ChatGPT 仍有较大差距。

CMU 最新研究:Gemini 综合不敌 ChatGPT,还需努力

论文地址:

一、Gemini 仅媲美 GPT-3.5 Turbo

CMU 的这项研究主要探讨了两个问题:

其一,对 OpenAI GPT 和 Google Gemini 模型的能力进行了第三方客观比较,并提供了可重现的代码和完全透明的结果;

其二,对结果进行了更深入的研究,找出两类模型中某一类模型分别拥有的优势领域。

研究团队对测试各种语言能力的 10 个数据集进行了分析,包括推理、回答基于知识的问题、解决数学问题、语言间翻译、生成代码以及充当指令遵循代理。

在所有的基准测试任务基础上,CMU 团队分析发现:

Gemini Pro 模型在模型大小和类别上与 GPT 3.5 Turbo 相当,其准确度一般与 GPT 3.5 Turbo 相当,但略逊于 GPT 3.5 Turbo,比 GPT 4 差很多。

Gemini Pro 的平均性能略低于 GPT 3.5 Turbo,尤其是在多选题的回答顺序偏差、多位数数学推理、过早终止智能体任务以及因激进的内容过滤而导致回答失败等方面存在问题。

在特别长和复杂的推理任务中,Gemini 的表现优于 GPT 3.5 Turbo,包括生成非英语语言以及处理更长、更复杂的推理链。而在不对回答进行过滤的任务中,Gemini 也善于使用多种语言。

CMU 最新研究:Gemini 综合不敌 ChatGPT,还需努力

图为基准测试的主要结果(最佳模型以粗体显示,次佳模型以下划线显示。Mixtral 只对部分任务进行了评估。)

二、大模型关键能力分析

在大模型的几项关键能力上,团队的具体研究结果如下:

CMU 最新研究:Gemini 综合不敌 ChatGPT,还需努力

在大模型的问答能力层面,从上图中可以看出每个模型在部分代表性任务上的表现,与 GPT 3.5 相比,Gemini Pro 在大多数任务上表现不佳,思维链提示降低了各子任务之间的差异。

团队又深入研究 Gemini Pro 性能低于/优于 GPT 的任务3.5 的差距,得出结论:

1)Gemini Pro 在 human_sexuality(社会科学)、formal_logic(人文科学)、elementary_mathematics(STEM)和 professional_medicine(专业领域)方面落后于 GPT 3.5。

2)在 Gemini Pro 优于 GPT 3.5 Turbo 的两项任务中,Gemini Pro 只取得了微弱的优势。

CMU 最新研究:Gemini 综合不敌 ChatGPT,还需努力

在推理能力层面, Gemini Pro 的整体准确率略低于 GPT 3.5 Turbo,远低于 GPT 4 Turbo,但Gemini Pro 在更长、更复杂的问题上表现不佳,而 GPT 模型对此则更为稳健。

文中亦给出了 GPT 3.5 Turbo 性能超过 Gemini Pro 最多的任务:

CMU 最新研究:Gemini 综合不敌 ChatGPT,还需努力

CMU 最新研究:Gemini 综合不敌 ChatGPT,还需努力

从数学推理的总体结果可以看出,在包含多种语言模式的 GSM8K、SVAMP 和 ASDIV 任务中,Gemini Pro 的准确率略低于 GPT 3.5 Turbo,远低于 GPT 4 Turbo。

在 MAWPS 任务中,所有模型的准确率都超过了 90%,但 Gemini Pro 仍略逊于 GPT 模型。

CMU 最新研究:Gemini 综合不敌 ChatGPT,还需努力

代码能力生成方面,在英语任务中,Gemini Pro 在较长的输入和输出方面表现较强。分析结果可以发现,在大多数使用库的情况下,如 mock、pandas、numpy 和 datetime,Gemini Pro 的性能比 GPT 3.5 差。

不过,在 matplotlib 的情况下,它的性能要优于 GPT 3.5 和 GPT 4,这表明 Gemini 在通过代码执行绘图可视化时具有更强的能力。

CMU 最新研究:Gemini 综合不敌 ChatGPT,还需努力

在翻译能力上,Gemini Pro 有 8 种语言的性能优于 GPT 3.5 Turbo 和 GPT 4 Turbo。相比之下,Gemini Pro 在 20 种语言中的 8 种语言上的表现优于 GPT 3.5 Turbo 和 GPT 4 Turbo,并在 4 种语言上取得了最佳表现。不过,Gemini Pro 在大约 10 种语言对中表现出强烈的阻塞响应趋势。

原创文章,未经授权禁止转载。详情见 转载须知 。

CMU 最新研究:Gemini 综合不敌 ChatGPT,还需努力

全局中部横幅
智能井盖监测系统

烟台久环电子科技有限公司成立于2007年,致力于智能物联通讯、NFC无线供电、智能锁控、结构驱动、无线监测和应用系统的设计开发与生产适合电力、通讯、燃气、热力、水务、市政、化工等多种行业应用的智能锁、智能井盖监测系统、智能警戒、智能监测监控监视等产品。

300英雄暑期福利活动

4399300英雄活动为您提供300英雄下载、300英雄攻略、300英雄视频大全、300英雄图鉴大全、300英雄玩法等

欢迎来到公司管理

欢迎来到公司管理-教育培训-生活服务-文学艺术-天德导航网

华夏经纬网

华夏经纬网,2001年4月29日在北京正式开通,由华夏经纬信息科技有限公司主办,是国内知名的涉台综合性网站。网站以

苏州金属材料

苏州市金来达科技有限公司成立于2001年,是一家集研发、生产和销售机加工工程塑料和特种工程塑料的公司,并拥有国内外多个知名品牌的产品代理权。公司为中外客户提供稀缺、优质的各种配套材料,是长三角规模较大的绝缘材料及工程塑料的供应商之一。我们的目标是:引领长三角,覆盖全中国

珠海市德寿机电设备有限公司

珠海市德寿机电设备有限公司主营业务分为三部分:其一,冲床设备和冲床周边配套设备的销售.其二,冲床精密零配件的销售.其三,承接各种维修相关工事,包含冲床定期维护保养、冲床各种故障维修/大修、冲床翻新,设备搬迁/搬厂、二手冲床回收与修理。

【官网】工业铝型材生产厂家

鸿发有色是太阳能边框,工业铝型材的源头生产厂家。公司注册资金4600万,占地面积6万平米,近30年来专注于铝型材领域的研发生产。公司设备先进,技术过硬,产品质量把控严格,先后获得多项专业认证,详情请咨询025-56607199,期待您的来电!

德国GWK温控机

苏州迈森自动化设备科技有限公司(www.maisenaut.com)是专业的德国GWK温控机,德国VEGA威格液位计,美国swagelok卡套接头等产品供应商。公司自成立以来,始终坚持客户

常州物流公司

常州鑫弘发物流是一家从事常州到全国的陆运、空运、海运物流服务的物流公司。常州物流公司以快捷、准时、安全、优惠的服务宗旨为广大客户服务!

雪球

雪球,聪明的投资者都在这里-4300万投资者都在用的投资社区,沪深港美全球市场实时行情,股票基金债券免费资讯,与投资高手实战交流。

鑫艾娱乐数字音乐发行管理平台

我们的全球数字音乐发行平台提供全面的音乐发行服务,让艺术家和音乐制作人能够将他们的作品推向全球市场。以下是我们可以提供的服务和内容类型,以及我们合作的中国流媒体和全球平台: **发行服务内容:** 1.**单曲发行**:允许艺术家发行单曲,包括单曲、混音和现场版本。 2.**专辑发行**:支持完整专辑的发行,包括标准版、豪华版和特别版等。 3.**EP发行**:为艺术家提供发行扩展播放(EP)的机会,展示他们的作品集。 4.**音乐视频**:支持音乐视频的发行,让视觉和听觉艺术相结合。 5.**独家内容**:提供独家内容发行,如独家单曲、未发布曲目或特别制作的音乐内容。 **合作平台:** -**中国流媒体平台**: -网易云音乐 -QQ音乐 -酷狗音乐 -酷我音乐 -咪咕音乐 -**全球流媒体平台**: -Spotify -AppleMusic -AmazonMusic -Tidal -Deezer -YouTubeMusic 我们的平台不仅提供音乐内容的全球发行,还确保艺术家能够通过这些平台获得广泛的曝光和收益。我们与这些平台合作,确保音乐作品能够以最高质量分发,并且艺术家能够通过版税获得公平的回报。 此外,我们还提供市场推广和宣传支持,帮助艺术家提升知名度,扩大粉丝基础。我们的目标是让每一位艺术家都能在全球范围内被听见和欣赏,同时也让听众能够轻松发现和享受来自世界各地的优质音乐。

新商纪

新商纪,聚焦5G、AI人工智能、云计算、大数据等互联网科技驱动下的数字化商业创新及新潮生活,科技不仅是一种社会生产力,更是一种潮越平凡的生活态度。新科技、新商业、新趋势。

全局底部横幅