ChatGPT 综合不敌 最新研究 Gemini 谷歌还需努力 CMU (chatgpt官网)

最近谷歌发布的 Gemini 格外引人注目,其号称是第一个在各种任务中可与 OpenAI 的 ChatGPT 相媲美的大模型。

报道显示,Gemini 的“Ultra”版本在各种任务上都优于 GPT-4,而 Gemini 的“Pro”版本则与 GPT-3.5 不相上下。

针对两个当红炸子鸡的较量,美国卡内基梅隆大学近日展开了一项研究,深入探讨了谷歌 Gemini 的语言理解和生成能力,并将其与 OpenAI 的 GPT 系列作了对比,得到了有趣的结论——谷歌 Gemini 的综合性能与 ChatGPT 仍有较大差距。

CMU 最新研究:Gemini 综合不敌 ChatGPT,谷歌还需努力

论文地址:

一、Gemini 仅媲美 GPT-3.5 Turbo

CMU 的这项研究主要探讨了两个问题:

其一,对 OpenAI GPT 和 Google Gemini 模型的能力进行了第三方客观比较,并提供了可重现的代码和完全透明的结果;

其二,对结果进行了更深入的研究,找出两类模型中某一类模型分别拥有的优势领域。

研究团队对测试各种语言能力的 10 个数据集进行了分析,包括推理、回答基于知识的问题、解决数学问题、语言间翻译、生成代码以及充当指令遵循代理。

在所有的基准测试任务基础上,CMU 团队分析发现:

Gemini Pro 模型在模型大小和类别上与 GPT 3.5 Turbo 相当,其准确度一般与 GPT 3.5 Turbo 相当,但略逊于 GPT 3.5 Turbo,比 GPT 4 差很多。

Gemini Pro 的平均性能略低于 GPT 3.5 Turbo,尤其是在多选题的回答顺序偏差、多位数数学推理、过早终止智能体任务以及因激进的内容过滤而导致回答失败等方面存在问题。

在特别长和复杂的推理任务中,Gemini 的表现优于 GPT 3.5 Turbo,包括生成非英语语言以及处理更长、更复杂的推理链。而在不对回答进行过滤的任务中,Gemini 也善于使用多种语言。

CMU 最新研究:Gemini 综合不敌 ChatGPT,谷歌还需努力

图为基准测试的主要结果(最佳模型以粗体显示,次佳模型以下划线显示。Mixtral 只对部分任务进行了评估。)

二、大模型关键能力分析

在大模型的几项关键能力上,团队的具体研究结果如下:

CMU 最新研究:Gemini 综合不敌 ChatGPT,谷歌还需努力

在大模型的问答能力层面,从上图中可以看出每个模型在部分代表性任务上的表现,与 GPT 3.5 相比,Gemini Pro 在大多数任务上表现不佳,思维链提示降低了各子任务之间的差异。

团队又深入研究 Gemini Pro 性能低于/优于 GPT 的任务3.5 的差距,得出结论:

1)Gemini Pro 在 Human_sexuality(社会科学)、formal_logic(人文科学)、elementary_mathematics(STEM)和 professional_medicine(专业领域)方面落后于 GPT 3.5。

2)在 Gemini Pro 优于 GPT 3.5 Turbo 的两项任务中,Gemini Pro 只取得了微弱的优势。

CMU 最新研究:Gemini 综合不敌 ChatGPT,谷歌还需努力

在推理能力层面, Gemini Pro 的整体准确率略低于 GPT 3.5 Turbo,远低于 GPT 4 Turbo,但Gemini Pro 在更长、更复杂的问题上表现不佳,而 GPT 模型对此则更为稳健。

文中亦给出了 GPT 3.5 Turbo 性能超过 Gemini Pro 最多的任务:

CMU 最新研究:Gemini 综合不敌 ChatGPT,谷歌还需努力

CMU 最新研究:Gemini 综合不敌 ChatGPT,谷歌还需努力

从数学推理的总体结果可以看出,在包含多种语言模式的 GSM8K、SVAMP 和 ASDIV 任务中,Gemini Pro 的准确率略低于 GPT 3.5 Turbo,远低于 GPT 4 Turbo。

在 MAWPS 任务中,所有模型的准确率都超过了 90%,但 Gemini Pro 仍略逊于 GPT 模型。

CMU 最新研究:Gemini 综合不敌 ChatGPT,谷歌还需努力

代码能力生成方面,在英语任务中,Gemini Pro 在较长的输入和输出方面表现较强。分析结果可以发现,在大多数使用库的情况下,如 mock、pandas、numpy 和 datetime,Gemini Pro 的性能比 GPT 3.5 差。

不过,在 matplotlib 的情况下,它的性能要优于 GPT 3.5 和 GPT 4,这表明 Gemini 在通过代码执行绘图可视化时具有更强的能力。

CMU 最新研究:Gemini 综合不敌 ChatGPT,谷歌还需努力

在翻译能力上,Gemini Pro 有 8 种语言的性能优于 GPT 3.5 Turbo 和 GPT 4 Turbo。相比之下,Gemini Pro 在 20 种语言中的 8 种语言上的表现优于 GPT 3.5 Turbo 和 GPT 4 Turbo,并在 4 种语言上取得了最佳表现。不过,Gemini Pro 在大约 10 种语言对中表现出强烈的阻塞响应趋势。

原创文章,未经授权禁止转载。详情见 转载须知 。

CMU 最新研究:Gemini 综合不敌 ChatGPT,谷歌还需努力

全局中部横幅
小度全屋智能

小度全屋智能-由百度旗下人工智能品牌「小度」倾力打造,拥有全球领先的AI与智能家居技术,致力于打造让全家人都感到温暖、个性、懂你的品质智能生活

腾讯网

腾讯网从2003年创立至今,已经成为集新闻信息,区域垂直生活服务、社会化媒体资讯和产品为一体的互联网媒体平台。腾讯网下设新闻、科技、财经、娱乐、体育、汽车、时尚等多个频道,充分满足用户对不同类型资讯的需求。同时专注不同领域内容,打造精品栏目,并顺应技术发展趋势,推出网络直播等创新形式,改变了用户获取资讯的方式和习惯。

益邦控股集团有限公司

益邦控股创立于2008年8月11日。自成立以来,益邦专注于服务质量的提升,已积累12年的行业经验,凭借卓越的物流供应链服务和持续创新的技术应用,与诸多产业客户建立了长期深度合作。

电脑软件下载大全,手机游戏app应用免费下载平台

秀米下载站(www.okqq.net)提供电脑软件下载大全,手机游戏下载,安卓app应用免费下载服务.包括电脑办公,手机应用,影音娱乐,网络游戏等全方位的软件和app下载使用需求.同时更新官方软件使用教程及游戏攻略技术文章,秀米下载站提供的软件和app应用不绑定任何插件,保证装机安全.

电动旋转平台车

苏州奥京物流机械有限公司是从事进口OPK,手动堆高机,油桶倾倒车,不锈钢工作台,手动拖板车,无尘车间耗材,电动旋转平台车,电动滚筒平台车,电动堆高机的销售厂家,业务范围已覆盖江苏,上海,浙江,等地.

同城58网,分类信息免费发布平台

同城58网致力于打造最优秀的本地同城分类信息发布平台.同城游戏,同城信息,同城生活服务信息,同城交友信息等所有信息均可免费发布

【雪聪网】全国城市分类信息管理平台

雪聪网是一个管理全国城市分类信息的网站平台,商家可以发布和管理汽车租赁、二手车回收、管道疏通、家电维修、居民搬家、房屋装修等信息,当地老百姓可以查看相应的服务信息

[观奇洋服]西服定制

成都观奇服饰有限公司专注定做工作服,已为多家企业提供企业着装解决方案。观奇服饰是中铁等上市企业的指定职业装定做商。为企业提供:工作服定制、定做职业装、企业西装定制、工服定制、成都工作服定做等一站式企业着装解决方案,职员满意,快速提升企业形象。咨询热线:028-80518777

品牌设计

快极互动致力于为中兴、华为、港珠澳大桥、腾讯、tcl、金龙鱼、招商银行、平安银行、博士眼镜、飞利浦、华强集团,汇洁集团等大型企业提供数字化建设服务,主要业务包括高端网站建设、app开发设计、小程序开发、系统定制敏捷开发、H5开发、网页设计、公众号开发、H5活动页制作/设计、UI交互设计等

威龙商务网

威龙商务网是中国领先的一站式B2B电子商务服务平台,汇集各行各业的优质生产商,制造商,供应商等,致力于创新技术的研发、打造电子商务领域的领先品牌,为中国企业提供最新的商机资讯、行业信息、企业自主建站、商人社区等商务服务,是您首选的网上贸易平台。

创联数字

创联数字专注数字人才培养,开设多种数字技术培训课程,提供大数据培训、人工智能培训、python培训、虚拟现实培训、工业互联网培训、数字化转型培训等数字技术培训服务。

斗山机床

【斗山机床(广东)4S技术中心-宝丰盛机电设备有限公司】是斗山机床、斗山加工中心在广东成立斗山唯一技术中心,主要销售机床产品有:斗山多轴车削中心、多功能车削中心、立式加工中心、卧式加工中心、卧式镗铣床、五面体龙门加工中心、超大型数控立式车床等高速、高精度数控机床及配套工装夹具产品。电话:0769-81153005

全局底部横幅