阿里通义Qwen2成斯坦福大模型榜单最强开源模型 (阿里通义千问)

6月20日消息,斯坦福大学的大模型测评榜单HELM MMLU发布最新结果,斯坦福大学基础模型研究中心主任Percy Liang发文表示,阿里通义千问Qwen2-72B模型成为排名最高的开源大模型,性能超越Llama3-70B模型。

MMLU(MassIve Multitask Language Understanding,大规模多任务语言理解)是业界最有影响力的大模型测评基准之一,涵盖了基础数学、计算机科学、法律、历史等57项任务,用以测试大模型的世界知识和问题解决能力。但在现实测评中,不同参评模型的测评结果有时缺乏一致性、可比性,原因包括使用非标准提示词技术、没有统一采用开源评价框架等等。

阿里通义Qwen2成斯坦福大模型榜单最强开源模型

斯坦福大学基础模型研究中心(CRFM,Center for Research on Foundation MODELs)提出的基础模型评估框架HELM(A holistic framework for evaluating foundation models),旨在创造一种透明、可复现的评估方法。该方法基于HELM框架,对不同模型在MMLU上的评估结果进行标准化和透明化处理,从而克服现有MMLU评估中存在的问题。比如,针对所有参评模型,都采用相同的提示词;针对每项测试主题,都给模型提供同样的5个示例进行情境学习,等等。

日前,斯坦福大学基础模型研究中心主任Percy Liang在社交平台发布了HELM MMLU最新榜单,阿里巴巴的通义千问开源模型Qwen2-72B排名第5,仅次于Claude 3 Opus、GPT-4o、Gemini 1.5 PRO、GPT-4,是排名第一的开源大模型,也是排名最高的中国大模型。

据悉,通义千问Qwen2于6月初开源,包含5个尺寸的预训练和指令微调模型,目前Qwen系列模型下载量已经突破1600万。

版权文章,未经授权禁止转载。详情见 转载须知 。

百度安全社区

百度安全社区旨在打造安全行业技术型社区,沉淀最有价值的安全行业资料,帮助企业、个人开发者获取最新安全资讯,学习最前沿的安全技术,了解最酷的安全产品。

站长工具

爱站网站长工具提供网站收录查询和站长查询以及百度权重值查询等多个站长工具,免费查询各种工具,包括有关键词排名查询,百度收录查询等。

珩磨管,珩磨缸筒,滚压缸筒

珩磨管制造商,无锡腾业专业生产珩磨缸筒、液压油缸、滚压缸筒、珩磨管、刮屑滚光机床、液压油缸管、不锈钢珩磨气缸管、气缸缸筒专用珩磨管、高精密冷拨珩磨缸筒等,公司技术力量坚实,珩磨管产品质量可靠,珩磨缸筒技术参数可根据用户要求而定。

新车评网

新车评网采用先进、严谨的测试流程和评判标准,同时以详尽易懂的形式展现出来,给予消费者最清晰、易明的购车意见

青岛淘宝代运营

我们为您提供专业的淘宝代运营、天猫店铺代运营、京东网店运营等服务,十年行业经验专注网店代运营,合作电话:400-003-6759。

西安凌派VR开发

陕西凌派信息技术有限公司是一家基于VR、AR及MR为技术核心,专注展示内容的互动设计、开发及应用的一体化解决方案提供方。

首页

重庆好德五金集团有限公司

不锈钢水管

佛山市永穗不锈钢有限公司是集产、供、销为一体的广东省科技型中小企业。14年专注生产:欧标、国标304和316L不锈钢水管,不锈钢工业流体管,不锈钢卫生管,卫生级管件,不锈钢方管,不锈钢圆管,304不锈钢水管,316l不锈钢水管,双卡压式管件,沟槽式管件,卫生级不锈钢管,不锈钢水管厂家咨询热线:180-6465-4832

快乐下载

快乐下载是一个安全可靠的绿色软件下载中心,我们致力于为用户打造安全迅捷的软件下载体验,如果我们提供的资源帮到了你,欢迎你向你的朋友们推荐一下本站~

菲律宾移民

专业办理菲律宾移民,包括菲律宾退休移民,菲律宾购房投资移民,了解菲律宾移民条件、移民政策、移民费用以及移民菲律宾的好处,协助子女在这里上学,介绍这里的学校教育和房产信息。