GPT 超越 (gpt超越扩散)

文章编号：36652 资讯动态 2024-11-30 国产大模型第一阶跃星辰 LiveBench

在大模型技术圈里，有一个获得不少认同的说法：阶跃星辰的底层基础模型能力很强，甚至是几家大模型公司中数一数二的。但其实，拥有这种看法的大多是足够了解国内大模型能力现状的人，对于圈子之外的人，无法直观感受到这种潜移默化的底层硬实力。

然而，在被誉为「世界上第一个不可玩弄的 LLM 基准测试」的 LiveBench 榜单中，阶跃星辰给了行业一次强有力的冲击。

国际权威榜单 LiveBench 官网发布最新的榜单成绩显示，阶跃星辰自研的万亿参数语言大模型 Step-2 在榜单中位列国产基座大模型第一，成绩逼近 OpenAI 的 o1-mini-2024-09-12，超越GPT-4o-2024-08-06 、gemini-1.5-pro-002等国际主流模型，目前排在阶跃前面的只有OpenAI 和 Anthropic。

超越 GPT-4o 和 Gemini-1.5，阶跃星辰拿下中国大模型第一

榜单链接：

本次榜单里，阶跃是唯一进入榜单前十名的中国大语言模型，位列全球第五。同样上榜的大模型公司还有通义千问和深度求索，均没有冲进前十，分别位列第十三和第二十三名。

在榜单中的多项测评标准中，Step-2 在 IF Average（指令跟随）的表现上以 86.57 的分数排在第一，超越包括 o1-preview-2024-09-12 在内的所有国内外语言大模型。

从 2024年3月发布国内首个由创业公司研发的万亿参数语言大模型预览版 Step-2 ，到在中文大模型基准测评机构SuperCLUE上登顶国内多模态大模型榜首，到本次在LiveBench 上获得中国大模型第一，可以说，阶跃星辰正在全力提升自身底层实力并且成效显著。

基于 Step-2 万亿参数大模型和 Step-1.5V 多模态模型能力，其 C 端产品跃问也随之迭代，推出的通过图像交互“即拍即问”功能“拍照问”，解决了文字和语音交互中难以准确描述的痛点，获得用户好评。目前，Step-2 已经接入跃问 APP 和网页端（），开发者可以在阶跃星辰开放平台，通过 API 接入使用 Step-2。

一、LiveBench测出的第一：含金量仍在上升

Step-2取得LiveBench国产大模型第一名——之所以这件事能证明阶跃星辰的模型实力，是因为LiveBench本身具有含金量，不同于针对特定数据集进行训练从而拿高分的定向考试。

LiveBench 是由 AI 科学家杨立昆（Yann LeCun）联合 Abacus.AI、纽约大学等机构联合推出，提出了一种创新的基准测试方法，其中包含6大类18项任务，一向以权威性、客观公正、全面评估而获得业界认可。甚至把 “A Challenging, Contamination-Free LLM Benchmark” 放在官网最醒目的位置。

并且为了避免大模型“作弊”，LiveBench 每月发布新问题，并根据最近发布的数据集、arXiv论文、新闻文章和 IMDb 电影简介设计问题，以限制潜在的数据污染。LiveBench 也已评估全面著称，可以从包括数学、推理、编程、语言理解、指令遵循和数据分析在内的多个复杂维度对模型进行评估，还能设计中立的评价体系以避免人类评价者受格式偏好和文风影响。

根据过往的榜单情况来看，上榜者多为国外的科技巨头，极少有国内的大模型能冲到排行榜前十，甚至大多难以上榜。2024 年到目前为止的每个月排名中，只有通义千问的开源大模型 Qwen2-72B 在 6月14 日发布的 LiveBench 的测评中上榜，排名位列第八。

超越 GPT-4o 和 Gemini-1.5，阶跃星辰拿下中国大模型第一

令人惊艳的是， Step-2 的 IF Average（指令跟随得分的平均值）指标碾压所有在榜模型。指令跟随衡量的是模型对语言生成细节的控制力，通常模型满足限定要求，诸如必须遵守一项或多项指令，例如字数限制或在回答中纳入特定元素。

指令跟随在文字创作上的表现会更加显著，在生成高质量、有创意的文字内容的同时，Step-2模型能够根据用户的指令对文本进行精确地调整和优化，比如在创作古诗词时，对字数、格律、押韵、意境都可以做到精准把握。

例如，在跃问中输入：写一首主题为“爱而不得”的七言律诗，表达出相爱的人因为不能相互理解而走散，充满对爱情无力、灰心的意境，得出的回答是：

超越 GPT-4o 和 Gemini-1.5，阶跃星辰拿下中国大模型第一

这一段 prompt 明确要求输出中国的古诗体、有规定字数、需要理解其背后的意境，输出的结果符合要求，并且能主动做到押韵。

不仅文学创作能考察指令跟随能力，是否能够一一应对一个复杂 prompt 的多项细节指令，也是衡量指令跟随能力的较好方式。

比如，向跃问提问：设计一个为期一周的社区环保活动计划。活动计划应包括每天的具体活动安排；确定至少三个不同的环保主题，如减少塑料使用、节约能源和废品分类；为每个主题设计一个互动环节，鼓励社区居民参与，列出所需物资清单，并估算活动预算；描述如何通过社交媒体和社区公告板宣传这次活动；考虑到不同年龄层的居民，设计适合儿童、成人和老年人的活动；确保活动计划中包含安全措施和应对突发情况的预案。

得到的回答是：

超越 GPT-4o 和 Gemini-1.5，阶跃星辰拿下中国大模型第一

在这一大问题中，包含了八个子问题，跃问一个都没有漏掉，足见其较强的指令跟随程度。

出众的指令跟随能力背后，必然是模型更强大的理解和推理能力在支撑。Step-2 具备出色的理解能力，能够从上下文中推断出用户需求，精准捕捉用户在模糊指令中的真实意图，提供更准确、个性化的响应，把模糊指令读得更清晰。

除此之外，数据量也是 Step-2 能力强悍的关键因素。其知识覆盖范围和深度都取得显著突破，不仅能够处理常见领域知识，还能深入理解和回答在特定领域或边缘分布中的复杂问题。

二、阶跃不止于万亿参数大模型

开发出万亿参数模型，是各家大模型发展之路的一个里程碑。一年左右的时间内，号称要发布万亿参数大模型的公司不下五家，但最终能真正发出来的却寥寥无几。

今年 3 月，阶跃星辰发布了 Step-2 语言大模型预览版，这是国内首个由创业公司发布的万亿参数模型，很多成立时间更早、融资体量更大的公司都没有成功发布。

Step-2 万亿参数语言大模型采用 MoE 架构。可以说， MoE 架构是万亿参数模型现阶段不可绕开的路，但阶跃星辰在开发 Step-2 MoE 架构时候没有采用相对成熟的 upcycle（向上复用）方案，走出对算力的需求低、训练效率高的舒适区，转而完全自主研发从头开始训练。

通过部分专家共享参数、异构化专家设计等创新 MoE 架构设计， Step-2 中的每个“专家模型”都得到充分训练，不仅总参数量达到了万亿级别，每次训练或推理所激活的参数量也超过了市面上的大部分 Dense 模型。基于创新算法架构的 Step-2 万亿参数大模型，在数学、逻辑、编程、知识、创作、多轮对话体感全面逼近 GPT-4。

在 Step-2 训练过程中，阶跃星辰系统团队更是突破了 6D 并行、极致显存管理、完全自动化运维等关键技术，具备领先的系统能力以支持高效训练。

然而，阶跃的「星辰大海」远不止于万亿参数的大语言模型。

Step-1.5V 是阶跃星辰 Step 系列里的多模态大模型，其视频理解能力不仅能够准确识别视频中的物体、人物和环境，还能够理解视频的整体氛围和人物情绪，因此被应用于各种视频分析和处理任务，如视频内容理解、视频问答等。

除此之外，Step-1.5V 也具有超强感知能力。通过创新的图文混排训练方法，Step-1.5V 能够准确理解各类图像、图表、复杂图文混排的长上下文内容及其逻辑关系，也能够精准感知图像中物体的复杂空间关系，甚至能够处理高分辨率和极限长宽比的图像。

Step 系列中包括 Step-1X 图像生成大模型。和大语言模型一脉相承，Step-1X 也具备了更强的深度语义对齐能力和细节生成能力与创新力。通过 Step-1V 大模型对高标准训练图像实施精细化标签处理，可获得高精度图文配对数据，极大提升了语义匹配的准确度与深度，即使面对包含多个对象、详细属性、复杂逻辑关系的文本指令时，也能确保生成图像与描述相符和。

Step-1X 生成的图像不仅具备丰富的细节和逼真的质感，还针对中国文化的深度优化，使得该模型在处理富含中国元素的内容时展现出独特优势，无论是传统美学还是现代风尚，更能满足国人独特的审美需求。

有了扎实的底层模型后，阶跃星辰的产品开发应更加有底气。在定位为智能助手的跃问中，加入了智能视觉搜索功能「拍照问」。「拍照问」能够解决难以用语音和文字准确描述的问题，比如，拍一张今日晚餐，跃问就可以计算卡路里摄入；随手拍各种物体图片，跃问就能反馈正确的发音、例句。

阶跃星辰，赞71

基础模型加持下，阶跃星辰的产品能力的想象力还会进一步延展。

三、写在最后

阶跃星辰创始人姜大昕曾表示，他期待的AI下一个里程碑有二：一是强化学习模型泛化能力的提升；二是视觉领域理解和生成的一体化。

而今看来，阶跃星辰距离里程碑的路程就在不远处。登榜LiveBench 的首个国内万亿参数大模型、全链路自研 DiT 架构的Step-1X图像生成大模型、具备超过行业平均理解能力的Step-1.5V多模态模型，都是脚下一步步朝上迈的台阶。

以通用大模型为目标，这家公司正在以阶跃之力，奔赴星辰大海。

原创文章，未经授权禁止转载。详情见转载须知。

超越 GPT-4o 和 Gemini-1.5，阶跃星辰拿下中国大模型第一

谷普下载提醒您

本文链接：http://www.gpxz.com/article/63f3c849caf0820f0140.html

上一篇：16跃问相机控制也接入视觉智能了可一键调用

下一篇：火山方舟早就大模型容易忽视的安全刻进了基

桂林网站建设

拥有着18年的网站建设经验，秉承“原生态手工制作、薄利多销、低价不低质”的设计理念，专注于桂林网站建设、桂林网络推广、桂林网站开发、桂林网站设计、网络营销、SEO优化，服务热线：188-0773-6622。

网络应用 2024-07-13 17:24:00

扬州高邮专业家政月嫂服务

想了解家政月嫂的价格和服务费用吗？我们提供扬州高邮家政月嫂价格一览，让您对月嫂服务的费用有一个清晰的了解。

商业服务 2024-07-08 13:15:10

即速应用

【即速应用】是国内领先的企业微信小程序制作开发工具,免代码生成企业微信小程序平台,拥有海量企业微信小程序模板案例,为小程序企业公司,H5网站提供小程序定制推广,私域流量营销一站式服务。

电影视频 2024-07-11 13:41:39

广东联合富士电梯有限公司,乘客电梯,货梯,别墅电梯,汽车电梯,医用电梯

一家专业化综合性电梯制造企业，公司传承了150余年来电梯技术的精华，集设计、研发、制造、营销、安装与售后服务于一体，以安全和环保为己任，致力于为全球客户提供更安全、更环保、更先进的电梯产品。

设计美化 2024-08-18 01:38:21

深圳市工匠铁艺装饰工程有限公司

电影视频 2024-07-13 02:33:52

万家名门全屋定制

万家名门拥有全套木门生产流水线。公司全线产品选用高品质的型材配件、先进的加工技术、精致的制作工艺，并长期与立邦、长润发的优秀企业保持良好的战略合作关系。

企业品牌 2024-08-18 12:52:18

海角旅游网

海角旅游网由深圳市运通国际旅行社有限公司创办运营于2004年，获得国家旅游局特许旅游经营资质，是一家致力于提供马尔代夫旅游、普吉岛、苏梅岛等海岛旅游的旅行服务提供商。20年来，我们在泰国、香港、马尔代夫、巴厘岛等地区建立了地接服务网络，始终如一为上万家庭的旅途提供保姆级、管家式的旅游服务，深得消费者的信任与喜爱。

网络应用 2024-11-13 22:28:26

新昌县隆兴轴承配件厂

电影视频 2024-11-22 20:06:37

苏州青畅电器有限公司

电影视频 2024-11-25 15:53:38

有机肥造粒机,圆盘造粒机,对辊挤压造粒机生产厂家

郑州华之强重工是专业生产和研发有机肥造粒机设备和成套有机肥生产线设备的厂家，主要经营新型有机肥造粒机，转鼓造粒机，圆盘造粒机，对辊挤压造粒机，有机肥烘干机，有机肥搅拌机等系列设备，服务热线：18603847333

商业服务 2024-11-26 20:56:57

创企集团官网

创企集团专注于为企业提供公司注册,代理记账,商标注册,财税资讯,工商变更等一站式企业服务,10年企业服务经验,专业化团队办理,咨询热线:400-1617-808

新闻资讯 2024-12-03 18:00:56

抖云装建站平台,建站模板,网站建设,企业官网,五合一建站平台

抖云装建站平台是专业的企业网站建设模板站,是企业快速建站的快速选择,五合一建站平台,企业网站建设建好网站

网站模板 2024-12-21 23:04:53

适合跑步打卡的软件有什么 2022运动跑步打卡软件哪个好用 (适合跑步打卡的app)

在跑步的过程中，为用户提供打开功能的APP有哪些，今天小编将针对2022运动跑步打卡软件哪个好用的内容，详细的为大家带来十款高质量的同类型应用，在这些能够实现跑步打卡的软件中，趣味签到功能将帮助用户养成运动的习惯，一款不仅能够帮助用户进行运动训练的app，有趣的运动打卡功能也是一大特色，能够让用户养成一个良好的生活习惯，更多简单实用的...。

2025-02-11 19:58:22

小程序不行了百度分拆小程序业务 (小程序不好使了怎么办)

在运营5年之后，百度小程序业务被分拆，据钛媒体新闻爆料，百度分拆小程序业务，多利熊团队被整体裁撤，4年前百度小程序也被寄予厚望，甚至有一度超越微信小程序的架势，百度小程序最大的特征就是开放，可以在百度各个平台甚至是其他的App上运行，当时百度的想法就是利用百度小程序和各个APP、平台互联互通，而5年之前恰恰是百度熊掌号团队解散的年份，...。

2025-02-01 21:25:35

好友麻辣烫可以加盟吗 (麻辣烫可以)

麻辣烫是现在很多年轻小伙伴都非常喜欢吃的美食，因此在餐饮市场获得了广阔的发展空间，面对这样的市场现象，也引得了一些创业者的关注，不过，关于麻辣烫的品牌还是比较多的，其中比较有名气的当属好友麻辣烫，很多人在吃过之后都非常的满意，并且对其频频点赞，那么，好友麻辣烫可以加盟吗，就成为了广大加盟商需要提前了解的开店前提，好友麻辣烫可以加盟吗好...。

2024-12-21 17:51:34

将评选年度最优秀商业视频创作 B站举办首届花火奖 (年度最佳评选)

12月19日，哔哩哔哩，以下简称，B站，正式启动首届花火奖，并于上海举办线下终审评选，作为B站首个聚焦商业视频创作的专业奖项，花火奖将基于创意表现力、商业价值、传播力等维度综合评审，从数万个优质商业视频中遴选出该年度最优秀的近30个作品，自2020年成立以来，花火平台作为服务UP主与品牌方的官方内容合作平台，一直都是UP主创意内容与...。

2024-12-04 01:09:23

三色激光散斑问题仍需优化 ALPD激光显示完美解决 (三色激光散斑长啥样图片)

kg5451大神级投影控发表于2023，03，24三色散斑问题，我还是要重点科普一下！三色激光在观影过程中会发现有严重的，散斑，情况，也就是画面有明显的，磨砂感，，观看眼睛会酸胀不适，甚至视力受损，这使得观影体验感直线下滑，当前市面上常见的激光投影产品主要有两种技术，其一是直接采用激光半导体发光器件产生的激光，其未经过二次处理和修饰，...。

2024-11-28 15:45:58

速度处置 (速度状态异常怎么消除)

申明，1.以上内容仅代表揭发者自己，不代表黑猫揭发立场，2.未经授权，本平台案例制止任何转载，违者将被清查法律责任，3.黑猫揭发处置揭发不收取任何费用，凡以黑猫揭发名义不要钱的均为混充、诈骗行为，请及时报警并与黑猫官网反应，揭发邮箱heimaotousu@vip.sina.com，4.请大家选用官网渠道处置生产纠纷，不要轻信第三方机构...。

2024-07-17 06:04:43

白羊座女生和什么座最配白羊座女生最配星座 (白羊座女生和什么星座男生最配)

白羊座女生和什么座最配，白羊座女生最配星座白羊座女生最配星座之白羊座可能有一些干燥，但基本上的认识少数分歧，步伐很容易配合，不过你得要懂得第二名哲学才好哦！白羊座女生最配星座之双子座他会让你感觉十分幽默，但试图把握他会让你感觉没有安保感，更会令他窒息，白羊座女生最配星座之狮子座他会让你感觉真的遇上了梦中的王子，但你必学习作个公主的样子...。

2024-07-09 17:08:16

邢台市宁晋县哪里服装厂比拟多 (邢台市宁晋县邮编)

你是哪的，是邢台的吗，东城的宁纺个人是宁晋最大的服装厂，恒纺规模也挺大的，还有大曹庄农场那一片儿服装厂也很多，软文推行颁布可以颁布的门户网站有哪些门户媒体发稿有哪些平台，01.传统四大门户新浪、搜狐、网易、腾讯好处，权重高，包含性好，适宜推行软文；缺陷，审稿很严厉，有些软稿不容易经过查看，介绍指数，✩✩✩✩02.中央门户山东在线、永州...。

2024-07-07 21:29:25

了解尼桑逍客多少钱 (了解尼桑逍客的视频)

逍客是尼桑家族里的一款SUV车型，号称是联合了，王者风范、低调奢侈、休闲时兴，等多种元素，逍客在国际市场上领有宽泛的用户个体，遭到了很多生产者的青眼，但是，尼桑逍客多少钱终究是多少呢，接上去我们就引见一下逍客的多少钱状况，一、尼桑逍客基本款车型多少钱目前，尼桑逍客基本款的多少钱在16.98万元至18.58万元之间，多少钱以北京地域为例...。

2024-07-06 16:09:07

如何下载铃声到手机上 (如何下载铃声免费)

将铃声下载到手机上环节如下，工具，资料，opporeno7、PFJM10、QQ音乐12.5，1、下载铃声咱们借助QQ音乐，关上QQ音乐，2、在列表当选用自己想要设置铃声的音乐，3、点击音乐启动下载，这样铃声就下载到手机上了，4、咱们还可以点击下载后的音乐，右侧的三个点，5、点击设置铃声，这个音乐就可以变为咱们的联络铃声了，苹果手机怎样...。

2024-07-01 15:42:49

54岁狼叔休·杰克曼与67岁妻子官宣离婚，四个月前还高调秀恩爱|狄波拉|好莱坞|奥斯卡|姐弟恋

54岁狼叔休·杰克曼与67岁妻子官宣离婚，四个月前还高调秀恩爱,离婚,狄波拉,好莱坞,奥斯卡,姐弟恋,狼叔休·杰克曼

2023-09-19 01:00:36

iTunes备份文件放在哪-iTunes备份文件路径在哪

iTunes是苹果官方出的实用软件，软件内包含了很多功能，比如音乐博客之类的全都能找到，而且还可以当音乐播放器实用！在使用多了以后难免会有不少问题，比如iTunes备份文件放在哪？我们一起来看看吧。

2023-08-13 23:46:51

文章推荐

你需要知道的加盟酒窝甜品 (你需要知道的十二条社会规则)

众所周知，甜品不是一个品牌忠诚度高的行业，何况港式甜品，在同质化高竞争激烈的市场中，如何跳脱行业激流，勇立潮头，专注品质现金时代甜品业遍地开花，种类零零种种，唯独欠缺的即是这一份独特港式甜品的味道及温暖，酒窝甜品在多年的发展沉淀中，门店已经遍布了全国各省市，从门店到包材，从食材到服务，酒窝甜品在美上下足了功夫，简化的形象，时尚又个性，...。

2025-01-31 21:15:15

创业加盟

藏了个价值千亿的AI推荐系统双十一背后 (藏了个价值千万的东西)

天空为什么是蓝的，萤火虫为什么可以发光，为什么双眼总是一起转动，面对小朋友的十万个为什么，父母、老师总会借助储备的知识，或者查阅书籍解答疑问，但随着内容的爆发性增长，想要得到一个问题精准的答案难度越来越大，早年使用网上购物平台的用户，需要一步步根据商品的分类搜索，才能在海量的商品中找到适合自己的商品，2022年的双十一，普通的消费...。

2024-12-09 22:51:41

资讯动态

微软Build大会 (微软build2024)

虽然我们离真正意义上的自动汽车时代还有些距离，但是这并不意味着你的爱车不能更加智能、更加善解人意，在刚刚过去的微软Build大会上，宝马表示将推出新app，它可以了解用户驾驶习惯，预测用户开车方向，进行自动导航，此款app现已适用于iOS系统，Android还未知，，专注于自动导航，app会基于路况预测到达目的地的时间，同时会将导航信...。

2024-12-03 16:11:20

资讯动态

问答社区能否继续内容顶流知乎上市首日开盘暴跌24% (问答社区是什么)

人在美国，刚下飞机，谢邀，这是大家熟知的梗，如今号称，国内精英聚集地，的知乎在美国上市了，但知乎自己能成为诸多内容平台中的精英吗，美东时间3月26日，知乎正式在美纽交所挂牌，股票代码为，ZH，通过IPO和私募配售，知乎本次募资合计8.5亿美元，按照9.5美元发行价，知乎对应的市值为347亿元，对比B站目前市值2224亿元，快手市值9...。

2024-11-30 23:47:28

资讯动态

海信电视A57通过U盘安装软件教程 (海信电视a52k是哪一年的产品)

海信电视A57安装第三方软件步骤分享安装包，并将安装包拷贝到U盘里面；然后将装有安装包的U盘插入海信电视A57的USB接口，应用，在，我的应用，里面找到，系统配置，提示，如果在应用里面没找到，可通过，我的应用，中，全部，进入，就可找到，系统配置，03、然后点击，系统配置，进入，找到，通用设置，，点击遥控器往下移动，在底部能看到，商...。

2024-11-25 13:22:25

技术教程

GPT 超越 (gpt超越扩散)

相关文章

文章推荐