GPT 超越 (gpt超越扩散)

在大模型技术圈里,有一个获得不少认同的说法:阶跃星辰的底层基础模型能力很强,甚至是几家大模型公司中数一数二的。但其实,拥有这种看法的大多是足够了解国内大模型能力现状的人,对于圈子之外的人,无法直观感受到这种潜移默化的底层硬实力。

然而,在被誉为「世界上第一个不可玩弄的 LLM 基准测试」的 LiveBench 榜单中,阶跃星辰给了行业一次强有力的冲击。

国际权威榜单 LiveBench 官网发布最新的榜单成绩显示,阶跃星辰自研的万亿参数语言大模型 Step-2 在榜单中位列国产基座大模型第一,成绩逼近 OpenAI 的 o1-mini-2024-09-12,超越GPT-4o-2024-08-06 、gemini-1.5-pro-002等国际主流模型,目前排在阶跃前面的只有OpenAI 和 Anthropic。

超越 GPT-4o 和 Gemini-1.5,阶跃星辰拿下中国大模型第一

榜单链接:

本次榜单里,阶跃是唯一进入榜单前十名的中国大语言模型,位列全球第五。同样上榜的大模型公司还有通义千问和深度求索,均没有冲进前十,分别位列第十三和第二十三名。

在榜单中的多项测评标准中,Step-2 在 IF Average(指令跟随)的表现上以 86.57 的分数排在第一,超越包括 o1-preview-2024-09-12 在内的所有国内外语言大模型。

从 2024年3月发布国内首个由创业公司研发的万亿参数语言大模型预览版 Step-2 ,到在中文大模型基准测评机构SuperCLUE上登顶国内多模态大模型榜首,到本次在LiveBench 上获得中国大模型第一,可以说,阶跃星辰正在全力提升自身底层实力并且成效显著。

基于 Step-2 万亿参数大模型和 Step-1.5V 多模态模型能力,其 C 端产品跃问也随之迭代,推出的通过图像交互“即拍即问”功能“拍照问”,解决了文字和语音交互中难以准确描述的痛点,获得用户好评。目前,Step-2 已经接入跃问 APP 和网页端(),开发者可以在阶跃星辰开放平台,通过 API 接入使用 Step-2。

一、LiveBench测出的第一:含金量仍在上升

Step-2取得LiveBench国产大模型第一名——之所以这件事能证明阶跃星辰的模型实力,是因为LiveBench本身具有含金量,不同于针对特定数据集进行训练从而拿高分的定向考试。

LiveBench 是由 AI 科学家杨立昆(Yann LeCun)联合 Abacus.AI、纽约大学等机构联合推出,提出了一种创新的基准测试方法,其中包含6大类18项任务,一向以权威性、客观公正、全面评估而获得业界认可。甚至把 “A Challenging, Contamination-Free LLM Benchmark” 放在官网最醒目的位置。

并且为了避免大模型“作弊”,LiveBench 每月发布新问题,并根据最近发布的数据集、arXiv论文、新闻文章和 IMDb 电影简介设计问题,以限制潜在的数据污染。LiveBench 也已评估全面著称,可以从包括数学、推理、编程、语言理解、指令遵循和数据分析在内的多个复杂维度对模型进行评估,还能设计中立的评价体系以避免人类评价者受格式偏好和文风影响。

根据过往的榜单情况来看,上榜者多为国外的科技巨头,极少有国内的大模型能冲到排行榜前十,甚至大多难以上榜。2024 年到目前为止的每个月排名中,只有通义千问的开源大模型 Qwen2-72B 在 6月14 日发布的 LiveBench 的测评中上榜,排名位列第八。

超越 GPT-4o 和 Gemini-1.5,阶跃星辰拿下中国大模型第一

令人惊艳的是, Step-2 的 IF Average(指令跟随得分的平均值)指标碾压所有在榜模型。指令跟随衡量的是模型对语言生成细节的控制力,通常模型满足限定要求,诸如必须遵守一项或多项指令,例如字数限制或在回答中纳入特定元素。

指令跟随在文字创作上的表现会更加显著,在生成高质量、有创意的文字内容的同时,Step-2模型能够根据用户的指令对文本进行精确地调整和优化,比如在创作古诗词时,对字数、格律、押韵、意境都可以做到精准把握。

例如,在跃问中输入:写一首主题为“爱而不得”的七言律诗,表达出相爱的人因为不能相互理解而走散,充满对爱情无力、灰心的意境,得出的回答是:

超越 GPT-4o 和 Gemini-1.5,阶跃星辰拿下中国大模型第一

这一段 prompt 明确要求输出中国的古诗体、有规定字数、需要理解其背后的意境,输出的结果符合要求,并且能主动做到押韵。

不仅文学创作能考察指令跟随能力,是否能够一一应对一个复杂 prompt 的多项细节指令,也是衡量指令跟随能力的较好方式。

比如,向跃问提问:设计一个为期一周的社区环保活动计划。活动计划应包括每天的具体活动安排;确定至少三个不同的环保主题,如减少塑料使用、节约能源和废品分类;为每个主题设计一个互动环节,鼓励社区居民参与,列出所需物资清单,并估算活动预算;描述如何通过社交媒体和社区公告板宣传这次活动;考虑到不同年龄层的居民,设计适合儿童、成人和老年人的活动;确保活动计划中包含安全措施和应对突发情况的预案。

得到的回答是:

超越 GPT-4o 和 Gemini-1.5,阶跃星辰拿下中国大模型第一

超越 GPT-4o 和 Gemini-1.5,阶跃星辰拿下中国大模型第一

超越 GPT-4o 和 Gemini-1.5,阶跃星辰拿下中国大模型第一

超越 GPT-4o 和 Gemini-1.5,阶跃星辰拿下中国大模型第一

超越 GPT-4o 和 Gemini-1.5,阶跃星辰拿下中国大模型第一

在这一大问题中,包含了八个子问题,跃问一个都没有漏掉,足见其较强的指令跟随程度。

出众的指令跟随能力背后,必然是模型更强大的理解和推理能力在支撑。Step-2 具备出色的理解能力,能够从上下文中推断出用户需求,精准捕捉用户在模糊指令中的真实意图,提供更准确、个性化的响应,把模糊指令读得更清晰。

除此之外,数据量也是 Step-2 能力强悍的关键因素。其知识覆盖范围和深度都取得显著突破,不仅能够处理常见领域知识,还能深入理解和回答在特定领域或边缘分布中的复杂问题。

二、阶跃不止于万亿参数大模型

开发出万亿参数模型,是各家大模型发展之路的一个里程碑。一年左右的时间内,号称要发布万亿参数大模型的公司不下五家,但最终能真正发出来的却寥寥无几。

今年 3 月,阶跃星辰发布了 Step-2 语言大模型预览版,这是国内首个由创业公司发布的万亿参数模型,很多成立时间更早、融资体量更大的公司都没有成功发布。

Step-2 万亿参数语言大模型采用 MoE 架构。可以说, MoE 架构是万亿参数模型现阶段不可绕开的路,但阶跃星辰在开发 Step-2 MoE 架构时候没有采用相对成熟的 upcycle(向上复用)方案,走出对算力的需求低、训练效率高的舒适区,转而完全自主研发从头开始训练。

通过部分专家共享参数、异构化专家设计等创新 MoE 架构设计, Step-2 中的每个“专家模型”都得到充分训练,不仅总参数量达到了万亿级别,每次训练或推理所激活的参数量也超过了市面上的大部分 Dense 模型。基于创新算法架构的 Step-2 万亿参数大模型,在数学、逻辑、编程、知识、创作、多轮对话体感全面逼近 GPT-4。

在 Step-2 训练过程中,阶跃星辰系统团队更是突破了 6D 并行、极致显存管理、完全自动化运维等关键技术,具备领先的系统能力以支持高效训练。

然而,阶跃的「星辰大海」远不止于万亿参数的大语言模型。

Step-1.5V 是阶跃星辰 Step 系列里的多模态大模型,其视频理解能力不仅能够准确识别视频中的物体、人物和环境,还能够理解视频的整体氛围和人物情绪,因此被应用于各种视频分析和处理任务,如视频内容理解、视频问答等。

除此之外,Step-1.5V 也具有超强感知能力。通过创新的图文混排训练方法,Step-1.5V 能够准确理解各类图像、图表、复杂图文混排的长上下文内容及其逻辑关系,也能够精准感知图像中物体的复杂空间关系,甚至能够处理高分辨率和极限长宽比的图像。

Step 系列中包括 Step-1X 图像生成大模型。和大语言模型一脉相承,Step-1X 也具备了更强的深度语义对齐能力和细节生成能力与创新力。通过 Step-1V 大模型对高标准训练图像实施精细化标签处理,可获得高精度图文配对数据,极大提升了语义匹配的准确度与深度,即使面对包含多个对象、详细属性、复杂逻辑关系的文本指令时,也能确保生成图像与描述相符和。

Step-1X 生成的图像不仅具备丰富的细节和逼真的质感,还针对中国文化的深度优化,使得该模型在处理富含中国元素的内容时展现出独特优势,无论是传统美学还是现代风尚,更能满足国人独特的审美需求。

有了扎实的底层模型后,阶跃星辰的产品开发应更加有底气。在定位为智能助手的跃问中,加入了智能视觉搜索功能「拍照问」。「拍照问」能够解决难以用语音和文字准确描述的问题,比如,拍一张今日晚餐,跃问就可以计算卡路里摄入;随手拍各种物体图片,跃问就能反馈正确的发音、例句。

阶跃星辰,赞71

基础模型加持下,阶跃星辰的产品能力的想象力还会进一步延展。

三、写在最后

阶跃星辰创始人姜大昕曾表示,他期待的AI下一个里程碑有二:一是强化学习模型泛化能力的提升;二是视觉领域理解和生成的一体化。

而今看来,阶跃星辰距离里程碑的路程就在不远处。登榜LiveBench 的首个国内万亿参数大模型、全链路自研 DiT 架构的Step-1X图像生成大模型、具备超过行业平均理解能力的Step-1.5V多模态模型,都是脚下一步步朝上迈的台阶。

以通用大模型为目标,这家公司正在以阶跃之力,奔赴星辰大海。

原创文章,未经授权禁止转载。详情见 转载须知 。

超越 GPT-4o 和 Gemini-1.5,阶跃星辰拿下中国大模型第一

全局中部横幅
桂林网站建设

拥有着18年的网站建设经验,秉承“原生态手工制作、薄利多销、低价不低质”的设计理念,专注于桂林网站建设、桂林网络推广、桂林网站开发、桂林网站设计、网络营销、SEO优化,服务热线:188-0773-6622。

扬州高邮专业家政月嫂服务

想了解家政月嫂的价格和服务费用吗?我们提供扬州高邮家政月嫂价格一览,让您对月嫂服务的费用有一个清晰的了解。

即速应用

【即速应用】是国内领先的企业微信小程序制作开发工具,免代码生成企业微信小程序平台,拥有海量企业微信小程序模板案例,为小程序企业公司,H5网站提供小程序定制推广,私域流量营销一站式服务。

广东联合富士电梯有限公司,乘客电梯,货梯,别墅电梯,汽车电梯,医用电梯

一家专业化综合性电梯制造企业,公司传承了150余年来电梯技术的精华,集设计、研发、制造、营销、安装与售后服务于一体,以安全和环保为己任,致力于为全球客户提供更安全、更环保、更先进的电梯产品。

万家名门全屋定制

万家名门拥有全套木门生产流水线。公司全线产品选用高品质的型材配件、先进的加工技术、精致的制作工艺,并长期与立邦、长润发的优秀企业保持良好的战略合作关系。

海角旅游网

海角旅游网由深圳市运通国际旅行社有限公司创办运营于2004年,获得国家旅游局特许旅游经营资质,是一家致力于提供马尔代夫旅游、普吉岛、苏梅岛等海岛旅游的旅行服务提供商。20年来,我们在泰国、香港、马尔代夫、巴厘岛等地区建立了地接服务网络,始终如一为上万家庭的旅途提供保姆级、管家式的旅游服务,深得消费者的信任与喜爱。

有机肥造粒机,圆盘造粒机,对辊挤压造粒机生产厂家

郑州华之强重工是专业生产和研发有机肥造粒机设备和成套有机肥生产线设备的厂家,主要经营新型有机肥造粒机,转鼓造粒机,圆盘造粒机,对辊挤压造粒机,有机肥烘干机,有机肥搅拌机等系列设备,服务热线:18603847333

创企集团官网

创企集团专注于为企业提供公司注册,代理记账,商标注册,财税资讯,工商变更等一站式企业服务,10年企业服务经验,专业化团队办理,咨询热线:400-1617-808

抖云装建站平台,建站模板,网站建设,企业官网,五合一建站平台

抖云装建站平台是专业的企业网站建设模板站,是企业快速建站的快速选择,五合一建站平台,企业网站建设建好网站

全局底部横幅