全球首创能用4090推理昆仑万维开源2千亿稀疏大模型天工MoE (全球首创用英语怎么说)

文章编号：36688 资讯动态 2024-11-30 昆仑万维 4090推理大模型天工MoE

昆仑万维开源2千亿稀疏大模型天工MoE，全球首创能用4090推理

2024年6月3日，昆仑万维宣布开源 2 千亿稀疏大模型 Skywork-MoE ，性能强劲，同时推理成本更低。Skywork-MoE 基于之前昆仑万维开源的 Skywork-13B 模型中间 checkpoint 扩展而来，是 首个完整将 MoE Upcycling 技术应用并落地的开源千亿 MoE大模型，也是首个支持用单台 4090 服务器推理的开源千亿 MoE大模型。

开源地址：

Skywork-MoE 的模型权重、技术报告完全开源，免费商用，无需申请：

•模型权重下载：

•模型开源仓库：

•模型技术报告：

•模型推理代码：（支持 8x4090 服务器上 8 bit 量化加载推理）

模型架构：

本次开源的 Skywork-MoE 模型隶属于天工 3.0 的研发模型系列，是其中的中档大小模型（Skywork-MoE-Medium），模型的总参数量为 146B，激活参数量 22B，共有 16 个 Expert，每个 Expert 大小为 13B，每次激活其中的 2 个 Expert。

天工 3.0 还训练了 75B （Skywork-MoE-Small）和 400B （Skywork-MoE-Large）两档 MoE 模型，并不在此次开源之列。

模型能力：

我们基于目前各大主流模型评测榜单评测了 Skywork-MoE，在相同的激活参数量 20B（推理计算量）下，Skywork-MoE 能力在行业前列，接近 70B 的 Dense 模型。使得模型的推理成本有近 3 倍的下降。同时 Skywork-MoE 的总参数大小比 DeepSeekV2 的总参数大小要小 1/3，用更小的参数规模做到了相近的能力。

昆仑万维开源2千亿稀疏大模型天工MoE，全球首创能用4090推理

技术创新：

为了解决 MoE 模型训练困难，泛化性能差的问题，相较于 Mixtral-MoE， Skywork-MoE 设计了两种训练优化算法：

1.Gating Logits 归一化操作

我们在 Gating Layer 的 token 分发逻辑处新增了一个 normalization 操作，使得 Gating Layer 的参数学习更加趋向于被选中的 TOP-2 experts，增加 MoE 模型对于 top-2 的置信度：

昆仑万维开源2千亿稀疏大模型天工MoE，全球首创能用4090推理

2.自适应的 Aux Loss

有别于传统的固定系数（固定超参）的 aux loss，我们在 MoE 训练的不同阶段让模型自适应的选择合适的 aux loss 超参系数，从而让 Drop Token Rate 保持在合适的区间内，既能做到 expert 分发的平衡，又能让 expert 学习具备差异化，从而提升模型整体的性能和泛化水平。在 MoE 训练的前期，由于参数学习不到位，导致 Drop Token Rate 太高（token 分布差异太大），此时需要较大的 aux loss 帮助 token load balance；在 MoE 训练的后期，我们希望 Expert 之间仍保证一定的区分度，避免 Gating 倾向为随机分发 Token，因此需要较低的 aux loss 降低纠偏。

昆仑万维开源2千亿稀疏大模型天工MoE，全球首创能用4090推理

训练 Infra

如何对 MoE 模型高效的进行大规模分布式训练是一个有难度的挑战，目前社区还没有一个最佳实践。Skywork-MoE 提出了两个重要的并行优化设计，从而在千卡集群上实现了 MFU 38% 的训练吞吐，其中 MFU 以 22B 的激活参数计算理论计算量。

1. Expert>

一个最简单的 EDP 的例子，两卡情况下 TP = 2， EP = 2，其中 Attention 部分采用 Tensor Parallel ， Expert 部分采用 Expert Parallel

2.非均匀切分流水并行

由于 first stage 的 Embedding 计算和 last stage 的 Loss 计算，以及 Pipeline Buffer 的存在，流水并行下均匀切分 Layer 时的各 stage 计算负载和显存负载均有较明显的不均衡情况。我们提出了非均匀的流水并行切分和重计算 Layer 分配方式，使得总体的计算/显存负载更均衡，约有 10% 左右的端到端训练吞吐提升。

昆仑万维开源2千亿稀疏大模型天工MoE，全球首创能用4090推理

比较均匀切分和非均匀切分下的流水并行气泡：对于一个 24 层 Layer 的 LLM， (a) 是均匀切分成 4 个 stage，每个 stage 的 layer 数量是：[6, 6, 6, 6].(b) 是经过优化后的非均匀切分方式，切成 5 个 stage，每个 stage 的 layer 数量是：[5, 5, 5, 5, 4] ，在中间流水打满的阶段，非均匀切分的气泡更低。

MoE Know-how

此外，Skywork-MoE 还通过一系列基于 Scaling Laws 的实验，探究哪些约束会影响 Upcycling 和 From Scratch 训练 MoE 模型的好坏。

昆仑万维开源2千亿稀疏大模型天工MoE，全球首创能用4090推理

一个可以遵循的经验规则是：如果训练 MoE 模型的 FLOPs 是训练 Dense 模型的 2 倍以上，那么选择 from Scratch 训练 MoE 会更好，否则的话，选择 Upcycling 训练 MoE 可以明显减少训练成本。

4090 推理

Skywork-MoE 是目前能在 8x4090 服务器上推理的最大的开源 MoE 模型。8x4090 服务器一共有 192GB 的 GPU 显存，在 FP8 量化下（weight 占用 146GB），使用我们首创的非均匀 Tensor Parallel 并行推理方式，Skywork-MoE 可以在合适的 batch size 内达到 2200 tokens/s 的吞吐。天工团队完整开源了相关的推理框架代码和安装环境，详情参见：

结语

我们希望本次开源的 Skywork-MoE 模型、技术报告和相关的实验结果可以给开源社区贡献更多的 MoE 训练经验和 Know-how，包括模型结构、超参选择、训练技巧、训练推理加速等各方面，探索用更低的训练推理成本训更大更强的模型，在通往 AGI 的道路上贡献一点力量。

版权文章，未经授权禁止转载。详情见转载须知。

谷普下载提醒您

本文链接：http://www.gpxz.com/article/fa86e338dcad60ef4090.html

上一篇：高通柯诗亚AI有望成为推动6G持续发展的一大

下一篇：花旗中国被曝裁员赔偿N6有员工拿到50万赔偿

赢商网

赢商网汇集城市综合体、购物中心、社区商业、商业街、奥特莱斯、旅游地产最新资讯，依托于分布全国的专业采编团队、强大的行业资源和数据优势，致力于为中国商业地产和零售商业提供快速深入的资讯和行业研究服务。

新闻资讯 2024-09-15 00:05:49

学习小游戏,儿童学习小游戏,学习小游戏大全,4399小游戏

4399儿童学习小游戏大全收录国内外儿童学习益智游戏、儿童学习教育游戏、在线学习类小游戏等。好玩就拉朋友们一起来玩吧！

游戏网游 2024-08-16 23:01:43

【发表网】杂志发表平台网站

发表云网(fabiao.com.cn)具有多年杂志订阅经验,主要从事期刊推荐,杂志订阅等服务,公司已合法取得《出版物经营许可证》等相关牌照，依法从事期刊订阅和学术增值服务。

网站模板 2024-07-04 00:30:33

生物在线

生物在线，生物谷网站旗下生物科研服务专业平台，生物在线围绕生物医药科研和开发领域，提供从各种仪器，试剂，耗材等产品，到技术服务方案等综合服务体系

编程开发 2024-07-11 13:30:52

上海晶美创新型材料有限公司

科技创新 2024-08-09 18:12:31

武汉绿色建筑材料

一家绿色建筑材料、新型保温材料、节能、环保材料研发生产、销售及钢结构工程设计、制作、施工的专业化公司

设计美化 2024-08-17 22:57:15

车载CT出租

迈迈车载CT体检车租赁平台有移动CT体检车出租，DR体检车出租，健康体检车出租，医疗车出租

健康医疗 2024-08-17 23:32:21

安全阀,

中百阀门有限公司是国内专业生产中百阀门有限公司,安全阀,弹簧式安全阀的厂家。公司所生产的中百阀门有限公司,安全阀,弹簧式安全阀质优价廉，远销多个国家和地区。

安全杀毒 2024-08-18 00:28:34

成都心理诊所

成都神经专科医院,成都哪些医院有心理专科,成都较好的心理医生在哪里成都心理医生一般收费多少?成都棕南心理咨询中心汇集丰富经验的心理咨询专家，擅长各种青少年心理,儿童心理,心理表现,家庭问题,孩子教育,职场人际,个人成长,团体咨询,心理疏导,家庭咨询,危机干预,情绪问题,家庭关系,职场社交。

社交直播 2024-08-18 13:27:20

淘壶人

淘壶人系茶品类和收藏类的综合平台，提供宜兴紫砂壶、瓷器、建盏、银壶、铜器和茶叶等，并且销售收藏级别的老白茶、普洱茶等。平台开设有学堂、名家、百科等多个权威频道，提供职称、名人录等方便查阅。

收藏爱好 2024-11-18 01:26:01

VICKERS电磁阀,VICKERS溢流阀,ATOS比例阀,HYDAC压力继电器

东莞市广联自动化科技有限公司是专业的VICKERS电磁阀,VICKERS溢流阀,ATOS比例阀,HYDAC压力继电器供应商，主营产品有：VICKERS电磁阀,VICKERS溢流阀,ATOS比例阀,HYDAC压力继电器等,东莞市广联自动化科技有限公司不仅具有专业的技术水平，更有良好的售后服务和优质的解决方案,欢迎来电洽谈

商业服务 2025-02-07 19:00:39

在线学习,上文都网校

【文都网校】在线学习,上文都网校,文都教育旗下在线学习平台，提供考研辅导课程、英语四六级、国家医学考试、卫生职称、建筑工程考试、公务员教师等在线网络课程学习、培训辅导班以及相关视频资料。

电影视频 2025-02-08 03:08:06

百度人工翻译涉嫌抄袭百度又中枪 (百度人工翻译价格)

最近百度真的是事情不断啊，2016年7月6日上线的百度人工翻译才几天，有道人工翻译就声明，百度人工翻译界面设计、服务流程和页面文案大量剽窃我们，有的地方相似度高达95%，请百度立即下线所有抄袭页面，公开向有道人工翻译致歉，从有道提供的资料来看，界面、文案等几乎完全一样，百度怎么开始跟腾讯一个尿性了呢，2个月前，大众点评起诉百度抄袭，自...。

2025-02-01 23:15:31

小米自研的充电芯片是否值得OV加码 (小米自研充电桩)

2021年，国内手机厂商们自研芯片已不足为奇，不久前vivo和OPPO都推出了影像处理芯片，而小米也在推出自研ISP之后，又瞄准新方向，在本周二的小米12系列发布会上，小米官宣了其自研的第三块芯片——澎湃P1，雷军在发布会上表示，小米12Pro中包含小米自研的两颗充电芯片，采用120w单电芯充电方案，历时18个月，经多地联合研发，填补...。

2024-12-10 00:04:06

豆包视频生成大模型正式发布首次突破多主体互动难关 (豆包视频生成怎么弄)

字节跳动正式宣告进军AI视频生成，9月24日，字节跳动旗下火山引擎在深圳举办AI创新巡展，一举发布了豆包视频生成，PixelDance、豆包视频生成，Seaweed两款大模型，面向企业市场开启邀测，活动现场展示的视频生成效果令人惊叹，无论是语义理解能力，多个主体运动的复杂交互画面，还是多镜头切换的内容一致性，豆包视频生成大模型均达到业...。

2024-11-30 17:57:45

浙江移动九联UNT400B通过TV盒子助手安装软件教程 (浙江移动九联403A)

浙江移动九联UNT400B免拆机破解安装软件看直播教程准备工具，USB插口的键盘、TV盒子助手当贝市场，http，dlap1.dbkan.com，update，dangbeimarket.apk当贝桌面，http，www.dangbei.com，zhuomian，TV盒子助手，http，www.cnhezi.com，具体方...。

2024-11-25 18:53:35

知情人士称微信与iPhone不用“2选1”但“苹果税”博弈还在继续,微信,腾讯,ios,苹果税,apple,iphone,开发者测试版

2024-09-03 14:04:07

莲花l5用了什么发起机 (莲花l5评测)

莲花l5搭载1.5L版本发起机，发起机型号为4G93M，4G93M型号发起机的实践排量为1834ml，共有4个气缸，陈列方式为L，进气方式为人造吸气，4G93M型号发起机的缸径为81mm，行程为89mm，紧缩比为10.5，配气机构为DOHC，4G93M型号发起机最大功率下的转速为6500转，最大扭矩下的转速为4800转，4G93M型号...。

2024-07-16 06:48:44

天蝎座性情 (天蝎座性情暧昧,既高傲又胆怯,既温情又冷酷)

冥王星是天蝎座的守护星，主持着幽冥环球，所以天蝎座具备奥秘的特质，令人变得严酷阴险，是一个十分风险的星座，同时他们精神旺盛，乐于迎接生命中的种种应战，甚至或者会对危机上瘾，宿愿取得真正的转化和变质，天蝎座外表往往看起来很缄默，然而却依然分发着一种性感而且强势的气场，一、天蝎座的特点1、引而不发天蝎座对人生有着剧烈的留恋和冀望，盼望权益...。

2024-07-10 04:42:15

【广西灵山】走进荔枝之乡，采摘千年古荔_重庆渝帆

【广西灵山】走进荔枝之乡，采摘千年古荔_重庆渝帆_新浪博客,重庆渝帆,

2023-11-12 03:28:32

银河证券海王星金融终端-炒股软件-银河证券海王星金融终端下载v11.09官方版

银河证券海王星金融终端是银河证券的海王星合一版本，软件涵盖多种海王星功能并且可以无需登录看实时行情，银河证券海王星金融终端软件具有覆盖面广、界面自由切换、云服务等特点，能够帮助银河证券的用户更好的进行看股炒股工作,您可以免费下载。完美下载为您准备了“银河证券海王星金融终端”，欢迎大家前来下载使用

2023-10-18 01:46:19

传奇世界Ⅱ-奇幻动作类MMORPG网络游戏-传奇世界Ⅱ下载v1.0.0.5正式版

传奇世界Ⅱ是盛大游戏推出的PK网游王者之作，游戏革命性推出修真四维职业体系，在战、法、道经典三职业基础上，首次推出“妖士“第四职业，并将战场扩张到了深海和天空，玩家将在更为广阔世界里体验史诗般的修真之旅。完美下载为您准备了“传奇世界Ⅱ”，欢迎大家前来下载使用

2023-10-18 00:53:05

文章推荐

第一次百度首次发布愿景 (第一次百度首页怎么进)

日前，百度公司董事长李彦宏发布内部信，明确百度公司愿景，成为最懂用户，并能帮助人们成长的全球顶级高科技公司，这是百度历史上首次发布愿景，李彦宏表示，这24个字将上承新使命、下展公司，夯实移动基础、决胜AI时代，的整体战略，锚定百度在未来的新坐标——不仅是聚焦用户、成就他人的百度，也是立足全球、有所作为的百度，以下为李彦宏内部信原文，亲...。

2025-01-30 22:44:24

网络百科

除了社交支付宝圈子还在说一个更大的故事 (除了社交支付还有什么)

一场关于支付宝新功能，圈子，的争议悄然来临，其中校园日记仅允许女性用户发布内容，更是引发了讨论的狂潮，支付宝此次试水社交看上去终于找到了突破口，支付宝圈子和微信红包，社交支付的一场暗战其实支付宝并不是这两天才推出的，圈子，，但由于，校园日记，和，白领日记，两个圈子的火爆，让此次支付宝处在了风口浪尖之上，然而刨除争议，此次的营销对支付宝...。

2024-12-09 23:16:54

资讯动态

2019新品趋势盘点今年机器人大热 CES (2019新品望远镜排行榜)

截至美国时间1月11日，今年的CES已经接近尾声了，和往年一样，为了给，广大群众，留下深刻的印象，大部分厂商都把自家，重头戏，放在了开幕前夕或者开展的第一天，值得注意的是，无论是从厂商展品介绍，还是国内外一线媒体报道，雷锋网了解到，场景化概念已经深得人心，目前比较明确的是，路、车、家三大场景，尤其后两大场景路线已然清晰可见，那么，CE...。

2024-12-03 22:19:37

资讯动态

2021年5G加速普及的关键是什么 (2021年5月20日是什么星座)

十年一个G，说的是过去40年移动通信技术从1G到4G大约每十年完成一次代际演进，如今，5G的发展速度前所未见，5G部署的最初18个月，全球推出5G服务的运营商是4G时代的5倍，中国5G牌照发放的18个月后，国内就实现了超过1.8亿个5G终端连接数，骁龙8系产品向来是旗舰产品的风向标，顶级移动体验的基准台，12月1日，高通发布最新一代旗...。

2024-12-01 00:51:18

资讯动态

平安人寿CTO钟捷出任总助 CEO陈立明离职平安科技人事大调整 (平安人寿成立于1988年)

2020步入最后一个季度，平安的高层调整似乎仍在继续，雷锋网AI金融评论注意到，平安科技的高层阵容近期悄然生变，CEO陈立明、副总经理李奕光、CTO兼总架构师方国伟目前均已不在官网的管理团队名单当中，总经理助理一职由平安人寿CTO钟捷再次出任，与上半年的高管阵容相比，平安科技还新增了黄宇翔出任总经理，有媒体报道称，前CEO陈立明已于9...。

2024-11-30 19:52:26

资讯动态

全球首创能用4090推理 昆仑万维开源2千亿稀疏大模型天工MoE (全球首创用英语怎么说)

相关文章

文章推荐

全球首创能用4090推理昆仑万维开源2千亿稀疏大模型天工MoE (全球首创用英语怎么说)