豆包大模型团队开源RLHF框架 2025 EuroSys 相关论文已入选学术顶会 (豆包大模型团队开源rlhf框架)

文章编号：36916 资讯动态 2024-11-30 AI 大模型豆包

强化学习（RL）对大模型复杂推理能力提升有关键作用，但其复杂的计算流程对训练和部署也带来了巨大挑战。

近日，字节跳动豆包大模型团队与香港大学联合提出 HybridFlow。这是一个灵活高效的 RL/RLHF 框架，可显著提升训练吞吐量，降低开发和维护复杂度。实验结果表明，HybridFlow 在各种模型规模和 RL 算法下，训练吞吐量相比其他框架提升了 1.5 倍至 20 倍。

在大模型后训练（Post-Training）阶段引入 RL 方法，已成为提升模型质量和对齐人类偏好的重要手段。然而，随着模型规模的不断扩大，RL 算法在大模型训练中面临着灵活性和性能的双重挑战。传统的 RL/RLHF 系统在灵活性和效率方面存在不足，难以适应不断涌现的新算法需求，无法充分发挥大模型潜力。

据豆包大模型团队介绍，HybridFlow 采用混合编程模型，将单控制器的灵活性与多控制器的高效性相结合，解耦了控制流和计算流。基于 Ray 的分布式编程、动态计算图、异构调度能力，通过封装单模型的分布式计算、统一模型间的数据切分，以及支持异步 RL 控制流，HybridFlow 能够高效地实现和执行各种 RL 算法，复用计算模块和支持不同的模型部署方式，大大提升了系统的灵活性和开发效率。

实验结果显示，无论 PPO 、Remax 还是 Safe-RLHF 算法，HybridFlow 在所有模型规模下平均训练吞吐量均大幅领先于其他框架，提升幅度在 1.5 倍至 20 倍之间。随着 GPU 集群规模扩大，HybridFlow 吞吐量也获得良好扩展。这得益于其灵活的模型部署，充分利用硬件资源，实现高效并行计算。同时，HybridFlow 能够支持多种分布式并行框架（Megatron-LM 、FSDP 、vLLM ），满足不同模型规模的计算需求。

随着 o1 模型诞生，大模型 Reasoning 能力和 RL 愈发受到业界关注。豆包大模型团队表示，将继续围绕相关场景进行探索和实验。

了解到，目前，HybridFlow 研究论文已入选学术顶会 EuroSys 2025，代码也已对外开源。

原创文章，未经授权禁止转载。详情见转载须知。

豆包大模型团队开源RLHF框架，相关论文已入选顶会 EuroSys 2025

谷普下载提醒您

本文链接：http://www.gpxz.com/article/d5b8af7cec077dbcc32e.html

上一篇：火山引擎飞连帮助企业办公智能提效基于豆包

下一篇：AI刷题豆包MarsCode上线助力开发者提升编程

百度健康

健康医疗 2023-08-12 00:12:19

1月20日16周年庆典

《QQ飞车》是首款腾讯自主研发的竞速类休闲网络游戏，底层架构基于世界领先的物理引擎PhysX，游戏手感全面超越市场同类产品，全力为用户打造逼真的驾驶体验；3D时尚人物造型、古朴潮流幻想的赛道主题、第三人称尾随视角，力求为用户营造身历其境的感觉。在2011年的5月，最高同时在线帐户数突破300万，乃中国网游史上第九款同时在线冲破百万大关的产品，并为全球游戏市场奉献了第一款同时在线破百万的竞速类网络游戏，同时，也使腾讯拥有了第一款同时在线破百万的自主研发产品。

电影视频 2024-01-15 01:47:10

内外墙涂料

泰祥集团始建于1995年下属12家分公司，2020年12月注册成立泰华工业涂料（广东）有限公司，属自有资产、注册资金1000万，证照齐全，是一间园林式现代化的化工企业，服务员工超过500人，公司占地面积73326万平方米，固定资产1.5亿元。本公司依托泰祥集团技术实力与国内多家化工院校合作，已成功研发出可替代油性涂料的环保水性功能性涂料，并已成功投入市场运用中，本公司的水性涂料品种多而优，广泛运用于3c家电，汽车，建材，通信，机械设备等领域，其中voc排放含量已经远远低于环保标准，本公司现已发展成为集科研、生产、销售、于一体的综合型化工企业，公司已通过ISO9001质量管理体系认证，ISO14001环境管理体系认证。

商业服务 2024-07-04 20:20:03

河南省建筑设计研究院有限公司

设计美化 2024-07-04 20:40:11

抖音精选

海量优质视频内容，每次打开都有新收获。

电影视频 2024-07-06 21:19:27

东南大学成贤学院

东南大学成贤学院（SoutheastUniversityChengxianCollege），简称东大成贤，始创于1998年，2003年经教育部批准更用现名。坐落于南京市，是经国家教育部批准成立的全日制普通本科高校，由“985”“211”重点建设高校——东南大学在培养高水平应用型人才、服务国家和社会经济发展层面，用全新的办学理念和运行模式举办的独立学院。

网络应用 2024-11-17 05:24:35

海涛知识网

海涛知识网专业的门户信息网站,涵盖了|生活|科技|房产|互联网|汽车信息与一站的综合性专门户网站。

互联资讯 2024-11-17 18:45:45

囍福

囍福，世界黄金协会旗下品牌，创立于2003年，以领先国际的卓越品质、非凡的文化格调，坚持为中国传统婚恋金饰注入跨越时间、永世传承的艺术生命，成为全球华人信赖的高端结婚金饰品牌。

网站模板 2024-11-18 22:57:45

兼职网

1010兼职网是领先的兼职招聘网站,提供网上兼职、大学生兼职、周末兼职、促销派发、家教、实习、在家兼职、网上赚钱、临时工等,免费发布招聘信息、查找兼职工作。

网站模板 2024-12-04 00:49:40

郑州市第十一中学

郑州市第十一中学，河南省首批示范性高中。

网站模板 2025-02-07 23:53:06

QPQ氮化盐,基盐再生盐,热处理用盐,软氮化,低温化学热处理

安丘市亚兴热处理有限公司热处理材料,QPQ氮化盐,基盐再生盐,热处理用盐,软氮化,低温化学热处理

电影视频 2025-02-15 17:23:48

水清见鱼

电影视频 2025-03-04 21:13:22

中国人工智能安防峰会如何突破信息茧房 AI 第四届落地的道与术透视场景化 (中国人工智能app排行榜前十名)

1667年末的一天，约3000盏灯一齐照亮巴黎夜色，对很多人来说，那个时刻似乎是一种姿态，象征巴黎已经面目一新，达到更高的境界，巴黎，现代城市的发明，一书中，向后人展示了巴黎如何一步步从边陲小镇变为现代城市，17世纪的巴黎，实现了三个第一，第一个公共邮政系统、第一个公共交通系统、第一个街道照明系统，前所未闻的市政服务投入和生活理...。

2025-02-01 15:19:39

比亚迪被曝校招等级划分明显官方否认；传前海思高管跳槽联发科；腾讯股权激励落地普通高校年薪8万雷峰早报 C9院校最高27万 (网传比亚迪)

比亚迪被曝校招薪资等级划分明显，清华北大等学生年薪最高27万元，官方回应，信息不实，薪资保密近日网上曝光了一份比亚迪校招薪资标准表，薪资表分4档16类，其中4档分为普通院校、211院校、985院校及C9院校，包括北京大学、清华大学、哈尔滨工业大学、复旦大学、上海交通大学、南京大学、浙江大学、中国科学技术大学、西安交通大学，，每档按本科...。

2024-12-03 16:29:40

微创医疗机器人拟登科创板 (微创医疗机器人)

雷锋网消息，据IPO早知道报道，上海微创医疗机器人，集团，股份有限公司已于2020年12月31日同中金公司签署上市辅导协议，拟科创板挂牌上市，2020年12月21日，，微创系，的微创电生理与华泰联合证券签署上市辅导协议，同样计划登陆科创板，稍早之前的2020年11月6日，微创心通已正式向港交所递表拟主板挂牌上市，据，IPO早知道，独家...。

2024-11-30 21:10:46

以网商银行战略升级为第二增长曲线管钱难解决小微商家交易银行 (网商银行战略调整)

在当前经济环境复杂、信贷业务增速较缓的背景下，头部互联网银行已经开始从信贷为主的第一阶段，转向围绕，财富管理，，探索第二增长曲线，消息，近期网商银行在成立九周年之际，首次对外解读了其，交易银行，战略，网商银行行长冯亮在接受采访时表示，交易银行是网商银行的第二增长曲线，网商银行不仅要成为小微‘信贷专家，，也要成为小微‘资金管理专...。

2024-11-30 17:17:54

芙蓉超市加盟要什么条件 (芙蓉超市加盟一共下来要多少钱)

某些连锁超市的商品价格便宜，且有着不错的质量，所以很多消费者都会光顾连锁超市，一些连锁超市有加盟制度，若是青年创业者打算开超市，可以申请加盟这些超市，在多个连锁超市品牌当中，芙蓉超市的商品价格是相对较低的，因此，其获得了部分中下层民众的青睐，目前，它允许别人加盟，但是它对加盟者是有要求的，那么，芙蓉超市加盟要什么条件呢，芙蓉超市加盟要...。

2024-11-22 21:41:31

广告行业小白一枚求问怎么手工丝印 (广告行业小白从哪里入手)

1、预备在纸板上画出想要的图案，如图所示，2、用小尖刀给挖进去，留意不要把纸板弄坏，如图所示，3、接上去把挖进去的图案粘到印花的衣服上，如图所示，4、用毛刷沾染料，对着挖好的图案，涂抹在衣服上，如图所示，5、而后就是依据顺序，依次依照涂抹即可，如图所示，6、最后，涂抹完结，衣服印花就好了，如图所示，金属拉丝件上丝印LOGO，LOGO会...。

2024-07-07 09:16:55

看看哪个更贵更炫揭秘十大豪车品牌排行榜 (哪个更贵用英语怎么说)

豪车不时是许多人奢侈幻想的意味，随着人们生存水平的不时提高，领有一辆豪车也已成为小康以上家庭的必备生存装备，那么，在泛滥的豪车品牌中，哪些车品愈加贵气炫酷呢，上方就来看看最受欢迎的十大豪车品牌排行榜，第一名，保时捷保时捷是环球顶级的奢侈汽车品牌，从创立至今，保时捷仰仗其出色的质量与功能赢得了环球汽车市场的宽泛认可，并成为各界人士追赶的...。

2024-07-03 01:21:15

奥迪a31.4t最低配值得买吗 (奥迪a31.4t报价及图片)

一款奥迪的经典车型，A31.4T基本款性价比还是很高的，不过，能否值得购置还要依据团体需求和估算来判别，假设您是经济适用型的生产者，器重基础性能和能源输入，那么A31.4T的最低配版本或者会是不错的选用，但假设您器重奢侈、科技性能和驾驶体验，或者须要选用更高性能的版本或其余车型，综合来看，倡导依据自己的实践需求和估算，启动选车，奥迪a...。

2024-07-02 23:35:03

驱动人生破解版下载-驱动人生VIP破解版v8.11.60.192免费版

驱动人生VIP破解版是一款非常专业的驱动安装解决软件该版本破解VIP极速下载权限，无需开通会员，就能解除限速，永久免费使用。

2023-11-04 11:15:37

一直播怎么改昵称一直播改昵称教程介绍

一直播app是一款很火爆的直播软件，很多用户下载了一直播之后，想要改昵称可是不知道要怎么改，下面2265小编来告诉大家要怎么改昵称，其实方法很简单，点击首页的右下角图标就可以开始修改昵称了。第一步：下载了一直播之后，点击首页右下角图标，如图所示：

2023-10-11 02:11:31

网友医院偶遇刘亦菲拍戏：怀抱小孩好温柔，抬眸好美！|霍建华|林更新

网友在医院偶遇刘亦菲

2023-09-19 01:00:36

12306bypass手机版下载-12306bypass分流抢票安卓版v火车票生活出行电商应用订票智行火车票12306购票

12306bypass手机版下载-12306bypass分流抢票手机版是一款帮你快速抢到票的神器。使用12306bypass官方版能全时间帮你自动抢票，只能抢票系统先抢票再付款，过年过节必备的抢票神器，您可以免费下载安卓手机12306bypass分流抢票。

2023-08-11 14:54:53

文章推荐

街电充电桩的发展如何是新的行业吗 (街电充电桩的弊端和风险)

新能源行业在当前市场上发展速度是越来越快，电瓶车成为人们短途出行的理想选择，节能环保，还能避免出现交通堵塞的情况，电瓶车在使用之后，需要补充电量，充电桩是小区中常见的设备，为人们充电提供了便利，为出行提供了便利，街电充电桩在多年市场运营中，有着清晰市场定位，强大品牌实力，市场地位高，那么街电充电桩的发展如何，是新行业吗，街电充电桩的发...。

2025-01-15 22:39:51

创业加盟

智造大会2024在杭成功召开共绘智能制造新篇章 (智造大会2024主峰会超燃回顾)

4月11日上午，智造大会2024主峰会在杭州成功召开，这是一场面向智能制造与商业流通领域的行业盛会，浙江省人大常委会党组副书记、副主任高兴夫出席并致辞，中国工程院院士、国家智能制造专家委员会主任委员李培根作专家报告，海康机器人首席执行官贾永华、海康威视高级副总裁徐习明、海康机器人副总裁张文聪、吴永海出席，并作主题演讲，本届大会以，让机...。

2024-11-30 19:17:41

资讯动态

解锁多模态大模型大模型港中文贾佳亚团队提出 LISA 推理分割能力 (多模态界面)

当前的视觉识别系统都依赖人类用户明确指代目标物体或预先设定识别类别，进而进行识别，它们仍然只能处理简单明确的指令，如，橙子，，而无法解析相对隐式和复杂的指令，如在下图中指出，维生素C含量高的食物，而真正的智能感知系统应该根据用户指令推理其真实意图，例如，在指示机器人时，人们往往倾向于直接给一个指令，我想要看电视，，而不是分几个步...。

2024-11-30 18:12:35

资讯动态

峰米R1优缺点有哪些?超短焦适合家用吗 (峰米r1nano)

发表在峰米投影仪2021，11，2014，03一到家马上马不停蹄的拿出来试，我是参观光峰科技公司后，才了解到这么好的东西，峰米R1整体还是较为满意的，放在客厅卧室刚好合适，像个电影院一样，不过，刚用感觉蛮惊艳的，就是，摆放的位置有点尴尬，需要拿个板凳放在上面，板凳得放在电视柜前面，不看的时候老是要收起来，不然占位置，久了就不想拿出...。

2024-11-28 22:13:21

网络百科

看尚电视V43SD160通过其他方法安装软件教程 (看尚电视v43开机慢一会黑屏了怎么回事)

自带的，奇异果TV，，然后在应用推荐里找到，一键清理TV版，并下载安装；二、安装完成后会提示版本更新，再选择前往当贝市场更新，下载完成后，最后安装当贝市场即可；当贝市场安装好之后，就可以随意在里面安装你需要的第三方直播、点播、游戏等应用，例如，安装软件教程，如有疑问，欢迎加入当贝市场教程中心14群，548102055，交流咨询！更多看...。

2024-11-25 15:45:25

技术教程

豆包大模型团队开源RLHF框架 2025 EuroSys 相关论文已入选学术顶会 (豆包大模型团队开源rlhf框架)

相关文章

文章推荐