豆包大模型团队开源RLHF框架 2025 EuroSys 相关论文已入选学术顶会 (豆包大模型团队开源rlhf框架)
强化学习(RL)对大模型复杂推理能力提升有关键作用,但其复杂的计算流程对训练和部署也带来了巨大挑战。
近日,字节跳动豆包大模型团队与香港大学联合提出 HybridFlow。这是一个灵活高效的 RL/RLHF 框架,可显著提升训练吞吐量,降低开发和维护复杂度。实验结果表明,HybridFlow 在各种模型规模和 RL 算法下,训练吞吐量相比其他框架提升了 1.5 倍至 20 倍。
在大模型后训练(Post-Training)阶段引入 RL 方法,已成为提升模型质量和对齐人类偏好的重要手段。然而,随着模型规模的不断扩大,RL 算法在大模型训练中面临着灵活性和性能的双重挑战。传统的 RL/RLHF 系统在灵活性和效率方面存在不足,难以适应不断涌现的新算法需求,无法充分发挥大模型潜力。
据豆包大模型团队介绍,HybridFlow 采用混合编程模型,将单控制器的灵活性与多控制器的高效性相结合,解耦了控制流和计算流。基于 Ray 的分布式编程、动态计算图、异构调度能力,通过封装单模型的分布式计算、统一模型间的数据切分,以及支持异步 RL 控制流,HybridFlow 能够高效地实现和执行各种 RL 算法,复用计算模块和支持不同的模型部署方式,大大提升了系统的灵活性和开发效率。
实验结果显示,无论 PPO 、ReMax 还是 Safe-RLHF 算法,HybridFlow 在所有模型规模下平均训练吞吐量均大幅领先于其他框架,提升幅度在 1.5 倍至 20 倍之间。随着 GPU 集群规模扩大,HybridFlow 吞吐量也获得良好扩展。这得益于其灵活的模型部署,充分利用硬件资源,实现高效并行计算。同时,HybridFlow 能够支持多种分布式并行框架(Megatron-LM 、FSDP 、vLLM ),满足不同模型规模的计算需求。
随着 o1 模型诞生,大模型 Reasoning 能力和 RL 愈发受到业界关注。豆包大模型团队表示,将继续围绕相关场景进行探索和实验。
了解到,目前,HybridFlow 研究论文已入选学术顶会 EuroSys 2025,代码也已对外开源。
原创文章,未经授权禁止转载。详情见 转载须知 。
杭州金木水火土建筑设计有限公司于朕,1981年出生于辽宁大连。2004年毕业于中国美院工业设计系获学士学位,2008年毕业于中国美院建筑学院获硕士学位,任教于中国美院。于朕目前是英国皇家建筑师学会(RIBA)会员,美国人工智能与艺术学会会士,中国文旅部双创产业重点人才。于朕主要学术研究领域为空间实验艺术、建筑设计与人工智能交互系统控制,主持设计了《御湖山房》六星酒店、《璞意》中国国电办公楼、《乔林养山》灵修度假村、Weierni时尚艺术购物中心、《引园》中国台绣创意产业园等建筑科艺融合等项目。于朕通过智能化建筑、空间交互装置等创作方式将空间实验观念植入实际的项目中,又将建筑单元作为内核,去解码运算空间和现实宇宙。2019年,于朕空间交互作品《2059.Regeneration》入围AAIAAAWARD大奖,建筑设计作品《不负如来肉食艺术研究所》入围