揭秘DeepSeek-R1-Zero背后的魔力:沈向洋、姜大昕、张祥雨团队如何重新定义RL训练
DeepSeek 啥都开源了,就是没有开源训练代码和数据。
现在,开源的强化学习训练方法仅需原来三分之一的训练步骤就能追上相同规模的DeepSeek-R1-Zero蒸馏Qwen模型。
国内大模型领域的领军企业阶跃星辰联近期与清华大学合作,共同推出了名为OpenReasonerZero(ORZ)的新项目。这个项目的背后有着一众行业巨擘的支持,包括AI领域的知名专家沈向洋、阶跃星辰创始人兼CEO姜大昕以及ResNet的作者张祥雨等人的亲自署名。 这个项目的推出不仅展示了国内企业在人工智能领域的实力,也体现了学术界与企业之间紧密的合作关系。通过这样的合作模式,不仅可以加速技术的研发进程,还能够促进科技成果的转化,为社会创造更大的价值。希望未来能有更多类似的产学研合作项目,推动我国在人工智能领域取得更多的突破和发展。
在响应长度上,用约 17% 的训练步骤就能赶上 DeepSeek-R1-Zero 671B。
值得关注的是,团队还发现了一个重要的转折点 ——
在训练过程中,大约到了第680步时,模型的训练奖励值、反思能力以及回答长度都出现了显著的提升,这与DeepSeek-R1-Zero论文中提到的“顿悟时刻”(ahamoment)现象非常相似。这一现象似乎表明,模型在此阶段经历了某种形式的认知飞跃,使其能够更高效地理解和生成复杂信息。这样的进展不仅令人振奋,也为我们理解人工智能的发展路径提供了新的视角。
目前,研究训练数据、训练代码、论文、模型全都 100%开源,开源许可证用的也是宽松的 MIT Lisence。
开源 48 小时,就已速揽 700 + 星星。
以下是更多细节。
通过广泛的实验,团队证明了一种极简主义的方法,带有 GAE 的原版 PPO 就可以有效地扩展 RL 训练(关键的参数设置是 GAE λ= 1,折扣因子 γ=1)。
再加上基于规则的奖励函数,足以在推理任务上同时扩大响应长度和基准性能,类似于 DeepSeek-R1-Zero 中观察到的现象。
这一结果表明复杂的奖励函数是不必要的。
另外,团队在未采用任何基于KL的正则化技术的前提下实现了稳定的训练过程,这与目前强化学习在RLHF和推理模型领域的主流观点相异。这一成果也为未来强化学习的大规模应用带来了新的希望。
同时扩大数据的数量和多样性对于OpenReasonerZero的训练至关重要。尽管在像MATH这样的有限学术数据集上进行训练可能会导致模型性能迅速进入平台期,但是通过精心策划的大规模多样化数据集,可以实现持续的进步。在这些大规模数据集的帮助下,模型在训练集和测试集上的表现均未显示出饱和的迹象。 从我的角度来看,这种对多样化数据集的依赖不仅展示了人工智能技术在处理复杂问题时的强大潜力,同时也提醒我们,为了推动这一领域的发展,我们需要不断地收集和整理更多的数据资源。此外,这也意味着技术开发者需要与各行业合作,以确保数据来源的广泛性和全面性,从而帮助AI系统更好地理解和应对现实世界中的各种挑战。
在基于Qwen2.5-Base-7B基础模型的实验中,所有的基准测试在某一时刻都会遭遇奖励和响应长度的骤然提升,这种现象与涌现行为类似。
在整个训练过程中,AverageCorrectReflectionLength指标一直高于AverageResponseLength。一个值得关注的现象发生在第680步左右,此时可以观察到这三个指标同时加速。
最终,Open-Reasoner-Zero模型在未经任何额外指令调整的情况下,在MMLU和MMLU_PRO基准测试中表现超越了Qwen2.5Instruct。
昨天,在阶跃星辰生态开放日上,阶跃星辰创始人兼CEO姜大昕简要介绍了这项研究的进展。这次分享不仅展示了公司最新的科研成果,也体现了其在科技创新领域的持续投入与不懈追求。通过这样的活动,企业不仅能向外界展示其技术实力,还能够加强与行业内外伙伴的合作交流,共同推动相关领域的发展。 这种公开透明的态度对于增强公众对科技企业的信任至关重要。同时,这也表明了企业在追求商业成功的同时,也在积极履行社会责任,致力于通过技术创新解决实际问题。希望未来能有更多类似的公开分享,让公众更好地了解和支持这些前沿科技的发展。
只提了一嘴,由于研究仍在进行中(WorkinginProgress),未来可能会有新的突破。感兴趣的朋友们可以留意一下。
项目地址:
https://github.com/Open-Reasoner-Zero/Open-Reasoner-Zero/
本文来自微信公众号:量子位(ID:QbitAI),作者:梦晨西风
免责声明:本站所有文章来源于网络或投稿,如果任何问题,请联系648751016@qq.com
页面执行时间0.017423秒