首页 > 电脑软件
2025
02-22

探索未来:复刻DeepSeek-R1-Zero,揭秘沈向洋姜大昕张祥雨团队的RL训练奥秘

电脑软件
jinting
围观1415次
0条评论
发布日期:2025年02月22日 18:01:06

探索未来:复刻DeepSeek-R1-Zero,揭秘沈向洋姜大昕张祥雨团队的RL训练奥秘

揭秘DeepSeek-R1-Zero背后的魔力:沈向洋、姜大昕、张祥雨团队如何重新定义RL训练

   DeepSeek 啥都开源了,就是没有开源训练代码和数据。

   现在,开源的强化学习训练方法仅需原来三分之一的训练步骤就能追上相同规模的DeepSeek-R1-Zero蒸馏Qwen模型。

   国内大模型领域的领军企业阶跃星辰联近期与清华大学合作,共同推出了名为OpenReasonerZero(ORZ)的新项目。这个项目的背后有着一众行业巨擘的支持,包括AI领域的知名专家沈向洋、阶跃星辰创始人兼CEO姜大昕以及ResNet的作者张祥雨等人的亲自署名。 这个项目的推出不仅展示了国内企业在人工智能领域的实力,也体现了学术界与企业之间紧密的合作关系。通过这样的合作模式,不仅可以加速技术的研发进程,还能够促进科技成果的转化,为社会创造更大的价值。希望未来能有更多类似的产学研合作项目,推动我国在人工智能领域取得更多的突破和发展。

   在响应长度上,用约 17% 的训练步骤就能赶上 DeepSeek-R1-Zero 671B。

   值得关注的是,团队还发现了一个重要的转折点 ——

   在训练过程中,大约到了第680步时,模型的训练奖励值、反思能力以及回答长度都出现了显著的提升,这与DeepSeek-R1-Zero论文中提到的“顿悟时刻”(ahamoment)现象非常相似。这一现象似乎表明,模型在此阶段经历了某种形式的认知飞跃,使其能够更高效地理解和生成复杂信息。这样的进展不仅令人振奋,也为我们理解人工智能的发展路径提供了新的视角。

   目前,研究训练数据、训练代码、论文、模型全都 100%开源,开源许可证用的也是宽松的 MIT Lisence。

   开源 48 小时,就已速揽 700 + 星星。

   以下是更多细节。

   通过广泛的实验,团队证明了一种极简主义的方法,带有 GAE 的原版 PPO 就可以有效地扩展 RL 训练(关键的参数设置是 GAE λ= 1,折扣因子 γ=1)。

   再加上基于规则的奖励函数,足以在推理任务上同时扩大响应长度和基准性能,类似于 DeepSeek-R1-Zero 中观察到的现象。

   这一结果表明复杂的奖励函数是不必要的。

   另外,团队在未采用任何基于KL的正则化技术的前提下实现了稳定的训练过程,这与目前强化学习在RLHF和推理模型领域的主流观点相异。这一成果也为未来强化学习的大规模应用带来了新的希望。

   同时扩大数据的数量和多样性对于OpenReasonerZero的训练至关重要。尽管在像MATH这样的有限学术数据集上进行训练可能会导致模型性能迅速进入平台期,但是通过精心策划的大规模多样化数据集,可以实现持续的进步。在这些大规模数据集的帮助下,模型在训练集和测试集上的表现均未显示出饱和的迹象。 从我的角度来看,这种对多样化数据集的依赖不仅展示了人工智能技术在处理复杂问题时的强大潜力,同时也提醒我们,为了推动这一领域的发展,我们需要不断地收集和整理更多的数据资源。此外,这也意味着技术开发者需要与各行业合作,以确保数据来源的广泛性和全面性,从而帮助AI系统更好地理解和应对现实世界中的各种挑战。

   在基于Qwen2.5-Base-7B基础模型的实验中,所有的基准测试在某一时刻都会遭遇奖励和响应长度的骤然提升,这种现象与涌现行为类似。

   在整个训练过程中,AverageCorrectReflectionLength指标一直高于AverageResponseLength。一个值得关注的现象发生在第680步左右,此时可以观察到这三个指标同时加速。

   最终,Open-Reasoner-Zero模型在未经任何额外指令调整的情况下,在MMLU和MMLU_PRO基准测试中表现超越了Qwen2.5Instruct。

   昨天,在阶跃星辰生态开放日上,阶跃星辰创始人兼CEO姜大昕简要介绍了这项研究的进展。这次分享不仅展示了公司最新的科研成果,也体现了其在科技创新领域的持续投入与不懈追求。通过这样的活动,企业不仅能向外界展示其技术实力,还能够加强与行业内外伙伴的合作交流,共同推动相关领域的发展。 这种公开透明的态度对于增强公众对科技企业的信任至关重要。同时,这也表明了企业在追求商业成功的同时,也在积极履行社会责任,致力于通过技术创新解决实际问题。希望未来能有更多类似的公开分享,让公众更好地了解和支持这些前沿科技的发展。

   只提了一嘴,由于研究仍在进行中(WorkinginProgress),未来可能会有新的突破。感兴趣的朋友们可以留意一下。

   项目地址:

   https://github.com/Open-Reasoner-Zero/Open-Reasoner-Zero/

   本文来自微信公众号:量子位(ID:QbitAI),作者:梦晨西风

本文固定链接: https://www.news9999.cn/arts_content-52181.html 转载请注明出处(科技快讯中文网-www.news9999.cn)
最新发布 只需一个插件,Windows 11任务栏秒变系统监控中心  2025-08-11 20:24:22 微软引入OpenAI最小开源模型gpt-oss-20b,Windows用户本地即可畅享AI算力  2025-08-07 11:09:02 微软:Windows Autopatch 成就 Win11 升级新速度与安全标杆  2025-07-29 14:46:07 开源鸿蒙电脑开鸿 Bot 系列重磅升级,首推自主安装安卓应用功能  2025-07-28 12:01:42 微软升级系统安全防护,Win11/10 ISO 镜像全面强化 Defender 安全机制  2025-07-27 11:00:14 火狐 Firefox 141 震撼登场:AI 分组标签页 + Win 系统首度拥抱 WebGPU 技术  2025-07-22 12:18:52 Blender 4.5 LTS震撼发布:两年维护承诺,3D创作全面升级  2025-07-16 11:58:31 KDE原生虚拟机管理工具即将问世,Karton项目迎来突破性进展  2025-07-11 11:11:37 Win11 24H2 惊人升级:JScript9Legacy 引擎全面启用,性能与安全双提升  2025-07-10 09:43:35 微软 Win10 22H2/21H2 7月大更新:137个漏洞全修复,系统更安全!  2025-07-09 09:37:26 极客逆天改装!PS2成功运行Windows 95却惨败《毁灭战士》  2025-07-06 16:45:24 GNOME 49 引入 Papers,PDF 阅读迈入新纪元  2025-07-03 21:01:49 Wine 10.11 惊艳发布:NTSync 全面升级,《原神》《辐射3》25 大 BUG 终被攻克  2025-06-28 11:27:54 鸿蒙电脑版微信震撼上线,开启跨端新纪元  2025-06-26 18:26:56 AI PDF 编辑器 UPDF 2.0 正式上线:18 项黑科技功能重塑办公效率  2025-06-26 08:58:09 应用宝电脑版5.0重磅升级:稳定性飙升至99%,卡顿减少一半  2025-06-25 23:03:25 比尔·盖茨与Linus Torvalds历史性同框:科技双星晚宴风云  2025-06-23 07:31:42 《Notepad Next 0.12版重磅推出:个性化工具栏+搜索结果高亮,编辑体验大升级!》  2025-06-18 09:18:02 微软Win10支持将停!超一成用户竟不知自己中招?  2025-06-17 10:30:05 《Premiere Pro 25.3重磅推出:Blackwell GPU硬件加速编码引领视频编辑新纪元》  2025-06-15 22:27:40 《意外复古风!Win11神秘换装致敬Vista经典开机音》  2025-06-15 22:02:37 Premiere Pro 25.3重磅升级:全新搜索过滤+Blackwell GPU加速,剪辑效率起飞!  2025-06-15 21:09:16 《代码智能进化:VS Code 1.101 集成 MCP 协议,开启 AI 编辑新时代》  2025-06-14 13:31:48 火狐浏览器重磅升级:Perplexity AI融入学术与编程新生态  2025-06-14 11:01:00 《Win11 Beta 新版本来袭:重置 Recall 快照+通知中心时间优化亮点多》  2025-06-14 10:42:30
友情链接 百度权重≥5友情链接交换
文化潮流网  |  数界探索  |  文化新视界  |  深度文化说  |  智慧科技  |  财智慧  |  慧算财经  |  财经探秘  |  财经日报  |  今日财经
© 2015-2025 科技快讯中文网 时光记忆 版权所有 备案号:陇ICP备2025016403号-1

免责声明:本站所有文章来源于网络或投稿,如果任何问题,请联系648751016@qq.com

网站地图  联系我们  用户投稿  关于我们

页面执行时间0.017423秒