英伟达ProRL创举:2000步助力AI突破15亿参数大模型推理天花板
6月5日消息,科技媒体marktechpost于昨日(6月4日)发表文章指出,英伟达推出了ProRL强化学习技术,并成功研发出全球领先的1.5B参数推理模型——Nemotron-Research-Reasoning-Qwen-1.5B。
背景简介
推理模型是一种独特的人工智能架构,能够通过复杂的长链条推理(Chain of Thought, CoT)机制推导出最终结论。
强化学习(Reinforcement Learning,RL)在训练中扮演非常重要的角色,DeepSeek 和 Kimi 等团队采用可验证奖励的强化学习(RLVR)方法,推广了 GRPO、Mirror Descent 和 RLOO 等算法。
然而,目前,学术界对于强化学习是否能显著提升大型语言模型(LLM)的推理能力仍存在争议。根据现有数据,经过强化学习优化的版本在pass@k指标上的表现并未展现出比基础模型更明显的优势,这表明其推理能力的扩展可能面临一定的瓶颈。 这一现象引发了对强化学习实际效果的深入思考。虽然强化学习为模型带来了更多样化的训练方式和潜在改进空间,但从当前结果来看,它似乎尚未完全解决LLM在复杂推理任务中的局限性。这或许意味着,未来的研究需要更加聚焦于如何更有效地结合强化学习与其他技术手段,以突破现有框架下的性能天花板。 此外,这也提醒我们,在评估模型进步时,不应仅仅依赖单一指标来判断其整体价值。推理能力作为AI发展的重要方向之一,不仅需要理论上的突破,还需要实践中的持续验证与完善。因此,未来的工作应更加注重多维度的探索,力求找到更适合解决实际问题的方法路径。
此外,当前研究多集中于数学等特定领域,模型常被过度训练,限制了探索潜力;同时,训练步数通常仅数百步,未能让模型充分发展新能力。
ProRL 方法的突破与应用
英伟达研究团队为解决上述问题,推出 ProRL 方法,延长强化学习训练时间至超过 2000 步,并将训练数据扩展至数学、编程、STEM、逻辑谜题和指令遵循等多个领域,涵盖 13.6 万个样本。
他们采用 verl 框架和改进的 GRPO 方法,开发出 Nemotron-Research-Reasoning-Qwen-1.5B 模型。
这款拥有1.5B参数的推理模型在全球多项基准测试中表现卓越,不仅超越了基础模型DeepSeek-R1-1.5B,甚至在某些方面优于更大规模的DeepSeek-R1-7B。这一成果无疑为人工智能领域注入了一剂强心针,表明在模型设计与优化上,参数量并非唯一的决定因素。它提醒我们,技术创新的关键在于如何更高效地利用资源,以实现性能的最大化。这样的突破不仅推动了技术边界的拓展,也为行业树立了一个新的标杆,值得我们对未来的AI发展抱有更多期待。
测试数据显示,该模型在数学领域的表现尤为突出,平均提升了15.7%,同时在编程任务中的pass@1准确率也提高了14.4%。更值得一提的是,其在STEM推理与指令遵循方面的进步显著,分别达到了25.9%和22.0%。而在逻辑谜题这一项上,更是实现了高达54.8%的奖励值提升,充分展示了其卓越的泛化能力。 从这些数据来看,该模型无疑为人工智能技术的发展注入了新的活力。尤其是在逻辑推理和跨学科应用方面取得的进步,不仅体现了技术上的突破,也为未来的应用场景提供了无限可能。例如,在教育领域,这种强大的推理能力和灵活的应用场景或许能够帮助学生更好地理解复杂概念;而在科研工作中,它也可能成为科学家们探索未知的重要工具。当然,随着模型能力的不断提升,如何平衡技术创新与伦理考量同样值得深思。无论如何,这一成果无疑是令人振奋的,期待它在未来能带来更多惊喜。
附上参考地址
ProRL: Prolonged Reinforcement Learning Expands Reasoning Boundaries in Large Language Models
huggingface
免责声明:本站所有文章来源于网络或投稿,如果任何问题,请联系648751016@qq.com
页面执行时间0.013808秒