首页 > 科技资讯
2025
02-16

上海 AI Lab 利用强化学习突破数学推理极限,不仅超越 DeepSeek 还实现了无需蒸馏的突破!

科技资讯
jinting
围观2790次
0条评论
发布日期:2025年02月16日 12:24:05

上海 AI Lab 利用强化学习突破数学推理极限,不仅超越 DeepSeek 还实现了无需蒸馏的突破!

AI 强化学习巅峰!数学推理新境界揭秘

   仅通过强化学习,就能超越 DeepSeek!

   上海 AI Lab 提出了基于结果奖励的强化学习新范式 ——

   从Qwen2.5-32B-Base模型出发,仅通过微调和基于结果反馈的强化学习,在不依赖蒸馏超大模型如DeepSeek-R1的情况下,就能实现超越DeepSeek-R1-Distill-Qwen32B和OpenAI-O1系列的超强数学推理性能。

   团队发现,目前大型模型在数学推理任务上遭遇了“三重挑战”的困境。

   稀疏奖励难题:仅以正确与否的二元反馈形式,使得复杂逻辑推理的优化过程变得异常艰难。

   局部准确陷阱:在复杂的思维过程中,部分准确的步骤有时反而会干扰模型的学习进程。

   传统蒸馏方法使得研究者们不得不卷入“参数规模军备竞赛”。这种现象不仅增加了科研项目的成本,也使得小型研究团队或资源有限的研究机构难以跟上步伐。尽管大规模模型在性能上有显著提升,但这种依赖大模型的趋势可能限制了创新思维和技术多样化的发展。为了打破这一局面,或许需要寻找更有效的知识蒸馏策略,或是探索新的模型训练方法,以平衡性能与资源消耗之间的关系。 这样的趋势提醒我们,虽然追求高性能模型是科学研究的一部分,但我们也不应忽视那些能够以更少资源实现良好效果的方法。推动技术发展的关键在于找到效率与效果之间的最佳平衡点。

   因此,研究团队重新审视了当前基于结果奖励的强化学习算法,经过严格的理论推导与证明,重新设计了一个新的结果奖励强化学习算法,并在这个过程中得出了三点重要结论:

   对于正样本:在二元反馈环境下,通过最佳轨迹采样(BoN)的行为克隆即可学习最优策略

   对于负样本:需要利用奖励重塑技术来确保策略优化目标的一致性。

   对于长序列:不同的序列部分对最终结果的影响程度各不相同,因此需要设计一种更为细致的奖励分配机制,这种机制能够根据具体的结果来动态调整奖励。这样的奖励分配函数能够更好地反映各个序列部分的实际贡献,从而优化整体效果。 这种更精细的奖励分配方法对于提升系统的性能具有重要意义。通过让系统能够精确评估每个序列部分的重要性,可以促使算法在训练过程中更加关注那些关键因素,进而提高模型的准确性和效率。这种方法不仅有助于解决复杂任务中的细节问题,还可能推动相关技术领域的发展。

   通俗来说,就是通过对正确样本模仿学习,错误样本偏好学习,关键步骤重点学习,无需依赖超大规模的模型(例如 DeepSeek-R1)进行蒸馏,仅通过强化学习即可达到惊人的效果。

   除此之外,研究团队还对不同起点的模型进行了强化学习训练,并通过对比和分析发现,起点模型的选择以及训练数据的分布对最终模型的效果影响很大。因此,为了推动社区进行更公平的比较和促进进一步的研究,研究团队决定将与RL训练相关的数据、起点模型以及最终模型一并开源。这样的做法有助于其他研究者更好地理解和改进现有的强化学习方法。完整的项目链接已经在文末给出。 通过这种开放共享的做法,可以有效促进相关领域的技术交流和创新,同时也能帮助验证和复现研究结果,这对于科学研究来说是非常重要的。此外,这也为后续的研究工作提供了宝贵的资源和起点,有望加速整个领域的发展进程。

   针对数学推理任务中强化学习面临的稀疏奖励和局部正确难题,团队提出新的策略优化框架 OREAL。

   通过理论创新实现针对性的算法改进,在用实验说明“怎么做更好”之前,首先论证“为什么这么做更好”

   在数学推理任务的采样流程中,团队经过理论分析推导,提出核心见解:在二元反馈机制下,采样任意数量包含正确答案的 BoN(Best-of-N)设置,其正确轨迹的分布具有一致性特征。这一发现表明,通过直接行为克隆(behaviorcloning)采样得到的正确轨迹,已经构成了正样本训练中的最优设置。

   在进行正样本模仿学习的过程中,团队发现直接惩罚负样本可能会导致梯度偏差问题。因此,他们认为对于负样本的处理原则应该是确保优化梯度的形式与学习BoN分布保持一致。通过对正负样本的训练梯度进行深入分析,研究者们提出了一种基于平均准确率p的奖励重塑因子,以维持这种一致性,从而为改进GRPO等相关算法提供了理论支持。这种设置不仅使模型能够有效吸收成功的经验,还能更精准地识别关键错误边界,显著提升了训练效果。

   OREAL创新性地设计了一种token重要性评估工具,通过建立一种基于序列累积的奖励机制,将最终结果的奖励反向分配至每一个推理步骤中(如下面的token-level RM热力图所示)。这种方法能精准识别出关键的错误环节,并在训练过程中实现更为细致的梯度调整,从而大大增强了模型处理长序列任务的能力。 这一技术突破不仅展示了OREAL在算法优化领域的领先地位,也标志着人工智能领域向着更加智能化和精细化的方向迈进了一大步。随着这种新方法的应用,我们有理由期待未来的人工智能系统能在复杂问题解决上展现出更强的适应性和准确性。

   团队提出的最佳强化学习策略可以总结为:在正确的样本上进行模仿学习,在错误的样本上进行偏好学习,并对关键步骤进行重点学习。

   经过合理分析和不断实践,我们逐步把强化学习的效果提升至最优水平。

   团队在 7B 和 32B 两个规模的模型上仅使用 4 千条高质量训练样本进行了训练和测试,

   在 7B 量级上,Oreal-7B 在 MATH-500 上取得了 91.0 的 pass@1 准确率。这是首次通过强化学习而非蒸馏方法达到了如此高的精度。这一成绩不仅为基于 RL 的方法树立了新的里程碑,还超越了更大参数量的模型,包括 QWQ-32B-Preview 和 OpenAI-O1-Mini。

   此外,将 Oreal 应用于此前最佳的 7B 模型(DeepSeek-r1-Distill-Qwen-7B)后,得到的新模型 OREAL-DSR1-Distill-Qwen-7B 在 MATH-500 上取得了 94.0 的 pass@1 精度,创下了 7B 模型的记录。千问的基座,经过 DeepSeek 的蒸馏训练,再经过上海 AI Lab 的强化学习训练,达到了中国原创新高度。

   对于32B模型,Oreal-32B在MATH-500上的得分同样达到了95.0,超过了同级别的DeepSeek-r1-Distill-Qwen-32B,从而刷新了32B模型的最佳成绩。

   最后,研究团队还比较了在不同基础模型上的性能表现,结果表明,不同初始性能的策略模型经过强化学习(RL)后,其性能上限也有所不同。初始模型的性能越强,在经过强化学习后表现出的性能也越好。

   并且,尽管在多个基座模型上,大部分 benchmark 性能都会在 RL 后有所提升,偶尔也会出现持平(OREAL-32B 在 AIME2025-I)或者性能下降(相比于 DSR1-Distill-Qwen-7B 在 AIME2024)。

   研究认为,这些问题的出现可能与训练材料的质量、难度和数量等方面的准备不足有关,这也为今后的研究提供了方向。

   因此,除了强大的强化学习算法外,团队还认为有两个重要因素对强化学习在数学推理任务中的成功起到关键作用:

   强大的起点模型确实是RL(强化学习)能够有效激发模型潜在能力的前提。在当前的人工智能领域,我们已经见证了强化学习如何通过与环境的交互来优化算法性能。这不仅推动了技术的进步,也为未来的创新奠定了基础。我认为,随着研究的深入和技术的发展,强化学习将在更多领域展现出其独特的价值,为解决复杂问题提供新的思路和方法。 这样的进展无疑令人振奋,同时也提醒我们在享受技术带来的便利时,需要持续关注其可能带来的伦理和社会影响,确保技术发展能够惠及更广泛的人群。

   在强化学习阶段所使用的数据同样需要在质量、难度、数量和多样性上得到充分保障。高质的数据集能使模型通过应对各种挑战和学习机会,从而充分发挥其潜力。

   研究团队也观察到,尽管DeepSeek-R1的问世激发了社区对大语言模型强化学习的兴趣和探索,但不同研究者所采用的训练起点模型、训练数据集、训练算法以及超参数设置各不相同,这使得我们难以准确地对比算法和模型的性能表现。 这种多样化的研究路径无疑为技术的发展提供了丰富的视角,但也带来了一定的挑战。如何在不同的实验条件下建立一个公平、可比的基准,成为当前亟待解决的问题。此外,这也提醒我们在评估新技术时需要更加谨慎,综合考虑多种因素的影响。

   因此,研究团队在完整的RL训练过程中使用的所有训练数据、初始模型以及RL最终模型均实现了全面开源,训练代码也将发布到XTuner平台。

   项目链接:

   https://github.com/InternLM/OREAL

   论文地址:

   https://arxiv.org/abs/2502.06781

   RL 训练数据链接:

   https://huggingface.co/datasets/internlm/OREAL-RL-Prompts

   系列模型地址:

   https://huggingface.co/collections/internlm/oreal-67aaccf5a8192c1ba3cff018

本文固定链接: https://www.news9999.cn/arts_content-46617.html 转载请注明出处(科技快讯中文网-www.news9999.cn)
最新发布 三大运营商将精简套餐提升资费透明度,微信语音转文字功能灰度测试,京东布局七鲜小厨新生态  2025-07-23 08:16:15 阿里云通义千问 Qwen3-Coder 开源:480B 参数+256K 上下文,性能直逼 Claude Sonnet4  2025-07-23 08:07:04 荣耀高管罗巍否认一英寸、一镜双目配置:硬核设计观引争议,三年超越计划曝光  2025-07-23 07:48:59 欧盟或批准苹果App Store新规,避免每日5000万欧元罚金  2025-07-23 07:48:15 影石Insta360首曝无人机专利图:360°全景拍摄+模块化革命  2025-07-23 07:29:47 三星S25 FE重磅升级:前置影像革新,LTPO屏幕更省电续航更强  2025-07-23 07:28:36 麒麟9系直屏旗舰!华为Pura 80标准版震撼预售,性能与颜值双爆表  2025-07-23 07:12:10 苹果 watchOS 26 开发者预览版 Beta 4 正式发布,智能手表系统再迎重大升级  2025-07-23 06:43:47 国内首台能干会玩的人形机器人来了!星动纪元发布星动L7引爆未来科技  2025-07-22 14:18:46 macOS 15.6 RC震撼登场:全新功能引爆科技圈  2025-07-22 12:18:07 苹果 macOS 15.6 RC 更新现小插曲:26 Tahoe 测试版悄然推送,界面大变身  2025-07-22 12:17:34 超耐用折叠新标杆!三星Galaxy Z Flip7首获欧盟能效认证  2025-07-22 12:17:15 AC-Cache亮相PPOPP,腾讯云GooseFS与厦门大学共创存储新范式  2025-07-22 12:15:03 英伟达联发科AI PC芯片遇阻:设计调整与微软系统进度成关键阻力  2025-07-22 12:14:43 奥尼4K摄像机引爆P&I2025,直播涨粉新革命来袭  2025-07-22 12:14:11 2999元入手!苹果11英寸iPad A16国补后仅2197元,限时优惠太香了  2025-07-22 12:12:47 荣耀 X70 首销三日登顶全品牌销量榜首,引爆市场热潮  2025-07-22 12:09:06 三星新一代可折叠OLED震撼登场:坚固性狂飙2.5倍,未来触手可及  2025-07-22 11:59:41 长江存储2026年或成NAND市场新势力,国产产能占比将突破15%  2025-07-22 11:47:49 小米昆仑N3伪装车首曝,或将于2025年底震撼登场  2025-07-21 15:56:21 华硕战杀24震撼登场:949元解锁23.8英寸240Hz超感视觉新体验  2025-07-21 15:45:14 三成车主拒付车联网费用,智能汽车烧钱路在何方?  2025-07-21 15:43:30 因系统故障,阿拉斯加航空突发全面停飞  2025-07-21 15:38:35 诺基亚回归!HMD 102 4G 搭载 DeepSeek AI 助手,仅售 169 元引爆市场  2025-07-21 15:26:52 三月狂降458元!iReader Ocean 4 长续航版跌破千元大关  2025-07-21 15:26:17
友情链接 百度权重≥5友情链接交换
文化潮流网  |  数界探索  |  文化新视界  |  深度文化说  |  智慧科技  |  财智慧  |  慧算财经  |  财经探秘  |  财经日报  |  今日财经
© 2015-2025 科技快讯中文网 时光记忆 版权所有 备案号:陇ICP备2025016403号-1

免责声明:本站所有文章来源于网络或投稿,如果任何问题,请联系648751016@qq.com

网站地图  联系我们  用户投稿  关于我们

页面执行时间0.008734秒