颠覆未来!九章云极大模型推理技术重磅出击
近日,九章云极DataCanvas公司与中国人民大学STILL项目团队、北京智源研究院合作,在大模型慢思考推理技术方面取得了一系列重要进展。他们初步复现了类R1推理模型,并全面开源了该模型的实现细节及训练技巧。在此基础上,研究团队创新性地提出了使用代码工具来提升模型推理性能的方法,在AIME数学推理测试中表现优于DeepSeek-R1模型。这些研究成果已整理成论文《An Empirical Study on Eliciting and Improving R1-like Reasoning Models》,并在预印版论文网站arXiv上公开发布。 这一系列成果不仅展示了中国在人工智能领域的重要突破,也为其他研究者提供了宝贵的参考材料。通过开源模型实现细节和训练技巧,可以加速整个学术界和工业界的研究进程。此外,引入代码工具来增强模型推理性能的方法,为未来的大规模语言模型发展开辟了新的路径。这表明中国在大模型研究领域的实力和创新能力正在不断提升。
九章云极DataCanvas联合研究团队近日公开了复现DeepSeek-R1全参数微调的开源方案,并推出了一款新的强化学习训练模型STILL-3-Tool-32B。该方案全面开放了从模型训练到推理部署的全流程工程代码,同时分享了经过实践验证的技术经验和调优策略,为开发者提供了可以直接部署的大规模模型训练框架。研究结果表明,该模型在AIME2024基准测试中的准确率达到81.70%(采样),超过了DeepSeek-R1的满血版表现。这一成果已在GitHub社区中详细介绍,并提供了相关的开源链接。
STILL-3-Tool-32B模型是九章云极DataCanvas联合团队在长链复杂推理模型训练框架上的又一重要创新实践。研究表明,在已达到性能巅峰的蒸馏模型上,采用这种强化学习训练方法同样能够显著提升AIME2024的准确率。这一研究成果将极大推动正在运行的大规模模型的回复长度和推理准确性。针对语言推理可能存在的精确性不足问题,STILL-3-Tool-32B模型引入了外部工具以增强AI模型的复杂推理能力。在AIME2024测试中,该模型取得了81.70%的准确率(采样),以15.56%的优势超越其基础训练模型,与OpenAIo3-mini持平,并且优于o1和DeepSeek-R1在同一场景下的表现。
自DeepSeek-R1技术报告发布以来,开源模型复现依然面临代码不完整和超参数调整等普遍难题。九章云极DataCanvas联合团队通过深度整合AI基础设施实现了突破。研究同时公开了该模型在DataCanvasAlayaNeW智能计算操作系统上的完整训练日志、奖励函数代码及容器化部署方案。研究表明,在AlayaNeW中使用on-policy学习策略是成功的核心要素,这种方法对DeepSeek背后基于规则的强化学习进行了微调,并深入探索了相关超参数配置和训练技巧。
值得注意的是,DeepSeek和蒸馏模型在推理时无法调用外部代码工具,这正是复现过程中的关键挑战。研究表明,AlayaNeW智算操作系统在开源工具链与基础模型的适配、算法与算力的协同、逻辑推理及多步决策等复杂的任务框架上展现出显著的优势,这或将促进AI技术的进一步进步。
免责声明:本站所有文章来源于网络或投稿,如果任何问题,请联系648751016@qq.com
页面执行时间0.011343秒