「数学推理新境界:微软AI rStar-Math引领不及格生蜕变为数学天才」
1月11日消息,微软亚洲研究院的数学与人工智能研究团队于1月10日发表了一篇博文,介绍他们设计并开发的rStar-Math技术。该技术专为小规模语言模型而设计,旨在有效解决数学问题。
与微软先前发布的Phi-4不同,rStar-Math运用了蒙特卡洛树搜索(Monte Carlo Tree Search)来进行推理过程。这一方法模仿了人类逐步解决问题的思考方式,可以将复杂的难题拆解为若干较小的环节,从而逐个解决。
研究人员要求模型输出自然语言描述和 Python 代码形式的“思维链”步骤,并将自然语言作为 Python 代码注释,仅使用 Python 代码输出训练模型。
研究人员设计了一种名为“策略模型”的工具,用于生成数学推理的具体步骤。同时,他们还引入了“过程偏好模型”(PPM),以挑选出最有潜力的解题路径。这两个模型经过四轮迭代优化,彼此促进,从而显著提升了整体性能。 这种创新方法不仅展示了人工智能在解决复杂问题上的巨大潜力,同时也揭示了模型间协同工作的力量。通过不断自我进化,这些模型能够更有效地学习和适应,为未来的数学研究和教育开辟了新的可能性。这种方法的成功应用表明,在未来的人工智能发展中,多模型协作和持续优化将是关键因素。
研究人员使用了 74 万道公开的数学应用题及其解答作为初始数据,并利用上述两个模型生成了新的解题步骤。
测试结果显示,应用rStar-Math技术后,Qwen2.5-Math-7B模型的准确率从58.8%提升至90.0%,将Phi3-mini-3.8B的准确率从41.4%提高到86.4%,分别比OpenAI的o1-preview模型高出4.5%和0.9%。
研究团队近日在HuggingFace平台上宣布,他们计划将rStar-Math的代码和数据集在GitHub上进行开源,以供更多的研究者使用和改进。此举无疑将大大促进相关领域的学术交流和技术进步,期待看到这一开放举措能够带来更多的创新成果。
附上参考地址
rStar-Math: Small LLMs Can Master Math Reasoning with Self-Evolved Deep Thinking
Hugging Face
免责声明:本站所有文章来源于网络或投稿,如果任何问题,请联系648751016@qq.com
页面执行时间0.011829秒