揭秘DeepSeek内部翻转:强化学习引领探索新天地!
2月15日下午消息,据媒体报道,月之暗面内部已将“持续获得最佳成果”定为当前最紧迫的工作目标。2025年,月之暗面在提升模型能力方面,除了继续增强多模态功能外,还将进一步加强长文本推理能力。
报道分析称,在DeepSeek迅速走红之后,外界开始重新评估月之暗面的技术路径和用户增长策略。DeepSeek与月之暗面的主要区别在于,月之暗面选择闭源,专注于预训练(这需要大量的GPU和计算资源),并且不依赖蒸馏技术。其在消费端市场主要依靠大量广告投放来吸引新用户。相比之下,DeepSeek则采取了开源策略,同样采用预训练方法,但重点引入了蒸馏技术以大幅降低成本。在消费端市场,DeepSeek并没有进行大规模的广告投放。
而今,DeepSeek采取了一条不同于月之暗面的路径,并且在当前阶段展现出了更为卓越的成果。业内专家指出,若月之暗面希望保持其市场地位,可能需要进行一些变革或尝试,例如开放源代码或调整推广策略等。然而,截至目前,月之暗面尚未表明是否会与DeepSeek进行合作,同时对于未来是否会选择开源,公司也没有对媒体的询问作出回应。
对于月之暗面是否会因DeepSeek而调整工作重心一事,新浪科技向其进行求证,但截至发稿时,该公司尚未作出回应。不过据内部人士透露,“强化学习(RL)很可能会成为一个主要的工作方向。”
作为DeepSeek出圈后最受关注的热门技术话题,DeepSeek通过大规模强化学习技术达到了与OpenAI相媲美的DeepSeek-R1-Zero,让业界倍感振奋。新浪科技了解到,去年11月份,月之暗面宣布推出新一代数学推理模型k0-math时,Kimi探索版便通过运用强化学习技术创新了搜索体验,在意图增强、信源分析和链式思考三大推理能力上实现了突破。当时,月之暗面Kimi的创始人杨植麟就对强化学习这一技术路线带来的模型能力提升给予了高度评价。 如今,在2025年2月,这一技术进展依然备受瞩目。
近日,OpenAI发布了一篇关于推理模型在竞技编程中应用的研究论文《Competitive Programming with Large Reasoning Models》。该论文指出,中国的DeepSeek-R1和Kimik1.5通过独立研究发现,采用思维链学习(COT)方法能够显著提高模型在数学解题与编程挑战中的整体表现。特别值得一提的是,k1.5是DeepSeek和Kimi于1月20日联合发布的新型推理模型。 这一研究结果表明,中国团队在人工智能领域再次取得了令人瞩目的进展。DeepSeek和Kimi通过创新性的COT方法,不仅展示了其技术实力,还为全球人工智能研究提供了新的方向。这不仅反映了中国在人工智能领域的持续投入和创新能力,也为未来的人工智能发展提供了更多可能性。
免责声明:本站所有文章来源于网络或投稿,如果任何问题,请联系648751016@qq.com
页面执行时间0.008646秒