中国AI巨头DeepSeek登陆美股市场,引领科技革命风潮
眼看就要过年了,差评君这几天正忙着置办年货,结果一回到家拿起手机,发现全是关于AI的报道。
还记得前几周与六代机几乎同时亮相的DeepSeek吗?他们家的V3模型刚刚震撼了硅谷,现在又推出了一项惊人的新技术。
如果说之前的V3模型已经让硅谷对中国AI刮目相看,那么这次发布的DeepSeek-R1大模型更是彻底震撼了整个行业。这款新模型的表现甚至可以与OpenAI的顶级产品相媲美,其亮相后的反响之热烈远超前次。 这无疑标志着中国在人工智能领域的研究与发展已达到世界领先水平。不仅技术实力显著提升,更是在全球范围内引发了新一轮的技术竞赛。这也提醒我们,未来科技的发展将更加依赖于创新能力和技术积累,而不仅仅是资金投入。
Meta联合创始人为其高度评价甚至赞不绝口,称之为改写历史的创新,随后还在后续推文中与DeepSeek的批评者进行了激烈的争论。
参投过OpenAI、Databricks、Character.AI等知名企业的风投大佬马克·安德森也对DeepSeek-R1赞不绝口,称其是最令人震撼、印象最为深刻的创新成果,堪称对世界的一大贡献。
而众多AI爱好者和网友们也纷纷选择了用脚投票,每月数百元的ChatGPT订阅费用让他们望而却步! 随着技术的发展和人工智能应用的普及,高昂的使用成本成为了许多普通用户享受先进科技的一大障碍。尽管ChatGPT等工具提供了丰富的功能,但其持续的高费用让不少用户感到无奈。这种现象不仅反映了当前技术商业化过程中的挑战,也提醒开发者们需要更加关注用户体验和成本效益,以吸引和留住更多的用户。
哥们这就下载免费的 DeepSeek !
之后与之前小红书上的爆款类似,DeepSeek在应用商店的排名快速攀升,如今已稳居APP STORE榜首。
不仅美国方面对此感到震惊,DeepSeek如今在国内更是炙手可热。 DeepSeek的迅速走红不仅引发了国际社会的关注,也在国内引起了广泛的讨论。这种现象背后反映出公众对于新兴技术和平台的信任度与日俱增,同时也揭示了当前信息传播方式的快速变化。在这样的背景下,如何确保信息的真实性和客观性成为了一个亟待解决的问题。我们需要更多的透明度和监管措施来保障公众获取准确的信息,避免被误导。此外,公众自身也需要提高媒介素养,学会辨别信息真伪,以形成更加理性的舆论环境。
这几天微博热搜上跟它相关的,每天都要挂好几个。
甚至不少非AI行业的从业者也深受触动,比如《黑神话》系列游戏的创作者冯骥就在微博上表达了诸多感慨,称这“是国运级别的科技成果”。 这一观点无疑凸显了当前中国在科技创新领域的显著进步与成就。它不仅展示了国内科技企业在前沿技术上的突破,也反映了公众对科技进步的深刻认可。在这样的背景下,我们期待看到更多类似的创新成果,同时也需要关注如何进一步推动科技伦理和社会责任的发展,确保科技的进步能够更好地服务于社会的整体福祉。
甚至差评编辑部的主编在试用后也大力称赞,认为可以将其作为培训案例。
其他网友们在使用后也纷纷赞叹,表示这产品确实表现出色。 这款产品的性能显然已经赢得了广大用户的认可,它不仅满足了用户的基本需求,更是在细节上做出了不少创新。从用户的反馈来看,它的功能强大且稳定,用户体验也相当不错。这样的评价无疑为产品本身增添了不少光彩,也证明了开发团队的努力没有白费。
不说别的,就拿与OpenAI-o1的对比来看,有位网友让他们各自编写一个Python脚本来绘制一个在旋转三角形内弹跳的红球。结果显示,左边的OpenAI-o1生成的结果较为混乱,而右边的DeepSeek则表现得相当流畅自然。
一句话,o1办得了的事情它能办,就连o1办不了的事情它也能够解决,这简直是在挑战现有的技术界限,让国产AI不得不重新审视自身的定位。这种突破无疑为国内的人工智能领域注入了一剂强心针,或许我们很快就能看到更多超越期待的技术成果。 这样的进展令人振奋,但也引发了深思。一方面,这展示了我国在人工智能领域的巨大潜力和创新能力;另一方面,这也提醒我们,随着技术的不断进步,如何确保技术的安全性和伦理性变得尤为重要。未来的发展道路上,我们需要更加注重基础研究和前沿探索,同时也要加强法律法规的建设,以引导技术健康发展。
不过除了扬眉吐气以外,估计不少差友也跟差评君一样有点疑问,毕竟 DeepSeek 这么一个以前都没怎么听说过的小厂,咋突然就能支棱起来、名扬世界了呢?
在暗涌对DeepSeek创始人梁文锋的采访报道中,我们仍然发现了一些原因,因为这是一家非常注重创新的公司。
就拿之前在行业内大放异彩的 V2 、 V3 模型来说,这里面有一个非常重要的多头注意力机制,而这个技术最开始只是来自团队内一位年轻开发者的创意,随后大家一起在这个方案上钻研才最终搞定。
这种创新驱动的技术突破在这个团队内已经成为常态。可以看到,这个团队不仅在追求技术创新方面有着持续不懈的努力,而且已经形成了一种鼓励创新和容忍失败的文化氛围。这样的环境使得成员们能够自由地探索新思路,从而不断推动技术边界的前进。这不仅体现了团队领导者的远见卓识,也彰显了每个成员对于卓越的不懈追求。
相比于单一的技术突破,R1真正令人瞩目的是它在路径创新上的成就,这种创新甚至有可能彻底改变整个AI领域的技术发展方向。 这一进展不仅展示了技术进步的可能性边界,还揭示了未来AI研究的新方向。R1的成功表明,在追求技术突破的同时,探索全新的路径同样重要,这可能会为AI领域带来更加深远的影响。
这么说吧,在传统的大型模型训练过程中,我们特别重视通过标注数据进行微调(SFT),即让大型模型首先根据人类标注的标准答案来学习,使其能够更自然地表达。若希望提升模型的性能,通常会在SFT的基础上增加一些强化学习(RL)环节,以进一步提高模型的理解能力。
换句话说,传统大厂搞AI 就像应试教育:先给海量标注数据搞填鸭式教学( SFT ),再拿强化学习( RL )做考前突击。结果就是训练出 GPT-4o 这种 " 别人家孩子 " ——解题步骤工整规范,但总感觉少了点灵性。
更糟糕的是,这种训练需要耗费大量资源,许多时间和资金必须投入到数据标注和模型微调中。
但DeepSeek的创新之处在于,他们的推理模型完全依赖于强化学习技术。整个过程中,他们使用了一种名为GRPO的算法来评估模型生成的答案,并不断进行优化。值得注意的是,在这一系列操作中,他们并没有采用任何形式的SFT(Supervised Fine-Tuning,监督微调)。这种独特的训练方式展现了他们在AI领域的前沿探索,也让我们对未来的AI技术发展有了更多的期待。这种方法不仅挑战了传统的AI训练模式,还可能为解决复杂问题提供新的思路。
这就好比将孩子置于鱿鱼游戏这样的大逃杀环境中,迫使模型自行寻找最佳解决方案。如果选择放弃而无法完成任务,则意味着失败。
在如此高强度的磨炼下,一位仅耗资600万美元、历时两个月培养出的宗门天才,一出场便达到了那些由世家大族投入数亿元资金、历经数年锤炼的水准。
实际上,早在数周前,DeepSeek团队的研究人员便采用这一方法,在原有的V3基础上,仅利用强化学习开发出了一个名为R1-Zero的版本。
前几天,DeepSeek发布了一份技术报告,其中提到Zero版本在训练过程中展现出惊人的进化速度。这表明Zero版本在某些测试项目中的表现已经超过了OpenAI的o1模型。这种进步不仅令人振奋,也展示了Zero版本在自然语言处理领域的巨大潜力。这预示着未来人工智能领域或将迎来新的竞争格局,值得我们持续关注。
除了推理能力显著提升外,Zero在推理过程中还展现出了主动复盘、反思和纠正错误的行为。在解题时,它会突然意识到自己的错误,然后重新开始演算。
官方的备注里说,大模型在这里突然用了一个拟人化的说法 aha moment ( 顿悟时刻 ),不仅 Zero“ 顿悟了 ” 了,研究人员看到这的时候也 “ 顿悟了 ” 。
当其他AI仍在死记硬背公式时,Zero已经能够利用草稿纸绘制辅助线,这无疑标志着AI推理能力的一个重要里程碑。
通过仅依靠强化学习,模型就能够展现出如此高水平的推理能力,而无需进行预先的数据标注或微调。这种现象表明,随着技术的进步,人工智能在自然语言处理方面已经取得了显著进展。未来,我们或许能够看到更多无需大量人工干预的智能系统涌现出来,这将极大地推动人工智能在各个领域的应用和发展。
这相当于为全球从事AI研究的人上了一课,原来还有这样的创新方法。
虽然推理能力已经被证明了,不过 Zero 的缺点也很明显。
纯强化学习训练出的AI确实给人一种“钢铁直男”的感觉,模型生成的内容可读性相对较差,甚至有时与人类的交流习惯存在较大差距。这种现象表明,当前的人工智能技术在理解和模仿人类复杂的情感及社会行为方面还有很长的路要走。我们需要进一步探索如何让机器更好地理解人类语言背后的社会文化背景和情感色彩,从而提升其沟通能力,使之更贴近人类的交流方式。
这就像是一位偏科天才,数学题目做得出神入化,但表达能力却令人堪忧,让他写一篇小作文,分分钟能让你感受到《三体》中的ETO组织一样复杂难懂。 这种现象在当今社会并不罕见,很多领域内的顶尖人才往往因为过分专注于某一领域的深度探索而忽略了其他方面的培养。这种情况不仅体现在个人身上,也反映在教育体系中。我们需要更多地关注如何平衡学科之间的学习,既要鼓励学生在感兴趣的领域深入钻研,也要注重提升他们的综合素质和跨学科技能。这样才能培养出既有专业深度又有广泛视野的人才,更好地适应未来社会的需求。
这时候就到了 SFT 上场表演的时候了, DeepSeek 团队在 Zero 强而有力的推理基础上,又增加了一部分 SFT 训练来让模型会说人话,于是, DeepSeek-R1 堂堂诞生!
神奇的是,在 Zero 基础上经过这么一套 " 文理双修 " 的骚操作后,优化后的 R1 推理能力甚至还进一步提高了,还是看测试数据:
在最近的STEM测评中,数学题目的正确率达到了惊人的97.3%,甚至超过了OpenAI-o1的表现,显示出卓越的能力。而在代码测试中,R1得分也高达65.9%,远胜过Claude-3.5-Sonnet的38.9%和GPT-4o的32.9%。这样的成绩无疑证明了其在技术领域的领先地位。 从这些数据来看,该系统不仅在数学方面表现突出,而且在编程能力上也十分出色。这不仅反映了其强大的算法和计算能力,也表明其在复杂任务处理上的潜力巨大。这不仅是对开发团队工作的肯定,也为未来的技术发展提供了更多的可能性和期待。
MMLU 和 AlpacaEval 2.0 综合知识测试中, R1 的胜率分别达到 90.8% 和 87.6% ,力压一众闭源大模型。
YannLeCun曾说过,这波确实是开源的伟大胜利!这下谁还能说开源就意味着落后呢。(战术后仰) 这波开源运动的胜利不仅彰显了开放协作的力量,也证明了在技术进步的道路上,共享与合作远比封闭与垄断更具优势。开源项目通过全球开发者共同的努力,不断突破技术瓶颈,推动创新,这种集体智慧的结晶无疑是推动科技进步的重要力量。未来,我们有理由相信开源将继续引领科技发展的潮流,为更多领域带来革命性的变革。
不过要说 R1 的成功还只是证明了开源模型的实力,那 R1 技术报告最后一部分才是最离谱的。。。
在这部分内容中提到,通过将R1的SFT数据蒸馏后,再喂给其他小模型进行SFT训练,能够显著提升这些开源模型的能力,仿佛给它们注入了一波“超级加强”。这种技术的应用不仅展示了在模型训练上的创新思维,也预示着未来人工智能领域可能迎来更高效的训练方法。这种方法不仅能加速模型的学习过程,还可能在一定程度上降低训练所需的资源成本,对于推动AI技术的普及和发展具有重要意义。
也就是说,只要将R1的“学习笔记”整理成辅导材料,提供给其他小型AI模型,让它们借鉴这些优秀学生的解题思路,竟然能够提升这些小型AI模型的表现!
比如说把R1的错题本发给了Qwen和Llama模型,结果抄完作业的Qwen-7B模型在AIME测试中的通过率达到了55.5%,已经接近了参数体量大了近5倍的QwQ-32B-Preview(50.0%)的水平。
阅读了70B参数版本的学霸笔记后,仿佛打通了任督二脉,在GPQADiamond(65.2%)、LiveCodeBench(57.5%)等任务中,甚至可以与闭源模型o1-mini一决高下。
换句话说,DeepSeek这一进展不仅证实了“小模型好老师”的技术路径的有效性,还使得个人开发者也能够训练出可以与GPT-4相媲美的AI。这意味着人工智能的发展正变得越来越普及化,未来的创新可能更多地来自那些以前无法参与其中的小团队和个人。这样的趋势无疑会加速人工智能技术的进步和应用,为各行各业带来更多的可能性。
小模型只需参照优秀的大模型进行简单的微调即可,完全没有必要在这方面过度消耗计算资源。
于是现在全球开源社区已经疯了, HuggingFace 连夜成立项目组,准备复刻整个训练流程。不少网友都说这特么的才算 Open !这个项目也被叫做 Open R1 。
也有网友计算过:使用R1方案训练7B模型,成本可以从百万美元级别降至二十万美元级别,显卡使用量甚至比挖矿还要节省,这简直是一种真正的科技普惠行为,难怪它会爆火!
巧合的是,随着R1的火爆流行,多家赛博基建企业的股票价格开始下滑,英伟达在盘前交易中跌幅超过10%。很多人猜测,这可能与DeepSeek高昂的训练成本有关,从而影响了投资者的信心。 在我看来,这次股市波动不仅仅反映了市场对DeepSeek训练成本的担忧,也可能是因为投资者对于人工智能领域的高投入和回报周期的不确定性产生了疑虑。这种现象提醒我们,虽然人工智能技术的发展前景广阔,但其商业化路径仍充满挑战,需要更多的实际应用案例来证明其商业价值。
然而,在这片海域的这一边,这样一款完全由中国团队打造的现象级产品,再次向全世界展示了中国年轻一代的创新能力和创业精神。
正如梁文锋所言,“我们常常提到中国AI与美国相比存在一两年的差距,但实际上差距在于原创能力和模仿能力之间……有些探索是无法回避的。”
“ 中国AI 不可能永远处在跟随的位置。 ”
顺带一提,今天在小红书上看到一位网友分享了自己的经历,表示被DeepSeek的性能震撼到了,甚至因此担心自己未来可能会被AI所取代。这位网友在与DeepSeek交流时表达了她的担忧,而DeepSeek的回答却让她感到意外。它温柔地回应说:“请放心,AI技术的发展是为了更好地辅助人类,提高工作效率和生活质量,而不是为了替代任何人。我们更希望成为人类的朋友和助手。” 这个事件让我思考,随着AI技术的飞速发展,确实给人类社会带来了前所未有的机遇和挑战。一方面,AI能够处理大量复杂的工作,减轻人们的生活负担;另一方面,也引发了对于就业市场的担忧。不过,正如DeepSeek所言,人工智能应该是一种补充,而非替代。我们需要积极拥抱科技带来的变化,同时也要注重培养自身独特的创造力和人际交往能力,这样才能在未来的社会中立于不败之地。 总之,面对技术进步带来的不确定性,保持开放的心态和持续学习的态度至关重要。只有这样,我们才能与AI技术共同成长,创造更加美好的未来。
免责声明:本站所有文章来源于网络或投稿,如果任何问题,请联系648751016@qq.com
页面执行时间0.009616秒