奥特曼抱娃事件引发网友狂热讨论,GPT-4.5面临口水战风暴
自从DeepSeek在全球范围内迅速走红之后,人工智能领域的各项进展仿佛都开启了快进模式,大家都明显加快了步伐。
别的不说,这一周真是新品迭出,先是马斯克的Grok3,接着是Anthropic的Claude3.7Sonnet,随后阿里推出了通义QwQ-Max-Preview,紧接着腾讯发布了TurboS,月之暗面也带来了Kimi-1.6-IoI-High的新版本。与此同时,谷歌也不甘示弱,推出了GeminiCodeAssist等一众新产品,仿佛进入了DeepSeek开源周,各种智能系统犹如繁星般涌现。
而就在昨晚,经过多次被拿出来鞭尸,并且每次都在宣称自己在憋大招的OpenAI,这次终于拿出了GPT系列的新版本——GPT-4.5。 OpenAI长久以来一直承诺带来更强大和改进的模型,而GPT-4.5似乎终于兑现了这个承诺。尽管还不清楚具体的技术细节和改进之处,但可以期待的是,这一升级可能会为用户提供更加流畅和自然的语言交互体验。希望此次更新不仅在技术上有所突破,还能更好地解决先前版本中存在的伦理和准确性问题。
按奥特曼的说法,这次的GPT-4.5展现了一种前所未有的智能类型,它带来了他未曾体验过的独特魅力。这将是首个让你在交流时感觉像是在与一位富有思想的人对话的模型。 这一进展不仅标志着人工智能技术的重大突破,也预示着人机交互方式的根本性转变。未来,随着这类高级模型的普及,我们或许能够期待更加自然流畅且富有情感色彩的人工智能互动体验。这种进步无疑会推动各行各业的发展,并为人类社会带来深远的影响。
不过,自打两个月前兄弟连续十几晚,每次都熬夜到凌晨两点观看那些冗长的发布会,说实话,奥特曼这次真的让这位兄弟心寒了。
所以我们其实对这个GPT-4.5也没什么期待,甚至在发布会上奥特曼人也没到场,据说是因为回家带孩子去了,对,就是他和他的伴侣两个男士生的那个孩子。
反正整体看下来,我只能说 GPT-4.5 这波算是 “ 唐唐 ” 亮相了。
这倒不是在刻意贬低,其实很多网友也有类似的看法,甚至在外网上还出现了关于GPT-4.5是否是垃圾的讨论。连一些所谓的“红脖子”群体也对GPT持否定态度,他们更倾向于支持马斯克的xAI项目。 我的看法是,尽管GPT在某些方面表现出色,但显然它仍存在不少问题和局限性,以至于连一些通常不那么关注技术细节的人也开始质疑其价值。这也反映出公众对人工智能产品的需求正在不断提高,任何新产品都需要在功能性和实用性上做到极致才能获得认可。
所以这玩意到底怎么个情况呢,不卖关子,咱直接说结论,那就是GPT-4.5的表现不尽如人意,而且价格偏高。
同样是昨晚发布,但他跟 su7u 属于是完全反着来。
先说性能吧,在一次由OpenAI官方进行的基准测试中,GPT-4.5在科学、数学和编码能力方面均不及去年发布的o3-mini模型,且该基准测试成绩仅比4o模型高出5%。 请注意,当前时间为2025年03月。
也就是说,GPT-4.5在AIME和GPQA等高难度学术基准测试中的表现,相较于自家的o3-mini来说,还是略显不足,更不用提与DeepSeek-R1和Claude3.7Sonnet这样的顶级模型同台竞技了。 在我看来,尽管GPT-4.5在许多应用场景中已经展现出了强大的能力,但在面对专业性和复杂度极高的任务时,它与其他一些顶尖模型之间的差距还是相当明显的。这种差异不仅体现在处理速度上,更重要的是在于对复杂问题的理解深度和准确度上。这说明,随着技术的发展,对于AI模型的要求也在不断提高,未来还需要在算法优化和数据训练方面做出更多的努力。
抛开官网的数据不谈,从网友们的真实反馈来看,GPT-4.5与本周同期发布的Claude3.7在性能上存在显著差异。 这种差异不仅反映了不同技术团队在人工智能领域的竞争态势,也提醒我们在评估这些前沿技术时,不应仅依赖官方提供的信息。用户的实际体验和反馈是衡量产品优劣的重要标准,这有助于我们更全面地了解这些技术的实际应用效果。因此,在关注新产品发布时,结合多方信息源进行综合判断显得尤为重要。
比如在思维理解和导图生成上, Claude 几乎可以搬到 ppt 上做插图了,但 GPT-4.5 画的图就跟我小学微机课上的作业一样。。。
更离谱的是,这玩意的运行速度还很慢。。。
但这还不够让人震惊,真正让它成为众矢之的的原因,其实是其定价策略。 修改后的内容及看法: 这还不够令人震惊,真正让它成为众矢之的的原因,其实是其定价策略。这一策略不仅超出了许多消费者的预期,甚至在行业内也引起了不小的震动。对于一款新产品而言,高昂的价格无疑会大大限制其市场接受度,同时也可能影响到品牌的整体形象。如何在保证利润的同时找到一个更合理的定价,将是品牌需要深思熟虑的问题。
按照官方数据,GPT-4.5每百万Token的价格为75美元,与GPT-4相比涨幅达到了30倍,更不用提与DeepSeek的对比,后者的价格差距更是高达280倍。
要是再算上 DeepSeek 的折扣,甚至能相差 1000 倍以上!
但搞笑的是, OpenAI 的官网文章还说 GPT-4.5 “ 无法完全替代 GPT-4o ” 。
不过,OpenAI官方似乎并不太在意这一点,他们认为GPT-4.5真正出色的地方在于其卓越的语言处理能力。
他们在官网的博客里说, GPT-4.5 可以在对话中分析人类情感需求,提供情绪价值这方面是现在最牛的。
“ 它将对世界的深刻理解与更佳的协作相结合,可以形成一种模型,该模型可以在更适合人类协作的热情而直观的对话中自然地整合想法。GPT-4.5 能够更好地理解人类的意思,并以更细致入微的 “ 情商 ” 来解读微妙的暗示或隐含的期望。 ”
比如说你没考好,向他倾诉后,他会首先安慰你,但4o则会直接给你提供一大堆解决方案。
可是咋说呢,这确实显得更加有人情味了一些,但培养出一个拥有高情商的AI并不能完全证明其在所有方面都优于其他竞争对手。 在我看来,虽然这种改进能够提升用户交互体验,使AI显得更为贴心与智能,但这只是衡量AI优劣的一个方面。一个真正优秀的AI产品还需要在功能性、准确性和安全性等方面具备出色的表现。单纯依靠增加人情味可能不足以在激烈的市场竞争中脱颖而出。因此,未来的发展方向应当是多维度的优化,以满足不同用户的需求。
以字节的豆包为例,你给它发送这句话,它也能做出相当人性化的回应,甚至还能拨打电话。
不止咱们,外网的网友们也对OpenAI表达了各自的看法,他们在推特上将其与DeepSeek、Grok进行比较,含蓄地指出了它们之间的差异。
说实话这也能理解,劳资花了市场上最贵的钱,结果它是要算法有情商,要推理有情商,要应用有情商。。。
前OpenAI员工、国外知名AI分析师Andrej Karpathy在一篇文章中指出,GPT-4.5相较于其前代产品,在训练成本上增加了十倍,然而其智能水平并未在逻辑推理方面超越前代,而是更注重提升AI的情感智能。 在我看来,这一转变反映了当前AI技术发展的一个重要趋势。尽管训练成本大幅上升,但这种对情感智能的关注对于未来AI的应用具有重要意义。随着AI技术逐渐深入到人们的日常生活中,除了逻辑推理能力之外,如何理解和回应人类的情感需求变得越来越关键。这不仅能够使AI更好地服务于人类,还能促进人机交互体验的改善。当然,这也意味着我们需要进一步探讨和解决与之相关的伦理和社会问题,确保技术进步能惠及每一个人。
尽管Andrej对GPT-4.5的情感理解能力表示认可,认为这是从GPT-3.5到4.0的一个进步,但他也提到,GPT-4.5并不具备强大的推理能力,且这可能是OpenAI推出的最后一款不具备推理功能的模型。
这么一来,等到 OpenAI 在 4.5 的基础上再搞下一代推理模型,估计才会有更好的表现。
然而,由此可以推测,未来大多数人工智能的发展方向可能会完全集中在推理能力上。
一方面, GPT-4.5 的这次亮相,其实某种意义上可以说,传统只靠大力出奇迹,狂堆算力的 Scaling Law (规模法则 )已开始减速了。
而另一方面,开源模型阵营这边,在这个方向上已经上道了。
不说别的,DeepSeek开源周这几天,每天都免费分享自家V3和R1训练推理过程中的关键技术,供所有人使用。
比如说第一天的FlashMLA架构,就好比亲自指导如何优化英伟达GPU的使用方法,手把手教你如何最大限度地利用H800的计算能力;
接下来的几天里,陆续开放了DeepEP、DeepGEMM、DualPipe、EPLB等一系列数据库和算法;最后还提供了一个用于榨取固态硬盘性能的3FS和Smallpond数据处理框架。
在像GitHub这样的社区里,AI领域的开发者们这几天也是一片欢腾,DeepSeek等开源数据几乎每天都荣登GitHub热榜,这股热潮可以说催生了一位新的“源神”。
一边GPT-4.5的表现不尽如人意,一边DeepSeek却在推动人人都能使用强大的工具,这样一来,未来的AI训练可能将不再侧重传统的算力竞赛,取而代之的是追求更低成本和更高效率的训练方法将成为主流。
免责声明:本站所有文章来源于网络或投稿,如果任何问题,请联系648751016@qq.com
页面执行时间0.018551秒