首页 > 科技资讯
2025
02-23

OpenAI员工炮轰xAI:Grok 3基准测试是否隐藏了真相?

科技资讯
jinting
围观967次
0条评论
发布日期:2025年02月23日 20:14:39

OpenAI员工炮轰xAI:Grok 3基准测试是否隐藏了真相?

OpenAI内部质疑声四起:Grok 3基准测试,真相还是误导?

   2月23日消息,本周,OpenAI的一名员工公开指责埃隆・马斯克旗下的xAI公司,称其发布的最新AI模型Grok3的基准测试结果存在误导。对此,xAI的联合创始人伊戈尔・巴布什金表示公司行为并无不妥。

   xAI在其官方博客上发布了一张图表,展示了Grok3在AIME2025上的表现。AIME2025是一项针对高级数学能力的邀请制考试,尽管有专家质疑其作为AI基准的有效性,但这项考试及其早期版本仍然被广泛认为是评估模型数学能力的重要指标。 虽然AIME2025的测试结果可能受到多种因素的影响,但不可否认的是,它为评估AI在解决复杂数学问题方面的能力提供了一个有价值的参考点。无论如何,这一结果显示了Grok3在应对高难度数学挑战方面的进步和潜力,这无疑是一个值得关注的发展趋势。

   注意到,xAI 的图表显示,Grok 3 的两个版本 ——Grok 3 Reasoning Beta 和 Grok 3 mini Reasoning—— 在 AIME 2025 上的表现超过了 OpenAI 当前最强的可用模型 o3-mini-high。然而,OpenAI 的员工很快在 X 平台上指出,xAI 的图表并未包含 o3-mini-high 在“cons@64”条件下的 AIME 2025 得分。

   "cons@64"指的是“consensus@64”,意味着允许模型在基准测试中对每个问题尝试64次,并选择出现次数最多的结果作为最终答案。显然,这种方法通常会大幅提升模型的基准测试分数。若图表中未包含这一数据,可能会误导读者认为某一模型的表现优于另一模型,但实际情况并非总是如此。

   在AIME2025的“@1”条件下(即模型首次尝试的得分),Grok3ReasoningBeta和Grok3miniReasoning的得分低于o3-mini-high。Grok3ReasoningBeta的表现也稍逊于OpenAI的o1模型在“中等计算”设置下的得分。然而,xAI依然声称Grok3是“世界上最聪明的AI”。

   巴布什金在 X 平台上辩称,OpenAI 过去也曾发布过类似的误导性基准测试图表。尽管这些图表是用于比较其自身模型的表现。

   在这场充满争议的讨论中,一位中立的第三方专家重新绘制了一张更为“准确”的图表。这一举动无疑为这场争论增添了一个新的视角,让人们对原本模糊不清的问题有了更清晰的认识。新图表的发布不仅有助于澄清一些误导性的信息,而且也促进了各方对核心议题的理解和对话。然而,值得注意的是,即便图表被标榜为“更准确”,其解读仍然可能受到不同背景和立场的影响。因此,在接受这些信息时,我们仍需保持批判性思维,综合考虑各种因素,才能更好地理解事件的全貌。

   尽管AI研究员内森·兰伯特(Nathan Lambert)在文章中提到,目前仍有一个关键指标未被充分认识:即每个模型达到最优表现所需的具体计算资源与资金投入。这反映出当前多数AI基准测试在全面揭示模型的优势与局限性上还存在着较大的提升空间。 这一发现不仅揭示了现有评估体系的不足,也提醒我们,在追求技术进步的同时,必须更加关注技术实现的实际成本。这不仅仅是经济层面的问题,更是对技术可行性和可持续性的深度考量。因此,未来的研究需要更多地聚焦于如何更准确地衡量这些成本,并将其纳入到综合评价体系之中。

本文固定链接: https://www.news9999.cn/arts_content-52704.html 转载请注明出处(科技快讯中文网-www.news9999.cn)
最新发布 小米昆仑N3伪装车首曝,或将于2025年底震撼登场  2025-07-21 15:56:21 华硕战杀24震撼登场:949元解锁23.8英寸240Hz超感视觉新体验  2025-07-21 15:45:14 三成车主拒付车联网费用,智能汽车烧钱路在何方?  2025-07-21 15:43:30 因系统故障,阿拉斯加航空突发全面停飞  2025-07-21 15:38:35 诺基亚回归!HMD 102 4G 搭载 DeepSeek AI 助手,仅售 169 元引爆市场  2025-07-21 15:26:52 三月狂降458元!iReader Ocean 4 长续航版跌破千元大关  2025-07-21 15:26:17 Debian 13Trixie8月9日重磅登场,RISC-V支持开启新篇章  2025-07-21 15:15:58 华为MatePad Pro 12.2英寸重磅登场:双层OLED屏+M-Pencil Pro,鸿蒙AI引领生产力新革命  2025-07-21 15:15:23 「事件」栏目上线!9.05版本重磅升级,科技动态秒同步日历提醒  2025-07-21 15:11:41 华为 MatePad Pro 12.2 英寸 2025 重磅登场:标准与柔光双色可选,顶配配置震撼发布  2025-07-21 15:06:14 微软退出流媒体战场: 电影和电视商店正式关闭  2025-07-21 15:05:24 科技昨夜今晨改写为:**《科技早班车:新车限售、高铁饮食风波与万能遥控器暗藏玄机》**  2025-07-21 14:56:06 余承东震撼官宣:华为Pura 80标准版7月23日即将开售  2025-07-21 14:30:45 EAST望远镜新动向:高原光学观测迈入新时代  2025-07-21 14:18:53 iPhone 17 色彩风暴来袭!雅鲁藏布江水电工程启动,玄戒 O2 5G 进展引关注  2025-07-20 08:13:12 华为智能基站革新:动态波形技术引领效率革命  2025-07-19 11:09:45 AI界新王者登场:OpenAI o3-alpha震撼发布,碾压Sonnet与Grok4  2025-07-19 09:54:00 仅一家厂商定档9月底发布第二代骁龙8至尊版旗舰,10月战火将燃  2025-07-19 09:50:45 挑战谷歌?Perplexity拟在手机预装AI浏览器破局  2025-07-19 09:47:04 纳米刺客出击:中科院首创肿瘤细胞自毁新策略  2025-07-18 14:25:51 极端高温引爆住院潮,2100年或现510万热伤人群  2025-07-18 14:21:10 1599元起!WIKO Hi畅享80 Pro震撼上市:6100mAh超长续航+鸿蒙生态加持  2025-07-18 13:46:14 荣耀 X70 首发价1399元起,七大旗舰黑科技全面下放  2025-07-18 13:45:31 三星首款三折叠旗舰搭载骁龙8至尊版,One UI 8曝光新机配置  2025-07-18 13:44:54 像素蛋糕发布方糖大模型:让灵感瞬间转化为生产力  2025-07-18 13:32:42
友情链接 百度权重≥5友情链接交换
文化潮流网  |  数界探索  |  文化新视界  |  深度文化说  |  智慧科技  |  财智慧  |  慧算财经  |  财经探秘  |  财经日报  |  今日财经
© 2015-2025 科技快讯中文网 时光记忆 版权所有 备案号:陇ICP备2025016403号-1

免责声明:本站所有文章来源于网络或投稿,如果任何问题,请联系648751016@qq.com

网站地图  联系我们  用户投稿  关于我们

页面执行时间0.008084秒