OpenAI内部质疑声四起:Grok 3基准测试,真相还是误导?
2月23日消息,本周,OpenAI的一名员工公开指责埃隆・马斯克旗下的xAI公司,称其发布的最新AI模型Grok3的基准测试结果存在误导。对此,xAI的联合创始人伊戈尔・巴布什金表示公司行为并无不妥。
xAI在其官方博客上发布了一张图表,展示了Grok3在AIME2025上的表现。AIME2025是一项针对高级数学能力的邀请制考试,尽管有专家质疑其作为AI基准的有效性,但这项考试及其早期版本仍然被广泛认为是评估模型数学能力的重要指标。 虽然AIME2025的测试结果可能受到多种因素的影响,但不可否认的是,它为评估AI在解决复杂数学问题方面的能力提供了一个有价值的参考点。无论如何,这一结果显示了Grok3在应对高难度数学挑战方面的进步和潜力,这无疑是一个值得关注的发展趋势。
注意到,xAI 的图表显示,Grok 3 的两个版本 ——Grok 3 Reasoning Beta 和 Grok 3 mini Reasoning—— 在 AIME 2025 上的表现超过了 OpenAI 当前最强的可用模型 o3-mini-high。然而,OpenAI 的员工很快在 X 平台上指出,xAI 的图表并未包含 o3-mini-high 在“cons@64”条件下的 AIME 2025 得分。
"cons@64"指的是“consensus@64”,意味着允许模型在基准测试中对每个问题尝试64次,并选择出现次数最多的结果作为最终答案。显然,这种方法通常会大幅提升模型的基准测试分数。若图表中未包含这一数据,可能会误导读者认为某一模型的表现优于另一模型,但实际情况并非总是如此。
在AIME2025的“@1”条件下(即模型首次尝试的得分),Grok3ReasoningBeta和Grok3miniReasoning的得分低于o3-mini-high。Grok3ReasoningBeta的表现也稍逊于OpenAI的o1模型在“中等计算”设置下的得分。然而,xAI依然声称Grok3是“世界上最聪明的AI”。
巴布什金在 X 平台上辩称,OpenAI 过去也曾发布过类似的误导性基准测试图表。尽管这些图表是用于比较其自身模型的表现。
在这场充满争议的讨论中,一位中立的第三方专家重新绘制了一张更为“准确”的图表。这一举动无疑为这场争论增添了一个新的视角,让人们对原本模糊不清的问题有了更清晰的认识。新图表的发布不仅有助于澄清一些误导性的信息,而且也促进了各方对核心议题的理解和对话。然而,值得注意的是,即便图表被标榜为“更准确”,其解读仍然可能受到不同背景和立场的影响。因此,在接受这些信息时,我们仍需保持批判性思维,综合考虑各种因素,才能更好地理解事件的全貌。
尽管AI研究员内森·兰伯特(Nathan Lambert)在文章中提到,目前仍有一个关键指标未被充分认识:即每个模型达到最优表现所需的具体计算资源与资金投入。这反映出当前多数AI基准测试在全面揭示模型的优势与局限性上还存在着较大的提升空间。 这一发现不仅揭示了现有评估体系的不足,也提醒我们,在追求技术进步的同时,必须更加关注技术实现的实际成本。这不仅仅是经济层面的问题,更是对技术可行性和可持续性的深度考量。因此,未来的研究需要更多地聚焦于如何更准确地衡量这些成本,并将其纳入到综合评价体系之中。
免责声明:本站所有文章来源于网络或投稿,如果任何问题,请联系648751016@qq.com
页面执行时间0.008084秒