Llama-4-Maverick开源大模型排名骤降：揭秘涉嫌刷榜作弊风波-科技快讯中文网

2025

04-14

Llama-4-Maverick开源大模型排名骤降：揭秘涉嫌刷榜作弊风波

科技资讯

jinting

围观634次

0条评论

发布日期：2025年04月14日 15:48:14

Llama-4-Maverick开源大模型排名骤降：揭秘涉嫌刷榜作弊风波

AI大战：Llama-4-Maverick涉刷榜风波引发行业震动

　　 4月14日消息，LMArena对Meta最新开源的大模型Llama-4-Maverick进行了重新排名，该模型从原来的第2名骤降至第32名。这一结果进一步验证了之前开发者关于Meta为刷榜而向LMArena提供“特供版”Llama4大模型的质疑。

　　 4月6日，Meta推出了最新研发的大模型Llama4，该系列包含了Scout、Maverick和Behemoth三个版本。其中，Llama-4-Maverick在LMArena的ChatbotArenaLLM排行榜上位列第二，仅次于Gemini2.5Pro。不过，随着开发者的实际应用反馈逐渐浮出水面，Llama4的公众评价出现了明显下滑。一些开发者指出，Meta提交给LMArena的Llama4版本与提供给开源社区的版本存在差异，这引发了外界对Meta是否通过刷榜获取高排名的质疑。

　　 4 月 8 日，Chatbot Arena 官方发文确认了用户的上述质疑，公开表示 Meta 提供给他们的是“特供版”，并考虑更新排行榜。根据 Chatbot Arena 官方消息，Meta 首次提交 LMArena 的 Llama-4-Maverick-03-26-Experimental 是一个实验性聊天优化版本，当时该版本的排名为第二。修正后的模型为 HuggingFace 开源版同款 Llama-4-Maverick-17B-128E-Instruct，是 17B 激活参数、128 个 MoE 专家的指令微调模型。

　　注意到，目前开源版同款 Llama-4-Maverick-17B-128E-Instruct 在 LMArena 的排名为 32 名，远低于 Gemini 2.5 Pro（1）、GPT4o（2）、DeepSeek-V3-0324（5）、DeepSeek-R1（7）、Qwen2.5-Max（11），甚至连英伟达基于上一代 Llama 3.3 改造的 Llama-3.3-Nemotron-Super-49B-v1（17）都不如。

　　 Meta推出的Llama-4-Maverick-03-26-Experimental模型表现似乎不尽如人意。根据该公司上周六发布的图表显示，该模型主要是“为了提升对话性能”而进行了优化。这些优化措施似乎在LMArena平台上得到了一定的认可，因为LMArena的评估人员会对比不同模型的输出结果，并倾向于选择他们更为满意的输出内容。

　　尽管LMArena一直以来并未被公认为评估AI模型性能的权威标准，但针对这一基准进行专门调优的行为不仅容易造成误导，还可能让开发者对模型在实际应用中的表现产生误判。

　　 Meta 的一位发言人向 TechCrunch 表示，Meta 会尝试“各种类型的定制变体”。“‘Llama-4-Maverick-03-26-Experimental’是我们尝试的一个针对聊天优化的版本，它在 LM Arena 上也表现不错，”该发言人说，“我们现在已发布了开源版本，将看看开发者如何根据自己的使用案例定制 Llama 4。我们期待看到他们构建的内容，并期待他们持续的反馈。”

首页 > 科技资讯

2025

04-14