AI大战:Llama-4-Maverick涉刷榜风波引发行业震动
4月14日消息,LMArena对Meta最新开源的大模型Llama-4-Maverick进行了重新排名,该模型从原来的第2名骤降至第32名。这一结果进一步验证了之前开发者关于Meta为刷榜而向LMArena提供“特供版”Llama4大模型的质疑。
4月6日,Meta推出了最新研发的大模型Llama4,该系列包含了Scout、Maverick和Behemoth三个版本。其中,Llama-4-Maverick在LMArena的ChatbotArenaLLM排行榜上位列第二,仅次于Gemini2.5Pro。不过,随着开发者的实际应用反馈逐渐浮出水面,Llama4的公众评价出现了明显下滑。一些开发者指出,Meta提交给LMArena的Llama4版本与提供给开源社区的版本存在差异,这引发了外界对Meta是否通过刷榜获取高排名的质疑。
4 月 8 日,Chatbot Arena 官方发文确认了用户的上述质疑,公开表示 Meta 提供给他们的是“特供版”,并考虑更新排行榜。根据 Chatbot Arena 官方消息,Meta 首次提交 LMArena 的 Llama-4-Maverick-03-26-Experimental 是一个实验性聊天优化版本,当时该版本的排名为第二。修正后的模型为 HuggingFace 开源版同款 Llama-4-Maverick-17B-128E-Instruct,是 17B 激活参数、128 个 MoE 专家的指令微调模型。
注意到,目前开源版同款 Llama-4-Maverick-17B-128E-Instruct 在 LMArena 的排名为 32 名,远低于 Gemini 2.5 Pro(1)、GPT4o(2)、DeepSeek-V3-0324(5)、DeepSeek-R1(7)、Qwen2.5-Max(11),甚至连英伟达基于上一代 Llama 3.3 改造的 Llama-3.3-Nemotron-Super-49B-v1(17)都不如。
Meta推出的Llama-4-Maverick-03-26-Experimental模型表现似乎不尽如人意。根据该公司上周六发布的图表显示,该模型主要是“为了提升对话性能”而进行了优化。这些优化措施似乎在LMArena平台上得到了一定的认可,因为LMArena的评估人员会对比不同模型的输出结果,并倾向于选择他们更为满意的输出内容。
尽管LMArena一直以来并未被公认为评估AI模型性能的权威标准,但针对这一基准进行专门调优的行为不仅容易造成误导,还可能让开发者对模型在实际应用中的表现产生误判。
Meta 的一位发言人向 TechCrunch 表示,Meta 会尝试“各种类型的定制变体”。“‘Llama-4-Maverick-03-26-Experimental’是我们尝试的一个针对聊天优化的版本,它在 LM Arena 上也表现不错,”该发言人说,“我们现在已发布了开源版本,将看看开发者如何根据自己的使用案例定制 Llama 4。我们期待看到他们构建的内容,并期待他们持续的反馈。”
免责声明:本站所有文章来源于网络或投稿,如果任何问题,请联系648751016@qq.com
页面执行时间0.007726秒