首页 > 科技资讯
2025
04-14

Llama-4-Maverick开源大模型排名骤降:揭秘涉嫌刷榜作弊风波

科技资讯
jinting
围观634次
0条评论
发布日期:2025年04月14日 15:48:14

Llama-4-Maverick开源大模型排名骤降:揭秘涉嫌刷榜作弊风波

AI大战:Llama-4-Maverick涉刷榜风波引发行业震动

   4月14日消息,LMArena对Meta最新开源的大模型Llama-4-Maverick进行了重新排名,该模型从原来的第2名骤降至第32名。这一结果进一步验证了之前开发者关于Meta为刷榜而向LMArena提供“特供版”Llama4大模型的质疑。

   4月6日,Meta推出了最新研发的大模型Llama4,该系列包含了Scout、Maverick和Behemoth三个版本。其中,Llama-4-Maverick在LMArena的ChatbotArenaLLM排行榜上位列第二,仅次于Gemini2.5Pro。不过,随着开发者的实际应用反馈逐渐浮出水面,Llama4的公众评价出现了明显下滑。一些开发者指出,Meta提交给LMArena的Llama4版本与提供给开源社区的版本存在差异,这引发了外界对Meta是否通过刷榜获取高排名的质疑。

   4 月 8 日,Chatbot Arena 官方发文确认了用户的上述质疑,公开表示 Meta 提供给他们的是“特供版”,并考虑更新排行榜。根据 Chatbot Arena 官方消息,Meta 首次提交 LMArena 的 Llama-4-Maverick-03-26-Experimental 是一个实验性聊天优化版本,当时该版本的排名为第二。修正后的模型为 HuggingFace 开源版同款 Llama-4-Maverick-17B-128E-Instruct,是 17B 激活参数、128 个 MoE 专家的指令微调模型。

   注意到,目前开源版同款 Llama-4-Maverick-17B-128E-Instruct 在 LMArena 的排名为 32 名,远低于 Gemini 2.5 Pro(1)、GPT4o(2)、DeepSeek-V3-0324(5)、DeepSeek-R1(7)、Qwen2.5-Max(11),甚至连英伟达基于上一代 Llama 3.3 改造的 Llama-3.3-Nemotron-Super-49B-v1(17)都不如。

   Meta推出的Llama-4-Maverick-03-26-Experimental模型表现似乎不尽如人意。根据该公司上周六发布的图表显示,该模型主要是“为了提升对话性能”而进行了优化。这些优化措施似乎在LMArena平台上得到了一定的认可,因为LMArena的评估人员会对比不同模型的输出结果,并倾向于选择他们更为满意的输出内容。

   尽管LMArena一直以来并未被公认为评估AI模型性能的权威标准,但针对这一基准进行专门调优的行为不仅容易造成误导,还可能让开发者对模型在实际应用中的表现产生误判。

   Meta 的一位发言人向 TechCrunch 表示,Meta 会尝试“各种类型的定制变体”。“‘Llama-4-Maverick-03-26-Experimental’是我们尝试的一个针对聊天优化的版本,它在 LM Arena 上也表现不错,”该发言人说,“我们现在已发布了开源版本,将看看开发者如何根据自己的使用案例定制 Llama 4。我们期待看到他们构建的内容,并期待他们持续的反馈。”

本文固定链接: https://www.news9999.cn/arts_content-97648.html 转载请注明出处(科技快讯中文网-www.news9999.cn)
最新发布 国内首台能干会玩的人形机器人来了!星动纪元发布星动L7引爆未来科技  2025-07-22 14:18:46 macOS 15.6 RC震撼登场:全新功能引爆科技圈  2025-07-22 12:18:07 苹果 macOS 15.6 RC 更新现小插曲:26 Tahoe 测试版悄然推送,界面大变身  2025-07-22 12:17:34 超耐用折叠新标杆!三星Galaxy Z Flip7首获欧盟能效认证  2025-07-22 12:17:15 AC-Cache亮相PPOPP,腾讯云GooseFS与厦门大学共创存储新范式  2025-07-22 12:15:03 英伟达联发科AI PC芯片遇阻:设计调整与微软系统进度成关键阻力  2025-07-22 12:14:43 奥尼4K摄像机引爆P&I2025,直播涨粉新革命来袭  2025-07-22 12:14:11 2999元入手!苹果11英寸iPad A16国补后仅2197元,限时优惠太香了  2025-07-22 12:12:47 荣耀 X70 首销三日登顶全品牌销量榜首,引爆市场热潮  2025-07-22 12:09:06 三星新一代可折叠OLED震撼登场:坚固性狂飙2.5倍,未来触手可及  2025-07-22 11:59:41 长江存储2026年或成NAND市场新势力,国产产能占比将突破15%  2025-07-22 11:47:49 小米昆仑N3伪装车首曝,或将于2025年底震撼登场  2025-07-21 15:56:21 华硕战杀24震撼登场:949元解锁23.8英寸240Hz超感视觉新体验  2025-07-21 15:45:14 三成车主拒付车联网费用,智能汽车烧钱路在何方?  2025-07-21 15:43:30 因系统故障,阿拉斯加航空突发全面停飞  2025-07-21 15:38:35 诺基亚回归!HMD 102 4G 搭载 DeepSeek AI 助手,仅售 169 元引爆市场  2025-07-21 15:26:52 三月狂降458元!iReader Ocean 4 长续航版跌破千元大关  2025-07-21 15:26:17 Debian 13Trixie8月9日重磅登场,RISC-V支持开启新篇章  2025-07-21 15:15:58 华为MatePad Pro 12.2英寸重磅登场:双层OLED屏+M-Pencil Pro,鸿蒙AI引领生产力新革命  2025-07-21 15:15:23 「事件」栏目上线!9.05版本重磅升级,科技动态秒同步日历提醒  2025-07-21 15:11:41 华为 MatePad Pro 12.2 英寸 2025 重磅登场:标准与柔光双色可选,顶配配置震撼发布  2025-07-21 15:06:14 微软退出流媒体战场: 电影和电视商店正式关闭  2025-07-21 15:05:24 科技昨夜今晨改写为:**《科技早班车:新车限售、高铁饮食风波与万能遥控器暗藏玄机》**  2025-07-21 14:56:06 余承东震撼官宣:华为Pura 80标准版7月23日即将开售  2025-07-21 14:30:45 EAST望远镜新动向:高原光学观测迈入新时代  2025-07-21 14:18:53
友情链接 百度权重≥5友情链接交换
文化潮流网  |  数界探索  |  文化新视界  |  深度文化说  |  智慧科技  |  财智慧  |  慧算财经  |  财经探秘  |  财经日报  |  今日财经
© 2015-2025 科技快讯中文网 时光记忆 版权所有 备案号:陇ICP备2025016403号-1

免责声明:本站所有文章来源于网络或投稿,如果任何问题,请联系648751016@qq.com

网站地图  联系我们  用户投稿  关于我们

页面执行时间0.007726秒