打破极限,开启智能时代:Qwen2.5-Max引领数学与编程新风向
2月5日消息,1月29日新年之际,阿里云发布了全新的通义千问Qwen2.5-Max超大规模MoE模型。据官方介绍,该模型在多项基准测试中表现出色,甚至超越了DeepSeekV3等竞争对手。这一进展不仅展示了阿里云在人工智能领域的持续创新,也意味着国内企业在大型语言模型方面取得了显著进步。这无疑将进一步推动国内AI技术的发展,并为用户带来更加智能的服务体验。
阿里云今日宣布,Qwen2.5-Max在ChatbotArena大模型盲测中超越了DeepSeek-V3、OpenAIo1-mini和Claude-3.5-Sonnet等模型,以1332分位居全球第七位,同时它也是非推理类中国大模型中的第一名。
同时,Qwen2.5-Max在数学和编程等单科表现中位列榜首,在硬提示处理能力方面排名次席。
据公开资料显示,ChatbotArena是LMSYSOrg发布的一个大模型性能评测平台,目前汇集了190多个模型。
该排行榜采用匿名方式将大型模型两两配对,由用户进行盲测,并根据实际对话体验对模型能力进行投票。因此,ChatbotArenaLLMLeaderboard被视为业界最公正、最权威的排行榜之一,也是全球顶尖大型模型最重要的竞争平台。
阿里云表示,在Arena-Hard、LiveBench、LiveCodeBench、GPQA-Diamond及MMLU-Pro等主流基准测试中,Qwen2.5-Max的表现与Claude-3.5-Sonnet相当,并且几乎在所有方面都超越了GPT-4o、DeepSeek-V3以及Llama-3.1-405B。
相关阅读:
《通义千问 Qwen 2.5-Max 超大规模 MoE 模型发布:号称优于 Deepseek V3 等竞品,暂未开源》
免责声明:本站所有文章来源于网络或投稿,如果任何问题,请联系648751016@qq.com
页面执行时间0.008776秒