阿里云发布Qwen2.5-Omni：新一代全能多模态模型重磅开源-科技快讯中文网

2025

03-27

阿里云发布Qwen2.5-Omni：新一代全能多模态模型重磅开源

企业动态

jinting

围观1461次

0条评论

发布日期：2025年03月27日 06:49:31

阿里云发布Qwen2.5-Omni：新一代全能多模态模型重磅开源

Qwen2.5-Omni引爆开源热潮：全能多模态模型重塑人工智能未来

　　 3月27日凌晨，阿里云正式推出了通义千问Qwen系列的新一代端到端多模态旗舰模型——Qwen2.5-Omni。这一模型的问世标志着多模态技术在实际应用中的进一步突破。值得关注的是，阿里云此次选择在多个知名平台如HuggingFace、ModelScope、DashScope以及GitHub上进行开源，此举无疑将进一步推动多模态技术的普及与创新。在我看来，阿里云此次开源Qwen2.5-Omni不仅体现了其技术实力，也展现了开放合作的态度。多模态技术能够整合文本、图像、语音等多种信息形式，为人工智能的应用提供了更广阔的可能性。而通过开源的方式，阿里云不仅降低了开发者和技术人员使用该技术的门槛，还能够吸引更多优秀的开发者加入，共同推动技术的进步和发展。这种开放共享的精神对于整个行业来说都是一个积极的信号，相信未来会有更多基于此模型的创新应用涌现出来，为用户带来更加丰富和智能的服务体验。

　　阿里云表示，这款模型专注于全场景多模态理解，可轻松应对文本、图片、音频及视频等多样化输入类型，并借助实时流式交互同步输出文本与语音合成结果。其核心特性总结如下：

　　 Qwen团队推出了一种创新的Thinker-Talker架构，这是一款端到端的多模态模型，能够处理文本、图像、音频和视频的跨模态理解任务，并以流式方式生成文本和自然语音回应。Qwen开发了一种独特的位置编码技术，名为TMRoPE（Time-aligned Multimodal RoPE），通过时间轴对齐来确保视频与音频输入的高度同步性。

　　实时音视频交互：架构旨在支持完全实时交互，支持分块输入和即时输出。

　　在语音生成的自然度与稳定性上，这款方案已超越众多现有的流式和非流式解决方案。

　　全模态性能优势显著：当以相同规模对比单模态模型的基准测试时，Qwen2.5-Omni展现了更为出色的性能表现。尤其值得一提的是，其在音频处理方面的能力超越了同级别的Qwen2-Audio，同时在视觉与语言融合任务上的水准也与Qwen2.5-VL-7B持平。这不仅证明了跨模态学习的强大潜力，也展示了通义千问系列在多模态技术领域的持续领先地位。在我看来，这种全面且均衡的能力提升对于推动人工智能向更广泛的应用场景迈进具有重要意义。无论是音频理解还是视觉分析，这些功能的增强都将极大丰富用户体验，为开发者提供更多可能性。未来，随着更多创新应用场景的开发，我相信像Qwen2.5-Omni这样的多模态模型将会成为行业发展的关键驱动力之一。

　　卓越的端到端语音指令跟随能力：Qwen2.5-Omni 在端到端语音指令跟随方面表现出与文本输入处理相媲美的效果，在 MMLU 通用知识理解和 GSM8K 数学推理等基准测试中表现优异。

　　据官方介绍，Qwen2.5-Omni采用了独特的Thinker-Talker双核架构，这种设计让其在多模态任务上表现出色。其中，Thinker模块扮演着核心处理器的角色，能够高效处理包括文本、音频、视频在内的多种输入形式，进而提炼出高层次的语义信息，并生成对应的文本内容。而Talker模块则专注于将这些抽象的信息转化为具体的语音表达，它通过流式处理机制，实时接收Thinker传递来的语义特征与文本数据，从而实现自然流畅的声音输出。在我看来，这种架构的最大亮点在于它实现了从感知到表达的高度一体化。Thinker不仅继承了Transformer解码器的强大能力，还结合了音频和图像编码器的优势，使得信息处理更加全面且精准。同时，Talker的设计也颇具匠心，特别是其双轨自回归Transformer解码器能够在训练与推理阶段无缝衔接Thinker的数据流，确保了整个系统的连续性和一致性。这一创新性的技术路径不仅提升了人机交互体验，也为未来跨模态应用开辟了新的可能性。例如，在智能客服、虚拟助手等领域，这样的系统可以更好地理解用户需求并作出恰当回应。当然，随之而来的挑战也不容忽视，比如如何进一步优化模型效率以适应更复杂的场景，以及如何保护用户的隐私安全等问题都需要持续关注和解决。总体而言，Qwen2.5-Omni无疑为人工智能领域树立了一个新标杆。

　　 Qwen2.5-Omni在图像、音频、音视频等多种模态上的表现均超越了同规模的单模态模型以及一些闭源模型，比如Qwen2.5-VL-7B、Qwen2-Audio和Gemini-1.5-pro。

　　在OmniBench这一多模态任务评测中，Qwen2.5-Omni取得了行业领先的成果。同时，在单模态任务方面，Qwen2.5-Omni在多个领域展现出色性能，涵盖语音识别（CommonVoice）、翻译（CoVoST2）、音频理解（MMAU）、图像推理（MMMU、MMStar）、视频理解（MVBench）以及语音生成（Seed-tts-eval和主观自然听感）。

　　 Qwen Chat：https://chat.qwenlm.ai

　　 Hugging Face：https://huggingface.co/Qwen/Qwen2.5-Omni-7B

　　 ModelScope：https://modelscope.cn/models/Qwen/Qwen2.5-Omni-7B

　　 DashScope：https://help.aliyun.com/zh/model-studio/user-guide/qwen-omni

　　 GitHub：https://github.com/QwenLM/Qwen2.5-Omni

　　 Demo 体验：https://modelscope.cn/ studios / Qwen / Qwen2.5-Omni-Demo

首页 > 企业动态

2025

03-27