阿里通义Qwen2.5-VL开源：全新视觉理解模型引领三尺寸时代，支持长视频理解和事件捕捉-科技快讯中文网

2025

01-28

阿里通义Qwen2.5-VL开源：全新视觉理解模型引领三尺寸时代，支持长视频理解和事件捕捉

科技资讯

jinting

围观870次

0条评论

发布日期：2025年01月28日 07:54:24

阿里通义Qwen2.5-VL开源：全新视觉理解模型引领三尺寸时代，支持长视频理解和事件捕捉

视觉AI新边界：Qwen2.5-VL引领多维时代，深度长视频理解再升级

　　 1月28日，阿里通义千问官方发布消息，宣布推出全新的视觉理解模型Qwen2.5-VL，这是Qwen模型家族中的旗舰视觉语言模型。该模型提供了3B、7B和72B三种不同尺寸的版本。这一举措无疑为人工智能领域注入了新的活力，特别是在多模态理解和处理方面，展示了阿里在技术创新上的持续努力。随着技术的发展，我们期待看到更多基于此类模型的应用场景落地，从而更好地服务于社会和用户需求。

　　附 Qwen2.5-VL 的主要特点如下：

　　视觉理解：Qwen2.5-VL在识别常见物体方面表现出色，如花、鸟、鱼和昆虫，同时还能够解析图像中的文本、图表、图标、图形以及布局信息。

　　代理：Qwen2.5-VL作为一款视觉Agent，已经展现出了强大的能力，不仅可以进行推理，还能动态地使用工具，这标志着它在处理视觉信息方面取得了显著进展。目前，这款技术已经让机器初步具备了操作电脑和手机的能力，这意味着未来人工智能在日常任务中的应用将更加广泛和深入。这一突破不仅展示了人工智能技术的进步，也预示着人机交互方式即将发生重大变革。随着这类技术的进一步发展和普及，未来的智能设备将能够更好地理解用户的需求，并以更自然的方式与人类互动。这无疑将极大地提升我们的生活质量和工作效率。

　　 Qwen2.5-VL现在可以分析时长超过1小时的视频内容，并且新增了精确定位相关视频段落以捕捉特定事件的能力。

　　视觉定位：Qwen2.5-VL 可以通过生成 bounding boxes 或者 points 来准确定位图像中的物体，并能够为坐标和属性提供稳定的 JSON 输出。

　　结构化输出：对于发票、表单和表格中的数据，Qwen2.5-VL能够实现结构化的输出，这为金融和商业领域带来了诸多便利。

　　据官方介绍，在旗舰模型Qwen2.5-VL-72B-Instruct的测试中，它在多项跨领域和任务的基准测试中表现卓越，涵盖了大学水平的问题、数学、文档解析、视觉问答、视频理解和视觉Agent操作。Qwen2.5-VL在解读文档和图表方面尤为突出，并且能够作为视觉Agent执行任务，而无需针对具体任务进行额外微调。

　　另外，在较小的模型方面，Qwen2.5-VL-7B-Instruct在多项任务中表现优于GPT-4o-mini，而Qwen2.5-VL-3B作为终端侧AI的潜力选手，也在性能上超过了之前的Qwen2-VL 7B版本。

　　阿里通义千问官方宣布，相较于Qwen2-VL，Qwen2.5-VL在模型对时间及空间尺度的理解方面进行了增强，并且进一步简化了网络结构以提升模型效率。未来，团队将持续加强模型的问题解决和推理能力，同时融合更多的模态，使模型更加智能化，并朝着能够应对多种输入类型和任务的综合性全能模型方向发展。

首页 > 科技资讯

2025

01-28