首页 > 科技资讯
2025
05-29

《Meta推出Multi-SpatialMLLM:开启多模态空间理解新篇章》

科技资讯
jinting
围观965次
0条评论
发布日期:2025年05月29日 21:42:46

《Meta推出Multi-SpatialMLLM:开启多模态空间理解新篇章》

《Meta发布Multi-SpatialMLLM:引领多模态空间理解革命性突破》

   5月29日消息,科技媒体marktechpost于昨日(5月28日)发文指出,Meta公司携手发布了Multi-SpatialMLLM模型。该模型融合了深度感知、视觉对应以及动态感知三大模块,成功超越单帧图像分析的限制。

   多模态大语言模型(MLLMs)近年来在视觉任务处理方面取得了令人瞩目的成就,然而,这类模型由于主要以独立数字实体的形式存在,其实际应用范围和影响力仍然受到一定限制。 这些模型能够高效地处理复杂的视觉信息,并生成高质量的结果,这无疑为相关领域带来了新的机遇。然而,它们的功能实现往往依赖于特定的技术环境和数据支持,这在一定程度上制约了其广泛应用的可能性。我认为,未来的发展方向应着重于如何让这些强大的技术更贴近普通用户的需求,比如通过简化操作界面或开发更多元化的应用场景,使MLLMs不仅限于学术研究,还能在日常生活中发挥更大的作用。这样不仅能提升公众对新技术的认知度,也能促进科技与社会的深度融合。

   随着机器人技术和自动驾驶领域的发展需求不断增加,MLLMs必须具备复杂的空间理解能力。然而,目前的模型在基础的空间推理任务中屡屡出错,比如难以正确辨别左右方向。

   过去的研究将问题归因于缺乏专门训练数据,并尝试通过单张图像的空间数据训练改进,但这种方法局限于静态视角分析,缺乏动态信息处理能力。

   Meta旗下FAIR团队携手香港中文大学,针对空间理解挑战发布了MultiSPA数据集。该数据集包含超过2700万个样本,覆盖了多种类型的3D和4D场景。

   该数据集整合了AriaDigitalTwin和PanopticStudio等高精度标注场景数据,同时借助GPT-4o构建多样化的任务模板。

   研究还设计了五个训练任务,包括深度感知、相机移动感知和物体大小感知等,提升 Multi-SpatialMLLM 模型在多帧空间推理上的能力。

   Multi-SpatialMLLM在MultiSPA基准测试中的表现令人瞩目,相比基础模型其性能提升了36%。尤其在定性任务方面,该模型的准确率达到了80%-90%,远远超越了基础模型50%的水平。即便是在预测相机移动向量这样复杂的任务中,Multi-SpatialMLLM依然取得了18%的准确率,展现了强大的技术实力。 从我的角度来看,这一成果不仅标志着人工智能技术在特定领域的显著进步,也为未来更复杂任务的解决提供了新的可能性。Multi-SpatialMLLM能够在高难度任务中展现出色的表现,说明它在处理多模态信息和空间感知方面具有独特优势。这不仅是技术层面的成功,也意味着我们在构建更加智能、高效的AI系统道路上迈出了坚实的一步。希望未来能看到更多类似的技术突破,进一步推动人工智能的应用边界。

   在BLINK基准测试中,该模型的准确率接近90%,平均提升了26.4%,超过了多个专有系统的表现。同时,模型在标准视觉问答(VQA)测试中的性能保持稳定,体现出其不依赖过度拟合空间推理任务的通用能力。

   附上参考地址

   Meta AI Introduces Multi-SpatialMLLM: A Multi-Frame Spatial Understanding with Multi-modal Large Language Models

   Multi-SpatialMLLM: Multi-Frame Spatial Understanding with Multi-Modal Large Language Models

   项目页面

   GitHub 页面

本文固定链接: https://www.news9999.cn/arts_content-110512.html 转载请注明出处(科技快讯中文网-www.news9999.cn)
最新发布 天玑9400强势来袭,联发科2024年登顶中国高端芯片三成市场  2025-08-14 07:10:28 苹果 iPad 维修政策大变革:首推到店维修,收费透明化引关注  2025-08-14 06:51:20 全球首台相控阵CT亮相!成像清晰度媲美解剖,国产科技再破纪录  2025-08-14 06:51:18 腾讯视频VIP月费或涨至38元?官方回应来了  2025-08-11 20:58:16 苹果独占六成市场,高端手机战场再掀波澜  2025-08-11 20:18:42 美国禁令新变招:AI芯片出口附15%抽成条款  2025-08-11 20:16:17 英伟达H20利润15%将流入美国,中国或可反制要求对等回馈  2025-08-11 20:06:49 未来家庭新成员登场!镜识科技携三款智能机器狗震撼亮相2025世界机器人博览会  2025-08-11 20:04:13 AI裁员潮来袭!毕业生失业率飙升,这些岗位首当其冲  2025-08-11 19:57:56 小天才领跑,华为紧随:2025上半年儿童智能手表销量突破812万台创新高  2025-08-11 19:28:59 哈苏 X2D II 震撼来袭:8 月 26 日发布,LiDAR 自动对焦 + 8 档防抖引领中画幅新纪元  2025-08-11 19:28:04 RTX 6000 Ada 120fps 突破极限,FFmpeg 8.0 即将解锁苹果 ProRes RAW 硬件加速新时代  2025-08-11 19:10:55 马斯克开源最强AIGrok 4,普通用户每日可免费体验  2025-08-11 19:07:23 利民推出纵横视界AIO水冷机箱副屏:6.68英寸1280×480,售价192元  2025-08-11 18:56:04 三星Galaxy S26 Ultra将引爆内存革命:LPDDR5X速率达10Gbps破界而来  2025-08-11 18:52:41 华为5.5G赋能万人体育馆:满座畅享600Mbps无死角网络体验  2025-08-11 18:51:36 荣耀联名 Jimmy Choo 推出 Magic V Flip2 高定版,开启折叠屏时尚新纪元  2025-08-11 18:49:26 OPPO Find X9 Ultra重磅曝光:7000mAh巨能电池+100W闪充引领续航新革命  2025-08-11 18:47:20 计算机应届生失业率破7%,竟超艺术生两倍?真相令人震惊  2025-08-11 18:43:04 美或松绑AI禁令,HBM内存解封成华为新助力  2025-08-11 18:40:55 谷歌Pixel Watch 4震撼亮相:双尺寸+五色可选,时尚与科技完美融合  2025-08-07 12:05:35 AVX-512强势回归!Intel新核Nova Lake将引领性能新纪元  2025-08-07 11:24:18 vivo X200 Ultra DXO影像得分167惊艳登场,超越华为苹果旗舰成新标杆  2025-08-07 11:21:20 iPhone 17震撼来袭:9月9日发布,预售同步开启  2025-08-07 10:55:30 AVX-512强势回归,英特尔剑指AMD性能巅峰对决  2025-08-07 10:29:21
友情链接 百度权重≥5友情链接交换
文化潮流网  |  数界探索  |  文化新视界  |  深度文化说  |  智慧科技  |  财智慧  |  慧算财经  |  财经探秘  |  财经日报  |  今日财经
© 2015-2025 科技快讯中文网 时光记忆 版权所有 备案号:陇ICP备2025016403号-1

免责声明:本站所有文章来源于网络或投稿,如果任何问题,请联系648751016@qq.com

网站地图  联系我们  用户投稿  关于我们

页面执行时间0.01293秒