首页 > 科技资讯
2025
01-23

北京大学与智元机器人联合实验室发布全新 OmniManip 机器人,革新 3D 操作能力

科技资讯
jinting
围观1413次
0条评论
发布日期:2025年01月23日 13:29:47

北京大学与智元机器人联合实验室发布全新 OmniManip 机器人,革新 3D 操作能力

全新OmniManip机器人:颠覆3D操作,引领未来智能革命

   1月23日消息,如何将视觉语言基础模型(Vision-Language Models, VLMs)应用于机器人以实现通用操作是具身智能领域的一个核心问题,这一目标的实现受到两大关键挑战的制约:

   视觉语言模型(VLM)在处理精确的3D理解方面存在明显不足。这主要是由于VLM通常通过对比学习范式进行训练,其输入仅限于2D图像或文本信息。这种局限性使得VLM难以全面捕捉物体的空间结构和深度信息,从而限制了它在复杂场景中的应用效果。 这种局限性不仅影响了VLM在自动驾驶、虚拟现实等领域的表现,还可能阻碍其在更广泛的智能系统中的部署。因此,未来的研究需要更多地关注如何将三维感知能力融入现有的视觉语言模型框架中,以便更好地理解和处理现实世界中的复杂场景。

   将视觉-语言模型(VLM)应用于机器人数据进行微调以生成视觉-语言-动作(VLA)模型是一个很有前途的方法,但目前仍然面临数据收集成本高昂和模型泛化能力不足的问题。 这种方法虽然在理论上具有很大的潜力,但在实际应用中还存在一些挑战。尤其是在数据收集方面,不仅需要大量的时间和资金投入,还需要确保数据的质量和多样性。此外,尽管微调后的模型可以在特定任务上表现出色,但在面对新的或未见过的情况时,其表现可能会大打折扣。因此,如何有效降低数据收集的成本,并提升模型的泛化能力,仍然是当前研究领域亟待解决的关键问题。

   上海智元新创技术有限公司官方今日发文称,北⼤携⼿智元机器⼈团队提出 OmniManip 架构,基于以对象为中⼼的 3D 交互基元,将 VLM 的高层次推理能力转化为机器⼈的低层次高精度动作。

   针对大模型幻觉问题及实际操作中的不确定性,OmniManip引入了视觉语言模型(VLM)规划与机器人执行的双闭环系统设计,从而实现了操作性能的重大突破。目前项目主页与论文已经上线,代码与测试平台也即将开源。

   从智元机器人官方获悉,OmniManip 的关键设计包括:

   基于 VLM 的任务解析:利⽤ VLM 强⼤的常识推理能⼒,将任务分解为多个结构化阶段(Stages),每个阶段明确指定了主动物体(Active)、被动物体(Passive)和动作类型(Action)。

   通过3D基座模型生成任务相关物体的3D模型和规范化空间(canonical space),使视觉语言模型(VLM)能够在该空间中直接采样3D交互基元,作为动作(Action)的空间约束,从而优化求解出主动物体在被动物体规范坐标系下的目标交互姿态。 这种技术的发展对于增强现实和机器人领域具有重要意义。它不仅能够提升机器人的操作效率和准确性,还能更好地理解和预测人类的行为模式。通过将物体置于统一的规范化空间中,不仅可以简化复杂的三维环境建模过程,还可以让机器更直观地理解物理世界中的互动关系。这不仅推动了人工智能技术的进步,也为未来的智能家居和自动化生产提供了新的可能。

   闭环VLM规划:在目标交互姿态下将Active/Passive物体渲染为图像,通过VLM进行评估与重采样,从而实现VLM对自身规划结果的闭环优化。

   闭环机器人执行:利用物体6D姿态跟踪器持续更新Active/Passive物体的位置和姿态信息,进而转化为机械臂末端执行器的动作路径,从而实现闭环控制。

   此外,OmniManip具有强大的通用泛化能力,能够在各种场景和物体上自如运作。目前,该技术已被应用于数字资产自动标注和合成流程,实现了大规模机器人轨迹的自动化采集。研究团队计划将这一技术开源,并提供大规模数据集及其对应的仿真评测基准。这样的举措无疑会推动相关领域的发展,让更多科研人员和开发者能够利用这些资源进行创新研究,从而加速机器人技术和自动化领域的进步。希望未来能看到更多类似的技术开源项目,为行业的整体发展贡献力量。

   据此前报道,以“天才少年”身份加入华为的稚晖君于2022年底宣布离职,创立了智元机器人。2024年9月3日,智元机器人顺利完成A轮融资,估值已突破70亿元,获得了包括北汽、上汽、比亚迪在内的多家国内汽车巨头的支持。

   目前,本月1月6日,智元机器人量产的第1000台通用具身机器人已正式下线,其中包括731台双足人形机器人(远征A2/灵犀X1)以及269台轮式通用机器人(远征A2-D/A2-W)。

本文固定链接: https://www.news9999.cn/arts_content-31454.html 转载请注明出处(科技快讯中文网-www.news9999.cn)
最新发布 中巴携手发射天眼卫星,助力智慧国土与灾害预警新篇章  2025-07-31 14:51:26 三星S26标准版或迎升杯升级,涨价信号初现?  2025-07-31 14:13:58 iQOO 15 预热引爆热议,中杯或将成性能黑马?  2025-07-31 14:04:00 Redmi K90系列曝光新彩蛋:神秘联名Logo现身镜头模组  2025-07-31 13:35:21 Arm自研芯片引巨头抢鲜试用,科技圈掀起新风暴  2025-07-31 13:08:18 微软发布 DragonV2.1:AI语音转录更自然,错误率降12.8%,支持百种语言合成  2025-07-31 13:04:42 三星Galaxy S26系列或将搭载多形态AI助手,开启智能体验新纪元  2025-07-31 13:04:06 存算一体新突破:AS3000G7引领‘以存代算’革命  2025-07-31 13:03:05 堪察加8.7级地震后 火山怒吼:欧亚最强岩浆喷发震撼全球  2025-07-31 13:01:17 AYANEO 掀桌新宠:KONKR Pocket FIT 安卓掌机搭载骁龙 G3,开启移动游戏新体验  2025-07-31 12:49:08 华为Pura80 Pro系列首推HEIF格式:画质不变,存储节省一半  2025-07-31 12:43:04 微软预警:40个职业或将被AI颠覆,你上榜了吗?  2025-07-31 12:36:54 一加 Ace5 至尊版斩获行业首张 40W UFCS 融合快充认证,开启超充新纪元  2025-07-31 12:35:52 苹果被曝误发三星广告,官方回应正与微博调查沟通  2025-07-31 12:33:39 红魔10S Pro《斗战胜佛》典藏版8月1日震撼揭晓  2025-07-31 12:30:31 联发科AI芯片蓄势待发,2026年或迎10亿美元营收新高  2025-07-31 12:24:52 小米带火至尊版:明年友商或将集体推出至尊系列  2025-07-31 12:24:20 《百年光影,徕卡见证中国》  2025-07-29 14:50:31 微软修复24H2系统鼠标光标异常,7月更新带来全新体验  2025-07-29 14:47:47 国内首个Agentic AI平台PPIO上线,为Agent装上智慧大脑与灵动双手  2025-07-29 14:46:42 子曰大模型全面突围,网易有道AI矩阵引爆2025 WAIC  2025-07-29 14:38:11 鸿蒙上线12306行程提醒,四大场景智能护航出行体验  2025-07-29 14:34:23 联想小新平板 Pro GT 首发 8860mAh 硅基电池 + 68W 超充,性能续航双突破  2025-07-29 14:31:42 英特尔酷睿 Ultra7 首发!Dynabook Portege Z40L-N 轻薄本震撼上市,售价13999元  2025-07-29 14:29:26 荣耀X70 5G十日登顶,成全网最热爆款手机  2025-07-29 14:27:22
友情链接 百度权重≥5友情链接交换
文化潮流网  |  数界探索  |  文化新视界  |  深度文化说  |  智慧科技  |  财智慧  |  慧算财经  |  财经探秘  |  财经日报  |  今日财经
© 2015-2025 科技快讯中文网 时光记忆 版权所有 备案号:陇ICP备2025016403号-1

免责声明:本站所有文章来源于网络或投稿,如果任何问题,请联系648751016@qq.com

网站地图  联系我们  用户投稿  关于我们

页面执行时间0.00863秒