全新OmniManip机器人:颠覆3D操作,引领未来智能革命
1月23日消息,如何将视觉语言基础模型(Vision-Language Models, VLMs)应用于机器人以实现通用操作是具身智能领域的一个核心问题,这一目标的实现受到两大关键挑战的制约:
视觉语言模型(VLM)在处理精确的3D理解方面存在明显不足。这主要是由于VLM通常通过对比学习范式进行训练,其输入仅限于2D图像或文本信息。这种局限性使得VLM难以全面捕捉物体的空间结构和深度信息,从而限制了它在复杂场景中的应用效果。 这种局限性不仅影响了VLM在自动驾驶、虚拟现实等领域的表现,还可能阻碍其在更广泛的智能系统中的部署。因此,未来的研究需要更多地关注如何将三维感知能力融入现有的视觉语言模型框架中,以便更好地理解和处理现实世界中的复杂场景。
将视觉-语言模型(VLM)应用于机器人数据进行微调以生成视觉-语言-动作(VLA)模型是一个很有前途的方法,但目前仍然面临数据收集成本高昂和模型泛化能力不足的问题。 这种方法虽然在理论上具有很大的潜力,但在实际应用中还存在一些挑战。尤其是在数据收集方面,不仅需要大量的时间和资金投入,还需要确保数据的质量和多样性。此外,尽管微调后的模型可以在特定任务上表现出色,但在面对新的或未见过的情况时,其表现可能会大打折扣。因此,如何有效降低数据收集的成本,并提升模型的泛化能力,仍然是当前研究领域亟待解决的关键问题。
上海智元新创技术有限公司官方今日发文称,北⼤携⼿智元机器⼈团队提出 OmniManip 架构,基于以对象为中⼼的 3D 交互基元,将 VLM 的高层次推理能力转化为机器⼈的低层次高精度动作。
针对大模型幻觉问题及实际操作中的不确定性,OmniManip引入了视觉语言模型(VLM)规划与机器人执行的双闭环系统设计,从而实现了操作性能的重大突破。目前项目主页与论文已经上线,代码与测试平台也即将开源。
从智元机器人官方获悉,OmniManip 的关键设计包括:
基于 VLM 的任务解析:利⽤ VLM 强⼤的常识推理能⼒,将任务分解为多个结构化阶段(Stages),每个阶段明确指定了主动物体(Active)、被动物体(Passive)和动作类型(Action)。
通过3D基座模型生成任务相关物体的3D模型和规范化空间(canonical space),使视觉语言模型(VLM)能够在该空间中直接采样3D交互基元,作为动作(Action)的空间约束,从而优化求解出主动物体在被动物体规范坐标系下的目标交互姿态。 这种技术的发展对于增强现实和机器人领域具有重要意义。它不仅能够提升机器人的操作效率和准确性,还能更好地理解和预测人类的行为模式。通过将物体置于统一的规范化空间中,不仅可以简化复杂的三维环境建模过程,还可以让机器更直观地理解物理世界中的互动关系。这不仅推动了人工智能技术的进步,也为未来的智能家居和自动化生产提供了新的可能。
闭环VLM规划:在目标交互姿态下将Active/Passive物体渲染为图像,通过VLM进行评估与重采样,从而实现VLM对自身规划结果的闭环优化。
闭环机器人执行:利用物体6D姿态跟踪器持续更新Active/Passive物体的位置和姿态信息,进而转化为机械臂末端执行器的动作路径,从而实现闭环控制。
此外,OmniManip具有强大的通用泛化能力,能够在各种场景和物体上自如运作。目前,该技术已被应用于数字资产自动标注和合成流程,实现了大规模机器人轨迹的自动化采集。研究团队计划将这一技术开源,并提供大规模数据集及其对应的仿真评测基准。这样的举措无疑会推动相关领域的发展,让更多科研人员和开发者能够利用这些资源进行创新研究,从而加速机器人技术和自动化领域的进步。希望未来能看到更多类似的技术开源项目,为行业的整体发展贡献力量。
据此前报道,以“天才少年”身份加入华为的稚晖君于2022年底宣布离职,创立了智元机器人。2024年9月3日,智元机器人顺利完成A轮融资,估值已突破70亿元,获得了包括北汽、上汽、比亚迪在内的多家国内汽车巨头的支持。
目前,本月1月6日,智元机器人量产的第1000台通用具身机器人已正式下线,其中包括731台双足人形机器人(远征A2/灵犀X1)以及269台轮式通用机器人(远征A2-D/A2-W)。
免责声明:本站所有文章来源于网络或投稿,如果任何问题,请联系648751016@qq.com
页面执行时间0.00863秒