智元创世纪：GO-1首个通用具身基座模型问世-科技快讯中文网

2025

03-10

智元创世纪：GO-1首个通用具身基座模型问世

企业动态

jinting

围观2241次

0条评论

发布日期：2025年03月10日 19:11:18

智元创世纪：GO-1首个通用具身基座模型问世

未来已来：GO-1，开启智能革命

　　 3月10日，智元机器人近日推出了其首款通用具身基座大模型：智元启元大模型（GenieOperator-1）。

智元创世纪：GO-1首个通用具身基座模型问世

　　智源创新性地提出了Vision-Language-Latent-Action (ViLLA) 架构，该架构由VLM（多模态大模型）和MoE（混合专家）构成。其中，VLM通过分析海量互联网图文数据，获得了强大的通用场景理解和语言处理能力。MoE中的LatentPlanner（隐式规划器）则通过分析大量的跨领域及人类操作数据，掌握了通用动作理解能力。同时，MoE中的ActionExpert（动作专家）借助百万级别的真实设备数据，具备了精确的动作执行能力。这三部分相互配合，使系统能够从人类视频中学习，实现小样本快速泛化，从而降低了具身智能的技术门槛。目前，该架构已成功应用于智源多款机器人产品，并持续进行优化升级，推动了具身智能技术的发展。

智元创世纪：GO-1首个通用具身基座模型问世

　　 GO-1：具身智能的全面创新

　　 GO-1大模型通过整合人类和各种机器人数据，使机器人具备了革命性的学习能力，能够广泛应用于不同环境和物体中，迅速掌握新任务和技能。此外，该模型还能适配于各类机器人平台，实现高效部署，并在实际应用中不断快速进化。

　　这一系列的特点可以归纳为4个方面：

　　人类视频学习：GO-1大模型能够融合网络视频与实际人类演示进行学习，从而加深了对人类行为的认知，以提供更优质的人类服务。

　　 ●小样本快速泛化：GO-1大模型具有强大的泛化能力，能够在极少数据甚至零样本下泛化到新场景、新任务，降低了具身模型的使用门槛，使得后训练成本非常低。

　　 ●一脑多形：GO-1大型模型是一种通用机器人策略模型，能够实现在多种机器人形态间的迁移，迅速适应各种不同的本体结构，从而实现群体智能的提升。

　　 ●持续进化：GO-1大模型搭配智元一整套数据回流系统，可以从实际执行遇到的问题数据中持续进化学习，越用越聪明。

　　 GO-1：VLA进化到ViLLA

　　 GO-1大模型，基于具身领域的数字金字塔所构建，吸纳了人类世界多种维度和类型的数据，让机器人在一开始就拥有了通用的场景感知和语言能力，通用的动作理解能力，以及精细的动作执行力。

　　数字金字塔的底层是互联网的大规模纯文本与图文数据，可以帮助机器人理解通用知识和场景。在这之上是大规模人类操作/跨本体视频，可以帮助机器人学习人类或者其他本体的动作操作模式。更上一层则是仿真数据，用于增强泛化性，让机器人适应不同场景、物体等。金字塔的顶层，则是高质量的真机示教数据，用于训练精准动作执行。

　　现有的VLA（视觉-语言-动作）架构尚未充分利用数字金字塔中的大规模人类/跨领域操作视频数据，这缺失了一个关键的数据来源，从而导致了更高的迭代成本和更缓慢的进化速度。

　　那么，怎样的架构才能充分利用好这些数据？

　　智元提出了全新的Vision-Language-Latent-Action (ViLLA) 架构。与VLA架构相比，ViLLA通过预测Latent Action Tokens（隐式动作标记），弥合了图像-文本输入与机器人执行动作之间的鸿沟，能有效利用高质量的AgiBot World数据集以及互联网大规模异构视频数据，增强策略的泛化能力。基于该架构，智元打造了通用具身基座大模型――GO-1。它由VLM(语言视觉模型)和MoE(专家混合模型)组成，输入为多相机的视觉信号、力觉信号、语言指令等多模态信息，直接输出机器人的动作执行序列。

　　这样，GO-1大型模型能够协助机器人完成整体的“基础教育”和“职业教育”，使机器人具备天然的适应能力，可以灵活应对各种环境和物体，迅速掌握新的操作技能。

　　在日常生活中，我们经常需要让机器人帮助我们完成一些特定任务，例如“挂衣服”。这一过程中，机器人首先要理解用户的指令，即通过视觉系统识别出“挂衣服”这项任务。接着，机器人会回想起在训练期间所学习到的相关知识，思考出一系列合适的操作步骤，如找到挂钩、抓住衣物、准确放置等。最终，机器人将按照预设步骤一步步执行，从而成功完成任务。这样的技术不仅极大地方便了我们的日常生活，还展示了人工智能与机器学习技术的巨大潜力。随着技术的发展，我们可以期待未来会有更多复杂且实用的功能被开发出来，让机器人的帮助更加无处不在，为人们的生活带来更多便利。

　　在更深层的技术面，因为GO-1大模型在构建和训练阶段，学习了互联网的大规模纯文本和图文数据，所以能理解“挂衣服”在此情此景下的含义和要求；学习过人类操作视频和其他机器人的各种操作视频，所以能知道挂衣服这件事通常包括哪些环节；学习过仿真的不同衣服、不同衣柜、不同房间，模拟过挂衣服的操作，所以能理解环节中对应的物体和环境并打通整个任务过程；最后，因为学习过真机的示教数据，所以机器人能精准完成整个任务的操作。

　　具体来说，VLM作为一款通用具身基座大模型，承袭了开源多模态大模型InternVL2.5-2B的权重参数，通过利用互联网上的大规模纯文本和图文数据，使GO-1大模型拥有了强大的场景感知和理解能力。

　　隐动作专家模型作为第一个专家模型，是GO-1大模型中隐式的规划器，它利用到了大规模人类操作和跨本体操作视频，让模型具备动作的理解能力。

　　 GO-1大模型的最终环节是一个专门用于动作预测的动作专家模型，该模型通过利用高质量的仿真数据和实际设备数据，显著提升了动作执行的精确度和可靠性。这一设计展示了人工智能技术在模拟与现实世界交互中的强大潜力。通过结合仿真环境与真实世界的反馈，GO-1不仅能够学习到更加复杂和精准的动作序列，还能适应各种动态变化的实际操作环境。这种技术的进步对于推动机器人技术的发展具有重要意义，未来有望在工业自动化、医疗手术辅助以及日常生活服务等多个领域发挥关键作用。

　　智元通用具身基础大模型GO-1的发布，体现了具身智能在通用化、开放化和智能化方面迅速发展：

　　从专注于单一任务到胜任多种任务：机器人能够适应不同环境并执行各种任务，无需为每项新任务进行重新训练。

　　从实验室到现实世界：机器人技术不再受制于封闭环境，而是能够应对复杂多变的真实世界场景。

　　随着技术的进步，机器人已不再受限于预设程序，现在它们能够理解自然语言指令，并通过语义进行组合推理。这一变化不仅极大地提升了机器人的实用性，还意味着人机交互方式正朝着更加自然和高效的方向发展。未来，我们可以期待机器人在家庭、医疗、教育等多个领域发挥更大的作用，带来更加便捷的生活体验。

　　 GO-1大模型将推动具身智能的广泛应用，使机器人从专注于特定任务的设备进化为拥有通用智能的自主系统，在商业、工业和家庭等多个领域展现出更强大的功能，引领我们走向更为通用和全能的智能时代。

首页 > 企业动态

2025

03-10