从硅谷到千家万户:揭秘500美元高性价比全能家务机器人的诞生之旅
如今,机器人已经能够完成跑步和后空翻等复杂动作,但究竟何时才能承担起家务劳动,为人类提供养老照护呢?
现在,为了应对这一挑战,李飞飞团队推出了具身智能研究的最新成果——__$BEHAVIORRobotSuite(BRS)$,这是一个旨在解决机器人在家庭任务中进行全身操作问题的综合性框架。
并且,其核心组件的实现成本还不到 500 美元。
在机器人学习领域中,一个极具挑战性的“圣杯”级目标是实现通用的日常家庭移动操作任务。为此,我们利用一种新型双臂移动机器人,推出了最新的研究成果——BRS,旨在攻克这一长期未解的难题!
拧开门把手,早上出去丢个垃圾:
等大人上班后,再帮忙整理下杂货架:
顺带收拾下客厅,将脏碗放到洗碗机里:
然后任劳任怨,再里里外外刷干净马桶:
费了好大劲,一个机器人就把所有的家务活都包揽完了。
研究团队进一步观察到,即便在工作过程中出现了一些差错,这些机器人也能够自主进行调整和纠正。 这种能力不仅展示了机器人技术的进步,也预示着未来在复杂任务执行中的巨大潜力。随着人工智能和自动化技术的不断进步,我们有理由相信,机器人将在更多领域内实现高效且准确的工作表现,从而为人类带来更多的便利和创新机遇。
在报道中提到,一名居民在使用卫生间时遇到了一个普遍的问题:由于手臂长度不够,无法触及到位于较高位置的马桶盖。为了克服这个不便,该居民采取了一个向前倾斜身体的动作来完成这一任务。 这种现象其实反映了现代家居设计中的一些细微问题。尽管卫生间的设施已经非常现代化,但在人体工程学方面仍有改进的空间。这样的小困扰可能对某些人来说并不严重,但考虑到人们每天都要多次使用卫生间,这些小问题累积起来可能会对生活质量产生不小的影响。因此,设计师们或许应该更加注重细节,以确保每个人都能舒适地使用卫生间的设施。
网友们纷纷表示,离实现可通用的家庭机器人又更进一步了。
那么,李飞飞团队究竟是如何做到的?
根据论文介绍,通过细致分析 BEHAVIOR-1K(包含 1000 项日常家庭活动的机器人测试基准),团队首先确定了机器人成功完成各种家务活动所必需的三项全身控制能力:
两只机械手臂之间的协同配合能力;
稳定精确的导航;
机械手臂末端执行器拥有广泛的可操作范围和触及能力;
特别是最后一项,很多人往往忽略了末端执行器控制这一重要功能。
因为在家庭环境中,日常物品通常位于不同高度和位置,因此机器人也必须相应地调整其伸展范围。
考虑到这些因素,团队认为为家务机器人安装双臂、移动底座以及灵活的躯干,是实现全方位操作的基础。
具体而言,他们选用了星海图生产的GalaxeaR1机器人作为硬件平台,这款机器人拥有两支6自由度机械臂,每支机械臂都配有一个平行钳口夹具,同时具备4自由度的躯干以及全向移动底座,能够胜任家庭任务中的各项关键需求。
不过,此类复杂设计对策略学习算法构成了严峻挑战,特别是在大规模数据收集和整体协同作业方面。
对此,BRS 通过两项关键创新来解决软硬件协同问题:
推出 JoyLo,一种通用的低成本全身遥操作接口;
提出新的学习算法 WB-VIMA;
展开来说,JoyLo(Joy-Con on Low-Cost Kinematic-Twin Arms)通过基于操纵木偶的方法,利用运动学孪生臂和任天堂 Joy-Con 控制器,实现高效的全身控制。
同时收集大量用户意见,提升了策略学习的数据品质。
在总成本不超过 500 美元的情况下,团队在 R1 机器人上实现了 JoyLo 的设计目标:
高效的全身协同控制体系,确保复杂动作之间的平滑过渡;
丰富的用户反馈机制,带来直观的远程操作体验;
确保高质量的示范动作,提升策略学习效果;
低成本实现方案,大幅提高系统可及性;
实时、便捷的控制器设计,确保操作无缝顺畅。
而另一项 WB-VIMA(Whole-Body VisuoMotor Attention)学习算法,核心目标是利用机器人的固有运动学层次结构来建模全身动作。
WB-VIMA通过结合Transformer架构与自回归全身动作去噪技术,以及利用多模态观察注意力机制,为机器人提供了更加高效的学习途径,使其能够更好地掌握协调的全身动作。这一创新不仅提高了机器人的行动精度,还显著增强了它们在复杂环境中的适应能力。这标志着机器人技术领域的一个重要进步,有望在未来推动更多实际应用场景的实现,如服务机器人在家庭或医疗场景中的应用,将极大地提升这些领域的自动化水平和服务质量。
在模型的训练与部署阶段,采用定制化的优化器及噪声调度策略,并利用工作站完成推理任务,从而达成低延迟的控制效果。
值得一提的是,WB-VIMA 还解决了一个关键问题:
人形机器人在执行任务时,哪怕移动基座或躯干的动作存在细微偏差,这种误差往往会在末端执行器的位置上被明显放大。这一现象提醒我们,尽管技术不断进步,但在设计和制造这类精密设备时,每一个环节都需要极致的精确性。特别是在涉及复杂操作的应用场景中,哪怕是最小的失误也可能导致最终结果的大相径庭。这不仅对工程师提出了更高的要求,也让我们意识到,未来的人形机器人要想真正融入日常生活,还需在稳定性与精准度上持续突破。
对此,WB-VIMA在预测下游组件的动作时,并非单独进行,而是首先分析上游组件当前的动作状态和位置等信息。这些信息被用作条件和依据,以推断下游组件应采取何种动作,从而实现系统的整体协调运动。
研究团队在五个关键的家庭任务上对BRS进行了评估,这些任务包括清洁房屋、清洁厕所、倒垃圾、放置物品到架子上以及晾晒衣服。通过这些测试,我们不仅可以看到BRS在实际生活中的应用效果,还可以更深入地了解它在不同场景下的表现能力。 从我的角度来看,这样的评估对于理解BRS的实际效用至关重要。清洁工作往往是日常生活中最繁琐的任务之一,而BRS能否在这些任务中表现出色,直接关系到其市场接受度和未来发展的潜力。此外,这种全面的评估也展示了研发团队对产品性能的信心和对用户需求的深刻理解。
结果表明,BRS 能完成多种家庭任务。
同时,实验环节进一步证实了这两种创新方法的有效性。
整体而言,JoyLo 在数据收集效率、策略学习适用性和用户体验方面表现出色,WB-VIMA 在性能上优于基线方法。
对于 JoyLo,团队对 10 名参与者进行了全面的用户研究,以评估 JoyLo 的效果及其收集数据对策略学习的适用性。
下图为 JoyLo 与 VR 控制器和 Apple Vision Pro 进行比较的示意:
从结果来看,JoyLo在各个接口中的表现均十分出色,任务的成功率最高且完成时间最短。其完成任务的平均成功率是VR控制器的5倍,然而,使用Apple Vision Pro的用户无法完成全部任务。
在最近的研究中,所有参与者一致认为JoyLo是他们使用过的最友好的界面。这一结果不仅凸显了JoyLo在用户体验设计上的卓越成就,也反映了其团队在理解用户需求和偏好方面的深厚功力。JoyLo能够脱颖而出,成为所有测试者心目中的佼佼者,这无疑为其产品赢得了宝贵的用户信任和市场竞争力。这样的用户反馈对于其他科技公司来说,也是一个值得学习和借鉴的成功案例。
另外,WB-VIMA 在所有任务中全面超越基准方法。
其端到端任务的成功率比DP3高出13倍,比RGB-DP高出21倍;平均而言,各子任务的表现也显著优于DP3(提升1.6倍)和RGB-DP(提升3.4倍)。这一显著的进步表明,在处理复杂任务时,新系统展现出了更强的适应性和更高的效率。这不仅标志着技术上的重大突破,也为未来的应用开辟了新的可能性。
而且WB-VIMA在执行任务时出现错误的概率更低。它与环境中的物体发生碰撞的情况非常罕见,并且几乎不会因为施加过大的力量而导致电机受损。
最后,关于BRS框架的所有工作已全部开源,这无疑是一个值得称赞的决定。开源不仅能够加速技术的发展与创新,还能促进全球范围内的技术交流与合作。对于那些对这一领域感兴趣的开发者和技术爱好者来说,这是一个极好的机会去深入了解和研究BRS框架背后的原理和机制。希望未来能看到更多类似的开源项目,推动整个行业的进步和发展。
项目主页:
https://behavior-robot-suite.github.io/
论文:
https://arxiv.org/abs/2503.05652
算法代码:
https://github.com/behavior-robot-suite/brs-algo
机器人代码:
https://github.com/behavior-robot-suite/brs-ctrl
训练数据:
https://huggingface.co/datasets/behavior-robot-suite/data
参考链接:
https://x.com/drfeifei/status/1899127976979226835
本文来自微信公众号:量子位(ID:QbitAI),作者:一水
免责声明:本站所有文章来源于网络或投稿,如果任何问题,请联系648751016@qq.com
页面执行时间0.019923秒