银河首发具身FSD大模型,与宇树机器狗共创长程技术新纪元
6月1日消息,银河通用推出了全球首款产品级端到端具身FSD大模型——TrackVLA。该模型是一款拥有纯视觉环境感知能力、能够通过语言指令驱动、具备自主推理功能,并且具有零样本(Zero-Shot)泛化能力的具身大模型。
据了解,TrackVLA是银河通用发布的一款产品级导航大模型,专注于纯视觉环境感知,通过自然语言指令驱动,最终以端到端的方式输出语言和机器人动作。该模型基于仿真合成动作数据进行训练,属于“视觉-语言-动作”(Vision-Language-Action, VLA)大模型。它赋予机器人“听→看→懂→走”的闭环运动能力:利用一双眼睛观察世界,借助一个智能“大脑”完成推理过程,无需提前构建地图,也不依赖远程操控,从而实现了语言驱动、泛化感知、自主推理、智能交互与运动的完美结合。
TrackVLA 八大核心能力:
1. 听得懂你说话,还能换人跟
只需一句指令:“跟着妈妈”,它便能立刻定位“妈妈”的位置。而当你改口说“换成跟孩子”时,它同样可以快速切换目标,并通过语音进行确认。不仅如此,它还能轻松追踪你的宠物。这一切的背后,源于模型在自然语言理解和目标识别方面的强大协同能力。
2. 不怕人多也不跟错人
在人流密集的购物中心中,面对复杂的场景、多变的环境中多个相似穿着的人,它能准确识别原始目标并长时自主跟随。通过空间理解和视觉记忆机制,避免“认错人”。
3. 丢了目标能找回来
若目标暂时脱离视野范围,它并不会停留在原地等待,而是凭借实时的空间智能与大模型的推理能力,结合目标的运动轨迹进行分析,推测出目标可能所在的位置,并规划新的路径以重新锁定目标。
4. 从没见过的地方也能走
TrackVLA 不依赖建图,靠纯视觉输入理解环境。可在不依赖额外采集训练数据的情况下,直接部署在陌生商场、电梯、游乐区等环境,实现长时稳定自主跟随。
5. 灵活避障,适应复杂场景
在儿童游乐区或狭窄通道这样的复杂场景下,这款智能设备展现出强大的功能。它不仅能够实时识别各种障碍物,比如活泼的儿童、散落的玩具以及地面的水渍,还能精准判断可通行的区域。同时,它能充分认知自身的物理特性和运动能力,通过自主推理规划出一条既安全又高效的路径。这种技术的应用,无疑为提升公共空间的安全性提供了新的解决方案,也让人们看到了人工智能在日常生活中的巨大潜力。未来,随着这类技术的不断进步与普及,我们有理由相信,它将在更多场景中发挥重要作用,为人们的出行和生活带来更多的便利与保障。
6. 环境光线变化?不怕
无论是在室外明亮的阳光下还是室内昏暗的环境里,TrackVLA都能轻松应对;无论是电梯内的镜面反射场景还是超市货架间的狭窄夹缝,它都表现出了卓越的适应能力。更为突出的是,这一技术无需进行专门的参数调整或频繁切换运行模式,即可始终保持高效稳定的工作状态。
7. 远程可视守护,一目了然
通过App,随着科技的进步,智能家居设备正逐渐成为家庭生活的一部分。如今,一些智能摄像头不仅能实时传输家中的一举一动,还具备了强大的分析功能。通过这些设备,我们可以随时关注家人的动态,无论是小朋友在客厅玩耍还是老人在厨房准备餐食,都能尽收眼底。 更值得一提的是,这类设备还引入了人工智能技术,能够主动识别潜在的风险行为,比如小朋友突然奔跑可能带来的安全隐患,或是老人不慎跌倒时及时发出警报。这种“移动守护”功能不仅为忙碌的家长减轻了负担,也为独居老人提供了额外的安全保障。 在我看来,这样的技术革新无疑为现代家庭带来了便利与安心。它让我们即使身处异地,也能时刻牵挂家人的安全。不过,随之而来的隐私保护问题也不容忽视。如何在享受科技带来便利的同时,确保个人隐私不被侵犯,是我们需要共同思考的问题。希望未来的技术发展能够在安全性和隐私保护之间找到更好的平衡点。
8. 技能涌现!
TrackVLA不仅能够稳定地追踪人类,还能够扩展到任意移动的目标上。例如,在视频的结尾部分,展示了机器狗跟随一只在路边偶遇的小狗的情景,目标的形态、运动模式以及可能的遮挡情况都极具不确定性。然而,TrackVLA依然展现出了同样出色的追踪能力,而这种能力在训练阶段并未特意针对此类情况进行过专门教学!
目前,该模型已应用于宇树机器狗,化身为“二宝保镖”承担儿童看护任务,在未经专门训练的真实环境中通过了严苛的长时间验证。目前TrackVLA在未经过针对性训练的真实场景中成功完成了长时间验证工作:能够在超市内灵活穿行于人流与货架之间,精准追踪母子动态;依据语音指令调整目标对象,并在儿童嬉戏时及时发出安全提醒;能够清晰认知自身能力,借助大模型自主进行逻辑推导与分析;从电梯进入未知的商场环境后,顺利完成连续跟踪任务;在人潮拥挤的服装店内依然能稳定辨识并有效规避他人干扰……
免责声明:本站所有文章来源于网络或投稿,如果任何问题,请联系648751016@qq.com
页面执行时间0.034079秒