从"感知→规划→控制"的传统链路,到“视觉-语言-动作”一体化的端到端模型,VLA 正在重新定义机器人与物理世界的交互方式。捷勃特机器人以全栈开源能力,为 VLA 开发者提供从仿真数据采集到模型部署的完整链路。

捷勃特多型号机器人在 NVIDIA Isaac Sim 仿真环境中
01 什么是 VLA?
VLA(Vision-Language-Action),即视觉-语言-动作模型,是具身智能领域最具代表性的技术范式。该概念由 Google DeepMind 于2023年在 RT-2 论文(arXiv:2307.15818)中首次提出,成功将视觉-语言模型(VLM)直接扩展至机器人动作领域。
相比传统工业机器人依赖人工调参、易产生误差累积的“感知→识别→规划→控制”四阶段流水线,VLA 采用端到端设计,它摒弃了显式的中间表示,直接将传感器输入映射为动作输出,通过海量数据训练让模型学习“看什么→做什么”的映射关系。
其核心差异如下:
维度 | 传统AI方案 | VLA具身智能 |
输入模态 | 图像或点云 | 视觉+语言+状态 |
输出形式 | 文本/分类 | 连续动作空间 |
闭环控制 | 否 | 强闭环 |
任务语义理解 | 是 | 是 |
物理交互 | 否 | 学习驱动 |
标定依赖 | 需要相机标定 和手眼标定 | 端到端学习, 大幅降低标定需求 |
架构复杂度 | 多模块拼接, 误差累积 | 单一端到端模型 |
02 VLA的技术内核
端到端映射
VLA 采用端到端设计理念:从传感器输入到动作输出直接建模,不依赖人工设计的中间表示。将动作离散化为文本 token,直接利用预训练视觉-语言模型的生成能力;而 OpenVLA 等后续工作则探索了连续动作空间的建模方式。无论哪种方案,核心都是通过大规模数据训练,让模型自己学习从视觉观察和语言指令到机器人动作的映射。
动作空间设计
VLA 的动作输出通常采用末端位姿(End-Effector Pose)表示,包含位置(x,y,z)、旋转四元数(w,qx,qy,qz)和夹爪控制(gripper)。OpenVLA 采用 7-DoF 动作空间(6 自由度末端位姿 + 1 夹爪),通过 256-bin 离散化或 FAST action tokenizer 进行编码。选择末端位姿而非关节角度的理由在于:机器人无关性——便于异构采集(VR 手柄、陀螺仪设备均可采集);模型部署独立性——不受特定机器人逆运动学求解器的约束。
观测空间与语言指令
主流 VLA 方案采用双相机配置:固定相机用于全局场景感知,手腕相机用于精细操作感知。捷勃特在 Isaac Sim 中原生支持这一配置——固定相机捕获全局场景,手腕相机提供末端执行器的近距离视角,与 ALOHA、OpenVLA 等主流 VLA 方案的观测配置完全一致。
VLA 的语言理解能力体现在多层级复杂度支持——从简单的"拿起红色杯子",到需要物理常识推理的"把能装水的容器放到左边"。通过 Chain-of-Thought 推理甚至能完成"哪个物体可以当锤子用"这样的常识推理任务。

捷勃特机器人采用手腕相机的抓取动作
03 VLA 开源项目和发展趋势
截至 2026 年,VLA 领域已有多个开源项目,这些代表性项目分别从不同维度推动了 VLA 的发展。
项目 | 机构 | 核心贡献 |
ALOHA / Mobile ALOHA | Stanford / UC Berkeley | 开创性的双臂遥操作系统,VLA 数据采集的事实标准 |
RT-2 | Google DeepMind | 首个 VLA 模型,将 VLM 微调为机器人动作模型(arXiv:2307.15818) |
OpenVLA | UC Berkeley | 7B 参数开源 VLA,支持 LoRA 微调和 RLDS 数据格式(arXiv:2406.09246) |
LeRobot | Hugging Face | 统一的机器人学习框架,提供数据集管理、模型训练和评估工具 |
Smol VLA | Hugging Face | 450M 参数轻量级 VLA,可在消费级硬件上运行 |
未来,VLA 呈现出五大发展趋势:
单臂到双臂——ALOHA 开创双臂协作成为 VLA 标配
从抓取到操作——从 Pick & Place 向精细操作演进
从仿真到真机——Sim-to-Real 迁移技术日趋成熟
从研究到产业——VLA 正从实验室走向工厂
从编程到对话——MCP + OpenClaw 等 AI Agent 框架让自然语言控制机器人成为可能
04 捷勃特 × VLA
仿真到部署的完整链路VLA技术
捷勃特为 VLA 开发者提供了从数据采集到模型训练再到真机部署的完整开源工具链。
在 Isaac Sim 仿真环境中,捷勃特提供多型号机器人(GBT-C5A/C7A/C12A/C16A)的完整 USD 数字资产,包含机器人几何网格、材质贴图、关节运动学参数和末端执行器模型,开发者无需自行建模即可直接导入使用。
捷勃特在数据采集方面的优势体现在四个方面:
一、高保真仿真:基于 PhysX 物理引擎的精确碰撞检测和力反馈,RTX 光线追踪渲染生成接近真实相机的图像数据
二、双相机原生支持:仿真环境中原生支持固定相机 + 手腕相机的双视角数据采集,与主流 VLA 方案的观测配置完全一致
三、大规模并行采集:支持多环境并行数据采集,通过随机化物体位置、光照条件、相机角度等参数确保数据多样性
四、精确运动学参数:提供完整的 USD 数字资产,包含精确运动学参数,有效缩小 Sim-to-Real Gap
值得一提的是,捷勃特通过 OpenClaw + MCP 协议,让开发者甚至可以用自然语言直接控制仿真机器人——这本身就是 VLA 理念的一次工程实践。用户只需描述任务意图,AI Agent 即可通过 MCP 协议驱动机器人完成动作,无需编写传统控制代码。
05 为何选择捷勃特构建VLA应用?
硬件即平台:从 5kg 到 16kg 负载的完整产品线,覆盖从桌面级到工业级的 VLA 应用场景
仿真优先:完整的 USD 资产 + Isaac Sim 原生集成,数据采集效率远超真机方案
开源透明:GitHub 全面开源,开发者可以自由审计、修改和贡献
生态对齐:与 ROS2、Isaac Sim、LeRobot 等主流开源框架深度集成
AI-Native:支持 MCP + OpenClaw,让 VLA 模型可以通过自然语言接口直接驱动机器人
低门槛入门:云端仿真 + AI Agent,无需硬件即可开始 VLA 开发

Isaac Sim 中的抓取放置演示 — VLA 训练数据的仿真来源
06 VLA 应用新手村指南
Step 1:克隆捷勃特 Isaac Sim 集成仓库和 USD 数字资产仓库。
Step 2:安装 NVIDIA Isaac Sim 和 LeRobot 数据管理框架。
Step 3:在仿真环境中配置双相机观测,定义任务和语言指令。
Step 4:执行大规模并行数据采集,导出 LeRobot 格式数据集。
Step 5:使用 LeRobot 或 OpenVLA 训练 VLA 模型,支持多 GPU 分布式训练。
Step 6:在仿真环境中评估模型后,通过 ROS2 接口部署到真机。
没有真机?没有 GPU 服务器?开发者可以在 Airbot 控制台申请云端仿真机器人,通过浏览器直接体验机器人运动控制、视觉感知和任务执行。结合 OpenClaw AI Agent 框架,甚至可以用自然语言直接控制仿真机器人。
07 VLA 体验传送门
开发者文档:
dev.sh-agilebot.com
云端仿真:
airbot.sh-agilebot.com/login
GitHub项目:
github.com/sh-agilebot/agilebot_isaac_sim
(Isaac Sim 集成,包括仿真环境、示例 Demo)
github.com/sh-agilebot/agilebot_isaac_usd_assets(USD 数字资产,包括机器人模型、网格、贴图)
github.com/sh-agilebot/agilebot_isaac_lab
(Isaac Lab训练环境配置)
上海捷勃特机器人有限公司
沪ICP备2020034948号-2