中文

SmolVLA

为新一代机器人技术设计的紧凑、高效、开源的视觉语言动作 (VLA) 模型。

🚀 认识 SmolVLA

SmolVLA 是由 Hugging Face 开发的一款仅有 4.5 亿参数的开创性视觉语言动作 (VLA) 模型。它经过精心设计,旨在在消费级硬件上实现经济高效的部署,让先进的机器人技术走进更多开发者和爱好者。

基于开放社区 LeRobot 的数据集进行训练,SmolVLA 真正体现了开源协同的力量,其性能可与规模更大的专有模型相媲美甚至超越。

📌 核心特性

紧凑高效的架构

结合精简的 SmolVLM-2 视觉语言模型和 Flow-Matching Transformer 动作专家,实现无与伦比的效率。

异步推理

通过将动作预测与执行解耦,实现实时响应,将任务完成时间平均缩短约30%。

开放与社区驱动

完全在 Hugging Face 上公开的 LeRobot 社区数据集上训练,并以开放源码形式发布,鼓励广泛使用和研究。

卓越性能

在 LIBERO 和 Meta-World 等模拟环境中表现出色,并在真实世界任务中取得了约 78.3% 的平均成功率。

🎬 运行实例

SmolVLA 概览

社区 DIY 机器人视频

🛠️ 快速上手指南

1. 环境设置

克隆 LeRobot 仓库并安装 SmolVLA 相关依赖。

git clone https://github.com/huggingface/lerobot.git
cd lerobot
pip install -e ".[smolvla]"

2. 直接加载预训练模型

最快体验 SmolVLA 的方式是直接加载预训练好的模型。

from lerobot.common.policies.smolvla.modeling_smolvla import SmolVLAPolicy
policy = SmolVLAPolicy.from_pretrained("lerobot/smolvla_base")

3. 微调或从头训练 (可选)

您也可以在自己的数据集上对模型进行微调或从零开始训练。

# 微调预训练模型
python lerobot/scripts/train.py \
  --policy.path=lerobot/smolvla_base \
  --dataset.repo_id=lerobot/svla_so100_stacking

# 从头开始训练
python lerobot/scripts/train.py \
  --policy.type=smolvla \
  --dataset.repo_id=lerobot/svla_so100_stacking

🌐 资源与社群

加入我们,共同推进开放、经济、高效的机器人技术。我们欢迎您贡献数据、改进代码或分享您的项目。