🚀 认识 SmolVLA
SmolVLA 是由 Hugging Face 开发的一款仅有 4.5 亿参数的开创性视觉语言动作 (VLA) 模型。它经过精心设计,旨在在消费级硬件上实现经济高效的部署,让先进的机器人技术走进更多开发者和爱好者。
基于开放社区 LeRobot 的数据集进行训练,SmolVLA 真正体现了开源协同的力量,其性能可与规模更大的专有模型相媲美甚至超越。
📌 核心特性
紧凑高效的架构
结合精简的 SmolVLM-2 视觉语言模型和 Flow-Matching Transformer 动作专家,实现无与伦比的效率。
异步推理
通过将动作预测与执行解耦,实现实时响应,将任务完成时间平均缩短约30%。
开放与社区驱动
完全在 Hugging Face 上公开的 LeRobot 社区数据集上训练,并以开放源码形式发布,鼓励广泛使用和研究。
卓越性能
在 LIBERO 和 Meta-World 等模拟环境中表现出色,并在真实世界任务中取得了约 78.3% 的平均成功率。
🎬 运行实例
SmolVLA 概览
社区 DIY 机器人视频
🛠️ 快速上手指南
1. 环境设置
克隆 LeRobot 仓库并安装 SmolVLA 相关依赖。
git clone https://github.com/huggingface/lerobot.git
cd lerobot
pip install -e ".[smolvla]"
2. 直接加载预训练模型
最快体验 SmolVLA 的方式是直接加载预训练好的模型。
from lerobot.common.policies.smolvla.modeling_smolvla import SmolVLAPolicy
policy = SmolVLAPolicy.from_pretrained("lerobot/smolvla_base")
3. 微调或从头训练 (可选)
您也可以在自己的数据集上对模型进行微调或从零开始训练。
# 微调预训练模型
python lerobot/scripts/train.py \
--policy.path=lerobot/smolvla_base \
--dataset.repo_id=lerobot/svla_so100_stacking
# 从头开始训练
python lerobot/scripts/train.py \
--policy.type=smolvla \
--dataset.repo_id=lerobot/svla_so100_stacking
🌐 资源与社群
加入我们,共同推进开放、经济、高效的机器人技术。我们欢迎您贡献数据、改进代码或分享您的项目。