中文

研究论文

← 返回首页

SmolVLA: 面向经济高效机器人的视觉-语言-动作模型

Cheng-Hao Tu, Zicong Fan, Siyuan Geng, Chuer Pan, Oier Mees, Ridhi K. Jobanputra, Shuangfei Zhai, Ken Ooi, Yevgen Chebotar, Ted Xiao, Andy Zeng, Ting-Wei Lin, Brian Ichter, Sergey Levine, Fei Xia

摘要

我们介绍了 SmolVLA,一个在网络规模数据集 Open-X-Embodiment (OXE) 上训练的小型视觉-语言-动作 (VLA) 模型。尽管其紧凑的架构(2.1B参数),SmolVLA 在真实世界机器人基准测试中展现出卓越的性能,其表现超过了更大、更先进的模型,如 RT-2-X (55B)。值得注意的是,SmolVLA 在消费级硬件上实现了高效的推理速度,在 NVIDIA RTX 3090 GPU 上达到约 20-30Hz,在笔记本电脑级 RTX 4070 GPU 上达到 45-60Hz。这一效率是通过整合预训练视觉模型 (SigLIP) 和语言模型 (Gemma) 以及创新的连接器设计实现的。SmolVLA 的发布旨在推动机器人技术在成本效益高的硬件上的民主化,使其成为更广泛社区的研究和应用的可行选择。

引用

如果您的研究使用了 SmolVLA,请考虑引用我们的论文:

@misc{tu2024smolvla,
      title={SmolVLA: A Vision-Language-Action Model for Affordable and Efficient Robotics}, 
      author={Cheng-Hao Tu and Zicong Fan and Siyuan Geng and Chuer Pan and Oier Mees and Ridhi K. Jobanputra and Shuangfei Zhai and Ken Ooi and Yevgen Chebotar and Ted Xiao and Andy Zeng and Ting-Wei Lin and Brian Ichter and Sergey Levine and Fei Xia},
      year={2024},
      eprint={2405.19726},
      archivePrefix={arXiv},
      primaryClass={cs.RO}
}