Forschungsarbeit

SmolVLA: Ein Vision-Language-Action-Modell für erschwingliche und effiziente Robotik

Cheng-Hao Tu, Zicong Fan, Siyuan Geng, Chuer Pan, Oier Mees, Ridhi K. Jobanputra, Shuangfei Zhai, Ken Ooi, Yevgen Chebotar, Ted Xiao, Andy Zeng, Ting-Wei Lin, Brian Ichter, Sergey Levine, Fei Xia

Zusammenfassung

Wir stellen SmolVLA vor, ein kleines Vision-Language-Action (VLA)-Modell, das auf dem web-skalierten Datensatz Open-X-Embodiment (OXE) trainiert wurde. Trotz seiner kompakten Architektur (2.1B Parameter) zeigt SmolVLA eine außergewöhnliche Leistung auf realen Robotik-Benchmarks und übertrifft größere und fortschrittlichere Modelle wie RT-2-X (55B). Bemerkenswerterweise erreicht SmolVLA effiziente Inferenzgeschwindigkeiten auf handelsüblicher Hardware, mit etwa 20-30Hz auf einer NVIDIA RTX 3090 GPU und 45-60Hz auf einer Laptop-GPU der RTX 4070-Klasse. Diese Effizienz wird durch die Integration vorab trainierter Seh- (SigLIP) und Sprachmodelle (Gemma) sowie ein innovatives Konnektordesign realisiert. Die Veröffentlichung von SmolVLA zielt darauf ab, die Robotik auf kostengünstiger Hardware zu demokratisieren und sie zu einer praktikablen Option für Forschung und Anwendung durch eine breitere Gemeinschaft zu machen.

Zitierung

Wenn Sie SmolVLA in Ihrer Forschung verwenden, erwägen Sie bitte, unsere Arbeit zu zitieren:

@misc{tu2024smolvla,
      title={SmolVLA: A Vision-Language-Action Model for Affordable and Efficient Robotics}, 
      author={Cheng-Hao Tu and Zicong Fan and Siyuan Geng and Chuer Pan and Oier Mees and Ridhi K. Jobanputra and Shuangfei Zhai and Ken Ooi and Yevgen Chebotar and Ted Xiao and Andy Zeng and Ting-Wei Lin and Brian Ichter and Sergey Levine and Fei Xia},
      year={2024},
      eprint={2405.19726},
      archivePrefix={arXiv},
      primaryClass={cs.RO}
}