SmolVLA: Ein Vision-Language-Action-Modell für erschwingliche und effiziente Robotik
Zusammenfassung
Wir stellen SmolVLA vor, ein kleines Vision-Language-Action (VLA)-Modell, das auf dem web-skalierten Datensatz Open-X-Embodiment (OXE) trainiert wurde. Trotz seiner kompakten Architektur (2.1B Parameter) zeigt SmolVLA eine außergewöhnliche Leistung auf realen Robotik-Benchmarks und übertrifft größere und fortschrittlichere Modelle wie RT-2-X (55B). Bemerkenswerterweise erreicht SmolVLA effiziente Inferenzgeschwindigkeiten auf handelsüblicher Hardware, mit etwa 20-30Hz auf einer NVIDIA RTX 3090 GPU und 45-60Hz auf einer Laptop-GPU der RTX 4070-Klasse. Diese Effizienz wird durch die Integration vorab trainierter Seh- (SigLIP) und Sprachmodelle (Gemma) sowie ein innovatives Konnektordesign realisiert. Die Veröffentlichung von SmolVLA zielt darauf ab, die Robotik auf kostengünstiger Hardware zu demokratisieren und sie zu einer praktikablen Option für Forschung und Anwendung durch eine breitere Gemeinschaft zu machen.
Zitierung
Wenn Sie SmolVLA in Ihrer Forschung verwenden, erwägen Sie bitte, unsere Arbeit zu zitieren:
@misc{tu2024smolvla,
title={SmolVLA: A Vision-Language-Action Model for Affordable and Efficient Robotics},
author={Cheng-Hao Tu and Zicong Fan and Siyuan Geng and Chuer Pan and Oier Mees and Ridhi K. Jobanputra and Shuangfei Zhai and Ken Ooi and Yevgen Chebotar and Ted Xiao and Andy Zeng and Ting-Wei Lin and Brian Ichter and Sergey Levine and Fei Xia},
year={2024},
eprint={2405.19726},
archivePrefix={arXiv},
primaryClass={cs.RO}
}