SmolVLA: Un modello Vision-Language-Action per una robotica accessibile ed efficiente
Riassunto
Presentiamo SmolVLA, un piccolo modello Vision-Language-Action (VLA) addestrato sul dataset su scala web Open-X-Embodiment (OXE). Nonostante la sua architettura compatta (2.1B parametri), SmolVLA dimostra prestazioni eccezionali su benchmark di robotica del mondo reale, superando modelli più grandi e avanzati come RT-2-X (55B). In particolare, SmolVLA raggiunge velocità di inferenza efficienti su hardware di livello consumer, toccando circa 20-30Hz su una GPU NVIDIA RTX 3090 e 45-60Hz su una GPU di classe laptop RTX 4070. Questa efficienza è realizzata attraverso l'integrazione di modelli di visione (SigLIP) e linguaggio (Gemma) pre-addestrati, insieme a un design innovativo del connettore. Il rilascio di SmolVLA mira a democratizzare la robotica su hardware a basso costo, rendendola un'opzione praticabile per la ricerca e l'applicazione da parte di una comunità più ampia.
Citazione
Se utilizzi SmolVLA nella tua ricerca, considera di citare il nostro articolo:
@misc{tu2024smolvla,
title={SmolVLA: A Vision-Language-Action Model for Affordable and Efficient Robotics},
author={Cheng-Hao Tu and Zicong Fan and Siyuan Geng and Chuer Pan and Oier Mees and Ridhi K. Jobanputra and Shuangfei Zhai and Ken Ooi and Yevgen Chebotar and Ted Xiao and Andy Zeng and Ting-Wei Lin and Brian Ichter and Sergey Levine and Fei Xia},
year={2024},
eprint={2405.19726},
archivePrefix={arXiv},
primaryClass={cs.RO}
}