Articolo di Ricerca

SmolVLA: Un modello Vision-Language-Action per una robotica accessibile ed efficiente

Cheng-Hao Tu, Zicong Fan, Siyuan Geng, Chuer Pan, Oier Mees, Ridhi K. Jobanputra, Shuangfei Zhai, Ken Ooi, Yevgen Chebotar, Ted Xiao, Andy Zeng, Ting-Wei Lin, Brian Ichter, Sergey Levine, Fei Xia

Riassunto

Presentiamo SmolVLA, un piccolo modello Vision-Language-Action (VLA) addestrato sul dataset su scala web Open-X-Embodiment (OXE). Nonostante la sua architettura compatta (2.1B parametri), SmolVLA dimostra prestazioni eccezionali su benchmark di robotica del mondo reale, superando modelli più grandi e avanzati come RT-2-X (55B). In particolare, SmolVLA raggiunge velocità di inferenza efficienti su hardware di livello consumer, toccando circa 20-30Hz su una GPU NVIDIA RTX 3090 e 45-60Hz su una GPU di classe laptop RTX 4070. Questa efficienza è realizzata attraverso l'integrazione di modelli di visione (SigLIP) e linguaggio (Gemma) pre-addestrati, insieme a un design innovativo del connettore. Il rilascio di SmolVLA mira a democratizzare la robotica su hardware a basso costo, rendendola un'opzione praticabile per la ricerca e l'applicazione da parte di una comunità più ampia.

Citazione

Se utilizzi SmolVLA nella tua ricerca, considera di citare il nostro articolo:

@misc{tu2024smolvla,
      title={SmolVLA: A Vision-Language-Action Model for Affordable and Efficient Robotics}, 
      author={Cheng-Hao Tu and Zicong Fan and Siyuan Geng and Chuer Pan and Oier Mees and Ridhi K. Jobanputra and Shuangfei Zhai and Ken Ooi and Yevgen Chebotar and Ted Xiao and Andy Zeng and Ting-Wei Lin and Brian Ichter and Sergey Levine and Fei Xia},
      year={2024},
      eprint={2405.19726},
      archivePrefix={arXiv},
      primaryClass={cs.RO}
}