Français

Article de Recherche

← Retour à l'accueil

SmolVLA : Un modèle Vision-Langage-Action pour une robotique abordable et efficace

Cheng-Hao Tu, Zicong Fan, Siyuan Geng, Chuer Pan, Oier Mees, Ridhi K. Jobanputra, Shuangfei Zhai, Ken Ooi, Yevgen Chebotar, Ted Xiao, Andy Zeng, Ting-Wei Lin, Brian Ichter, Sergey Levine, Fei Xia

Résumé

Nous présentons SmolVLA, un petit modèle Vision-Langage-Action (VLA) entraîné sur l'ensemble de données à l'échelle du web Open-X-Embodiment (OXE). Malgré son architecture compacte (2,1 milliards de paramètres), SmolVLA démontre des performances exceptionnelles sur des bancs d'essai robotiques du monde réel, surpassant des modèles plus grands et plus avancés comme RT-2-X (55B). Notamment, SmolVLA atteint des vitesses d'inférence efficaces sur du matériel grand public, atteignant environ 20-30Hz sur un GPU NVIDIA RTX 3090 et 45-60Hz sur un GPU RTX 4070 de classe ordinateur portable. Cette efficacité est réalisée grâce à l'intégration de modèles de vision (SigLIP) et de langage (Gemma) pré-entraînés, ainsi qu'à une conception de connecteur innovante. La publication de SmolVLA vise à démocratiser la robotique sur du matériel rentable, en en faisant une option viable pour la recherche et l'application par une communauté plus large.

Citation

Si vous utilisez SmolVLA dans vos recherches, veuillez considérer citer notre article :

@misc{tu2024smolvla,
      title={SmolVLA: A Vision-Language-Action Model for Affordable and Efficient Robotics}, 
      author={Cheng-Hao Tu and Zicong Fan and Siyuan Geng and Chuer Pan and Oier Mees and Ridhi K. Jobanputra and Shuangfei Zhai and Ken Ooi and Yevgen Chebotar and Ted Xiao and Andy Zeng and Ting-Wei Lin and Brian Ichter and Sergey Levine and Fei Xia},
      year={2024},
      eprint={2405.19726},
      archivePrefix={arXiv},
      primaryClass={cs.RO}
}