SmolVLA: 저렴하고 효율적인 로보틱스를 위한 시각-언어-행동 모델
초록
우리는 웹 스케일 Open-X-Embodiment(OXE) 데이터셋으로 훈련된 소형 시각-언어-행동(VLA) 모델인 SmolVLA를 소개합니다. 컴팩트한 아키텍처(21억 파라미터)에도 불구하고 SmolVLA는 실제 로보틱스 벤치마크에서 뛰어난 성능을 보이며, RT-2-X(55B)와 같은 더 크고 진보된 모델을 능가합니다. 특히 SmolVLA는 소비자급 하드웨어에서 효율적인 추론 속도를 달성하여 NVIDIA RTX 3090 GPU에서 약 20-30Hz, 노트북급 RTX 4070 GPU에서 45-60Hz에 도달합니다. 이러한 효율성은 사전 훈련된 시각(SigLIP) 및 언어(Gemma) 모델의 통합과 혁신적인 커넥터 설계를 통해 실현됩니다. SmolVLA의 출시는 저비용 하드웨어에서 로보틱스를 민주화하여 더 넓은 커뮤니티가 연구 및 응용을 위한 실행 가능한 옵션으로 만드는 것을 목표로 합니다.
인용
연구에 SmolVLA를 사용하는 경우, 저희 논문을 인용해 주시기 바랍니다:
@misc{tu2024smolvla,
title={SmolVLA: A Vision-Language-Action Model for Affordable and Efficient Robotics},
author={Cheng-Hao Tu and Zicong Fan and Siyuan Geng and Chuer Pan and Oier Mees and Ridhi K. Jobanputra and Shuangfei Zhai and Ken Ooi and Yevgen Chebotar and Ted Xiao and Andy Zeng and Ting-Wei Lin and Brian Ichter and Sergey Levine and Fei Xia},
year={2024},
eprint={2405.19726},
archivePrefix={arXiv},
primaryClass={cs.RO}
}