한국어

SmolVLA

현대 로보틱스를 위한 오픈 소스 시각-언어-행동 모델

SmolVLA란?

작지만 강력함

SmolVLA는 21억 개의 파라미터를 가진 최첨단 시각-언어-행동(VLA) 모델로, 실제 로보틱스 작업에서 뛰어난 성능을 발휘하도록 설계되었습니다.

고효율

소비자용 GPU에 최적화되어 NVIDIA RTX 3090과 같은 접근 가능한 하드웨어에서 실시간 작동을 가능하게 하는 인상적인 추론 속도를 달성합니다.

개방적이고 접근 가능함

Hugging Face에서 개발하고 오픈 소스로 공개한 SmolVLA는 로보틱스 연구의 민주화를 목표로 하며, 고급 VLA 기술을 모두가 이용할 수 있도록 합니다.

실행 모습 보기

실제 환경에서 다양한 작업을 수행하며 그 능력을 보여주는 SmolVLA를 시청하세요.

SmolVLA 개요

커뮤니티 DIY 로봇 비디오

커뮤니티 쇼케이스

커뮤니티가 SmolVLA를 새롭고 흥미로운 애플리케이션에 어떻게 활용하고 적용하는지 확인해 보세요.

리소스