日本語

研究論文

← ホームに戻る

SmolVLA: 手頃な価格で効率的なロボティクスのための視覚言語行動モデル

Cheng-Hao Tu, Zicong Fan, Siyuan Geng, Chuer Pan, Oier Mees, Ridhi K. Jobanputra, Shuangfei Zhai, Ken Ooi, Yevgen Chebotar, Ted Xiao, Andy Zeng, Ting-Wei Lin, Brian Ichter, Sergey Levine, Fei Xia

要旨

私たちは、ウェブスケールのOpen-X-Embodiment(OXE)データセットでトレーニングされた、小規模な視覚言語行動(VLA)モデルであるSmolVLAを紹介します。コンパクトなアーキテクチャ(21億パラメータ)にもかかわらず、SmolVLAは実際のロボティクスベンチマークで卓越したパフォーマンスを示し、RT-2-X(55B)のようなより大規模で高度なモデルを上回ります。特筆すべきは、SmolVLAがコンシューマーグレードのハードウェアで効率的な推論速度を達成し、NVIDIA RTX 3090 GPUで約20-30Hz、ラップトップクラスのRTX 4070 GPUで45-60Hzに達することです。この効率は、事前トレーニング済みの視覚(SigLIP)および言語(Gemma)モデルの統合と、革新的なコネクタ設計によって実現されています。SmolVLAのリリースは、費用対効果の高いハードウェアでのロボティクスを民主化し、より広いコミュニティによる研究と応用のための実行可能な選択肢とすることを目指しています。

引用

研究でSmolVLAを使用する場合は、私たちの論文を引用することを検討してください:

@misc{tu2024smolvla,
      title={SmolVLA: A Vision-Language-Action Model for Affordable and Efficient Robotics}, 
      author={Cheng-Hao Tu and Zicong Fan and Siyuan Geng and Chuer Pan and Oier Mees and Ridhi K. Jobanputra and Shuangfei Zhai and Ken Ooi and Yevgen Chebotar and Ted Xiao and Andy Zeng and Ting-Wei Lin and Brian Ichter and Sergey Levine and Fei Xia},
      year={2024},
      eprint={2405.19726},
      archivePrefix={arXiv},
      primaryClass={cs.RO}
}