SmolVLA: 現代ロボティクスのためのオープンソース視覚言語行動モデル

SmolVLAとは？

SmolVLAは、21億のパラメータを持つ最先端の視覚言語行動（VLA）モデルで、実際のロボティクス課題で卓越したパフォーマンスを発揮するように設計されています。

コンシューマー向けGPUに最適化されており、NVIDIA RTX 3090などの手頃なハードウェアでリアルタイム操作を可能にする驚異的な推論速度を実現します。

Hugging Faceによって開発され、オープンソースとして公開されたSmolVLAは、ロボティクス研究の民主化を目指し、高度なVLA技術を誰もが利用できるようにします。

SmolVLAが実際の環境でさまざまなタスクを実行し、その能力を披露する様子をご覧ください。

コミュニティがSmolVLAを新しいエキサイティングなアプリケーションにどのように使用し、適応させているかをご覧ください。