日本語

SmolVLA

現代ロボティクスのためのオープンソース視覚言語行動モデル

SmolVLAとは?

コンパクト&パワフル

SmolVLAは、21億のパラメータを持つ最先端の視覚言語行動(VLA)モデルで、実際のロボティクス課題で卓越したパフォーマンスを発揮するように設計されています。

高効率

コンシューマー向けGPUに最適化されており、NVIDIA RTX 3090などの手頃なハードウェアでリアルタイム操作を可能にする驚異的な推論速度を実現します。

オープン&アクセシブル

Hugging Faceによって開発され、オープンソースとして公開されたSmolVLAは、ロボティクス研究の民主化を目指し、高度なVLA技術を誰もが利用できるようにします。

実際の動作を見る

SmolVLAが実際の環境でさまざまなタスクを実行し、その能力を披露する様子をご覧ください。

SmolVLAの概要

コミュニティによるDIYロボットビデオ

コミュニティショーケース

コミュニティがSmolVLAを新しいエキサイティングなアプリケーションにどのように使用し、適応させているかをご覧ください。

リソース