SmolVLA: Un modello Vision-Language-Action open-source per la robotica moderna

Cos'è SmolVLA?

Compatto e Potente

SmolVLA è un modello Vision-Language-Action (VLA) all'avanguardia con 2,1 miliardi di parametri, progettato per prestazioni eccezionali in compiti di robotica reali.

Altamente Efficiente

Ottimizzato per GPU di livello consumer, raggiunge velocità di inferenza impressionanti, consentendo un funzionamento in tempo reale su hardware accessibile come la NVIDIA RTX 3090.

Aperto e Accessibile

Sviluppato da Hugging Face e reso open-source, SmolVLA mira a democratizzare la ricerca sulla robotica, rendendo la tecnologia VLA avanzata disponibile a tutti.

Guardalo in azione

Guarda SmolVLA in azione mentre esegue una varietà di compiti che mostrano le sue capacità in un ambiente reale.

Panoramica di SmolVLA

Video di robot fai-da-te della comunità

Vetrina della Comunità

Guarda come la comunità sta utilizzando e adattando SmolVLA per applicazioni nuove ed entusiasmanti.

Risorse

Articolo di ricerca ufficiale →
Pagina dell'articolo su Hugging Face →
Repository GitHub →
Annuncio ufficiale su X →