SmolVLA: Modelo VLA Eficiente para Robótica
Publicado em 3 de junho de 2025 – Nesta publicação, apresentamos o SmolVLA, um modelo de visão-linguagem-ação (VLA) compacto e open-source, treinado com dados da comunidade Lerobot. Em apenas alguns parágrafos iniciais, você entenderá quem desenvolveu, o que é e por que esse avanço pode transformar a robótica no uso de hardware acessível e métodos de inference assíncrona.
Tabela de conteúdos
Introdução e Contexto
Avanços em Transformers já revolucionaram áreas como processamento de linguagem e visão computacional. No entanto, a robótica, que depende de modelos capazes de interpretar imagens, comandos em linguagem natural e gerar ações, enfrentava desafios devido à falta de dados diversificados e modelos acessíveis. O SmolVLA surge exatamente para preencher essa lacuna, oferecendo uma solução compacta que combina a capacidade de entendimento multimodal com uma arquitetura orientada para a ação. Treinado com datasets públicos compartilhados pela comunidade Lerobot, este modelo demonstra que é possível alcançar alta performance em tarefas reais com hardware de consumo.
Conhecendo o SmolVLA
O SmolVLA-450M é um modelo que integra um Sistema de Visão-Linguagem a um especialista em ações, combinando dados visuais, instruções em linguagem natural e estados sensório-motores para predizer comandos de robôs. Sua característica principal é a capacidade de operar em equipamentos com hardware limitado, permitindo treinamento em GPUs comuns ou mesmo em notebooks. Além disso, seu design incorpora:
- Processamento de imagens com redução eficiente de tokens;
- Uso de camadas intermediárias para acelerar a previsão;
- Métodos de inference assíncrona que aumentam a reatividade do robô;
- Integração de dados de diversas fontes e pontos de vista.
Essa integração permite ao modelo realizar tarefas complexas, como picking, stacking e ajuste fino de movimentos, com precisão e baixa latência, demonstrando alta performance tanto em simulações quanto em aplicações reais.

Como Usar o SmolVLA
Os pesquisadores e desenvolvedores encontram facilidade ao utilizar o SmolVLA, que pode ser incorporado em pipelines de robótica com pouca complexidade. Confira os passos básicos:
Instalação
git clone https://github.com/huggingface/lerobot.git
cd lerobot
pip install -e ".[smolvla]"
Finetuning e Treinamento
Para utilizar o modelo pré-treinado ou realizar ajustes específicos com seus dados, bastam poucos comandos. Por exemplo, para finetuning, utilize:
python lerobot/scripts/train.py \
--policy.path=lerobot/smolvla_base \
--dataset.repo_id=lerobot/svla_so100_stacking \
--batch_size=64 \
--steps=200000
Se preferir treinar o modelo do zero, o processo é igualmente simples e permite o uso direto da arquitetura integrada (pré-treinado de VLM e especialista de ação).
Metodologia e Arquitetura
O diferencial do SmolVLA não reside apenas em ser compacto, mas também em sua arquitetura inovadora e metodologias de treinamento que otimizam recursos. O modelo é dividido em duas partes principais:
- Visão-Linguagem: Utiliza o SmolVLM2, que extrai tokens das imagens e processa as instruções com um decodificador de linguagem. A combinação com dados sensoriais permite uma compreensão robusta do ambiente.
- Especialista em Ação: Um transformer compacto (~100M parâmetros) que prediz ações contínuas com base em um objetivo de correção de trajetórias, utilizando um método de flow matching para ajustes finos.
Adicionalmente, o SmolVLA incorpora técnicas que melhoram a eficiência computacional:
- Redução de tokens visuais para acelerar o processamento;
- Pulagem de camadas superiores do VLM para diminuir o custo computacional;
- Intercalação de mecanismos de cross e self-attention, garantindo uma resposta temporária suave e uma adaptação eficaz às entradas.
Esse design modular e escalável faz do SmolVLA uma ferramenta poderosa para pesquisadores que buscam democratizar o uso de modelos VLA em robótica com hardware limitado.
Inference Assíncrona: Agilidade em Tempo Real
Uma das inovações do SmolVLA é o uso da inference assíncrona. Diferente do modo síncrono, onde o robô espera a finalização do cálculo de cada ação, o modo assíncrono permite que o robô execute uma sequência de ações enquanto solicita a próxima previsão simultaneamente. Isso reduz o tempo de resposta e aumenta a taxa de conclusão de tarefas, fundamentais em ambientes em constante mudança.

Resultados e Impactos
Os testes realizados com o SmolVLA demonstraram que, mesmo com um número reduzido de episódios de treinamento, o modelo alcança taxas de sucesso superiores a 78% em tarefas reais, superando modelos muito maiores e mais custosos. Nos benchmarks simulados e com o robô real (SO100 e SO101), o SmolVLA mostrou:
- Melhoria significativa nas taxas de completude de tarefas;
- Redução do tempo de operação em cerca de 30% graças à inference assíncrona;
- Alta adaptabilidade em cenários com perturbações e variações inesperadas.
Esses resultados evidenciam que a estratégia de treinamento com dados comunitários e a utilização de hardware de consumo são caminhos promissores para democratizar o acesso a tecnologias avançadas de robótica.
Considerações Finais
O SmolVLA representa um marco na evolução dos modelos de visão-linguagem-ação, combinando eficiência, robustez e acessibilidade. Ao possibilitar o treinamento e a implantação de modelos avançados em hardware comum, ele democratiza o desenvolvimento em robótica e incentiva a colaboração entre pesquisadores, educadores e entusiastas. Com sua abordagem modular e técnicas inovadoras, o SmolVLA não só se destaca em benchmarks, mas também abre caminho para futuras pesquisas e aprimoramentos na área.
Se você é pesquisador ou desenvolvedor, experimente integrar o SmolVLA em seu projeto, finetune-o de acordo com suas necessidades e compartilhe os resultados com a comunidade. A colaboração e o compartilhamento de dados são essenciais para impulsionar a próxima geração de robôs mais inteligentes e responsivos.
Perguntas e Respostas sobre o SmolVLA
O que é o SmolVLA?
SmolVLA é um modelo compacto de visão-linguagem-ação para robótica, treinado com dados comunitários e otimizado para hardware de consumo.
Como o modelo atinge alta performance com poucos dados?
Ao utilizar uma arquitetura modular e técnicas como a redução de tokens visuais e inference assíncrona, o SmolVLA maximiza a eficiência computacional mesmo com datasets reduzidos.
Qual a vantagem da inference assíncrona?
A inference assíncrona permite que o robô execute ações enquanto a próxima previsão é gerada, reduzindo latência e melhorando a reatividade em tempo real.
As perguntas acima ajudam a esclarecer as principais vantagens e características do SmolVLA, reforçando seu valor para a comunidade de robótica.
Conclusão
O SmolVLA se destaca como uma solução inovadora que une eficiência, acessibilidade e desempenho robusto para aplicações robóticas. Sua abertura, aliada ao uso de hardware acessível e dados comunitários, reforça a importância da colaboração no avanço da robótica moderna. Se você deseja experimentar uma tecnologia que une visão, linguagem e ação de forma integrada, o SmolVLA é uma excelente escolha para transformar seu projeto e acelerar pesquisas na área.
Experimente, contribua e compartilhe sua experiência. Juntos, podemos construir um futuro onde a robótica avançada esteja ao alcance de todos!