SmolVLA é um modelo compacto de visão-linguagem-ação para robótica, treinado com dados comunitários e otimizado para hardware de consumo.

Como o modelo atinge alta performance com poucos dados?

Ao utilizar uma arquitetura modular e técnicas como a redução de tokens visuais e inference assíncrona, o SmolVLA maximiza a eficiência computacional mesmo com datasets reduzidos.

Qual a vantagem da inference assíncrona?

A inference assíncrona permite que o robô execute ações enquanto a próxima previsão é gerada, reduzindo latência e melhorando a reatividade em tempo real.

SmolVLA Modelo VLA Eficiente para Robytica

Noticias Tecnologia

SmolVLA: Modelo VLA Eficiente para Robótica

4 de junho de 2025 Diogo Fernando ia, robotica 7 min read

Publicado em 3 de junho de 2025 – Nesta publicação, apresentamos o SmolVLA, um modelo de visão-linguagem-ação (VLA) compacto e open-source, treinado com dados da comunidade Lerobot. Em apenas alguns parágrafos iniciais, você entenderá quem desenvolveu, o que é e por que esse avanço pode transformar a robótica no uso de hardware acessível e métodos de inference assíncrona.

Tabela de conteúdos

Introdução e Contexto

Avanços em Transformers já revolucionaram áreas como processamento de linguagem e visão computacional. No entanto, a robótica, que depende de modelos capazes de interpretar imagens, comandos em linguagem natural e gerar ações, enfrentava desafios devido à falta de dados diversificados e modelos acessíveis. O SmolVLA surge exatamente para preencher essa lacuna, oferecendo uma solução compacta que combina a capacidade de entendimento multimodal com uma arquitetura orientada para a ação. Treinado com datasets públicos compartilhados pela comunidade Lerobot, este modelo demonstra que é possível alcançar alta performance em tarefas reais com hardware de consumo.

Conhecendo o SmolVLA

O SmolVLA-450M é um modelo que integra um Sistema de Visão-Linguagem a um especialista em ações, combinando dados visuais, instruções em linguagem natural e estados sensório-motores para predizer comandos de robôs. Sua característica principal é a capacidade de operar em equipamentos com hardware limitado, permitindo treinamento em GPUs comuns ou mesmo em notebooks. Além disso, seu design incorpora:

Processamento de imagens com redução eficiente de tokens;
Uso de camadas intermediárias para acelerar a previsão;
Métodos de inference assíncrona que aumentam a reatividade do robô;
Integração de dados de diversas fontes e pontos de vista.

Essa integração permite ao modelo realizar tarefas complexas, como picking, stacking e ajuste fino de movimentos, com precisão e baixa latência, demonstrando alta performance tanto em simulações quanto em aplicações reais.

Comparação visual do SmolVLA em diferentes tarefas robóticas.

Como Usar o SmolVLA

Os pesquisadores e desenvolvedores encontram facilidade ao utilizar o SmolVLA, que pode ser incorporado em pipelines de robótica com pouca complexidade. Confira os passos básicos:

Instalação

git clone https://github.com/huggingface/lerobot.git
cd lerobot
pip install -e ".[smolvla]"

Finetuning e Treinamento

Para utilizar o modelo pré-treinado ou realizar ajustes específicos com seus dados, bastam poucos comandos. Por exemplo, para finetuning, utilize:

python lerobot/scripts/train.py \
  --policy.path=lerobot/smolvla_base \
  --dataset.repo_id=lerobot/svla_so100_stacking \
  --batch_size=64 \
  --steps=200000

Se preferir treinar o modelo do zero, o processo é igualmente simples e permite o uso direto da arquitetura integrada (pré-treinado de VLM e especialista de ação).

Metodologia e Arquitetura

O diferencial do SmolVLA não reside apenas em ser compacto, mas também em sua arquitetura inovadora e metodologias de treinamento que otimizam recursos. O modelo é dividido em duas partes principais:

Visão-Linguagem: Utiliza o SmolVLM2, que extrai tokens das imagens e processa as instruções com um decodificador de linguagem. A combinação com dados sensoriais permite uma compreensão robusta do ambiente.
Especialista em Ação: Um transformer compacto (~100M parâmetros) que prediz ações contínuas com base em um objetivo de correção de trajetórias, utilizando um método de flow matching para ajustes finos.

Adicionalmente, o SmolVLA incorpora técnicas que melhoram a eficiência computacional:

Redução de tokens visuais para acelerar o processamento;
Pulagem de camadas superiores do VLM para diminuir o custo computacional;
Intercalação de mecanismos de cross e self-attention, garantindo uma resposta temporária suave e uma adaptação eficaz às entradas.

Esse design modular e escalável faz do SmolVLA uma ferramenta poderosa para pesquisadores que buscam democratizar o uso de modelos VLA em robótica com hardware limitado.

Inference Assíncrona: Agilidade em Tempo Real

Uma das inovações do SmolVLA é o uso da inference assíncrona. Diferente do modo síncrono, onde o robô espera a finalização do cálculo de cada ação, o modo assíncrono permite que o robô execute uma sequência de ações enquanto solicita a próxima previsão simultaneamente. Isso reduz o tempo de resposta e aumenta a taxa de conclusão de tarefas, fundamentais em ambientes em constante mudança.

Inference assíncrona permite reatividade superior em ambientes dinâmicos.

Resultados e Impactos

Os testes realizados com o SmolVLA demonstraram que, mesmo com um número reduzido de episódios de treinamento, o modelo alcança taxas de sucesso superiores a 78% em tarefas reais, superando modelos muito maiores e mais custosos. Nos benchmarks simulados e com o robô real (SO100 e SO101), o SmolVLA mostrou:

Melhoria significativa nas taxas de completude de tarefas;
Redução do tempo de operação em cerca de 30% graças à inference assíncrona;
Alta adaptabilidade em cenários com perturbações e variações inesperadas.

Esses resultados evidenciam que a estratégia de treinamento com dados comunitários e a utilização de hardware de consumo são caminhos promissores para democratizar o acesso a tecnologias avançadas de robótica.

Considerações Finais

O SmolVLA representa um marco na evolução dos modelos de visão-linguagem-ação, combinando eficiência, robustez e acessibilidade. Ao possibilitar o treinamento e a implantação de modelos avançados em hardware comum, ele democratiza o desenvolvimento em robótica e incentiva a colaboração entre pesquisadores, educadores e entusiastas. Com sua abordagem modular e técnicas inovadoras, o SmolVLA não só se destaca em benchmarks, mas também abre caminho para futuras pesquisas e aprimoramentos na área.

Se você é pesquisador ou desenvolvedor, experimente integrar o SmolVLA em seu projeto, finetune-o de acordo com suas necessidades e compartilhe os resultados com a comunidade. A colaboração e o compartilhamento de dados são essenciais para impulsionar a próxima geração de robôs mais inteligentes e responsivos.

Perguntas e Respostas sobre o SmolVLA

O que é o SmolVLA?
SmolVLA é um modelo compacto de visão-linguagem-ação para robótica, treinado com dados comunitários e otimizado para hardware de consumo.
Como o modelo atinge alta performance com poucos dados?
Ao utilizar uma arquitetura modular e técnicas como a redução de tokens visuais e inference assíncrona, o SmolVLA maximiza a eficiência computacional mesmo com datasets reduzidos.
Qual a vantagem da inference assíncrona?
A inference assíncrona permite que o robô execute ações enquanto a próxima previsão é gerada, reduzindo latência e melhorando a reatividade em tempo real.

As perguntas acima ajudam a esclarecer as principais vantagens e características do SmolVLA, reforçando seu valor para a comunidade de robótica.

Conclusão

O SmolVLA se destaca como uma solução inovadora que une eficiência, acessibilidade e desempenho robusto para aplicações robóticas. Sua abertura, aliada ao uso de hardware acessível e dados comunitários, reforça a importância da colaboração no avanço da robótica moderna. Se você deseja experimentar uma tecnologia que une visão, linguagem e ação de forma integrada, o SmolVLA é uma excelente escolha para transformar seu projeto e acelerar pesquisas na área.

Experimente, contribua e compartilhe sua experiência. Juntos, podemos construir um futuro onde a robótica avançada esteja ao alcance de todos!