NoticiasTecnologia

SmolVLA: Modelo VLA Eficiente para Robótica

Publicado em 3 de junho de 2025 – Nesta publicação, apresentamos o SmolVLA, um modelo de visão-linguagem-ação (VLA) compacto e open-source, treinado com dados da comunidade Lerobot. Em apenas alguns parágrafos iniciais, você entenderá quem desenvolveu, o que é e por que esse avanço pode transformar a robótica no uso de hardware acessível e métodos de inference assíncrona.

Introdução e Contexto

Avanços em Transformers já revolucionaram áreas como processamento de linguagem e visão computacional. No entanto, a robótica, que depende de modelos capazes de interpretar imagens, comandos em linguagem natural e gerar ações, enfrentava desafios devido à falta de dados diversificados e modelos acessíveis. O SmolVLA surge exatamente para preencher essa lacuna, oferecendo uma solução compacta que combina a capacidade de entendimento multimodal com uma arquitetura orientada para a ação. Treinado com datasets públicos compartilhados pela comunidade Lerobot, este modelo demonstra que é possível alcançar alta performance em tarefas reais com hardware de consumo.

Conhecendo o SmolVLA

O SmolVLA-450M é um modelo que integra um Sistema de Visão-Linguagem a um especialista em ações, combinando dados visuais, instruções em linguagem natural e estados sensório-motores para predizer comandos de robôs. Sua característica principal é a capacidade de operar em equipamentos com hardware limitado, permitindo treinamento em GPUs comuns ou mesmo em notebooks. Além disso, seu design incorpora:

  • Processamento de imagens com redução eficiente de tokens;
  • Uso de camadas intermediárias para acelerar a previsão;
  • Métodos de inference assíncrona que aumentam a reatividade do robô;
  • Integração de dados de diversas fontes e pontos de vista.

Essa integração permite ao modelo realizar tarefas complexas, como picking, stacking e ajuste fino de movimentos, com precisão e baixa latência, demonstrando alta performance tanto em simulações quanto em aplicações reais.

Comparação visual do SmolVLA em diferentes tarefas robóticas.

Como Usar o SmolVLA

Os pesquisadores e desenvolvedores encontram facilidade ao utilizar o SmolVLA, que pode ser incorporado em pipelines de robótica com pouca complexidade. Confira os passos básicos:

Instalação

git clone https://github.com/huggingface/lerobot.git
cd lerobot
pip install -e ".[smolvla]"

Finetuning e Treinamento

Para utilizar o modelo pré-treinado ou realizar ajustes específicos com seus dados, bastam poucos comandos. Por exemplo, para finetuning, utilize:

python lerobot/scripts/train.py \
  --policy.path=lerobot/smolvla_base \
  --dataset.repo_id=lerobot/svla_so100_stacking \
  --batch_size=64 \
  --steps=200000

Se preferir treinar o modelo do zero, o processo é igualmente simples e permite o uso direto da arquitetura integrada (pré-treinado de VLM e especialista de ação).

Metodologia e Arquitetura

O diferencial do SmolVLA não reside apenas em ser compacto, mas também em sua arquitetura inovadora e metodologias de treinamento que otimizam recursos. O modelo é dividido em duas partes principais:

  • Visão-Linguagem: Utiliza o SmolVLM2, que extrai tokens das imagens e processa as instruções com um decodificador de linguagem. A combinação com dados sensoriais permite uma compreensão robusta do ambiente.
  • Especialista em Ação: Um transformer compacto (~100M parâmetros) que prediz ações contínuas com base em um objetivo de correção de trajetórias, utilizando um método de flow matching para ajustes finos.

Adicionalmente, o SmolVLA incorpora técnicas que melhoram a eficiência computacional:

  • Redução de tokens visuais para acelerar o processamento;
  • Pulagem de camadas superiores do VLM para diminuir o custo computacional;
  • Intercalação de mecanismos de cross e self-attention, garantindo uma resposta temporária suave e uma adaptação eficaz às entradas.

Esse design modular e escalável faz do SmolVLA uma ferramenta poderosa para pesquisadores que buscam democratizar o uso de modelos VLA em robótica com hardware limitado.

Inference Assíncrona: Agilidade em Tempo Real

Uma das inovações do SmolVLA é o uso da inference assíncrona. Diferente do modo síncrono, onde o robô espera a finalização do cálculo de cada ação, o modo assíncrono permite que o robô execute uma sequência de ações enquanto solicita a próxima previsão simultaneamente. Isso reduz o tempo de resposta e aumenta a taxa de conclusão de tarefas, fundamentais em ambientes em constante mudança.

Inference assíncrona permite reatividade superior em ambientes dinâmicos.

Resultados e Impactos

Os testes realizados com o SmolVLA demonstraram que, mesmo com um número reduzido de episódios de treinamento, o modelo alcança taxas de sucesso superiores a 78% em tarefas reais, superando modelos muito maiores e mais custosos. Nos benchmarks simulados e com o robô real (SO100 e SO101), o SmolVLA mostrou:

  • Melhoria significativa nas taxas de completude de tarefas;
  • Redução do tempo de operação em cerca de 30% graças à inference assíncrona;
  • Alta adaptabilidade em cenários com perturbações e variações inesperadas.

Esses resultados evidenciam que a estratégia de treinamento com dados comunitários e a utilização de hardware de consumo são caminhos promissores para democratizar o acesso a tecnologias avançadas de robótica.

Considerações Finais

O SmolVLA representa um marco na evolução dos modelos de visão-linguagem-ação, combinando eficiência, robustez e acessibilidade. Ao possibilitar o treinamento e a implantação de modelos avançados em hardware comum, ele democratiza o desenvolvimento em robótica e incentiva a colaboração entre pesquisadores, educadores e entusiastas. Com sua abordagem modular e técnicas inovadoras, o SmolVLA não só se destaca em benchmarks, mas também abre caminho para futuras pesquisas e aprimoramentos na área.

Se você é pesquisador ou desenvolvedor, experimente integrar o SmolVLA em seu projeto, finetune-o de acordo com suas necessidades e compartilhe os resultados com a comunidade. A colaboração e o compartilhamento de dados são essenciais para impulsionar a próxima geração de robôs mais inteligentes e responsivos.

Perguntas e Respostas sobre o SmolVLA

  1. O que é o SmolVLA?

    SmolVLA é um modelo compacto de visão-linguagem-ação para robótica, treinado com dados comunitários e otimizado para hardware de consumo.

  2. Como o modelo atinge alta performance com poucos dados?

    Ao utilizar uma arquitetura modular e técnicas como a redução de tokens visuais e inference assíncrona, o SmolVLA maximiza a eficiência computacional mesmo com datasets reduzidos.

  3. Qual a vantagem da inference assíncrona?

    A inference assíncrona permite que o robô execute ações enquanto a próxima previsão é gerada, reduzindo latência e melhorando a reatividade em tempo real.

As perguntas acima ajudam a esclarecer as principais vantagens e características do SmolVLA, reforçando seu valor para a comunidade de robótica.

Conclusão

O SmolVLA se destaca como uma solução inovadora que une eficiência, acessibilidade e desempenho robusto para aplicações robóticas. Sua abertura, aliada ao uso de hardware acessível e dados comunitários, reforça a importância da colaboração no avanço da robótica moderna. Se você deseja experimentar uma tecnologia que une visão, linguagem e ação de forma integrada, o SmolVLA é uma excelente escolha para transformar seu projeto e acelerar pesquisas na área.

Experimente, contribua e compartilhe sua experiência. Juntos, podemos construir um futuro onde a robótica avançada esteja ao alcance de todos!

Diogo Fernando

Apaixonado por tecnologia e cultura pop, programo para resolver problemas e transformar vidas. Empreendedor e geek, busco novas ideias e desafios. Acredito na tecnologia como superpoder do século XXI.

Deixe um comentário Cancelar resposta

Sair da versão mobile