
DiffusionGemma: Google acelera IA com difusão
O Google lançou o DiffusionGemma, um modelo experimental de linguagem de código aberto que gera blocos de 256 tokens em paralelo e consegue revisar partes do texto durante o processo. A novidade, anunciada em junho de 2026, usa uma abordagem inspirada em modelos de difusão, como os usados em geração de imagens, e mira principalmente inferência local, servidores com baixa concorrência e tarefas estruturadas.
Em testes citados pelo projeto vLLM, o DiffusionGemma chegou a 1.008 tokens por segundo em uma Nvidia H100 e a 1.288 tokens por segundo em uma H200, usando quantização FP8 em batch size 1.
Tabela de conteúdos
O que é o DiffusionGemma
O DiffusionGemma é um modelo de linguagem baseado no Gemma 4, família aberta de modelos do Google. Diferente dos modelos autoregressivos tradicionais, que escrevem uma resposta token por token, da esquerda para a direita, o DiffusionGemma começa com um bloco de tokens aleatórios e refina esse bloco em várias etapas.
Na prática, o modelo trata a geração de texto como uma “tela” de 256 posições. Em vez de decidir a primeira palavra, depois a segunda e assim por diante, ele avalia todas as posições ao mesmo tempo. A cada rodada, fixa os tokens nos quais tem maior confiança e reconsidera os trechos incertos. Esse mecanismo permite uma forma de autocorreção que os modelos autoregressivos não têm por arquitetura.
A licença escolhida também é relevante: o DiffusionGemma foi lançado sob Apache 2.0, o que facilita testes, integração e uso por equipes de engenharia. Segundo o Google, trata-se do primeiro modelo de linguagem por difusão com suporte nativo na plataforma de inferência open source vLLM.
Como a geração por difusão muda o texto
Modelos de imagem como Stable Diffusion não desenham uma figura pixel por pixel. Eles partem de ruído e refinam a imagem inteira até que ela faça sentido. O DiffusionGemma aplica uma ideia parecida ao texto: cria uma estrutura inicial ruidosa e faz passagens sucessivas de “denoising”, ou remoção de ruído, até estabilizar a resposta.
- Geração paralela: 256 tokens são avaliados como bloco, não como sequência linear.
- Autocorreção: posições de baixa confiança podem ser revistas nas rodadas seguintes.
- Contexto bidirecional: cada posição pode considerar tokens anteriores e posteriores.
- Inferência otimizada: o ganho aparece mais em uso local ou com poucos usuários simultâneos.
Esse contexto bidirecional é uma das diferenças mais importantes. Em um modelo tradicional, o token atual só depende do que veio antes. No DiffusionGemma, cada posição pode usar pistas de todo o bloco, inclusive de partes que apareceriam “depois” na frase final. Isso pode ajudar em tarefas com restrições, como preenchimento de código, geração de templates e problemas em que a resposta correta depende de relações entre diferentes partes do texto.
Desempenho em GPUs e integração com vLLM
O DiffusionGemma foi apresentado como um modelo Mixture of Experts de 26 bilhões de parâmetros, mas ativa cerca de 3,8 bilhões durante a inferência. Na versão quantizada, ele pode caber em aproximadamente 18 GB de VRAM, o que abre espaço para testes em placas de consumo avançadas, como Nvidia RTX 4090 e RTX 5090.

A integração com o vLLM exigiu mudanças técnicas porque o DiffusionGemma não segue o fluxo padrão de atendimento de requisições. Modelos comuns usam atenção causal durante a geração. Já o DiffusionGemma alterna entre leitura do prompt, refinamento bidirecional da tela de tokens e confirmação do bloco final.
Para isso, as equipes envolvidas adicionaram troca de atenção por requisição nos backends Triton e FlashAttention 4. Também foi aproveitado o caminho de speculative decoding já existente no vLLM para organizar o ciclo de refinamento. O novo componente ModelState foi desenhado para permitir que futuros modelos de difusão também sejam servidos pela plataforma.
| Cenário | Vantagem do DiffusionGemma | Limitação |
| Inferência local | Melhor uso da GPU em baixa concorrência | Qualidade inferior ao Gemma 4 padrão |
| Servidor dedicado | Mais tokens por segundo em batch size 1 | Resultados dependem de hardware e quantização |
| Nuvem com alto volume | Ganho menor quando o batch já satura a GPU | Modelos autoregressivos seguem competitivos |
| Tarefas estruturadas | Contexto bidirecional ajuda em restrições | Exige avaliação por caso de uso |
Onde o DiffusionGemma realmente ganha
O principal ganho do DiffusionGemma aparece quando a GPU não está totalmente ocupada por muitos usuários simultâneos. Isso é comum em inferência local, aplicações corporativas internas, protótipos em workstation e serviços de baixa concorrência. Nesses casos, a geração paralela usa melhor a capacidade de computação disponível e reduz a latência percebida.
Em ambientes de nuvem com centenas de chamadas simultâneas, a vantagem diminui. Modelos autoregressivos já conseguem manter GPUs ocupadas com grandes lotes de requisições. Por isso, o DiffusionGemma não deve ser entendido como substituto universal dos LLMs atuais, mas como uma alternativa de arquitetura para cenários específicos.
O pesquisador Guilherme O’Tina resumiu a cautela necessária ao comparar artefatos locais e alucinações. A observação é importante porque velocidade não resolve, por si só, problemas de fidelidade factual, coerência longa ou segurança de resposta.
Comparação com Gemma 4 e speculative decoding
O Google deixou claro que o DiffusionGemma não supera o Gemma 4 padrão em qualidade geral. A empresa recomenda o Gemma 4 tradicional para aplicações que exigem a melhor resposta possível. A troca proposta é direta: menor latência e geração paralela em troca de uma qualidade média inferior em algumas tarefas abertas.

Também é importante não confundir DiffusionGemma com speculative decoding. No speculative decoding, um modelo menor antecipa tokens e o modelo principal verifica essas sugestões. A arquitetura continua autoregressiva. No DiffusionGemma, o paradigma muda: o modelo cria uma tela ruidosa de 256 tokens e refina o bloco inteiro em paralelo.
O pesquisador Andrew Kuncevich destacou exatamente esse ponto: não se trata apenas de “adivinhar” tokens futuros, mas de outro paradigma de geração. Essa distinção ajuda engenheiros a decidir se vale testar o modelo em pipelines já baseados em vLLM.
O teste com Sudoku e tarefas estruturadas
Um dos exemplos mais interessantes apresentados pelo Google envolve Sudoku. O modelo base não resolveu os quebra-cabeças. Após ajuste fino em um conjunto de dados específico, porém, alcançou 80% de sucesso e passou a convergir em 12 etapas de denoising, em vez de 48.
Esse resultado não significa que o DiffusionGemma seja automaticamente melhor em raciocínio geral. Ele indica que a arquitetura pode ser forte quando há restrições claras e dependências entre posições diferentes. Em geração de código, preenchimento de lacunas, dados estruturados e formatos rígidos, a capacidade de revisar o bloco inteiro pode ser valiosa.
Impacto para empresas e desenvolvedores
Para empresas que rodam IA em hardware próprio, o DiffusionGemma amplia o cardápio de escolhas. Até agora, reduzir latência em uma GPU dedicada geralmente significava usar um modelo menor. Agora, equipes podem testar um modelo com o mesmo perfil de escala, mas com geração por difusão e suporte imediato a endpoint compatível com OpenAI via vLLM.
O caminho mais prudente é avaliar o DiffusionGemma em tarefas reais, comparando custo, qualidade, throughput, consumo de VRAM e taxa de erro. Para chatbots abertos e respostas sensíveis, o Gemma 4 padrão pode continuar melhor. Para baixa concorrência, inferência local e saídas com formato controlado, o novo modelo do Google merece atenção.
Perguntas frequentes sobre o DiffusionGemma
O que é o DiffusionGemma do Google?
É um modelo experimental aberto que gera texto por difusão. Ele refina 256 tokens em paralelo e usa o Gemma 4 como base.
O DiffusionGemma é melhor que o Gemma 4?
Não em qualidade geral. O Google afirma que o Gemma 4 padrão ainda é indicado quando a prioridade é máxima qualidade de resposta.
Onde o DiffusionGemma é mais rápido?
Ele tende a ganhar em inferência local, batch size 1 e baixa concorrência, especialmente em GPUs como H100, H200 e placas RTX avançadas.
DiffusionGemma é speculative decoding?
Não. Speculative decoding mantém geração autoregressiva. O DiffusionGemma usa uma tela ruidosa e denoising paralelo do bloco inteiro.
Empresas devem adotar o DiffusionGemma agora?
Devem testar caso usem IA local, vLLM ou tarefas estruturadas. Para aplicações críticas, a qualidade precisa ser validada antes da adoção.
Considerações finais
O DiffusionGemma representa uma mudança relevante na geração de texto por IA. Ao trocar a sequência token a token por blocos paralelos com autocorreção, o Google mostra um caminho promissor para reduzir latência em inferência local e tarefas estruturadas. Ainda assim, o avanço vem com ressalvas: a qualidade geral fica abaixo do Gemma 4 padrão, e o ganho de velocidade depende muito do ambiente de execução. Para desenvolvedores e empresas, a conclusão é simples: o DiffusionGemma não substitui todos os modelos atuais, mas abre uma nova opção técnica que vale ser testada.
