NoticiasInteligência ArtificialTecnologia

DiffusionGemma: Google acelera IA com difusão

PUBLICIDADE

O Google lançou o DiffusionGemma, um modelo experimental de linguagem de código aberto que gera blocos de 256 tokens em paralelo e consegue revisar partes do texto durante o processo. A novidade, anunciada em junho de 2026, usa uma abordagem inspirada em modelos de difusão, como os usados em geração de imagens, e mira principalmente inferência local, servidores com baixa concorrência e tarefas estruturadas.

Em testes citados pelo projeto vLLM, o DiffusionGemma chegou a 1.008 tokens por segundo em uma Nvidia H100 e a 1.288 tokens por segundo em uma H200, usando quantização FP8 em batch size 1.

O que é o DiffusionGemma

O DiffusionGemma é um modelo de linguagem baseado no Gemma 4, família aberta de modelos do Google. Diferente dos modelos autoregressivos tradicionais, que escrevem uma resposta token por token, da esquerda para a direita, o DiffusionGemma começa com um bloco de tokens aleatórios e refina esse bloco em várias etapas.

PUBLICIDADE

Na prática, o modelo trata a geração de texto como uma “tela” de 256 posições. Em vez de decidir a primeira palavra, depois a segunda e assim por diante, ele avalia todas as posições ao mesmo tempo. A cada rodada, fixa os tokens nos quais tem maior confiança e reconsidera os trechos incertos. Esse mecanismo permite uma forma de autocorreção que os modelos autoregressivos não têm por arquitetura.

A licença escolhida também é relevante: o DiffusionGemma foi lançado sob Apache 2.0, o que facilita testes, integração e uso por equipes de engenharia. Segundo o Google, trata-se do primeiro modelo de linguagem por difusão com suporte nativo na plataforma de inferência open source vLLM.

Como a geração por difusão muda o texto

Modelos de imagem como Stable Diffusion não desenham uma figura pixel por pixel. Eles partem de ruído e refinam a imagem inteira até que ela faça sentido. O DiffusionGemma aplica uma ideia parecida ao texto: cria uma estrutura inicial ruidosa e faz passagens sucessivas de “denoising”, ou remoção de ruído, até estabilizar a resposta.

  • Geração paralela: 256 tokens são avaliados como bloco, não como sequência linear.
  • Autocorreção: posições de baixa confiança podem ser revistas nas rodadas seguintes.
  • Contexto bidirecional: cada posição pode considerar tokens anteriores e posteriores.
  • Inferência otimizada: o ganho aparece mais em uso local ou com poucos usuários simultâneos.

Esse contexto bidirecional é uma das diferenças mais importantes. Em um modelo tradicional, o token atual só depende do que veio antes. No DiffusionGemma, cada posição pode usar pistas de todo o bloco, inclusive de partes que apareceriam “depois” na frase final. Isso pode ajudar em tarefas com restrições, como preenchimento de código, geração de templates e problemas em que a resposta correta depende de relações entre diferentes partes do texto.

Desempenho em GPUs e integração com vLLM

O DiffusionGemma foi apresentado como um modelo Mixture of Experts de 26 bilhões de parâmetros, mas ativa cerca de 3,8 bilhões durante a inferência. Na versão quantizada, ele pode caber em aproximadamente 18 GB de VRAM, o que abre espaço para testes em placas de consumo avançadas, como Nvidia RTX 4090 e RTX 5090.

Benchmark do DiffusionGemma no vLLM mostra maior throughput em GPUs
Gráfico do projeto vLLM compara o throughput do DiffusionGemma com modelos autoregressivos.

A integração com o vLLM exigiu mudanças técnicas porque o DiffusionGemma não segue o fluxo padrão de atendimento de requisições. Modelos comuns usam atenção causal durante a geração. Já o DiffusionGemma alterna entre leitura do prompt, refinamento bidirecional da tela de tokens e confirmação do bloco final.

Para isso, as equipes envolvidas adicionaram troca de atenção por requisição nos backends Triton e FlashAttention 4. Também foi aproveitado o caminho de speculative decoding já existente no vLLM para organizar o ciclo de refinamento. O novo componente ModelState foi desenhado para permitir que futuros modelos de difusão também sejam servidos pela plataforma.

CenárioVantagem do DiffusionGemmaLimitação
Inferência localMelhor uso da GPU em baixa concorrênciaQualidade inferior ao Gemma 4 padrão
Servidor dedicadoMais tokens por segundo em batch size 1Resultados dependem de hardware e quantização
Nuvem com alto volumeGanho menor quando o batch já satura a GPUModelos autoregressivos seguem competitivos
Tarefas estruturadasContexto bidirecional ajuda em restriçõesExige avaliação por caso de uso

Onde o DiffusionGemma realmente ganha

O principal ganho do DiffusionGemma aparece quando a GPU não está totalmente ocupada por muitos usuários simultâneos. Isso é comum em inferência local, aplicações corporativas internas, protótipos em workstation e serviços de baixa concorrência. Nesses casos, a geração paralela usa melhor a capacidade de computação disponível e reduz a latência percebida.

Em ambientes de nuvem com centenas de chamadas simultâneas, a vantagem diminui. Modelos autoregressivos já conseguem manter GPUs ocupadas com grandes lotes de requisições. Por isso, o DiffusionGemma não deve ser entendido como substituto universal dos LLMs atuais, mas como uma alternativa de arquitetura para cenários específicos.

O pesquisador Guilherme O’Tina resumiu a cautela necessária ao comparar artefatos locais e alucinações. A observação é importante porque velocidade não resolve, por si só, problemas de fidelidade factual, coerência longa ou segurança de resposta.

Comparação com Gemma 4 e speculative decoding

O Google deixou claro que o DiffusionGemma não supera o Gemma 4 padrão em qualidade geral. A empresa recomenda o Gemma 4 tradicional para aplicações que exigem a melhor resposta possível. A troca proposta é direta: menor latência e geração paralela em troca de uma qualidade média inferior em algumas tarefas abertas.

DiffusionGemma compara inteligência e latência com Gemma 4 padrão
Dados do Google indicam menor latência, mas qualidade geral abaixo do Gemma 4 tradicional.

Também é importante não confundir DiffusionGemma com speculative decoding. No speculative decoding, um modelo menor antecipa tokens e o modelo principal verifica essas sugestões. A arquitetura continua autoregressiva. No DiffusionGemma, o paradigma muda: o modelo cria uma tela ruidosa de 256 tokens e refina o bloco inteiro em paralelo.

O pesquisador Andrew Kuncevich destacou exatamente esse ponto: não se trata apenas de “adivinhar” tokens futuros, mas de outro paradigma de geração. Essa distinção ajuda engenheiros a decidir se vale testar o modelo em pipelines já baseados em vLLM.

O teste com Sudoku e tarefas estruturadas

Um dos exemplos mais interessantes apresentados pelo Google envolve Sudoku. O modelo base não resolveu os quebra-cabeças. Após ajuste fino em um conjunto de dados específico, porém, alcançou 80% de sucesso e passou a convergir em 12 etapas de denoising, em vez de 48.

Esse resultado não significa que o DiffusionGemma seja automaticamente melhor em raciocínio geral. Ele indica que a arquitetura pode ser forte quando há restrições claras e dependências entre posições diferentes. Em geração de código, preenchimento de lacunas, dados estruturados e formatos rígidos, a capacidade de revisar o bloco inteiro pode ser valiosa.

Impacto para empresas e desenvolvedores

Para empresas que rodam IA em hardware próprio, o DiffusionGemma amplia o cardápio de escolhas. Até agora, reduzir latência em uma GPU dedicada geralmente significava usar um modelo menor. Agora, equipes podem testar um modelo com o mesmo perfil de escala, mas com geração por difusão e suporte imediato a endpoint compatível com OpenAI via vLLM.

O caminho mais prudente é avaliar o DiffusionGemma em tarefas reais, comparando custo, qualidade, throughput, consumo de VRAM e taxa de erro. Para chatbots abertos e respostas sensíveis, o Gemma 4 padrão pode continuar melhor. Para baixa concorrência, inferência local e saídas com formato controlado, o novo modelo do Google merece atenção.

Perguntas frequentes sobre o DiffusionGemma

  1. O que é o DiffusionGemma do Google?

    É um modelo experimental aberto que gera texto por difusão. Ele refina 256 tokens em paralelo e usa o Gemma 4 como base.

  2. O DiffusionGemma é melhor que o Gemma 4?

    Não em qualidade geral. O Google afirma que o Gemma 4 padrão ainda é indicado quando a prioridade é máxima qualidade de resposta.

  3. Onde o DiffusionGemma é mais rápido?

    Ele tende a ganhar em inferência local, batch size 1 e baixa concorrência, especialmente em GPUs como H100, H200 e placas RTX avançadas.

  4. DiffusionGemma é speculative decoding?

    Não. Speculative decoding mantém geração autoregressiva. O DiffusionGemma usa uma tela ruidosa e denoising paralelo do bloco inteiro.

  5. Empresas devem adotar o DiffusionGemma agora?

    Devem testar caso usem IA local, vLLM ou tarefas estruturadas. Para aplicações críticas, a qualidade precisa ser validada antes da adoção.

Considerações finais

O DiffusionGemma representa uma mudança relevante na geração de texto por IA. Ao trocar a sequência token a token por blocos paralelos com autocorreção, o Google mostra um caminho promissor para reduzir latência em inferência local e tarefas estruturadas. Ainda assim, o avanço vem com ressalvas: a qualidade geral fica abaixo do Gemma 4 padrão, e o ganho de velocidade depende muito do ambiente de execução. Para desenvolvedores e empresas, a conclusão é simples: o DiffusionGemma não substitui todos os modelos atuais, mas abre uma nova opção técnica que vale ser testada.

Diogo Fernando

Apaixonado por tecnologia e cultura pop, programo para resolver problemas e transformar vidas. Empreendedor e geek, busco novas ideias e desafios. Acredito na tecnologia como superpoder do século XXI.