Google Diffusion LLM: Gemini Diffusion promete superar GPT em velocidade
O Google DeepMind apresentou, em junho de 2025, o Gemini Diffusion, um modelo experimental de linguagem que utiliza a abordagem de difusão, tradicionalmente usada em geração de imagens, para criar textos de modo inovador. Diferente dos modelos clássicos como GPT e o próprio Gemini (baseados em autoregressão), o novo método pode gerar de 1.000 a 2.000 tokens por segundo, superando o Gemini 2.5 Flash (272,4 tokens/s) e mudando drasticamente o cenário dos LLMs (Large Language Models). A novidade sugere ganhos de velocidade e consistência para diversas aplicações em IA, especialmente onde a velocidade de resposta é fundamental.
Tabela de conteúdos
Difusão vs autoregressão: entenda as diferenças
Modelos autoregressivos como GPT geram texto passo a passo: cada palavra depende da anterior, tornando o processo detalhado, porém lento em textos longos. Já na difusão, o texto começa como “ruído aleatório” e é refinado paralelamente até se tornar compreensível, permitindo produzir blocos inteiros de texto muito rapidamente. Este método reduz o tempo de geração, aumenta a coerência geral do texto e corrige erros à medida que refina as saídas.
Como funciona a geração baseada em difusão?
Durante o treinamento, frases são progressivamente corrompidas por ruído (até 1.000 ciclos). O modelo aprende a inverter esse processo, retirando o ruído e recuperando o texto original gradualmente. Para gerar novos textos, a difusão parte de um bloco caótico e “esculpe” frases coerentes a partir de comandos (prompts) que guiam cada etapa de refinamento. Isso habilita a geração rápida e flexível, propícia para aplicações com grandes volumes de dados ou necessidade de resposta instantânea.
Vantagens e limitações dos modelos de difusão
- Latência muito baixa: entrega resultados completos em segundos, ideal para IA conversacional e autocompletar código.
- Refinamento iterativo: corrige erros durante o processo, criando textos mais precisos.
- Raciocínio não causal: atenção bidirecional permite que todas as partes do texto “conversem” durante a geração, resultando em maior consistência.
- Computação adaptativa: tarefas simples usam menos recursos, tornando o modelo mais eficiente.
- Desvantagem: maior custo de operação e leve atraso no primeiro token, já que só é gerado após o bloco finalizado.
“Os modelos de difusão conseguem corrigir seus próprios erros durante a geração, além de entregar resultados muito mais rápidos que a arquitetura autoregressiva tradicional.”
Brendan O’Donoghue, pesquisador do Google DeepMind
Desempenho prático: comparando na prática Gemini Diffusion e Gemini 2.0 Flash-Lite
Benchmark | Gemini Diffusion | Gemini 2.0 Flash-Lite |
---|---|---|
LiveCodeBench | 30,9% | 28,5% |
BigCodeBench | 45,4% | 45,8% |
LBPP | 56,8% | 56,0% |
SWE-Bench Verified | 22,9% | 28,5% |
HumanEval | 89,6% | 90,2% |
MBPP | 76,0% | 75,8% |
GPQA Diamond | 40,4% | 56,5% |
AIME 2025 | 23,3% | 20,0% |
BIG-Bench Extra Hard | 15,0% | 21,0% |
MMLU (Multilingual) | 69,1% | 79,0% |
Testando o Gemini Diffusion na prática
Ao testar o Gemini Diffusion, a VentureBeat percebeu que a geração de interfaces complexas, como um app de chat de vídeo com preview de câmera e medidor de áudio, foi concluída em menos de 2 segundos — desempenho notavelmente superior ao do Gemini 2.5 Flash, que levou cerca de 7 segundos para tarefa semelhante. Outro destaque é o “Instant Edit”, modo capaz de editar textos ou códigos colados em tempo real, facilitando desde ajustes gramaticais até refatoração e internacionalização de softwares.
Aplicações empresariais para DLMs
A tecnologia de difusão se destaca para aplicações empresariais que exigem respostas instantâneas, como assistentes conversacionais, transcrição/ tradução ao vivo e autocompletar em IDEs. A capacidade de editar “inline” textos ou códigos e realizar raciocínio não sequencial abre espaço para novos casos de uso, de soluções de atendimento a ferramentas avançadas para programadores. No ecossistema DLM, surgem modelos como Mercury (Inception Labs) e LLaDa (GSAI), demonstrando a evolução paralela à arquitetura do Google.
Considerações finais
O Gemini Diffusion inaugura uma era de modelos LLM com velocidades antes impensáveis e potencial de revolucionar setores que demandam rapidez e precisão. Apesar dos desafios como custos operacionais e uma leve demora no início da geração, sua eficiência e flexibilidade colocam as soluções DLM em destaque na próxima onda de inovação em IA. Empresas e desenvolvedores devem acompanhar esse avanço de perto.
O que é Gemini Diffusion, da Google?
Gemini Diffusion é um modelo de linguagem baseado em difusão, criado pela Google DeepMind em 2025, capaz de gerar texto rapidamente a partir de ruído aleatório, diferente da abordagem tradicional autoregressiva. Essa inovação promete acelerar aplicações de IA e ampliar casos de uso empresariais.
Como funciona a geração baseada em difusão?
Diferente do método sequencial, a geração por difusão começa com ruído e vai refinando frases completas simultaneamente, tornando-a mais rápida e permitindo correção de erros durante o processo. Esse método oferece flexibilidade e qualidade de texto superior.
Quais as vantagens dos modelos de difusão para empresas?
Modelos de difusão proporcionam respostas quase instantâneas, raciocínio global (bidirecional) e capacidade de edição inline, fundamentais para setores que exigem velocidade, precisão e adaptabilidade, como suporte ao cliente e desenvolvimento de software.
Existem limitações nos Diffusion LLMs?
As principais limitações incluem maior custo operacional e pequena latência inicial para o primeiro token, já que o texto só é exibido quando o bloco está refinado. Mesmo assim, o ganho de velocidade tende a superar essas barreiras.