NoticiasTecnologia

Google Diffusion LLM: Gemini Diffusion promete superar GPT em velocidade

PUBLICIDADE

O Google DeepMind apresentou, em junho de 2025, o Gemini Diffusion, um modelo experimental de linguagem que utiliza a abordagem de difusão, tradicionalmente usada em geração de imagens, para criar textos de modo inovador. Diferente dos modelos clássicos como GPT e o próprio Gemini (baseados em autoregressão), o novo método pode gerar de 1.000 a 2.000 tokens por segundo, superando o Gemini 2.5 Flash (272,4 tokens/s) e mudando drasticamente o cenário dos LLMs (Large Language Models). A novidade sugere ganhos de velocidade e consistência para diversas aplicações em IA, especialmente onde a velocidade de resposta é fundamental.

Difusão vs autoregressão: entenda as diferenças

Modelos autoregressivos como GPT geram texto passo a passo: cada palavra depende da anterior, tornando o processo detalhado, porém lento em textos longos. Já na difusão, o texto começa como “ruído aleatório” e é refinado paralelamente até se tornar compreensível, permitindo produzir blocos inteiros de texto muito rapidamente. Este método reduz o tempo de geração, aumenta a coerência geral do texto e corrige erros à medida que refina as saídas.

Como funciona a geração baseada em difusão?

Durante o treinamento, frases são progressivamente corrompidas por ruído (até 1.000 ciclos). O modelo aprende a inverter esse processo, retirando o ruído e recuperando o texto original gradualmente. Para gerar novos textos, a difusão parte de um bloco caótico e “esculpe” frases coerentes a partir de comandos (prompts) que guiam cada etapa de refinamento. Isso habilita a geração rápida e flexível, propícia para aplicações com grandes volumes de dados ou necessidade de resposta instantânea.

PUBLICIDADE

Vantagens e limitações dos modelos de difusão

  • Latência muito baixa: entrega resultados completos em segundos, ideal para IA conversacional e autocompletar código.
  • Refinamento iterativo: corrige erros durante o processo, criando textos mais precisos.
  • Raciocínio não causal: atenção bidirecional permite que todas as partes do texto “conversem” durante a geração, resultando em maior consistência.
  • Computação adaptativa: tarefas simples usam menos recursos, tornando o modelo mais eficiente.
  • Desvantagem: maior custo de operação e leve atraso no primeiro token, já que só é gerado após o bloco finalizado.

“Os modelos de difusão conseguem corrigir seus próprios erros durante a geração, além de entregar resultados muito mais rápidos que a arquitetura autoregressiva tradicional.”

Brendan O’Donoghue, pesquisador do Google DeepMind

Desempenho prático: comparando na prática Gemini Diffusion e Gemini 2.0 Flash-Lite

BenchmarkGemini DiffusionGemini 2.0 Flash-Lite
LiveCodeBench30,9%28,5%
BigCodeBench45,4%45,8%
LBPP56,8%56,0%
SWE-Bench Verified22,9%28,5%
HumanEval89,6%90,2%
MBPP76,0%75,8%
GPQA Diamond40,4%56,5%
AIME 202523,3%20,0%
BIG-Bench Extra Hard15,0%21,0%
MMLU (Multilingual)69,1%79,0%
Comparativo dos principais benchmarks de codificação, raciocínio e multilinguismo entre Gemini Diffusion e Gemini 2.0 Flash-Lite. Fonte: Google DeepMind.

Testando o Gemini Diffusion na prática

Ao testar o Gemini Diffusion, a VentureBeat percebeu que a geração de interfaces complexas, como um app de chat de vídeo com preview de câmera e medidor de áudio, foi concluída em menos de 2 segundos — desempenho notavelmente superior ao do Gemini 2.5 Flash, que levou cerca de 7 segundos para tarefa semelhante. Outro destaque é o “Instant Edit”, modo capaz de editar textos ou códigos colados em tempo real, facilitando desde ajustes gramaticais até refatoração e internacionalização de softwares.

Interface criada rapidamente por Gemini Diffusion após comando para desenvolver app de chat de vídeo com preview ao vivo e medidor de áudio em tempo real.
App de vídeo criado em segundos com Gemini Diffusion

Aplicações empresariais para DLMs

A tecnologia de difusão se destaca para aplicações empresariais que exigem respostas instantâneas, como assistentes conversacionais, transcrição/ tradução ao vivo e autocompletar em IDEs. A capacidade de editar “inline” textos ou códigos e realizar raciocínio não sequencial abre espaço para novos casos de uso, de soluções de atendimento a ferramentas avançadas para programadores. No ecossistema DLM, surgem modelos como Mercury (Inception Labs) e LLaDa (GSAI), demonstrando a evolução paralela à arquitetura do Google.

Considerações finais

O Gemini Diffusion inaugura uma era de modelos LLM com velocidades antes impensáveis e potencial de revolucionar setores que demandam rapidez e precisão. Apesar dos desafios como custos operacionais e uma leve demora no início da geração, sua eficiência e flexibilidade colocam as soluções DLM em destaque na próxima onda de inovação em IA. Empresas e desenvolvedores devem acompanhar esse avanço de perto.

  1. O que é Gemini Diffusion, da Google?

    Gemini Diffusion é um modelo de linguagem baseado em difusão, criado pela Google DeepMind em 2025, capaz de gerar texto rapidamente a partir de ruído aleatório, diferente da abordagem tradicional autoregressiva. Essa inovação promete acelerar aplicações de IA e ampliar casos de uso empresariais.

  2. Como funciona a geração baseada em difusão?

    Diferente do método sequencial, a geração por difusão começa com ruído e vai refinando frases completas simultaneamente, tornando-a mais rápida e permitindo correção de erros durante o processo. Esse método oferece flexibilidade e qualidade de texto superior.

  3. Quais as vantagens dos modelos de difusão para empresas?

    Modelos de difusão proporcionam respostas quase instantâneas, raciocínio global (bidirecional) e capacidade de edição inline, fundamentais para setores que exigem velocidade, precisão e adaptabilidade, como suporte ao cliente e desenvolvimento de software.

  4. Existem limitações nos Diffusion LLMs?

    As principais limitações incluem maior custo operacional e pequena latência inicial para o primeiro token, já que o texto só é exibido quando o bloco está refinado. Mesmo assim, o ganho de velocidade tende a superar essas barreiras.

Diogo Fernando

Apaixonado por tecnologia e cultura pop, programo para resolver problemas e transformar vidas. Empreendedor e geek, busco novas ideias e desafios. Acredito na tecnologia como superpoder do século XXI.

Deixe um comentário