Nvidia anuncia o fim da era do GPU de propósito geral
Em um movimento histórico que redefine o campo da inteligência artificial, a Nvidia anunciou um acordo estratégico de licenciamento com a Groq avaliado em US$ 20 bilhões. A parceria marca o início de uma nova fase para o setor: o fim da era dos GPUs de propósito geral e o nascimento da arquitetura de inferência desagregada.
Tabela de conteúdos
O que está em jogo no acordo Nvidia-Groq
Segundo o CEO Jensen Huang, a mudança reflete uma transformação profunda: a necessidade de acomodar mundos que exigem contexto massivo e raciocínio instantâneo simultaneamente. A aposta de bilhões representa o reconhecimento de que o modelo “um hardware para tudo” — que fez a fortuna da Nvidia — está deixando de ser suficiente.
De acordo com a Deloitte, pela primeira vez em 2025, a etapa de inferência (fase de execução dos modelos de IA) superou o treinamento em receita nos data centers. Essa virada, chamada de “Inference Flip”, redefiniu as métricas do setor: a disputa não é mais só por acurácia, mas principalmente por latência e capacidade de manter o estado de agentes autônomos em tempo real.
Por que a GPU está sendo dividida em duas
Gavin Baker, investidor da Groq, explicou: “A inferência está sendo desagregada em prefill e decode”. Trata-se de dividir tarefas antes executadas pelo mesmo chip em dois blocos distintos:
- Prefill: fase inicial em que o modelo carrega e processa grandes volumes de dados, como bases de código inteiras ou vídeos. É altamente intensiva em cálculo matricial, o ponto forte dos GPUs tradicionais.
- Decode: fase de geração token a token, onde predizer o próximo elemento exige altíssima largura de banda de memória. É aí que os chips da Groq se destacam, com seu uso inovador de SRAM.
A Nvidia já prepara a arquitetura Vera Rubin para enfrentar essa nova realidade. Seu módulo Rubin CPX é voltado ao prefill e usa memória GDDR7 — uma alternativa mais escalável e acessível que a HBM — para lidar com contextos de mais de um milhão de tokens.
SRAM: o segredo do chip da Groq
A inovação da Groq está na adoção da memória SRAM diretamente integrada ao processador. Essa configuração permite mover dados com consumo energético até 100 vezes menor que o da DRAM ou HBM, segundo Michael Stewart, sócio da M12 (Microsoft Ventures). O resultado é uma performance incomparável em aplicações que exigem respostas instantâneas.
Por outro lado, o SRAM é volumoso e caro, o que limita sua capacidade. Assim, chips da Groq tendem a dominar nichos de modelos compactos — com até 8 bilhões de parâmetros — ideais para inferência local, robótica, IoT e dispositivos móveis, conforme aponta Val Bercovici, diretor de IA da Weka.
Esse mercado emergente é impulsionado pela tendência de model distillation, na qual grandes corporações reduzem modelos gigantes em versões menores e otimizadas, sem depender da nuvem. É nesse contexto que a Groq se posiciona de forma única, oferecendo desempenho em tempo real com custos de energia reduzidos.
A ameaça Anthropic e o poder do stack portátil
A Anthropic é outra força que pressiona a Nvidia. Sua equipe desenvolveu um sistema portátil de inferência e treinamento que permite executar os modelos Claude tanto em GPUs Nvidia quanto nos TPUs Ironwood do Google. Essa flexibilidade ameaça o domínio do ecossistema CUDA, um dos bastiões competitivos da Nvidia.
Recentemente, a Anthropic garantiu acesso a 1 milhão de TPUs da Google Cloud, o equivalente a mais de um gigawatt de capacidade de computação. Para a Nvidia, o licenciamento da Groq não é apenas ofensivo — é uma defesa estratégica que assegura que processamentos críticos de baixa latência permaneçam dentro do seu ecossistema.
A batalha pela memória de estado: Manus e o KV Cache
O acordo com a Groq ocorre dias após a Meta adquirir a startup Manus, pioneira em agentes autônomos capazes de manter estado — a chamada “memória de curto prazo” dos modelos. O KV Cache (Key-Value Cache) é essencial para que um agente recorde decisões anteriores e mantenha coerência entre etapas.
Segundo a Manus, a proporção entre tokens de entrada e saída em sistemas produtivos pode chegar a 100:1. Dessa forma, perder o cache de memória implica reiniciar todo o processo de raciocínio — algo que o SRAM da Groq ajuda a evitar ao permitir recuperação quase instantânea.
Combinada ao framework Dynamo da Nvidia e à tecnologia KVBM, essa solução inaugura o conceito de “sistema operacional de inferência”: uma base capaz de orquestrar camadas de memória (SRAM, DRAM, HBM e flash) para garantir continuidade cognitiva em agentes de IA.
Especialização extrema: o veredito para 2026
O consenso entre especialistas é claro: 2026 será o ano da especialização. A era do GPU unificado chega ao fim, e vence quem souber direcionar cada carga de trabalho ao componente certo. Computação não é mais “qual chip comprar”, mas onde cada token roda e por quê.
- Prefill vs. Decode;
- Longo contexto vs. Curto contexto;
- Interativo vs. Lote;
- Pequeno modelo vs. Gigantesco;
- Borda vs. Centro de dados.
Para os líderes técnicos, essa mudança exige repensar as arquiteturas de IA como redes distribuídas, otimizadas para fluxo de dados, latência e eficiência — e não apenas potência bruta. A Nvidia reconhece que o “todo o cluster é o computador”, nas palavras de Thomas Jorgensen, da Supermicro.
O que significa o fim da era do GPU de propósito geral?
A expressão marca a transição de uma arquitetura única de processamento gráfico para uma infraestrutura de inferência desagregada. Isso significa que diferentes tipos de chips serão utilizados para etapas distintas da execução da IA, aumentando desempenho e eficiência energética.
Por que a Nvidia escolheu a Groq como parceira?
A Groq domina o uso da memória SRAM, essencial para operações de baixa latência e inferência em tempo real. O licenciamento de sua tecnologia permite à Nvidia manter competitividade frente a TPUs do Google e ao stack portátil da Anthropic.
Como a arquitetura Rubin CPX se diferencia dos GPUs anteriores?
O Rubin CPX é o chip da Nvidia otimizado para prefill, com suporte a janelas de contexto de até 1 milhão de tokens e uso da memória GDDR7, mais econômica e escalável que a HBM, garantindo maior flexibilidade na inferência em larga escala.
Qual é o papel da SRAM nos novos chips?
A SRAM é uma memória integrada diretamente ao processador, permitindo movimentar dados com consumo energético até 100 vezes menor do que a DRAM. Sua capacidade de acesso instantâneo a informações é ideal para aplicações de inferência rápida e agentes autônomos.
O que muda para as empresas que constroem aplicações de IA?
Empresas precisarão classificar suas cargas de trabalho de IA por tipo e contexto. A escolha entre prefill e decode, pequeno ou grande modelo, será decisiva. Em vez de centralizar em um GPU, cada tarefa será roteada ao componente mais apropriado.
Considerações finais
A Nvidia não está apenas respondendo a tendências — está redesenhando o futuro do hardware de IA. O licenciamento da Groq é um marco que encerra o capítulo dos GPUs universais e inaugura a era das arquiteturas especializadas. Em 2026, o sucesso não será medido por quem tem mais poder de computação, mas por quem souber usar cada watt e bit de maneira inteligente.

