NoticiasTecnologia

DeepSeek AI desafia paradigma de alto gasto em computação

PUBLICIDADE

A DeepSeek AI abalou o setor ao provar que é possível alcançar – e até superar – resultados comparáveis aos de gigantes como a OpenAI gastando cerca de 1% do orçamento. Seu modelo R1, lançado em janeiro de 2025, já impressionava. Agora, com o R2 a caminho e sob a sombra de novas restrições norte-americanas a chips, a empresa chinesa mostra que a inovação orientada à eficiência pode reescrever as regras do jogo. Entenda quem, o que, quando, onde, por que e como essa abordagem está redefinindo a corrida global pela inteligência artificial.

Como a DeepSeek contornou as restrições de chips

Desde 2022, exportações de GPUs avançadas para a China enfrentam controles rígidos dos EUA. Em vez de esperar por hardware de última geração, a DeepSeek concentrou-se em aproveitar ao máximo a memória e a capacidade de rede dos chips disponíveis. Isso permitiu paralelizar tarefas de treinamento massivo sem depender de unidades topo de linha. Enquanto concorrentes apostavam em data centers caríssimos, a equipe chinesa afinou seu pipeline de software e colocou a economia de escala para trabalhar a seu favor.

  • Paralelização agressiva entre milhares de GPUs de geração anterior;
  • Algoritmos de compressão e checkpointing para reduzir uso de memória;
  • Integração nativa com infraestrutura de rede de alta largura de banda em universidades chinesas.

“O orçamento final do treinamento ficou em torno de US$ 5,6 milhões – uma fração do que gastamos no Ocidente”, afirmou Andrej Karpathy, ex-cientista da Tesla, descrevendo o feito como “uma piada de orçamento”.

Andrej Karpathy

Dados sintéticos: o combustível barato e potente

Outro pilar da estratégia foi o uso intensivo de dados sintéticos. Em vez de depender exclusivamente de raspagem de web, a DeepSeek realizou distilação de modelos, gerando exemplos a partir de sistemas mais robustos e refinando-os com curadoria automática. Para muitos laboratórios ocidentais, essa prática gera debates sobre propriedade intelectual e vieses. Já para a DeepSeek, valia a máxima: “funciona? então use”.

PUBLICIDADE

A adoção de uma arquitetura Mixture of Experts (MoE) mostrou-se essencial, pois esses modelos lidam melhor com distribuição de dados artificiais. Em arquiteturas densas, como as primeiras do Llama, excesso de sintético pode levar ao chamado model collapse. No MoE, especialistas independentes mitigam esse risco, mantendo robustez em tarefas do mundo real.

LaboratórioCusto estimado do último modeloBenchmark (MMLU)
DeepSeek (R1)US$ 5,6 mi87,2
OpenAI (Orion)US$ 500 mi86,5

Impacto no mercado e reação dos gigantes

O efeito dominó foi imediato. Um mês após o lançamento do R1, Sam Altman reconheceu que a OpenAI estava “do lado errado da história” ao fechar seu ecossistema. A empresa agora planeja o primeiro modelo open-weight desde 2019 e busca um aporte de US$ 40 bilhões para sustentar operações que já queimam até US$ 8 bilhões por ano.

  • Microsoft pausou data centers em três continentes para repensar eficiência energética.
  • Meta lançou o Llama 4 com arquitetura MoE, mencionando explicitamente a DeepSeek em comparativos.
  • Alibaba reforçou investimentos em modelos proprietários voltados a serviços corporativos.

Da era do “treine mais” ao Test-Time Compute

Com o esgotamento de dados públicos, a indústria se volta ao Test-Time Compute (TTC), usando o tempo de inferência para aprimorar qualidade. A DeepSeek, em parceria com a Universidade Tsinghua, anunciou o Self-Principled Critique Tuning (SPCT). O modelo cria suas próprias regras, julga respostas em tempo real e as corrige. Essa autonomia traz ganhos, mas também alerta para riscos de desalinhamento ético.

“Você gasta bilhões e um competidor lança algo gratuito e eficiente.”

Kai-Fu Lee, acadêmico de IA

Sem auditorias robustas, o “juiz interno” pode reforçar preconceitos ou priorizar forma sobre substância. A DeepSeek promete documentação aberta e avaliações externas, mas críticos pedem mais transparência antes que o SPCT chegue a aplicações sensíveis, como saúde ou finanças.

O que esperar do modelo R2

Fontes internas indicam que o R2 manterá o foco em eficiência: treinamento abaixo de US$ 10 milhões, mais especialistas MoE e reforço no SPCT. Caso novas sanções limitem ainda mais o acesso a chips, a DeepSeek aposta em compressão de quantização mista e off-loading de parte da carga para FPGA nacionais.

  • Até 40% menos consumo de energia por token gerado;
  • Contexto estendido para 512k tokens;
  • Integração nativa com frameworks de produção como ONNX-RT.

Considerações finais

A trajetória da DeepSeek prova que restrições podem acelerar a criatividade. Ao priorizar eficiência, dados sintéticos e avaliação autônoma, a empresa forçou o Vale do Silício a rever orçamentos bilionários. Se o R2 cumprir as expectativas, veremos uma nova divisão: quem otimiza tudo o que já existe e quem continua acreditando que apenas mais potência resolve problemas. Para empresas e governos, a lição é clara: adaptabilidade será o recurso mais valioso na próxima década da IA.

  1. O que torna a DeepSeek AI diferente da OpenAI?

    A DeepSeek atinge benchmarks semelhantes gastando cerca de 1% do orçamento da OpenAI, graças à otimização de chips e uso massivo de dados sintéticos. Isso muda o equilíbrio de poder no mercado.

  2. Dados sintéticos não prejudicam a qualidade do modelo?

    Quando usados em arquitetura Mixture of Experts, como a adotada pela DeepSeek, eles ampliam a diversidade de exemplos sem causar colapso de desempenho, desde que haja curadoria automática.

  3. O que é Test-Time Compute (TTC)?

    É uma técnica em que o modelo utiliza tempo de inferência para autoavaliar e melhorar respostas, em vez de depender apenas de treinamento prévio mais pesado e caro.

  4. Há riscos éticos no SPCT da DeepSeek?

    Sim. Se o ‘juiz interno’ estiver desalinhado, pode reforçar vieses ou priorizar estilo sobre verdade. Auditorias independentes são essenciais para mitigar esses problemas.

Diogo Fernando

Apaixonado por tecnologia e cultura pop, programo para resolver problemas e transformar vidas. Empreendedor e geek, busco novas ideias e desafios. Acredito na tecnologia como superpoder do século XXI.

Deixe um comentário