O que Karpathy quis dizer com ‘agentes de IA não funcionam’?

Resposta direta: agentes autônomos estão aquém do prometido. Expansão: faltam inteligência prática, multimodalidade madura e aprendizado contínuo estável para cumprir tarefas longas com baixa taxa de erro cumulativo. Validação: ele fez as críticas no Dwarkesh Podcast e reiterou em posts no X, defendendo foco em colaboração humano-IA.

Qual é o problema do erro cumulativo em agentes?

Resposta direta: pequenas falhas se multiplicam em sequências. Expansão: com 80% de acerto por ação, a chance de concluir 5 passos cai a ~32%, explica Quintin Au, da Scale AI. Em pipelines maiores, integrações com API e contexto longo, a taxa de sucesso desaba. Validação: exemplo citado pelo Business Insider e observado em produção.

O ‘vibe coding’ resolve essas limitações hoje?

Resposta direta: ajuda, mas não elimina limites. Expansão: acelera protótipos com linguagem natural e voz, porém pode gerar código incontrolável e vulnerável em projetos grandes; Karpathy relata ter preferido codificar à mão no Nanochat. Validação: menção a ferramentas como Cursor AI Composer, Anthropic Sonnet e Opal (Google).

Como usar IA de forma segura no desenvolvimento?

Resposta direta: trate a IA como copiloto auditável. Expansão: imponha revisões humanas, testes automatizados, linters, scanners, limites de permissão e tracing de ferramentas; quebre tarefas longas em etapas curtas validáveis. Validação: alinhado à defesa de Karpathy por colaboração homem-máquina e uso explícito de documentação de API.

Andrej Karpathy em podcast: agentes de IA, vibe coding e autonomia; crítica a limitações de aprendizado e multimodalidade

Agentes de IA não funcionam, diz Karpathy

Name: Agentes de IA não funcionam, diz Karpathy
Uploaded: 2025-10-20T18:28:00-03:00
Channel: Diogo Fernando
Description: Andrej Karpathy, cofundador da OpenAI, diz que agentes de IA são superestimados. Ele aponta limites de autonomia, aprendizagem contínua e “vibe coding”. Entenda os riscos.

20 de outubro de 2025 Diogo Fernando agentes, ia, openai 7 min Leitura

O cofundador da OpenAI e ex-chefe de IA da Tesla, Andrej Karpathy, afirmou que os agentes de IA — softwares que prometem executar tarefas de forma autônoma — “simplesmente não funcionam” no estágio atual. Em participação recente no Dwarkesh Podcast e em publicações no X (antigo Twitter), ele apontou carências de inteligência prática, multimodalidade e aprendizado contínuo, estimando que o setor deve levar “cerca de uma década” para superar os principais gargalos. Para Karpathy, a indústria exagera a ideia de autonomia total e deveria priorizar colaboração humano-IA para reduzir erros e elevar a qualidade.

Tabela de conteúdos

O que Karpathy disse: autonomia ainda é promessa

No podcast, Karpathy foi direto: “Eles são cognitivamente deficientes e simplesmente não estão funcionando.” Segundo ele, os agentes atuais não conseguem aprender de forma contínua, têm dificuldades de raciocínio multimodal (texto, imagem, áudio, vídeo) e falham em manter contexto por longas sequências de ações. A consequência prática são fluxos quebrados, tomada de decisão frágil e resultados inconsistentes em tarefas com vários passos.

Embora o Vale do Silício tenha apelidado 2025 de “o ano do agente”, Karpathy pondera que a pilha tecnológica para agentes realmente confiáveis exige avanços simultâneos em memória, ferramentas, verificações formais e métodos de feedback humano. Até lá, a promessa de um assistente totalmente autônomo que agenda viagens, gerencia e-mails e desenvolve software sem supervisão deve ser vista com ceticismo.

Podcast na íntegra em que Andrej Karpathy participou

Erro cumulativo: por que “o ano do agente” emperrou

Uma crítica técnica recorrente é o erro cumulativo. Conforme lembrou o Business Insider, o líder de crescimento da Scale AI, Quintin Au, ilustra o problema: se um modelo tem 80% de precisão por ação, a chance de completar uma tarefa de cinco passos corretamente cai para cerca de 32%, pois o erro se multiplica a cada etapa. Em cenários de produção, onde processos complexos exigem dezenas de passos e integração com APIs, bancos de dados e serviços externos, a taxa de sucesso desaba.

Esse gargalo contrasta com a narrativa de “autonomia total”, que supõe agentes colaborando entre si para escrever todo o código, operar sistemas e substituir humanos em larga escala. Para Karpathy, perseguir essa visão sem maturidade técnica amplia riscos: falhas silenciosas, alucinações em tarefas críticas e proliferação de AI slop — conteúdo automático de baixa qualidade.

Colaboração humano-IA em vez de substituição

Em publicação no X, Karpathy reforçou que sua crítica é à direção da indústria, não ao potencial da IA. Ele defende agentes que mostrem como usam a documentação de API, façam menos suposições e peçam confirmação quando não tiverem certeza. Em vez de invisíveis e autônomos, deveriam ser copilotos, auditáveis e integrados a ciclos de validação humana.

My pleasure to come on Dwarkesh last week, I thought the questions and conversation were really good.

I re-watched the pod just now too. First of all, yes I know, and I'm sorry that I speak so fast :). It's to my detriment because sometimes my speaking thread out-executes my… https://t.co/bnPSrY74px
— Andrej Karpathy (@karpathy) October 18, 2025

“Vibe coding” sob escrutínio: quando a magia trava

Karpathy cunhou o termo vibe coding: programar descrevendo objetivos em linguagem natural para que a IA gere o código. Ele diz usar ferramentas como o Composer (da Cursor AI) e o modelo Sonnet (da Anthropic), além de citar abordagens semelhantes à plataforma Opal, do Google. O método acelera protótipos, especialmente com comandos de voz e iteração rápida via “copiar e colar” de erros de volta no assistente.

Mas há limites: em projetos maiores, a geração de código pode se tornar incontrolável, introduzindo dependências, duplicações e vulnerabilidades de segurança. O próprio Karpathy admitiu recentemente que não conseguiu construir seu projeto de vibe coding, o Nanochat, apenas com agentes (como Claude e Codex) e preferiu programar à mão em momentos críticos.

Good question, it's basically entirely hand-written (with tab autocomplete). I tried to use claude/codex agents a few times but they just didn't work well enough at all and net unhelpful, possibly the repo is too far off the data distribution.
— Andrej Karpathy (@karpathy) October 13, 2025

Riscos práticos: AI slop, segurança e controle

A corrida por agentes autônomos pode piorar um cenário já visível nas redes: o AI slop, termo para designar conteúdo barato, redundante e de baixa qualidade, gerado em escala. Sem auditoria, testes automatizados, checagens de veracidade e uso disciplinado de documentação de API, agentes tendem a propagar erros e criar “caixas-pretas” difíceis de depurar.

No desenvolvimento de software, os cuidados incluem restringir permissões, isolar ambientes, validar saídas com linters e scanners de segurança, além de registrar todo o trace de chamadas de ferramentas. O objetivo é manter a IA como copiloto confiável, e não como operador invisível.

“Quero que a IA puxe a documentação da API e me mostre que usou as coisas corretamente. Quero que faça menos suposições e colabore comigo quando não tiver certeza.”
Andrej Karpathy

O que muda para devs e empresas agora

Adote um ciclo humano-no-loop: exija confirmações, revisões de código e validações de saída.
Padronize ferramentas: documentação de API, testes, linters e observabilidade nas chamadas de ferramentas.
Defina limites de autonomia: políticas de permissão, execução passo a passo e rollbacks.
Meça o erro cumulativo: quebre tarefas longas em etapas curtas e verificáveis.
Eduque equipes: trate a IA como copiloto; promova boas práticas de segurança e auditoria.

Contexto e referências de Andrej Karpathy sobre agentes de IA

O ceticismo de Karpathy contrasta com a euforia do mercado, mas dialoga com alertas de quem opera sistemas em produção. Relatos como o de Quintin Au, da Scale AI, reforçam que o caminho para agentes confiáveis passa por reduzir a taxa de erro por etapa, expandir memória de trabalho, integrar verificação formal e melhorar a coordenação entre ferramentas. Até lá, copilotos assistidos tendem a entregar mais valor do que “agentes mágicos”.

Leituras relacionadas: Business Insider; posts de Karpathy no X; e anúncios recentes sobre plataformas de vibe coding, como a Opal do Google.

O que Karpathy quis dizer com ‘agentes de IA não funcionam’?
Resposta direta: agentes autônomos estão aquém do prometido. Expansão: faltam inteligência prática, multimodalidade madura e aprendizado contínuo estável para cumprir tarefas longas com baixa taxa de erro cumulativo. Validação: ele fez as críticas no Dwarkesh Podcast e reiterou em posts no X, defendendo foco em colaboração humano-IA.
Qual é o problema do erro cumulativo em agentes?
Resposta direta: pequenas falhas se multiplicam em sequências. Expansão: com 80% de acerto por ação, a chance de concluir 5 passos cai a ~32%, explica Quintin Au, da Scale AI. Em pipelines maiores, integrações com API e contexto longo, a taxa de sucesso desaba. Validação: exemplo citado pelo Business Insider e observado em produção.
O ‘vibe coding’ resolve essas limitações hoje?
Resposta direta: ajuda, mas não elimina limites. Expansão: acelera protótipos com linguagem natural e voz, porém pode gerar código incontrolável e vulnerável em projetos grandes; Karpathy relata ter preferido codificar à mão no Nanochat. Validação: menção a ferramentas como Cursor AI Composer, Anthropic Sonnet e Opal (Google).
Como usar IA de forma segura no desenvolvimento?
Resposta direta: trate a IA como copiloto auditável. Expansão: imponha revisões humanas, testes automatizados, linters, scanners, limites de permissão e tracing de ferramentas; quebre tarefas longas em etapas curtas validáveis. Validação: alinhado à defesa de Karpathy por colaboração homem-máquina e uso explícito de documentação de API.

Considerações finais

A fala de Andrej Karpathy funciona como um freio de arrumação para o hype dos agentes de IA. Em vez de perseguir a substituição total de humanos, a indústria deve priorizar copilotos auditáveis, reduzir o erro cumulativo, fortalecer multimodalidade e aprendizado contínuo, e investir em segurança e observabilidade. Enquanto isso, abordagens como o vibe coding seguem úteis para prototipação — desde que acompanhadas de controles técnicos e validação humana em ciclos curtos.