O que é uma injeção indireta de prompt?

Uma técnica em que atacantes inserem comandos maliciosos ocultos em textos ou arquivos, levando o modelo de IA a executá-los de forma não intencional. Ela pode ser usada para roubo ou manipulação de dados.

Como o ataque explorou as APIs do Claude AI?

O código de exploração faz com que o modelo use uma chave de API falsa para enviar arquivos para uma conta controlada pelo invasor, desviando dados do sandbox de execução do Claude.

A Anthropic corrigiu a falha?

A empresa reconheceu o risco após o alerta público, mas ainda estuda medidas de mitigação duradouras. Usuários são orientados a limitar o acesso da IA à rede.

Quais dados podem ser roubados nesse tipo de ataque?

Documentos, conversas salvas e informações processadas pela IA podem ser exfiltradas, dependendo das permissões habilitadas.

Imagem ilustrando o ataque ao Claude AI e risco de exfiltração de dados

Claude AI exposto a ataque de exfiltração de dados por injeções de prompt

3 de novembro de 2025 Diogo Fernando anthropic, api, claude 6 min Leitura

Um pesquisador de segurança cibernética revelou uma vulnerabilidade crítica nas APIs do Claude AI, desenvolvidas pela Anthropic, que permite a exfiltração de dados de usuário através de injeções indiretas de prompt. O ataque explora um dos recursos mais avançados e, ao mesmo tempo, mais sensíveis do modelo — seu acesso à rede — para roubar informações e enviá-las a contas controladas por invasores.

Tabela de conteúdos

Detalhes técnicos do ataque ao Claude AI

De acordo com Johann Rehberger, pesquisador da Embrace The Red, o ataque aproveita as APIs de arquivos do Claude — que permitem upload e interação programática entre o modelo e sistemas externos. O processo requer que o modelo tenha acesso à rede, recurso disponível em planos específicos. Assim, um invasor pode criar um payload de injeção de prompt capaz de capturar dados de usuários, armazená-los na sandbox do Code Interpreter e, posteriormente, fazer upload para seu próprio repositório por meio de uma chave de API maliciosa.

Em sua análise, Rehberger detalha que o método permite exfiltrar até 30 MB por operação, com possibilidade de transferência múltipla. Na prática, um ataque bem-sucedido poderia obter informações sensíveis como documentos carregados por usuários e até memórias de chat armazenadas pelo Claude.

Como o ataque funciona na prática

O atacante envia um documento aparentemente inofensivo contendo código oculto.
O usuário carrega esse arquivo no Claude AI para análise.
O modelo executa instruções embutidas no documento — a injeção de prompt — que o faz armazenar e reenviar dados do usuário.
A chave de API do invasor é usada para transferir os arquivos ao seu controle remoto.

“Com essa técnica, um adversário pode exfiltrar até 30 MB de uma só vez e repetir o processo para volumes maiores”, explicou Rehberger.
Johann Rehberger, pesquisador de segurança

Após as primeiras tentativas, o Claude passou a detectar e rejeitar requisições contendo chaves explícitas de API. O pesquisador, então, disfarçou o payload com fragmentos de código benigno, induzindo o modelo a acreditar que se tratava de uma execução legítima.

Resposta da Anthropic e implicações

O caso foi inicialmente reportado à Anthropic via HackerOne em 25 de outubro de 2025. A empresa classificou o relatório como uma questão de segurança do modelo — não uma vulnerabilidade no sistema — e o encerrou. Entretanto, após a publicação dos resultados e discussão pública, a Anthropic reconsiderou sua posição, reconhecendo o risco sob o escopo de exfiltração de dados via API.

A documentação oficial da Anthropic já reconhecia os riscos de ataques envolvendo acesso à rede e execução de código remoto. Ela recomenda a desativação do modo de acesso à rede sempre que possível, além do monitoramento de atividades anômalas e validação de conteúdo antes do upload. A empresa ainda não anunciou medidas corretivas definitivas.

Impactos para a segurança de sistemas de IA

Este incidente acende um alerta para toda a indústria de inteligência artificial. Sistemas como o Claude AI, ChatGPT e Perplexity são cada vez mais integrados a fluxos de trabalho corporativos, manipulando dados sensíveis e proprietários. A exfiltração de dados via injeção de prompts indica que modelos de linguagem não apenas interpretam comandos, mas também podem executá-los de forma integrada com sistemas externos — ampliando vetores de ataque.

Em termos práticos, organizações que utilizam plataformas de IA conectadas à internet devem reforçar políticas de governança e limitar permissões de rede e acesso a APIs. Essa camada de segurança pode reduzir significativamente o potencial de ataques do tipo “prompt hijacking”.

Contexto e respostas da comunidade

Especialistas da comunidade de cibersegurança destacam que falhas como essa vêm se tornando comuns com o avanço da IA generativa. Vulnerabilidades semelhantes já foram reportadas em modelos da Nvidia e em ferramentas de geração de conteúdo, conforme investigado em matérias correlatas da SecurityWeek.

Recomendações de mitigação

Desativar o acesso à rede nos modelos de IA quando não for essencial.
Restringir chaves de API e auditar logs de acesso frequentes.
Evitar upload de arquivos desconhecidos ou documentos externos sem validação.
Educar colaboradores sobre engenharia social via IA e risco de manipulação de prompts.
Implementar soluções de monitoramento de anomalias em tempo real.

Perguntas Frequentes sobre Ataque de exfiltração ao Claude AI

O que é uma injeção indireta de prompt?
Uma técnica em que atacantes inserem comandos maliciosos ocultos em textos ou arquivos, levando o modelo de IA a executá-los de forma não intencional. Ela pode ser usada para roubo ou manipulação de dados.
Como o ataque explorou as APIs do Claude AI?
O código de exploração faz com que o modelo use uma chave de API falsa para enviar arquivos para uma conta controlada pelo invasor, desviando dados do sandbox de execução do Claude.
A Anthropic corrigiu a falha?
A empresa reconheceu o risco após o alerta público, mas ainda estuda medidas de mitigação duradouras. Usuários são orientados a limitar o acesso da IA à rede.
Quais dados podem ser roubados nesse tipo de ataque?
Documentos, conversas salvas e informações processadas pela IA podem ser exfiltradas, dependendo das permissões habilitadas.

Considerações finais

O crescente uso de modelos de IA conectados à internet traz benefícios inegáveis, mas também amplia a superfície de ataque. O caso do Claude AI mostra que mesmo sistemas com reputação de segurança robusta podem ser explorados por meio de interações aparentemente benignas. Pesquisadores e empresas devem trabalhar juntos para equilibrar inovação e proteção de dados, evitando que a inteligência artificial se torne o próximo grande vetor de violação digital.