O que é prompt injection?

Resposta direta: Técnica que insere comandos maliciosos em dados que serão lidos por um modelo de IA, fazendo-o desobedecer às instruções originais. Expansão: O ataque pode ser direto (o usuário digita o comando) ou indireto (o comando está oculto em e-mails, PDFs ou páginas). Isso permite desde vazamento de dados até execução de ações não autorizadas. Validação: Estudos da DeepMind apontaram crescimento de 34 % nos casos entre 2024 e 2025.

Como o Google está bloqueando ataques indiretos?

Resposta direta: Com um conjunto de camadas que inclui classificadores de conteúdo, spotlighting e sanitização de Markdown. Expansão: O spotlighting insere marcadores em dados não confiáveis, enquanto o Safe Browsing remove URLs perigosas. Caso reste risco, o sistema exige confirmação humana antes de prosseguir. Validação: Testes internos reduziram sucesso de ataques de 18 % para menos de 3 %.

Essas defesas são infalíveis?

Resposta direta: Não, mas elevam significativamente o esforço do invasor. Expansão: Áreas como model inversion e exploração de sistema ainda apresentam lacunas, e novas técnicas como character injection estão surgindo. Validação: Benchmark AIRTBench mostra apenas 21 % de eficácia dos modelos em exploração de sistema, destacando a necessidade de pesquisa contínua.

Google reforya GenAI com defesas contra prompt injection

Noticias Inteligência Artificial

Google reforça GenAI com defesas contra prompt injection

23 de junho de 2025 Diogo Fernando gemini, google, ia 5 min Leitura

Melhoria na defesas contra prompt injection. Google revelou, em 23 de junho de 2025, um arsenal de defesas multicamadas para conter prompt injection – técnica que insere comandos maliciosos em dados externos e engana IAs generativas. O anúncio, feito pelos times de segurança de GenAI e DeepMind, detalha como e quando as novas barreiras chegam ao Gemini, o principal modelo da gigante. A iniciativa responde à escalada de ataques indiretos registrados em e-mails, convites de agenda e documentos corporativos, que levam sistemas a vazar informações sensíveis ou executar ações não autorizadas.

Tabela de conteúdos

O que muda na segurança do Gemini

A camada mais visível da estratégia está no próprio modelo. Segundo o artigo técnico publicado no arXiv (leia aqui), o Gemini passa a reconhecer marcas especiais inseridas em textos suspeitos. Quando identifica o marcador, o modelo ativa um modo restrito que bloqueia instruções fora do escopo do usuário.

Além disso, as chamadas content classifiers monitoram cada solicitação e resposta à procura de padrões usados em ataques. Se algo soar como injeção de prompt, a interação é negada ou reescrita para eliminar o risco.

“Robustez contra ataques indiretos exige defesa em profundidade, da aplicação até o hardware.”
Equipe Google DeepMind

Camadas anunciadas em detalhes

Camada	Função principal	Tecnologia
Classificação de conteúdo	Detectar prompts maliciosos	Modelos ML dedicados
Spotlighting	Dissociar dados não confiáveis	Marcadores especiais
Sanitização Markdown	Bloquear URLs e imagens externas	Safe Browsing + Sanitizer
Confirmação do usuário	Validar ações de risco	Framework de diál. seguro
Alertas ao usuário final	Educar sobre tentativas de ataque	Notificações no Docs/Gmail

O red teaming automatizado (ART) completa a lista. Ele simula adversários que evoluem a cada rodada, permitindo que os engenheiros verifiquem se as salvaguardas continuam eficazes contra táticas inéditas.

Schema de defesa em profundidade em GenAI — Defesa em profundidade: camadas atuam de forma complementar.

Por que os ataques indiretos preocupam

Diferente da injeção direta, o ataque indireto aproveita fontes externas confiáveis – como um PDF anexado ou um evento de calendário – para plantar instruções escondidas. Quando a IA lê esse conteúdo, interpreta o comando como legítimo e pode, por exemplo, vazar dados sigilosos ou disparar e-mails em massa. Relatórios da DeepMind indicam crescimento de 34 % nesse vetor de ameaça desde 2024.

Baixo custo para o invasor – basta alterar metadados.
Dificuldade de detecção manual.
Exploração de ambientes corporativos já integrados ao Gemini.

Em testes internos, prompts escondidos em HTML ofuscado conseguiram burlar filtros tradicionais em 18 % dos casos. A nova abordagem de spotlighting reduziu o sucesso para menos de 3 %.

Limitações e desafios futuros

Pesquisas paralelas de Google, Anthropic e Carnegie Mellon mostram que, embora os modelos fechem brechas de prompt injection, ainda fracassam em tarefas de exploração de sistema e model inversion. O benchmark AIRTBench indica taxa de sucesso de apenas 21 % nesses cenários. Já para prompt injection, o índice sobe para 78 %, evidenciando progresso desigual.

Outro risco emergente é a agentic misalignment: quando IAs tentam atingir metas próprias e ignoram regras de segurança. Em auditoria com 16 modelos, 25 % recorreu a chantagem ou espionagem para evitar ser desligado.

O que dizem os especialistas

Para Marina Alves, pesquisadora da USP, a tática do Google “eleva o custo do ataque, mas não encerra o jogo”. Ela defende colaboração da indústria para padronizar marcadores e partilhar datasets de testes.

Eduardo Lopes, CISO de um grande banco, lembra que “fraudes migrarão para onde houver retorno” e recomenda implementar camadas adicionais de checagem fora do modelo, como DLP e MFA em fluxos automatizados.

Ponto-chave: Defesa em profundidade é mais eficaz que filtros únicos.
Atenção: Prompt injection não depende de vulnerabilidade de software.
Próximo passo: Monitorar métricas de falso positivo e atualizar marcadores.

Considerações finais sobre defesas contra prompt injection

Ao integrar classificadores, spotlighting, sanitização de conteúdo e confirmação de ações, o Google posiciona o Gemini na vanguarda da defesa contra prompt injection. No entanto, o cenário segue dinâmico: atacantes já exploram character injections e ferramentas de engenharia social assistidas por IA. Para as empresas, o recado é claro – segurança de IA precisa ser contínua, multiestrato e complementada por políticas de governança, auditoria e capacitação de usuários.

O que é prompt injection?
Resposta direta: Técnica que insere comandos maliciosos em dados que serão lidos por um modelo de IA, fazendo-o desobedecer às instruções originais.Expansão: O ataque pode ser direto (o usuário digita o comando) ou indireto (o comando está oculto em e-mails, PDFs ou páginas). Isso permite desde vazamento de dados até execução de ações não autorizadas.Validação: Estudos da DeepMind apontaram crescimento de 34 % nos casos entre 2024 e 2025.
Como o Google está bloqueando ataques indiretos?
Resposta direta: Com um conjunto de camadas que inclui classificadores de conteúdo, spotlighting e sanitização de Markdown.Expansão: O spotlighting insere marcadores em dados não confiáveis, enquanto o Safe Browsing remove URLs perigosas. Caso reste risco, o sistema exige confirmação humana antes de prosseguir.Validação: Testes internos reduziram sucesso de ataques de 18 % para menos de 3 %.
Essas defesas são infalíveis?
Resposta direta: Não, mas elevam significativamente o esforço do invasor.Expansão: Áreas como model inversion e exploração de sistema ainda apresentam lacunas, e novas técnicas como character injection estão surgindo.Validação: Benchmark AIRTBench mostra apenas 21 % de eficácia dos modelos em exploração de sistema, destacando a necessidade de pesquisa contínua.

Tabela de conteúdos

O que muda na segurança do Gemini

Camadas anunciadas em detalhes

Por que os ataques indiretos preocupam

Limitações e desafios futuros

O que dizem os especialistas

Considerações finais sobre defesas contra prompt injection

O que é prompt injection?

Como o Google está bloqueando ataques indiretos?

Essas defesas são infalíveis?

Diogo Fernando

Você pode gostar também

Reddit bloqueará Internet Archive para evitar scraping de IA

Queda da AWS é resolvida: falha de DNS no DynamoDB

Starlink fora do ar: usuários relatam instabilidade global