Perplexity acusada de burlar bloqueios de IA em sites, diz Cloudflare
Perplexity, startup de inteligência artificial, foi acusada pela Cloudflare de realizar scraping em websites que haviam explicitamente bloqueado a ação de bots de IA. O caso da Perplexity acusada de burlar bloqueios ganhou repercussão em 4 de agosto de 2025, após a Cloudflare publicar uma análise técnica detalhando como a Perplexity teria burlado as restrições implementadas via Robots.txt – padrão que orienta mecanismos de busca sobre páginas que podem ou não ser acessadas por robôs. Segundo a Cloudflare, o comportamento irregular da Perplexity ocorreu em dezenas de milhares de domínios, totalizando milhões de solicitações por dia. O debate reacende questões sobre ética, privacidade e sustentabilidade dos modelos baseados em dados extraídos da web sem permissão.
Tabela de conteúdos
Por que a Cloudflare acusa a Perplexity?
A Cloudflare, referência mundial em infraestrutura de internet, revelou ter detectado atividades em que a Perplexity supostamente ignorou bloqueios técnicos e ocultou a verdadeira identidade de seus crawlers. Em post publicado em seu blog, a empresa afirma que, além de utilizar bots próprios, a Perplexity adaptou seus agentes de usuário (user-agent) para parecer um navegador legítimo, como o Google Chrome, e alterou seus sistemas autônomos de rede (ASN) para dificultar a identificação.
“Esta atividade foi observada em dezenas de milhares de domínios e milhões de requisições diárias. Conseguimos identificar o crawler usando aprendizado de máquina e sinais de rede,” diz o relatório da Cloudflare.
Resposta e posicionamento da Perplexity
Procurada pelo TechCrunch, a Perplexity, por meio do porta-voz Jesse Dwyer, minimizou o relatório, classificando-o como “um pitch de vendas” da Cloudflare. Dwyer alegou que as capturas de tela citadas pela Cloudflare mostram que nenhum conteúdo relevante foi efetivamente acessado, e sustentou via e-mail que o bot identificado nos testes nem sequer pertenceria à Perplexity.
Como funciona o bloqueio de scraping pela web
Muitos portais e criadores de conteúdo dependem do arquivo Robots.txt para informar a buscadores e empresas de IA quais páginas podem ser indexadas e quais estão bloqueadas. O uso do Robots.txt, porém, baseia-se em cooperação voluntária, e empresas como a Perplexity podem contornar o recurso alterando seus identificadores ou estratégias técnicas. O blog da Cloudflare relata que após reclamações de clientes, testou bloqueios específicos contra bots conhecidos da Perplexity — e segundo a análise, mesmo assim o scraping de conteúdo continuou pela startup, usando técnicas de disfarce.
Impacto e repercussões para o setor de IA
A polêmica ressalta o embate entre a proteção dos produtores de conteúdo e a sede de dados de startups de IA. O uso de crawlers para treinar modelos de linguagem natural e outras soluções de inteligência artificial já gerou controvérsias há anos. Em 2024, ferramentas foram criadas para bloquear bots de scraping automático, e grandes veículos, como a revista Wired, acusaram a Perplexity de plágio e apropriação não autorizada de conteúdo. Ainda em 2024, o próprio CEO da Perplexity, Aravind Srinivas, foi questionado durante uma entrevista no TechCrunch Disrupt sobre a definição de plágio pela empresa — mas não conseguiu responder claramente.
Visão da Cloudflare: ameaças ao ecossistema e novas soluções
Para combater práticas invasivas, a Cloudflare anunciou recentemente um marketplace onde proprietários podem cobrar de bots de IA que queiram acessar seus conteúdos (saiba mais). O CEO Matthew Prince reforçou, em discurso público, que o modelo tradicional da internet está ameaçado pelo scraping automatizado de IA, especialmente para quem monetiza informação original. Além disso, a Cloudflare passou a excluir bots da Perplexity de sua lista de crawlers verificados e adotou métodos mais avançados para bloqueá-los.
Contexto histórico e desdobramentos futuros
O confronto entre IA e controle de dados online não é recente. Nos últimos anos, cresceram estratégias de bloqueio, acordos de licenciamento e debates sobre direitos autorais, principalmente após explosão dos modelos de IA generativa. Especialistas preveem novas variações entre técnicas de bloqueio, acordos comerciais e potencial judicialização entre plataformas de conteúdo e startups de inteligência artificial.
Considerações finais sobre Perplexity acusada de burlar bloqueios para scraping
A disputa entre Perplexity e Cloudflare ilustra a tensão crescente entre inovação em inteligência artificial e direitos dos criadores da web. A consequência imediata é o aumento da adoção de bloqueios e mecanismos de proteção, mas o debate ético e regulatório está longe de acabar. O caso reacende a discussão sobre sustentabilidade financeira do jornalismo digital e a necessidade de soluções equilibradas entre acesso a dados e remuneração adequada de produtores de conteúdo original.
O que é scraping por IA e por que preocupa?
Scraping por IA é o processo de coleta automatizada de dados para treinar modelos de inteligência artificial. Isso preocupa porque pode ferir direitos autorais, privacidade e impactar negativamente empresas de mídia e criadores de conteúdo ao utilizar material sem permissão. Especialistas defendem o debate regulatório sobre o tema.
Como o Robots.txt atua no bloqueio de bots de IA?
O Robots.txt informa bots sobre páginas liberadas ou restritas para acesso. No entanto, o padrão depende da cooperação voluntária dos agentes: bots maliciosos ou empresas que querem burlar restrições podem ignorá-lo, como alegado no caso da Perplexity. O setor busca padrões técnicos mais robustos.
Qual a posição oficial da Perplexity sobre as acusações?
Perplexity nega as acusações da Cloudflare e afirma que o bot citado no relatório não pertence à empresa. A startup considera o relatório um movimento comercial da Cloudflare e sustenta que não acessou conteúdos protegidos indevidamente. O impasse segue sob análise do setor.