Cloudflare explica apagão global e anuncia medidas
A Cloudflare confirmou ter enfrentado o pior apagão global de sua história recente, uma falha que derrubou por mais de cinco horas serviços críticos como ChatGPT, X (antigo Twitter) e milhares de outros sites. O CEO da empresa, Matthew Prince, assumiu publicamente a responsabilidade pelo incidente e detalhou um conjunto de medidas técnicas para impedir novas ocorrências semelhantes.
Tabela de conteúdos
Apagão da Cloudflare: Falha histórica afetou 20% da internet
A instabilidade começou na manhã do dia 18 de novembro de 2025, por volta das 8h28, quando cerca de 20% dos sites que utilizam a infraestrutura da Cloudflare passaram a apresentar erros HTTP 5xx. Plataformas populares e sistemas internos, incluindo o dashboard de status da própria empresa, ficaram fora do ar, confundindo usuários e técnicos e levando muitos a acreditar que se tratava de um ataque DDoS massivo.
A investigação posterior revelou que o problema partiu de uma atualização incorreta em seu sistema anti-bot. O processo havia sido disparado para reforçar proteções internas, mas resultou em uma consulta mal configurada no ClickHouse — banco de dados usado pela empresa para monitorar e analisar tráfego — que duplicou dados e sobrecarregou servidores críticos do sistema de proxy central.

O que disse o CEO Matthew Prince
“Qualquer interrupção em qualquer um de nossos sistemas é inaceitável. Sabemos que falhamos com vocês hoje e que a responsabilidade é totalmente nossa.”
Matthew Prince, CEO da Cloudflare
O executivo detalhou que o arquivo de configuração do módulo afetado havia dobrado de tamanho devido à duplicação de colunas e, ao ser carregado, fez com que o sistema antigamente robusto ficasse sobrecarregado — gerando uma interrupção em cascata. O erro afetou não só sites dependentes da CDN, mas também produtos como o Cloudflare Access e o Workers KV, usados por empresas globais para identidade e distribuição de dados.
Recuperação e retorno da normalidade
A normalização total começou por volta das 14h06, após substituições manuais e reinicializações de servidores. Durante o processo, a equipe da Cloudflare conseguiu restaurar progressivamente o tráfego e evitar perda de dados. Serviços como o Downdetector acompanharam a falha em tempo real, registrando picos simultâneos de relatórios vindos de diferentes países.
Segundo Prince, a resposta interna foi rápida, mas ainda insuficiente diante da dimensão da rede. Ele reforçou que, embora 80% das zonas da Cloudflare tenham permanecido operacionais, o impacto em serviços críticos mostrou que a redundância precisa ser multiponto e não apenas regional.
Medidas preventivas e novas políticas
Em comunicado oficial, a empresa detalhou quatro novas diretrizes técnicas para fortalecer sua confiabilidade:
- Validação rigorosa de arquivos internos: todas as configurações geradas internamente agora passarão por verificações automáticas de estrutura, tamanho e formato antes de serem aplicadas ao ambiente de produção.
- Botões de emergência globais: formas de desligar instantaneamente módulos problemáticos em toda a rede, funcionando como um “freio de emergência digital”.
- Controle de logs e dumps: limitação automática de relatórios técnicos durante picos de falhas, evitando congestionamento de servidores.
- Simulação de falhas críticas: testes periódicos e redundância de componentes essenciais como proxies e roteadores internos, permitindo que o tráfego migre automaticamente em caso de erro.
Essas ações começam a ser implementadas imediatamente. O foco inicial estará nos botões de emergência, visto que o incidente mostrou a necessidade de mecanismos de desligamento rápido controlado para mitigar falhas em tempo real.
Impacto e lições para o ecossistema da internet
Nos últimos anos, provedores de infraestrutura como a Cloudflare, AWS e Google Cloud se tornaram pilares essenciais da rede mundial. Uma interrupção de cinco horas, mesmo que parcial, evidencia a dependência global de poucos grandes provedores.
Especialistas apontam que o ocorrido reforça a necessidade de diversificação no roteamento e uso de provedores múltiplos de CDN, especialmente por parte de serviços de missão crítica, como bancos, plataformas de IA e órgãos públicos. A própria Cloudflare anunciou que expandirá investimentos em redundância geográfica e testes de falhas controladas.
Principais dúvidas sobre o apagão da Cloudflare
Qual foi a causa principal do apagão da Cloudflare?
A falha teve origem em uma atualização incorreta no sistema anti-bot, que gerou duplicação de dados no ClickHouse e sobrecarregou o proxy central, ocasionando erros HTTP 5xx em larga escala.
Quais serviços foram afetados?
Plataformas como ChatGPT, X (antigo Twitter), Downdetector e até o site do Tecnoblog ficaram fora do ar por até cinco horas em algumas regiões.
A Cloudflare sofreu ataque hacker?
Não. Inicialmente suspeitou-se de um ataque DDoS, mas a empresa confirmou que foi uma falha interna em atualização de rotina.
O que está sendo feito para evitar novas falhas?
A empresa implementará validação rigorosa de configurações, botões de emergência e rotinas de teste de falhas, fortalecendo a confiabilidade de sua infraestrutura global.
Considerações finais
O apagão de novembro de 2025 representa um marco negativo, mas também um ponto de inflexão para o setor de infraestrutura digital. A transparência e rapidez na resposta da Cloudflare podem servir de modelo para outras companhias, mostrando que admitir falhas e detalhar soluções é parte vital da confiança na internet moderna.
Fonte: The Verge

