NoticiasTecnologia

Cloudflare explica apagão global e anuncia medidas

PUBLICIDADE

A Cloudflare confirmou ter enfrentado o pior apagão global de sua história recente, uma falha que derrubou por mais de cinco horas serviços críticos como ChatGPT, X (antigo Twitter) e milhares de outros sites. O CEO da empresa, Matthew Prince, assumiu publicamente a responsabilidade pelo incidente e detalhou um conjunto de medidas técnicas para impedir novas ocorrências semelhantes.

Apagão da Cloudflare: Falha histórica afetou 20% da internet

A instabilidade começou na manhã do dia 18 de novembro de 2025, por volta das 8h28, quando cerca de 20% dos sites que utilizam a infraestrutura da Cloudflare passaram a apresentar erros HTTP 5xx. Plataformas populares e sistemas internos, incluindo o dashboard de status da própria empresa, ficaram fora do ar, confundindo usuários e técnicos e levando muitos a acreditar que se tratava de um ataque DDoS massivo.

A investigação posterior revelou que o problema partiu de uma atualização incorreta em seu sistema anti-bot. O processo havia sido disparado para reforçar proteções internas, mas resultou em uma consulta mal configurada no ClickHouse — banco de dados usado pela empresa para monitorar e analisar tráfego — que duplicou dados e sobrecarregou servidores críticos do sistema de proxy central.

PUBLICIDADE
Gráfico mostrando picos de erros HTTP durante o apagão da Cloudflare
Gráfico de picos de erros HTTP 5xx durante a falha — Imagem: Cloudflare

O que disse o CEO Matthew Prince

“Qualquer interrupção em qualquer um de nossos sistemas é inaceitável. Sabemos que falhamos com vocês hoje e que a responsabilidade é totalmente nossa.”

Matthew Prince, CEO da Cloudflare

O executivo detalhou que o arquivo de configuração do módulo afetado havia dobrado de tamanho devido à duplicação de colunas e, ao ser carregado, fez com que o sistema antigamente robusto ficasse sobrecarregado — gerando uma interrupção em cascata. O erro afetou não só sites dependentes da CDN, mas também produtos como o Cloudflare Access e o Workers KV, usados por empresas globais para identidade e distribuição de dados.

Recuperação e retorno da normalidade

A normalização total começou por volta das 14h06, após substituições manuais e reinicializações de servidores. Durante o processo, a equipe da Cloudflare conseguiu restaurar progressivamente o tráfego e evitar perda de dados. Serviços como o Downdetector acompanharam a falha em tempo real, registrando picos simultâneos de relatórios vindos de diferentes países.

Segundo Prince, a resposta interna foi rápida, mas ainda insuficiente diante da dimensão da rede. Ele reforçou que, embora 80% das zonas da Cloudflare tenham permanecido operacionais, o impacto em serviços críticos mostrou que a redundância precisa ser multiponto e não apenas regional.

Medidas preventivas e novas políticas

Em comunicado oficial, a empresa detalhou quatro novas diretrizes técnicas para fortalecer sua confiabilidade:

  • Validação rigorosa de arquivos internos: todas as configurações geradas internamente agora passarão por verificações automáticas de estrutura, tamanho e formato antes de serem aplicadas ao ambiente de produção.
  • Botões de emergência globais: formas de desligar instantaneamente módulos problemáticos em toda a rede, funcionando como um “freio de emergência digital”.
  • Controle de logs e dumps: limitação automática de relatórios técnicos durante picos de falhas, evitando congestionamento de servidores.
  • Simulação de falhas críticas: testes periódicos e redundância de componentes essenciais como proxies e roteadores internos, permitindo que o tráfego migre automaticamente em caso de erro.

Essas ações começam a ser implementadas imediatamente. O foco inicial estará nos botões de emergência, visto que o incidente mostrou a necessidade de mecanismos de desligamento rápido controlado para mitigar falhas em tempo real.

Impacto e lições para o ecossistema da internet

Nos últimos anos, provedores de infraestrutura como a Cloudflare, AWS e Google Cloud se tornaram pilares essenciais da rede mundial. Uma interrupção de cinco horas, mesmo que parcial, evidencia a dependência global de poucos grandes provedores.

Especialistas apontam que o ocorrido reforça a necessidade de diversificação no roteamento e uso de provedores múltiplos de CDN, especialmente por parte de serviços de missão crítica, como bancos, plataformas de IA e órgãos públicos. A própria Cloudflare anunciou que expandirá investimentos em redundância geográfica e testes de falhas controladas.

Principais dúvidas sobre o apagão da Cloudflare

  1. Qual foi a causa principal do apagão da Cloudflare?

    A falha teve origem em uma atualização incorreta no sistema anti-bot, que gerou duplicação de dados no ClickHouse e sobrecarregou o proxy central, ocasionando erros HTTP 5xx em larga escala.

  2. Quais serviços foram afetados?

    Plataformas como ChatGPT, X (antigo Twitter), Downdetector e até o site do Tecnoblog ficaram fora do ar por até cinco horas em algumas regiões.

  3. A Cloudflare sofreu ataque hacker?

    Não. Inicialmente suspeitou-se de um ataque DDoS, mas a empresa confirmou que foi uma falha interna em atualização de rotina.

  4. O que está sendo feito para evitar novas falhas?

    A empresa implementará validação rigorosa de configurações, botões de emergência e rotinas de teste de falhas, fortalecendo a confiabilidade de sua infraestrutura global.

Considerações finais

O apagão de novembro de 2025 representa um marco negativo, mas também um ponto de inflexão para o setor de infraestrutura digital. A transparência e rapidez na resposta da Cloudflare podem servir de modelo para outras companhias, mostrando que admitir falhas e detalhar soluções é parte vital da confiança na internet moderna.

Fonte: The Verge

Diogo Fernando

Apaixonado por tecnologia e cultura pop, programo para resolver problemas e transformar vidas. Empreendedor e geek, busco novas ideias e desafios. Acredito na tecnologia como superpoder do século XXI.

0 0 votos
Classificação do artigo
Inscrever-se
Notificar de
guest

0 Comentários
mais antigos
mais recentes Mais votado
Feedbacks embutidos
Ver todos os comentários
0
Adoraria saber sua opinião, comente.x