Salı günü yaşanan ve internetin büyük bir kısmını devre dışı bırakan ciddi kesintinin nedeni Cloudflare'ın bir hatası olarak doğrulandı. Bu hata, X (eski adıyla Twitter), ChatGPT ve ironik bir şekilde kesintileri takip eden Downdetector gibi popüler hizmetlere erişimi engelledi. Olayın ardından hizmetler normale döndüğünde, Cloudflare'ın CTO'su büyük bir özür yayımladı. Bu durumu "kabul edilemez" olarak nitelendiren yetkili, yaşanan aksaklığın botları engelleme katmanında meydana gelen rutin bir yapılandırma değişikliğinin tetiklediği bir çökme olduğunu belirtti.
Kesinti, yaklaşık olarak 11:48 UTC (Türkiye saati ile 14:48) civarında başladı. Cloudflare'ın resmi durum sitesi başlangıçta "dahili hizmet degradasyonu" olduğunu bildirdi. Sorun yaygınlaştıkça, kullanıcılar birçok bölgede yalnızca Cloudflare altyapısını kullanan web sitelerine değil, aynı zamanda şirketin Erişim ve WARP hizmetlerine de erişimde sorunlar yaşandığını bildirdi. Şirket daha sonra sorunun kaynağının bot savunma araçlarındaki belirli bir bağımlılık olduğunu tespit etti.
CTO, "Müşterilerimize ve genel olarak internete karşı başarısız olduk," dedi. "Botlarımızı engelleme yeteneğimizi destekleyen bir hizmetteki gizli bir hata, rutin bir yapılandırma değişikliğinin ardından çökmeye başladı. Bu durum, ağımızda ve diğer hizmetlerimizde geniş çaplı bir degradasyona yol açtı. Bu bir saldırı değildi."
14:42 UTC (Türkiye saati ile 17:42) itibarıyla Cloudflare bir düzeltme uygulayarak etkilenen bileşenleri geri yüklemeye başladı. Mühendisler olası kalıntı hataları izlemeye devam ederken, gösterge paneli işlevselliği, analitik ve hata kaydı gibi özellikler öğleden sonra boyunca kısmen düşüş gösterdi. Sorunu giderme sürecinin bir parçası olarak Londra'da WARP erişimine geçici bir erişim kısıtlaması da getirildi.
Cloudflare'ın Turnstile ve JavaScript doğrulama katmanları gibi zorluk akışlarını içeren botları engelleme sistemi, birçok yüksek profilli web sitesi ve API'ye giden trafiğin içinde yer alıyor. Bu sistemler yalnızca kötü niyetli aktörleri engellemekle kalmayıp, aynı zamanda meşru kullanıcıların erişimini de yönettiği için, bu katmandaki hatalar çekirdek CDN veya DNS altyapısı çalışır durumda olsa bile yaygın hizmet kesintilerine yol açabiliyor.
Bu olay, son bir ay içinde büyük siteleri etkileyen üçüncü büyük kesinti oldu. Ekim ayında, Amazon Web Services'in (AWS) ABD-Doğu-1 bölgesinin büyük bir kısmı, şirketin daha sonra DNS yapılandırma hatasına bağladığı bir durum nedeniyle iki saatten fazla çevrimdışı kalmıştı. Ardından, sadece birkaç gün sonra Microsoft Azure'da devasa bir kesinti yaşandı.
Bu tür olaylar, geniş çapta kullanılan hizmetlerin ve platformların, büyük ölçekte dahili hizmet hatalarını ve bağımlılık izolasyonunu nasıl yönettiği konusunda daha geniş soruları gündeme getiriyor. İnternetin yaklaşık %19'u Cloudflare'a bağımlı iken, bulut bilişim pazarının sırasıyla yaklaşık %24'ü ve %30'u Azure ve AWS tarafından oluşturuluyor.