type
status
date
slug
summary
tags
category
icon
password

📝
2025 年 11 月 18 日,Cloudflare 全球网络从 UTC 11:20 起出现严重服务故障,大量用户访问依赖 Cloudflare 的网站时遭遇 5xx 错误。事件持续约 6 小时,直到 UTC 17:06 才完全恢复。Cloudflare 强调此次事故并非网络攻击所致,而是内部系统错误导致核心代理(FL/FL2)无法正常处理流量。
根本原因
问题源自 ClickHouse 数据库的一次权限更新。该更新导致 Bot Management 生成的"特征配置文件"出现大量重复数据,使文件体积翻倍。配置文件自动同步至全球节点后,触发了代理程序的内存限制,导致其崩溃并返回 5xx 错误。更棘手的是,特征文件每 5 分钟重新生成一次,"正常文件"和"异常文件"交替传播,使故障呈间歇性发作,大大增加了诊断难度。
影响范围
核心 CDN、Bot Management、Workers KV、Turnstile、Access 等关键服务均受到影响。用户无法登录 Cloudflare Dashboard,大量网站流量中断。部分系统因依赖核心代理,在故障期间出现连锁反应。雪上加霜的是,Cloudflare 状态页也因巧合短暂离线,进一步造成混乱,让团队最初误以为遭遇了大型 DDoS 攻击。
修复过程与后续计划
团队确认问题原因后,于 UTC 14:30 推送已知正常的旧版本特征文件,并停止生成异常文件,服务逐步恢复。Cloudflare 表示这是 2019 年以来最严重的一次事故,并承诺加强配置文件验证、改进错误隔离机制、增加全局"紧急关闭"开关,以及避免调试系统在故障时过度占用 CPU。公司对事故影响深表歉意,并将持续推进网络韧性改进。
- 作者:Simon
- 链接:https://song.al/article/Cloudflare
- 声明:本文采用 CC BY-NC-SA 4.0 许可协议,转载请注明出处。










