首页
社区
课程
招聘
Cloudflare将大规模服务中断归咎于Google Cloud
发表于: 1天前 23

Cloudflare将大规模服务中断归咎于Google Cloud

1天前
23

Cloudflare与Google Cloud大规模服务中断

近日,Cloudflare公司发言人向《CRN》媒体表示,星期四发生了一次大规模的服务中断,其根源被归咎于Google Cloud的故障。这一事件导致了该内容交付网络供应商的多项产品和服务不可用,同时还波及了包括SpotifyDiscord等在内的多款热门第三方应用。尽管如此,尚不清楚这些第三方应用程序的中断是否与Google Cloud的故障直接相关。

“这次故障是因为Google Cloud的问题,”Cloudflare的发言人表示:“我们只有一小部分服务依赖于Google Cloud,因此也受到影响。”发言人预计受影响的服务将很快恢复正常。他们同时强调,Cloudflare的核心服务未受到影响。根据Cloudflare的状态网页显示,协调世界时间(UTC)20:57,即太平洋时间下午1:57时,“所有Cloudflare服务已恢复并完全正常运营”。公司表示,正在继续监测平台指标以确认持续的稳定性。

在此事件中,Google Cloud同样遭遇了多种产品和服务的中断。在向《CRN》发言时,Google Cloud的一位发言人表示,公司正在“调查部分Google Cloud服务的服务中断问题”,并建议关注公司的公共状态面板以获取最新更新。这一更新将Google Cloud的状态定为正在恢复。

Cloudflare在协调世界时间(UTC)19:57,即太平洋时间中午12:57时,曾在其状态页面上指出,由于“一个关键依赖的第三方服务发生故障”,其“关键的Workers KV服务”未能正常运行。根据该通知,所有依赖于KV服务存储和传播信息的Cloudflare产品一度不可用。Cloudflare的工程师们正在全力以赴以立即恢复服务,并表示已意识到此次故障造成的深远影响。

与此同时,Google Cloud在其状态页面更新中提到,由于“我们已在us-central1和多区域/us实施了缓解措施”,并表示看到了一些恢复的迹象。该us-central1区域包括爱荷华州。Google Cloud表示:“我们已经从内部监控和客户确认,相应的Google Cloud产品在多个区域同样开始恢复,也在us-central1和多区域/us中看到了一些恢复的迹象。”对此,他们期望在一个小时内完成恢复工作,并承诺将于2025年6月12日太平洋时间下午2:30提供当前情况的更新。

根据Ookla公司的在线监测工具Downdetector显示,在太平洋时间上午11:25时,Google Cloud的故障报告达到了约14,000条,而在下午12:40时,这一数字减少至约3,000条。Cloudflare的故障报告在太平洋时间上午11:41时达到约3,000条,但在一个小时后降至约1,000条。另一个云计算服务巨头Amazon Web Services(AWS)在Downdetector上也出现了故障报告激增的现象,达到了约6,000条,但其状态页面并未显示任何问题,并最终在下午12:40时有所回落,降至约2,000条。同样,另一家云计算巨头Microsoft Azure在太平洋时间上午11:49时上报了约1,000条故障报告,但其状态页面同样未显示问题,并在下午12:49时降至251条。

Cloudflare在协调世界时间(UTC)19:12时,即太平洋时间中午12:12时,更新其系统状态网站,称服务正在逐步恢复。该公司于协调世界时间(UTC)18:19时,即太平洋时间上午11:19时的首次文章提到,问题导致“访问认证失败”,并影响到“Cloudflare Zero Trust WARP连接”。

根据Cloudflare的说法,自此以来,受到影响的服务包括访问、WARP、实时、Workers AI、流媒体、Cloudflare仪表盘的一部分以及AutoRAG等。

Google Cloud则在太平洋时间上午11:46时首次发布关于其故障的通知,受该事件影响的Google产品包括Vertex AIGoogle Cloud SQLGoogle BigQueryGoogle Cloud ConsoleGoogle Cloud DNSGoogle Identity and Access ManagementGoogle Cloud Storage等,根据厂商的状态页面,多个Google Cloud平台产品遭遇了不同程度的服务影响。Google Cloud在最初的通知中对此表示歉意,并确认多款Google Cloud Platform产品确实遭遇了与API请求相关的服务影响。到太平洋时间中午12:09时,Google发布的报道表示他们的工程师仍在继续缓解问题,且已确认在部分地点该问题已经恢复。

目前尚不清楚在星期四报告故障激增的第三方应用及服务是否与Google Cloud及Cloudflare的问题有关。然而,根据Downdetector报告显示,当日受到广泛影响的产品中,包括Spotify(在中午12:02时达到约46,000条故障报告)、Discord(在上午11:32时约11,000条报告)、Snapchat(在下午12:33时达到约7,000条报告)、Character AI(在上午11:19时达到约4,000条报告)及Vimeo(在上午11:51时达到约2,000条报告)等。

此事件的发生提醒了各大云服务提供商在构建其架构时需提高对服务稳定性的关注,同时也对相互依赖的生态系统中可能出现的服务中断基于逻辑实现有效的减缓与应对措施。未来,坚持透明的沟通以及高效的故障恢复机制,将为云服务行业的健康发展提供保障。


[培训]内核驱动高级班,冲击BAT一流互联网大厂工作,每周日13:00-18:00直播授课

收藏
免费 0
支持
分享
最新回复 (0)
游客
登录 | 注册 方可回帖
返回