Railway、Google Cloudアカウント停止で8時間のプラットフォーム障害

原題: Incident Report: Railway Blocked by Google Cloud (Resolved)

なぜ重要か

単一クラウドプロバイダーへの過度の依存がシステム全体の障害につながるリスクを示す重要な事例

クラウドプラットフォームRailwayは2026年5月19日、Google Cloudがアカウントを誤って停止したため約8時間のサービス全面停止を経験した。この障害により全ユーザーがダッシュボードとAPIにアクセスできず、全リージョンのワークロードが到達不能となった。

Railwayは2026年5月19日22時20分UTCから翌日6時14分UTCまでの約8時間、プラットフォーム全体で障害が発生したと発表した。原因はGoogle Cloudが同社の本番アカウントを誤って停止状態にしたことだった。この障害によりAPI、コントロールプレーン、データベースがオフラインとなり、Google Cloud上のコンピュートインフラも停止した。ユーザーは即座にダッシュボードとAPIで503エラーが発生し、ログインできなくなった。Railway MetalやAWSバースト環境で動作するワークロードは稼働し続けていたが、Railwayのエッジプロキシがルーティングテーブルの更新にGoogle Cloud上のコントロールプレーンAPIに依存していたため、ルートキャッシュの有効期限切れと共に障害が他の環境にも波及した。最終的に全リージョンの全ワークロードが到達不能となった。同社は22時10分に自動監視システムが障害を検知し、22時19分に根本原因を特定、22時22分にGoogle Cloudに最優先チケットを提出した。Google Cloudアカウントへのアクセスは22時29分に復旧したが、コンピュートインスタンスは停止状態のまま残り、段階的な復旧作業が続いた。同社は単一のプロバイダーの行動がプラットフォーム全体の障害につながるアーキテクチャ上の決定について責任を認め、再発防止策を検討すると述べた。

出典

blog.railway.com — 元記事を読む →