Railway, Google Cloud 계정 정지로 8시간 전면 장애

원제: Incident Report: Railway Blocked by Google Cloud (Resolved)

왜 중요한가

단일 클라우드 제공업체 의존도가 얼마나 큰 리스크를 초래할 수 있는지 보여주는 사례로 다중 클라우드 전략의 중요성을 시사한다.

클라우드 플랫폼 Railway가 5월 19일 22:20 UTC부터 약 8시간 동안 Google Cloud의 계정 정지로 인해 전 세계 모든 서비스에서 장애를 경험했다. API, 대시보드, 데이터베이스가 모두 오프라인 상태가 되었으며 사용자들은 503 오류를 겪었다.

Railway는 Google Cloud가 실수로 자사 프로덕션 계정을 정지시켜 플랫폼 전체 서비스 중단이 발생했다고 발표했다. 5월 19일 22:20 UTC부터 5월 20일 06:14 UTC까지 약 8시간 동안 지속된 이번 장애는 Google Cloud에서 호스팅되는 인프라뿐만 아니라 자체 Railway Metal과 AWS 환경의 워크로드에도 영향을 미쳤다. Railway의 엣지 프록시가 Google Cloud 호스팅 제어 플레인 API에 의존하여 라우팅 테이블을 구성하기 때문에, 캐시된 네트워크 경로가 만료되면서 장애가 다른 환경으로 확산되었다. 사용자들은 대시보드와 API에서 503 오류와 '건강한 업스트림 없음', '무조건 드롭 오버로드' 메시지를 경험했으며 로그인할 수 없었다. Railway는 22:19 UTC에 근본 원인을 파악하고 Google Cloud에 P0 티켓을 제출했으며, 22:29 UTC에 계정 액세스가 복원되었다. 하지만 모든 컴퓨트 인스턴스는 중지된 상태로 남아있었고 지속적 디스크에 접근할 수 없었다. 복구 과정에서 GitHub가 Railway의 OAuth 및 웹훅 통합을 속도 제한하여 일시적으로 로그인과 빌드가 차단되기도 했다.

출처

blog.railway.com — 원문 읽기 →