|
장애 초기 컨트롤타워 부재
이날 행사에서 카카오는 서비스 장애가 길어진 원인을 자세히 짚었다. 지난 10월 15일 오후 3시 19분 발생한 카카오 서비스의 대규모 장애는 완전히 복구되기까지 127시간 33분이 걸렸다.
카카오가 내부 서비스를 알면서 외부자의 시각으로 이번 사태를 볼 수 있다는 판단 아래 비대위 원인조사 소위원장에 임명한 이확영 그렙 최고경영자(CEO)는 데이터센터 간 이중화 미흡, 운영 관리 도구 이중화 미흡, 장애 대응 인력 자원 부족을 주요 원인으로 꼽았다.
사고 초기 콘트롤타워의 부재도 아쉬운 부분으로 지적됐다. 그는 “카카오와 공동체, 개별 조직이 동시다발적으로 장애에 대응했는데 전체적인 조율과 협업을 지원할 전사 조직이 세팅돼 있지 않았다”며 “서비스별로 개발자들이 최선을 다했지만 그것만으론 부족했다”고 했다.
데이터센터 삼중화로 재난 대비
서비스 안전성을 위한 재해복구(DR) 아키텍처는 삼중화 플러스 알파의 구조로 개선한다. 구조상 3개의 데이터센터 중 하나가 무력화되는 상황에서도 이중화가 담보되는 것이다. 여기에 주요 서비스는 멀티 클라우드를 활용해 서비스 연속성을 더욱 강화기로 했다. 자체 아키텍처 구조를 개선하는 동시에 외부 클라우드로 안전장치를 추가하는 셈이다. 카카오톡 메시지 전송 기능처럼 모든 것이 무력화되더라도 단기간 내 살려야 할 서비스에 대해선 원격지 DR 데이터센터를 별도로 구축하는 방안도 검토된다.
카카오가 4600억원의 예산을 들여 안산에 구축하고 있는 첫 자체 데이터센터의 안정성 강화 방안도 공유됐다. 이번에 화재가 난 SK 데이터센터와 달리 무정전 전원장치(UPS)실과 배터리실이 방화 격벽으로 분리 시공된다. 배터리실에 화재가 나더라도 나머지 시설 작동에 영향을 주지 않게 설계된 것이다.
3중 진화 방식도 적용됐다. 이번 화재 사고처럼 밀폐된 공간에 소화 가스가 들어가지 못해 진화에 문제가 생기지 않도록 전기 판넬별로 개별 소화장치를 설치했다. 고 부사장은 “규정치 이상의 소화가스 비치는 물론 만약의 상황에 대응하고자 다른 층의 소화 가스를 끌어다 쓸 수 있게 시스템을 구축했다”고 했다.