6일 과학기술정보통신부는 방송통신위원회, 소방청과 함께 SK C&C 데이터센터 화재로 인한 카카오 서비스 장애 조사 결과를 발표했다.
조사에 따르면, 화재는 데이터센터 지하 3층 배터리실에서 발생했다. SK C&C는 배터리 온도 등을 모니터링하는 시스템(BMS)을 갖추고 있었으나, 화재 발생 직전까지 이상 징후는 나타나지 않았다. 천장 공간이 미분리된 격벽 공간에 있던 일부 무정전 전원장치(UPS)는 화재 열기 등으로 손상돼 작동이 중지된 것으로 추정했다. 배터리실 상부에 위치한 전력선도 화재로 손상됐다.
화재 발생 후 가스 소화 장비가 작동했지만 가스 소화가 어려운 리튬이온 배터리 특성상 초기 진압에 한계가 있었다. SK C&C는 2016년 리튬이온 배터리를 설치한 이후 현재까지 특화된 방화 조치는 하지 않은 것으로 조사됐다. 결국 살수가 필요한 상황에서 누전 등 2차 피해를 우려해 전체 전력을 차단했다. 과기정통부 측은 “살수로 인한 2차 피해가 우려되는 특정 구역과 차단 스위치를 단시간 내 식별할 수 없어 선별적 차단 조치기 이뤄지지 못했다”고 설명했다.
스탠바이 서버를 ‘액티브’로 만들기 위한 권한 관리 기능(운영·관리 도구)이 판교 데이터센터 내에서만 이중화돼 있을 뿐 타 데이터센터에 이중화돼 있지 않아 장애 복구가 지연된 것이다. 특히 여러 서비스의 초기 단계부터 필요한 ‘카카오 인증’ 등 핵심 기능도 판교 센터에 집중돼 여러 서비스에 광범위한 영향을 미친 원인이 됐다.
네이버의 경우 뉴스·쇼핑 등 일부 기능에서 오류가 발생했으며 주요 서비스 대부분은 약 20분~ 12시간 내 정상화됐다. 네이버는 데이터센터 간 이중화 조치로 서비스 중단은 없었으나, 타 데이터센터로의 전환 과정 등에서 일부 기능에 오류가 생겼다.
카카오에는 장애 복구 지연의 원인이 된 운영·관리 도구를 ‘액티브-액티브’ 방식 등 높은 수준으로 다중화하는 것은 물론 인증, 메시지 수·발신 등 핵심 기능에 대해서도 현재 수준 이상의 분산·다중화를 적용할 수 있는 방안을 수립하라고 요청했다. 액티브-액티브 시스템은 두 시스템이 모두 활성화된 상태로 실시간 동기화된다.
또 데이터센터 전소, 네트워크 마비 등 최악의 상황을 대비한 훈련 계획을 수립하고 모의훈련을 실시해 보고할 것을 요구했다. 네이버에도 보다 철저한 장애 예방과 신속한 복구를 위해 서비스별 복구 목표, 장애 시나리오별 복구 방안 등을 재점검해 개선 방안을 마련하라고 했다.
과기정통부는 3사가 제출한 조치 결과와 향후 계획, 전문가 의견, 법·제도 개선 사항을 반영해 디지털 서비스 안정성 확보를 위한 종합 개선 방안을 내년 1분기 중 수립할 방침이다. 이종호 과기정통부 장관은 “정부는 이번 사고를 계기로 주요 디지털 서비스에 대한 재난 대응 체계를 원점에서 재검토하겠다”며 “각 사업자별 개선 방안, 점검 결과, 제도 개선 등을 종합해 디지털 시대에 맞는 안정성 강화 방안을 마련함으로써 디지털 위기관리 체계를 구축해 나가겠다”고 했다.