정부, 카카오에 "시스템 운영·관리 도구 다중화하라" 요구

과기정통부 등 카카오 서비스 장애 조사 결과 발표
SK C&C·카카오·네이버에 개선 조치, 향후 계획 1개월 내 제출토록
카카오엔 장애 복구 지연 원인된 관리 도구 '액티브-액티브' 방식 운영 요구
SK 배터리 관리 강화 방안 수립해야
내년 1분기 디지털 서비스 안정성 확보 위한 종합 개선방안 수립
  • 등록 2022-12-06 오후 2:00:15

    수정 2022-12-06 오후 2:00:15

[이데일리 김국배 기자] 정부가 ‘카카오 먹통’ 사태와 관련해 SK C&C, 카카오, 네이버 3사에 “1개월 이내에 사고 원인에 대한 개선 조치와 향후 계획을 수립해 보고하라”며 시정을 요구했다.

6일 과학기술정보통신부는 방송통신위원회, 소방청과 함께 SK C&C 데이터센터 화재로 인한 카카오 서비스 장애 조사 결과를 발표했다.

조사에 따르면, 화재는 데이터센터 지하 3층 배터리실에서 발생했다. SK C&C는 배터리 온도 등을 모니터링하는 시스템(BMS)을 갖추고 있었으나, 화재 발생 직전까지 이상 징후는 나타나지 않았다. 천장 공간이 미분리된 격벽 공간에 있던 일부 무정전 전원장치(UPS)는 화재 열기 등으로 손상돼 작동이 중지된 것으로 추정했다. 배터리실 상부에 위치한 전력선도 화재로 손상됐다.

화재 발생 후 가스 소화 장비가 작동했지만 가스 소화가 어려운 리튬이온 배터리 특성상 초기 진압에 한계가 있었다. SK C&C는 2016년 리튬이온 배터리를 설치한 이후 현재까지 특화된 방화 조치는 하지 않은 것으로 조사됐다. 결국 살수가 필요한 상황에서 누전 등 2차 피해를 우려해 전체 전력을 차단했다. 과기정통부 측은 “살수로 인한 2차 피해가 우려되는 특정 구역과 차단 스위치를 단시간 내 식별할 수 없어 선별적 차단 조치기 이뤄지지 못했다”고 설명했다.



그 결과 카카오톡 등 카카오의 주요 서비스는 최대 127시간 33분에 걸친 장애가 났다. 카카오는 판교 데이터센터와 그 밖의 데이터센터 간 시스템을 ‘액티브(Active)-스탠바이(Standby)’ 형태로 이중화했지만 이번 사고에서 스탠바이 시스템은 제대로 동작하지 못했다.

스탠바이 서버를 ‘액티브’로 만들기 위한 권한 관리 기능(운영·관리 도구)이 판교 데이터센터 내에서만 이중화돼 있을 뿐 타 데이터센터에 이중화돼 있지 않아 장애 복구가 지연된 것이다. 특히 여러 서비스의 초기 단계부터 필요한 ‘카카오 인증’ 등 핵심 기능도 판교 센터에 집중돼 여러 서비스에 광범위한 영향을 미친 원인이 됐다.

네이버의 경우 뉴스·쇼핑 등 일부 기능에서 오류가 발생했으며 주요 서비스 대부분은 약 20분~ 12시간 내 정상화됐다. 네이버는 데이터센터 간 이중화 조치로 서비스 중단은 없었으나, 타 데이터센터로의 전환 과정 등에서 일부 기능에 오류가 생겼다.

과기정통부는 사고 재발 방지를 위해 3사에 대해 “1개월 이내로 주요 원인에 대해 개선 조치하거나 향후 조치 계획을 수립해 방송통신재난 대책본부에 보고하도록 행정지도를 추진하겠다”고 밝혔다. SK C&C에는 △배터리 모니터링 시스템 계측정보 등 관리 강화 방안과 다양한 화재 감지 시스템 구축 방안 수립 △배터리와 기타 전기설비 간 물리적 공간 분리 및 전력선 재배치 등을 요구했다.

카카오에는 장애 복구 지연의 원인이 된 운영·관리 도구를 ‘액티브-액티브’ 방식 등 높은 수준으로 다중화하는 것은 물론 인증, 메시지 수·발신 등 핵심 기능에 대해서도 현재 수준 이상의 분산·다중화를 적용할 수 있는 방안을 수립하라고 요청했다. 액티브-액티브 시스템은 두 시스템이 모두 활성화된 상태로 실시간 동기화된다.

또 데이터센터 전소, 네트워크 마비 등 최악의 상황을 대비한 훈련 계획을 수립하고 모의훈련을 실시해 보고할 것을 요구했다. 네이버에도 보다 철저한 장애 예방과 신속한 복구를 위해 서비스별 복구 목표, 장애 시나리오별 복구 방안 등을 재점검해 개선 방안을 마련하라고 했다.

과기정통부는 3사가 제출한 조치 결과와 향후 계획, 전문가 의견, 법·제도 개선 사항을 반영해 디지털 서비스 안정성 확보를 위한 종합 개선 방안을 내년 1분기 중 수립할 방침이다. 이종호 과기정통부 장관은 “정부는 이번 사고를 계기로 주요 디지털 서비스에 대한 재난 대응 체계를 원점에서 재검토하겠다”며 “각 사업자별 개선 방안, 점검 결과, 제도 개선 등을 종합해 디지털 시대에 맞는 안정성 강화 방안을 마련함으로써 디지털 위기관리 체계를 구축해 나가겠다”고 했다.

이데일리
추천 뉴스by Taboola

당신을 위한
맞춤 뉴스by Dable

소셜 댓글

많이 본 뉴스

바이오 투자 길라잡이 팜이데일리

왼쪽 오른쪽

스무살의 설레임 스냅타임

왼쪽 오른쪽

재미에 지식을 더하다 영상+

왼쪽 오른쪽

두근두근 핫포토

  • 돌발 상황
  • 이조의 만남
  • 2억 괴물
  • 아빠 최고!
왼쪽 오른쪽

04517 서울시 중구 통일로 92 케이지타워 18F, 19F 이데일리

대표전화 02-3772-0114 I 이메일 webmaster@edaily.co.krI 사업자번호 107-81-75795

등록번호 서울 아 00090 I 등록일자 2005.10.25 I 회장 곽재선 I 발행·편집인 이익원

ⓒ 이데일리. All rights reserved