어떻게 소프트웨어 업데이트 파일 하나가 전 세계 기간 인프라를 멈추게 했을까. 윈도를 쓰는 단말기 850만대가 PC화면이 파랗게 변하는 먹통(블루스크린)이 됐다. 전세계가 클라우드로 묶여 있었기 때문이다. MS의 클라우드 서비스인 ‘애저’를 사용하는 글로벌 항공사, 은행, 병원, 방송사들이 피해를 입었다. 이로 인해 일각에서는 클라우드 신중론까지 제기되고 있다.
|
클라우드란 외부의 저장 공간에 데이터와 시스템을 구축해 두고 필요할 때 인터넷 등을 통해 접속해 사용하는 개념이다. 그러나 오류가 발생하면 피해 규모가 회사 내부에 전산 시스템을 구축했을 때보다 훨씬 크다. 이번에도 소프트웨어 업데이트 파일 하나가 문제가 됐다. 크라우드스트라이크의 보안 소프트웨어는 클라우드 위에서 실행되는데, 공격 징후를 감지하기 위해 기기 내부의 여러 곳에 접근하게 된다. 이 과정에서 컴퓨터에 설치된 운영체제(윈도)와 충돌을 일으킨 것이다. MS가 자사의 클라우드 위에서 서비스되는 소프트웨어에 대해 충분히 업데이트 테스트를 하지 않은 실수가 전 세계 IT 재앙으로 이어진 셈이다.
유사한 사례는 2018년 11월 22일 발생한 아마존웹서비스(AWS) 한국 리전(데이터센터 허브) 먹통 사태다. 당시 삼성전자 빅스비, 나이키, 쿠팡, 업비트, 넥슨, 푹(현 웨이브), 배달의민족, 야놀자, 여기어때, 마켓컬리 등 국내 기업들이 큰 피해를 입었지만, 공식적인 사고 원인은 밝혀지지 않았다. AWS 서버는 KT 마포데이터센터에 있었지만, 운영은 미국 본사나 호주에서 이뤄졌다. 당시 KT 클라우드사업부 관계자는 “국내에도 (외국계 클라우드의) 서버가 있지만 운영은 미국 본사나 호주에서 이뤄지기 때문에 현지 법인은 100% 세일즈 역할만 한다. 금융사고 발생 시 국내 법인이 관여하기 어렵다”고 밝혀, 사고 대응에 어려움을 겪었다고 말했다.
전문가들은 전 세계 IT 인프라에서 중요한 역할을 하는 클라우드 사고를 사전에 완전히 차단하기는 어렵다고 지적한다. 김승주 고려대 정보보호대학원 교수는 “클라우드 회사가 대규모 보안 인력을 보유하고 있어 개별 기업보다 안전하다고 여겨지지만, 실제로는 문제가 발생할 수 있다. 대규모 클라우드 시스템에서는 보안 패치나 롤백(원상복구)도 신속하게 이루어지지 않을 수 있다”고 경고했다.
이번 사태에서 피해를 입은 윈도 기기들은 수동으로 파일을 삭제해야 하는 상황이라, 전 세계 피해 시스템이 모두 복구되기까지 시간이 걸릴 것으로 예상된다. 사이버 보안 업체 위드시큐어의 최고연구책임자(CRO) 미코 히포넨은 “수천만 대의 컴퓨터를 일일이 수동으로 복구해야 할 것 같다”며, “CEO의 노트북이나 컴퓨터와 같은 핵심 기기들은 이미 복구됐겠지만, 평직원의 기기들은 수리 인력이 도착할 때까지 시간이 꽤 걸릴 것”이라고 내다봤다.
|
클라우드 이중화, SLA 고도화할 밖에
그러나 클라우드를 외면하고 디지털 전환의 이익을 챙기기는 어렵다는 의견이 많다. 클라우드 기술을 사용하면 AWS, MS, 구글과 같은 딥테크 기업의 전산 운영 경험과 신기술 접목 유연성을 그대로 흡수할 수 있기 때문이다. 이러한 이유로 글로벌 유수 기업과 미국 국방부와 같은 보안이 중요한 기관도 2022년 JWCC(Joint Warfighting Cloud Capability) 프로그램을 통해 구글, 오라클, 아마존웹서비스(AWS), 마이크로소프트(MS) 등 4개 사업자와 12조원이 넘는 계약을 체결했다. 우리나라에서도 지난해 10월 디지털플랫폼정부위원회는 정부 및 공공 전산 시스템에 클라우드 네이티브를 우선 적용하라는 발표를 했다. 같은 이유로 가트너에 따르면, 글로벌 클라우드 시장은 올해 작년보다 20% 성장하여 6787억 달러(약 900조 원)에 이를 것으로 전망된다.
클라우드 전환이 대세인 가운데, 사고를 최소화하고 피해를 줄이는 방법은 무엇일까. 전문가들은 법적인 해결책보다는 ‘서비스 수준 협약(SLA, Service-Level Agreement)’의 고도화가 필요하다고 강조한다. 방송통신발전기본법을 개정하여 클라우드 기업들에게 재난 관리 의무를 부여하더라도, AWS나 MS와 같은 외국계 기업을 사고 이전에 사전 점검하기는 어려운 현실에서 국내 기업만 규제의 대상이 될 수 있기 때문이다.
김승주 교수는 “SLA에는 장애 정의, 중단 시 보상 조건 등이 포함돼야 하며, 정부는 이를 통해 클라우드 서비스 제공업체들의 책임을 강화해야 한다”고 설명했다. 공공 시스템에 클라우드를 도입할 때 SLA를 통해 보상 조건을 명확히 하는 것이 현실적인 대안이라는 의미다.