X

먹통 사태 왜 그렇게 길어졌나, 카카오가 말한 세 가지 이유

김국배 기자I 2022.12.07 12:44:51

이확영 원인조사 소위원장이 꼽은 문제점
①데이터센터 간 이중화 ②관리도구 이중화 ③장애 대응 인력 자원 부족
사고 초기 컨트롤타워 부재도 지적



[이데일리 김국배 기자] 지난 10월 15일 오후 3시 19분 발생한 카카오 서비스의 대규모 장애는 완전히 복구되기까지 127시간 33분이 걸렸다. 복구가 이렇게 길어진 이유는 뭘까.

카카오 비상대책위원회 원인조사 소위원장을 맡았던 이확영 그렙 최고경영자(CEO)는 7일 온라인으로 열린 카카오 개발자 콘퍼런스(이프 카카오)에서 “카카오의 서비스와 인프라에 대한 경험을 기반으로 현재 상황을 비교적 빠르게 파악할 수 있었다”며 몇 가지 원인을 꼽았다. 그는 카카오 출신으로 카카오톡 개발을 비롯한 여러 서비스 경험을 갖고 있다. 그만큼 카카오 서비스를 잘 알면서 외부자의 시각에서 이번 사태를 볼 수 있다는 판단 아래 원인조사 소위원장으로 선임됐다.

그가 가장 먼저 언급한 원인은 ‘데이터센터 간 이중화’ 문제다. 이 소위원장은 “데이터센터 전체에 문제가 생기더라도 다른 데이터센터에 모든 시스템이 이중화돼 있었다면 빠르게 복구됐을텐데 일부 시스템이 판교 데이터센터(SK) 내에만 이중화돼 있어 장애 복구가 늦어졌다”고 지적했다.

예컨대 서비스를 운영하는 많은 시스템에서 사용되는 캐시 서버, 오브젝트 스토리지가 판교 센터에만 설치돼 있어다. 카카오 로그인, 카카오톡의 사진 전송 기능 등의 복구가 늦어지게 된 배경이다. 또 서로 다른 데이터센터에 이중화된 경우라도 하나의 데이터센터에서 장애가 발생하면 다른 데이터센터로 자동 전환해주는 시스템이 작동돼야 하는데 이조차 판교 데이터센터에만 설치돼 있었다. 그는 “수동으로 전환 작업을 진행했기 때문에 복구가 지연된 것”이라고 했다.

둘째는 서비스의 개발과 관리를 위한 운영 관리 도구의 이중화가 부족했다는 것이다. 그는 “컨테이너 이미지를 저장, 관리하는 시스템이나 일부 모니터링 도구 등을 화재 여파로 사용할 수 업게 돼 복구에 상당한 어려움을 겪었다”고 설명했다.

세 번째로는 한 개 데이터센터 전체 장애에 대응할 인력과 자원이 충분히 않았다는 점이 꼽혔다. 그는 “운영 관리 도구의 복구 인력이 부족해던 것이나 이중화에 필요한 상면 부족은 치명적이었다”며 “평소 이중화나 장애 대응 체계를 갖추고 있었더라도 이번 장애처럼 데이터센터 전체 장애 상황을 가정하면 준비가 부족했다”고 했다. 또 “판교 데이터센터 전체를 대신할만큼 가용 자원이 확보돼 있지 않았기 때문에, 데이터센터의 전원이 들어와 모든 시스템이 정상화되기 전까지 복구를 완료할 수 없었다”고 했다

이 소위원장은 사고 초기 컨트롤타워의 부재도 지적했다. 그는 “카카오와 공동체, 개별 조직이 동시다발적으로 장애에 대응했는데 전체적인 조율과 협업을 지원할 전사 조직이 세팅돼 있지 않았다”며 “서비스별로 개발자들이 최선을 다했지만 그것만으론 부족했다”고 했다. 이어 “카카오와 같은 대규모 서비스의 장애 사례가 흔치 않은 만큼, 공유되는 정보들이 많은 서비스의 재해 복구 대비에 도움이 되기를 바란고”고 했다

주요 뉴스

ⓒ종합 경제정보 미디어 이데일리 - 상업적 무단전재 & 재배포 금지