"본질 놓쳤다" 반성문 쓴 카카오, 5년간 투자 3배 확대(종합)

by김국배 기자
2022.12.07 16:57:58

'반성의 자리' 된 이프 카카오
남궁훈 "이중화, 완성되지 않은 다리 같았다" 고백
향후 5년간 서비스 안정성 투자 3배로
IT엔지니어링 전담 조직 구성…"데이터센터 삼중화로 재난 대비"
4600억 쏟는 안산 데이터센터엔 3중 화재 진화 방식 적용

[이데일리 김국배 기자] 카카오(035720)가 ‘먹통 사태’로 인해 구성된 비상대책위원회를 내세워 서비스 안정성 부족을 인정하는 반성문을 냈다. 남궁훈 카카오 비대위 재발방지대책 공동 소위원장은 7일 자사 연례 콘퍼런스(이프 카카오)에서 “가장 본질(서비스를 안정적으로 제공하는 것)을 놓치고 있었다”는 반성의 말로 행사를 시작했다. “우리의 이중화는 완성되지 않은 다리와 같았다”고 고백한 카카오는 혁신 계획을 발표하며 ‘투자 카드’도 꺼냈다. 서비스 안정성을 높이기 위해 향후 5년간 투자 금액을 지난 5년의 3배 이상으로 늘리겠다고 공언했다.

[이데일리 김일환 기자]


이날 행사에서 카카오는 서비스 장애가 길어진 원인을 자세히 짚었다. 지난 10월 15일 오후 3시 19분 발생한 카카오 서비스의 대규모 장애는 완전히 복구되기까지 127시간 33분이 걸렸다.

카카오가 내부 서비스를 알면서 외부자의 시각으로 이번 사태를 볼 수 있다는 판단 아래 비대위 원인조사 소위원장에 임명한 이확영 그렙 최고경영자(CEO)는 데이터센터 간 이중화 미흡, 운영 관리 도구 이중화 미흡, 장애 대응 인력 자원 부족을 주요 원인으로 꼽았다.

그는 “데이터센터 전체에 문제가 생기더라도 다른 데이터센터에 모든 시스템이 이중화돼 있었다면 빠르게 복구가 됐을텐데 일부 시스템이 판교 데이터센터(SK) 내에만 이중화돼 있어 장애 복구가 늦어졌다”고 지적했다. 예컨대 서비스를 운영하는 많은 시스템에서 사용되는 캐시 서버, 오브젝트 스토리지가 화재가 난 판교 데이터센터에만 설치돼 있어 카카오 로그인, 카카오톡의 사진 전송 기능 등의 복구가 늦어졌다. 화재 여파로 일부 모니터링 시스템 등을 사용할 수 없게 된 것도 운영 관리 도구의 이중화가 미흡했다는 증거다.

사고 초기 콘트롤타워의 부재도 아쉬운 부분으로 지적됐다. 그는 “카카오와 공동체, 개별 조직이 동시다발적으로 장애에 대응했는데 전체적인 조율과 협업을 지원할 전사 조직이 세팅돼 있지 않았다”며 “서비스별로 개발자들이 최선을 다했지만 그것만으론 부족했다”고 했다.





이번 사태로 카카오는 당장 인프라 조직부터 재구성하겠다고 밝혔다. 카카오 내 IT엔지니어링 전문가들로 전담 조직을 만든다. 그 작업의 일환으로 카카오엔터프라이즈에서 근무하던 고우찬 부사장을 영입했다. 재발방지 공동 소위원장을 맡기도 한 고 부사장은 “현재 개발 조직 산하에 있는 IT엔지니어링 조직을 CEO 직속으로 확대 편성하는 안을 검토 중”이라며 “아직 구체적인 규모 산출 단계에 이르지 못했지만, 국내 최고의 IT 엔지니어링 전문가들도 적극 영입할 것”이라고 말했다. 거버넌스를 강화하는 것이다.

서비스 안전성을 위한 재해복구(DR) 아키텍처는 삼중화 플러스 알파의 구조로 개선한다. 구조상 3개의 데이터센터 중 하나가 무력화되는 상황에서도 이중화가 담보되는 것이다. 여기에 주요 서비스는 멀티 클라우드를 활용해 서비스 연속성을 더욱 강화기로 했다. 자체 아키텍처 구조를 개선하는 동시에 외부 클라우드로 안전장치를 추가하는 셈이다. 카카오톡 메시지 전송 기능처럼 모든 것이 무력화되더라도 단기간 내 살려야 할 서비스에 대해선 원격지 DR 데이터센터를 별도로 구축하는 방안도 검토된다.

카카오가 4600억원의 예산을 들여 안산에 구축하고 있는 첫 자체 데이터센터의 안정성 강화 방안도 공유됐다. 이번에 화재가 난 SK 데이터센터와 달리 무정전 전원장치(UPS)실과 배터리실이 방화 격벽으로 분리 시공된다. 배터리실에 화재가 나더라도 나머지 시설 작동에 영향을 주지 않게 설계된 것이다.

3중 진화 방식도 적용됐다. 이번 화재 사고처럼 밀폐된 공간에 소화 가스가 들어가지 못해 진화에 문제가 생기지 않도록 전기 판넬별로 개별 소화장치를 설치했다. 고 부사장은 “규정치 이상의 소화가스 비치는 물론 만약의 상황에 대응하고자 다른 층의 소화 가스를 끌어다 쓸 수 있게 시스템을 구축했다”고 했다.