“작업 중 실수, 매뉴얼 개선하라” 카카오에 연속장애 시정요구

김현아 기자I 2024.05.31 14:11:55

과기정통부 31일 시정명령
통신재난관리위 개최
전산작업전 사전테스트, 이용자 고지 개선 등 요구
1개월내 계획 마련, 3개월내 시정결과 제출하라

[이데일리 김현아 기자] 과학기술정보통신부(장관 이종호)가 최근 3차례 연이어 서비스 장애가 발생한 카카오에 시정을 요구했다.

작업 중 매뉴얼을 지키지 않은 실수였던 만큼, 사전테스트 실시와 작업관리 통제, 매뉴얼 구체화 등을 요구하면서 3개월내에 시정토록했다.

31일 과학기술정보통신부에 따르면 카카오톡 장애의 원인은 인재였다.

카카오톡은 ▲5.13(월) 13:44~13:50(6분)▲5.20(월) 14:52~14:58(6분)▲5.21(화) 8:30~9:24(54분) 등 1주일 새 총 66분의 장애가 발생한 바 있다.

카카오톡. 사진=연합뉴스


①첫 번째 장애, 데이터센터 파일 업데이트 중 오류

첫 번째 장애는 당시 카카오톡 이용자의 약 80%가 카카오톡 메시지 발신 지연과 실패로 불편을 겪었을 것으로 추정된다.

원인은 카카오톡 서비스가 운영되고 있는 데이터센터 서버의 파일을 업데이트하는 작업 중 기존 파일을 삭제하는 과정에서 오류가 발생한 탓이다.

카카오는 5월 13일 장애 발생(13:44) 직후 서비스 이중화와 여유 서버를 가동(13:47)하여 6분 만에 서비스를 복구(13:50)했다.

과기부 점검결과, 카카오는 실제 작업을 진행하기 전에 사전테스트를 실시하지 않아 발생 가능한 오류에 대비하지 못한 것으로 드러났다.

②두 번째 장애, 네트워크 부하 분산 작업중 오류

두 번째 장애는 당시 카카오톡 이용자의 약 80%가 메시지 수발신 실패로 불편을 겪었을 것으로 추정된다.

네트워크 부하 분산을 위한 내부 시스템 기능개선 작업 중 발생한 오류가 원인이다.

카카오는 5월 20일 장애 발생(14:52) 직후 이전 장애와 동일하게 서비스 이중화를 가동(14:53)하여 6분 만에 서비스를 정상화(14:58)했다.

점검결과, 카카오는 실제 작업을 진행하기 전에 사전테스트는 실시했다. 그러나, 개발결과물의 테스트 환경이 실제 카카오톡 운영환경과 차이가 커 미리 장애 가능성을 식별하지 못한 것으로 확인됐다.

③세 번째 장애, 장애 미해결 상태에서 업데이트

가장 길었던 5월 21일 장애는 당시 카카오톡 이용자의 약 8%에 영향을 미쳤을 것으로 추정된다. PC용 카카오톡 로그인 실패 및 모바일용 카카오톡 메시지 수발신 지연이 있었다.

특히, 서비스 이용률이 높은 아침 출근시간에 54분간 장애가 발생하여 이용자들의 불편이 컸다.

이번 장애는 두 번째 장애를 일으킨 서버의 오류를 미해결한 상태에서 동일 데이터센터에 있는 다른 서버에 자바(Java) 프로그램 업데이트를 진행한 게 원인이었다.

카카오는 장애 탐지(08:30) 즉시 자동화 도구 등을 이용해 복구를 시도하는 것과 동시에 장애 원인 분석 및 조치방안을 검토(08:30~09:04)한 후 서비스 이중화를 가동(09:04)하고 추가적인 수동 복구 작업을 거쳐 서비스를 정상화(09:24)했다.

점검결과, 카카오는 내부적으로 작업 통제를 하지 않아 전날 장애가 발생한 서버의 오류를 미해결한 상황에서 통제없이 새로운 작업을 진행하여 오류가 발생했다.

카카오, 통신재난관리 미흡..시정요구

과학기술정보통신부(이하 과기정통부)는 카카오의 통신재난관리 미흡에 대해 시정 조치를 요구했다.

과기정통부는 카카오가 1개월 이내로 개선 계획을 마련하고, 3개월 이내에 시정 결과를 제출할 것을 명령했다.

이번 조치는 ▲주요 작업 전 사전테스트 체계 강화▲작업관리 통제 강화 ▲통신재난 관련 매뉴얼 및 지침 보완 ▲모니터링 시스템 고도화 ▲이용자 고지 개선 등 다양한 부분을 포함하고 있다.

우선, 과기정통부는 SW 업데이트, 시스템 교체, 신규 서비스 출시 등 주요 작업 전에 발생할 수 있는 오류를 사전에 검증하기 위해 구체적인 내부 지침을 보완할 것을 요구했다.

사전테스트 대상 작업과 수행해야 할 테스트 범위(단계)를 명확히 하고, 사전테스트 환경을 실제 운영 환경과 유사하게 구성하는 고도화 계획을 마련해 3개월 이내에 제출하고 추진할 것을 명시했다.

작업관리 통제 강화와 관련해서는 주요 작업에 대한 승인과 통제가 가능하도록 작업의 성격과 규모를 고려한 작업관리 프로세스를 정립하여 체계화할 것을 요청했다. 또한, 카카오가 2024년 통신재난관리계획에 반영한 작업관리시스템 도입을 차질 없이 추진하도록 지시했다.

재난과 장애 발생 시 신속한 대응과 의사결정을 위해 장애 유형별·부서별 역할을 반영한 매뉴얼을 보완할 것도 요구했다.

이는 전사 전파, 복구 물자·인력 투입, 이용자 고지 등의 절차를 포함하며, 기술적 오류 방지 조치와 트래픽 집중·증가 대비 조치를 위한 ‘서비스 안정성 자체 지침’을 구체적으로 보완할 것을 강조했다.

모니터링 시스템의 고도화를 통한 장애 탐지 강화를 위해 현재 서버, 네트워크, 서비스 등 개별 운영 중인 모니터링 체계를 보완하고, 재난총괄부서가 재난·장애 시 개발 부서와 협업하여 전파하고 총괄 대응할 수 있도록 통합 모니터링 시스템 구축 계획을 3개월 이내에 수립해 제출하고 추진할 것을 지시했다.

유사한 장애가 재발하지 않도록 카카오의 ‘장애 회고 프로세스’를 표준화·공식화하고, 이번 장애의 복구 및 재발 방지 방안을 포함한 전사 차원의 중·장기적 장애 재발 방지 대책을 마련해 체계적으로 관리할 필요성도 언급됐다.

마지막으로, 이용자 고지 개선을 요청했다. 장애 탐지 및 기업 내 전파 후 이용자 고지 담당 부서에서 즉시 대응 조치할 수 있도록 장애 고지 기준과 시점에 대한 지침을 마련하고, 이용자가 보다 빠르고 쉽게 장애 사실과 복구 여부를 인지할 수 있도록 카카오 고객센터 홈페이지 외에도 SNS 등 다양한 채널을 활용해 고지 채널 및 방법을 개선할 것을 요구했다.

이번 과기정통부의 조치는 카카오가 통신재난에 더욱 철저히 대비하고, 이용자에게 신속하고 정확한 정보를 제공할 수 있도록 하는 데 목적이 있다.

과기정통부는 카카오가 이번 요구 사항을 충실히 이행함으로써 유사한 장애가 재발하지 않기를 기대하고 있다.

재난대응총괄 책임자와 별도 면담

과기정통부는 5월 31일 카카오의 재난대응 총괄 책임자와 별도 면담을 통해 통신재난관리심의위원회의 심의·의결 결과에 따른 시정 요구사항을 전달하고, 카카오가 서비스를 안정적으로 제공하기 위한 책임 있는 대책을 마련하도록 엄정 촉구했다.

이종호 과기정통부 장관은 “디지털서비스 장애는 국민 일상의 불편을 넘어 사회·경제 전반에 지대한 영향을 끼치는 만큼 재발방지를 위해 사업자의 관리체계를 면밀히 점검하겠다”면서 “카카오도 국민들의 관심으로 성장한 기업인 만큼, 재난·장애 관리를 위한 조직문화 개선과 함께 이용자에게 편리하고 안정적인 서비스를 제공하도록 책임을 다할 필요가 있다”고 밝혔다.

주요 뉴스

ⓒ종합 경제정보 미디어 이데일리 - 상업적 무단전재 & 재배포 금지