과기정통부 "사이버 보안 분야 AI 학습 데이터 8억건 구축"

by김국배 기자
2022.07.21 17:30:02

악성코드, 침해사고 분야 각각 4억건

[이데일리 김국배 기자] 과학기술정보통신부는 사이버 보안 분야에 특화된 인공지능(AI) 학습 데이터셋 8억건을 구축했다고 21일 밝혔다.

그간 국내 보안 기업들은 AI 기술 도입·학습을 위한 양질의 학습용 데이터셋이 없어 어려움을 겪어왔다. 과기정통부와 한국인터넷진흥원(KISA)은 이런 문제를 해결하기 위해 지난해부터 이 분야 학습용 AI 데이터셋 구축 사업을 시작했다.

(자료=과기정통부)

해당 사업은 △악성코드 △침해사고 2개 분야로 나눠 추진됐다. 악성코드 분야 데이터셋은 백신 진단명, 속성 정보(제작 도구, 유포·경유지 등), 사회적 관심(코로나, 랜섬웨어, 비트코인 채굴 등) 등을, 침해사고 분야 데이터셋은 침해 행위, 침해사고 단계, 최신 침해사고 각본 등을 기반으로 구축됐다. 각각 약 4억건에 달한다.

과기정통부는 이 데이터셋이 침해 대응에 실효성이 있는지도 검증했다. 실제로 넥슨코리아의 경우 이를 활용한 AI 기반 악성코드 탐지 모델을 도입해 내부 생성 데이터의 악성 여부 분석율이 2배 증가했다. KT도 이메일 서비스 첨부파일 내 악성코드 탐지 정확도를 기존 95%에서 98%로 높였다.

김정삼 과기정통부 정보보호네트워크정책관은 “고도화되는 사이버 위협에 대응하기 위해 사이버 보안 분야에도 AI 기술 활용 증가가 예상되는 상황”이라며 “이번에 구축된 데이터셋이 민간 부분의 사이버 대응능력을 한 단계 도약시킬 수 있는 마중물이 될 것”이라고 말했다.