국가보안기술연구소(소장 최효진)가 산업제어시스템의 보안 위협 탐지 기술에 쓰이는 인공지능(AI) 데이터셋 ‘HAI 22.04’와 성능평가 도구 ‘eTaPR’을 외부에 공개한다. 22.04는 데이터셋을 공개한 시점으로 2022년 4월을 의미한다.
HAI(HIL-based Augmented ICS) 22.04는 HAI 20.07과 HAI 21.03에 이은 3번째 공개 데이터셋이며, 함께 공개되는 성능 평가도구 eTaPR(enhanced Time-series aware Precision and Recall)은 2020년에 공개한 평가도구 TaPR을 개선한 버전이다. 국보연은 2020년에 제어시스템 보안데이터셋 ’HAI 20.03’을 최초 공개한 바 있다.
왜 공개하나?
AI 기반 산업제어시스템 보안 연구를 위해서는 양질의 데이터셋 확보가 필수적이다. 하지만, 활용 가능한 데이터셋이 현저히 부족하고, 일부 공개된 데이터셋은 연구 활용에 한계가 있었다.
국제적으로 가장 많이 활용되고 있는 공개 데이터셋인 싱가폴 iTrust 연구센터의 SWaT은 수작업에 의존한 공격 재현 및 데이터 라벨링으로 정확성과, 신뢰성에 한계가 있다.
그런데 HAI는 자동화된 공격 재현과 라벨링으로 이러한 한계점을 극복해 데이터 신뢰성을 보장하고, 실제와 유사한 사이버 공격이 재현된 데이터셋으로 평가받고 있다.
해당 내용은 관련분야 학회인 CSET 2021(Cyber Security Experimentation and Test) 워크숍에 논문을 제출해 그 우수성을 입증했다.
논문에서는 ‘HAI 22.04’는 ‘HAI 21.03’을 한 단계 더 넘어, 냉각 설비 확장을 통해 현장성을 높이고, 다양한 정상 상황의 확률 재현을 통해 학습데이터를 확보했다. 공격 탐지 난이도를 높여 이상탐지 기술 향상을 위한 새로운 도전이라는 점도 제시했다.
아울러, 국보연은 이번에 제어시스템 보안위협 탐지모델의 성능평가에 적합한 ‘eTaPR’ 도구도 함께 공개한다.
HAI 보안데이터셋은 시간에 따라 순차로 구성된 시계열 데이터로, 기존방법들은 단위 샘플 기반으로 올바른 성능평가가 어려웠다.
국보연은 ‘20년 시계열 데이터의 이상탐지 성능평가에 적합한 평가도구 ‘TaPR’를 최초로 공개하였으며, 이를 개선하여 ‘eTaPR’을 공개하게 됐다.
‘HAI 22.04’과 ‘eTaPR’은「2021년 산업제어시스템 보안위협 탐지 AI 경진대회(HAICon 2021)」에서 먼저 활용되었으며, 경진대회를 통해 데이터셋 품질과 평가도구의 효용성에 대한 공개 검증의 과정을 거쳐 완성됐다.
국보연의 이번 데이터셋과 평가도구 공개는 국내외 관련 산·학·연 연구자들에게 많은 도움이 될 것으로 기대된다.
산업 제어시스템 데이터 부족과 제어시스템 보안위협 탐지 성능평가에 어려움이 있는 연구 현장의 애로사항을 줄이는데 도움이 되기 때문이다.
실제로 산업제어시스템 운영환경으로부터 학습데이터를 확보하기는 어렵다. 또, 공격상황에 대한 검증데이터를 확보할 수 없고, 테스트베드 운영을 위해서도 전문지식과 많은 예산 소요된다는 평가를 받는다.
국보연은 어떤 곳?
국가보안기술연구소는 과학기술정보통신부 산하 정부출연연구기관으로, 2000년에 설립됐다. 한국전자통신연구원 부설연구소다. 국가과학기술연구회 소속 출연연구기관 25개 중 하나다.
국보연은 AI 기반 산업제어시스템 보안연구 활성화와 연구 생태계 조성을 위해 HAI 보안데이터셋을 개선·활용·확산하는 노력을 지속 추진해 나갈 계획이다. AI 기반 보안기술 성능시험에 적합한 정교한 HAI 보안데이터셋 차기 버전을 새롭게 연구·개발 중이다.