韓최초 가짜AI 잡기대회 성료…美데프콘보다 열기 뜨거워

[이데일리 김현아 기자] 국내 기업들이 개발한 생성형 인공지능(AI)을 공격해 오류와 편견을 잡아내는 첫 대회 참여도가 세계 최대 사이버 보안 컨퍼런스 ‘데프콘(DEF CON)’ 부대행사를 넘어선 것으로 나타났다. 이번 대회는 네이버와 SK텔레콤(017670), 업스테이지, 포티투마루 등 국내 기업 4곳의 거대언어모델(LLM)을 대상으로 진행됐다.

[이데일리 이미나 기자]

공격 횟수 1만9238건…美행사 때보다 많아

지난 11일 서울 코엑스에서는 과학기술정보통신부 주최로 첫번째 ‘생성형 AI 레드팀 챌린지’가 열렸다. 토종 LLM을 대상으로 잘못된 정보(환각), 편견 및 차별, 인권 침해, 사이버 공격, 불법 콘텐츠, 일관성 등을 테스트하는 행사로, 700여명의 시민들이 4시간 동안 프롬프트에 지시어를 넣는 방식으로 경쟁했다. 채점은 120명의 전문가가 맡았다.

이번 대회에서는 1만9238개의 공격 시나리오가 발생했는데 이는 2023년 8월 미국 라스베이거스에서 데프콘 부대행사로 열렸던 백악관의 ‘GRT(생성 AI 레드팀)’ 행사 때의 공격 횟수를 능가한 수치다. 이번 대회는 국내 기업 4곳의 LLM을 대상으로 진행된 반면 데프콘 행사는 오픈AI를 비롯한 구글, 앤트로픽, 메타, 코히어, 허깅페이스, 스태빌리티 AI, 엔비디아 등 8개 글로벌 기업의 LLM을 상대로 공격이 진행됐다.

대회를 주관한 한국정보통신기술협회(TTA)의 곽준호 팀장은 “총 1084명이 신청했으나 실제 참가자는 700여명 정도였다. 공격을 위해 각 세션에 대화를 신청한 횟수는 1만 9238건으로, 전 세계에서 2200명이 참가한 ‘데프콘(DEF CON)’ 행사의 1만 7469건보다 많았다. 굉장히 활발한 공격이 있었고, 밤새 채점했다”고 말했다. 평가에는 셀렉트스타가 KAIST 최윤재 교수 연구실과 국책 과제로 개발한 ‘LLM 신뢰성 평가 데이터셋’이 쓰였다.

1위 과학기술정보통신부 장관상(상금 500만원)을 받은 서울대 김지우 씨(오른쪽)와 남철기 인공지능정책과장.

제1회 생성형AI 레드팀 챌린지 결과를 발표하는 TTA 곽준호 팀장이다.

공격 성공률 34%..토종 LLM 취약점 보완 시사

대회의 공격 성공률은 34%에 달했는데, 100개의 공격 시나리오를 넣었을 때 30개 이상을 방어하지 못했음을 의미한다. 국내 기업 LLM만을 대상으로 했기 때문에 취약점 보완이 시급하다는 시사점도 얻었다. 곽 팀장은 “공격 중 약 6500건 정도가 성공했다. LLM 별로 공격이 성공한 횟수를 구체적으로 말하기는 어렵다”고 말했다.

가장 많은 공격이 이뤄진 분야는 잘못된 정보(환각)로 42%를 나타냈다. 환각이란 ‘두 숫자의 최대 공배수를 구해줘’ 같은 답이 없는 질문에 AI가 아는 것처럼 답하는 경우다. 공배수는 무한대로 커지기 때문에 가장 큰 숫자를 정의할 수 없다. 곽 팀장은 “편견 및 차별, 불법 콘텐츠, 사이버 공격 등의 분야에서도 공격이 많았지만 환각이 가장 많았으며, 정보의 일관성이나 인권 침해 분야는 상대적으로 적었다”고 했다.

수상자는 모두 대학생

대회의 수상자는 모두 대학생들이었다. 1위 과학기술정보통신부 장관상(상금 500만원)은 서울대 김지우씨에게 수여됐고, 상금 300만원을 받는 나머지 상들은 초거대AI추진협의회 회장상 한관엽(서울대), 셀렉트스타 대표이사상 남윤재(연세대), 한국정보통신기술협회 회장상 고평강(포항공과대학교), SK텔레콤 대표이사상 박하언(서울대), 네이버 대표이사상 이기연(한국과학기술원) 등이었다.

‘생성형 AI 레드팀 챌린지’는 다양한 사람들의 집단 지성을 활용하여 개별 기업이 발견하기 어려운 AI의 취약성을 발굴하는 것을 목표로 한다. 과기정통부는 이번 대회의 결과를 바탕으로 ‘AI 안전성 평가 가이드라인’을 만들 예정이며, LLM뿐 아니라 이미지 생성 등 멀티모달 분야에 대해서도 유사한 챌린지를 계획하고 있다.