업스테이지-NIA, 한국어 리더보드 시즌2 개시

by김현아 기자
2024.08.12 09:35:46

새로운 벤치마크로 한국어 LLM 평가 강화

[이데일리 김현아 기자] 국내 최대 개방형 한국어 거대언어모델(LLM) 평가 체계인 ‘Open Ko-LLM 리더보드’가 8월 12일부터 시즌 2로 전면 개편된다.

이번 개편은 업스테이지(대표 김성훈)와 한국지능정보사회진흥원(NIA, 원장 황종성)이 공동으로 운영하며, 새로운 벤치마크를 대거 추가해 평가 지표를 대폭 확장했다.

‘Open Ko-LLM 리더보드’는 2023년 9월 민관 협력을 통해 처음 개설된 이래, 산·학·연 각계에서 1700개 이상의 LLM 모델이 제출될 정도로 많은 관심과 참여를 받아왔다.

그러나 최근 LLM 기술이 급속히 발전함에 따라, 기존 벤치마크의 개선 필요성이 제기되었고, 이에 따라 업스테이지와 NIA는 새로운 평가 기준을 적용한 시즌 2 운영을 시작했다.

시즌 2에서 새롭게 도입된 벤치마크는 총 9개로, ▲Ko-GPQA(대학원 수준 추론) ▲Ko-WinoGrande(상식 추론) ▲Ko-GSM8K(초등 수학) ▲Ko-EQ-Bench(감성) ▲Ko-IFEval(지시 이행) ▲KorNAT-Knowledge(한국어 신뢰성) ▲KorNAT-Social-Value(사회적 가치) ▲Ko-Harmlessness(무해성) ▲Ko-Helpfulness(실용성) 등이 포함된다.

기존에는 언어 능력에 중점을 두었던 평가에서, 이번 개편을 통해 더욱 고도화된 지능, 문제해결 능력, 실용성 등의 평가가 이루어질 예정이다.

새로운 벤치마크는 기존에 제출된 모델뿐만 아니라 향후 제출될 모든 LLM에 적용된다. 또한, AI 데이터 전문 기업 플리토, 셀렉트스타, KAIST AI 대학원이 새롭게 참여해 전문화된 벤치마크 데이터셋을 제공함으로써 평가의 정확성과 전문성을 높일 예정이다.

업스테이지의 김성훈 대표는 “이번 리더보드 개편으로 한국어 LLM 성능 평가의 기준점이 한 단계 더 높아질 것으로 기대한다”며, “업스테이지는 글로벌 표준을 뛰어넘는 국내 AI 생태계 강화에 앞장설 것”이라고 밝혔다.

NIA 황종성 원장은 “리더보드는 민관 협업을 통해 한국어 LLM 생태계 조성에 크게 기여해 왔으며, 시즌 2 개편을 통해 한국어 LLM 기술이 세계적 수준으로 도약할 수 있는 계기가 되기를 기대한다”고 강조했다.

이번 개편으로 한국어 LLM 평가의 새로운 기준이 마련되면서, 국내 AI 기술의 글로벌 경쟁력이 한층 강화될 것으로 기대된다.