이번 개편은 업스테이지(대표 김성훈)와 한국지능정보사회진흥원(NIA, 원장 황종성)이 공동으로 운영하며, 새로운 벤치마크를 대거 추가해 평가 지표를 대폭 확장했다.
그러나 최근 LLM 기술이 급속히 발전함에 따라, 기존 벤치마크의 개선 필요성이 제기되었고, 이에 따라 업스테이지와 NIA는 새로운 평가 기준을 적용한 시즌 2 운영을 시작했다.
시즌 2에서 새롭게 도입된 벤치마크는 총 9개로, ▲Ko-GPQA(대학원 수준 추론) ▲Ko-WinoGrande(상식 추론) ▲Ko-GSM8K(초등 수학) ▲Ko-EQ-Bench(감성) ▲Ko-IFEval(지시 이행) ▲KorNAT-Knowledge(한국어 신뢰성) ▲KorNAT-Social-Value(사회적 가치) ▲Ko-Harmlessness(무해성) ▲Ko-Helpfulness(실용성) 등이 포함된다.
기존에는 언어 능력에 중점을 두었던 평가에서, 이번 개편을 통해 더욱 고도화된 지능, 문제해결 능력, 실용성 등의 평가가 이루어질 예정이다.
새로운 벤치마크는 기존에 제출된 모델뿐만 아니라 향후 제출될 모든 LLM에 적용된다. 또한, AI 데이터 전문 기업 플리토, 셀렉트스타, KAIST AI 대학원이 새롭게 참여해 전문화된 벤치마크 데이터셋을 제공함으로써 평가의 정확성과 전문성을 높일 예정이다.
업스테이지의 김성훈 대표는 “이번 리더보드 개편으로 한국어 LLM 성능 평가의 기준점이 한 단계 더 높아질 것으로 기대한다”며, “업스테이지는 글로벌 표준을 뛰어넘는 국내 AI 생태계 강화에 앞장설 것”이라고 밝혔다.
NIA 황종성 원장은 “리더보드는 민관 협업을 통해 한국어 LLM 생태계 조성에 크게 기여해 왔으며, 시즌 2 개편을 통해 한국어 LLM 기술이 세계적 수준으로 도약할 수 있는 계기가 되기를 기대한다”고 강조했다.
이번 개편으로 한국어 LLM 평가의 새로운 기준이 마련되면서, 국내 AI 기술의 글로벌 경쟁력이 한층 강화될 것으로 기대된다.