LLM 신뢰성, 어떻게 평가할 수 있을까…평가모델 만든 이 회사

김현아 기자I 2024.06.18 15:42:24

셀렉트스타, 하반기 AI 신뢰성 평가 ‘리더보드 챌린지’
연말 종료이후 AI허브에 공개 예정
라이선스 받은 데이터판매로 누적 22억 매출

[이데일리 김현아 IT전문기자] “기업이 신뢰할 수 있는 거대언어모델(LLM)을 도입하려면 서비스에 맞춤화된 평가가 필수적입니다.”

셀렉트스타의 김세엽 대표는 18일 한국인공지능산업협회(회장 장홍성)가 주최한 조찬 강연에서 자사의 ‘LLM 신뢰성 평가 방법론’을 소개했다.

이 회사는 국책과제로 ‘LLM 신뢰성 평가 데이터셋’을 개발해, 이를 통해 무해성(Harmlessness), 정보의 정확성(Honesty), 도움의 정당성(Helpfulness) 등을 평가한다.

셀렉트스타는 이 데이터셋을 지난해 4월 과학기술정보통신부가 주최한 ‘생성형 AI 레드팀 챌린지’에 활용한 뒤, 하반기에는 AI 신뢰성 평가 ‘리더보드 챌린지’를 개최하고, 연말 이후 AI허브에 공개할 예정이다.
데이터 활용 및 공개 계획. 출처=셀렉트스타
김세엽 셀렉트스타 대표. 사진=이데일리 DB


컨설팅→데이터 구축→신뢰성 검증

생성형 AI는 학습된 데이터를 기반으로 특정 질문에 확률적인 답변을 제공하는 기술로, AI 성능이나 안전성에 대한 기준을 마련하고 이를 검증하는 게 쉽지 않다.

이에 셀렉트스타는 평가 설계 컨설팅 → 데이터 구축 → 신뢰성 검증의 순서로 고객사의 AI 신뢰성을 평가한다.

김세엽 대표는 “먼저 고객사의 AI 거버넌스, 서비스 목적, 데이터 현황 등을 분석해 최적의 AI 신뢰성 평가 지표를 정의하고 지표별 평가 기준을 수립하는 컨설팅을 제공한다. 이후 도메인 전문가와 셀렉트스타의 솔루션을 활용해 평가 데이터를 구축하고, 마지막으로 구축된 데이터와 솔루션을 활용해 부적절한 답변을 유도하는 등의 방법으로 AI의 취약성을 평가한다”고 설명했다.

셀렉트스타는 이를 위해 카이스트 최윤재 교수 연구실과 협업하고 있으며, 네이버, SK텔레콤, KT, LG AI 연구원과도 협력하고 있다.

주요 고객 사례로는 △신한은행의 자체 AI 벤치마크 데이터셋 개발 △모모잼의 키즈 대상 캐릭터 페르소나 대화 앱의 LLM 신뢰성 기준 설계 및 검증 △SK텔레콤 에이닷 및 KT 믿음의 신뢰성 평가 데이터 구축 등이 있다.

수능처럼 LLM에 질문하고 채점

김세엽 대표는 “LLM의 신뢰성을 테스트하는 가장 기본적인 방법은 수능 문제를 푸는 것처럼 객관식으로 후보지를 제공해 간접적으로 생성 능력을 평가하는 것과, 논술고사처럼 LLM의 생성물을 사람이 평가하는 방법이 있다”면서 “하지만 사람이 직접 평가하면 비용이 많이 들어 이를 자동화하는 방법을 고민하고 기술을 발전시키고자 한다”고 설명했다.

이어 “불수능 논란처럼 LLM 평가 역시 논란의 여지가 있을 수 있고, 사람이 하는 평가도 효율성을 높여야 하는 과제가 있다. 따라서 두 방법을 적절하게 조합해 사용하는 게 중요하다”고 덧붙였다.

그는 “생성형 AI에 대해 기업이나 개인이 각자 평가 체계를 만드는 것은 국가 차원에서 비효율적일 수 있으므로, 공통 평가 기준이 필요하다. 저희의 평가 모델도 국가적인 차원에서 예시를 제안하려는 목적으로 시작됐다고 봐주시면 된다”고 말했다.

셀렉트스타는 무해성(Harmlessness), 사회적 가치관과의 일치성(Social Value Alignment), 공통 지식과의 일치성(Common Knowledge Alignment) 등의 지표를 개발했다.

김 대표는 “평가기준을 설계한 후 평가 데이터를 만드는 것이 중요하다. 예를 들어 금융 분야에서는 정보의 정확성, 정확성과 정보 보안성, 윤리적인 부분 등이 중요하다. 신뢰성의 정의는 다양하게 해석될 수 있지만, 저희는 품질과 안전을 중심으로 하고 있다”고 강조했다.

출처=셀렉트스타
출처=셀렉트스타


라이선스 받은 데이터 판매로 누적 매출 22억원

셀렉트스타는 기업들에게 라이선스가 확보된 고품질 데이터셋을 판매하는 사업도 진행하고 있다. 지난해 4분기 서비스 시작 이후 22억 원의 누적 매출을 기록했다. 김 대표는 “크롤링(데이터 긁어오기)과 관련하여 데이터 라이선스 이슈가 계속 제기되고 있다”면서 “이에 따라 데이터 라이선스를 보유한 분들로부터 라이선스를 받아 대규모 언어 모델(LLM) 학습용으로 가공하여 판매하는 사업도 진행하고 있다”고 전했다.

주요 뉴스

ⓒ종합 경제정보 미디어 이데일리 - 상업적 무단전재 & 재배포 금지