AI 환각 문제 풀 '신뢰 학습' 창시자 노스컷, ECF 연사로

[이데일리 임유경 기자] 환각 현상(hallucination)은 생성형 AI의 최대 맹점으로 꼽힌다. 챗GPT가 등장한 지 1년이 지나면서 모델 성능이 크게 개선되고 서비스 생태계도 확장됐지만, AI가 그럴싸한 거짓말을 늘어놓는 환각 현상은 여전히 문제로 남아 있다.

오픈AI가 세상을 뒤바꾼 지난해 11월 챗GPT를 선보이기 전, 비윤리적인 대화를 피하려고 사람의 힘을 빌린 것도 같은 맥락이다. 소위‘휴먼피드백강화학습(RLHF)’이란 건데, 챗GPT가 내놓은 답을 사람이 90점, 80점 등 결과값을 낸 뒤 이를 강화학습시켜 최적의 안을 만든 뒤 다시 원래 학습 모델에 재학습시키는 방식이다. 오픈 AI 스스로도 ‘AI안전과 보안을 포함한 영역에서 초기 피드백을 위해 50명 이상의 전문가들과 일했다(we also worked over 50 experts for early feedback in domains including ai safety and security)’고 밝히고 있다. 오픈AI의 정직원은 375명에 불과하다.

인간의 언어를 이해하고 요청에 맞춰 새로운 콘텐츠를 뚝딱 만들어 내는 생성형AI에 열광하면서도, 정확한 정보가 요구되는 산업현장에서 별도의 파인튜닝(Fine-tuning·미세조정)없인 쓰기 어려울 것이란 회의론이 존재하는 이유도 이런 환각 현상 때문이다.

커티스 노스컷 클린랩 CEO

오는 21일 서울 여의도 FKI타워에서 열리는 제10회 ‘이데일리 IT컨퍼전스 포럼(ECF)’에 참여하기 위해 한국을 찾는 커티스 G. 노스컷 클린랩 최고경영자(CEO)는 생성형AI의 환각 문제를 획기적으로 개선할 새로운 AI 학습 방법을 개발해 세계적으로 주목받는 인물이다.

그는 2013년 MIT 컴퓨터공학 박사 과정을 시작하면서부터 ‘신뢰 학습(Confident Learning)’이라는 새로운 AI 학습 이론을 떠올렸다. 아이디어는 ‘AI 모델의 정확도가 데이터 품질에 비례한다’는 간단한 원칙에서 시작한다. 잘못된 참고서를 보고 공부한 아이는 시험에서 정답을 맞힐 수 없는 것과 같은 이치다.

AI에 신뢰도가 높은 답을 학습시키면 모델의 정확도가 향상될 것이란 게 ‘신뢰 학습’의 기본 개념이다. 그는 데이터에 붙은 레이블의 신뢰도를 평가하고 점수화해, 잘못된 데이터는 수정하거나 제외해 학습 데이터의 품질을 높이는 새로운 방법을 고안해 냈다. 레이블은 AI 모델이 학습할 수 있도록 원본 데이터에 추가된 참고 정보다. 예컨대 한 이미지가 있다면 그 안에 새나 자동차가 있는 지 여부가 레이블에 적혀 있다.

2021년 한국시리즈 우승팀이 기아타이거즈라고 거짓답변을 하는 챗GPT. 당장 챗GPT에 역대 한국시리즈 우승팀을 물어보니, 학습 데이터가 없는 2022년 이후의 정보는 알지 못한다면서도, 2021년엔 기아타이거즈라고 자신 있게 거짓 답변을 내놨다. 실제 2021년 우승팀은 KT위즈다.

이 이론과 알고리즘을 무료 오픈소스 패키지로 공개한 게 ‘클린랩’이다. 클린랩은 지난 2017년 처음 오픈소스 프로젝트로 공개돼 지금까지 약 1만 명 이상의 이용자를 확보했다. 그는 박사과정 인턴십을 통해 구글, 오큘러스, 아마존, 마이크로소프트, 메타(페이스북)에서 연구원으로 일하면서 데이터 라벨 오류, 이상값, 중복 등의 문제로 거대언어모델(LLM) 및 AI 솔루션 성능이 얼마나 크게 저하될 수 있는지 체감했다고 한다.

이때의 경험이 창업을 결심하게 된 계기가 돼, 2021년 MIT 동창생 2명과 함께 AI 스타트업 클린랩을 설립했다.

클린랩은 오픈소스뿐 아니라 클라우드 기반 유료 솔루션인 ‘클린랩 스튜디오’도 제공하고 있는데, 클린랩 스튜디오는 포춘 500대 기업 중 10% 이상이 사용하고 있을 정도로 빠르게 확산했다.

이런 이유에서 시장조사업체 CB인사이트는 올해 클린랩을 ‘생성형AI 분야 가장 혁신적인 기업 50’에 포함하기도 했다.설립 2년 만에 글로벌 AI 분야 신성으로 부상한 것이다. 지난달엔 2500만 달러 규모의 시리즈A 투자를 유치하면서 기업가치를 1조 달러로 인정받았다.

노스컷 CEO는 이데일리가 주최하는 제10회 IT컨버전스포럼(Edaily IT Convergence Forum: preparing for 2024·ECF)에서 신뢰할 수 있는 AI를 구현하는 방법과 AI에 기반한 의사결정 체계를 구축한 글로벌 기업의 사례, 내년 AI 산업 전망 등 다양한 인사이트를 공유한다.

그는 또 한국데이터법정책학회장인 이성엽 고려대 교수의 사회로 진행되는 ‘생성형 AI시대, 우리는 무엇을 준비해야 하는가’ 좌담회에 패널로 참여해 △배경훈 LG AI 연구원장 △김세엽 셀렉트스타 대표 △유병준 서울대 교수△엄열 과학기술정보통신부 인공지능기반정책관과 머리를 맞댈 예정이다.