"학습 데이터 품질이 생성형AI 성능 좌우…패러다임 바뀐다"[ECF 23]

[이데일리 임유경 기자] “오류가 말끔히 제거된 ‘클린 데이터’를 가지고 생성형 인공지능(AI)을 학습시키면, 결과물의 신뢰도가 극적으로 높아진다는 사실을 구글, 테슬라, 마이크로소프트(MS) 같은 대부분 빅테크도 인식하고 있습니다. 지금까진 모델 자체를 개선하거나 훈련 데이터의 양을 늘리는 방식으로 정확도를 높이려고 했다면, 이제는 데이터 품질에 주목하고 있는 것입니다.”

커티스 G. 노스컷 클린랩 최고경영자(CEO)는 21일 서울 여의도 FKI타워 컨퍼런스센터에서 열린 ‘제10회 이데일리 IT컨버전스 포럼’ 기조연설을 통해 “생성형 AI 개발의 패러다임 변화가 시작됐다”며, 이같이 말했다.

커티스 G.노스컷 클린랩 공동설립자 겸 CEO가 21일 서울 여의도 FKI타워 컨퍼런스센터 그랜드볼룸에서 열린 ‘제10회 이데일리 IT 컨버전스 포럼’에서 기조연설을 하고 있다.(사진=이영훈 기자)

대부분 빅테크 데이터 품질 문제 경험

노스컷 CEO는 생성형AI의 환각 문제를 획기적으로 개선할 새로운 AI 학습 방법을 개발해 세계적으로 주목받는 인물이다. 그는 2013년 MIT 컴퓨터공학 박사 과정을 시작하면서, 양자컴퓨팅의 아버지로 불리는 아이작 추앙 교수 지도 아래 ‘신뢰 학습(Confident Learning)’이라는 새로운 AI 학습 이론과 알고리즘을 만들었다. 그는 신뢰 학습은 “레이블 오류 등 노이즈가 있는 데이터를 확률적으로 추정하고 이를 점수화해, 정확한 레이블로 수정할 수 있는 기술”이라며 “데이터품질을 자동으로 높이는 데 초점을 맞춘 대안적인 AI 학습 방법”이라고 소개했다.

이미 많은 빅테크 기업이 이 같은 데이터를 중심으로 AI 성능을 개선하는 방법론에 관심을 쏟고 있다고 그는 소개했다. 그는 “구글 딥마인드의 핵심 개발자도 공개적으로 데이터의 품질이 가장 중요한 문제라고 얘기하고 있고, 오픈AI도 앞으로 AI 챗봇 서비스인 챗GPT나 이미 생성 서비스 달리(DALL-E) 성능 개선은 데이터에 달렸다는 입장을 밝히고 있다”고 했다. 실제 회사의 데이터 큐레이션 솔루션인 클린랩 스튜디오 고객사 목록에는 MS, 테슬라, 틱톡, 허깅페이스, 로빈후드 등 글로벌 주요 IT 기업이 다수를 차지하고 있다. 그는 “대부분의 빅테크 기업들이 데이터 품질 문제를 겪고 있다”며 “신뢰 가능한 AI를 활용하기 위해 데이터 문제를 해결해야 한다는 점을 깨닫고 있는 것”이라고 강조했다.

챗GPT의 기반이 된 오픈AI의 거대언어모델(LLM)을 대상으로 테스트한 결과 실제 성능 개선 효과를 검증했다. 그는 “클린랩 스튜디오를 거쳤더니 오픈AI LLM의 답변 정확도가 37% 가까이 개선됐다”며 “학습 데이터 품질을 높이면서 챗GPT 같은 서비스를 만들었을 때 얼마나 큰 파급효과가 있을지 확인할 수 있는 실험”이라고 힘줘 말했다. 이런 정확도 개선이 모델의 구조나 매개변수(파라미터)를 바꾸지 않고 데이터 최적화만으로 얻은 것이라는 점에서 그는 “AI 개발의 새로운 패러다임 변화”라고도 평가했다.

커티스 G.노스컷 클린랩 공동설립자 겸 CEO가 21일 서울 여의도 FKI타워 컨퍼런스센터 그랜드볼룸에서 열린 ‘제10회 이데일리 IT 컨버전스 포럼’에서 기조연설을 하고 있다.(사진=이데일리 이영훈 기자)

데이터 중심AI, 정확도 향상·비용절감 효과 있어

데이터 품질에 초점을 맞춘 AI 개발 방법론은 ‘데이터 중심 AI’라는 새로운 기류를 만들고 있다. 그는 데이터 중심 AI의 장점으로 정확도 향상과 비용 절감을 꼽았다.

그는 기존 파인 튜닝을 통해 정확도를 높일 수 있는데도 한계가 있다는 점을 짚었다. 파인 튜닝은 사전학습 모델에 도메인 특화 데이터를 추가 학습시켜 답변 정확도를 높이는 방법이다. 그는 “데이터가 정확하게 들어가야 하는데, 레이블이 잘못 붙은 데이터가 들어가면 결과물도 오류가 있을 수 밖에 없다”고 지적했다. 그러면서 달리가 엉뚱한 이미지를 생성하는 이유도 처음부터 학습 이미지에 레이블링이 잘못돼 있기 때문이라고 지적했다. “호랑이 이미지에 사람 눈이라는 레이블이 붙어 있다면 이상한 이미지가 나올 수밖에 없다”며 “선생님이 알려주는 정보 절반이 잘못된 거면 내가 사회 나와서 실수하는 것과 같다”고 했다

비용측면에서도 이점이 크다고 했다. 그는 챗GPT 학습 방법으로 유명해진 ‘인간 피드백을 통한 강화 학습(RLHF)과 비교했다. 챗GPT가 내놓은 답을 사람이 90점, 80점 등 결괏값을 낸 뒤 이를 강화학습시켜 최적의 안을 만든 뒤 다시 원래 학습 모델에 재학습시키는 방식이다.

그런데 이런 방식은 비용이 너무 많이 든다는 게 큰 단점이다. 그는 “휴먼 피드백의 규모를 키우려면 비용이 너무 많이 든다. 데이터 품질을 높이기 위한 방법 중 가장 고비용구조”라고 짚었다. 또 사람의 손이 닿아야 하니 데이터 수에 한계가 생기고, 그것이 정확도 하락으로 이어질 수 있다고도 했다. 그는 “몇 개 사례만 가지고 트레이닝을 시키는데 그 중 오류가 있으면 결괏값이 끔찍하게 엉망이 될 수 있다”고 지적했다.

그는 향후 오픈AI가 챗GPT 향상을 위해서 데이터 품질에 초점을 맞출 필요가 있다고 제언했다. 노스컷 CEO는 “GPT가 신뢰할 수 있는 결과를 내놓기 위해선, 주입되는 데이터 측면에서 개선이 있어야 한다”며 “성능을 비약적으로 높이는 방법은 새로운 모델을 출시하는 게 아니라 어떤 데이터를 모델에 넣고 있는지라는 점을 인식해야 한다”고 강조했다.

“신뢰할 수 있는 AI 개발에 일조할 것”

그가 2021년 MIT 동창생 2명과 함께 공동 설립한 클린랩은 데이터 큐레이션 분야에서 인정받는 스타트업이다. 데이터 큐레이션은 레이블 수정을 포함해 사용할 데이터를 준비하고 유지하는 일련의 프로세스다.

클린랩을 통해 AI 정확도와 비용을 줄인 사례도 많다. “스페인 BBVA은행은 클린랩을 사용해 데이터 정리에 들어가는 비용과 시간을 98% 절감했고, 정확도는 25% 이상 향상시켰다. 또 웰스파고는 노이즈 데이터가 40%에 이르는 데이터 세트를 가지고 AI 금융 예측 모델의 정확도를 80%까지 끌어 올렸다”고 소개했다.

그는 클린랩의 비전에 대해 “낮은 품질의 데이터를 보유한 기업도 고품질의 AI 모델을 만들 수 있게 하는 것”이라며 “더 많은 개인과 기업이 신뢰가 떨어지는 AI에 기반해 의사결정을 내리지 않도록 돕겠다”고 힘줘 말했다.