AI 챗봇 데이터 훈련 비용 줄인다···데이터 선택 기술 개발

by강민구 기자
2023.11.02 08:46:39

KAIST 연구팀, 이미지 분류 문제에서 22% 정확도 향상

[이데일리 강민구 기자] 최근 다양한 분야에서 인공지능 심층 학습(딥러닝) 기술을 활용한 서비스가 빠르게 늘고 있다. 실제 챗GPT와 같은 거대 언어 모델을 훈련하려면 수백 대의 GPU와 몇 주 이상의 시간이 필요한 것으로 알려진 가운데 훈련데이터 양을 줄여 심층신경망 훈련 비용을 줄일 수 있는 기술이 개발됐다.

이재길 교수.(사진=KAIST)

한국과학기술원(KAIST)은 이재길 전산학부 교수 연구팀이 새로운 데이터 선택 기술을 개발했다고 2일 밝혔다.

대용량의 심층 학습용 훈련 데이터는 사진상 표기 오류인 레이블 오류를 포함한다. 최신 인공지능 방법론인 재레이블링(Re-labeling) 학습법은 훈련 도중 레이블 오류를 스스로 수정하면서 높은 심층신경망 성능을 달성한다. 하지만 레이블 오류 수정에 추가 과정이 필요해 훈련시간이 더 증가했다.

훈련 시간을 줄이려는 방법으로 중복되거나 성능 향상에 도움이 되지 않는 데이터를 없애 훈련 데이터의 크기를 줄이는 ‘핵심 집합 선별’ 방식이 주목받지만 훈련 데이터에 레이블 오류가 없다고 가정한 표준 학습법을 위해 개발했다는 점에서 한계가 있었다.

연구팀이 개발한 기술은 레이블 오류를 스스로 수정하는 최신 재레이블링 학습법을 위해 핵심 집합 선별을 통해 심층 학습 훈련 비용을 최소화한다. 레이블 오류가 포함된 훈련 데이터를 지원하기 때문에 실용성이 높다.

연구팀은 특정 데이터의 레이블 오류 수정 정확도가 해당 데이터의 이웃 데이터의 신뢰도와 높은 상관관계가 있다는 사실도 확인했다.

이웃 데이터의 신뢰도가 높으면 레이블 오류 수정 정확도가 커지는 경향이 있다. 이웃 데이터의 신뢰도는 심층신경망의 충분한 훈련 전에도 측정할 수 있으므로, 각 데이터의 레이블 수정 가능 여부를 예측할 수 있다.

연구팀은 이러한 발견을 기반으로 전체 훈련 데이터의 총합 이웃 신뢰도를 최대화하는 데이터 부분 집합을 골라 레이블 수정 정확도와 일반화 성능을 최대화하는 ‘재레이블링을 위한 핵심 집합 선별’을 제안했다.

조합 최적화 문제의 효율적인 해법을 위해 총합 이웃 신뢰도를 증가시키는 데이터를 차례로 선택하는 ‘탐욕 알고리즘(greedy algorithm)’도 도입했다.

연구팀은 이미지 분류 문제에 대해 다양한 실세계의 훈련 데이터를 사용해 방법론을 검증했다. 그 결과, 레이블 오류가 없다는 가정에 따른 표준 학습법에서는 최대 9%, 재레이블링 학습법에서는 최대 21% 최종 예측 정확도가 기존 방법론에 비해 향상됐다.

이재길 교수는 “이 기술이 ‘파이토치(PyTorch)’나 ‘텐서플로우(TensorFlow)’와 같은 기존 심층 학습 라이브러리에 추가되면 기계 학습, 심층 학습 학계에 파급효과를 낼 수 있다”고 했다.

연구 결과는 국제학술대회 ‘신경정보처리시스템학회(NeurIPS) 2023’에서 올 12월 발표될 예정이다.