초거대 AI 키우자…'인형 눈 붙이기'식 데이터 탈피

by김국배 기자
2023.04.16 17:36:54

과기정통부 '초거대 AI 경쟁력 강화 방안' 일환
'라벨링 데이터' 구축 물량 축소
초거대 AI 사전 학습용 '비라벨링 데이터' 확대
올해 한국어 21종 등 34종 구축
법률 등 '초거대 AI 5대 플래그십 프로젝트' 추진

[이데일리 김국배 기자] 정부가 ‘디지털판 인형 눈 붙이기’라 불렸던 ‘라벨링 데이터’ 구축을 줄이고, ‘챗GPT’ 같은 초거대 AI를 지원하기 위한 ‘비라벨링(텍스트) 데이터’ 구축을 늘린다. 그간 정부가 AI 학습용 데이터를 라벨링 데이터 중심으로 구축해 초거대 AI에 필요한 비라벨링 데이터는 매우 부족한 실정이다.

16일 과학기술정보통신부가 내놓은 ‘초거대AI 경쟁력 확대 방안’을 보면, 분야별로 특화된 비라벨링 데이터를 보강하는 내용이 포함됐다. 과기정통부에 따르면 현재(작년 12월 기준)까지 구축된 AI 학습용 데이터는 691종이다.

[이데일리 이미나 기자]

기존 AI 학습 데이터 구축 사업은 라벨링 데이터 위주였다. 데이터 라벨링은 여러 과일이 뒤섞인 사진 속에서 과일을 분류해 사과, 오렌지 등의 이름을 붙여주는 것이다. 이를 통해 AI가 과일을 보면 어떤 과일인지 구별할 수 있게 훈련할 수 있다. 이른바 정답을 미리 알려주고, AI를 학습하는 ‘지도 학습’이다.

하지만 데이터 라벨링 작업은 사람이 일일이 하다 보니 비용이 많이 들고 시간이 오래 걸린다. 예컨대 사진을 보고 암 유무를 판단하려면 의사를 써야 하니 인건비가 올라가는 식이다. 과기정통부가 라벨링 데이터 구축을 지원해온 배경이다. 그런데 초거대 AI가 등장하면서 라벨링을 하지 않은 비라벨링 데이터의 효용가치가 높아졌다. 모델 크기가 작을 땐 별다른 효과를 내지 못했던 비라벨링 데이터가 ‘자기 지도학습(비지도학습)’이나 ‘강화학습’을 하는 초거대 AI에선 효력을 발휘한 것이다.

최우석 과기정통부 인공지능확산팀장은 “그간 비라벨링 데이터 구축은 기업에 맡기고 돈이 많이 드는 라벨링 데이터 구축을 지원해왔으나, (초거대 AI로) 비라벨링 데이터가 많이 필요한 상황이 됐다”며 “비라벨링 데이터의 경우 영어 데이터셋에 비해 양질의 한국어 데이터도 거의 없는 상태”라고 설명했다.

이에 따라 과기정통부는 분야별로 특화된 비라벨링 데이터 200종을 구축하기로 했다. 책 15만권에 달하는 분량이다. 한국어 중심으로 데이터를 확보하되, 동남아·중동 등 비영어권 데이터도 단계적으로 확대한다. 올해는 476억원의 예산을 들여 한국어 21종 등 34종의 비라벨링 데이터가 구축된다. 이미지 데이터는 현재대로 라벨링 데이터를 구축하되, 초거대 AI가 사전 학습용 이미지 설명 텍스트를 추가하도록 과제별로 개편한다.

법률, 의료, 심리 상담, 문화·예술, 학술·연구 등 민간 전문 영역에 초거대 AI를 접목해 전문가 업무를 보조하는 ‘초거대 AI 5대 플래그십 프로젝트’도 추진된다. 예를 들어 법률·세무 분야의 경우 초거대 AI가 소장, 변호 제안서, 유사사건 판례 제시 등을 도와 생산성을 높일 수 있다. 이달부터 세부 과제를 기획해 예산 반영을 추진한다.

또 국산 AI 반도체 기반의 고성능·저전력 K-클라우드를 초거대 AI가 활용할 수 있도록 핵심 하드웨어, 소프트웨어도 개발한다. 과기정통부 측은 “국산 AI 반도체 기반의 서버 수백 개를 연결, 클라우드 컴퓨팅을 지원하는 HW·SW 개발·실증 사업 예비타당성 조사를 올해 신청할 것”이라고 했다.

중소 서비스형 소프트웨어(SaaS)이 AI 서비스를 개발할 수 있도록 초거대 AI 모델, 컴퓨팅 자원 등을 지원하는 사업도 진행된다. 올해 20억원을 투입해 4개 과제(과제당 5억원)를 시범 지원한 뒤 내년부터 확대를 추진한다. 초거대 AI 기반 SaaS를 개발한 기업에 대해선 글로벌 SaaS 마켓플레이스 진입 등도 지원한다.

과기정통부는 민간 차원의 투자, 신(新) 서비스 창출 등 디지털 기업의 협력 강화를 위한 ‘초거대 AI 협의회’도 운영할 계획이다. 초거대 AI 기업, 클라우드 기업, 중소 AI 개발사 등이 참여한다.