국산 AI 파운데이션 모델 학습 데이터, 민관 협력으로 모은다
by김현아 기자
2025.06.23 12:00:00
과기정통부, 데이터 공급기관 7월 21일까지 공개 모집
고품질 AI 학습 생태계 본격 조성
[이데일리 김현아 기자] 과학기술정보통신부(장관 유상임)는 국산 초거대 언어모델(LLM) 개발을 위한 ‘AI 파운데이션 모델 프로젝트’의 성공적 추진을 위해 공공·민간의 고품질 데이터를 보유한 기관을 대상으로 데이터 공급기관을 공개 모집한다고 23일 밝혔다.
모집 기간은 6월 23일부터 7월 21일까지로, 신청 기관은 이메일을 통해 등록 신청서 및 관련 서류를 제출하면 된다. 한국데이터산업진흥원 활용기반팀(☎ 02~3708~5445)으로 문의하면 된다.
이번 프로젝트는 2025년부터 본격화될 정부 주도의 대표 AI 전략 사업으로 향후 공모를 통해 선발될 정예 개발팀에 GPU, 데이터, 인재 등 핵심 인프라를 집중 지원해 독자적인 초거대 AI 모델 개발을 목표로 한다.
공개 모집 대상은 AI 학습에 활용 가능한 유·무료 고품질 데이터를 보유한 기관이나 기업으로, 도서, 학습교재, 문제집 등 다양한 형태의 데이터를 제공할 수 있어야 한다.
단, 타 정부 지원 사업을 통해 구축되었거나 재활용된 데이터는 제외된다.
선정된 데이터 공급기관에는 ▲ 데이터 가공·전처리 비용 ▲ 유료 저작물 제공 시 적정 비용 보전 등 재정적 지원이 제공되며, ▲ 과기정통부의 데이터 관련 사업(예: 데이터 바우처) 참여 시 가점 ▲ AI 기반 서비스 우선 도입 ▲ AI 허브를 통한 유통·거래 지원 등의 다양한 인센티브가 제공된다.
데이터 최종 활용 여부는 8월 중 정예 개발팀이 선발된 이후 수요를 반영한 협약을 통해 확정되며, 협약은 과기정통부 산하 한국지능정보사회진흥원(NIA), 한국데이터산업진흥원(K-Data), 데이터 공급기관, 정예 개발팀 간 체결된다.
과기정통부 김경만 인공지능기반정책관은 “고품질 데이터는 인공지능 성능을 좌우하는 핵심 자산”이라며 “공공과 민간이 함께 만드는 데이터 협력 체계가 세계적 수준의 한국형 LLM 개발을 위한 초석이 될 것”이라고 밝혔다.
이어 “이번 협력을 계기로 국산 AI 생태계를 뒷받침할 데이터 연대가 더욱 확대되기를 기대한다”고 덧붙였다.