솔트룩스는 ‘전문분야 심층인터뷰 데이터’와 ‘방송콘텐츠 대화체 음성인식 데이터’ 사업을 주관, △경북대 산학협력단 △소리자바 △비투엔 등과 컨소시엄을 구성해 ‘전문분야 심층인터뷰 2000시간’과 ‘방송콘텐츠 7000시간’의 데이터를 구축했다.
이번 사업에서 솔트룩스는 ‘랭기지 스튜디오’ 솔루션을 통해 의도분류, 대화 요약생성, 오탈자 교정 등 다양한 AI 학습 모델을 구현함으로써 구축 업무의 효율성을 극대화했다. 랭기지 스튜디오는 오픈AI의 ‘챗GPT’ 서비스 구현에도 활용된 ‘GPT’ 등 거대 언어 모델을 활용해 금융, 법률, 공공 각 도메인에 특화된 언어모델을 빠르게 생성할 수 있는 생성 AI 솔루션이다.
또 ‘전문분야 심층인터뷰 데이터’ 사업의 전문 용어 추출을 위해 자연과학, 환경, 역사·고고학 등 15개 카테고리와 관련된 영상·음성 데이터를 3000시간 이상 수집했을 뿐 아니라, 전문가들과의 심층 인터뷰를 통해 700시간 이상 음성 데이터를 직접 녹음했다. 해당 사업은 성과에 대한 전문성을 인정받아 최종 평가에서 ‘우수’ 등급을 받았다.
이번에 구축된 데이터는 NIA의 AI 허브(Hub) 사이트를 통해 공개될 예정이며 음성인식 기반 콜센터, 여론 및 감정분석 서비스, 음성인식 기반 가상비서 서비스, 방송콘텐츠 자막 및 요약 서비스, AI 비대면 면접 시스템 고도화, 전문용어 자동스크립트 서비스 고도화 등에 활용될 전망이다.
솔트룩스 관계자는 “’챗GPT’ 등 대화형 인공지능 열풍이 전 산업군으로 확산되면서 고품질의 인공지능 학습용 데이터를 확보하는 것이 갈수록 중요해지고 있다”며 “국내 인공지능 업계 선도 기업으로써 인공지능 산업의 생태계 조성과 경쟁력 향상을 위해 앞으로도 노력할 것”이라고 말했다.
솔트룩스는 2020년 디지털 뉴딜 우수사례로 선정된 ‘한국어 방언 AI 데이터 구축사업’ 등 국내 최대 규모의 AI 학습 데이터 구축 경험을 보유하고 있으며, 크라우드 소싱 플랫폼 ‘크로믹시(CroMixi)’ 등 자체 개발 도구와 우수한 품질 검수 체계를 기반으로 고객들에게 높은 수준의 AI 학습데이터 및 모델링 서비스를 제공하고 있다.