[이데일리 김현아 기자]음성 기반 인공지능(AI) 전문 기업 미디어젠(279600)이 한국지능정보사회진흥원(NIA)이 추진하는 ‘2021 인공지능(AI) 학습용 데이터 구축 사업’에서 △화자 인식용 음성 데이터 구축 △아동 음성 데이터 구축 △다화자 음성합성 데이터 구축 3개 사업 주관 기관으로 선정됐다.
미디어젠은 지난해 AI 학습용 데이터 구축 1차, 2차 사업에도 선정돼 성공적으로 과제 수행을 마친 이력이 있다. 지난해 성과를 바탕으로 올해까지 2년 연속 선정돼 AI 데이터 구축을 진행하고 있다.
‘화자 인식용 음성 데이터 구축’ 사업은 미디어젠이 주관하며 메트릭스리서치·비디·인천대학교가 참여한다. 이 사업을 통해 5000시간 분량의 화자 인식용 음성 데이터 및 4500시간 분량의 가창 데이터를 구축한다.
미디어젠의 신규 사업 분야인 음성 AI 엔진과 인공지능 가수(AI Singer)에 모두 활용될 수 있다는 점에서 관심을 끌고 있다.
미디어젠 윤종성 수석 연구원은 “미디어젠은 앞으로 AI 기술 활성화에 주력하면서 다양한 영역에서 AI 서비스 구축과 신시장 진출을 확대하고, 이번 과제로 수집된 데이터를 모두 일반에 공개해 AI 산업 발전에 이바지할 예정”이라고 말했다.
2500명 넘는 아동 음성 데이터도 구축
‘아동 음성 데이터 구축’은 미디어젠이 주관하며 메트릭스리서치·비디·아이포트폴리오·방정환 재단이 참여한다.
2500명이 넘는 아동의 한국어 음성 5000시간 분량을 수집하고, 5000명이 넘는 아동의 영어 음성을 5000시간 분량 수집한다.
윤성준 미디어젠 부사장은 “기존 음성 인식 데이터는 성인 위주로 돼 아동 음성 데이터가 부족한 현실이다. 이에 따라 아동 음성 인식률은 크게 낮으며 이번 사업을 통해 이를 개선할 것으로 기대하고 있다. 이는 국어 교육, 아동용 콘텐츠 생성, 인공지능 로봇 등의 분야에 활용할 수 있을 것으로 보고 있다”며 “아동 영어 데이터로는 인공지능 영어 튜터를 개발, 아동의 눈높이에 맞는 영어 학습에 활용할 수 있다. 마찬가지로 아동 영어 인식 성능에 큰 개선 효과를 볼 수 있을 것”이라고 말했다.
12종류 감성으로 성우 데이터 구축도
‘다화자 음성합성 데이터 구축’은 미디어젠이 주관하며 애드사운드가 참여한다. 이 사업을 통해 4500명의 일반인 화자에 대해 1만 시간 분량의 음성을 수집하고, 12종류의 감성·스타일로 분류한 성우들의 음성 데이터를 구축한다.
미디어젠 송민규 상무는 “AI 기술 발전으로 서비스의 지능화 수준이 올라갈수록 자유 대화형 UI가 많아질 것이고, 이에 따라 앞으로 음성 합성 서비스를 활용할 분야가 늘어날 것”이라며 “음성 합성 서비스 개발을 촉진할 수 있도록 다화자 음성 합성 데이터와 감성·발화 스타일별 음성 합성 데이터를 구축하고, 국내 음성 AI 기술의 발전을 도모할 계획”이라고 말했다.