by김관용 기자
2015.04.10 18:01:53
JTBC뉴스룸 영상으로 만든 손석희 음성 합성기 선보여
[이데일리 김관용 기자] 다음카카오(035720) 한국어 음성 처리 기술과 멀티미디어 검색, 대용량 데이터 처리 기술을 집약해 국내 최초로 멀티미디어 데이터를 이용한 음성 합성기를 선보였다. 미디어다음 JTBC 뉴스룸 ‘앵커브리핑’(http://media.daum.net/tv/jtbc/newsroom/briefing) 코너에서 이를 확인할 수 있다.
앵커브리핑에서는 JTBC 뉴스룸 앵커 손석희가 직접 작성한 댓글을 실제 목소리와 말투 그대로 생생한 음성으로 들려준다. 매번 댓글을 작성할 때마다 해당 문장을 녹음하는 것이 아니라 작성된 댓글을 손석희 앵커의 음성으로 자동 합성하는 다음카카오의 기술이 반영된 결과다.
음성 합성이란 입력된 문자를 음성으로 변환하는 기술이다. 통상의 음성 합성은 녹음실 면적이나 녹음 장비의 위치까지 동일한 환경에서 완벽하게 설계된 문장을 전문 성우가 적게는 수십시간에서 많게는 수백시간 녹음한 음성 데이터를 기반으로 한다.
하지만 이번 시도는 통제된 녹음 환경을 거치지 않고 이미 온라인에 공개된 지난 1년간의 JTBC 뉴스룸 영상에서 데이터를 추출한 것이 특징이다. 손석희 앵커가 참여한 JTBC뉴스룸의 하루 평균 방송 시간을 1시간이라고 볼 때 1년 간 약 300시간의 영상에서 여러 과정을 거쳐 확보된 최종 10시간 분량의 음성 데이터를 통해 손석희 앵커의 음색과 말투를 학습했다.
|