휴멜로는 카이스트 전산학부 출신 권용석 대표와 이자룡 책임연구원이 2018년 의기투합해 창업한 보이스 AI 스타트업이다.
|
샘플링레이트는 1초 동안 소리를 몇 번 쪼개서 기록하느냐를 나타내는 단위로, 수치가 높을수록 음질이 선명해진다.
16kHz는 전화 통화·일반 AI 챗봇 수준. 목소리는 구분 가능하지만 잡음과 기계음이 섞여 자연스러움이 떨어진다.
48kHz는 음악 스트리밍, 영화, 게임 등에서 사용하는 미디어 제작 표준. 숨소리, 목소리의 질감까지 살아나는 고품질 사운드를 제공한다.
48kHz TTS를 사용하면 더빙·믹싱 작업 시 별도의 변환 과정 없이 바로 활용할 수 있어 콘텐츠 제작 효율이 크게 향상된다.
고품질 TTS의 난제, 휴멜로가 풀었다
업계는 그간 △48kHz 원음 데이터 확보 난이도 △막대한 연산 자원 소요 △인프라 유지 비용 부담으로 고품질 TTS 상용화를 꺼려왔다.
휴멜로는 저음질 데이터를 초고해상도로 복원하는 ‘보이스 초해상화 업샘플링’ 기술로 이 문제를 해결했다. 이 기술은 8kHz 저품질 음성도 48kHz 스튜디오급으로 복원 가능하다.
또한 처리 속도 지표인 RTFx(Real-Time Factor-inverse)에서 업계 최고 수준인 RTFx 100을 기록, 1초 동안 100초 분량의 오디오를 처리할 수 있다.
권용석 휴멜로 대표는 “TTS 기술이 미성숙했던 시기에는 수요 자체가 적었고, 기술이 발전한 이후에는 비용 문제로 고음질 도입이 지연됐다”며 “이번 초고속·고품질 보이스 AI 기술은 합리적인 비용으로 창작자와 기업이 새로운 차원의 음성 경험을 제공받을 수 있는 길을 열 것”이라고 말했다.
이번 기술 도입으로 휴멜로는 보이스 AI의 품질·속도·비용 경쟁력을 모두 강화하며, 고품질 음성 콘텐츠 제작의 대중화를 앞당길 것으로 기대된다.





