카카오엔터프라이즈, AI 학술 대회 ‘인터스피치’서 논문성과 발표

by김현아 기자
2022.09.19 10:54:45

오랄(oral) 포함 4편 논문 발표 진행
사람처럼 말하고 느끼고 이해하는 AI 개발 방법론
‘실용적인 AI’ 집중…AI 챗봇·AI 컨택센터 등 기대

[이데일리 김현아 기자]

카카오엔터프라이즈(대표 백상엽)가 인공지능(AI) 음성 처리 분야 세계 최대 규모 학술대회인 인터스피치(INTERSPEECH)에서 총 4편의 연구 성과를 발표한다.

올해로 23회를 맞은 인터스피치는 18일부터 오는 22일까지 인천 송도컨벤시아에서 진행된다. 카카오엔터프라이즈를 포함해 전 세계 내로라하는 AI 기업이 모여 가장 최신의 연구 성과를 공유하면서 전 세계 AI 업계의 이목이 집중된다.

카카오엔터프라이즈는 이번 인터스피치에 플래티넘 스폰서로 참여했다. 총 4편의 논문을 통해 사람처럼 말하고 이해하는 AI를 선보였다. 이 중 한 편은 인터스피치 등재 논문 중에서도 높은 수준을 인정받아 구두(oral) 발표로 공개됐다.

카카오엔터프라이즈는 ‘실용적인 AI’에 집중하며 글로벌 기술력을 다양한 서비스로 연결하는 연구에 많은 투자를 하고 있다. 2019년 카카오에서 분사한 이래로 3년 연속 인터스피치에서 논문을 발표해왔다. 올해까지 총 8편에 달하는 논문 성과를 공개했다.

이번 연구 또한 △사람처럼 말하는 AI △긴 음성도 잘 이해하는 AI △인간의 복잡한 감정을 이해하는 AI 등 실제 서비스화할 수 있는 기술과 더불어, 영어 발음이 원어민과 얼마나 가까운지 알려주는 AI까지 사람들이 쉽게 접하고 이해할 수 있는 기술을 선보였다는 데 의미를 지닌다.

이러한 기술이 사람처럼 자연스러운 일상 대화를 나눌 수 있는 AI 챗봇, 인간 상담원의 업무를 효율화할 수 있는 AI 컨택 센터 등 많은 사람들의 삶을 더욱 편리하게 할 수 있는 서비스로 이어질 것으로 기대된다.

임단·정성희·김의성 연구원은 사람처럼 말하는 AI에 대한 연구를 발표했다. JETS: Jointly Training FastSpeech2 and HiFi-GAN for End to End Text to Speech에서는 실제 사람과 구별하기 어려운 수준의 자연스러운 고품질 음성 개발 방법론을 제안한다.

임단 연구원은 19일 구두 발표를 통해 ‘E2E(End to End)-TTS(종단간 TTS)’ 기법으로 기존 ‘뉴럴(Neural) TTS(Text to Speech)’ 개발 과정을 단순화하는 방법을 발표했다. 기존 뉴럴 TTS 방식이 음성 처리를 위해 2개의 모델(acoustic feature generator, neural vocoder)을 따로 학습해야 했다면 E2E-TTS 기법을 활용하면 두 모델을 한번에 학습할 수 있게 되어 학습 과정을 단축하는 것은 물론 더욱 고품질의 음성을 만들어 낼 수 있다.

이 방법론은 카카오엔터프라이즈의 AI 컨택센터인 ‘카카오 i 커넥트 센터‘, ‘헤이카카오’ 등 카카오엔터프라이즈 딥러닝 TTS(Text to Speech)가 쓰이는 모든 서비스에 적용돼 있다.

사람처럼 말하려면, 긴 음성도 이해할 수 있는 성능이 우선돼야 한다. 이지혜 연구원이 공동1저자로 참여한 Generalizing RNN-Transducer to Out-Domain Audio via Sparse Self-Attention Layers는 학습 데이터와 테스트 데이터 특성이 불일치하면서 발생하는 음성인식 오류 중 특히 음성 길이가 길어졌을 때 많이 발생하는 음성인식 오류인 탈락 오류(deletion error)를 개선하기 위한 방법론을 제안한다.

기존 음성 인식기가 학습한 환경과 다른 특성의 음성 입력에 대해서도 성능 저하 없이 안정적인 인식 성능을 내게 하는 것은 음성 인식 상용화에 있어서 매우 중요한 과제다.

카카오엔터프라이즈는 새로운 방법론을 통해 기존 대비 27.6% 성능 향상을 확인했다. 향후 음성 인식기가 사용되는 카카오엔터프라이즈의 여러 서비스에서 안정적으로 높은 음성인식률을 실현할 수 있을 것으로 기대된다.

인간의 복잡한 감정을 이해하는 것 또한 AI 업계의 영원한 숙제다. 이주성 연구원이 집필한 The Emotion is Not One-hot Encoding: Learning with Grayscale Label for Emotion Recognition in Conversation은 인간의 복합적인 감정을 학습할 수 있는 방법론을 제시한다. 인간의 발화에는 여러 감정이 들어가기 때문에 한 가지 감정만을 인지하는 기존의 원핫 인코딩(one-hot encoding)으로는 대화의 의도와 맥락을 이해하기 어렵다.

이주성 연구원은 새로운 방법론으로 그레이스케일 레이블(grayscale label)을 만들어 다양한 감정 분포를 학습할 수 있도록 제안했다. 이 방법론은 카카오엔터프라이즈의 서비스형 AI인 ‘AIaaS(AI as a Service)’에 적용되어 대화 맥락을 전반적으로 이해하고 발화에 담긴 의미를 분석하거나 자연스러운 답변을 제시하는 기술을 제공하고 있다.

마지막으로 카카오엔터프라이즈는 영어 발음이 원어민과 얼마나 가까운지를 알려주는 AI를 선보였다.

김의성·전재진·서혜지·김훈 연구원이 함께 발표한 Automatic Pronunciation Assessment using Self-Supervised Speech Representation Learning은 비원어민 학습자들의 영어 발음을 점수화해 평가하는 방법을 다룬 논문이다.

딥러닝 자기 지도 학습(SSL, Self-supervised Learning)으로 적은 데이터에서도 사전학습(pre-training), 미세조정(fine-tuning)을 거쳐 영어발음을 평가하는 새로운 알고리즘을 제안한다.

기존 학습 방법 대비 30% 성능 향상을 보인 이 방법론은 영어 교육 전문회사인 (주)잉글리시헌트와 공동 개발한 모바일 영어 학습 애플리케이션 ‘비바부 잉글리시’에도 도입되어 AI 집중도 분석 및 발음평가 기능을 구현하는 것은 물론 개인화된 AI 학습 리포트를 제공하는 데 쓰이고 있다.

최동진 카카오엔터프라이즈 최고인공지능책임자(CAIO) 겸 부사장은 “인터스피치에 모인 전 세계 AI 강자들도 카카오엔터프라이즈의 이러한 기조에 주목하고 공감할 것으로 기대한다”며 “사용자에게 더 나은 삶을 선사할 수 있는 기술을 제공하기 위해 역량 있는 크루들(직원들)의 연구를 지원하고 AI 챗봇, AI 컨택센터 등 서비스 고도화에 많은 노력과 투자를 이어 나갈 계획“이라고 밝혔다.