"AI 조작 음성 잡는다"…딥브레인, 기술 특허 출원

by한광범 기자
2024.02.05 09:26:43

딥페이크 탐지 솔루션서 이미 활용중
실시간 통화 음성 판별 고도화 예정

[이데일리 한광범 기자] 국내 생성형 인공지능(AI) 전문 기업 딥브레인AI가 딥러닝 기반 딥보이스 탐지 기술에 대한 특허를 출원했다고 5일 밝혔다.

이번 특허는 ‘AI 기반 음성탐지 서버 및 방법’에 대한 기술이다. 딥러닝 기반의 음성 추출 방식을 사용해 AI로 조작한 가짜 목소리, 이른바 딥보이스에 대한 탐지 성능을 극대화한 게 핵심이다.

딥브레인AI는 해당 특허를 적용한 딥페이크 탐지 솔루션을 앞세워 보이스피싱 등 AI를 악용한 범죄 예방에 나선다.

기존 딥보이스 탐지 시에는 멜 주파수 켑스트럼(MFCC) 기법이 주로 사용됐다. MFCC란 음성 인식, 음향 분석 등 다양한 오디오를 분석하는 분야에서 널리 사용되는 방식이다. 다만, 고주파 영역대의 음성 정보를 상대적으로 덜 추출하게 되어 해당 영역대에 포진해 있는 위변조 음성의 흔적을 탐지하는 데에 다소 한계를 지닌다.

딥브레인AI는 이번 출원한 특허 기술에 정보 추출 모델과 위변조 유무 판별 모델을 통합하여 학습한 딥러닝 모델을 적용해 탐지 성능을 개선했다. 또, 데이터 분석을 위한 전처리 과정부터 변조 유무 판별, 결과 값의 후처리까지 전담하는 하나의 서버 파이프라인으로 구성해 단순 탐지를 넘어 솔루션으로 활용 가능하도록 했다.

특히, 딥러닝 모델적 단계에서 구체적 지표를 제시, 측정하고 서버 코드 최적화를 통해 기술의 안정성과 신뢰성을 높였다. 먼저, 다양한 데이터 셋을 활용해 자사에서 학습한 모델의 객관적 탐지 성능을 정확도, ROC, EER과 같은 구체적 지표로 제시해 측정한다.

아울러 딥보이스 서비스 코드에 입력으로 들어오는 음성 파일의 변조 수치를 0과 100 사이의 확률 값으로 제시해 탐지 결과에 대한 신뢰도를 사용자에게 제공한다. 서버 코드는 최적화를 진행해 탐지 시 지연 없이 안정적으로 판별 값을 전달하도록 구성했다.

이번에 특허로 출원된 기술은 SaaS형 딥페이크 탐지 솔루션에 적용돼 활용 중이다. 음성의 주파수와 시간을 고려해 음성 합성 여부를 판별하고 AI를 이용해 자연스러운 목소리를 만드는 보코더 사용 여부를 판단한다. 추후에는 통화 중에도 음성의 진위 여부를 실시간으로 판별할 수 있도록 솔루션을 고도화할 계획이다.

장세영 딥브레인AI 대표는 “최근 공개한 SaaS형 딥페이크 탐지 솔루션이 높은 판별 정확도를 보일 수 있는 배경에는 딥러닝 기반 딥보이스 탐지 특허 기술이 존재한다”며 “앞으로도 음성, 영상 AI 기술 고도화를 지속해 생성형 AI를 악용한 무분별한 범죄를 저지하기 위해 앞장설 것”이라고 밝혔다.