보이스 테크, 또는 음성인식 기술이라고 하는 것은 컴퓨터나 기계로 하여금 인간의 말을 알아듣게 하는 모든 기술을 말한다. 인공지능과 함께 발달해온 보이스 테크는 2010년 애플의 시리 음성 서비스로 세상에 모습을 드러낸 뒤 2014년 아마존의 인공지능 스피커와 함께 본격적으로 우리 주변에 침투하기 시작했다. 지금까지 전 세계에 팔린 인공지능 스피커는 2억대가 넘고, 국내에도 천만대 가까이 팔렸다고 한다. 우리나라 전체 가구 수가 2천만인 것을 고려하면 한 집 건너 하나씩 인공지능 스피커를 구매했다는 얘기다.
그런데 스마트폰, 가전제품, 컴퓨터, 자동차 등 우리 주변의 모든 스마트 기계장치와 말로 소통하는 세상을 실현시키기 위해 보이스 테크가 극복해야 할 가장 중요한 허들이 있다. 바로 사생활 침해에 대한 우려이다. 정보통신정책연구원이 2018년 실시한 설문조사에 따르면 응답자의 60% 이상이 스마트 스피커가 대화 내용을 허락 없이 전송하는 것에 대한 우려를 나타냈다. 그리고 이러한 우려는 근거가 없는 게 아니다.
인공지능 스피커 글로벌 시장의 50%를 점유하고 있는 아마존에는 1만 명이 넘는 직원이 보이스 테크에 관련된 작업을 하고 있다고 한다. 이들의 주된 작업은 인공지능 스피커가 설치된 가정에서 녹음된 대화 내용을 듣고 이를 컴퓨터 교육에 활용할 수 있게 라벨을 붙이는 것이다. 예를 들어 소비자가 인공지능 스피커에게 “비틀즈를 들려줘”라고 했다면 ‘비틀즈’가 풍뎅이과의 벌레가 아니라 영국의 유명한 록 그룹이라고 라벨을 붙여 컴퓨터에 입력하는 일을 하는 것이다. 이러한 라벨링 작업을 ‘전사작업’이라고 하는데, 보통 1명의 전사작업 직원이 하루에 1000건 이상의 녹음파일을 처리한다고 하니 아마존이 수집하는 녹취 정보의 양이 얼마나 되는지 짐작조차 하기 쉽지 않다.
컴퓨터가 사람의 말을 알아듣게 하려면 반드시 전사작업을 통해 인공지능을 훈련시켜야 한다는 게 정석으로 되어 있다. 우리나라 스마트 스피커 업체도 아마존과 마찬가지로 자회사를 통해 스피커에서 추출된 녹취파일을 직접 듣고 글로 옮기고 라벨을 붙이는 작업을 하고 있다고 한다. 업체에서는 “알렉사” “헤이구글”과 같은 웨이크워드로 스피커를 깨워야 녹취가 시작된다고 하지만 꼭 그런 것만은 아니어서 소비자 입장에서는 다른 사람과 공유하고 싶지 않은 대화 내용까지 녹음되고 있는 것은 아닌지 불안감에 시달릴 수밖에 없다.
그런데 최근 아마존에서 보이스 테크의 사생활 침해 우려를 덜 수 있는 기술이 개발되고 있어 주목을 받고 있다. 알렉사 머신러닝 그룹을 담당하고 있는 루히 사리카야에 의하면 아마존에서는 보이스 테크의 인공지능 훈련에 인간의 전사작업을 배제한 ‘인공지능 자가학습’을 도입하고 있다고 한다. 다시 비틀즈의 예를 들면 인공지능 자가학습은 “비틀즈를 들려줘”라는 말을 이해하기 위해 이 말이 나온 정황을 함께 고려함으로써 비틀즈가 벌레가 아니라 음악과 관련된 말이라는 걸 스스로 파악하는 기술을 말한다. 흥미로운 건 아마존이 전사작업을 버리고 자가학습 도입을 시도하고 있는 이유가 사생활 침해에 대한 우려 때문이 아니라 인공지능 스피커의 사용이 늘어남에 따라 인공지능이 이해해야 하는 실생활의 복잡성이 폭증하여 전사작업으로 인공지능을 훈련시키는 일이 불가능해졌기 때문이라고 한다.
물론 스마트 스피커의 인공지능 학습 과정에서 인간이 배제되고 전적으로 컴퓨터가 자가학습을 한다 해도 내가 한 말이 내 의도와 다르게 수집되고 어딘가에 저장된다면 사생활 침해에 대한 우려가 완전히 불식된다고 볼 수는 없을 것이다. 그러나 컴퓨터의 자가학습을 위해 수집된 음성파일들의 사용, 공개, 폐기 등에 대한 엄격한 제도를 마련하면 지금처럼 전사작업을 하는 사람들의 기밀 유지 협약에 의존하는 것보다는 사생활 침해에 대한 우려가 상당히 감소할 것이다. 이제 사생활 침해에 대한 우려를 극복하고 스마트폰이나 가전제품, 자동차와 말로 소통할 날이 멀지 않은 것 같다.