"AI 번역, 구글도 앞선다"..네이버 韓·英 번역↑

김유성 기자I 2016.11.13 12:42:08

김준석 네이버 파파고 개발팀 리더 인터뷰
네이버 통번역 앱 '파파고', AI 기술 적용돼 완성도 높아져
한국어·영어 번역 정확성 기존대비 2배 이상 향상

[이데일리 김유성 기자] 네이버가 지난 8월 내놓은 음성 인식 통번역기 ‘파파고’. 한국어와 영어, 일본어, 중국어까지 4개 언어를 자동으로 번역해준다.

파파고가 주목받았던 점은 음성 인식 기술이 적용됐다는 점과 인공지능 기술이 가미됐다는 점이다. 음성 인식 기술 도입을 통해 사용자는 번역하고 싶은 문장이나 단어를 손쉽게 입력할 수 있다. 스마트폰 내 파파고 앱을 실행시키고 한국어로 문장을 읽으면 영어, 중국어, 일본어로 자동으로 번역된다. 사용자는 이중 한 가지를 선택하면 된다. 관광지 등 외국어 번역이 필요할 때 번역된 문장을 외국인에 보여준다. 문장 읽기 기능을 사용하면 번역된 문장을 소리로 들려줄 수도 있다. 네이버가 그동안 축적했던 음성 검색 기술이 적용된 결과다.

김준석 네이버 파파고 리더 (네이버 제공)
파파고의 한국어와 일본어 번역은 높은 정확도로 호평 받았다. 한국어와 일본어가 단어와 어순에서 비슷한 언어라는 이유가 컸다. 네이버가 일본 사업을 하면서 구축한 일본어 데이터베이스(DB)도 정확도를 높이는 데 한 몫했다.

영어와 중국어와 한국어 간 번역은 정확도가 떨어졌다. 특히 어원, 문법에 있어 판이하게 다른 영어는 ‘넘지 못할 산’이었다. 전세계적으로 기술력이 더 높다는 구글 번역도 한국어·영어 번역 정확도가 떨어졌다.

지난 11일 네이버에서 만난 김준석 네이버 파파고 개발팀 리더는 파파고에 알파고와 같은 원리의 인공지능(AI) 기술이 적용됐다고 전했다. 인공지능 기술에서는 구글보다 후발주자지만 한국어와 영어 간 번역은 세계 최고 수준이라고 자부했다.

우선은 출발선이 네이버나 구글이나 차이가 없다. 한국어와 영어 간 번역은 구글도 이달 들어 보다 고도화된 인공지능 기술인 ‘인공신경망번역(NMT)’이 적용됐다. 네이버는 지난달부터 한국어-영어에 NMT 기술을 적용했다.

두번째는 풍부한 한국어 데이터베이스(DB)다. 그동안 축적한 검색 기술과 한국어 데이터베이스(DB)가 구글에 앞선다는 자신감이다. 실제 내부 테스트 결과 NMT를 활용한 한국어·영어 번역 정확도는 100점 만점에 60점이었다. 구글 번역을 포함한 기존 번역 시스템이 30점 미만이었다는 점을 감안하면 높게 향상된 결과다.

네이버에서는 파파고는 관광 통역 분야에서 활용성이 높다고 진단했다. 김 리더는 “일본어를 전혀 모르는 한 지인이 파파고로 일본 여행의 질이 달라졌다고 말할 정도”라며 “한국어·영어, 한국어·일본어 번역은 전세계적으로 결과 수준이 높다”고 말했다.

업계에서는 파파고의 기술 원리가 네이버의 세계화에 도움이 될 것이라고 예상했다. 특히 동영상 콘텐츠 분야에서 활용도가 높다. 예컨대 네이버의 동영상 콘텐츠에 자동 자막이 붙는 경우다. 다른 나라 사람들도 영어 자막으로 실시간 방송 ‘V’나 tv캐스트를 시청하게 되면, 자연스럽게 해외 진출로 이어진다. 다만 김 리더는 “언젠가는 그런 서비스들이 구현되지 않겠는가”라며 “아직은 고도화 과정이 더 필요하다”고 말했다.

유튜브는 영상에 자동자막 서비스를 이미 적용했다. 영어·유럽어권 번역은 완성도가 높은 편이다.

◇인공지능 번역 방식의 진화..단어·문법 암기에서 어학연수 수준으로

인공지능 방식이 적용되기 전에는 ‘규칙기반번역(RBMT)’이 활용됐다. 일종의 알고리즘이다. You are a boy라는 문장이 있다면 컴퓨터는 ‘You= 당신’, ‘boy=소년’, ‘are=이다’로 인식한다. 컴퓨터는 한국어와 영어 간 주어·서술어 순서가 다르다는 점을 감안해 이를 재배열한다. ‘당신은 소년이다’로 번역이 된다.

컴퓨터는 You가 한국어에서는 ‘당신’, ‘너’, ‘그대’ 등으로 해석된다는 것은 알아도 어떨 때 적용되는지 모른다. 그러다보니 ‘you guys’ 같은 문구를 ‘당신 소년들’ 처럼 어색하게 번역할 때가 많다. 영어 입문자가 단어와 문법을 암기해 문장을 만드는 단계로 볼 수 있다.

그 다음으로 적용된 방식이 통계기반번역(SMT)이다. 인공지능에 보다 가까워진 번역 방식이다. 특정 단어가 통계적으로 가장 많이 쓰이는 뜻으로 컴퓨터가 찾아 해석 결과를 내놓는 방식이다. You의 경우 ‘당신’, ‘너’, ‘그대’라는 뜻이 있지만 컴퓨터는 한국인들이 ‘너’라는 단어를 많이 쓴다는 점을 고려해 번역한다. 뜻이 통하는 정도까지 해석이 된다.

다만 영어 특유 혹은 한국어 특유의 ‘언어적 느낌(뉘앙스)’에 대한 적용은 어렵다. 다른 뜻으로 변용되는 단어에 대한 번역도 쉽지 않다. 쉽게 말해 한국에서 영어 교과서와 문법책만 갖고 영어를 배우는 중학생으로도 SMT를 비유할 수 있다.

인공신경만번역(NMT)은 기존 RBMT, SMT보다 몇 단계 진화한 방식이다. NMT는 문장 단위로 컴퓨터가 인식한다. 예컨대 ‘You are a boy=너는 소년이다’, ‘You are a girl=너는 소녀다’라는 문장이 입력되면 인공지능은 두 문장 사이의 유사성을 파악하고 학습한다. 이후 비슷한 다른 문장이 나오면 이를 응용한다.

‘You are a fireman’이라는 문장을 보게되면, 인공지능은 그 전에 배운 문장이 아니더라도 ‘당신은 소방관이다’고 번역한다. 이 과정중에 인공지능은 소방관이 포함된 수많은 문장을 갖고 학습한 결과를 적용한다. 소방관을 지칭할 때는 ‘너’가 아니라 ‘당신’이라는 존칭어를 써야 어색하지 않다라는 점을 인식한 것이다.

SMT가 한국에서 영어 교과서를 갖고 영어 공부를 하는 중학생과 같다면 NMT는 미국 현지에서 하루에도 수백·수천개의 현지인 문장을 습득하는 어학 연수생인 셈이다. 어학 연수생이 현지 문장 수천 수만개를 기억하고, 대화할 때 이를 응용하는 원리와 비슷하기 때문이다. 알파고가 수백만 데이터를 입력받아 프로기사와 대결했던 것처럼 파파고도 수백만 수천만의 영어·한국어 번역 사례를 공부하고 인간이 요청한 문장에 대한 번역을 수행하는 것이다.

다만 NMT도 인간 선생님이 필요하다. 정확한 영어·한국어 문장이 많이 입력될 수록 정확도도 높아진다. 김 리더는 “NMT 연구가 시작된지 2년만에 지난 10년간 연구해왔던 SMT의 결과물을 앞섰다”며 “괄목할만한 발전”이라고 말했다.

인공지능 통역이 기존 통역사들의 일자리를 위협할까. 김 리더는 “기업 IR 등에서는 여전히 숙련도 높은 통역 서비스가 필요하다”며 “당장 걱정할꺼리는 분명 아닐 것”이라고 말했다. 인간 고유의 영역은 인공지능 시대가 되도 여전히 남아 있을 것이라는 예견이다.

주요 뉴스

ⓒ종합 경제정보 미디어 이데일리 - 상업적 무단전재 & 재배포 금지