"SK텔레콤 음성인식 AI, 당장 돈 벌 생각 없어(일문일답)"

by김현아 기자
2016.08.31 14:37:30

[이데일리 김현아 기자]

음성인식 기반 인공지능 서비스 ‘누구’(NUGU) 출시 관련 발표를 진행 중인 SK텔레콤 이형희 사업총괄의 모습.

음성인식 기반 인공지능 서비스 ‘누구’(NUGU)를 홍보하고 있는 SK텔레콤 박일환 Device 지원단장(가운데)과 모델들의 모습.

음성인식 기반 인공지능 서비스 ‘누구’(NUGU) 소개 발표를 진행 중인 SK텔레콤 박일환 Device 지원단장(아이리버 사장 겸직)의 모습.

SK텔레콤(017670)이 국내 최초로 한국어를 인식하는 인공지능(AI) 서비스 ‘누구(NUGU)’를 출시했다. 대화하듯 말하면 고객 요구를 파악해 수행하는 것인데 2014년 말 아마존이 출시한 에코와 비슷하다.

하지만 한국어로 말하면 음악과 조명제어, 정보검색과 배달주문까지 가능한 것은 이번이 처음이다.

SK텔레콤은 일단 원통형 스피커 형태의 기기로 출시하지만 외부 개발자에게 핵심 응용프로그램인터페이스(API)를 개발해 차량이나 신체부착형기기, 각종 로봇 등에도 ‘누구’가 활용될 수 있도록 할 계획이다.

아마존 에코는 현재까지 300만 대가 팔렸으며, 구글도 구글홈이라는 비슷한 서비스를 준비 중이며, 페이스북 역시 다음 달 ‘누구’와 비슷한 기능의 AI 개인비서를 공개할 예정이어서 SK텔레콤과 글로벌 기업들간에 전면 경쟁이 달아오를 전망이다.

‘누구’의 AI소프트웨어는 SK텔레콤 미래기술원이 개발했고 가정용 누구 제품(스피커 형태) 디자인과 튜닝에는 자회사 아이리버가 참여했다. 제조는 중소기업이 맡았다.

‘누구’의 기기(스피커)가격은 24만9000원인데 일단 한정 물량에 한해 9월 말까지 정상가보다 60% 할인된 9만9000원에 제공(한정 수량)한다. 이후 구매 고객을 대상으로 아이디어 공모 이벤트를 시행하고, 여기서 모아진 아이디어는 향후 기능 업그레이드에 반영할 예정이다.

2차 고객 참여 이벤트가 예정된 11월부터 12월 말까지 14만9000원, 내년부터는 정상가(24만9000원 예정)로 판매하는 등 초기에 구매할수록 가격 이점이 크다.

이형희 SK텔레콤 사업총괄(부사장)은 “당장 ‘누구’로 돈을 벌 생각은 없다”면서 “10월 말까지 구매 고객은 멜론 3개월치 무료 등의 혜택이 있고 이후 구매 고객들도 거의 추가 비용 부담없이 ‘누구’를 활용할 수 있다. 인터넷라디오 연동이나 전화번호 연동 등도 조만간 진행될 것”이라고 밝혔다.

◇다음은 박일환 디바이스지원단 단장(아이리버 대표 겸임), 김성한 디바이스지원단 기획본부장, 박명순 미래기술원 원장 등과의 일문일답

-‘누구’의 현재 이름이 팅커벨, 아리야 등인데 이름을 앞으로 자유자재로 붙일 수 있나. 음악감상 기능이 있는데 무료인가. 추가 요금은 없나.

▲현재는 기술적인 부분을 고려해서 4가지 이름으로 부르게 했다. 팅커벨, 크리스텔, 아리아, 레베카 등 4가지다. 하지만 앞으로는 ‘부장님’ 등 다양하게 가능해질 것이다. 그리 되려면 상당부분 학습이 필요하다. 일정 기간 학습 이후에 향단이 등의 이름으로 부르실 수 있도록 빠른시일 안에 구현할 수 있도록 진행할 생각이다.(김성한 기획본부장)

▲누구는 와이파이 기능을 갖고 있다. 독자로 통신이 가능하다. 단, 처음에 스피커가 동작하려면 스마트폰 앱을 통해서 서비스 접속을 진행한다. 그 이후에는 독자적으로 동작하기 때문에 추가 요금은 없다.(박일환 단장)

▲가정용 ‘누구’ 세부 사양
(정가는 24만9000원이지만 10월 말까지 9만9000원, 12월 말까지 14만9000원에 판매한다)

-SK(주) C&C가 하는 IBM 왓슨의 한글화 서비스와 사업분야가 겹치지 않나.

▲인공지능은 분야가 여러 개다. 왓슨은 훨씬 전문가 시스템에 가깝다. 왓슨의 방향은 아마 기업간거래(B2B)가 되지 않을까 한다. 일부는 일반 판매(B2C)에 접목하겠지만 왓슨은 훨씬 전문가 영역에 가깝다. 저희 인공지능은 일반적인 서비스에 초점이 맞춰져 있다. 지금 현재는 따로 움직이는 것처럼 보이나 시간이 지나면서 서로 잘하는 부분은 협력하게 되지 않을까. (박 단장)

-‘누구’의 목소리는 누구인가.

▲‘누구’ 목소리의 주인은 개인정보보호 이슈로 실명을 밝히기 어렵다. 다양한 고객분들에게 감성적인 목소리를 제공하기 위해 다양한 성우 목소리를 테스트해서 가장 감성적인 목소리를 선택했다. 현재 저희 ‘누구’는 누구도 될 수 있으니 여러 가지 이름으로 명명이 가능해질 것이다.(김 본부장)

멜론의 경우 금년까지는 3개월 정도 멜론을 무료로 제공하고 이후에는 멜론 가입 시 ‘누구’와 연동해서 동시에 이용할 수 있게 할 생각이다. ‘누구’는 현재는 앱에서 T아이디로 회원가입하고 스마트홈, 단말과 연동될 수 있다. (김 본부장)

-음성인식 알고리즘이나 자연어 처리는 어떻게 했는가.

▲인식과 관련된 데이터 수집과 관련해 질문을 주셨는데 자연어 처리는 2011년부터 연구를 시작했다. ‘누구’ 이전에 이미 한국어와 관련된 자연어 처리 데이터베이스는 많이 구축돼 있었다. 그중에서 음악 관련 도메인을 집중적으로 해서 추가 구축했고, 그 외에 나머지 일반적인 것들은 쌓아 온 것이다. ‘누구’의 AI 기능이 완벽한 상태가 아니라 누구 출시를 통해 받아들이는 데이터를 통해 진화할 것이다.(박명순 미래기술원 원장)

-음성인식과 별도로 알고리즘을 자체 개발했나. 스피커와 마이크로 프로세서외에 디스플레이를 탑재하지 않은 이유는.

▲음성인식과 관련해 다양한 데이터들이 여태까지 모았던 것보다 사용자 데이터들이 훨씬 다양할 것 같다. 내부적으로는 머신러닝 인프라가 자체적으로 구현돼 있다. 200대 서버와 많은 CPU가 있다. 최소 위클리 단위로 수집해 엔진에 반영할 생각이다. 개발은 SK텔레콤 내부 개발자들이 진행한다.

누구 디바이스 자체가 음성 인터페이스를 기반으로 한다. 음성에 디스플레이가 있으면 유리하겠지만 음성으로 답변하는 게 가장 자연스럽다.(박 원장)

▲디스플레이와 관련 음성 사용자경험(UX)은 큐레이션 된 최상의 답변과 서비스를 제공한다. 앞으로 다양하게 서비스를 확장할 생각이다. 최적화된 단말의 형태가 어떨지 계속 내부적으로 고민하고 있다.

아마존이 2014년 말 출시한 AI 스피커 ‘에코’. 아마존 에코는 300만대가 팔렸다. SK텔레콤의 ‘누구’의 첫 기기도 비슷한 형태다.

-음성인식 인공지능 기기로는 아마존 에코나 구글 홈이 있다. SK텔레콤만의 장점이나 경쟁력은. 또 기기를 구입하면 소프트웨어 업그레이드를 통해 머신러닝 결과를 업데이트 받아야 하는가. 추가로 기기를 구입하는 것은 아닌가.

▲AI는 범위가 넓어 타 경쟁사업자와 경쟁력을 하나로 비교 평가하기 어려우나, 3가지 강점에서 저희 경쟁력을 말씀드린다. 기술적 관점에서는 음성인식, 영상인식, 자연어 처리에 있어서는 국내 최초로 장기간 투자해서 해 왔고, 현재 상당 수준 완성도를 높여 왔다.

하드웨어 측면에서는 아마존 에코가 서비스 제공 중인데, 에코와 비교하면 ‘누구’ 디바이스는 외연디자인에서 감성 포인트를 강조했다. 무드 등 같은 것이다. 디자인 측면을 강조했고, 초기 고객분들이 가장 효용을 느낄만한 멜론 부분이다. 음질 비교 시 자회사인 아이리버의 전문가들이, 튜닝 전문가들이 참여했다. 내부 블라인드 테스트 결과, 음질 측면에서 높은 결과를 받은 바 있다. 상대적으로 경쟁력을 가진 것 같다.

서비스 관점에서 말씀드리면 자체 보유한 시장 내에서 고객분들에게 인정받는 T맵이나 Btv 등 우리의 강점 서비스들을 초기 음성인식 기술과 연결시켜 초기 서비스에 대한 강점을 가져갈 수 있다. 개방형 플랫폼을 지향하고 있다. 다양한 국내 지형, 특성에 맞는 서비스들을 출시해 업데이트함으로써 경쟁 우위를 가져갈 수 있다.(김 본부장)

-멜론 음악이나 날씨 등을 알려주는 게 클라우드 상에서 이뤄지나. 아니면 스마트폰에서 나오는 것인가.

▲모두 AI 클라우드 상에서 이뤄지는 것이다. 스마트폰은 처음 커넥션 확보에만 필요하다. 음성인식, 영상인식, 언어처리는 내부 기술진이 전부 개발했다. ‘누구’ 디바이스는 외부 파트너가 제작했다. 튜닝은 아이리버에서 했다. (박 단장)

-소음 제거 기술은. 커머스(배달주문)까지 가능하다는데 결제도 되나.

▲주문할 때 아이디 인증을 하는 게 중요하다. 일단 피자 배달 주문 같은 것은 주문만 가능하다. 향후에 페이가 들어가고 음성 인증이 들어갈 것이다. 현재는 주문에 대한 컨펌만 하고 실제 결제는 오프라인에서 하는 것이다.개인정보 보호 이슈와 관련 음성인식율을 높이는 것 외에 다른 개인정보와 관련된 것들은 활용하지 않고 있다.(박 원장)

-남성 목소리는 안 되나. ‘누구’는 여성 성우 목소리인데.

▲지금은 음성TTS로 성우 목소리로 녹음하고 일부는 합성해 접목한다. 아직은 성우 목소리 합성 시 불량이 많지만 이 기술들도 딥러닝 기술을 활용해서 좀 더 발전하면 합성 불량이 줄어들 것이다. 남성이나 아기 같은 목소리나 다양한 인격을 형성하는 문제 등은 조만간 가능해질 것이다. 일단 이 서비스는 어느 정도 기획된 20대 중반 여자 비서의 보이스톤으로 기획했다.

-‘누구’는 국내용인가. 한국어 자연어 처리만 가능한가.

▲현재는 한국어 중심으로 돼 있다. 다국어를 처리하려면 굉장히 많은 인력이 필요하다. 영어로 해야 한다면 지금 개발하는 것보다는 영어 처리 파트너사와 협업하는 게 맞다고 생각한다. 서비스 로직이나 나머지 기술들은 재활용이 가능하나 언어처리는 저희가 하게 된다면 외부 업체와 협업하는 게 맞다.(박 원장)