네이버는 올해 10월 개최되는 ‘HCLT2018’에서 총 5편의 논문을 접수하고 발표한다. ‘HCLT’는 매년 한글날 전후에 진행되는 한글 및 한국어 정보처리학술대회로, 이곳에서 네이버의 연구는 해마다 우수 논문으로 선정되어 왔다. 올해는 자연어 처리 및 한글 검색어와 관련한 총 3편의 논문이 우수 논문으로 선정됐다.
이처럼 한글 정보 처리 기술을 끊임없이 연구하고, 공유하고 있는 네이버는 검색 서비스에도 보다 고도화된 기술력을 적용시켜, 더 정확하고 효과적으로 정보를 제공한다는 방침이다.
◇개선된 검색어 교정 및 자동완성 시스템으로 오타 질의에 대한 검색어 교정량 43% 증가
네이버는 모바일 상에서의 검색이 일상화된 이용자들을 위해 AI 기술 기반 검색어 교정 시스템인 ‘AIQSpell’ 개발에 힘써왔다. 딥러닝을 비롯한 최신의 AI 기술을 활용해 기존의 검색어 교정 시스템을 대체했으며, 최근 이에 대한 유의미한 성과가 나타나고 있다.
오타 질의들에 대한 검색어 교정량이 43% 증가했다. 예를 들어 ‘목포에세 군산깢 가는버’라고 검색을 했을 때 ‘목포에서 군산까지 가는 법’으로 교정하거나, ‘꿰양성 대장염치료제는 업는지’를 검색하면 ‘궤양성 대장염 치료제는 없는지’로 자동 변환하여 제공하는 방식으로, 비교적 긴 질의에서 발생하는 오타를 알맞은 검색어로 교정하는 비율이 대폭 증가했다.
맞춤법 오류나 오타 등으로 인해 검색결과가 0건으로 나타나는 ‘검색결과 0건 질의’ 역시 크게 감소했다.
검색어 교정을 담당하는 김태일 개발자는 “최신 AI기술 적용으로 올해 9월에는 지난 1월 대비 검색결과 0건 질의가 약 52% 감소했다”며 “더욱 복잡하고 다양한 검색어까지도 알맞게 변환시킬 수 있도록 지속적으로 기술력을 높여나갈 것”이라고 말했다.
◇자체 개발한 ‘개체명 연결’ 기술로 동음이의어 포함된 증권 종목 및 뉴스 기사 자동 분류
네이버는 ‘개체명 연결(Entity Linking)’ 기술로 700만 개 이상의 개체명을 인식해서 처리하고 있다. 네이버의 개체명 연결 기술은 문서에 출현한 각 단어에 정확한 의미구분자(Entity ID)를 부착해 줌으로써, 중의적인 검색어마다 그에 알맞는 검색 결과를 제공하는데 활용된다. 이러한 기술은 2016년 1월 개발이 시작된 이후 동명이인 인물의 노출 순위 자동 변경, 증권 종목 및 스포츠 섹션의 뉴스 기사 자동 분류 등 다양한 서비스에 적용되었다.
정유진 개발자는 “앞으로 개체명 연결 기술을 한국어뿐 아니라 일본어 서비스에도 적용할 예정이며, 해당 기술을 더욱 다양한 서비스 상황에 맞게 활용할 방법도 연구 중”이라고 설명했다.
◇키워드로 영화 제목 찾아주는 네이버의 영화 AI, 10월 중 클로바 서비스에 적용
네이버는 이용자의 리뷰 문서를 분석하여 영화 제목을 찾는 질의에 답하는 시스템을 개발했다. 가령 ‘10분마다 기억을 잃는 영화’를 검색하면 영화 ‘메멘토’가, ‘인공지능이랑 연애하는 영화’를 검색하면 영화 ‘그녀’가 답변으로 제시된다. 장헌석 개발자에 따르면 네이버의 영화 AI는 서비스를 사용한 이용자가 영화를 본 후 리뷰를 작성하면, 해당 리뷰가 영화AI에 반영되어 점점 똑똑한 추천 시스템을 갖추게 되는 구조다. 해당 시스템은 이용자가 영화 제목을 기억하지 못하거나, 관람하고 싶은 특정한 유형의 영화가 있을 때 알맞은 영화를 찾아주는데 유용하게 활용될 전망이다. 네이버의 영화AI는 네이버의 인공지능 플랫폼 클로바(Clova)가 탑재된 모든 서비스에 적용될 예정이다.
◇네이버, 한글날 맞이해 자체 클라우드 플랫폼 NSML 활용한 데이터 처리 경진대회 진행
네이버는 한글날을 맞이해, 창원대학교 차정원 교수와 함께 경진대회를 열어 자연어처리에 관심 있는 학생들에게 자체 클라우드 플랫폼인 NSML을 활용한 데이터 처리 경험을 제공한다. 자연어처리에 관심 있는 학생들에게 실무 경험을 제공함으로써 우수 인재를 발굴하고, 한글 연구의 발전을 위한 노력을 이어간다는 취지다.
네이버 검색과 Clova AI의 자연어 처리를 이끌고 있는 강인호 리더는 “차정원 교수의 실험실에서 방대한 양의 말뭉치 데이터를 공유받고, 미래에 한글 자연어처리를 이끌어나갈 인재들이 활용할 수 있도록 하는 이번 대회를 통해 한글 연구의 발전에도 기여할 수 있을 것”이라고 말했다.
해당 대회는 사람, 장소, 시간 등에 해당하는 단어(개체명)를 문서에서 인식하여 추출 분류하는 ‘개체명 인식’, 문장에서 각각의 표현과 단어들이 어떠한 역할을 하는지를 알아내는 ‘의미역 분석’의 두 가지 연구과제를 제시하고, 과제별 수상자를 12월 선정해 발표할 예정이다. 우수한 성과를 낸 학생에게는 상금과 함께 네이버 인턴, 정규직 채용시 코딩 테스트를 면제하는 등의 혜택이 주어진다.