“한글 감성사전 오픈···빅 데이터 연구에 기여”

by신하영 기자
2014.10.08 06:00:00

연세대 정보대학원 김희웅 교수·안정국 연구원 개발
9일 한글날 오픈 “한글, 자연어 처리 기술 앞 당겨”

[이데일리 신하영 기자] 대규모 데이터를 수집·분석하는 빅 데이터 기술이 주목받고 있다. 비정형의 대규모 정보를 분석해 의미를 도출하기 때문에 빅 데이터를 활용하면, 과거를 통해 미래를 예측하는 것도 가능하다. 하지만 빅 데이터의 활용도를 높이기 위해서는 우리가 실제 사용하는 언어를 컴퓨터가 이해하는 과정이 필요하다. 이를 ‘자연어 처리’라고 한다. 컴퓨터가 언어의 형태를 분석하고 의미를 파악하는 과정을 말한다. 지금까지 한글의 자연어 처리 연구는 걸음마 단계에 불과했다. 영어와 달리 어미나 조사가 발달한 한글은 자연어 처리 과정도 그만큼 복잡하기 때문이다.

연세대 정보대학원 디지털서비스 연구실이 집단 지성을 이용, 한글의 자연어 처리 연구의 새로운 방향을 제시해 눈길을 끈다. 연구실은 오는 9일 한글날을 맞아 ‘한글 감성사전(www.openhangul.com)’을 개설한다.

한글 감성사전을 개발한 안정국 연구원(박사과정)은 “한글 감성사전을 개방해 연구기관이나 기업에서 이를 무료로 사용하도록 하겠다”고 밝혔다.

한글 감성사전은 인터넷이나 SNS(소셜네트워크서비스)에서 떠도는 대량의 정보들을 수집, 판별하는 플랫폼이다. 예를 들어 기업이 새로운 제품을 출시한 뒤 이에 대한 대중의 평가를 알아보려 한다면, 한글 감성사전이 요긴하게 쓰일 수 있다. 해당 제품을 평가하는 단어들이 긍정적인지 아니면 부정적인지를 취합해 알려주기 때문이다. 이 같은 기술은 기업의 마케팅을 포함해 정치 여론조사나 특정 인물의 정치 성향까지 파악할 수 있다.

안 연구원은 “예를 들어 ‘어둡다’란 단어에 대한 대중의 평가는 ‘부정적’이 80% 정도를 차지한다. 이는 집단 지성에 의해 단어의 성격을 판별하는 것으로 빅 데이터를 활용한 평판도 조사에서 활용도가 높다”고 설명했다.



집단 지성에 의한 평가는 대학생 소셜네트워크인 ‘에듀팔(www.edupal.co.kr)’과의 연계를 통해 가능했다. 이곳을 이용하는 대학생 1만여명의 단어 하나하나에 대한 평가를 데이터로 구축해 감성사전에서 활용하는 것이다.

이번 연구 결과는 다음달 한국지능정보학회 학회지를 통해 발표될 예정이다.

안 연구원의 지도교수인 김희웅 연세대 정보대학원 교수는 “최근 빅 데이터에 대한 활용이 본격화됨에 따라 자연어 처리 기술이 국가 경쟁력을 좌우할 기술로 각광받고 있다”며 “한글은 어미와 조사가 발달한 교착어라 자연어 처리가 어려웠는데 한글 감성사전이 오픈되면 한글어 자연어 처리 연구에도 도움을 줄 것”이라고 평가했다.

안 연구원도 “한글 감성사전을 오픈 플랫폼으로 제공해 연구자와 연구기관, 기업에 제공함으로써 한글의 정보화 시스템 연구가 활발해 지길 기대한다”고 말했다.

빅 데이터 연구에 도움이 될 ‘한글 감성사전’을 개발한 연세대 정보대학원의 김희웅(오른쪽) 교수와 안정국 연구원(왼쪽)이 기념촬영을 하고 있다.