|
[이데일리 장병호 기자] “4차 산업혁명과 인공지능(AI) 이야기가 나오고 있는 지금 국어는 어떻게 시대의 변화에 대응해야 할지 고민이 컸다. 공공성과 소통성을 바탕으로 한 국어의 정보화가 중요한 때다.”
국립국어원이 4차 산업혁명 시대에 발맞춘 국어의 정보화 사업에 힘을 쏟는다. 소강춘 국립국어원장은 취임 100일째를 맞아 6일 서울 중구 한 식당에서 기자들과 만나 “인공지능 기술 개발을 위해 올해 3100만 어절로 이뤄진 ‘말뭉치’를 새롭게 구축했다”며 “내년까지 10억 어절을 말뭉치로 구축할 계획이다”라고 밝혔다.
‘말뭉치’는 언어 연구를 위해 텍스트를 컴퓨터가 읽을 수 있는 형태로 모아 놓은 언어 자료다. AI 스피커 등 자연어를 컴퓨터로 처리하는 인공지능 기술 개발에 있어 중요한 밑거름이다. 국내에서는 1998년부터 정부가 ‘21세기 세종계획’을 통해 ‘세종 말뭉치’를 구축해왔으나 2007년 이후로 사업이 중단돼 있는 상태다. 10년 만에 정부 주도로 말뭉치 구축 사업을 재개하는 셈이다.
소 원장은 “정부도 인공지능 기술 개발을 위한 국어 자료 구축이 필요하다고 판단해 내년도 국립국어원 예산 중 연간 사업비 140억원 외에 말뭉치 구축만을 위한 예산 204억원을 별도로 책정했다”며 “4차 산업혁명 시대의 인공지능 기술 혁신을 위한 고품질 자료를 구축해 관련 이를 관련 기술 개발을 추진하는 중소기업 등에 제공하고자 한다”고 설명했다.
현재 세종 말뭉치 구축 사업을 통해 구축한 말뭉치는 약 2억 어절 규모다. 국립국어원은 올해 구축한 3100만 어절을 포함해 내년까지 8억 어절을 말뭉치로 새로 구축해 총 10억 어절의 말뭉치를 구축할 계획이다. 2022년까지 150억 어절 규모의 말뭉치를 구축하는 것이 장기적인 목표다.
소 원장은 “말뭉치의 양이 클수록 인공지능이 이해할 수 있는 자연어의 정확도가 높아진다”며 “일본의 경우 150억 어절, 중국의 경우 300~800억 어절의 말뭉치를 구축한 상태고 미국은 무려 3000억 어절을 구축해 인공지능 기술에 활용하고 있다”고 설명했다.
이어 “우리는 이제야 인공지능 기술에 활용할 수 있는 재료로 10억 어절을 말뭉치로 구축하는 것”이라며 “시대의 변화에 따라 언어도 변화하듯 말뭉치 또한 5년이든 10년이든 장기적으로 계속 구축해 제공하는 것이 중요하다”고 강조했다.
|
이와 함께 소 원장은 △국민참여형 국어사전 ‘우리말샘’ 및 표준국어대사전 보완 △공공기관에서 사용하는 어려운 정책·행정·전문용어 등에 대한 개선 사업 △남북언어 통일에 대비한 교류 활성화 및 남북 공동 연구 △수어 및 점자 등 특수언어 사용 환경 개선 및 기반 확대 등을 국립국어원의 향후 중점 추진 과제로 꼽았다.
특히 남북언어 통일 대비를 위해 국어 정책과 관련한 남북 정부 기관의 만남을 추진할 뜻을 밝혔다. 소 원장은 “남북의 언어는 자모 배열순서나 컴퓨터 키보드 자판 순서도 다를 정도로 미묘한 부분에서 차이가 많이 있어 향후 남북 협력이 중요하다”며 “여러 채널을 통해 북한 사회과학원 등 실무적으로 국어에 관여하는 기관과 연계할 수 있는 길을 만들고자 한다”고 말했다.
국립국어원은 국어의 발전과 국민의 언어생활 향상을 위한 사업의 추진과 연구 활동을 담당하는 문화체육관광부 소속기관이다. 소 원장은 전주대 국어교육과 교수 출신으로 전주대 사범대학장과 교육대학원장, 전국국어문화원연합회 회장, 한국언어문학회 회장 등을 지냈다. 지난 8월 말 국립국어원 11대 원장으로 취임했다. 임기는 3년간이다.
소 원장은 “세종대왕이 훈민정음을 만든 것은 백성이 당연히 누려야 하는 문자생활을 누릴 수 있게 하기 위한 ‘애민정신’ 때문이었다”며 “지금의 국어 정책 또한 국민들이 충분히 알고 이해할 수 있도록 배려하며 소통하고 있는지 고민할 필요가 있다고 생각한다”고 말했다.
|