누리IDT, 한자 문자 인식 서비스 출시...고문헌 인식률 98%

by지영의 기자
2023.06.05 17:23:43

누리IDT인공지능 고문헌OCR 서비스 내놔
고문헌 한자 읽거주는 AI 기능
한문 고문헌 자료 토털 솔루션 대표 서비스

[이데일리 지영의 기자]지능형 데이터 전문기업 누리아이디티(대표 배성진)가 인공지능 기반의 고문헌 한자 문자인식(OCR)서비스를 출시했다.

누리IDT가 ‘고문헌 한자OCR서비스’는 국내 고문헌 자료에 특화된 고성능 한자 자동인식 모델이다. 화면의 원문 이미지 입력 창에 원문 한 면씩을 업로드하면 AI가 이미지 속의 글자를 자동인식하고 곧바로 한자 텍스트로 출력해주는 방식이다.

서비스 개발 과정에서 AI모델은 형태와 크기가 다양한 고문헌 속 한자를 3000만자 이상 학습하는 데 성공했다. 그 결과 일반적인 고문헌 형태, 즉 가장 많이 쓰이는 해서체나 행서체 글자에 세로쓰기로 제작된 목판본 자료에 대해서는 95~100%(평균98%)란 높은 인식률을 구현하고 있. 또한 손글씨로 작성된 필사본의 경우에도 전문가도 판독하기 어려운 초서 자료가 아니라면 상당한 수준의 인식률을 보인다는 평가다.

한자 자동 텍스트화 기능과 함께 이미지에서 인식하여 텍스트로 출력한 한자 하나하나의 오인식 가능성에 대해 AI가 추천하는 유사 자형을 보여준다. 해당 자형에 해당하는 상세한 한자 정보(음·뜻·이체자·유니코드)를 같이 제공한다. 사용자는 한 화면에서 AI가 간혹 잘못 인식한 한자에 대해 AI가 추천한 유사 자형 중 하나를 택해서, 또는 다른 글자를 수정 입력창에 직접 입력해서 수정할 수 있다. 최종 결과물은 화면 상에서 부분을 카피하거나 전체를 텍스트 파일로 다운로드할 수 있다.



수작업 입력보다 높은 정확도를 유지하면서도 텍스트화 과정에 들어가는 인력과 시간과 비용을 획기적으로 절감할 수 있다.특히 한문 고문헌 자료를 다량 보유하고 있는 한국학 연구 기관, 대학과 연구소, 도서관, 문화원 등 각급 기관들의 경우 보유 고문헌의 텍스트화 및 데이터베이스 구축에 투입되는 노력과 비용을 1/10수준으로 줄일 수 있다.

고성능 한자OCR서비스를 개발 출시한 ㈜누리IDT는 지능형 데이터 전문기업으로 현재 한국고전번역원이 제공하고 있는 <한문고전 자동번역 서비스>를 지난 2017~2019년 3년간에 걸쳐 개발한 이력이 있는 곳이다. 다년간 주요 한국학 연구 기관들의 DB구축 사업을 수행한 바 있다.

누리IDT의 배성진 대표는 “최근 챗GPT등 초거대 모델 기반의 생성AI가 각광 받고 있지만, 정작 콘텐츠의 보고인 고문헌 자료는 여전히 AI기반의 자동 처리가 미치지 않는 영역으로 남아 있다“며 ”300만 점 이상으로 추산되는 국내 고문헌 자료는 약 50%정도가 디지털 원문 이미지로 구축되어 있을 뿐이고 텍스트 디지털화는 5%를 밑돌고 있다“고 설명했다.

이어 ”고문헌 한자OCR서비스가 적극 사용되어 원문의 텍스트화가 촉진되기를 바란다“며 ”고문헌 처리에 특화된 AI기반의 한문 자동표점과 자동번역 서비스를 단계적으로 개발, 누구나 쉽게 고문헌 자료를 읽고 데이터와 콘텐츠로서 활용할 수 있도록 하겠다”고 포부를 밝혔다.