“그림 안의 글씨도 빅데이터로”…업스테이지, 차세대 OCR 모델 공개
by김세연 기자
2024.10.17 09:48:42
레이아웃, 표 등 복잡한 형태의 문서도 텍스트 형식으로 전환
[이데일리 김세연 기자] AI 스타트업 업스테이지가 대형언어모델(LLM)로 처리가 가능한 차세대 OCR 모델 ‘Document Parse’를 공개했다고 17일 밝혔다.
이번에 공개된 모델은 기존 OCR 기술에서 명확하게 인식하기 어려웠던 복잡한 형태의 문서도 컴퓨터가 읽을 수 있는 텍스트로 전환한다. 그림 형식으로 인식되는 여러 열의 레이아웃이나 표 안의 글씨도 텍스트 형식으로 전환해 LLM에 바로 활용할 수 있다.
이 모델은 DOCX, PDF, PPTX, PNG 등 업무에 사용하는 9가지의 문서를 처리할 수 있을 뿐만 아니라 수식을 인식하거나 이미지를 추출하는 기능도 가지고 있다.
또한 OCR로 데이터를 인식할 때 마크다운 형식을 사용해 기존 데이터보다 크기를 줄일 수 있다.
김성훈 업스테이지 대표는 “Document Parse는 각 기업이 가진 기존 문서를 정확하게 자산화시켜 실제 업무에 효율적으로 적용하는 최적의 도구”라며 “다양한 비즈니스에서 활용돼 업무 혁신을 현실화할 것”이라고 밝혔다.
한편 업스테이지는 2023년 공식적으로 OCR 서비스를 선보인 직후 글로벌 최고 권위의 AI OCR 경진대회인 ‘ICDAR’에서 아마존과 엔비디아 등의 빅테크 기업을 제치고 1위를 차지했다.