키워트, 세계최초 AI 특허언어 모델 'PAT-BERT' 개발
by이윤정 기자
2021.12.01 14:17:13
국내외 2100만 건 특허데이터를 학습한 AI 특허언어 ''PAT-BERT'' 개발
분류, 검색, 분석, 번역, 검색식 자동생성, 도면인식 등 특허데이터 기반
[이데일리 이윤정 기자] 글로벌 특허검색엔진 ‘키워트(keywert)’를 운영하는 워트인텔리전스는 AI 특허언어 모델 ‘PAT-BERT’를 세계 최초로 개발했다고 1일 밝혔다.
PAT-BERT는 AI 석박사로 구성된 워트인텔리전스 연구센터에서 수년간의 연구를 통해 총 2100만 건 상당의 특허데이터와 100억 개 토큰의 특허정보를 활용하여 개발에 성공했다. PAT-BERT는 1.4TB의 대용량 특허 데이터에서 중요 내용을 추출한 150GB의 코퍼스를 사용하였다. 이는 국내외 유수 기업의 언어처리 모델과 비교했을 때도 압도적인 크기의 데이터 사이즈를 보여준다.
워트인텔리전스 관계자에 따르면 “PAT-BERT는 기존 버트(BERT)를 활용하여 일반적으로 진행하였던 파인튜닝이나 데이터 일부를 추가로 학습시켜서 정확도를 높이는 방법과는 차원이 다르다”며 “특허데이터의 분류, 검색, 분석, 번역, 검색식 자동생성, 도면인식 등 특허데이터에 기반을 둔 모든 AI모델의 성능 향상에 활용될 수 있다는 점에서 파급력 높은 특허언어 모델의 최고 기술”이라고 설명했다.
이상준 숭실대 교수는 “AI 연구분야 중 핵심이라 할 수 있는 자연어 처리에 있어 특정영역에 버트 등 범용 랭귀지 모델만을 활용하는 방식에는 한계가 있다”며 “PAT-BERT 와 같이 특허언어에 최적화 된 언어 모델 개발은 산업계에 큰 영향을 주는 대표적인 사례”라고 말했다.
신정훈 워트인텔리전스 박사(CTO)는 “대용량 특허 데이터를 활용하여 PAT-BERT 모델을 구축하고 여러 차례 모델 검증을 한 결과 특허 도메인에서 기존 버트모델 보다 우수한 성능을 보였다”며 “PAT-BERT 모델 개발이 다른 산업에서도 AI 연구를 촉진시키고 기술개발에도 도움을 주는 선한 영향력을 끼칠 것”이라고 전했다.
한편 PAT-BERT에 대한 자세한 내용은 키워트 네이버 블로그 ‘키워트의 IP노트’에서 확인할 수 있다.