"이러다 금값될라"…AI업계, 고품질 데이터 확보 경쟁 '치열'

김현아 기자I 2024.08.01 16:06:33

오픈AI, WSJ와 콘텐츠 라이선스 계약
AI 학습용 데이터 확보 전쟁
국내 AI 기업들, 저작권과 데이터 비용 부담에 고전
셀렉트스타, 로앤컴퍼니 데이터 보유업체와 제휴

[이데일리 김현아 IT전문기자] 인공지능(AI) 학습용 데이터 확보 문제가 전세계적인 이슈로 떠오르고 있다. 오픈AI가 월스트리트저널(WSJ) 소유 기업인 뉴스 코퍼레이션과 5년간 총 2억5000만 달러(한화 약 3400억 원) 규모 콘텐츠 라이선스 계약을 체결한 가운데 국내 AI 기업들도 고품질 데이터를 보유한 출판사 등과 제휴를 활발히하는 모습이다. 이들은 개인정보보호법과 저작권법을 준수하면서도 데이터를 확보할 수 있는 방안을 적극 모색하고 있다.

이와 함께 데이터 판매업이라는 새로운 비즈니스 모델도 탄생했다.

[이데일리 방인권 기자] 김세엽 셀렉트스타 대표 인터뷰
김세엽 셀렉트스타 대표는 최근 인터뷰에서 데이터 판매 사업이 큰 성과를 거두고 있다고 밝혔다. 그는 “과거에는 인터넷에서 데이터를 크롤링(온라인 데이터를 자동 수집하는 것)해 사용했지만, 최근에는 법적 분쟁을 피하기위해 기업들이 명확한 라이선스를 취득하려는 수요가 증가하고 있다”고 설명했다. 특히 대기업들은 무단으로 데이터를 사용하는 대신 비용을 지불하고 라이선스를 확보하는 방향으로 전환하고 있다.

이에 발맞춰 셀렉트스타는 데이터 보유 기업과 AI 기업을 연결하는 중개 역할을 수행하고 있는데, 지난해 4분기부터 시작한 데이터 라이선스 사업에서 현재까지 약 25억 원의 매출을 기록했다.

김 대표는 “대량의 정제된 코퍼스 데이터는 거대언어모델(LLM) 학습에 매우 중요한 자원으로, 웹 크롤링 데이터보다 훨씬 높은 가치를 가지고 있다”고 강조했다. 셀렉트스타는 라이선스 보유 업체와 협력해 방대한 코퍼스 데이터를 AI 기업에 공급하며, 데이터 판매 시 저작권 문제가 해결된 라이선스 확인서를 기업에 제공해 데이터 저작권 문제를 명확하게 해결하고 있다.

로앤컴퍼니가 72년 전통의 출판 명가 박영사와 법률 AI 발전을 위한 전략적 동맹을 체결했다고 6월 27일 발표했다. 리걸테크 기업과 출판사 제휴는 처음이다. 사진=로앤컴퍼니
리걸테크 기업 로앤컴퍼니도 72년 전통의 출판사 박영사와 전략적 제휴를 맺고 법률 AI 학습용으로 박영사의 최신 법률 서적 1350종, 총 100만 페이지에 달하는 콘텐츠를 독점 활용할 계획이다. 김본환 로앤컴퍼니 대표는 “(법률 AI 비서인) 슈퍼로이어는 수십 년간 축적된 박영사의 고품질 콘텐츠를 활용하는 국내 유일의 법률 AI 기반 서비스가 될 것”이라고 밝혔다. 안종만 박영사 회장은 “로앤컴퍼니와 협업해 시대 변화에 맞춘 미래지향적인 법률문화를 조성하며, 국가와 사회에 기여하는 기업이 되고자 한다”고 포부를 전했다.

그러나 셀렉트스타나 로앤컴퍼니처럼 라이선스 보유 업체와 제휴해 데이터를 확보한 기업들은 운이 좋은 편이다. 대부분의 국내 스타트업들은 AI 개발에 있어 저작권 문제와 데이터 비용이 큰 장애물로 작용하고 있다.

구태언 법무법인 린 변호사는 “한국에서는 AI 개발이 더디게 진행되고 있는데, 주된 이유는 데이터 확보의 어려움과 높은 비용”이라고 지적했다. 그는 “미국은 모든 판례와 공공데이터가 공개되어 있어 AI 개발이 상대적으로 용이하지만, 한국에서는 데이터 확보가 매우 어려운 상황”이라며 “법률 AI 개발을 위해 대법원에서 판례를 구매해야 하는데, 한 건당 천 원씩 지불하려면 수백억 원의 비용이 들 수도 있다”고 우려했다.

주요 뉴스

ⓒ종합 경제정보 미디어 이데일리 - 상업적 무단전재 & 재배포 금지