"허락없이 쓰지마" 생성AI 경쟁이 불러온 데이터 소유권 갈등

by김국배 기자
2023.04.21 18:41:10

머스크 "MS가 트위터 데이터 불법 사용해 AI 훈련"
게티이미지, 스테이블 디퓨전 고소…레딧, 데이터 API 유료화
AI 개발업체 학습 데이터 투명성 떨어져
"AI 데이터 학습 위한 저작권 유연화" 목소리도

[이데일리 김국배 기자] 생성 인공지능(AI) 개발 경쟁이 치열해지면서 AI 모델 학습에 사용되는 데이터 소유권이 화두로 떠올랐다. ‘GPT’ 같은 AI 모델을 개발하기 위해선 대량의 학습 데이터가 필요한데, 빅테크나 AI 스타트업들이 소셜 미디어(SNS) 등 인터넷에서 데이터를 수집하면서 데이터 소유 기업들과 갈등을 벌이고 있는 것이다.

일론 머스크 트위터 CEO / 로이터


일론 머스크 트위터 최고경영자(CEO)는 지난 20일(현지시간) 마이크로소프트가 허락 없이 AI 모델을 학습시키는 데 트위터 데이터를 사용했다고 주장하며 법정 다툼을 예고했다. 머스크는 이날 “그들(MS)은 트위터 데이터를 사용해 불법적으로 AI를 훈련시켰다”며 “이제 소송할 시간(Lawsuit time)”이라는 트윗을 올렸다. 앞서 머스크는 지난해 말 “오픈AI가 AI 학습을 위해 트위터 데이터베이스에 접근할 수 있다는 것을 알게 됐다”며 이를 막겠다고 밝힌 바 있다.

AI 학습 데이터 소유권을 둘러싼 논란은 이번이 처음이 아니다. 지난 1월 미국 게티이미지는 이미지 생성 AI ‘스테이블 디퓨전’을 개발한 스태빌리티AI가 AI 모델을 학습시키기 위해 12만 장 이상의 게티이미지 사진을 멋대로 사용했다고 고소했다. 또 다른 이미지 생성 AI 업체 미드저니는 미국에서 세 명의 예술가들에 의해 집단 소송을 당했다. 생성 AI 개발로 인한 데이터 소유권 논란이 끊이지 않고 있는 것이다.



아예 AI 모델 학습에 제공되는 데이터에 비용을 청구하겠다는 사례도 나오고 있다. 미국 온라인 커뮤니티 레딧은 18일(현지시간) 레딧의 이용자 간 대화(데이터)를 AI 모델에 제공하는 데 사용하는 API를 유료화하겠다는 계획을 밝혔다.

잇단 데이터 소유권 갈등이 벌어지는 건 이유 중 하나로는 수많은 웹사이트가 AI 학습에 사용되지만, 오픈AI 등 AI 업체들이 AI가 학습하는 데이터에 대해 자세히 공개하지 않고 있다는 점이 꼽힌다. 즉, 투명성이 떨어진다는 얘기다. 실제로 한국의 개인정보보호위원회도 오픈AI의 챗GPT 모델에 한국어 데이터가 활용됐는지 등 파악에 나선 상황이다.

국내에서는 아직 AI 학습 데이터 소유권 문제가 크게 논란이 되지 않았지만, 생성 AI 개발 경쟁으로 언제든 불거질 수 있다는 관측이 나온다. 업계 관계자는 “생성 AI를 둘러싼 데이터 소유권, 저작권 등에 대한 법적 갈등도 본격적으로 시작될 것”이라고 했다.

한국인공지능법학회장을 맡고 있는 최경진 가천대 교수는 “기업들은 저작권 침해 가능성을 우려해 학습 데이터를 투명하게 공개하지 않고, 투명성이 확보되지 않으니 저작권법 준수가 잘 안 되는 악순환의 고리가 만들어지는 것”이라며 “결국 AI 데이터 학습을 위한 저작권 이용은 유연화하되, 저작권자 이익을 보호하는 생태계 개선이 함께 이뤄져야 한다”고 말했다.