정부, AI학습 공개데이터 기준 내놨지만…스타트업들 "대기업에 유리"

[이데일리 최연두 기자] 생성형 인공지능(AI) 개발의 핵심 원료인 ‘공개 데이터’ 활용 시 필요한 안전조치를 담은 정부 차원의 안내서가 처음 공개됐다. 생성형 AI 개발 시 불확실성을 줄이는 데 도움을 주지만, 이제 겨우 시작 단계인데다 일부 내용이 모호하다는 점에서 갈 길이 멀어 보인다.

국내 AI 업계는 이를 두고 산업 발전을 저해하는 규제로 작용할 수 있다는 우려의 목소리를 내고 있다. AI 학습에 쓰이는 데이터는 종류와 관계없이 사용 가능토록 하는 일종의 포지티브 규제를 마련해야 한다는 주장도 나온다.

인공지능 관련 이미지(사진=픽사베이)

17일 개인정보보호위원회는 서울 종로구 정부서울청사에서 브리핑을 열고 자체 마련한 ‘AI 개발·서비스를 위한 공개 데이터 처리 안내서’를 공유했다. 안내서에는 AI 서비스 학습 시 공개 데이터를 더 안전하게 활용하기 위한 기술 및 관리 안전조치와 정보주체 권리보장 방안이 담겼다. 다만 개인정보위는 이번 안전조치가 기업 스스로 취사선택해 도입하는 자율규제라는 점을 강조했다.

공개 데이터는 커먼크롤(인터넷상의 데이터를 자동 수집해 누구나 접근하고 분석할 수 있도록 저장·유지·관리하는 공개 저장소)·위키백과·소셜미디어·블로그·웹사이트 등의 온라인 공간에서 끌어모은 정보를 말한다. 생성형 AI 모델을 고도화하는 데 쓰이는 필수 학습 데이터로 꼽힌다.

그동안 AI 업체들은 현행 보호법 상 공개 데이터 활용에 대한 명확한 기준이 없어 골머리를 앓아 왔다. 공개 데이터에는 주소나 고유식별 번호, 신용카드 번호 등의 개인정보가 포함되는 경우가 많은데, 이를 대규모로 처리하는 과정에서 정보주체의 개별적 동의를 얻기가 쉽지 않아서다. 자칫 서비스 상용 이후에 개인정보 문제가 생길까 우려해 미흡한 데이터로 AI를 학습하는 사례가 부지기수였다.

안내서에 따르면 개인정보보호법 제15조의 ‘정당한 이익’ 관련 조항에 따라 공개 데이터는 AI 학습과 서비스 개발에 활용될 수 있다. 또 개발 실무 단계에서 적용 가능한 기술 안전조치에는 △학습 데이터 수집 출처 검증 △개인정보 유·노출 방지 △미세조정을 통한 안전장치 추가 △프롬프트 및 출력 필터링 적용 등의 내용이 포함됐다. 정보주체의 권리보장을 위해서는 AI 생성 결과에 개인정보가 포함되는 경우 신속한 필터링, 미세조정 등 조치를 취하는 체계를 마련하거나 재학습 시 학습 데이터를 배제하는 등 시간·비용·기술적 측면에서 합리적으로 실현 가능한 범위 내 권리를 보장해야 한다.

다만 자율규제인 만큼 기업들은 이 가운데 취사선택해 필요한 조치만 이행하면 된다. 태현수 개인정보위 데이터안전정책과장 겸 AI프라이버시팀장은 지난 15일 사전 브리핑에서 “AI 학습 관점에서 공개 데이터 활용의 목적을 명확히하고 정보주체의 이익을 균형 있게 반영할 수 있는 통로를 마련했다”고 의미를 뒀다. 그는 “안내서가 제시하는 조치를 모두 이행할 필요는 없다”면서 “기업 특성에 맞게 스스로 자율적으로 결정해 최적의 조합을 찾아 도입, 시행하면 된다”고 덧붙였다.

그러나 AI 스타트업 업계는 이번 안내서 내용에 우려를 표하고 있다. 안내서의 4페이지에 대상 사업자 범위가 ‘개인정보 처리자의 지위를 갖는 AI 개발자 및 서비스 제공자’로 명시돼있는데, 관련 세부기준에는 ‘개인정보 처리자 해당 여부는 업무를 목적으로 개인정보 파일을 운용하기 위한 개인정보 처리인지 여부로 판단한다’고 적혀있다. 즉 AI 모델을 사용해 내·외부 서비스를 하는 일반 기업들까지 모두 대상이 될 수 있다는 점이 우려된다는 것이다.

한 AI 보안 스타트업 대표는 “업무 상 개인정보를 다루면 처리자로 규정한다는 건데, 사실상 모든 기업이 이에 해당할 수 밖에 없다”고 말했다. 이어 “AI 개발사가 제공하는 모델이나 오픈소스 거대언어모델(LLM) 기반 솔루션 제공 업체를 포함한 모든 기업들이 안내서의 영향권 안에 있다는 얘기”라고 부연했다. 아울러 개인정보위는 이번 안내서가 의무사항이 아니라고 강조하고 있지만, 결국 일종의 의무 사항으로 적용돼 대기업에 비해 여력이 부족한 스타트업들이 AI를 학습시키기 더 어려워질 것이라는 점에도 불안해 했다.

이와 관련 개인정보위 관계자는 “1차적으로는 오픈AI와 메타, 구글 등의 LLM 개발사가 가이드라인에 적용 대상”이라면서 “만약 이 모델을 도입해 공개 데이터를 추가로 학습시키는 업체들이 있다면, 그들 역시 안내서 참고 대상인 것은 맞다. 다만 AI를 도입하는 양상이 다양해서 단정적으로 말하긴 어렵다”고 설명했다.

한편 자체 언어모델을 확보하고 있는 한 스타트업 대표는 AI 사전학습시 데이터 지위에 대한 가이드라인을 마련했다는 부분에 큰 의미를 뒀다. 다만 그는 “안내서가 아직 모호한 부분이 있어 앞으로 기술 발전에 따라 업데이트가 필요하다”면서 “한국 보호법 등 규정이 유럽연합(EU)의 개인정보 보호규정(GDPR) 보다 요구하는 것이 더 많다. 궁극적으로는 글로벌 표준에 부합하도록 법이 개정돼야 한다”고 지적했다.