|
조사 결과, 구글·메타·오픈AI 등 세 곳은 자체 AI 모델을 학습시킬 때 크롤링 데이터에서 주민번호 등 주요 식별정보를 사전 제거하는 조치를 충분하게 진행하지 않았다. 크롤링 데이터는 웹사이트나 소셜미디어 등 온라인 공간에 퍼져있는 각종 데이터를 대량으로 수집한 것으로, 주로 AI 거대언어모델(LLM) 학습에 쓰인다.
강대현 개인정보위 조사1과장은 이날 브리핑에서 “인터넷에 공개된 오픈 데이터를 AI 모델 개발에 활용하는 과정에서 우리 국민의 주민번호나 신용카드번호와 같은 개인식별정보가 우발적으로 포함돼 학습될 수 있다는 점을 확인했다”고 강조했다.
이어 “식별정보를 우선 배제한 다음 AI를 학습하는 방식을 취하고는 있지만, 이 정도 수준으로는 우리 국민들의 중요한 식별 정보들이 AI 학습 데이터에 포함되는 것을 완전하게 차단하지는 못한다. 철저한 개인정보 사전제거 조치가 미흡하게 이뤄진 측면이 있다고 봤다”고 설명했다.
개인정보위는 이번 조사 대상 업체 6곳에 AI 서비스 제공 단계별 보호조치를 강화하라고 요구했다. 또한, AI 사전 학습단계에서 개인 식별정보 등이 제거될 수 있도록 인터넷에 한국 이용자의 개인정보를 탐지한 데이터를 AI 사업자에게 제공할 계획이다.
개인정보위는 이용자가 AI와 질의응답 등을 진행하는 과정에서 실수로 넣은 개인정보에 대한 처리도 권고했다. 개인정보위에 따르면 작년 12월30일부터 올해 1월5일까지 국내 이용자가 특정 AI 서비스에 입력한 데이터 가운데 △전화번호 672건 △이메일 주소 142건 △여권번호 34건 △주민번호 2건 등 개인정보가 총 850건에 달했다.
강대현 과장은 “개인정보나 이메일 등 민감한 내용을 입력하거나 AI 서비스 제공자가 식별자 및 개인정보 제거 등 조치 없이 해당 정보를 데이터베이스(DB)화할 경우, 사생활 침해로 이어질 위험이 있다”고 말했다.
AI 모델 등 개선 목적으로 이용자 입력 데이터에 대한 인적 검토 과정을 거치는 경우 이용자에게 관련 사실을 명확하게 고지하는 한편, 이용자가 입력 데이터를 손쉽게 제거·삭제할 수 있도록 해당 기능에 대한 접근성을 제고하도록 권고했다.
강 과장은 “향후 AI 모델의 고도화, 오픈소스 모델의 확산 등 새로운 AI 기술·산업 변화에 맞춰 정보주체의 개인정보를 안전하게 보호할 수 있도록 지속적으로 모니터링 하겠다”고 했다.
개인정보위는 SK텔레콤 ‘에이닷’ 등 소비자 대상(B2C) 및 기업 대상(B2B) 서비스 제공 사업자 5곳에 대한 조사 결과는 상반기 내 공개할 방침이다.