AI 학습용 데이터 어쩌란 말인가…‘이루다’발 후폭풍

by김현아 기자
2021.04.28 20:05:43

학습용 데이터, 어디까지 가명처리해야 할까?
어디까지 동의받아야 하는가?
개인정보위 이루다 제재에 AI 개발사들 긴장

[이데일리 김현아 기자]

(그래픽=이데일리 이동훈 기자)


인공지능(AI) 챗봇 ‘이루다’. 제대로 된 동의 없이 개인정보를 수집하고, 수집 목적 외에 데이터를 이용한 혐의로 1억원이 넘는 과징금·과태료 처분을 받았다. 개인정보보호위원회는 28일 스캐터랩에 대해 총 1억330만원의 과징금·과태료 처분을 내렸다.

개인정보위는 스캐터랩이 자사의 앱 서비스인 ‘텍스트앳’과 ‘연애의 과학’에서 수집한 60만명의 카카오톡 대화를 이용하면서 ①대화에 포함된 이름, 휴대전화번호, 주소 등의 개인정보를 삭제하거나 암호화하는 등의 조치를 전혀 하지 않았다고 판단했다.

또 ②개인정보 수집 과정에서 표기한 ‘신규 서비스 개발’의 문구 만으로는 이용자가 이루다 개발 및 운영에 카톡 대화가 이용될 것이라고 예측하기 어려우니 수집목적을 벗어나 이용한 것으로 봤다.

이밖에 ③법정대리인 동의 없이 만 14세 미만의 개인정보를 수집한 행위 ④탈퇴 회원의 개인정보를 파기하지 않은 행위 ⑤1년 이상 서비스 미사용자의 개인정보를 파기 및 분리·보관하지 않은 행위도 법 위반으로 지적했다.

위의 5가지 경우 중 ③, ④, ⑤번은 개인정보보호법 위반이 확실하다는 평가다.

이루다는 페이스북 메신저로 수집했는데 페이스북은 14세 미만은 이용이 불가하게 돼 있어 따로 부모 동의를 받지 않았다든지, 텍스트앳과 연예의과학 앱은 앱마켓에서 성인 승인 없이 설치 못하니 신경쓰지 않았다든지 하는 것은 변명에 불과하다.

왜냐하면 이루다 회원에 14세 미만이 존재했기 때문이다. 여기서만 이루다는 과징금 2820만원, 과태료 2300만원을 부과받았다.

하지만 ①번과 ②번은 논란이다. 이루다가 AI 학습용 데이터를 수집할 때 어디까지를 가명처리하고 어디까지 동의받아야 하는가의 문제다.

먼저 가명처리 문제다. 이루다는 스캐터랩의 또다른 서비스인 ‘텍스트앳’과 ‘연애의과학’에서 수집한 60만 명의 카카오톡 대화를 이용했다.



그런데 이루다가 택스트앳 가입자의 이름과 카톡 대화 내용을 전부 암호화하지 않고 그대로 이용한 건 아니다.

이루다는 대화 파일의 식별자(고객번호 등)는 암호화했다. 문제는 대화 내용을 암호화하지 않은 부분이다.

이루다측 마경태 법무법인 태평양 변호사는 “법원은 트위터에 입력된 정보 전부를 진실이라 담보할 수 없다고 봐서 개인정보가 포함될 순 있지만 전체를 개인정보라 할 수 없다고 판시한 바 있다”며 “AI 학습DB와 응답후보DB를 둘다 가명화하고 응답후보DB는 특히 익명정보라 할 수 있을 정도로 가명화를 철저히 했다”고 말했다. 응답 후보 데이터에 수록된 정보 중 문제가 된 정보들(주소 등)조차 누구의 개인정보인지 확인되지 않는다는 취지다.

하지만 개인정보보호위원회는 자율주행차 학습 데이터에서 사진을 이용할 때 번호판이나 사람을 가리듯이 식별자(정형데이터)뿐 아니라 AI 학습에 필요한 비정형데이터(카카오톡 대화 내용)도 가명처리 해야 한다고 밝혔다.

송상훈 개인정보위 조사조정국 국장은 “응답DB는 상당히 필터링돼 있었지만 학습DB는 안 해서 가명처리 기준을 적용하기 어려웠다”며 “결론적으로 정형데이터뿐 아니라 카카오톡 대화 내용 같은 비정형 데이터도 가명 처리해야 다른 서비스를 만드는 데이터로 쓸 수 있다”고 설명했다.

최경진 가천대 교수는 “현재 개인정보보호법에서는 비정형 데이터에 약간이라도 남았으면 그것을 다 찾아내 가명화해야 한다”며 “다만 기술적으로 쉽지 않은 부분이 있어 개인정보보호위원회가 (스타트업들의 AI 개발을 위해) 합리적인 기준을 열어줘야 한다. 그렇지 않으면 다른 법률에서 AI학습용데이터는 개인정보보호법에서 배제하자는 이야기가 나올 우려도 있다”고 말했다.

두번째 논란은 동의 문제다. 이루다는 ‘텍스트앳’과 ‘연애의 과학’ 이용자들의 이용약관에 개인정보를 ‘신규 서비스 개발’에 이용할 수 있다는 걸 넣었다. 그런데 개인정보위는 이용자는 자신의 카톡 대화가 이용될 것이라고 예측하기 어려운 만큼 수집 목적을 벗어난 이용이라고 판단했다.

이루다측 마 변호사는 “챗봇 이루다는 텍스트앳, 연애의 과학 같은 대화 분석 서비스와 본질적으로 같다”며 “머신러닝으로 대화를 분석해 이용자 성향을 파악하고 적절한 반응을 보여주기 때문”이라고 말했다. 그는 “대화분석 알고리즘을 고도화하는 과정에서 기존 데이터를 수집하는 사례는 흔하다. 신문고 민원 시스템과 119 접수 시스템이 대표적”이라고 부연했다.

그러나 개인정보위의 판단은 달랐다. 앞으로 개발사들은 단순히 ’신규 서비스 개발’이 아니라 ‘AI 학습용으로 쓴다’, ‘IoT 개발을 위해 쓴다’ 등으로 구체화해 제시해야 한다는 의미다. 다만, 케이스마다 다른 만큼 AI 개발 회사들로서는 헷갈릴 수밖에 없다.

이를 고려한 듯 개인정보위는 AI 개발사들을 위해 ‘자율점검표’를 제시할 예정이나, 누구라도 사회적으로 논란이 되면 제2의 이루다가 될 가능성을 배제하긴 어렵다.

최 교수는 “약간의 우려는 사회적인 논란이 된 이루다만 타깃이 된 것 아닌가 하는 점”이라며 “다른 사업자들은 모두 과연 적법하게 하고 있다고 볼 수 있을까. 제도 개선의 문제가 아니라 본보기의 문제로 가면 과연 바람직할까하는 생각도 든다”고 언급했다.