X

[일문일답]"이루다, 카톡 대화내용 암호화 없이 그대로 사용…아동 정보도 수집"

이 기사 AI가 핵심만 딱!
애니메이션 이미지
이후섭 기자I 2021.04.28 16:47:58

개인정보위, 이루다 조사결과 관련 브리핑
"응답DB에서 카톡 대화내용 변형없이 그대로 외부로 노출"
회원 가입시 14세 미만 성별, 연령 등 정보도 추가 수집해
"탈퇴회원 정보는 당연히 파기해야…개인정보위와 협의해 파기 이행"

송상훈 개인정보보호위원회 조사조정국 국장이 28일 오후 서울 종로구 정부서울청사 3층 합동브리핑룸에서 이루다 조사결관 관련 브리핑을 하고 있다.(사진=개인정보보호위원회 제공)


[이데일리 이후섭 기자] 개인정보보호위원회는 28일 제7회 전체회의를 열고 인공지능(AI) 챗봇 `이루다` 개발사 스캐터랩에 대해 총 1억330만원의 과징금과 과태료 등을 부과했다.

개인정보위 조사 결과 스캐터랩은 자사의 앱 서비스인 `텍스트앳`과 `연애의 과학`에서 수집한 카카오톡 대화를 2020년 2월부터 2021년 1월까지 페이스북 이용자 대상의 챗봇 서비스인 이루다 AI 개발과 운영에 이용한 것으로 확인됐다.

스캐터랩은 이루다 AI 모델의 개발을 위한 알고리즘 학습 과정에서 카카오톡 대화에 포함된 이름, 휴대전화번호, 주소 등의 개인정보를 삭제하거나 암호화하는 등의 조치를 전혀 하지 않고, 약 60만명에 달하는 이용자의 카카오톡 대화문장 94억건을 이용했다.

이루다 서비스 운영 과정에서는 20대 여성의 카카오톡 대화문장 약 1억건을 응답 데이터베이스(DB)로 구축하고, 이루다가 이 중 한 문장을 선택해 발화할 수 있도록 운영했다.

스캐터랩의 개발자들이 코드 공유 및 협업 사이트로 알려진 깃허브(Github)에 2019년 10월부터 2021년 1월까지 이름 22건(성은 미포함)과 지명정보(구·동 단위) 34건, 성별, 대화 상대방과의 관계(친구 또는 연인) 등이 포함된 카카오톡 대화문장 1431건과 함께 AI 모델을 게시한 것도 확인했다.

다음은 이날 송상훈 개인정보보호위원회 조사조정국장, 배상호 개인정보위 조사2과장과의 일문일답이다.

-개인정보 유출 관련 과징금 산정은 관련 매출액의 3% 내로 규정하는데 이루다 관련 매출은 없는 것으로 안다.

△이루다에는 직접적인 매출액이 없지만, 텍스트앳과 연애의 과학 서비스에서 수집된 카카오톡 대화문장을 이용한 점과 이루다를 비롯해 텍스트앳, 연애의 과학 서비스를 관리하는 조직·인력 운영이 같다는 점을 고려해 텍스트앳과 연애의 과학의 1년간 매출액을 관련 매출액으로 판정해 과징금을 부과했다.

또 텍스트앳과 연애의 과학 내 개인정보 처리 관련 △개인정보 수집 과정에서 정보주체에게 명확하게 인지할 수 있도록 알리고 동의받지 않은 행위 △법정대리인 동의 없이 만 14세 미만의 아동의 개인정보를 수집한 행위 등 개인정보보호법 위반행위에 대해 과태료·과징금을 부과했다.

-과징금을 부과하는 과정에서 감경 요인은 없었나.

△과징금 부과 기준에 따라서 추가적인 가중·감경 과정을 다 거쳐 산정된 금액이다. 스캐터랩이 최근 3년간 과징금 부과 처분을 받은 적이 없어 감경했고, 개인정보위 조사에 최대한 적극적으로 협력한 부분은 감안해 10% 감경 처분했다.

-학습 데이터베이스(DB)응답 DB 관련 가명처리 수준에 대해 개인정보위 판단과 스캐터랩의 주장이 다르다. 개인정보위는 회원 식별자만 삭제·암호화 조치를 했다고 판단한 반면, 스캐터랩은 학습 DB와 응답 후보 DB 모두 가명화하고 특히 응답DB는 익명 정보라 할 수 있을 정도로 철저히 가명화 처리를 했을 뿐더러 발화 데이터 700만건 중 3~4건만 문제가 됐다고 주장했는데.

△조사 과정에서 학습 DB의 경우 회원의 식별성이 있는 정보에 대해서는 가명처리, 일종의 비식별 조치를 취한 것을 확인했다. 하지만 카카오톡 대화 내용에 대해서는 일절 가명처리를 하지 않았기에 이 부분에 대해서는 가명정보에 해당이 되지 않는다고 판단했다. 응답 DB 같은 경우는 실제 발화된 부분은 약 700건 정도 있는데, 발화 여부를 떠나 응답 DB 자체가 카카오톡 대화 내용을 변형없이 그대로 발화시킨 부분이 개인정보에 해당이 된다고 판단했다. 원천 DB인 연애의 과학이나 텍스트앳에 있는 DB와 비교하면 누가 해당 발화를 했는지에 대한 회원 정보를 분석해 낼 수 있어 개인정보로 판단했다.

-법정대리인 동의 없이 만 14세 미만의 아동의 개인정보를 수집한 행위는 얼마나 많이 이뤄졌나? 이루다 가입 과정에서 만 14세 미만 아동이 걸러지지 않은 것인가.

△텍스트앳은 4만8000명, 연애의 과학은 12만명, 이루다의 경우 3만9000명 정도의 만 14세 미만 아동 개인정보를 수집한 것으로 파악했다. 이루다가 페이스북을 기반으로 한 메신저 서비스이기에 페이스북 자체가 만 14세 미만 아동의 이용이 불가능하기에 아동 개인정보를 수집한 것으로 보기 어렵다는 것이 스캐터랩의 입장이었다. 하지만 페이스북 메신저를 통해 이루다 회원으로 가입할 때 가입회원의 성별, 연령 등의 정보를 추가적으로 스캐터랩이 수집했다. 이런 부분에서 만 14세 미만의 아동 개인정보를 수집한 것으로 봤다. 지금 이분은 시정하고 있는 중으로 알고 있다.

-연애의 과학을 통해 개인정보가 유출당했다고 주장하는 피해자들은 데이터 파기를 요구하는데, 개인정보위의 입장은 어떠한가.

△개인정보보호법을 위반해 수집목적을 달성한 부분에 대해서는 당연히 파기해야 된다고 본다. 또 탈퇴한 회원의 정보도 파기를 하라고 판단했고, 1년 이상 서비스 미사용자는 파기하거나 분리·보관하도록 법에서 규정하고 있다. 일부 손해배상청구소송을 제기한 사용자들이 법원에 증거 보전을 신청해 받아들여졌는데, 원칙적으로 탈퇴 회원의 정보는 법 규정에 따라 파기되는 것이 맞다고 판단하고 있다. 다만 시정조치를 할 때 여러 사정을 고려해 개인정보위와 협의해 파기 조치를 이행하도록 할 예정이다.

-경찰에 추가 수사의뢰를 할 계획이 있나.

△법령에 따라 고발기준을 운영하고 있는데, 이번 스캐터랩의 법 위반 행위는 해당되지 않기에 고발하기 않기로 했다.

-카카오톡 대화를 제공할 때 제공자와 상대방 대화까지 함께 넘어갔는데, 이 부분에 대해 개인정보위는 어떻게 판단했나.

△위원회에서는 대화의 일방 당사자가 입력한 카톡의 대화는 대화 상대방의 회원정보를 함께 수집하지 않는 이상 이를 제공한 일방 당사자의 개인정보로 수집된 것으로 보고 있다. 이루다의 경우 응답 DB에서 상대방 대화까지 그대로 발화한 부분이 있는데, 외부로 노출할 떄는 적어도 동의를 받든지 익명정보로 처리해야 하는데 그런 부분이 이뤄지지 않았기에 법 위반으로 판단했다.

-수집 목적을 벗어나 이용하는 게 문제라고 했는데, 개인정보보호법 개정안에 따르면 동의만 받으면 다른 서비스 개발에 이용할 수 있는 것은 아닌가.

△현행법에서도 수집목적에 따라 이용할 수 있는 부분은 크게 두 가지가 있다. 우선 이러이러한 부분으로 수집된 정보를 이용하겠다는 별도 동의를 받으면 충분히 이용 가능하다. 정보주체 동의를 받지 못할 상황에서는 가명처리를 거쳐 가명정보가 된다면 통계 목적, 과학적인 연구, 공익 기록의 범주 내에서 활용할 수 있다고 규정하고 있다.

-이번 조사결과가 AI 가이드라인에 어떻게 반영되나.

△위원회는 개인정보보호법 취지에 따라 개인정보를 보호만 하는 게 아니고 활용도 같이 조화롭게 가는 방향으로 일을 진행하고 있다. 조만간 AI 서비스에 대한 개인정보보호 자율점검표를 발표한 예정인데, 기업이 AI 모델 개발이나 운영에 있어 어떤 때에는 어떻게 개인정보를 보호해야 하고, 어떻게 활용해야 되는가 등에 대해 각각의 기준별로 구분해 지침을 확인할 수 있는 점검표를 만들 계획이다. 점검표와 더불어 AI 기술 기업에 대한 현장 컨설팅을 적극 지원할 계획이다.

-스캐터랩이 주장하는 것처럼 가명정보 처리를 철저히 해도 개인정보 유출이 일어나는 상황은 어떻게 대처할 수 있는지?

△어느 범위까지 가명처리를 해야 제대로 된 가명정보로 볼 수 있느냐 하는 부분은 개별 사안별로 해당 여건 등을 고려해 판단할 수 밖에 없다. 획일적으로 기준을 정하기는 굉장히 어렵다고 이번에 심의를 진행하면서 느꼈다. 참고로 이루다의 응답DB와 관련 서비스 개발까지는 과학적 연구에 포함돼 가명정보 이용이 가능하지만, 외부로 노출한 부분에 대해서는 과학적 연구에 해당되지 않는다고 판단했다. 이루다와 같이 외부로 공개하기 위해서는 이용자 동의를 받든지, 아니면 익명화한 익명정보를 이용해야 한다.

이 기사 AI가 핵심만 딱!
애니메이션 이미지지

주요 뉴스

ⓒ종합 경제정보 미디어 이데일리 - 상업적 무단전재 & 재배포 금지