23일 LG CNS에 따르면 전날 서울시가 공개한 ‘서울시민 라이프스타일 재현데이터’는 주민등록자료, 건축물대장, 민간 3사(신용정보회사, 카드사, 통신사)의 정보로 제작된 가명결합 데이터를 기반으로 생성했다.
서울시민 라이프스타일 재현데이터는 가명결합데이터 샘플을 전체로 확대·재현한 것이다. 원본의 통계적 특성은 유지하면서 개인정보 유출위험이 없이 382만 서울시민 가구(740만명)의 주거·소비·금융 패턴 등의 빅데이터 분석도 가능하다. 이를 정책 설계·분석·모델 개발 등 다방면에 활용할 수 있다.
이번 서울시 합성데이터 생성 사업은 가명정보와 합성데이터에 대한 높은 전문성을 필요로 했다. LG CNS는 결합된 가명정보를 기반으로 합성데이터를 생성함으로써 데이터의 활용성과 안전성을 한층 강화했다.
LG CNS는 유스케이스 설계부터 정교한 데이터 샘플링, 합성데이터 생성 모델 개발, 전·후처리 과정 등을 통해 대규모의 고품질 합성데이터를 생성했다. ‘서울시민 라이프스타일 재현데이터’는 범주형 데이터(특정한 범주로 구분되는 정성적인 데이터)와 수치형 데이터(측정 가능한 양적 정보를 숫자를 통해 나타낸 데이터)가 공존하는 정형데이터다.
‘서울시민 금융현황’과 ‘서울시민 소비 및 이동 패턴’ 등 두가지 주제의 데이터세트로 제공된다. ‘서울시민 금융현황’ 데이터의 경우 약 65개의 변수, 약 740만 건의 합성데이터로 이루어져 있다. 이 합성데이터를 활용하고 싶은 기관 및 시민들은 빅데이터캠퍼스에서 △성별 △생년월일 △직업 △추정연소득 △자산금액 △대출잔액 등 약 65개의 변수를 조합해 서울시민의 금융 현황 데이터를 분석하고, 인사이트를 얻을 수 있다. 예를 들어, 서울시민 금융현황 합성 데이터를 통해 △1인 가구의 다인가구 대비 연체 및 대출 통계량 분석 △가구구성원 수 및 세대주 연령대에 따른 주택담보대출 상환비중 분석 △1인 가구 자영업자 경제적 부담 분석 등을 진행해 볼 수 있다.
LG CNS의 성공적인 합성데이터 사업 배경에는 그간 LG CNS가 축적해온 데이터 기술력이 집약돼 있다. 정교한 합성데이터를 생성하기 위해서는 활용 목적에 적합한 실용성 있는 시나리오를 설계하는 노하우와 빅데이터, AI 기술력이 필수다. LG CNS는 2022년부터 가명 결합을 위한 결합전문기관, 데이터전문기관 서비스와 가명정보처리 컨설팅, 분석, 결합대상 데이터 중개 등 ‘가명 데이터결합분석 통합 서비스’ 사업을 본격화했다. 또한 카드, 은행, 신용평가, 통신, 유통, 모빌리티, 글로벌 빅테크 등 다양한 분야의 기업 파트너들과 함께 데이터결합분석 활용 유스케이스를 확보하면서 합성데이터 관련 전문성을 강화했다.
LG CNS는 지난해 7월 금융위원회로부터 ‘데이터전문기관’으로 지정됐으며, 앞선 2022년 7월에는 개인정보보호위원회로부터 결합전문기관으로 지정됐다. 금융·비금융을 총망라해 서로 다른 기관 간 가명정보 결합 서비스를 제공하며, 데이터 활용을 활성화하는 역할을 할 수 있다. 결합된 데이터를 확보한 기업 고객은 가치 있는 새로운 정보를 만들고 이를 통해 신규 고객서비스를 창출할 수 있다. 2021년 9월에는 금융위원회로부터 마이데이터 사업자 본허가를 획득하기도 했다. 이로써 LG CNS는 IT업계에서 유일하게 정부에서 인증하는 데이터 전문기업 3종인 ‘데이터전문기관’, ‘결합전문기관’, ‘마이데이터 사업자’를 모두 획득했다.
황윤희 LG CNS 데이터허브&플랫폼사업담당 상무는 “앞으로 모든 분야에서 개인정보 보호와 데이터 활용에 대한 중요성이 더욱 커질 것”이라며, “고객들이 LG CNS의 가명정보 결합, 합성데이터 역량을 통해 새로운 비즈니스 인사이트와 기회를 얻을 수 있도록 서비스를 확대할 계획이며, 이를 통해 차별적 고객경험을 제공하겠다”고 강조했다.