"서울 2인가구, 온라인보다 편의점…합성데이터로 분석해냈죠"
by임유경 기자
2024.04.03 14:51:00
LG CNS 황윤희 상무·노혜진 팀장 인터뷰
서울시 라이프스타일 재현데이터 생성사업 완료
AI 학습 등 합성데이터 수요 늘어…시장 선점 포부
[이데일리 임유경 기자] “서울에 혼자 사는 사람은 편의점보다 온라인 쇼핑을 더 많이 하는데, 2인 가구인 경우에는 그 반대에요. 가명 처리된 800만 서울시민의 생활 데이터에 기반해 새로운 가상의 데이터를 합성해서 분석한 결과죠. 이런 대형 데이터를 가지고 개인정보 우려 없이 현실 세계를 90% 이상 반영한 합성데이터를 만든 사례는 국내에서 유일합니다.”
LG CNS 데이터허브 플랫폼 사업담당 황윤희 상무와 노혜진 팀장은 지난 1일 서울 강서구 마곡동 LG CNS 본사에서 진행한 인터뷰에서 최근 완료한 ‘서울시민 라이프스타일 재현데이터’ 생성 사업 성과를 소개하며 이같이 말했다.
| LG CNS 데이터허브 플랫폼사업담당 황윤희 상무(왼쪽)와 노혜진 팀장(사진=LG CNS) |
|
LG CNS와 서울시는 최근 시가 보유한 주민등록자료, 건축물대장 등 시민 생활 정보와 신용정보회사, 카드사, 통신사가 보유한 시민의 금융, 소비 정보를 기반으로 서울 시민의 라이프 스타일을 반영한 합성데이터를 생성해 공개했다. 합성데이터는 원본 데이터를 가명처리한 후 통계 모델에 학습시켜 실제 데이터와 유사한 통계적 특성을 가진 가상의 데이터를 새롭게 만들어 낸 것이다.
노 팀장은 “데이터를 활용하려는 수요는 많지만 기업들이 개인정보 관련 법·규제 이슈와 데이터 수집에 들어가는 비용·시간 문제에 부딪히면서, 개인정보 침해 우려가 없는 합성데이터에 대한 관심을 높이고 있다”고 설명했다.
서울시민 라이프스타일 재현데이터는 보유한 양질의 데이터를 널리 활용할 목적으로 합성데이터에 주목한 사례다. 본래는 가명 처리한 데이터도 개인의 정보이기 때문에 활용에 제한이 많다. 데이터를 다루는 사람과 장소, 활용 목적 등을 사전에 정해 놓고 분석을 진행해야 한다. 서울시는 시민의 라이프 스타일을 반영하고 있지만 가상의 데이터라 개인정보 우려가 없는 합성데이터를 만들어 제한 없이 누구나 활용할 수 있게 했다.
이번 사업에서 LG CNS는 대형 데이터를 높은 정확도로 합성하면서 데이터 전문성을 입증했다. 노 팀장은 “합성 데이터는 컬럼(데이터테이블의 열)이 많아질수록 재현 성능이 떨어지는데, 서울시 데이터는 시민 수가 800만 명에 이르고 컬럼도 500개가 넘는 대형 데이터라 매우 도전적인 작업이었다”며 “경험 많은 분석가들이 원본 데이터의 특성이 계속 유지될 수 있도록 파라미터를 세팅하는 등의 여러 기법을 적용한 결과 실제 가명정보 분석 결과와 합성데이터 분석 결과가 90%이상 유사하게 나왔다”고 말했다. 황 상무도 “국내에서 작은 규모의 학습용 합성데이터를 납품하는 곳은 있지만 LG CNS처럼 대형 데이터를 다룬 사례는 거의 없다”고 밝혔다.
합성데이터에 대한 수요는 점점 커지고 있다. 노 팀장은 합성데이터 시장 전망에 대해 “데이터가 부족한 기업들은 보유한 데이터나 외부에서 구매한 데이터를 합성을 통해 증강시켜 더 적은 비용으로 풍부한 데이터를 확보할 수 있다는 점에서 관심이 높다. 또 인공지능(AI) 학습에 필요한 데이터도 합성을 통해 생성할 수 있는데 시장조사업체들은 2030년이 되면 실제 데이터보다 합성데이터가 AI 학습에 더 많이 쓰일 것으로 예상하고 있다”고 전망했다.
LG CNS는 데이터 활용 시장이 초기 단계인 만큼 데이터에 대한 전문성을 무기로 시장을 선점하겠다는 포부다. 황 상무는 “LG CNS는 기업 고객이 내부 데이터와 외부 데이터를 모으고, 안전하게 결합한 뒤 인사이트를 뽑아 데이터에 기반한 의사결정을 할 수 있게 돕는 것이 목표”라며 “국내에선 아직 초기 시장인 만큼 시장을 만들어 나가고싶다”고 포부를 밝혔다.