LG CNS 데이터허브 플랫폼 사업담당 황윤희 상무와 노혜진 팀장은 지난 1일 서울 강서구 마곡동 LG CNS 본사에서 진행한 인터뷰에서 최근 완료한 ‘서울시민 라이프스타일 재현데이터’ 생성 사업 성과를 소개하며 이같이 말했다.
|
노 팀장은 “데이터를 활용하려는 수요는 많지만 기업들이 개인정보 관련 법·규제 이슈와 데이터 수집에 들어가는 비용·시간 문제에 부딪히면서, 개인정보 침해 우려가 없는 합성데이터에 대한 관심을 높이고 있다”고 설명했다.
서울시민 라이프스타일 재현데이터는 보유한 양질의 데이터를 널리 활용할 목적으로 합성데이터에 주목한 사례다. 본래는 가명 처리한 데이터도 개인의 정보이기 때문에 활용에 제한이 많다. 데이터를 다루는 사람과 장소, 활용 목적 등을 사전에 정해 놓고 분석을 진행해야 한다. 서울시는 시민의 라이프 스타일을 반영하고 있지만 가상의 데이터라 개인정보 우려가 없는 합성데이터를 만들어 제한 없이 누구나 활용할 수 있게 했다.
이번 사업에서 LG CNS는 대형 데이터를 높은 정확도로 합성하면서 데이터 전문성을 입증했다. 노 팀장은 “합성 데이터는 컬럼(데이터테이블의 열)이 많아질수록 재현 성능이 떨어지는데, 서울시 데이터는 시민 수가 800만 명에 이르고 컬럼도 500개가 넘는 대형 데이터라 매우 도전적인 작업이었다”며 “경험 많은 분석가들이 원본 데이터의 특성이 계속 유지될 수 있도록 파라미터를 세팅하는 등의 여러 기법을 적용한 결과 실제 가명정보 분석 결과와 합성데이터 분석 결과가 90%이상 유사하게 나왔다”고 말했다. 황 상무도 “국내에서 작은 규모의 학습용 합성데이터를 납품하는 곳은 있지만 LG CNS처럼 대형 데이터를 다룬 사례는 거의 없다”고 밝혔다.
합성데이터에 대한 수요는 점점 커지고 있다. 노 팀장은 합성데이터 시장 전망에 대해 “데이터가 부족한 기업들은 보유한 데이터나 외부에서 구매한 데이터를 합성을 통해 증강시켜 더 적은 비용으로 풍부한 데이터를 확보할 수 있다는 점에서 관심이 높다. 또 인공지능(AI) 학습에 필요한 데이터도 합성을 통해 생성할 수 있는데 시장조사업체들은 2030년이 되면 실제 데이터보다 합성데이터가 AI 학습에 더 많이 쓰일 것으로 예상하고 있다”고 전망했다.
LG CNS는 데이터 활용 시장이 초기 단계인 만큼 데이터에 대한 전문성을 무기로 시장을 선점하겠다는 포부다. 황 상무는 “LG CNS는 기업 고객이 내부 데이터와 외부 데이터를 모으고, 안전하게 결합한 뒤 인사이트를 뽑아 데이터에 기반한 의사결정을 할 수 있게 돕는 것이 목표”라며 “국내에선 아직 초기 시장인 만큼 시장을 만들어 나가고싶다”고 포부를 밝혔다.