[특별기고]빅데이터 시대, 데이터 개방의 힘

by박진환 기자
2023.02.22 06:00:00

[차미영 KAIST 전산학부 교수] 오늘날 온라인으로 할 수 없는 일을 찾는 것은 쉽지 않다. 쇼핑, 음식배달, 송금 같은 일상 업무부터 세금납부와 같은 공적인 부분까지 거의 모든 일이 온라인으로 가능하다. 이는 우리의 일상생활과 경제활동의 흔적이 기업과 공공기관의 데이터로 축적됨을 의미한다. 공공기관이 개방하는 데이터 목록을 모아둔 공공데이터 포털만 보더라도 얼마나 다양한 데이터가 수집·관리되고 있는지 알 수 있다. 데이터 과학자로 활동하는 필자는 몇년 전 무역데이터라는 특별한 공공데이터를 다뤄 볼 기회를 가졌다. 무역데이터는 기업의 수출입 정보는 물론, 일반 소비자들의 해외직구 물품 정보도 담고 있으며, 관세청에 신고하는 과정에서 생성된다. 기본적으로 숫자, 문자로 구성된 데이터이지만, 세관공무원들이 화물, 직구물품을 검사하면서 찍는 영상 데이터도 포함된다. 무역데이터는 기업과 민간의 경제활동을 실시간 기록한 공공데이터의 하나로서, 데이터의 양(volume), 생성속도(velocity), 그리고 다양성(variety) 측면에서 빅데이터에 해당한다. 무역데이터에서 중요한 항목인 상품은 상품 이름이 그대로 입력되기도 하지만 무역통계 작성과 세율 적용의 통일성을 위해 국제통일 상품분류체계에 따라 5387개 유형으로 분류, 무역데이터에 반영된다. 새로운 물품이 지속해 등장하기 때문에 상품분류가 쉽지 않은 경우도 있는데, 스마트 워치가 시장에 등장 했을 때 시계(관세율 8%)와 통신기기(관세율 0%) 중 어느 상품 유형으로 분류할지 국가마다 생각이 달라 국제위원회에서 논의해 결정했다.

몇년 전 필자의 연구팀은 관세청과 함께 상품의 이름과 특성을 기술한 텍스트 정보를 토대로 상품유형 코드를 자동으로 추천하는 인공지능(AI) 모델을 개발했다. 한글과 영문 코드북은 물론 상품분류를 할 때 논쟁이 됐던 국내외 사례까지도 학습에 활용했다. 이를 통해 특정 상품에 가장 적합한 상위 3건의 상품유형 코드를 그 이유와 함께 추천함으로써 세관공무원의 업무를 보조하는 것뿐만 아니라 어떤 상품 유형으로 분류되느냐에 따라 납부하는 세금 규모와 물품의 검사 여부가 달라지므로 수출입 기업의 편의도 개선된다고 할 수 있다. 그간 필자의 데이터 분석 경험에 따르면 상품분류는 법원판결처럼 서로 다른 주장을 바탕으로 다양한 각도에서 논의한 뒤 위원회에서 최종 결정되므로 과연 AI의 영역이 맞는지 의문이 있었다. 하지만 관세청 라이브 테스트 결과 AI모델이 국제위원회에 회부된 복잡한 사례에 대해서도 정확하게 상품분류를 해냈고, 해당 기술을 담은 논문은 한국인공지능학회에서 우수논문상을 받았다. 데이터 품질과 양이 우수한 무역데이터는 상품분류 외에도 공급망 충격 예측, 수출입물품의 시장점유율 전망 등 다양한 영역에서 활용될 수 있을 것이다. AI의 데이터 처리능력이 증가함에 따라 종전에는 AI가 학습하기 부적합하다고 여겨졌던 정제되지 않은 데이터(dirty data), 스몰데이터(small data)에 대한 학습도 가능해졌다. 공공데이터의 민간 개방 범위를 넓히고, 데이터 확보가 어려운 스타트업 등 각계각층이 빅데이터에 접근할 수 있도록 적극적으로 지원해 디지털 전환을 함께해야 하는 시점이다.

공공데이터에는 개인정보, 영업비밀 등 법적으로 엄격한 보호가 필요한 요소도 많이 포함되어 완전한 개방에 많은 한계가 있다. 무역데이터의 경우에도 국가간 혹은 기업간 민감한 무역거래 패턴이 담겨 있다. 데이터 보유기관은 개인정보나 영업비밀이 식별되지 않도록 처리하거나, 실제 데이터를 바탕으로 AI 모델이 생성한 가상데이터를 제공하는 등의 노력을 기울일 필요가 있다. 우리는 AI·빅데이터의 시대에 살고 있다. 국내 수출입기업, 해외 진출 기업들은 경험과 직관보다 데이터에 기반한 의사결정을 통해 글로벌 시장 경쟁력을 확보할 수 있어야 한다. 방대한 양의 가치 있는 데이터는 시장우위를 결정하는 중요한 자산이다. 나날이 혼란해지는 세계 정세 속에서 그 흐름을 읽고 살아남는 것은 데이터를 아는 것에서 시작된다.