몇년 전 필자의 연구팀은 관세청과 함께 상품의 이름과 특성을 기술한 텍스트 정보를 토대로 상품유형 코드를 자동으로 추천하는 인공지능(AI) 모델을 개발했다. 한글과 영문 코드북은 물론 상품분류를 할 때 논쟁이 됐던 국내외 사례까지도 학습에 활용했다. 이를 통해 특정 상품에 가장 적합한 상위 3건의 상품유형 코드를 그 이유와 함께 추천함으로써 세관공무원의 업무를 보조하는 것뿐만 아니라 어떤 상품 유형으로 분류되느냐에 따라 납부하는 세금 규모와 물품의 검사 여부가 달라지므로 수출입 기업의 편의도 개선된다고 할 수 있다. 그간 필자의 데이터 분석 경험에 따르면 상품분류는 법원판결처럼 서로 다른 주장을 바탕으로 다양한 각도에서 논의한 뒤 위원회에서 최종 결정되므로 과연 AI의 영역이 맞는지 의문이 있었다. 하지만 관세청 라이브 테스트 결과 AI모델이 국제위원회에 회부된 복잡한 사례에 대해서도 정확하게 상품분류를 해냈고, 해당 기술을 담은 논문은 한국인공지능학회에서 우수논문상을 받았다. 데이터 품질과 양이 우수한 무역데이터는 상품분류 외에도 공급망 충격 예측, 수출입물품의 시장점유율 전망 등 다양한 영역에서 활용될 수 있을 것이다. AI의 데이터 처리능력이 증가함에 따라 종전에는 AI가 학습하기 부적합하다고 여겨졌던 정제되지 않은 데이터(dirty data), 스몰데이터(small data)에 대한 학습도 가능해졌다. 공공데이터의 민간 개방 범위를 넓히고, 데이터 확보가 어려운 스타트업 등 각계각층이 빅데이터에 접근할 수 있도록 적극적으로 지원해 디지털 전환을 함께해야 하는 시점이다.
공공데이터에는 개인정보, 영업비밀 등 법적으로 엄격한 보호가 필요한 요소도 많이 포함되어 완전한 개방에 많은 한계가 있다. 무역데이터의 경우에도 국가간 혹은 기업간 민감한 무역거래 패턴이 담겨 있다. 데이터 보유기관은 개인정보나 영업비밀이 식별되지 않도록 처리하거나, 실제 데이터를 바탕으로 AI 모델이 생성한 가상데이터를 제공하는 등의 노력을 기울일 필요가 있다. 우리는 AI·빅데이터의 시대에 살고 있다. 국내 수출입기업, 해외 진출 기업들은 경험과 직관보다 데이터에 기반한 의사결정을 통해 글로벌 시장 경쟁력을 확보할 수 있어야 한다. 방대한 양의 가치 있는 데이터는 시장우위를 결정하는 중요한 자산이다. 나날이 혼란해지는 세계 정세 속에서 그 흐름을 읽고 살아남는 것은 데이터를 아는 것에서 시작된다.