|
무작위 시뮬레이션을 기반으로 상황 예측에 대한 기댓값을 추정하는 기존 기법은 실행 시간이 오래 걸리고 복잡해 높은 연산량이 요구되는 실시간 상용 게임에 적용하는데 한계가 있다.
특히 실시간 전략 게임인 스타크래프트2는 각 게임 참여자가 제한적 환경 관측만 가능한 여건에서 자원 확보와 상대편의 종족·동태 등을 종합 고려해 게임을 운영해야 하기 때문에 복잡성이 높다.
연구팀은 새로운 강화학습법을 통해 가상으로 재현된 게임 데이터를 학습해 대체 모델을 구축했다. 이후 시뮬레이션 일부 결과만으로 상황 예측에 대한 기댓값을 추정할 수 있는 대체 모델 기반 MCTS 기법을 제안하고, 스타크래프트2에 적용해 성능을 검증했다.
연구팀이 개발한 기법은 기존 MCTS와 게임 내 상태에 대한 기댓값을 시뮬레이션 없이 바로 추정해 짧게는 몇 분에서 길게는 몇 시간 걸리던 시뮬레이션 추론 시간을 밀리초(1천분의 1초)에서 초 단위 범위로 줄였다.
연구 확장성과 재현성을 높이기 위해 데이터 수집과 스타크래프트2에서 데이터 분석이 가능한 자체 소프트웨어도 구현했다. 그 결과, 게임 진행 결과를 기존 MCTS 대비 1만배 빠르게 예측했다.
안창욱 교수는 “MSTS 활용이 불가능하던 실시간 게임 환경에서 각 개체의 공격, 후퇴 등 실시간 행동 결정을 했다는 점에서 의미가 있다”며 “향후 상충하는 이해관계 갖는 자율주행, 주식거래와 같은 응용문제에서도 실시간 의사결정을 내리는 데 활용할 수 있을 것”이라고 말했다.
연구 결과는 다학제 공학 분야 국제학술지 ‘Engineering Applications of Artificial Intelligence’에 지난 1일자로 게재됐다.