|
대회는 과학기술정보통신부의 인공지능 부문 혁신성장동력프로젝트(과제명 비디오 튜링 테스트를 통과할 수준의 비디오 스토리 이해 기반의 질의응답 기술 개발, 이하 VTT)의 연구 결과물인 VIP(Video Intelligence Platform) 및 비디오지능 평가방법을 공개 시연한 것으로 인공지능의 비디오 이해 능력을 여러 연령층의 사람과 비교해보는 블라인드 테스트이다. 독립 부스 안에 있는 인공지능 로봇과 다양한 연령대(만6세, 만9세, 만12세, 만18세)의 사람 4명이 제출한 답변만 보고 판정단들이 어느 참가자가 인공지능일지 맞추는 형태로 진행됐다.
대회는 인지능력 평가를 위해 주제별(감정 인식, 지식기반 추론, 배경정보 기억, 대화맥락 이해, 행동의도 추론) 5라운드로 구성됐으며 각 라운드 해당 주제를 평가하기 위한 3개의 문항이 제시됐다. 35인의 평가단은 부스 안의 참가자들이 제출한 답변을 보고 각 라운드가 끝나면 어느 참가자가 인공지능일지 투표를 진행하고 각 라운드별 최다득표자가 공개됐다. 라운드별로 득표율이 인공지능보다 높거나 같은 사람 참가자가 있는 경우, 인공지능은 해당 주제에 대한 비디오 튜링 테스트를 통과한 것으로 했다.
판정단 투표 결과 인공지능 로봇이 5라운드 중 두 라운드(감정 인식, 행동의도 추론)에서 최다득표를 받아 비디오 튜링 테스트를 통과하지 못하였으며, 세 라운드(지식기반 추론, 배경정보 기억, 대화맥락 이해)에서는 비디오 튜링 테스트를 통과하였다.
연구과제 총괄 연구책임자인 장병탁 교수(서울대)는 통계적 신뢰도가 떨어질 수 있어 대회 결과를 참고만 해 줄 것을 당부했다. 그는 “대회를 통해 비디오 이해 인공지능 수준을 인간의 인지능력 발달 단계와 비교하여 객관화하고 문제의 난이도 및 인지요소에 기반하여 현재 인공지능의 성능을 다각적으로 분석하고자 했다”며 “인공지능의 현 주소와 나아가야 할 방향에 대해 고찰하는 기회가 되었기를 바란다”고 밝혔다.
패널토론에서 인공지능 전문가들은 비디오 튜링 테스트 대회를 체스, 퀴즈대회, 바둑 등 단일지능 인공지능에서 더 나아가 음성, 언어, 시각 등 복합지능을 가진 사람 수준의 인공지능 개발의 가능성을 보여준 본격적 비디오 이해 인공지능 개발 연구의 시작점으로서 의의가 있다고 평가했다. 비디오를 이해하는 인공지능이 산업분야에 적용된다면 가정 내 교감, 노약자 케어, 메타버스 내의 시청각 인터렉티브(interactive) 교육, 인터렉티브 육아 분야에 크게 활용이 될 것으로 예상했다.