[똑똑!빅데이터]'왓슨'은 어떻게 사람보다 퀴즈를 잘풀까

[이데일리 이유미 기자] 사람들은 매일 페이스북에 사진을 올리고 스마트폰으로 기사를 읽고 신용카드로 결제를 합니다. 큰 의미없는 일상생활인 것 같지만 행동 하나하나가 모두 데이터로 쌓이고 있습니다. 이른바 ‘빅데이터’ 시대입니다. 요즘 뜨고 있는 인공지능(AI)도 빅데이터 덕분에 더욱 발전하고 있는거죠. 빅데이터가 왜 중요한 걸까요. 사례를 통해 데이터 이야기를 해보겠습니다.

지난해 3월 ‘알파고’가 국내 가장 큰 이슈 중 하나였습니다. 알파고가 인간과의 바둑 대결에서 이겼기 때문이죠. 하지만 컴퓨터가 사람을 이긴 것은 알파고가 처음이 아닙니다.

지난 2011년 IBM에서 개발한 ‘왓슨’이라는 인공지능(AI)이 퀴즈쇼 ‘제퍼디’에서 인간을 제치고 우승을 차지했습니다. 당시 참가자 두 명은 제퍼디 쇼에서 이전에 최고 성적을 냈던 참가자로 굉장한 퀴즈 실력을 갖춘 사람들이었죠. 이 퀴즈쇼는 사회자가 어떤 단어에 대해 설명을 하면 제일 먼저 부저를 누르고 정답을 말하는 사람이 베팅한 만큼 상금을 가져갈 수 있는 퀴즈쇼입니다.

2011년 인간과 IBM 왓슨의 퀴즈 대결이 펼쳐진 ‘제퍼디쇼’. 가운데가 왓슨으로 문제를 풀고 있다. 아래 그래프는 왓슨이 뽑은 정답 후보이며, 정답일 가능성을 확률로 나타냈다. 해당 문제에서는 ‘Jericho’가 정답일 확률이 97%라는 의미다.

지금은 음성인식 기술과 AI가 많이 발전해, 컴퓨터가 사람의 말을 알아듣는 것이 신기해보이지 않을 수도 있습니다. 하지만 당시만해도 컴퓨터가 사람의 질문을 알아듣고 그 질문에 정답을 말한다는 것은 지금처럼 익숙한 풍경은 아닙니다.

왓슨은 어떻게 퀴즈쇼에서 이길 수 있었을까요?

왓슨은 퀴즈쇼 이전에 굉장히 많은 데이터들이 입력된 상태였습니다. 백과사전, 수많은 서적, 웹상의 자료 등 개발자들이 이미 입력해 놓았습니다. 왓슨이 사회자로부터 질문을 받으면 기존에 입력된 데이터들 중 가장 가능성이 있는 답들을 수집하고, 가능성 있는 답들 중 얼마나 정답에 근접할 수 있는지 근거를 찾고 평가를 합니다. 그 중 가장 높은 평가를 받은 답을 정답으로 결정하고 부저를 누르게 되는 것이죠.

예를 들면 “펨브로크 칼리지와 엠마뉘엘 칼리지의 성전을 설계한 건축가는?”이라는 질문을 사회자가 하게 되면, 왓슨은 우선 해당 문장을 ‘펨브로크 칼리지’, ‘엠마뉘엘 칼리지’, ‘건축가’를 나눠 검색을 합니다. 이 단어들이 포함된 문서들을 뽑아내고 이중 가장 많이 등장하는 건축가 5명을 정답 후보로 수집합니다. 이 5명의 정답 후보 중 문제에 포함된 단어들과의 관계가 가장 높은 것을 찾고 평가를 해, 가장 높은 가능성이 있는 답을 선택하고 정답을 외치는 것이죠.

왓슨이 정답을 찾는 프로세스.

이러한 방식이 최근 많이 언급되는 머신러닝(기계학습)의 일부이며, 머신러닝은 AI의 핵심 기술입니다.

데이터 분석 얘기에 왜 자꾸 왓슨 얘기와 AI 얘기가 나오는지 의아할 수도 있습니다. 바로 데이터 분석이 AI의 기반이 됩니다. 많은 데이터가 있어야 기계가 더 많이 학습을 하고 더욱 똑똑해질 수 있는 것이죠. 알파고가 수많은 기보를 통해 학습을 했다는 것은 아마 이제는 다들 아는 얘기일 것입니다.

알파고와 왓슨은 약간의 차이점이 있습니다. 바둑대결을 했던 알파고는 다양한 경우의 수를 추론하는 게임을 통해 개발이 된 반면, 왓슨은 방대한 자료를 분류해 둔 데이터 베이스를 활용하고 특정 질문에 가장 가까운 답을 찾아내는 데에 보다 초점을 맞춰졌습니다.

머신러닝 개념도.

왓슨은 이미 2011년에 인간과의 대결에서 승리했습니다. 그 당시에도 ‘똑똑한 컴퓨터’는 있었던 것입니다. 왜 최근에서야 AI가 더욱더 급속도로 발전하는 것처럼 보일까요. 구글의 ‘알파고’ 마케팅 효과도 있지만 데이터수집 및 분석 기술이 점차 고도화되는 만큼 AI기술도 함께 발전하기 때문인 것이죠.

다음주에는 인간과 AI의 번역 대결이 있다고 합니다. 이번에는 AI가 아닌 인간이 이길 것이라는 예측이 좀더 우세합니다. 사람의 언어를 정확히 이해하고 이를 자연스럽게 표현한다는 것은 그만큼 쉬운 일이 아니기 때문입니다. 언어를 완벽하게 이해하고 표현하는 것만큼은 컴퓨터가 좀더 학습이 필요한 것 같습니다.