X

'사랑'은 죽지 않았다 '섹스'보다 덜 검색될 뿐

이 기사 AI가 핵심만 딱!
애니메이션 이미지
오현주 기자I 2015.02.11 06:42:30

구글 '엔그램뷰어'로
800만권서 800억 단어 빈도 분석
200년 역사·문화 부침 한눈에
'데이터'가 '신' 누르고
'여자'가 '남자' 추월해
…………………………
빅데이터 인문학: 진격의 서막
에레즈 에이든·장바티스트 미셸|384쪽|사계절

[이데일리 오현주 기자] “바보야, 도서관에서 가서 책을 찾아봐. 그리고 좋아하는 그림을 아무거나 골라서 베껴.” 이 말도 안 되는 핀잔을 다 듣고 서있는 이는 미술가 마르크 샤갈(1887∼1985). 동급생에게 그림을 어떻게 그리면 되느냐고 물었던 게 화근이다. 샤갈이 이후 정말 아무 그림을 베꼈는지는 확인이 안 된다. 명확한 건 러시아서 청어상인의 아들로 태어난 그가 20세기 프랑스를 비롯해 유럽화단을 뒤흔든 모더니즘의 선구자가 됐다는 것. 다만 샤갈에겐 근심거리가 한 가지 있었다. 프랑스의 시선이 반가웠으면서도 고향에선 잊히지 않을까 하는 두려움. 하지만 ‘감’ 말고 어찌 알아낸단 말인가. 그가 죽을 때까지 몰랐을 그것이 이제 밝혀졌다. 1923년 이전 샤갈이란 이름은 러시아어로 10억단어당 500번 정도 불렸다. 하지만 그해 프랑스로 옮겨간 직후부터 가파르게 하락, 10여년 뒤엔 프랑스어에 추월당하고 만다. 그의 걱정은 현실이었던 셈이다.

그렇다면 알아낸 그 방법이 궁금해질 수밖에. 미국 하버드대의 젊은 두 과학자가 검색창에 띄웠단다. 그런데 그 검색이란 게 단순치 않다. 단어 하나를 입력하면 책 800만권을 ‘이 잡듯 뒤진다’니. 지난 세월이란 것도 무색하다. 수백년을 통틀어 도식화한 수려한 그래프를 눈앞에 들이댄다. 그 검색 돋보기는 ‘구글 엔그램 뷰어’다.

히스토리를 간단히 살피면 이렇다. 구글이 일찍이 시도한 일 중 ‘세상의 모든 책을 디지털화로’라는 게 있다. 2004년부터 최근까지 3000만권 이상의 책을 디지털화한 ‘구글 북스 라이브러리 프로젝트’다. 확보한 어마어마한 데이터를 눈여겨보던 두 과학자가 실험이나 한번 해보자고 덤벼들었다. 그 양이면 질을 뽑아낼 수 있지 않을까. 누구도 다룬 적 없는 역사·사회·문화일지라도. 3000만권 중 800만권을 추렸고 8000억개의 단어가 뽑혔다. 성경의 사본시대가 열린 1520년부터 현재까지 500여년의 기간이 자연스럽게 설정됐다. ‘엔그램 뷰어’는 그 과정에서 고안한 그들의 무기다.

신념은 데이터가 말해줄 ‘본질’에 뒀다. 이제는 정량이 정성을 충분히 대신할 수 있다는 거다. 심오한 학문이라고 가릴 게 아니다. 통계적 검열-탐지기술은 가장 전통적이고 고전적이라는 역사학 분석에서도 결코 밀리지 않을, 질적 유사성을 뽑아낼 수 있다는 것이다. 혁명의 방법론. 늘 고인 물 같다던 인문학이 그 대상, 빅데이터가 그 도구다.

▲그 여자가 궁금하다면 데이터를 봐라

태초에 ‘남자’와 ‘여자’가 나뉜 뒤 수천년간 바뀌지 않은 사실 하나. 남자는 여자보다 압도적으로 세상에 많이 드러났다는 거다. 감히 태초라고 할 수 있는 건 드라마틱한 데이터를 확인할 수 있어서다. 똑 분질러 1800년대부터 따져본다고 해도 100만단어당 남자는 800회가 불린 데 비해 여자는 100번 불릴까 말까. 그러면 지금은 어떨까. 1983년을 기점으로 역전, 여자는 남자를 따돌렸고 그 우위를 유지하는 중이다.

그렇다면 태초의 또 다른 영역인 ‘신’은 어떤가. 1800년 즈음 100단어당 0.9회 정도 언급되던 신은 1973년쯤 엉뚱한 영역에 그 자리를 내놓게 되는데. ‘데이터’라는 것이다. 그때부터 사람들이 신을 부르짖는 횟수보다 데이터를 찾아 헤매는 횟수가 더 많아졌다는 뜻이다.

▲신도 밀렸다 금도 밀렸다

엔그램 뷰어가 꺼낸 세계에는 숨가쁘게 뒤집혀온 정세도 보인다. 대표적인 두 단어가 ‘금’과 ‘석유’. 1800년경 금은 석유에 비해 쓰임만큼이나 단어 수에서도 두 배 이상 유리한 자리에 있었다. 하지만 1800년대 후반 발명된 자동차는 금의 위치를 흔들어댄다. 그러다 1933년 미국서 금본위제가 시작되면서 전세는 다시 역전. 이 역시 오래가진 않았다. 1973년 오일쇼크 직후부터 금은 석유에 쉽게 회복할 수 없는 간극을 내주고 있는 중이다.

이젠 일상어가 된 ‘섹스하다’가 사람 입에 붙은 건 불과 100년 남짓. 그전엔 ‘사랑을 나누다’가 우아한 대체어였다. 물론 이조차 자주 쓸 수 없는 말이었다. 1800년대 100만단어당 0.3회 정도였으니. 두 단어가 동시에 가파른 상승세를 그린 건 1970~80년대에 들어서면서다. 하지만 결국 1996년 100년 된 신조어 ‘섹스하다’가 고색창연한 ‘사랑을 나누다’를 넘어서기에 이른다. 그렇다고 ‘사랑’이 죽었다고 할 순 없다. 그저 ‘섹스’보다 덜 검색될 뿐.

▲결국 ‘정량’이 ‘정성’을 지배하나

“인문학의 한구석에선 여전히 정량적 분석에 저항을 보이지만 엔그램 뷰어나 유사 도구들이 보편화될 걸 확신한다.” 2010년 엔그램 뷰어가 세상에 공개되던 날 내놨다는, ‘문화의 정량적 분석’을 저자들과 함께한 스티븐 핑커 하버드대 교수의 발언은 차라리 책의 결론이다. 인문학의 지형은 바뀌게 돼 있다는 것. 사실 여기엔 바뀌어야 한다는 당위가 더 진하다. 초기에 일일이 책을 뒤져 특정 단어의 빈도를 확인하는 ‘맨땅에 헤딩’ 식 작업을 했다는 ‘노동자’로선 당연한 지향이다.

과제는 양 갈래다. 빅데이터가 인문학과 맞닥뜨리는 현장, 또 인문학이 빅데이터를 대하는 자세. 접점은, 상관관계일 뿐 인과관계는 입증하지 못한, 책 제목에 드리워진 ‘진격의 서막’을 걷어내는 일이다. 이번 혁명이 책장은 넘어서야 한다는 점에서 특히 긴밀하다. ‘클릭 한 번에 800만권을 훑는다’에 혹하고 말 일이 아니란 얘기다.

이 기사 AI가 핵심만 딱!
애니메이션 이미지지

주요 뉴스

ⓒ종합 경제정보 미디어 이데일리 - 상업적 무단전재 & 재배포 금지