[똑똑!빅데이터]범죄유형·장소·시간만으로 범죄를 예측할 수 있다고?
by이유미 기자
2017.03.04 06:40:00
[이데일리 이유미 기자] 데이터 분석은 우리 실생활에 적용되는 것은 물론 이미 공적인 영역에서도 많이 활용되고 있습니다. 바로 우리의 안전과 직결되는 범죄를 예측하기 위해서 말입니다.
미국 로스앤젤레스(LA)에서는 범죄예측 서비스인 프레드폴(PredPol)을 적용하고 있습니다. 프레드 폴은 설정한 지역에 언제 어떤 유형의 범죄가 몇 건 발생할지를 예측합니다. 경찰서에서는 이를 이용해 효율적으로 경찰을 배치할 수 있어 비용도 줄이고 범죄 예방 효과는 높일 수 있다고 합니다.
| 프레드폴은 각 지역마다 발생할 범죄 유형을 예측한다. |
|
브랜팅엄 UCLA 인류학 교수와 몰러 산타클래라 대학교수가 개발한 이 예측 서비스는 과거 범죄가 발생한 기록 데이터를 분석해 향후 발생할 범죄 유형과 지역을 예측합니다. 영화 ‘마이너리티리포트’처럼 범죄자를 예측하는 것은 아닙니다. 범죄자를 예측하는 것은 굉장히 민감한 일이죠. 프레드폴은 그동안 발생한 범죄 유형, 발생한 위치, 날짜와 시간 데이터를 분석해 향후 발생할 범죄를 예측합니다.
| 프레드폴은 범죄 형태, 장소, 시간을 수집하는 경찰당국의 RMS(Records Management System)로부터 데이터를 받습니다. PredPol 컴퓨터는 이 데이터를 통해 발생할 것이라고 예상되는 범죄 형태, 장소, 시간 등을 하루에 한번 알려줍니다. (자료=프레드폴) |
|
프레드폴은 새로운 범죄가 발생할 때마다 프로그램을 업데이트해 매일 새로운 예측을 합니다. 예측 범위는 약 150미터x150미터(500피트x500피트) 규모의 사각형 안에서 언제 어떤 범죄가 발생할지를 알려줘 보다 구체성을 높입니다. 또 6개월마다 모든 기록과 최근의 범죄 데이터를 사용해 범죄 패턴을 ‘재학습’합니다. 이를 통해 새로운 범죄 패턴을 시스템이 잘 파악하고 예측할 수 있도록 합니다. 실제로 미국 LA에서는 프레드폴 도입한 후 절도범죄는 약 13%, 강도범죄는 22% 감소했다고 합니다.
프레드폴은 고급 수학과 컴퓨터 학습기술을 사용한 것 뿐 아니라 범죄자들의 행동과 심리도 연구해서 만들었습니다. 사소한 범죄들이 쌓이다보면 나중에는 큰 범죄로 이어지거나 범죄발생 패턴이 전염병이 퍼지는 것과 비슷한 점 등을 프레드폴에 녹여냈습니다. 사소한 범죄 사례들을 모아 분석해 어느 시점에 한계점을 넘어 큰 사건으로 넘어갈지를 예측하는 것입니다.
또 범죄와 지진이 유사하다는 점도 적용했습니다. 지진은 단층대에서 집중적으로 발생하며 큰 지진이 일어난 후에는 작은 여진들이 발생합니다. 범죄도 술집 근처 등 범죄가 많이 발생하는 지점이 있으며 연쇄적으로 범죄가 일어나는 경우도 있습니다.
이러한 인사이트와 LA에서 80년간 발생한 약 1300만건의 범죄 데이터를 이용해 다음과 같은 식이 만들어졌습니다. 지도상에서 각 지점마다 범죄 발생률을 구하는 식입니다. 간단하게 보면 A 주변 지역에서 일어나는 범죄 수와 최초 사건에 뒤따르는 범죄의 분포를 더한 값은 A지점에서 범죄가 발생할 확률입니다.
기존에도 범죄를 예측하는 시스템은 있었습니다. 하지만 범죄가 발생한 곳을 지도에 표시해 확률 실험으로 예측한 기존의 ‘크라임 핫스포팅(Crime hospotting)’보다 프레드폴의 정확성이 보다 높았습니다.
| 범죄예측서비스(PredPol)과 크라임 핫스포팅(crime hotspotting)의 예측 정확성 비교. (자료=프레드폴) |
|
우리나라에서도 데이터 분석을 통한 범죄 예측 프로그램을 도입하고 있습니다. 과학기술정책연구원의 ‘빅데이터 기반 융합 서비스 창출 주요 정책 및 시사점’ 보고서에 따르면 국내 경찰청은 2008년부터 지역적 특성과 사건 데이터를 적용한 지리적 프로파일링을 적용하고 있습니다. 이 시스템을 적용한 한 경찰서에 따르면 2012년 8월 한달동안 강력범죄 등 5대 범죄의 발생건수가 전년 같은 기간보다 10.5%가 감소했다고 합니다.
프레드폴은 범죄 예측 서비스에 대해 그동안 쌓였던 데이터와 범죄자들의 행동 패턴 분석, 고급 수학이 합쳐지면 범죄 발생 예측력을 높일 수 있다고 말합니다. 데이터 분석이라고 해서 무조건 ‘많은 데이터’만이 해결책은 아닙니다. 데이터와 다양한 직관과 인사이트가 합쳐져야 보다 적절한 알고리즘을 적용하고 좋은 결과를 도출할 수 있습니다. 이번 사례가 그러한 예를 잘 보여주는 것 같습니다.