AI 영향으로 어떤 직업이 사라질지, AI도 모른다

[이데일리 성주원 기자] 인공지능(AI)이 어떤 직업을 대체할지 예측하는 데 쓰이는 수치 자체가 신뢰하기 어렵다는 연구 결과가 나왔다. “내 직업이 AI로 사라질까”라고 AI에게 물었더니, 모델마다 전혀 다른 답이 돌아왔다는 것이다. 학교·정부·기업이 교육 정책과 채용 전략의 근거로 활용해온 ‘AI 노출 점수(exposure score)’가 어떤 AI 모델을 쓰느냐에 따라 크게 달라지는 것으로 확인되면서, 이를 진로·정책 결정의 근거로 삼아온 관행에 경고등이 켜진 셈이다.

인공지능(AI) 이미지. (사진=AFP)

미국 노스웨스턴대학교의 경제학자 미셸 인(Michelle Yin)·호아 부(Hoa Vu)와 아메리칸대학교의 클로디아 페르시코(Claudia Persico)는 오픈AI의 챗GPT-5, 구글 딥마인드의 제미나이 2.5, 앤스로픽의 클로드 4.5에 직업별 AI 노출 위험도를 평가하게 했다. 연구 결과는 지난달 전미경제연구소(NBER)에 워킹 페이퍼 형태로 게시됐다.

회계사는 고위험? 저위험?…모델마다 달랐다

10일(현지시간) 연구진에 따르면 클로드는 회계사를 AI 대체 위험이 높은 직종으로 평가한 반면, 제미나이는 상대적으로 낮은 노출 순위를 부여했다. 광고 관리자와 최고경영자(CEO)에 대해서도 모델 간 평가가 엇갈렸다. 챗GPT와 제미나이가 가장 높은 일치율을 보였지만, 그래도 전체의 약 4분의 1에 해당하는 직종에서 두 모델의 평가가 달랐다.

이러한 격차는 단순히 모델의 설계 차이에서만 비롯되지 않는다는 점도 주목할 만하다. 연구진은 어떤 직업군의 근로자들이 이미 AI를 많이 쓰고 있는지가 평가에 영향을 미친다고 분석했다. 금융 애널리스트처럼 AI를 일찍부터 적극 도입한 직군은 더 많은 훈련 데이터를 생성하고, 이것이 AI 모델이 해당 직업의 노출 위험도를 산정하는 방식에 다시 반영된다는 것이다. 즉 AI의 평가 결과가 AI 활용 현황이라는 현실을 반영할 수밖에 없는 구조적 편향이 내재돼 있다.

‘노출 점수’의 한계…정책 근거로 쓰기엔 불확실성 높아

경제학자들이 AI 위험 직종을 추정하는 주요 도구는 이른바 ‘노출 점수(exposure score)’다. 미 노동부가 구축한 직업별 과업(task) 데이터베이스를 기반으로, AI가 각 과업을 얼마나 대체할 수 있는지를 계산하는 방식이다. 이 점수는 연구 보고서, 컨설팅 백서, 정책 보고서에 폭넓게 활용되고 있다.

사진=게티이미지

문제는 이 점수를 산출하는 세 가지 주요 방법인 ‘인간 평가자, 근로자 설문, AI 모델’이 모두 한계를 안고 있다는 점이다. 인간 평가는 주관성이 높고, 설문조사는 특정 플랫폼 사용자만을 반영할 수 있다. AI 모델을 활용하는 방식은 이번 연구에서 드러났듯이 모델 간 편차가 크다.

연구진은 단일 모델의 결과에만 의존하지 말고 여러 모델을 함께 검토하면서 불확실성을 명시적으로 밝혀야 한다고 권고했다. 궁극적으로는 실제 경제 현장에서 AI가 어떤 과업에 적용되고 있는지 추적한 설문조사가 더 신뢰할 만한 기준이 될 수 있다고 봤다. 이번 논문은 아직 동료 심사(peer review)를 거치지 않은 워킹 페이퍼 단계다.

“단 하나의 지표만 보고 전공 바꾸지 마라”

논문의 공동저자인 인(Yin)은 “적어도 저라면, 단 하나의 측정치만으로 ‘직업을 바꿔야 해’ 또는 ‘아이의 전공을 바꿔야 해’라고 판단하지 않을 것”이라고 말했다.

이번 연구 결과는 시사하는 바가 크다. 정부와 교육계가 AI 시대 유망 직종과 위험 직종을 선별해 교육 정책이나 직업훈련 방향을 설정하는 데 AI 노출 점수를 활용하는 사례가 늘고 있기 때문이다. AI가 스스로 내린 평가가 구조적 편향을 내포하고 있다면, 이를 정책 근거로 삼기 전에 한 차원 높은 검증이 필요하다는 것이 이번 연구의 핵심 경고다.

앞으로의 관건은 AI 노출도를 측정하는 보다 정교한 방법론이 마련될 수 있는지 여부다. 연구진이 대안으로 제시한 ‘실제 AI 활용 추적 설문조사’가 현실적으로 구현 가능한지, 그리고 그 결과가 현재 통용되는 점수와 얼마나 다를지가 향후 주목할 변수로 꼽힌다.