AI 토큰값 90% 떨어져도 기업 부담은 더 커진다

[이데일리 김현아 기자] 거대언어모델(LLM) 추론 단가가 2030년까지 급락하더라도, 기업의 인공지능(AI) 비용 부담은 쉽게 줄지 않을 것이라는 전망이 나왔다. 토큰 가격은 떨어지지만, AI 에이전트 확산으로 사용량이 더 빠르게 늘면서 전체 비용 구조는 오히려 무거워질 수 있다는 분석이다.

가트너는 30일 1조개(1000B) 파라미터급 LLM의 추론 비용이 2030년까지 2025년 대비 90% 이상 하락할 것으로 내다봤다. 동일 규모 모델 기준으로는 2022년 초기 모델과 비교해 최대 100배 수준의 비용 효율성 개선이 가능하다고 전망했다.

가트너는 이런 비용 절감 배경으로 반도체와 인프라 효율 개선, 모델 설계 혁신, 칩 활용도 향상, 추론 특화 반도체 확대, 일부 활용처에서의 엣지 디바이스 적용 확대 등을 꼽았다.

하지만 토큰 단가 하락이 곧바로 기업의 AI 비용 절감으로 이어지지는 않을 것이라고 선을 그었다. AI가 고도화될수록 더 많은 토큰을 쓰는 구조가 강해지고 있어서다.

가트너에 따르면 AI 에이전트는 기존 챗봇보다 작업당 5배에서 최대 30배 많은 토큰을 필요로 한다. 수행 가능한 업무 범위도 훨씬 넓다. 토큰 단가는 낮아져도 사용량 증가 속도가 더 빠르면 전체 추론 비용은 오히려 늘어날 수 있다는 의미다.

윌 소머 가트너 시니어 디렉터 애널리스트는 “제품 총괄 책임자(CPO)는 범용 토큰 가격 하락을 고급 추론 역량의 대중화로 오해해서는 안 된다”며 “기본적인 AI 기능은 사실상 제로 비용에 가까워지고 있지만, 고급 추론을 뒷받침하는 컴퓨팅 자원과 시스템은 여전히 희소하다”고 말했다. 이어 “현재 저렴한 토큰 비용으로 아키텍처 비효율을 가리는 기업은 향후 에이전트 기반 AI 확장 단계에서 한계에 직면할 수 있다”고 덧붙였다.

가트너는 이번 전망에서 두 가지 반도체 시나리오를 제시했다. 하나는 최첨단 반도체를 기반으로 한 ‘프런티어’ 시나리오, 다른 하나는 기존 반도체를 혼합 활용하는 ‘레거시 혼합’ 시나리오다. 레거시 혼합 시나리오는 상대적으로 낮은 연산 성능 탓에 프런티어 시나리오보다 비용이 더 높게 나타날 것으로 분석됐다.

가트너는 기업들의 AI 경쟁력이 단일 초대형 모델 도입 여부보다, 여러 모델을 어떻게 조합해 효율적으로 운영하느냐에 달렸다고 봤다. 반복적이고 빈도가 높은 업무는 소형 모델이나 도메인 특화 모델로 처리하고, 비용이 높은 프런티어급 모델은 복잡한 고부가가치 추론에만 제한적으로 투입해야 한다는 것이다.

가트너는 앞으로 가치가 집중될 영역으로 다양한 모델 포트폴리오 전반에서 워크로드를 효율적으로 배분하는 ‘멀티모델 오케스트레이션’ 플랫폼을 지목했다. 기본 AI 기능은 빠르게 범용화·저가화하겠지만, 고급 AI 역량은 여전히 제한된 자원 위에서 운영될 가능성이 크다는 진단이다.