AI 신성 앤트로픽, GPT-4 뛰어넘었다…멀티모달 경쟁도 본격화

[이데일리 임유경 기자] 인공지능(AI) 스타트업 앤트로픽이 성능 테스트에서 오픈AI의 GPT-4 지능을 뛰어넘는 차세대 AI 모델 ‘클로드(Claude)3’를 공개하며 글로벌 거대언어모델(LLM) 경쟁에서 존재감을 드러냈다. 클로드3는 텍스트뿐 아니라 음성·이미지·영상까지 처리할 수 있는 앤트로픽의 첫 번째 멀티모달 모델로, 올해 글로벌 LLM 시장에서 멀티모달 경쟁이 본격화될 것을 예고했다.

멀티모달은 AI 모델이 텍스트 이외에 이미지, 영상, 음성 등 다양한 형태로 입력된 정보를 분석하고 추론할 수 있는 기술을 말한다.

앤트로픽은 4일(현지시간) 홈페이지를 통해 차세대 LLM ‘클로드3’의 최상위 모델 오퍼스를 포함해 모델별 성능 테스트 결과를 공개했다. 앤트로픽은 지난해 아마존에서만 5조원이 넘는 투자를 받아 화제를 모은 AI 유망 스타트업이다. 오픈AI의 강력한 대항마로 꼽힌다.

클로드3와 GPT-4, 제미나이1.0 성능 비교 결과(이미지=앤트로픽)

클로드3 오퍼스, 11개 항목서 GPT-4 앞서

앤트로픽에 따르면 수학·물리학·역사 등 50여개 주제를 활용해 지식과 문제 해결 능력을 평가하는 다중작업언어이해(MMLU) 테스트에서 클로드3 오퍼스의 정답률은 86.8%를 기록해, GPT-4(86.5%)나 제미나이1.0 울트라(83.7%)를 앞섰다. 이외에도 대학원 수준의 전문 추론(GPQA), 기초 수학(GSM8K) 등 AI 성능 벤치마크 테스트 11개 항목에서도 모두 두 경쟁 모델을 능가한 것으로 나타났다. 다만 최신모델인 GPT-4 터보와 제미나이1.5 프로보다는 성능이 좋지 않았다.

앤트로픽은 긴 문맥의 프롬프트에서 정확한 대답을 내놓을 수 있다는 점도 강점이라고 강조했다. 방대한 데이터에서 정보를 정확하게 기억하는 능력을 측정하는 평가(NIAH)에서 오푸스 모델의 정확도는 99%를 기록했다. 가격은 100만 토큰(정보처리 단위) 당 15달러로, GPT-4터보 모델(10달러)보다 비싸다. 다니엘라 아마데이 앤트로픽 사장은 “복잡한 재무 분석을 정확하게 처리하는 등 가장 인지적으로 복잡한 작업이 필요한 경우 높은 가격에도 불구하고 클로드3 오퍼스를 선택할 것”이라고 자신했다.

LG생활건강 임프린투가 생성한 타투 도안(사진=LG생활건강)

범용 LLM 경쟁 계속…멀티모달로 진화 중

클로드3 출시로 범용 LLM 시장에선 멀티모달 경쟁이 본격화된 것으로 보인다.

클로드3는 앤트로픽의 첫 번째 ‘멀티모달’ AI 모델로 사진이나 차트 등의 이미지를 보고 적절한 답을 할 수 있다. 기업 고객 수요가 크지 않은 이미지 생성 기능은 제공하지 않는다. 오픈AI는 텍스트만 입력하면 최대 1분 길이의 영상을 만들어주는 AI 모델 ‘소라’를 공개하는 등 멀티모달 분야에서도 앞서가고 있다. 구글 제미나이1.5 프로는 1시간 분량의 동영상과 11시간 분량의 음성 파일, 3만 줄 이상의 코드, 70만 단어 이상의 텍스트에 해당하는 방대한 정보를 한 번에 처리할 수 있다.

자체 LLM을 보유한 국내 IT기업들도 멀티모달 고도화에 힘을 쏟고 있다. 네이버는 하이퍼클로바X가 텍스트 이외에도 이미지와 음성까지 지원할 수 있도록 업그레이드를 진행하고 있다. 이미 멀티모달 기능을 일부 지원하고 있는데, 이미지를 업로드하면 텍스트로 수정·편집할 수 있는 기능을 베타 테스트 중이다.

LG AI연구원이 지난해 7월 공개한 자체 LLM 2.0은 이미지 생성과 이미지 이해까지 가능한 멀티모달 모델이다. AI가 제품의 이미지를 보고 마케팅 문구를 생성하거나, 반대로 텍스트로된 요청에 따라 제품 패키지 디자인 이미지를 생성할 수도 있다. 멀티모달 모델을 상용 제품에 적용한 사례도 있다. LG생활건강은 미니 타투 프린터 ‘임프린투’ 도안 작성에 엑사원2.0의 이미지 생성 기술을 적용했다. 또 지난 설에는 AI로 청룡의 모습을 그려 제품 패키지에 활용한 ‘AI 청룡에디션 선물세트’를 출시하기도 했다.

범용 LLM 고도화 경쟁은 올해도 계속될 전망이다. 특정 영역에 전문화된 경량 초거대언어모델(sLLM)과 별개로 범용 지식을 갖춘 LLM에 대한 기업의 수요도 크기 때문이다. 이상구 서울대 컴퓨터공학부 교수는 “비용 대비 성능을 고려했을 때 한 영역만 전문적으로 학습한 sLLM이 효과적일 수 있지만, 실제 비즈니스에서는 다양한 지식이 복합적으로 결합돼야 문제를 풀 수 있는 경우가 훨씬 많다”며 “이런 수요가 크기 때문에 모델 크기를 키우고 다양한 지식을 범용적으로 학습시켜 LLM을 고도화하려는 경쟁도 계속될 것”이라고 내다봤다.