오픈AI, 'GPT-4o' 출시…"생생한 대화에 노래도 한다"
by김상윤 기자
2024.05.14 03:24:02
텍스트·이미지·영상 조합 대화 가능
사용자와 이전 대화 학습…사용자 편의 진전
영화 'Her'의 AI운영체제 '사만다' 같은 느낌
실시간 통역도 가능…50개 언어 지원
[뉴욕=이데일리 김상윤 특파원] 챗GPT 개발사 오픈AI와 이미지, 음성, 텍스트 등 다양한 형태의 데이터를 사람과 생생하게 주고받을 수 있는 새로운 대규모 언어모델인 ‘GPT-4o’를 새롭게 공개했다.
14일(현지시간) 오픈AI는 기존 GPT4의 성능을 개선한 GPT-4o를 새롭게 출시했다고 밝혔다.
GPT-4o의 ‘o’는 하나의 통합된 AI 모델을 의미하는 ‘옴니모델(omnimodel)’에 뜻한다. 텍스트, 오디오, 이미지를 넘나들며 추론할 수 있다. 주로 텍스트를 통해 대화할 수 있었던 기존 모델과 달리 이용자와 음성 대 음성 대화가 가능하다.
특히 GPT-4o를 이용하면 지금까지 AI 음성 챗봇에는 없었던 사실적인 대화를 할 수 있다. 사용자가 챗GPT에 말을 걸고 지연없이 실시간 응답을 받을 수 있다.
오픈AI는 이날 시연을 통해 마치 사람과 대화가 가능한 AI를 보여줬다. 이를테면 시연자가 스마트폰 카메라를 통해 주변 환경을 보여주면 AI가 “조명, 삼각대, 마이크가 있고, 동영상 촬영이나 라이브 스트리밍을 준비 중인 것 같다”고 답한다. 마치 영화 ‘그녀(her)’에서 주인공이 AI운영체제 ‘사만다’와 대화를 나누는 장면을 연상케 할 정도였다. 종이에 적힌 수학 방정식을 풀기도 하고, 실시간 통역기 기능도 제공한다. 심지어 노래까지 가능하다.
오픈AI의 최고기술책임자(CTO)인 미라 무라티는 “챗GPT가 이제 메모리 기능도 갖추게 돼 사용자와 이전 대화를 통해 학습하고 실시간 번역을 할 수 있게 됐다”며 “사용 편의성 측면에서 큰 진전을 이룬 것은 이번이 처음이다”고 말했다.
새 모델은 50개 언어를 지원하도록 품질과 속도를 개선했다. 오픈AI는 ‘GPT-4o’ 모델이 기존 GPT-4 터보보다 두 배 더 빠르고 비용은 2분의 1 수준이라고 설명했다. GPT-4 터보는 지난해 11월 선보인 최신 버전이다.
미라 CTO는 “챗GPT는 현재 1억 명이 사용하는 AI 솔루션이며, 97%의 세계 시민을 커버하는 50개 언어로 제공된다”며 “이번에 추가된 15개 언어를 통해 더욱 많은 사람들이 AI 기술을 활용할 수 있을 것”이라고 강조했다.
오픈AI는 무료 버전의 챗GPT를 사용하는 사용자를 포함한 모든 사용자에게 GPT-4o를 쓸 수 있도록 했다. 오픈AI는 앞으로 몇 주에 걸쳐 GPT-4o를 출시할 계획이다.