[이데일리 이주영 기자] 엔비디아(NVDA)가 시각과 청각, 언어 능력을 하나의 시스템으로 통합한 오픈 멀티모달(Multimodal) 모델인 ‘네모트론 3 나노 옴니(Nemotron 3 Nano Omni)’를 28일(현지시간) 선보였다.
멀티모달은 인공지능(AI)이 텍스트뿐만 아니라 이미지와 오디오 등 다양한 형태의 데이터를 동시에 이해하고 처리하는 기술이다. 이번에 공개된 모델은 AI 에이전트가 별도의 인식 모델 없이도 복합적인 정보를 한 번에 처리할 수 있도록 설계됐다.
네모트론 3 나노 옴니는 총 300억 개의 파라미터(매개변수) 중 추론 시 30억 개만 활성화하는 ‘30B-A3B’ 하이브리드 혼합 전문가(MoE) 아키텍처를 채택했다. 이를 통해 시각 및 오디오 인코더를 통합해 기존의 분산된 시스템보다 처리량을 최대 9배까지 높였다.
입력값으로 텍스트는 물론 이미지, 오디오, 비디오, 문서, 차트, 그래픽 인터페이스 등을 지원하며 결과물은 텍스트로 출력한다. 256K에 달하는 방대한 컨텍스트 윈도우를 갖췄으며, Conv3D와 EVS 기술을 적용해 시간적·공간적 데이터 처리 능력을 강화했다.
엔비디아 측은 이 모델이 문서 지능, 비디오 및 오디오 이해 등 6개 주요 벤치마크 리더보드에서 1위를 차지했다고 밝혔다. 현재 팔란티어(PLTR), 폭스콘, 에이블 등 다수의 AI 및 소프트웨어 기업이 이 모델을 도입했으며 델 테크놀로지스(DELL), 오라클(ORCL), 도큐사인(DOCU) 등이 도입 검토 중이다.
한편 이날 정규장 거래에서 오픈AI 사용자수 감소에 따른 우려로 엔비디아 주가는 전일 대비 1.59% 하락 마감했으며, 현지시간 이날 오후 5시 4분 시간외 거래에서도 0.30% 추가로 밀리며 212.52달러에 머물고 있다.




