엔비디아, 3D 그래픽 구현하는 생성형 AI 모델 ‘라떼3D’ 공개

by김현아 기자
2024.03.25 14:28:29

게임, 광고, 디자인, 로보틱스 훈련 위한 가상 환경 구현
모델 훈련에 엔비디아 A100 텐서 코어 사용
챗GPT가 생성한 다양한 텍스트 프롬프트 학습

[이데일리 김현아 기자]엔비디아가 단 몇 초 만에 텍스트를 3D 그래픽으로 변환하는 생성형 AI 모델 라떼3D(Large-scale Amortized Text-To-Enhanced3D Synthesis, LATTE3D)를 공개했다.

텍스트 프롬프트에 따라 구현된 이미지 예시

라떼3D는 가상 3D 프린터처럼 텍스트 프롬프트를 1초 안에 사물과 동물의 3D 그래픽으로 변환할 수 있다.

라떼3D는 표준 렌더링 애플리케이션에 널리 사용되는 포맷으로 제작됐다. 비디오 게임, 광고 캠페인, 디자인 프로젝트 또는 로보틱스용 가상 훈련장 개발 등을 위한 가상 환경을 쉽게 구현할 수 있다.

엔비디아(NVIDIA) AI 리서치(research) 담당 부사장인 산자 피들러(Sanja Fidler)는 토론토에 위치한 AI 연구소에서 라떼3D를 개발했다.

그는 “1년 전만 해도 AI 모델이 이 정도 품질의 3D 비주얼을 생성하는 데 1시간이 걸렸지만, 이제는 10~12초 정도면 충분하다. 훨씬 더 빠른 속도로 결과를 생성할 수 있게 되면서 업계 전반의 크리에이터들이 거의 실시간으로 텍스트를 3D로 생성할 수 있게 됐다”고 말했다.

이러한 발전으로 라떼3D는 엔비디아 리서치 데모에 사용된 엔비디아 RTX A6000과 같은 단일 GPU에서 추론을 실행할 때 거의 즉각적으로 3D 형상을 생성할 수 있게 됐다.

크리에이터는 처음부터 디자인을 시작하거나 3D 에셋 라이브러리를 일일이 찾아보는 대신 라떼3D를 사용해 머릿속에 아이디어가 떠오르는 즉시 세부적인 개체를 생성할 수 있다.

모델은 각 텍스트 프롬프트에 따라 몇 가지 다른 3D 모양 옵션을 생성해 크리에이터에게 선택권을 제공한다. 선택된 개체는 몇 분 내에 더 높은 품질로 최적화된다. 그런 다음 사용자는 해당 그래픽을 그래픽 소프트웨어 애플리케이션이나 엔비디아 옴니버스(Omniverse)와 같은 플랫폼으로 전송할 수 있다. 이를 통해 오픈USD(Universal Scene Description, OpenUSD) 기반 3D 워크플로우와 애플리케이션을 사용할 수 있다.

연구진은 동물과 일상 사물이라는 두 가지 특정 데이터세트에 대해 라떼3D를 훈련시키고, 개발자는 동일한 모델 아키텍처를 사용해 다른 데이터 유형에 대해 AI를 훈련시킬 수 있다.

구현 이미지 예시

예를 들어, 3D 식물 데이터세트를 훈련한 라떼3D 버전은 조경 디자이너가 고객과 브레인스토밍 하면서 나무, 꽃 덤불, 다육식물로 정원 렌더링을 빠르게 작성하는 데 도움을 줄 수 있다.

가정 내 사물에 대해 훈련된 모델은 집을 3D 시뮬레이션으로 채울 아이템을 생성할 수 있다. 이런 경우 개발자는 테스트하거나 실제 환경에 배치하기 전에 개인 비서 로봇을 훈련할 수 있다.

라떼3D 훈련에는 엔비디아 A100 텐서 코어(Tensor Core) GPU가 사용됐다.

3D 그래픽 외에도 챗GPT(ChatGPT)를 통해 생성된 다양한 텍스트 프롬프트를 훈련했다. 이를 통해 사용자가 특정 3D 개체를 설명할 때 제시할 수 있는 다양한 문구를 처리하는 능력을 향상시켰다. 예를 들어, 다양한 개 종류를 묘사하는 프롬프트에서는 모두 개 모양을 생성하도록 학습시켰다.

전 세계 수백 명의 과학자와 엔지니어로 구성된 엔비디아 리서치는 AI, 컴퓨터 그래픽, 컴퓨터 비전, 자율 주행 자동차, 로보틱스 등을 중점으로 연구하고 있다.

연구원들은 엔비디아 GTC에서 확산 모델 훈련을 위한 최신 기술을 발전시키는 연구 결과를 공유했다. 엔비디아 테크니컬 블로그에서도 자세한 내용을 확인할 수 있다.

최신 엔비디아 AI 뉴스는 엔비디아 창립자 겸 CEO인 젠슨 황(Jensen Huang)의 GTC 기조연설 다시 보기에서 확인할 수 있다.