엔비디아 NIM(NVIDIA NIM, NVIDIA Microservice Infrastructure)은 엔비디아가 제공하는 클라우드 기반 마이크로서비스 플랫폼이다. AI 모델을 손쉽게 배포하고 관리한다.
|
딥시크-R1은 6,710억 개의 파라미터를 포함하고 있으며, 128,000개의 토큰을 처리할 수 있는 거대한 입력 컨텍스트 길이를 지원한다.
또한, 모델의 각 레이어에는 256명의 전문가가 포함돼 있어, 병렬 처리로 보다 빠르고 정확한 결과를 도출할 수 있다. 이를 위해 실시간 추론을 제공하려면 높은 컴퓨팅 성능과 빠른 토큰 라우팅을 위한 고속 대역폭과 짧은 지연 시간이 필요하다.
이번에 제공되는 NIM 마이크로서비스는 개발자들이 딥시크-R1을 쉽게 배포하고 실험할 수 있게 해준다. 이 서비스는 엔비디아의 NV링크와 NV링크 스위치를 사용해 8개의 H200 GPU가 장착된 단일 서버에서 최대 3,872개의 토큰을 전송하며, 6,710억 개의 파라미터를 효율적으로 처리할 수 있다.
딥시크-R1을 활용하면 기업들은 고도의 추론 성능을 요구하는 애이전틱 AI 시스템을 구축할 수 있으며, 엔비디아 네모(NeMo)와 같은 AI 소프트웨어와 함께 맞춤형 AI 에이전트를 구축하는 것도 가능하다.
엔비디아는 딥시크-R1을 활용한 추론 모델의 성능을 더욱 향상시키기 위해, 차세대 블랙웰(Blackwell) 아키텍처와 72-GPU NV링크 도메인을 지원하며, 피크 FP4 컴퓨팅 성능을 제공한다고 밝혔다.





