AWS, 엔비디아 블랙웰 기반 AI 인프라 출격

[이데일리 김현아 기자] 아마존웹서비스(AWS)가 15일, 엔비디아의 차세대 GPU 아키텍처인 블랙웰(Blackwell) 기반의 AI 인프라 2종을 공식 출시하며 생성형 AI 및 실시간 에이전틱 AI 시장 공략에 본격 나섰다.

이번에 공개된 제품은 △P6e-GB200 울트라서버와 △P6-B200 인스턴스로, 각각 초대형 모델 훈련·추론용과 범용 AI 워크로드 대응용으로 설계됐다.

AWS가 블랙웰 아키텍처를 기반으로 한 인프라를 상용화한 것은 이번이 처음이다.

엔비디아 NV링크 스위치

조 단위 모델 대응 ‘P6e-GB200’… 72개 GPU로 360페타플롭스 구현

P6e-GB200 울트라서버는 최대 72개의 블랙웰 GPU를 5세대 NVLink로 연결한 단일 노드 슈퍼컴퓨팅 시스템이다.

GPU 연산 성능은 360페타플롭스(FP8), 메모리는 13.4TB(HBM3e), 네트워크 대역폭은 28.8Tbps(EFAv4)에 달한다.

기존 P5en 인스턴스 대비 20배 이상의 컴퓨팅 성능과 11배 이상의 메모리 확장성을 제공하며, 초거대 모델 훈련과 실시간 추론을 동시에 지원한다. 특히 GB200 NVL72 아키텍처는 GPU 간 오버헤드를 줄여 분산 효율성을 극대화한다는 평가다.

범용성과 실용성 갖춘 ‘P6-B200’… 호환성과 성능 동시 확보

P6-B200 인스턴스는 8개의 블랙웰 GPU와 1.4TB GPU 메모리, 3.2Tbps 네트워크 대역폭, 최신 5세대 인텔 제온 프로세서로 구성된 범용 AI 인프라다. 기존 x86 환경과의 코드 호환성을 유지하면서도 GPU 연산 성능은 2.25배, 메모리 용량은 1.27배 향상됐다.

중·대형 AI 훈련 및 추론 작업은 물론, 마이그레이션 유연성 측면에서도 장점을 갖는다.

두 제품 모두 AWS가 자체 개발한 6세대 니트로 시스템(Nitro System)을 기반으로 한다. 니트로 아키텍처는 2017년 이후 EC2 전반에 적용돼 안정성을 검증받은 시스템이다.

IRHX 리퀴드 냉각 시스템 내부

냉각 기술도 차별화… 액체 냉각 vs 공기 냉각

P6e-GB200은 고밀도 발열을 억제하기 위해 리퀴드-투-칩 액체냉각(liquid-to-chip)을 채택한 반면, P6-B200은 검증된 공기 냉각 방식을 유지했다. AWS는 이를 통해 고성능 운용과 에너지 효율성을 동시에 달성할 수 있다고 설명했다.

AWS는 “AI 인프라는 규모보다 일관된 성능, 안정성, 운영 효율이 핵심”이라며, 이번 블랙웰 기반 제품은 전력 소모 최대 40% 절감, 케이블링 수요 80% 감소 등 인프라 운영 리스크를 획기적으로 줄였다고 밝혔다.

AWS는 현재 전 세계 37개 리전, 117개 가용영역(AZ)에서 240개 이상의 서비스를 제공 중이며, 블랙웰 기반 인프라도 순차적으로 글로벌 리전에 도입될 예정이다.