엔비디아의 승부수 ‘튜링’ 보기
1부① ▶보기 / 1부② ▶보기 / 2부① ▶보기 / 2부② ▶보기
|
Kepler 아키텍처로서 최초로 상용화된
Kepler의 GPU-GPC-SM 구조는 Fermi는 물론 Fermi Refresh와도 다르다. Kepler SM은 4 스케줄러 / 192 ALU / 16 텍스처 유닛을 탑재해 GF104/114 대비 각각 1배 / 4배 / 2배에 달하며, 특히 SM당 스케줄러 개수가 그대로 유지되었으나 명령어를 발행하는 디스패치 유닛이 스케줄러당 1->2개로 늘어 프론트엔드가 2배 확장된 효과를 갖는다. GK110은 5 GPC에 걸친 15 SM 구조로, 5개의 래스터 엔진(클럭당 80개 래스터 공급) / 60 스케줄러 / 120 디스패치 유닛 등 당시까지 출시된 GPU 중 가장 강력한 프론트엔드를 가졌다.
이렇듯 큰 변화가 가능했던 것은 Fermi 아키텍처 이후 처음으로 풀 노드 체인지(40->28nm)가 동반되었기 때문이다. 반면 Kepler의 후속으로 투입될 Maxwell 아키텍처는 제조공정을 그대로 유지하며, 아키텍처 혁신만으로 성능향상과 전력효율 향상을 동시에 추구해야 하는 난제에 처했다. 엔비디아의 해답은 GF100/110 -> GF104/114에서 학습한, 유닛 구성비율 변경과 FP64 연산 성능의 삭감이었다.
|
느슨하게 보아, Kepler 아키텍처와 제조공정이 같고 무엇보다 주요 특성을 그대로 계승했다는 점에서 Kepler와 Maxwell 아키텍처의 관계를 Fermi-Fermi Reresh의 그것과 동치시킬 수도 있다. 이 경우 세대 내에서의 역할 교대가 ‘세대간’ 역할 교대로 변화했을 뿐 본질적으로는 같은, 어떤 의미에서의 ‘틱톡’이라고 보는 것도 가능하다. 이 점은 둘의 후속 아키텍처이자 또 한번의 풀 노드 체인지(28nm -> 16nm FF)가 동반된 Pascal에서 더욱 명확해진다.
|
|
그러나 둘은, 이후 같은 세대 내에서 컴퓨팅용과 게이밍용 아키텍처를 완전히 분리(Volta와 Turing)해내기 위한 예행 연습이 아니었을까 여겨질 만큼 큰 차이가 있다.
GP102 이하의 Pascal은 큰 틀에서 Kepler-Maxwell에서 이어져 내려온 SM 설계철학 대부분을 계승하고 있으며 특히 Maxwell SM과 대동소이하다. GP102의 경우 5 SM과 하나의 래스터 엔진이 GPC를 구성하며, GPU 전체는 이러한 GPC 6개로 구성된다. Maxwell과 다른 점은 GPC를 구성하는 SM 개수가 4->5개로 변화한 것밖에 없다.
반면 GP100은 SM 구성이 Maxwell / Pascal GP102의 정확히 절반으로 줄어들었다. 다만 GPC를 구성하는 SM 개수가 2배 증가하여 GPC 레벨에서의 각 유닛 총수는 GP102와 같고, GP100 GPU 전체에 탑재된 GPC의 개수 역시 6개로 동일하여 거시적인 레벨에서 차이가 은폐될 뿐이다.
이를 예행 연습으로 표현한 이유는, 다름아닌 Volta 아키텍처가 GP100과 같은 SM 구조를 공유하기 때문이다. 또한 Volta는 Kepler 아키텍처부터 1:2를 고수해 온 스케줄러-디스패치 유닛 비율을 스케줄러를 두 배 늘림으로써 1:1로 끌어올렸다.
|
빅 칩들인 GP100, GV100 역시 래스터 엔진의 공급량이 ROP의 출력량에 못 미치는 (96 < 128) 구조이며 후술할 Turing 아키텍처 기반
구조적 문제가 아니더라도 (의도적으로?) 래스터 엔진을 제한함으로써 상위 SKU와의 성능 격차를 벌리는 경우가 있다.
|
비록 아키텍처 이름은 분리되었지만 같은 항렬의 손윗 형제자매뻘인 GV100과 TU102를 비교해 보면 트레이드오프를 알 수 있다. 둘은 모두 6개의 GPC를 탑재, GV100은 GPC당 14 SM으로 총 84 SM / 5376 ALU 구성이며 TU102는 GPC당 12 SM으로 총 72 SM / 4608 ALU 구성이다. FP64 연산 유닛을 제거하고 SM 개수를 12.5% 줄여 얻어낸 여력을 RT코어 등의 구현에 재투자한 것이다. 둘의 면적은 815mm2 vs 754mm2로 한 자릿수 % 차이에 불과하다.
그러나 투입한 만큼의 효율이 드러나고 있느냐면 아직은 아닌 것 같다. 당장 효과를 보기 힘든 텐서코어와 RT코어를 제외하더라도, 기존 ALU와 똑같은 수의 정수 연산 유닛을 탑재했음에도 엔비디아가 밝힌 ALU 스루풋은 기존 대비 36% 향상에 그친 반면 소비전력은 Pascal 세대보다 전반적으로 증가한 경향을 보인다. Turing이 제2의 G80이 될지, NV30 / Fermi의 전철을 밟을지는 그리 머지 않아 판가름 날 것이다. (2부 끝)
▲닥터몰라 소개= 다양한 전공과 배경을 가진 운영진이 하드웨어를 논하는 공간이다. 부품부터 완제품에 이르는 폭 넓은 하드웨어를 벤치마크하는 팀이기도 하다. 데이터베이스를 구축해 이미 알려진 성능의 재확인을 넘어 기존 리뷰보다 한층 더 깊게 나아가 일반적으로 검출하기 어려운 환경에서의 숨은 성능까지 예측가능한 수리모델을 개발하고 있다.
필진으로 이대근 씨(KAIST 수리과학 전공)와 이진협 씨(성균관대학교 생명과학 및 컴퓨터공학 전공), 이주형 씨(백투더맥 리뷰 에디터/Shakr 필드 엔지니어) 등이 참여한다.