[닥터몰라의 IT이야기]엔비디아의 승부수 '튜링' 보기 1부②
by이재운 기자
2018.09.24 11:11:01
(▶1편에서 이어집니다)
[IT벤치마크팀 닥터몰라]
엔비디아의 승부수 ‘튜링’ 보기
1부① ▶보기 / 1부② ▶보기 / 2부① ▶보기 / 2부② ▶보기
세 번째 ‘톡’은 2003년 출시된
시리즈였다. 그보다 반년 전에는 경쟁사 ATi가 당대의 최신 API였던 DirectX 9에 처음으로 대응하는 Radeon 9000 시리즈를 출시했는데, Radeon 9700은 당시 엔비디아의 플래그십 SKU인 대비 무려 3배라는 경이로운 성능향상을 보인 바 있다. 당연히 사람들의 관심은 엔비디아가 날릴 카운터펀치인 NV30에 쏠렸다. 이내 새 아키텍처의 좋은 점과 나쁜 점이 드러났는데, 좋은 점부터 말하자면 NV30은 당대 최고의 이상향을 집약한 혁신적 아키텍처란 것이었다. 일단 외견상 유닛 구성은 (8+4):8:8로, 픽셀 쉐이더와 ROP가 전세대 대비 2배로 늘었다.
NV30은 당시 주류였던 정수 피연산자 외에도 부동소수점 피연산자 지원을 개시, 오늘날 GPU 연산 성능을 ‘FLOPS’ 단위로 평가하게 한 시초와 다름없다. 또한 고품질 컬러 표현을 위해 당시까지 널리 쓰이던 16비트 부동소수점(FP16) 컬러에 더해 32비트(FP32) 컬러를 지원하도록 하였다. 또한, 차세대 GPU의 이름에 걸맞게 직전 세대 주류이던 4 ROP 체제를 탈피, ROP 개수를 8개로 늘리기에 이른다. 여기까지는 좋았다. 그러나 뚜껑을 열어보니 곳곳이 지뢰밭이었다.
‘정수/부동소수점 연산 유닛을 혼합 구성하여’ 전세대 대비 유닛 수를 2배 늘린 쉐이더는 피크 연산 성능에는 거의 도달하지 못했고, FP32 유닛의 효율이 나빴던 탓에 전통적인 FP16 유닛 4개 + FP32 유닛 2개로 절충한 설계는 반년 먼저 등장한 Radeon 9700이 FP24이라는 독자 규격을 제안해 관철시킨 탓에 무용지물이 되었다(FP24 피연산자는 FP16 유닛으로 연산이 불가능해 개수가 절반에 불과한 FP32 유닛에 할당되었다). 결정적으로 8 ROP 구성 자체도, 4개의 정수 ROP와 4개의 부동소수점 ROP로 이원화되어 실질적으로는 정수 또는 부동소수점의 4 ROP만으로 작동하는 경우가 대부분이었다.
한편, 텍스처 유닛은 통상적으로 텍스처 어드레스 유닛과 텍스처 필터 유닛이 1조로 편성되는데, 여기에도 NV30의 약점이 있었으니 바로 텍스처 어드레스 유닛만 2배로 증가시킨 것이다. 결국 NV30의 텍스처 유닛은 텍스처 필터 유닛에 발목이 잡혀 사실상 외견상 스펙의 절반에 해당하는 성능만을 발휘하게 되었다. 결과적으로 (8+4):8:8의 장밋빛 사양은 최악의 시나리오에서 (4+2):8:4로까지 떨어지는 결과를 낳았는데, 그러는 한편 NV30의 칩 면적은 연산 유닛을 대폭 보강한 덕분에 당대 최고인 200mm2에 도달, 발열/소비전력/가격의 삼박자가 모두 높아지는 삼중고를 겪게 된다.
결국 NV30 기반 첫 번째 플래그십 SKU 은 디펜딩 챔피언인 Radeon 9700을 꺾는 데 사실상 실패한데다, 이듬해 ATi가 Radeon 9700을 개량한 9800 / 9800 XT를 연달아 투입하며 더욱 아노미 상태에 빠진다. 다만 Radeon 9800 XT 출시 이전까지 NV30의 고클럭화 / 버텍스 쉐이더 강화 버전인 , 을 연달아 투입, 최고 성능 타이틀을 잠시 보유하기는 했다. 여담이지만 NV3x는 엔비디아 역사상 처음이자 마지막으로 IBM이 생산한 칩이기도 하다.
NV3x이 남긴 충격이 얼마나 컸던지, 엔비디아는 2004년 곧장 ‘틱’을 건너뛰고 게이밍에 최적화해 아키텍처를 뜯어고친 시리즈로 직행한다. 대략 이때부터 ATi와의 신제품 출시 주기가 (반쯤 의도적으로?) 반년씩 엇갈리게 되어 직접적인 비교선상에 놓이는 상황을 비껴가게 되었는데 이 역시 NV3x / GeForce FX의 트라우마가 미친 영향이다.
NV40은 당대로서는 경이로운 규모의 16 ROP를 탑재했으며, 전체적인 유닛 구성 역시 (16+6):16:16으로 상향된 것이 특징이다. 메모리 인터페이스 역시 GDDR3를 첫 도입하는 한편 256비트 버스 구성으로 전체적으로 오늘날 -2018년- 의 엔트리급 그래픽카드에 맞먹는 수준으로 급성장했다. 첫 플래그십 SKU 은 전세대의 왕 Radeon 9800 XT를 60% 상회하는 성능을 기록, 왕위를 간단히 되찾았다.
다시 ‘틱톡’ 궤도에 복귀한 엔비디아는 2005년 NV40의 ‘틱’에 해당하는 을 발표한다. 당초 NV47로 내정되었던 코드네임은, 만 여섯 세대만에 ‘엔비디아’의 정체성보다 ‘GeForce’를 앞세운 G-명명법으로 대체되었다. 엔비디아는 제조공정의 안정화로 얻어진 여력을 모두 유닛 규모 확장에 투입, G70은 당시까지 사상 최대인 (24+8):24:16 구성을 취했다. 쉐이더는 통상 4-way SIMD 구성이므로 통합 쉐이더로 환산하면 대략 128:24:16에 해당하는 규모이다.
이 시기 엔비디아는 처음으로 정규 SKU의 모델명에 GTX 접미사를 활용한다. G70은 바로 다음 세대의 ‘통합 쉐이더’ 개념이 태동하던 과도기의 아키텍처인 만큼 미래지향적이되 ‘신세대의 첫째’ 아닌 ‘구세대의 막내’로 남을 수 밖에 없던 숙명이 녹아 있다. 이 시기의 시대적 흐름은 엔비디아와 ATi 양사 모두 ‘전용 유닛’으로 대응하던 시각효과 연산을 ‘깡 컴퓨팅 성능’의 테두리 안으로 흡수하는 것이었는데, 공교롭게도 이러한 흐름이 양사가 기술적으로 밀던 양대 게이밍 콘솔(엔비디아와 소니의 PS3 / ATi와 MS의 XBOX 360)로부터 가속화된 것 또한 재미있다.
G70 기반 첫 번째 플래그십 SKU 는 등장과 동시에 전세대의 왕 Radeon X850 XT를 30% 격차로 꺾었으며, 훗날 Radeon X1800 XT와의 대결에서도 거의 대등한 성능으로 성공적인 방어전을 치러 2세대에 걸쳐 현역으로 군림한 최초의 엔비디아 GPU가 된다. 사실 ATi는 (16+6):16:16 구성의 Radeon X800 시리즈에서 거의 차별화되지 않은 (16+8):16:16 구성으로 Radeon X1800 시리즈를 제조했는데, 이는 훗날 MS XBOX 360에 복선을 깔아 두었던 거대한 낚시로 밝혀진다. Radeon X1800 시리즈는 해당 세대의 플래그십 칩이 아니었던 것이다.
MS XBOX 360의 GPU는 (48+8):16:16 구성으로, 같은 시기 데뷔한 Radeon X1800 XT보다 픽셀 쉐이더 수가 3배나 많았고 이는 오늘날의 통합 쉐이더로 환산하면 무려 224 ALU에 해당하는 규모이다. 당시엔 데스크탑용 그래픽 처리장치의 평균 판매단가(ASP)가 오늘날보다 상당히 낮았으며 이 정도 규모의 칩은 마진을 고려하면 그야말로 콘솔에나 탑재가능한 것으로 여겨졌던 것이다.
이러한 대다수의 예상을 깨고, XBOX 360 GPU 구성을 그대로 옮긴 Radeon X1900 시리즈를 출시하며 ATi는 통합 쉐이더가 도래하기 전까지의 승부에 승리로써 종지부를 찍게 된다. 이후 엔비디아가 날린 카운터 펀치 도 Radeon X1900 XT/XTX, X1950 XT/XTX들을 넘어서지 못했다.
이때부터 태동된 ATi/AMD의 ‘깡 컴퓨팅 성능’ 폭주는 꼬박 네 세대 뒤인 Radeon HD 5800 시리즈까지 이어진다(어떻게 보면 현재진행형이기도 하다). 얄궂게도, 컴퓨팅을 강조하게 된 통합 쉐이더의 시대가 도래하면서부터 ATi/AMD는 다시는 엔비디아를 동일한 타임라인에서 이겨보지 못했다. 이 시기부터는 2편에서 다루도록 하겠다.
*편집자 주: 2편은 다음주 연재 예정입니다.
▲닥터몰라 소개= 다양한 전공과 배경을 가진 운영진이 하드웨어를 논하는 공간이다. 부품부터 완제품에 이르는 폭 넓은 하드웨어를 벤치마크하는 팀이기도 하다. 데이터베이스를 구축해 이미 알려진 성능의 재확인을 넘어 기존 리뷰보다 한층 더 깊게 나아가 일반적으로 검출하기 어려운 환경에서의 숨은 성능까지 예측가능한 수리모델을 개발하고 있다.
필진으로 이대근 씨(KAIST 수리과학 전공)와 이진협 씨(성균관대학교 생명과학 및 컴퓨터공학 전공), 이주형 씨(백투더맥 리뷰 에디터/Shakr 필드 엔지니어) 등이 참여한다.