[닥터몰라의 IT이야기]엔비디아의 승부수 '튜링' 보기 1부①

GPU(그래픽 처리장치) 강자인 엔비디아가 연휴 직전 차세대 아키텍처(설계 기반구조) ‘튜링(Turing)’과 이를 바탕으로 한 GPU 제품을 선보였다. 튜링은 천재 과학자이자 오늘날의 컴퓨터와 암호 체계의 기틀을 닦은 개발자 ‘앨런 튜링’의 이름에서 따온 것으로 알려졌다. 화려해지는 그래픽과 늘어나는 데이터 처리량 속 날로 중요해지는 GPU의 역할을 엔비디아가 어떻게 정의하고 나아가는지, 또 시장 상황은 어떤지 닥터몰라의 시각을 통해 살펴본다.<편집자 주>
[IT벤치마크팀 닥터몰라]

엔비디아의 승부수 ‘튜링’ 보기

1부① ▶보기 / 1부② ▶보기 / 2부① ▶보기 / 2부② ▶보기

닥터몰라 제공

엔비디아는 지난 19일 자사의 통산 10번째 그래픽 아키텍처 ‘Turing’과 그에 기반한 ‘GeForce RTX 20 시리즈’ GPU를 정식 발매했다. 우연히도 GeForce 브랜드의 데뷔 20년차인 올해 10번째 아키텍처를 추가함으로써 엔비디아는 실리콘밸리의 반도체 공룡 가운데 가장 부침없이, 평균 2년에 한번 아키텍처를 혁신해오는 대기록을 세우게 되었다. 오늘날 무어의 법칙은 본산인 인텔보다도 그 팔로워들에게서 더 충실히 이행되는 중이다.

Turing의 등장을 계기 삼아 나는 모든 세대의 ‘현대 GPU’를 되짚어보며, 그들이 가졌던 의의와 한계를 짚어볼 것이다. 되풀이되는 사건들, 때로 먼 훗날 태동하게 될 기술의 씨앗이 어떻게 뿌려지고 대개는 당대에 빛을 보지 못하고 잊혀지는지 보며, 기술 발전의 큰 흐름이 얼마나 예측하기 어렵고 수많은 우연의 총체인지 대강이나마 보여드리는 데 목적이 있다.

이 글은 통합 쉐이더(Unified shader)의 등장 전과 후를 기점으로 (1)통합 쉐이더 이전까지의 엔비디아 GPU (2)통합 쉐이더 이후의 엔비디아 GPU (3)ATi/AMD의 GPU를 각각 다루는 것을 목표로 한다.

닥터몰라 제공

지금으로부터 19년 전인 1999년, 최초의 GeForce이자 처음으로 ‘프로세서’를 자임한 그래픽 처리장치인 이 세상에 모습을 드러냈다. 그 전에도 그래픽 처리장치란 존재했으나 그때까지 ‘그래픽’ 이란 단어가 대표하는 심상은 2D 출력을 벗어나지 못하던 때였다. 이때 그래픽 처리장치란 CPU가 연산을 끝마친 효과와 시각 정보를 화면에 뿌려주는 역할에 지나지 않았다.

NV10의 등장을 기점으로, 소프트웨어 처리에 의존해오던 시각효과 연산이 점차 ‘그래픽 프로세서(GPU)’에 옮겨오게 되었으며 ‘그래픽’ 이라는 단어가 대표하는 심상은 급속하게 ‘3D 그래픽’으로 이행하게 되었다. 90년대 후반까지만 하더라도 ‘3D 그래픽’을 별도의 수식어를 달아 사용했지만 오늘날은 ‘2D 그래픽’에 별도의 수식어를 붙여 쓰고 있다. ‘그래픽’이란 단어 사용례의 기본형이 한 차원 도약한 것이다.

엔비디아는 NV10을 출시하며 스스로를 그래픽 프로세서로 이름붙이기 위한 조건을 제시했다. 첫째 트라이앵글 셋업, 트랜스폼(변형), 라이팅(광원)을 CPU 대신 직접 연산할 수 있을 것. 둘째 적어도 초당 1천만개의 다각형을 처리할 만큼의 연산량 -대략 1GOPS(Giga-OPerations/Second)에 해당- 을 갖출 것. 첫번째 조건을 위해 엔비디아는 트랜스폼 및 라이팅 전용 유닛 <하드웨어 T&L 지오메트리 엔진> 을 도입, GeForce란 이름 자체가 그로부터 유래한 일화는 유명하다.

NV10은 당대 최초로 4개씩의 픽셀 쉐이더 / 텍스처 유닛 / ROP를 탑재, 클럭당 4개의 64bit 픽셀을 처리할 수 있었(고 이는 곧 256이라는 접미사의 기원이 된)다. 각 유닛의 연산 성능 총합은 1.44GOPS(픽셀 쉐이더, 텍스처 유닛, ROP 각 480MOPS) 에 달해 두번째 조건 역시 충족되었다. 이때까지 1GOPS 고지를 돌파한 그래픽 처리장치는 전무했으며 엔비디아의 직전작 TNT2 Ultra가 픽셀, 텍스처, 렌더링 각 300MOPS씩 도합 900MOPS를 기록한 것이 최고였다.

이후 엔비디아는 홀수 세대에 신규 아키텍처를 도입하고(편의상 “톡”) 짝수 세대에 공정 미세화 및 유닛 규모 확장을 꾀하는(“틱”) 체제를 도입하게 된다. NV10의 ‘틱’에 해당하는 시리즈는 텍스처 유닛의 규모를 2배로 늘려 4:8:4의 유닛 구성을 채택했으며 클럭을 크게 끌어올리며 텍스처 연산 성능이 1.6GOPS에 달하게 되었다. 2세대의 첫 번째 플래그십 SKU 의 접미사는 바로 ‘Giga-Texels/Second’에서 따온 것이다.

닥터몰라 제공

2001년 출시된 시리즈는 NV1x 이후 두번째 ‘톡’에 해당하는데, 다각형의 꼭지점 연산을 전담하는 <버텍스 쉐이더> 를 신설하여 (4+1):8:4 구성을 채택했으며, 오늘날의 컬러 압축에 해당하는 를 도입하여 유효 메모리 대역폭을 늘린 것이 특징이다. 이후 ‘틱’에 해당하는 시리즈는 버텍스 쉐이더를 두 배 늘려 (4+2):8:4 구성으로 확장하였다.

NV2x 세대의 역사적 의의는 무엇보다 프로그래머블 쉐이더를 도입, 쉐이더 프로그래밍의 단초를 연 것이다. 오늘날의 거대한 범용 GPU 컴퓨팅(GPGPU)은 (비록 범용 쉐이더에 의한 GPGPU 구현은 다섯 세대 뒤에나 실현되지만) 이때 그 초석이 놓인 것과 다름없다. 엔비디아는 Turing을 발표하며 그들의 기념비적 업적으로 레거시 GPU로는 유일하게 GeForce 256과 GeForce 3을 (범용 쉐이더를 도입한) GeForce 8000과 나란히 올렸는데, GeForce 3이 두 거인 사이에 당당히 언급된 배경이 바로 거기에 있다.

(▶2편에서 계속)

▲닥터몰라 소개= 다양한 전공과 배경을 가진 운영진이 하드웨어를 논하는 공간이다. 부품부터 완제품에 이르는 폭 넓은 하드웨어를 벤치마크하는 팀이기도 하다. 데이터베이스를 구축해 이미 알려진 성능의 재확인을 넘어 기존 리뷰보다 한층 더 깊게 나아가 일반적으로 검출하기 어려운 환경에서의 숨은 성능까지 예측가능한 수리모델을 개발하고 있다.

필진으로 이대근 씨(KAIST 수리과학 전공)와 이진협 씨(성균관대학교 생명과학 및 컴퓨터공학 전공), 이주형 씨(백투더맥 리뷰 에디터/Shakr 필드 엔지니어) 등이 참여한다.