[닥터몰라의 IT이야기]인텔-엔비디아, AI 프로세서 갈림길서 만나다

엔비디아 테슬라 GPU

[IT벤치마크팀 닥터몰라] 시대의 화두로 떠오른 인공지능(AI)은 반도체 시장의 흐름마저 비틀고 있다. 전통적으로 프로세서에 요구되어 온 성능의 척도는 얼마나 ‘복잡한’ 계산을 ‘빠르게’ 할 수 있느냐였다. 다시 말해 인간이 감히 흉내조차 낼 수 없는 정밀한 수치를 고속으로 계산해내는 계산기로서의 역할이 지난 수십년간 컴퓨터의 기대역할이었다는 뜻이다.

반면 인공지능의 핵심인 신경망 모사에 있어서는 각 연산분야별 우선순위가 크게 변한다. 인간의 두뇌가 그러하듯 개별 연산의 정밀도는 다소 떨어지더라도 이를 압도적인 수량으로 병렬 처리해 그로부터 일정한 ‘패턴’을 도출하는 것. 이를 우리는 ‘학습’ 또는 ‘추론’이라고 한다. 오늘날 인공지능을 처리하는 프로세서에도 이 용어는 똑같이 적용된다. 요컨대 프로세서의 학습 또는 추론, 우리는 이를 머신러닝(기계학습)이라고 불러 왔다.

◇양강 구도 깨뜨린 엔비디아 쿠다 코어

지난 수 십년간 연산용도로 사용될 수 있는 프로세서는 때로 적대적 기생관계로도 묘사되는 인텔과 AMD, 양사가 대표하는 x86 진영이 거의 독점적으로 공급해 왔다. 여기에 중대한 변화가 가해진 것이 약 10년 전의 범용 그래픽처리장치 (GPGPU) 의 등장이다. 엔비디아가 주도한 GPGPU의 흐름은 오늘날 머신러닝의 표준 언어와도 같은 쿠다(CUDA)의 정립으로 이어졌고, 그래픽처리장치 (GPU) 제조사로만 알려졌던 엔비디아는 순식간에 미래 컴퓨팅을 상징하는 선도회사 중 하나로 자리매김했다.

그래픽 처리에 특화된 GPU가 생뚱맞게도 머신러닝 시대에 각광받는 까닭은 GPU의 진화방향이 마침 머신러닝에 유리한 방향이었기 때문이다. 고해상도 디스플레이가 대중화되어 갈수록 GPU가 처리할 데이터의 양은 증가하는데, 화면에 특정 효과를 구현하는 작업의 중요한 특징은 픽셀 하나하나에 대하여 동일한 연산을 무수히 반복하는 경우가 많다는 것이다. 반면, 개별 픽셀에 서로 다른 효과(=연산) 를 무작위로 구현해야 할 경우는 드물다.

이에 따라, 자연스레 GPU는 해상도의 증가에 발맞춰 ‘병렬 처리’를 고도로 수행하게끔 진화하게 되었다. 반면 그와 대조적으로, CPU는 동일 연산을 반복적으로 수행하기보다는 복잡하고 다양한 연산을 수행하는 데 중점을 둬 왔는데, 오랜 기간 서로 다른 진화의 노선을 걸어온 이들이 때마침 시대의 화두로 급부상한 머신러닝을 맞아 희비가 극단적으로 엇갈렸으니 대단한 운명의 장난이지 않은가.

◇‘텐서’가 바꾼 업계 노선 변화

여기에 재차 변화의 물결이 다가오고 있으니, 바로 머신러닝의 성능을 획기적으로 높일 수 있는 텐서(Tensor) 연산의 대두이다. 행렬연산의 일종인 텐서는 ‘동일 연산 반복 수행’의 극단적인 예로, 이제부터는 텐서를 연산하기 위해 프로세서가 차라리 ‘진화’ 아닌 ‘퇴화’를 선택해야 할 정도로, 노선 변화의 갈림길에 놓이게 되었다.

GPU가 범용 연산을 처리할 수 있게 된 것이 GPU 기반 머신러닝이라는 꽃을 피웠다면 이제 다시 ‘극단적으로 단순화된’ 반복작업을 위해 ‘범용성’을 포기해야 할 시기가 도래한 것이다. 엔비디아는 전통의(?) 머신러닝 명가답게 이에 대한 솔루션을 가장 먼저 제시했다. 바로 범용 연산 유닛에 더해 별도의 텐서 전용 유닛을 나란히 탑재한 것이다. 이 GPU의 이름은 ‘볼타’ 이다. 그러나 이질적인 두 유닛간의 시너지, 즉 ‘케미’ 없는 물리적 결합이란 점에서 면적의 비효율적 증가는 우려되는 점으로 꼽힌다. 볼타는 현재까지 하위 라인업으로 파종되지 않았다.

구글 텐서플로우 TPU

지난해 자회사 딥마인드를 통해 인공지능 경쟁의 선봉에 서 있음을 과시한 구글 (알파벳) 역시 머신러닝 전용 하드웨어 경쟁에 전격적으로 뛰어들었다. 이들이 인 하우스 (in-house) 로 개발한 전용 프로세서는 그 이름부터가 텐서처리장치 (TPU) 이다. 구글은 TPU의 기술적 측면을 거의 공개하지 않았지만 별도의 ‘고유한 반도체 설계 (ASIC)’ 대신 FPGA를 사용해 프로그래밍된 낮은 레벨의 반도체로 점치는 시각이 우세하다. (ASIC은 고유 설계를 바탕으로 고성능화가 용이한 반면 FPGA는 직접 반도체를 ‘프로그래밍’ 해야 하는 까닭에 고성능화가 어렵지만 개발비용이 매우 낮다는 장점이 있다. 적절한 비유가 아닐 수 있지만 PCB 기판과 브레드보드 위에 회로를 구현하는 경우를 대비해보자.)

◇너바나 인수한 인텔의 반격

반도체 공룡 인텔 역시 인공지능 프로세서 경쟁에 지난달 전격적으로 동참을 선언한 바 있다. 인텔은 신성장동력 마련을 위해 브라이언 크르자니크 CEO 취임 이래 공격적으로 기술기반 스타트업에 대한 인수합병을 추진해 왔는데, 그 중 손꼽을만한 것들을 열거하자면 2015년의 알테라, 2016년의 너바나 (Nervana; Nerve(신경) + Nirvana(열반, 초월)), 2017년의 모빌아이 등이다. 이들은 각각 FPGA, 신경망 프로세서, 자율주행 부문을 대표한다. 특히 앞의 둘을 조합해 구글의 TPU와 대조해 보면 인텔이 어디에 중점을 두고 있는지 대강의 그림이 그려진다.

인텔은 오는 연말 자신이 인수했던 기업 너바나와 동명의 신경망 프로세서 (NNP) 를 발표할 계획이다. 여기까지만 보면 엔비디아 홀로 ‘비효율적’ 구세대 연산 유닛과의 공존을 꾀한 것 같지만, 인텔의 길은 엉뚱하게도 작년 인수합병 당시 아미르 너바나 공동창업자의 인터뷰에서 그 단서를 찾을 수 있다. 그리고 그 길은 인텔 역시 궁극적으로 CPU와 NNP의 융합에 방점을 찍고 있음을 보여 준다.

“앞으로 5년 뒤에는 우리 모두가 단순히 더 많은 FLOPS 성능을 요구하는 하드웨어 경쟁에서 벗어나, 실제로 AI를 구동하기 위해 신경망을 중심으로 하드웨어의 통합이 일어날 것이다. (중략) 하나는 제온과 같은 CPU 구성요소일 것이고, 또 하나는 NNP가 될 것이다. CPU와 NNP가 통합되면 구글 알파고에 사용되는 기술을 더욱 효율적으로 구현할 수 있다. 결국 너바나와 제온이 하나의 칩 위에 긴밀하게 통합될 것이라는 게 내 예측이다.”

때마침 인텔은 이번 분기 제온 스케일러블 프로세서 제품군을 출시하며, 그보다 더 거슬러 오르자면 지난해 4분기에 제온 파이 제품군을 출시하며 공히 알테라의 FPGA와 하나로 패키징된 제품이 언젠가 등장할 것임을 지속적으로 암시해 왔다. 어쩌면 인텔과 엔비디아의 길은, 길게 보면 다시 만나게 되는 것 아닐까.

인텔 너바나의 신경망 네트워크 프로세서(Neural Network Processor)