Cascade Lake-AP가 현 스카이레이크(Skylake)-SP의 두 배에 가까운 48코어를 집적한다는 사실 때문이 아니다. 2006년의 요크필드(Yorkfield)를 마지막으로 한동안 인텔 로드맵에서 찾아볼 수 없었던, 2개의 다이(칩)를 이어붙인 멀티칩모듈 (MCM) 구조가 정식으로 부활했음을 알리는 신호탄이었기 때문이다.
인텔이 2008년 Nehalem 아키텍처에서 야심차게 (재)도입한 동시 다중스레드 처리기술인 ‘하이퍼스레딩(Hyper-threading; HT)’ 은 최근 1년 사이 불거진 각종 보안 취약점의 온상으로 지목받으며 9세대 코어 프로세서를 기점으로는 사실상 극히 일부 SKU를 제외하고는 배제수순을 밟고 있다. 거꾸로, 2008년 Nehalem이 네이티브 4코어 설계를 채택하며 폐기되었던 MCM 구조는 만 10년만의 컴백을 알리며 극적인 대비를 이뤘다.
Cascade Lake-AP를 구성하는 최소단위는 Skylake-SP와 크게 다르지 않을 것으로 예상된다. Skylake-SP의 최상위 버전 다이는 풀 스펙을 가정했을 때 28코어, 6채널 DDR4 메모리 인터페이스를 갖춘다. 이를 그대로 두 배 늘리면 56코어, 12채널 메모리 인터페이스가 되어야겠지만 Cascade Lake-AP는 48코어, 12채널 메모리를 각각 지원할 것으로 소개되었다. 코어 일부를 비활성화한 채 투입할 것으로 예상되는 대목이다.
인텔이 28코어 프로세서의 신규 투입을 알린 이튿날 AMD는 최대 32코어의 2세대 Ryzen Threadripper를 발표하며 인텔에게로 급격히 쏠리던 무게추를 급반전시킨 바 있다. 이러한 예후마저 재현될 조짐이 보인다. 48코어 Cascade Lake-AP가 예고된 지 이틀째인 6일 이날 AMD는 Next Horizon 행사에서 2세대 EPYC ‘Rome’ 프로세서가 최대 64코어 구성을 취할 것을 공식화했기 때문이다. 더불어 오랜 x86 CPU 경쟁의 역사에서 처음으로 비-인텔 제조사가 인텔의 동 세대 프로세서보다 앞선 제조공정을 채택하는 신기록을 세웠다.
TSMC의 7nm 핀펫(FinFET) 공정으로 제조되는 Rome은 Zen 2 아키텍처 기반의 x86 코어 8개씩을 집적한 ‘칩렛’(chiplet, chip의 소형형 명사) 을 최소단위로 한다. 종전의 Zen / Zen+ 기반 프로세서 설계에서 코어 4개씩을 묶어 ‘코어 컴플렉스’ (CCX) 라는 최소단위로 삼던 것에 비하면 최소단위가 2배로 확장된 것이다. 게다가 변화는 단순히 숫자의 증가시키는 데 그치지 않았다.
과거 Zen / Zen+ 기반 프로세서는 이러한 CCX 2개와 (4x2=8코어) 2채널 메모리 컨트롤러, 32라인 PCIe 3.0 컨트롤러 등 I/O 인터페이스를 모두 집적해 하나의 칩을 구성했고, 다시 이러한 칩을 1, 2, 4개로 MCM화해 데스크탑용 Ryzen으로부터 하이엔드 데스크탑용 Ryzen Threadripper, 서버용 EPYC까지 파생시키는 전략을 취하고 있었다.
이 전략은 설계의 복잡도를 크게 늘리지 않으면서 손쉽게 8코어부터 32코어 프로세서까지를 만들어낼 수 있는 장점을 제공했지만, 동시에 I/O 인터페이스가 각각의 칩에 전속되며 MCM 구성시 ‘다른 칩에 속한’ I/O 자원을 액세스하는 데 불필요한 레이턴시가 발생하는 등 약점도 공존했다. AMD는 Zen 2를 도입하며 바로 이 부분에서 큰 변화를 꾀했다. 바로 I/O 인터페이스를 ‘코어’ 부분과 독립시킨 것이다.
다시 말해, 1세대 EPYC은 워크로드가 1개 칩분의 자원을 초과하여 점유할 때마다 칩 사이를 넘나들어야 해 오프-칩 레이턴시가 발생했지만 2세대 EPYC ‘Rome’은 모든 부하의 워크로드에 대하여 레이턴시를 균일하게 통제할 수 있게 된다. 이는 비단 서버용 프로세서뿐 아니라, MCM 구조를 채택하고 있던 하이엔드 데스크탑용 프로세서 Ryzen Threadripper에 대해서도 마찬가지의 개선을 가져올 것으로 관측된다.
I/O 다이를 분리한 것에는 물론 핸디캡 또한 존재한다. 2003년 K8 아키텍처에서 프로세서와 메모리 컨트롤러를 통합한 이래 만 15년만에, 둘을 다시 물리적으로 분리하는 ‘역사적 번복’이 그것이다.
그러나 개별 코어와 메모리 컨트롤러를 분리하는 작은 핸디캡을 대가로 프로세서 전체 레벨에서 UMA로 메모리 도메인을 통합, 레이턴시를 절약하는 것이 훨씬 큰 성능상 이득을 가져온다는 것이 AMD의 판단이다. 이러한 개선에 힘입어, 이론상 2세대 EPYC ‘Rome’은 현행 수준의 인터커넥트만 확보하더라도 최대 8소켓까지 확장할 수 있게 된다. 이는 인텔 Xeon SP와 동등하고, 현행 1세대 EPYC보다 4배 증가한 것이다.
또한, 그러고도 I/O 다이가 물리적으로 분리됨으로써 발생하는 핸디캡은 칩렛과 I/O 다이를 잇는 내부 소통망인 ‘인피니티 패브릭(Infinity Fabric; IF)’을 2세대로 업데이트해 최소화하는 등 만반의 대비책을 세웠다. 2세대 IF의 대역폭은 아직 구체적으로 알려지지 않았으나 Zen 2부터 PCIe 4.0을 지원한다는 것이 알려졌으므로 IF 역시 그에 연동되어 대역폭 향상이 있을 것으로 짐작된다. 즉 Zen 2의 핵심은, 과거의 프로세서-노스브릿지(메모리 컨트롤러) 체제로 회귀하되 둘 사이의 인터커넥트를 과거와 비교할 수 없이 고속화해 그 차이를 은폐하는 데 있다.
Zen 2는 ‘거시적인’ 칩 디자인의 변화만을 의미하지 않는다. 아키텍처 레벨에서의 ‘미시적’ 변화가 가해진 것은 2016년 공개된 오리지널 Zen 이후 처음 시도되는 것이다. Zen 2의 변화는 주로 프론트엔드에 집중되었다. 그 중에서도 명령어 프리페치 유닛과 분기예측 유닛을 개선하고, L1 명령어 캐시와 (사실상의 L0 캐시인) OP-캐시를 증설한 것이 가장 큰 변화이다.
상대적으로 Zen 2의 백엔드는 덜 언급되었는데, 그럼에도 주목할만한 변화는 (길게는 K10 시절부터 128비트에 고정되었던) 부동소수점 파이프라인의 벡터 넓이가 마침내 256비트로 확장된 것이다. 앞서 K10 / 불도저의 부동소수점 스루풋은 인텔 Nehalem 아키텍처의 그것과 같았으며 Sandy Bridge의 절반 수준이었고, Zen / Zen+는 Sandy Bridge와 동급이 되었으나 Haswell / Skylake에 비교하면 여전히 절반 수준에 머물러 있었다. 이로써 Zen 2의 스루풋은 Haswell / Skylake와 동등해졌다.
사상 첫 7nm x86 CPU로서 제조공정의 특성을 짚고 넘어가지 않을 수 없다. “7” 이란 숫자에는 다분히 마케팅적 분칠이 덧입혀졌단 사실을 부인할 수 없으나 어쨌든 전 x86 역사를 통틀어 처음으로 인텔의 14nm FinFET 제조공정보다 더 미세한 단계에 돌입했다는 것 역시 사실이다. AMD는 TSMC의 7nm FinFET 공정이 글로벌파운드리(Globalfoundries)의 14/12nm FinFET 대비 2배의 밀도 향상을 이뤘다고 밝혔으며 이는 포괄적으로 보아 인텔의 10nm 공정과 유사한 것이다.
그 밖에도 AMD는 TSMC의 7nm FinFET 공정이 글로벌파운드리 14nm FinFET 대비 같은 동작속도에서 50%의 소비전력 절감 또는 같은 소비전력에서 25%의 동작속도 향상을 달성할 수 있다고 밝혔다. 아주 러프하게 보아, 현행 1세대 EPYC의 플래그십 SKU인 EPYC 7601를 기준삼았을 때 최대 3.2GHz인 동작속도는 2세대 ‘Rome’ 에서 4.0GHz까지 상향될 수 있으며(3200×1.25=4000), 나아가 3.6-4.0GHz의 동작속도를 갖던 1세대 Summit Ridge 대비 Zen 2 기반 데스크탑 SKU는 4.5-5.0GHz에 달할 가능성이 있다.
인텔과 AMD 모두 노선을 대폭 틀어 MCM으로의 이행이 공식화된 이상, 양사의 경쟁은 이제까지와는 전혀 다른 양상으로 전개될 것이다. 가히 ‘제2라운드’의 개막이라고 보아도 좋을 것이다.
▲닥터몰라 소개= 다양한 전공과 배경을 가진 운영진이 하드웨어를 논하는 공간이다. 부품부터 완제품에 이르는 폭 넓은 하드웨어를 벤치마크하는 팀이기도 하다. 데이터베이스를 구축해 이미 알려진 성능의 재확인을 넘어 기존 리뷰보다 한층 더 깊게 나아가 일반적으로 검출하기 어려운 환경에서의 숨은 성능까지 예측가능한 수리모델을 개발하고 있다.
필진으로 이대근 씨(KAIST 수리과학 전공)와 이진협 씨(성균관대학교 생명과학 및 컴퓨터공학 전공), 이주형 씨(백투더맥 리뷰 에디터/Shakr 필드 엔지니어) 등이 참여한다.