Xeon Scalable 4. generace: DDR5, PCIe 5.0 a CXL 1.1, AMX, 7nm čiplety a nová architektura
Už je to přes rok, kdy Intel vydal procesory Alder Lake a v nich svou dosud nejpropracovanější a nejvýkonnější architekturu CPU – jádro Golden Cove. Teď po hodně dlouhém zpoždění (původně snad Intel chtěl vydání již v H1 2021) přichází velmi očekávaná serverová verze této architektury, Xeony Scalable 4. generace „Sapphire Rapids“. Přináší do serverových CPU od Intelu nejvíc novinek a pokroku za mnoho let, ale má silnou konkurenci.
Sapphire Rapids je nová generace procesorů, s níž zároveň přichází nová platforma se socketem LGA 4677, nelze tedy upgradovat servery založené na loňských (a také velmi opožděných) procesorech Ice Lake-SP se socketem LGA 4189. Tato platforma používá osmikanálové paměti DDR5-4800 a poprvé u Intelu linky PCI Express 5.0, ale také podporu technologie CXL. Opět jsou možné až osmiprocesorové servery, ale konfigurace 4S a 8S jsou podporované na jen malé části modelů (neumí je ani všechny modely Xeon Gold/Platinum).
Čipletové i nečipletové CPU
Možná nejzajímavější je, že Sapphire Rapids jsou poprvé čipletové procesory, kdy je nejmenší samostatně funkční jednotkou kombinace více čipů. Intel používá poněkud jiné řešení než AMD. To nejdříve v Epycu první generace 7001 dávalo dohromady více stejných čipů (kde by ale každý byl schopen fungovat jako samostatný procesor, což ještě úplně neodpovídá konceptu čipletů). Generace Epyc 7002 a Epyc 7003 ale byly založené na čipletech s jádry CPU, které fungují až v kombinaci s centrálním IO čipletem, který je propojuje a dodává konektivitu a řadiče pamětí RAM.
Řešení Intelu nemá centrální IO čiplet a je složené ze čtyř čipletů (vyráběných procesem Intel 7), v nichž jsou v každém jádra CPU, bloky konektivity i paměťové řadiče. Tyto čiplety ale nejsou srovnatelné s řešením použitým v procesorech Epyc 7001. Jsou propojené pokročilou pouzdřicí technologií (EMIB) a komunikace mezi čiplety přímo propojuje jednotlivá jádra. Všechna jádra napříč čtyřmi čiplety jsou propojená jednou unifikovanou logikou typu mesh, která přechází přes hranice jednotlivých čipletů (je přemostěna pomocí oněch můstků EMIB).
Procesor se proto chová jako jeden monolit a téměř „nepozná“, že z jednoho kusu není. Úplně 100% to tedy asi neplatí, protože „hopnutí“ po propojovací logice bude mít větší latenci, půjde-li přes propojení EIMB do jiného křemíku, než pokud komunikace bude mezi dvěma jádry lokálními ve stejném čipletu.
Je zajímavé, že kvůli konfiguraci bloků na okrajích čipletů, kterými přemostění probíhá, Intel používá ne jen jeden čiplet, který by se na CPU sázel po čtyřech, ale vyrábí dvě varianty čipletu a každý procesor obsahuje šachovnicově od každé varianty dva kusy. S jen jedním druhem čipletu by k sobě komunikační rozhraní neseděla. Nevýhoda je, že musely být navržené dva čipy, odladěné a vyráběné dva čipy místo jednoho, přičemž i samotné masky navíc něco stojí.
A tyto dva čiplety ještě nejsou vše. Nedávno se provalila zpráva, že Intel kromě čipletové verze (s až 60 jádry), která má interní označení XCC, vyvinul také monolitickou verzi procesoru Sapphire Rapids (kterou tehdy měl potřebu „maskovat“ jako variantu procesorů Raptor Lake, byť bylo skoro evidentní, že je pro servery). Intel ji teď potvrdil, tato verze procesoru má označení MCC a obsahuje 32 jader. Intelu umožní vyrábět levnější méně výkonná CPU efektivněji, ale samozřejmě také přinesla náklady navíc na vývoj, masky a další logistiku.
Serverová verze architektury Golden Cove
Xeony Sapphire Rapids jsou založené na architektuře Golden Cove, která je již používána jako velké jádro (P-Core) v procesorech Alder Lake pro PC. Intel uvádí, že při stejné frekvenci mají tato jádra v serverových aplikacích dodávat výkon vyšší o zhruba 15 % proti předchozí generaci Ice Lake.
Nicméně v Sapphire Rapids se nachází jádra v dosud nevydané serverové verzi. Ta se liší použitím 2MB L2 cache (tuto změnu mají i vyšší modely desktopových čipů Raptor Lake) a podporou instrukcí AVX-512 a AMX. Druhé zmíněné jsou úplná novinka a jde o rozšíření provádějící maticové násobení pro potřeby neuronových sítí na speciálních registrech, které představují 2D pole s 16 řádky o šířce 64 bajtů (512 bitů). Tyto instrukce mohou pracovat s hodnotami FP16, BFloat16 a INT8. Obecně lze říci, že funkce těchto instrukcí je obdobná funkci specializovaných akcelerátorů AI.
Podpora instrukcí AVX-512 je v použitých jádrech plnohodnotná, jádro má přidanou vyhrazenou 512bitovou FMA pro floating point operace, takže i tyto 512bitové instrukce dokáže zpracovávat dvě za cyklus (běžné CPU Alder Lake umělo za cyklus jen jednu). Detaily architektury Golden Cove jsme probírali ve zvláštním článku:
Tip: Intel Alder Lake má historicky nejvyspělejší x86 jádro. Rozbor CPU architektury Golden Cove
Jedna z největších změn platformy Xeon
Nová a velmi výkonná architektura CPU nyní konečně s vyšším počtem jader (56 až 60 v top modelech) je jedním z hlavních přínosů Xeonů Sapphire Rapids, ale ne jediným. Dalším je zlepšená energetická efektivita díky 7nm procesu (Intel 7) – již předchozí generace Ice Lake sice byla 10nm, ale používala ještě nepovedenou verzi procesu. Ten získal patřičné kvality až v následující revizi „10nm SuperFin“, od níž je proces Intel 7 další podstatně vylepšenou verzí. Třetí velkou devizou je pak velké množství novinek ve funkcích a výbavě.
Mezi těmi jsou použití nové generace pamětí DDR5-4800, které zvyšují propustnost. DDR5-4800 je podporovaná s jedním modulem na kanál, s dvěma moduly na kanál se podporovaná rychlost snižuje na DDR5-4400. Některé levnější modely také mohou mít rychlost sníženou na DDR5-4400 či DDR5-4000 i pro jeden modul na kanál. Maximální kapacita RAM je pro jedno CPU 4 TB, ale toto se ještě liší podle modelů. Osmikanálovým řadičem pamětí je Intel poněkud pozadu za schopnostmi platformy AMD, která podporuje 12kanálové paměti DDR5 a díky tomu vyšší propustnost i kapacity.
Volitelně ale procesory Xeon Sapphire Rapids také umožňují použití pamětí HBM2E ve spojení s pamětí DDR5. Toto bude používáno u modelů označených Xeon Max – už jsme o nich psali zde. Integrace HBM2E přináší trošku odlišné vlastnosti než 3D V-Cache v procesorech AMD Epyc, ale lze říci, že obě technologie si budou konkurovat v segmentech, pro něž jsou určené (zejména HPC, technické výpočty).
Stejně jako u pamětí došlo k upgradu u konektivity PCIe. Xeony Sapphire Rapids podporují PCIe Express 5.0, přičemž jeden procesor poskytuje až 80 linek. Rozhraní lze rozdělit na PCIe 5.0 ×16, ×8 a ×4. Lze také rozdělit linky konkrétního řadiče ×16 dále na osm rozhraní ×2, ale v takovém režimu je pak podporovaná již jen rychlost PCIe 4.0. Toto je o něco slabší granularita než u AMD Epycu 9004, který dokáže rozhraní rozdělit až na linky PCIe 5.0 ×1.
Pro propojení socketů slouží linky UPI 2.0, kterých mají procesory maximálně čtyři s rychlostí 16 GT/s. Jeden procesor má pak přes DMI4 ×8 připojený ještě externí čipset C741. Ten přidává nějakou spotřebu navíc v porovnání se servery založenými na procesorech AMD Epyc, které jsou SoC bez přídavných čipsetů.
Sapphire Rapids podporuje také standard CXL 1.1, což je technologie postavená na základu PCIe 5.0, ale podporuje koherenci paměti mezi CPU a připojeným zařízením – typicky různým akcelerátorem, ale může jít i třeba o úložiště (SSD), nebo dokonce i o rozšíření operační paměti (ať už postavené z paměti DRAM, nebo z nějaké nevolatilní). Konektivita CXL je podporovaná na všech linkách PCIe 5.0 procesoru, zatímco u AMD je to jen na části linek.
Intel nicméně podle různých drbů měl problémy při vývoji a nakonec nepodporuje celý původně zamýšlený standard CXL, ale jen jeho subsety, které byly mezi tím rozdělené na samostatné části. Ve skutečnosti tak Xeony Sapphire Rapids podporují zařízení CXL 1.1 Type 1 a CXL 1.1 Type 2, což jsou různé formy akcelerátorů, ale ne CXL 1.1 Type 3, což jsou zařízení rozšiřující paměť nebo nevolatilní úložiště (adresovatelné po bajtech). Intel například původně uváděl, že takováto zařízení budou nahrazovat moduly Optane DC Persistent Memory, ale Xeony Sapphire Rapids s nimi nakonec nejsou kompatibilní.
Je otázka, zda se třeba implementaci v hardwaru nepodařilo úspěšně zprovoznit a kvůli chybám není podporovaná, nebo se Intel rozhodl validaci této funkce neprovést z nějakých jiných důvodů. Původně se hodně paměťových zařízení tohoto typu vyvíjelo přímo na platformě Sapphire Rapids, takže zamýšlená funkcionalita v hardwaru je, jen provoz zařízení není oficiálně podporován, a tedy není jisté, zda je opravdu 100% funkční. Není asi úplně vyloučeno, že jí jednou zprovozní nějaké aktualizace firmwaru a ovladačů, ale Intel nic takového neavizoval.
Deficit v počtu jader a výkonu mají dohnat akcelerátory
Intel má s Xeony generace Sapphire Rapids značný deficit v počtu jader – maximum je 56 nebo 60. Původně měly tyto procesory konkurovat AMD Epycu 7003 s 64 jádry Zen 3, ale zpoždění skoro o dva roky znamená, že stojí proti již vydaným procesorům AMD Epyc 9004, které poskytují až 96 jader Zen 4. Ta jsou přitom ve srovnání jádro na jádro na podobné výkonnostní úrovni a mají lepší energetickou efektivitu díky 5nm procesu.
V hrubém výkonu proto mají procesory AMD obecně navrch, a to i výrazně. Intel může nabídnout stejný nebo lepší výkon hlavně v aplikacích, které využívají nějakou specifickou akceleraci. Mimo AVX-512 a AMX mají Xeony Sapphire Rapids několik druhů speciálních akcelerátorů, kterými Intel může náskok AMD ve výkonu takto suplovat.
Intel mezi akcelerátory uvádí leccos včetně méně významných funkcí nebo instrukcí samotných jader CPU, jako je AES-NI. Hlavním bodem jsou ale akcelerátory In-Memory Analytics Accelerator (IAA), QuickAssist (QAT – dekomperese a komprese), Data Streaming Accelerator (DSA) a DLB (Dynamic Load-Balancer, lze využít třeba k prioritizaci packetů).
Toto jsou reálné hardwarové jednotky, které jsou přítomné na čipu ve speciálním bloku, který zabírá jednu z 20 dlaždic na každém z čipletů – plně aktivní procesor typu XCC má tedy čtyři takovéto bloky a tím čtveřici DSA, DLB, QAT i IAA. Trošku jinak je to u MCC procesorů s monolitickým křemíkem. Takové mají jen jeden akcelerátor DSA a IAA, zatímco QAT a DLB jsou přítomné dvakrát.
Komplikací ale je, že tyto jednotky nejsou zdaleka dostupné u všech procesorů (a když už jsou, je často aktivní jen jejich část). U některých jsou zpoplatněné jako služba navíc přes technologii Intel On Demand, kdy již existující funkci v křemíku po zakoupení procesoru zvlášť aktivujete za další úplatu. ServeTheHome to hodnotí tak, že tato politika atraktivitu zabudovaných akcelerátorů poněkud zhoršuje, protože podobné funkce lze získat použitím samostatných karet DPU, které podobou akceleraci poskytnou na úrovni síťového adaptéru. Podle ServeTheHome taková DPU typicky nestojí o tolik více než standardní serverové ethernety a jde o jednorázovou platbu, navíc bez toho, že by funkce byla vázaná na konkrétní procesor, kdežto řešení Intelu vede k vendor lock-inu, který může v budoucnu sám stát hodně peněz navíc. Akcelerátory procesorů Sapphire Rapids tudíž sice jsou výhodou, ale ne výhodou, která by neměla žádnou konkurenci.
Modely procesorů Intel Xeon Scalable 4. generace „Sapphire Rapids“ jsou obecně velmi postižené tzv. segmentací, kdy jednotlivé funkce jsou dostupné jen u vybraných modelů. Týká se to těchto akcelerátorů, maximální kapacity a podporované rychlosti RAM, nebo třeba již zmíněné podpory více než 2S systémů. Kvůli tomu má také nabídka Intelu velmi vysoký počet různých modelů. Politika AMD je v tomto výrazně jiná, u Epyců 9004 platí, že téměř všechny inzerované schopnosti a funkce jsou dostupné u všech modelů (kterých je také o dost menší skrumáž). Jednotlivé procesory Epyc se liší hlavně počtem jader, frekvencemi a TDP.
52 modelů
Jednotlivými modely nemá asi smysl se pro jejich počet zvlášť zabývat. Oficiální seznam čítá 52 různých modelů, které můžete vidět níže v tabulkách Intelu. Přičemž k tomu asi ještě mohou existovat nějaké podpultové pro velké zákazníky.
Nejvýkonnější model pro běžné 2S servery má být Xeon Platinum 8480+ (10 710 $) s 56 jádry / 112 vlákny a 350W TDP, který má základní takt 2,0 GHz, maximální boost 3,8 GHz a maximální boost při aktivitě všech jader 3,0 GHz.
Pro virtualizaci a podobné škálující úlohy má Intel model Xeon Platinum 8490H (17 000 $), jenž má jako jediný plných 60 jader a 120 vláken (také podporuje 8S servery). TDP je opět 350 W, základní takt 1,9 GHz, maximální boost 3,5 GHz a maximální boost při aktivitě všech jader 2,9 GHz.
V řadě HPC modelů s HBM2E je pak nejvýkonnější Xeon Max 9480 (12 980 $), jenž má ale jen 56 jader. Jeho takt je 1,9 GHz v základu, 3,5 GHz v maximálním boostu a 2,6 GHz v maximálním boostu při všech jádrech zatížených. Také tento model má 350 W, ale už podporuje jen 2S konfigurace.
Nejvýkonnější procesor založený na monolitickém křemíku MCC je Xeon Gold 6448H s 32 jádry a 64 vlákny (60 MB L3 cache) s 250W TDP. Ten má takty 2,4 GHz v základu a 4,1 GHz v maximálním boostu, ale maximální all-core boost je stále jen 3,2 GHz.
Kde by Intel mohl mít dobrou pozici, jsou slabší a levnější procesory. Zejména díky existenci monolitického křemíku MCC může Intel nabízet lowendové procesory s malými počty jader (8–12) a TDP „jen“ 150 W (úplně na kost osekaný 1S model Xeon Bronze 3408U s 8 jádry prakticky bez turba na taktu 1,8–1,9 GHz má TDP dokonce jen 125 W). Nicméně do této oblasti chce ještě AMD uvést Epycy „Sienna“, která mají být jak levnější, tak úspornější proti velkým Epycům 9004, takže zde ještě nebylo řečeno vše.
Zdroje: Intel, ServeTheHome
Jan Olšan, redaktor Cnews.cz
⠀