Nová „Max“ řada Intelu: extrémní GPU a procesory Xeon s HBM2E

Intel představuje speciální GPU a procesory pro nejnáročnější výpočetní nasazení

Minulý týden přišla významná novinka pro serverový trh: procesory AMD Epyc 9004 založené na 5nm výrobním procesu a architektuře Zen 4, zároveň také s novou platformou podporující paměti DDR5, PCIe Express 5.0 nebo technologii CXL 1.1. Těsně předtím a možná ne náhodou ale ohlásil novinky také Intel. Firma představila novou linii produktů Intel Max, což budou výkonné CPU a GPU pro servery. Ale zatím byly vydané ještě jen papírově.

Odhalení souvisí také s nyní běžící konferencí Supercomputing 22, ale není to poprvé, co Intel odhalil nějaký produkt v poměrně velkém předstihu před jeho reálným vydáním v předvečer chvíle, kdy měla být prezentovaná významná novinka AMD. V roce 2019, těsně před vydáním přelomových Epyců 7002 „Rome“, které vynesly AMD vedení v serverových procesorech, Intel udělal představení vlastních Xeonů Cooper Lake. Ty přitom šly na trh až další rok, a ještě navíc jich do té doby byla značná část zrušena – po hříchu zrovna ty dvoučipové až 56jádrové modely, jejichž časným ohlášením chtěl Intel asi „řešit“ tlak 64jádrových Epyců 7002.

Je možné, že odhalení Intel Max den před příchodem Epycu 9004 mělo aspoň zčásti podobný smysl, tedy nějak vylepšit atmosféru, v níž má konkurence navrch. Ovšem nehledě na toto produkty Max jsou (nebo budou) zajímavé i samy o sobě.

Xeon Max: velká a rychlá paměť HBM2E v procesorech

Procesory Xeon Max jsou něco, o čem už dlouho přicházely úniky a Intel to nijak netajil: půjde o verzi nadcházejících serverových procesorů Xeon generace Sapphire Rapids, která bude sdílet základní společné vlastnosti, tedy osmikanálový řadič pamětí DDR5-4800, podporu PCI Expressu 5.0 a CXL 1.1. Procesory jsou složené ze čtyř 7nm dlaždic (čipletů), propojených technologií EMIB.

Můstky EMIB přímo přemosťují dlaždice na úrovni vnitřního mesh propojení, takže pro software procesor vypadá jako jediné monolitické CPU a jediný NUMA uzel. Nicméně volitelně bude možné procesor rozdělit do čtyř sub-NUMA domén po hranicích čtyř dlaždic, pak běžící procesy budou izolované do lokální paměti připojené na dva řadiče DDR5, které jsou fyzicky na stejném čipu, a je k nim tedy asi o něco rychlejší přístup (rozdíly v latenci ale nemusí být velké).

Prezentace procesorů Intel Xeon Max. Procesor na obrázku je bez kovového rozvaděče tepla, který by ho normálně zakrýval (zdroj: Intel, via: Tom’s Hardware)

Sapphire Rapids také přinese novou architekturu jádra s vysokým IPC – Golden Cove z procesorů Alder Lake, ale s 2MB L2 cache a obohacenou o plnou podporu AVX-512 a maticové instrukce AMX. Ve verzi Xeon Max budou tyto procesory mít až 56 jader a 112 vláken. Jádra sdílí L3 cache s kapacitou až 112,5 MB a procesory budou mít TDP do 350 W, tedy prakticky stejné jako nyní vydané Epycy 9004.

Hlavní hvězdou procesorů Xeon Max ale bude velkokapacitní paměť zároveň s vysokou propustností, která je integrovaná velmi blízko jádrům – hned vedle křemíku procesoru. Jde o paměť HBM2E, která se používá u highendových výpočetních GPU, ale zde nebude jedinou pamětí, ale doplňkem k hlavní RAM typu DDR5. Její kapacita je 64 GB, neboli jak Intel uvádí, víc jak 1 GB na jedno jádro CPU. Její propustnost bude až 1 TB/s (pro srovnání – teoretická propustnost operační paměti DDR5 bude 307 GB/s).

Prezentace procesorů Intel Xeon Max (zdroj: Intel, via: Tom’s Hardware)

HBM2E může být nakonfigurovaná pro různé funkce

Tato paměť může fungovat ve třech různých režimech. Může tvořit obří transparentní „pseudo L4“ cache mezi RAM a procesorem, která bude automaticky zvyšovat výkon aplikací pracujících s pamětí, aniž by o ní musely nějak vědět.

Nebo může HBM2E být adresována spolu s hlavní pamětí DDR5, takže získáte součet jejich kapacit, ale s tím, že část tvořená pamětí HBM2E je mnohem rychlejší. Toto bude výhodné nastavení pro aplikace, které budou speciálně optimalizované. Software a OS budou mít možnost zjistit, které části paměti jsou rychlejší a které pomalejší, a podle toho do nich rozdělí svoje data.

Prezentace procesorů Intel Xeon Max (zdroj: Intel, via: Tom’s Hardware)

Třetí režim je takový, že procesor pracuje jen se svou integrovanou pamětí HBM2E jako hlavní RAM a nemá instalovanou žádnou DDR5. Toto bude asi nejvýkonnější možnost pro aplikace, které nepotřebují tolik paměti a vejdou se do 64 GB. Zde nebude třeba nijak upravovat software.

Xeon Max je produkt zaměřený zejména na sektor HPC (superpočítače), technické a vědecké simulace a podobné výpočty. Jde tedy o procesor, který má stejné zaměření jako Epycy „X“ opatřené 3D V-Cache od AMD. Obě firmy ale řeší problém jinou cestou. AMD zvětšilo L3 cache procesoru, která má ale pořád o dva řády menší kapacitu (dohromady 768 MB u generace Milan-X, v osmi 96MB blocích), kdežto Xeon Max má 64 GB. Na druhou stranu řešení AMD dodává v rámci kapacity L3 cache výrazně vyšší propustnost než HBM2E u Xeonu Max. Obě tato řešení mohou být lepší než druhé pro určité konkrétní zátěže a aplikace.

Data Center GPU Max: extrémní čipletový akcelerátor

Do řady Max firma Intel zároveň zařadila výpočetní GPU pro superpočítače, které mají poněkud krkolomné jméno Data Center GPU Max (logičtější Xe Max si už totiž Intel vyčerpal na 10nm grafiku Iris Xe Max a mnohem hezčí „Arc Max“ asi není vhodné, protože Arc jsou herní a spotřebitelská GPU).

Pod tímto jménem se neskrývá nic jiného než výpočetní GPU Ponte Vecchio s architekturou Xe HPC. Jeho hlavní nasazení má být v exascale superpočítači Aurora a bylo prezentováno poprvé již před třemi roky, doznalo ale značného zpoždění (to ostatně také Xeony Max / Sapphire Rapids). Ponte Vecchio neboli Data Center GPU Max ale bude k mání i pro další zákazníky.

Prezentace akcelerátoru Intel Data Center GPU Max (zdroj: Intel, via: Tom’s Hardware)

Jak už se ví delší dobu, Ponte Vecchio nasadilo čipletovou konstrukci v zatím bezprecedentní míře, kdy je disagregováno do desítek čipletů různých výrobních procesů s různou rolí (výpočetní jádra, propojovací logika, základová dlaždice, cache dlaždice, paměti HBM2E a jejich propojky EMIB).

Výsledkem je výpočetní GPU „stack“ s 64 Xe Core (jedno Xe Core je obdoba bloků SM a CU v GPU od Nvidie a AMD) a se čtyřmi čipy paměti HBM2E, tedy s 4096bitovou šířkou pamětí. Ovšem Intel počítá s tím, že ve většině nasazení bude jedno GPU ve skutečnosti složené ze dvou těchto stacků vedle sebe, a bude tedy mít 128 Xe Core a osm čipů HBM2E. Je to tedy podobné „dvojče“ jako konkurenční Instinct MI200 od AMD, které je ale jinak monolitické.

Prezentace akcelerátoru Intel Data Center GPU Max (zdroj: Intel, via: Tom’s Hardware)

Jedno jádro Xe Core v architektuře Xe HPG je patrně v lecčem příbuzné s herní architekturou v grafikách Arc. Xe Core obsahuje 8 vector enginů, což jsou obecné výpočetní „shadery“, dále 8 jednotek XMX pro akceleraci AI, a dokonce také jednu jednotku RTU pro výpočet raytracingových efektů.

Prezentace akcelerátoru Intel Data Center GPU Max (zdroj: Intel, via: Tom’s Hardware)

Podle Intelu jedno jádro Xe Core dokáže v jednotkách XMX zpracovat až 8192 operací s hodnotami INT8, 4096 operací s FP16 nebo BFloat16 nebo 2048 operací s hodnotami TF32. Obecné vector enginy zvládnou 512 operací FP16, 256 operací s přesností FP32 a stejný počet 256 operací s hodnotami FP64, tedy v dvojité přesnosti – v tomto je tedy odlišnost od herních GPU Arc.

Dvoustackové plnotučné GPU má mít celkový výpočetní výkon 52 TFLOPS v FP32 a FP64 a až 1678 TOPS v AI aplikacích pomocí maticových operací na jednotkách XMX (údaj pro 8bitové výpočty INT8).

Prezentace akcelerátoru Intel Data Center GPU Max (zdroj: Intel, via: Tom’s Hardware)

GPU extrémně vybavené pamětmi cache

Nicméně na Ponte Vecchiu nebude asi nejzajímavější hrubá výpočetní síla shaderů či jednotek XMX. Unikátní je na něm velmi silný systém pamětí cache, který umožňuje, aby GPU při náročných výpočtech mělo všechna data po ruce a výkon škáloval i u komplexnějších úloh, než je jednoduchý Linpack (toto je často u výpočetních GPU problém).

Ponte Vecchio má 204 MB L2 cache – 144 MB cache je v základové dlaždici, dalších 60 MB v tzv. „Rambo Cache“ v separátní dlaždici. L1 cache má celkem kapacitu 32 MB pro jeden stack a také fyzický soubor registrů čítá dohromady 32 MB. Paměťový subsystém pak korunuje 64 GB paměti HBM2E s propustností 1,6 TB/s. Toto vše se pak ještě násobí dvěma v případě GPU složeného ze dvou stacků.

Prezentace akcelerátoru Intel Data Center GPU Max (zdroj: Intel, via: Tom’s Hardware)

Dvěma stacky v jednom pouzdru či modulu ale možné škálování nekončí, protože integrována je také propojovací logika Xe Link, umožňující propojit v serveru či HPC nodu několik těchto GPU – maximálně zřejmě až osm.

Modely v provedení OAM, ale i jako karty PCI Express

Komerčně bude Intel Data Center GPU Max možné koupit v různých podobách. Nejvýkonnější forma se jmenuje Data Center GPU Max 1550 a bude mít mezaninový formát OAM a TDP 600 W, toto bude akcelerátor s dvěma stacky, a tedy 128 Xe Core a 128 GB paměti HBM2E. Celkový výkon bude oněch 52 TFLOPS v FP64.

GPU Intel Vecchio v provedení OAM. Na obrázku vidíte čtyři mezaninové akcelerátory, každý s dvoustackovým Intel Data Cente GPU Max (zdroj: Intel)

Jako levnější alternativu bude Intel prodávat Data Center GPU Max 1350, což bude stále akcelerátor v provedení OAM, ale částečně ořezaný, každý stack bude mít aktivních jen 56 Xe Core, takže celkově dostanete 112 Xe Core. Paměť bude zmenšená o čtvrtinu na šířku 3072 bitů na jeden stack – v každém stacku tedy bude jedna ze čtyř pamětí HBM2E neaktivní nebo zcela neosazená. Nemáme údaj o výkonu a je možné, že budou nižší frekvence, tato varianta má totiž TDP jen 450 W.

Třetí varianta se jmenuje Data Center GPU Max 1110 a je již složená jen z jednoho stacku, a to opět částečně deaktivovaného na celkových 56 Xe Core. Také paměť bude logicky poloviční, 48 GB (takže tak budou aktivní jen tři pouzdra HBM2E).

Intel Data Center GPU Max 1100 v provedení karty PCI Express (zdroj: Intel)

Tato verze má spotřebu jen 300 W, ale zajímavé je hlavně, že už půjde o kartu PCI Express do klasického slotu ×16. Má mít plnou délku i výšku a tloušťku dva sloty, patrně s pasivním chladičem pro použití v rackových skříních se silnými serverovými ventilátory. Pokud byste tuto kartu chtěli do pracovní stanice, patrně by bylo nutné chladič vyměnit za aktivní. Zatím nevíme, zda třeba tato verze nebude mít i grafickou funkcionalitu, nebo dokonce i obrazové výstupy. Dost možná ale půjde stále o jen čistě výpočetní řešení.

Mimochodem, Intel už před časem oznámil následující generaci Data Center GPU Max, ta má kódové označení Rialto Bridge a například zvýší počet Xe Core v jednom stacku na 80.

Intel Rialto Bridge, druhá generace HPC GPU Intel (zdroj: Intel)

Dostupnost až příští rok, ale hned v lednu

Jak už ale bylo řečeno, uvedení či odhalení obou těchto produktů Max je zatím jenom předběžné. Intel uvádí, že po mnoha odkladech (celkově o víc než rok) budou Xeony Max a Data Center GPU Max dostupné pro zákazníky v lednu 2023. Konečně se tedy také blíží nahození onoho mnohokrát opožděného superpočítače Aurora. V lednu mají být ke koupi první systémy s tímto hardwarem od vícero dodavatelů serverů, takže toto už by opravdu mělo být reálné vydání.

Zdroje: Intel, Tom’s Hardware

Jan Olšan, redaktor Cnews.cz


  •  
  •  
  •  
Flattr this!

Intel Core i5-13600K: Výhodnejší ako Ryzen 5 7600X? Áno aj nie

Procesor Intel Core i5-13600K vzbudzuje dojmom, akoby bol z trochu inej triedy, než je Ryzen 5 7600X. Raphael AMD s iba 6 jadrami proti 14 jadrám (aj keď osem z toho iba malých, Gracemont) Raptor Lake môže pôsobiť ako outsider, ktorý by mal byť výrazne lacnejší. Do takýchto rovín je konkurent AMD často i stavaný. My sme vo vynášaní súdov opatrnejší a hoci je Ci5-13600K skvelý procesor, tak stále v hre je aj zatiaľ stále jediný Ryzen 5 7000. Celý článok „Intel Core i5-13600K: Výhodnejší ako Ryzen 5 7600X? Áno aj nie“ »

  •  
  •  
  •  

HEDT/WS platforma Intel W790 s Xeony Sapphire Rapids na jaře

Už je to hodně dlouho, co víme o plánu Intelu vrátit se do highendových procesorů pro pracovní stanice – do trhu, z kterého ho nejdřív vyštípaly Threadrippery, aby ho pak vlastně také vyklidily, když AMD zrušilo jejich levnější „ne-Pro“ verzi. Ale procesory Sapphire Rapids, na kterých měly nové HEDT a/nebo „workstation“ CPU být založená, jsou opožděné a s nimi i platforma W790. Teď se objevila zpráva, kdy se konečně budou dát pořídit. Celý článok „HEDT/WS platforma Intel W790 s Xeony Sapphire Rapids na jaře“ »

  •  
  •  
  •  

65W procesory Raptor Lake: parametry unikly, takty až 5,6 GHz

Jak jsme tu nedávno psali, hned po Vánocích a Silvestru na začátku ledna by měl Intel vydat nové mainstreamové procesory – „65W“ modely generace Raptor Lake od „lidových“ Core i3 přes i5 po 24jádra a 62jádra Core i7 a i9. Proti dnešní 12. generaci (Alder Lake) budou mít více jader E-Core, takže se dají čekat zajímavé pokroky ve výkonu. Nyní se už patrně objevila i informace o tom, jaké budou frekvence, což je indikátor jednovláknového a herního výkonu. Celý článok „65W procesory Raptor Lake: parametry unikly, takty až 5,6 GHz“ »

  •  
  •  
  •  

Pridaj komentár

Vaša e-mailová adresa nebude zverejnená. Vyžadované polia sú označené *