Výkon: top ve vědeckých simulacích, v AI na Nvidii nestačí
Únik už to „vyspoiloval“, ale v pondělí AMD oficiálně oznámilo nejnovější a nejvýkonnější výpočetní GPU – Instinct MI250X. I tak ale tyto akcelerátory překvapily. Místo hloupého „MCM“ používají pouzdření s pokročilejším ekvivalentem Intelova EMIB a mají mnohem vyšší výkon, než se zdálo. Hodně zajímavé také je, že jde o první 6nm čip od AMD. Tato GPU jdou do exascale počítače Frontier, ale budou mít i volně prodávanou verzi.
AMD provozuje čiplety GCD zdá se na 1700 MHz, což je shodné pro modely MI250 i MI250X. Dosažený teoretický výkon je přitom 47,9 TFLOPS pro MI250X a 45,3 TFLOPS pro MI250. Ale to je prosím ve výpočtech s dvojitou přesností FP64. AMD posílilo výkon FP64 jednotek na dvojnásobek proti architektuře CDNA, navíc má GPU dva čiplety (další 2×).
Zatímco Instinct MI100 dosahoval ve výpočtech FP64 jen 11,5 TFLOPS, MI250X má výkon 4,16× vyšší. Nvidia A100 má v FP64 teoretický výkon 9,7 TFLOPS, tam už je rozdíl téměř pětinásobný (4,93×).
Je zajímavé, že architektura CDNA2 a GPU Instinct řady MI200 nemají, jak byste očekávali, dvojnásobný výkon v FP32. AMD ho uvádí stejný jako FP64. Ve skutečnosti lze dvojnásobných 95,7 TFLOPS dosáhnout, ale místo běžného vektorového programování se musí použít tzv. packed instrukce a datové formáty, kdy se zpracovávají dvě hodnoty FP32 uložené v jedné hodnotě FP64. Toto vyžaduje úpravu kódu (podobně jinak Radeony od architektury Vega zpracovávají výpočty FP16. Kvůli obtížnějšímu programování proto AMD dvojnásobný výkon ve FP32 neinzeruje.
Toto zaměření na FP64 především ukazuje, kam je Instinct Mi200 mířený: do superpočítačů pro vědecké simulace. Sekundárně je pak dostupná podpora AI operací na Matrix jádrech, ale onen konvenční FP32 výkon ležící někde mezi tím, který je v tradičních GPU a ve hrách nejpoužívanější, architektura CDNA 2 docela drsně upozaďuje.
Změny v CU architektury CDNA 2
Proč to takto je? AMD v architektuře CDNA 2 udělalo to, že místo aby rozšířilo jednu CU na 128 jednotek FP32 (dosud CU měla 64 jednotek FP32), tak zůstalo 64 jednotek, které se ale z FP32 rozšířily na nativní FP64, zatímco počet zůstal. Pokud tedy chcete dvojnásobný výkon v FP32, musí se použít Packed operace a formát dat. CU je jinak členěná na čtyři segmenty SIMD16, jako v CDNA 1 a jako v GCN, z níž linie CDNA vychází, zatímco architektura RDNA přešla na 2×SIM32.
Novinka je, že i Matrix jádra podporují i výpočty v dvojité přesnosti. V těch dosahují dvojnásobného výkonu proti běžným FP64 jednotkám, akcelerátory MI250X/250 pak umí až 95,7 TFLOPS/90,5 TFLOPS. Ovšem Matrix jádra umí jenom operace maticového násobení, takže tento výkon je dostupný jen pro ně. Podobnou schopnost maticového násobení s FP64 na Tensor jádrech má i Nvidia GA100. Tam to také zdá se poskytuje 2× navýšení FP64 výkonu, na 19,54 TFLOPS.
Necelých 400 TFLOPS pro AI
AI výkon je až 383 TFLOPS (MI250X), respektive 362 TFLOPS (MI250) pro výpočty FP16 a toliko stejný výkon v TOPS pro operace INT8 na oněch Matrix jádrech. Se stejným výkonem by měly být podporované i výpočty ve formátu BFloat16. Nvidia A100 má uvedený o něco nižší teoretický výkon v maticových AI operacích (312 TFLOPS v Bfloat16/FP16), ale v INT8 už umí 624 TOPS, zatímco u CDNA2 se výkon použitím INT8 nezdvojnásobí. Navíc u Nvidia Ampere se lze použitím softwarové funkce Structured Sparsity dostat na efektivně dvojnásobné výkony (624 TFLOPS/1248 TOPS).
V AI výkonu tedy Nvidia dál bude vést, nemluvě o tom, že má nejspíš o dost pokročilejší softwarovou stránku věci. Navíc by už za několik měsíců také mohla uvést vlastní novou generaci serverových GPU Hopper, kde výkon pro AI výpočty, určitě půjde o hodně nahoru (už jenom proto, že příkon skočí výrazně). Pro Instinct MI200 bylo evidentně na prvním místě dosažení co nejvyššího výkonu ve vědeckých výpočtech FP64, což zase vůbec nebylo prioritou u Nvidie.
Sekundárně ale Aldebaran/MI200 bude pro AI a trénování neuronových sítí použitelný. Z tohoto důvodu má například integrovaná jádra VCN pro akceleraci videa – zejména tedy dekódování, které se v AI aplikacích využije (dekódování obrazových/video dat používaných při trénování/inferenci). Podporované je HEVC, H.264 a možná VP9, ale ještě ne AV1.
Spotřeba: 560 W
Už v předešlém úniku se zmiňovala poměrně vysoká spotřeba. Podle oficiálních specifikací je ale nakonec TDP Instinctů MI250X a MI250 dokonce ještě vyšší, 560 W. Toto už by asi v provedení karty PCI Express nebylo v serverech uchladitelné. Moduly OAM ale umožňují nasadit na GPU přímo vysoký vzduchový chladič s heatpipe, který je pasivní. Při intenzivním (a velmi hlučném) nuceném proudění v serverovém šasi je asi 560 W pořád možné uchladit i vzduchově (AMD alespoň vzduchové chalzení ukazuje na oficiálních renderech).
Moduly OAM ve specifikacích počítají s tím, že akcelerátory tohoto provedení mohou mít spotřebu až 700 W, od čehož už není Instinct MI250X/MI250 tak daleko. Je celkem pravděpodobné, že provozovatelé budou tato GPU často chladit kapalinou, což je už zejména v superpočítačích docela časté.
První dodávky jdou do Frontieru, obecná dostupnost Q1 2022
Právě superpočítače by měly být prvním odbytištěm těchto GPU. Instinct MI250X bude instalován do superpočítače Frontier, jenž by se asi teď měl stát prvním Exascale strojem v USA. První dodávky Aldebaranů začaly už během třetího čtvrtletí a zřejmě pořád běží. Mělo by jít o desetitisíce GPU, jeden uzel Frontieru bude sestávat z procesorů Epyc Milan-X a čtyř Instinctů MI250X. Běžný provoz má začít začátkem roku 2022.
Na běžném trhu/pro další zákazníky budou Instincty řady MI200 dostupné po dokončení Frontieru, mělo by to být v prvním kvartále roku 2022. Cenu firma neuvádí, ale bude nejspíš v tisících dolarů, ne-li pěticiferná.
Zdroje: AMD, Tom’s Hardware, AnandTech
Jan Olšan, redaktor Cnews.cz
⠀
- Contents
- První 6nm čip AMD: Aldebaran s architekturou CDNA2
- Výkon: top ve vědeckých simulacích, v AI na Nvidii nestačí