AMD uvádí 6nm čipletové GPU Instinct MI200. Až 48 TFLOPS v FP64

Výkon: top ve vědeckých simulacích, v AI na Nvidii nestačí

Únik už to „vyspoiloval“, ale v pondělí AMD oficiálně oznámilo nejnovější a nejvýkonnější výpočetní GPU – Instinct MI250X. I tak ale tyto akcelerátory překvapily. Místo hloupého „MCM“ používají pouzdření s pokročilejším ekvivalentem Intelova EMIB a mají mnohem vyšší výkon, než se zdálo. Hodně zajímavé také je, že jde o první 6nm čip od AMD. Tato GPU jdou do exascale počítače Frontier, ale budou mít i volně prodávanou verzi.

AMD provozuje čiplety GCD zdá se na 1700 MHz, což je shodné pro modely MI250 i MI250X. Dosažený teoretický výkon je přitom 47,9 TFLOPS pro MI250X a 45,3 TFLOPS pro MI250. Ale to je prosím ve výpočtech s dvojitou přesností FP64. AMD posílilo výkon FP64 jednotek na dvojnásobek proti architektuře CDNA, navíc má GPU dva čiplety (další 2×).

Zatímco Instinct MI100 dosahoval ve výpočtech FP64 jen 11,5 TFLOPS, MI250X má výkon 4,16× vyšší. Nvidia A100 má v FP64 teoretický výkon 9,7 TFLOPS, tam už je rozdíl téměř pětinásobný (4,93×).

OAM modely AMD Instinct MI200 (Zdroj: AMD)

Je zajímavé, že architektura CDNA2 a GPU Instinct řady MI200 nemají, jak byste očekávali, dvojnásobný výkon v FP32. AMD ho uvádí stejný jako FP64. Ve skutečnosti lze dvojnásobných 95,7 TFLOPS dosáhnout, ale místo běžného vektorového programování se musí použít tzv. packed instrukce a datové formáty, kdy se zpracovávají dvě hodnoty FP32 uložené v jedné hodnotě FP64. Toto vyžaduje úpravu kódu (podobně jinak Radeony od architektury Vega zpracovávají výpočty FP16. Kvůli obtížnějšímu programování proto AMD dvojnásobný výkon ve FP32 neinzeruje.

Toto zaměření na FP64 především ukazuje, kam je Instinct Mi200 mířený: do superpočítačů pro vědecké simulace. Sekundárně je pak dostupná podpora AI operací na Matrix jádrech, ale onen konvenční FP32 výkon ležící někde mezi tím, který je v tradičních GPU a ve hrách nejpoužívanější, architektura CDNA 2 docela drsně upozaďuje.

Změny v CU architektury CDNA 2

Proč to takto je? AMD v architektuře CDNA 2 udělalo to, že místo aby rozšířilo jednu CU na 128 jednotek FP32 (dosud CU měla 64 jednotek FP32), tak zůstalo 64 jednotek, které se ale z FP32 rozšířily na nativní FP64, zatímco počet zůstal. Pokud tedy chcete dvojnásobný výkon v FP32, musí se použít Packed operace a formát dat. CU je jinak členěná na čtyři segmenty SIMD16, jako v CDNA 1 a jako v GCN, z níž linie CDNA vychází, zatímco architektura RDNA přešla na 2×SIM32.

Schéma jedné CU architektury CDNA2 (Zdroj: AMD, via AnandTech)

Novinka je, že i Matrix jádra podporují i výpočty v dvojité přesnosti. V těch dosahují dvojnásobného výkonu proti běžným FP64 jednotkám, akcelerátory MI250X/250 pak umí až 95,7 TFLOPS/90,5 TFLOPS. Ovšem Matrix jádra umí jenom operace maticového násobení, takže tento výkon je dostupný jen pro ně. Podobnou schopnost maticového násobení s FP64 na Tensor jádrech má i Nvidia GA100. Tam to také zdá se poskytuje 2× navýšení FP64 výkonu, na 19,54 TFLOPS.

Schéma architektury CDNA2 GPU Aldebaran (Zdroj: AMD, via AnandTech)

Necelých 400 TFLOPS pro AI

AI výkon je až 383 TFLOPS (MI250X), respektive 362 TFLOPS (MI250) pro výpočty FP16 a toliko stejný výkon v TOPS pro operace INT8 na oněch Matrix jádrech. Se stejným výkonem by měly být podporované i výpočty ve formátu BFloat16. Nvidia A100 má uvedený o něco nižší teoretický výkon v maticových AI operacích (312 TFLOPS v Bfloat16/FP16), ale v INT8 už umí 624 TOPS, zatímco u CDNA2 se výkon použitím INT8 nezdvojnásobí. Navíc u Nvidia Ampere se lze použitím softwarové funkce Structured Sparsity dostat na efektivně dvojnásobné výkony (624 TFLOPS/1248 TOPS).

V AI výkonu tedy Nvidia dál bude vést, nemluvě o tom, že má nejspíš o dost pokročilejší softwarovou stránku věci. Navíc by už za několik měsíců také mohla uvést vlastní novou generaci serverových GPU Hopper, kde výkon pro AI výpočty, určitě půjde o hodně nahoru (už jenom proto, že příkon skočí výrazně). Pro Instinct MI200 bylo evidentně na prvním místě dosažení co nejvyššího výkonu ve vědeckých výpočtech FP64, což zase vůbec nebylo prioritou u Nvidie.

Sekundárně ale Aldebaran/MI200 bude pro AI a trénování neuronových sítí použitelný. Z tohoto důvodu má například integrovaná jádra VCN pro akceleraci videa – zejména tedy dekódování, které se v AI aplikacích využije (dekódování obrazových/video dat používaných při trénování/inferenci). Podporované je HEVC, H.264 a možná VP9, ale ještě ne AV1.

AMD Instinct MI200 v provedení OAM s chladičem (Zdroj: AMD)

Spotřeba: 560 W

Už v předešlém úniku se zmiňovala poměrně vysoká spotřeba. Podle oficiálních specifikací je ale nakonec TDP Instinctů MI250X a MI250 dokonce ještě vyšší, 560 W. Toto už by asi v provedení karty PCI Express nebylo v serverech uchladitelné. Moduly OAM ale umožňují nasadit na GPU přímo vysoký vzduchový chladič s heatpipe, který je pasivní. Při intenzivním (a velmi hlučném) nuceném proudění v serverovém šasi je asi 560 W pořád možné uchladit i vzduchově (AMD alespoň vzduchové chalzení ukazuje na oficiálních renderech).

Schéma OAM neboli Open Accelerator Module (Zdroj: AMD, via AnandTech)

Moduly OAM ve specifikacích počítají s tím, že akcelerátory tohoto provedení mohou mít spotřebu až 700 W, od čehož už není Instinct MI250X/MI250 tak daleko. Je celkem pravděpodobné, že provozovatelé budou tato GPU často chladit kapalinou, což je už zejména v superpočítačích docela časté.

První dodávky jdou do Frontieru, obecná dostupnost Q1 2022

Právě superpočítače by měly být prvním odbytištěm těchto GPU. Instinct MI250X bude instalován do superpočítače Frontier, jenž by se asi teď měl stát prvním Exascale strojem v USA. První dodávky Aldebaranů začaly už během třetího čtvrtletí a zřejmě pořád běží. Mělo by jít o desetitisíce GPU, jeden uzel Frontieru bude sestávat z procesorů Epyc Milan-X a čtyř Instinctů MI250X. Běžný provoz má začít začátkem roku 2022.

Na běžném trhu/pro další zákazníky budou Instincty řady MI200 dostupné po dokončení Frontieru, mělo by to být v prvním kvartále roku 2022. Cenu firma neuvádí, ale bude nejspíš v tisících dolarů, ne-li pěticiferná.

Zdroje: AMD, Tom’s Hardware, AnandTech

Jan Olšan, redaktor Cnews.cz


  •  
  •  
  •  
Flattr this!

Radeon RX 7600 XT přichází. Nejlevnější grafika AMD s 16GB pamětí

Prakticky současně s odhalením nových grafik Nvidia GeForce RTX 4070 Super, RTX 4070 Ti Super a RTX 4080 Super mělo prezentaci na CES 2024 také AMD. A tato společnost také přidává do nabídky grafických karet (u něj Radeonů RX 7000 s architekturou RDNA 3) nový model, byť založený na jednom z již existujících čipů: Radeon RX 7600 XT. Jeho parametry neprosákly předem, takže odhalení je výjimečně i trochu s překvapením. Celý článok „Radeon RX 7600 XT přichází. Nejlevnější grafika AMD s 16GB pamětí“ »

  •  
  •  
  •  

Radeon RX 7600 XT má 16GB paměť. Navi 33 nebo Navi 32 XLW?

Měli jsme tu teď informaci o tom, že AMD s výrobci karet chystá na nynější měsíc vydání grafiky Radeon RX 7600 XT. V poslední zprávě jsme psali, že ještě nebylo jasné, na základě jakého GPU bude tato grafika postavená – či půjde o zrychlený Radeon RX 7600, nebo naopak spíš o osekaný RX 7700 XT. To se teď asi vyjasnilo dalším únikem v databázi EEC. V té se objevily karty Gigabyte s údajem o kapacitě paměti, který asi říká vše. Celý článok „Radeon RX 7600 XT má 16GB paměť. Navi 33 nebo Navi 32 XLW?“ »

  •  
  •  
  •  

Steam Deck OLED: Handheld Valve dostal 6nm SoC a další zlepšení

Firma Valve opakovaně prohlásila, že nová generace jejího úspěšného herního handheld zařízení Steam Deck je daleko a nemáme ji čekat v blízké době. Tím ale zřejmě myslela novou generaci ve smyslu zařízení, které výrazně zvýší výkon podobně jako nová generace herních konzolí. Teď totiž Valve překvapivě uvedlo na trh nový Steam Deck OLED s novým 6nm procesorem, který přináší nový displej, lepší výbavu a výdrž na baterii. Celý článok „Steam Deck OLED: Handheld Valve dostal 6nm SoC a další zlepšení“ »

  •  
  •  
  •  

Pridaj komentár

Vaša e-mailová adresa nebude zverejnená. Vyžadované polia sú označené *