AMD uvádí 6nm čipletové GPU Instinct MI200. Až 48 TFLOPS v FP64

První 6nm čip AMD: Aldebaran s architekturou CDNA2

Únik už to „vyspoiloval“, ale v pondělí AMD oficiálně oznámilo nejnovější a nejvýkonnější výpočetní GPU – Instinct MI250X. I tak ale tyto akcelerátory překvapily. Místo hloupého „MCM“ používají pouzdření s pokročilejším ekvivalentem Intelova EMIB a mají mnohem vyšší výkon, než se zdálo. Hodně zajímavé také je, že jde o první 6nm čip od AMD. Tato GPU jdou do exascale počítače Frontier, ale budou mít i volně prodávanou verzi.

Nové výpočetní GPU se formálně jmenuje AMD Instinct MI200 Series (řada MI200), zatím od něj budou ovšem existovat tři modely, označené Instinct MI210, MI250 a MI250X. Verze MI250X a MI250 má mezaninové provedení Open Accelerator ModulE (OAM) podobné provedení SXM, které Nvidia používá u svých výpočetních modulů. OAM je ale standardizovaný používá ho více výrobců šasi/akcelerátorů včetně Intelu, zejména pro AI ASICy. Model MI210 je v provedení karty PCI Express pro serverová šasi klasického střihu.

Instinct MI200 (jeho kódové označení by mělo být Aldebaran) navazuje na předchozí počin firmy, akcelerátory MI100 (Arcturus), s nimiž poprvé přišla na výpočetní nasazení a AI specializovaná architektura CDNA. Generace MI200 přináší její vylepšenou verzi CDNA2, má tedy architekturu inovovanou.

Lisa Su ukazuje vzorek GPU Instinct MI200 (Zdroj: AMD)

Vedlo toho je ale upraveno I/O. Akcelerátor poskytuje linky Infinity Fabric 3.0, a umožňuje tak koherentní propojení mezi svými sousedy – GPU, ale také s hostitelskými CPU, musí to ovšem být procesory Epyc od AMD. V systému tedy vše může mít sdílenou paměť, což zjednodušuje programování.

Druhá důležitá novinka je, že Aldebaran/MI200 používá vícečipovou stavbu GPU, respektive asi lze říci, že jde o GPU čipletové. U grafických karet bývalo běžné, že se na jednu kartu osadilo více GPU, propojených na úrovni PCI Expressu, ale MI200 má své dva čipy integrované hlouběji, takže AMD toto řešení označuje jako „první multi-die GPU“, což implikuje, že jde o něco jiného, než předchozí multi-GPU karty. V jednom pouzdru jsou dva čiplety GCD (Graphics Computer Die, nebo možná lépe GPU Compute Die, protože grafiku nejspíš ani neumí počítat), propojené vysokorychlostním rozhraním.

Dva 6nm čiplety

Čiplet GCD je vyráběný 6nm procesem TSMC (N6) a nevíme sice zatím, jak je velký. Dle AMD má obsahovat 29,1 miliard tranzistorů, což je jen o 14 % více, než v 7nm čipu Arcturus (ten prý měl 25,6 miliardy). Asi by proto mohl být o dost menší než výpočetní GPU Nvidia Ampere GA100, jež má 54,2 miliard tranzistorů v 826 mm², nejspíš by mohl být někde mezi 450 a 500 mm². Na jednom GCD se nachází 112 CU, tedy 7168 shaderů. V praxi ale na každém čipletu GCD budou nějaké CU vypnuté kvůli tomu, aby se daly použít i čipy s defekty, což je u velkých GPU téměř nevyhnutnost.

Model Instinct 250X má mít dohromady 220 CU a 14 080 shaderů. Verze MI250 pořád v provedení OAM má 104 CU v každém GCD, takže celek dostane 208 jednotek CU a 13 312 shaderů. Zatím nemáme informace o verzi MI210, ta bude patrně ještě více zredukovaná.

Arcturus a architektura CDNA2 opět obsahuje i Matrix cores pro akceleraci AI. U těch se uvádí počet čtyř na každou CU, takže model MI250X jich má 880, model MI250 pak 832.

AMD Instinct MI200 v provedení OAM v serveru (Zdroj: AMD)

3,2 TB/s paměťové propustnosti

Každý čiplet GCD má svůj paměťový řadič, jenž je tvořen čtyřmi kanály (4096bitová sběrnice), na kterých je napojena paměť HBM2E s efektivním taktem 3,2 GHz. Celková sběrnice obou GCD dohromady je tak 8192 bitů a propustnost dohromady 3,2 TB/s, toto je stejné pro model MI250 i MI250X. Obě poloviny by asi měly být funkčně samostatné, takže AMD by asi mělo být schopné uvést i jednočipletovou verzi s 4096bitovou pamětí a 110 CU. Je dokonce možné, že ta PCIe verze MI210 bude vyrobená takto.

Kapacita paměti je 64 GB HBM2E pro každou polovinu, celek má tedy 128 GB. Díky koherentnímu propojení může GCD přistupovat i do paměti připojené k druhému GCD, ovšem bude při tom mít sníženou propustnost. Je to víceméně jako u Epyců nebo Threadripperů první generace.

AMD Instinct MI200/Aldebaran (Zdroj: AMD)

Propojení linkami Infinity Fabric 3.0

Vedle výpočetních jednotek je na každém čipletu GCD přítomných osm rozhraní Infinity Fabric 3.0, z nichž čtyři slouží k propojení s druhým čipletem, tři by typicky asi měly být propojené se sousedními akcelerátory a čtvrtý s hostitelským CPU. Trošku odlišné je to u modelu Instinct MI250. Ten má jen šest linek a nepodporuje koherentní zapojení do procesoru (možná se počítá s tím, že bude provozován často ve starších serverech nebo serverech s CPU Intel, kde není možné se k CPU přes Infinity Fabric připojit).

Linky propojující akcelerátor se sousedy a s procesorem jsou vyvedené na piny onoho mezaninového provedení OAM, o propojení se stará základní deska. Šířka jedné linky je 16 bitů a efektivní rychlost 25 Gb/s na jeden bit duplexně, takže jedna linka dodává 50 GB/s v obou směrech. Což znamená, že mezi oběma polovinami Instinctu MI250/MI250X je propustnost 200 GB/s obousměrně, do sousedních GPU a do procesoru je to pak obvykle těch obyčejných 50 GB/s.

Celkové zapojení může být čtyři akcelerátory na jednom CPU, kde všechna GPU jsou přímo napojená (jedním ze svých dvou GCD čipletů). Toto je doporučené pro HPC aplikace (superpočítače). Propojení Infinity Fabric do procesoru ale zřejmě potřebuje zvláštní verzi Epyců, není jasné, zda fungují všechny modely generace Epyc 7003, nebo jsou třeba nějaké zvláštní modely s odlišným socketem.

HPC zapojení se čtyřmi GPU koherentní připojení k CPU (Zdroj: AMD, via AnandTech)

Ale je možné propojit také osm akcelerátorů Instinct dohromady, což by se asi používalo pro aplikace strojového učení/AI. V takovém případě by se použila dvouprocesorová deska.

Zapojení s osmi GPU a dvěma CPU přes PCI Express (Zdroj: AMD, via AnandTech)

AMD samozřejmě preferuje, aby uživatelé GPU Instinct MI200 párovali s procesory Epyc, kde se dá pak také jako bonus použít ono koherentní napojení akcelerátorů k procesoru pomocí IF 3.0. Ale podporováno je také zapojení s konkurenčními procesory – nebo s procesory Epyc na deskách, které nepodporují propojení přes Infinity Fabric. V takovém případě se linka IF 3.0 použitá ke komunikaci s CPU promění na rozhraní PCI Express 4.0 ×16, které ale není koherentní a má propustnost jen 32 GB/s duplexně. Mezi sebou se ale GPU mohou po IF 3.0 bavit dál.

Článek pokračuje na další straně, kde se podíváme na architekturu, výkon, spotřebu a použití.

⠀

Continue: Výkon: top ve vědeckých simulacích, v AI na Nvidii nestačí

Flattr this!

6nm AMD GPU servery

the patient on Nvidia chce oživit SFF herní PC a malé grafiky, chystá standardSpodní limit toho konektoru je cca 475 W, spodní limit 8-pinu je cca 140W. Nemůže...
RedMaX on Nvidia chce oživit SFF herní PC a malé grafiky, chystá standardNezájem. NVidia má udělat jedinou věc, konečně vyřešit ten zasranej konektor, aby ty grafiky konečně...
the patient on Asus ROG Strix Z790-A Gaming WiFi II: Nielen najefektívnejšiaKdyž toho člověk má víc než dva disky a grafiku, tak je zásah do skříně...
Ľubomír Samák on Asus ROG Strix Z790-A Gaming WiFi II: Nielen najefektívnejšiaZaujímavé by bolo vedieť, ako kto vyslobodenie grafickej karty spod veľkého chladiča rieši. Mimo skrinku...
the patient on Asus ROG Strix Z790-A Gaming WiFi II: Nielen najefektívnejšiaVyřešili jsme pojistkou slotu pro grafiku, hurá? 20 let to nikoho nenapadlo, není to tristní?...
Jmeno on Nvidia chce oživit SFF herní PC a malé grafiky, chystá standardSFF jsou dobre do kancelari a prumyslu. Zejmena bezvetrakove krabicky jsou paradni. SFF pro domaci...
the patient on Intel Lunar Lake má 100 TOPS AI výkonu. A taky hodně silné GPU?Ještěže jste orientovaní v makroekonomii a geopolitice, kluci. To tady potřebujeme.
the patient on Intel Lunar Lake má 100 TOPS AI výkonu. A taky hodně silné GPU?Jednoduše přibude možnost pro rollback a tím půjde dosahovat větší efektivity. Program detekuje dostupné kapacity,...
the patient on Intel Lunar Lake má 100 TOPS AI výkonu. A taky hodně silné GPU?Nedávno, například, všemi zapojenými médii proběhly zprávy o uvedení ChatRTX, to nešlo přehlédnout.

AMD uvádí 6nm čipletové GPU Instinct MI200. Až 48 TFLOPS v FP64