AMD uvádí 6nm čipletové GPU Instinct MI200. Až 48 TFLOPS v FP64

První 6nm čip AMD: Aldebaran s architekturou CDNA2

Únik už to „vyspoiloval“, ale v pondělí AMD oficiálně oznámilo nejnovější a nejvýkonnější výpočetní GPU – Instinct MI250X. I tak ale tyto akcelerátory překvapily. Místo hloupého „MCM“ používají pouzdření s pokročilejším ekvivalentem Intelova EMIB a mají mnohem vyšší výkon, než se zdálo. Hodně zajímavé také je, že jde o první 6nm čip od AMD. Tato GPU jdou do exascale počítače Frontier, ale budou mít i volně prodávanou verzi.

Nové výpočetní GPU se formálně jmenuje AMD Instinct MI200 Series (řada MI200), zatím od něj budou ovšem existovat tři modely, označené Instinct MI210, MI250 a MI250X. Verze MI250X a MI250 má mezaninové provedení Open Accelerator ModulE (OAM) podobné provedení SXM, které Nvidia používá u svých výpočetních modulů. OAM je ale standardizovaný používá ho více výrobců šasi/akcelerátorů včetně Intelu, zejména pro AI ASICy. Model MI210 je v provedení karty PCI Express pro serverová šasi klasického střihu.

Instinct MI200 (jeho kódové označení by mělo být Aldebaran) navazuje na předchozí počin firmy, akcelerátory MI100 (Arcturus), s nimiž poprvé přišla na výpočetní nasazení a AI specializovaná architektura CDNA. Generace MI200 přináší její vylepšenou verzi CDNA2, má tedy architekturu inovovanou.

Lisa Su ukazuje vzorek GPU Instinct MI200 (Zdroj: AMD)

Vedlo toho je ale upraveno I/O. Akcelerátor poskytuje linky Infinity Fabric 3.0, a umožňuje tak koherentní propojení mezi svými sousedy – GPU, ale také s hostitelskými CPU, musí to ovšem být procesory Epyc od AMD. V systému tedy vše může mít sdílenou paměť, což zjednodušuje programování.

Druhá důležitá novinka je, že Aldebaran/MI200 používá vícečipovou stavbu GPU, respektive asi lze říci, že jde o GPU čipletové. U grafických karet bývalo běžné, že se na jednu kartu osadilo více GPU, propojených na úrovni PCI Expressu, ale MI200 má své dva čipy integrované hlouběji, takže AMD toto řešení označuje jako „první multi-die GPU“, což implikuje, že jde o něco jiného, než předchozí multi-GPU karty. V jednom pouzdru jsou dva čiplety GCD (Graphics Computer Die, nebo možná lépe GPU Compute Die, protože grafiku nejspíš ani neumí počítat), propojené vysokorychlostním rozhraním.

Dva 6nm čiplety

Čiplet GCD je vyráběný 6nm procesem TSMC (N6) a nevíme sice zatím, jak je velký. Dle AMD má obsahovat 29,1 miliard tranzistorů, což je jen o 14 % více, než v 7nm čipu Arcturus (ten prý měl 25,6 miliardy). Asi by proto mohl být o dost menší než výpočetní GPU Nvidia Ampere GA100, jež má 54,2 miliard tranzistorů v 826 mm², nejspíš by mohl být někde mezi 450 a 500 mm². Na jednom GCD se nachází 112 CU, tedy 7168 shaderů. V praxi ale na každém čipletu GCD budou nějaké CU vypnuté kvůli tomu, aby se daly použít i čipy s defekty, což je u velkých GPU téměř nevyhnutnost.

Model Instinct 250X má mít dohromady 220 CU a 14 080 shaderů. Verze MI250 pořád v provedení OAM má 104 CU v každém GCD, takže celek dostane 208 jednotek CU a 13 312 shaderů. Zatím nemáme informace o verzi MI210, ta bude patrně ještě více zredukovaná.

Arcturus a architektura CDNA2 opět obsahuje i Matrix cores pro akceleraci AI. U těch se uvádí počet čtyř na každou CU, takže model MI250X jich má 880, model MI250 pak 832.

AMD Instinct MI200 v provedení OAM v serveru (Zdroj: AMD)

3,2 TB/s paměťové propustnosti

Každý čiplet GCD má svůj paměťový řadič, jenž je tvořen čtyřmi kanály (4096bitová sběrnice), na kterých je napojena paměť HBM2E s efektivním taktem 3,2 GHz. Celková sběrnice obou GCD dohromady je tak 8192 bitů a propustnost dohromady 3,2 TB/s, toto je stejné pro model MI250 i MI250X. Obě poloviny by asi měly být funkčně samostatné, takže AMD by asi mělo být schopné uvést i jednočipletovou verzi s 4096bitovou pamětí a 110 CU. Je dokonce možné, že ta PCIe verze MI210 bude vyrobená takto.

Kapacita paměti je 64 GB HBM2E pro každou polovinu, celek má tedy 128 GB. Díky koherentnímu propojení může GCD přistupovat i do paměti připojené k druhému GCD, ovšem bude při tom mít sníženou propustnost. Je to víceméně jako u Epyců nebo Threadripperů první generace.

AMD Instinct MI200/Aldebaran (Zdroj: AMD)

Propojení linkami Infinity Fabric 3.0

Vedle výpočetních jednotek je na každém čipletu GCD přítomných osm rozhraní Infinity Fabric 3.0, z nichž čtyři slouží k propojení s druhým čipletem, tři by typicky asi měly být propojené se sousedními akcelerátory a čtvrtý s hostitelským CPU. Trošku odlišné je to u modelu Instinct MI250. Ten má jen šest linek a nepodporuje koherentní zapojení do procesoru (možná se počítá s tím, že bude provozován často ve starších serverech nebo serverech s CPU Intel, kde není možné se k CPU přes Infinity Fabric připojit).

Linky propojující akcelerátor se sousedy a s procesorem jsou vyvedené na piny onoho mezaninového provedení OAM, o propojení se stará základní deska. Šířka jedné linky je 16 bitů a efektivní rychlost 25 Gb/s na jeden bit duplexně, takže jedna linka dodává 50 GB/s v obou směrech. Což znamená, že mezi oběma polovinami Instinctu MI250/MI250X je propustnost 200 GB/s obousměrně, do sousedních GPU a do procesoru je to pak obvykle těch obyčejných 50 GB/s.

Celkové zapojení může být čtyři akcelerátory na jednom CPU, kde všechna GPU jsou přímo napojená (jedním ze svých dvou GCD čipletů). Toto je doporučené pro HPC aplikace (superpočítače). Propojení Infinity Fabric do procesoru ale zřejmě potřebuje zvláštní verzi Epyců, není jasné, zda fungují všechny modely generace Epyc 7003, nebo jsou třeba nějaké zvláštní modely s odlišným socketem.

HPC zapojení se čtyřmi GPU koherentní připojení k CPU (Zdroj: AMD, via AnandTech)

Ale je možné propojit také osm akcelerátorů Instinct dohromady, což by se asi používalo pro aplikace strojového učení/AI. V takovém případě by se použila dvouprocesorová deska.

Zapojení s osmi GPU a dvěma CPU přes PCI Express (Zdroj: AMD, via AnandTech)

AMD samozřejmě preferuje, aby uživatelé GPU Instinct MI200 párovali s procesory Epyc, kde se dá pak také jako bonus použít ono koherentní napojení akcelerátorů k procesoru pomocí IF 3.0. Ale podporováno je také zapojení s konkurenčními procesory – nebo s procesory Epyc na deskách, které nepodporují propojení přes Infinity Fabric. V takovém případě se linka IF 3.0 použitá ke komunikaci s CPU promění na rozhraní PCI Express 4.0 ×16, které ale není koherentní a má propustnost jen 32 GB/s duplexně. Mezi sebou se ale GPU mohou po IF 3.0 bavit dál.

Článek pokračuje na další straně, kde se podíváme na architekturu, výkon, spotřebu a použití.

  •  
  •  
  •  
Flattr this!

AMD Granite Ridge, Strix Point: Zen 5 a čipletové big.LITTLE

Intel vydal procesory Alder Lake pro desktop a na programu je teď čekání na „příští velkou věc“ zase u AMD. Nějaké nové informace se vskutku objevily: máme něco o 5nm APU, ale také o výkonných procesorech s architekturou Zen 4 pro notebooky, ale také o následující generaci už s architekturou Zen 5 na 3nm procesu. přijdou big.LITTLE APU, kde to vypadá na malá jádra Zen 4d či 4c, ale vypadá to, že AMD nabídne i čistě velké CPU. Celý článok „AMD Granite Ridge, Strix Point: Zen 5 a čipletové big.LITTLE“ »

  •  
  •  
  •  

Jaké grafiky Arc Intel chystá? TDP 75 až 225 W, ceny 99–499 $

Minulý týden jsme psali o tom, jak Intel prezentuje výkon nadcházejících herních grafik Arc s čipy DG2 (kódovým označením také Alchymist) oproti konkurenčním kartám AMD a Nvidie v interních slajdech. Dokument, o kterém tehdy byla řeč, teď unikl přímo. Vedle onoho přiřazení ke konkurentům ukazuje spotřeby chystaných grafik a také, s jakými cenami u nich Intel počítá. Dává to docela dobrou představo o tom, co Intel chystá. Celý článok „Jaké grafiky Arc Intel chystá? TDP 75 až 225 W, ceny 99–499 $“ »

  •  
  •  
  •  

Top grafika Intel Arc má výkon jako RTX 3070 či RX 6700 XT

Intel minulý měsíc formálně představil plán svých herních GPU, která ponesou značkou Intel Arc. První generace Alchemist vyjde až v první čtvrtce roku 2022, ale už se to blíží. Na internet se dostaly benchmarky nejvyššího modelu, který Intel chystá, což bude GPU s 4096 shadery a Intel už zřejmě také pod NDA prozrazuje výkon těchto grafik. Nezaútočí sice na highend, ale mohly by vést ve spotřebě. Celý článok „Top grafika Intel Arc má výkon jako RTX 3070 či RX 6700 XT“ »

  •  
  •  
  •  

Pridaj komentár

Vaša e-mailová adresa nebude zverejnená. Vyžadované polia sú označené *