AMD uvádí 6nm čipletové GPU Instinct MI200. Až 48 TFLOPS v FP64

První 6nm čip AMD: Aldebaran s architekturou CDNA2

Únik už to „vyspoiloval“, ale v pondělí AMD oficiálně oznámilo nejnovější a nejvýkonnější výpočetní GPU – Instinct MI250X. I tak ale tyto akcelerátory překvapily. Místo hloupého „MCM“ používají pouzdření s pokročilejším ekvivalentem Intelova EMIB a mají mnohem vyšší výkon, než se zdálo. Hodně zajímavé také je, že jde o první 6nm čip od AMD. Tato GPU jdou do exascale počítače Frontier, ale budou mít i volně prodávanou verzi.

Nové výpočetní GPU se formálně jmenuje AMD Instinct MI200 Series (řada MI200), zatím od něj budou ovšem existovat tři modely, označené Instinct MI210, MI250 a MI250X. Verze MI250X a MI250 má mezaninové provedení Open Accelerator ModulE (OAM) podobné provedení SXM, které Nvidia používá u svých výpočetních modulů. OAM je ale standardizovaný používá ho více výrobců šasi/akcelerátorů včetně Intelu, zejména pro AI ASICy. Model MI210 je v provedení karty PCI Express pro serverová šasi klasického střihu.

Instinct MI200 (jeho kódové označení by mělo být Aldebaran) navazuje na předchozí počin firmy, akcelerátory MI100 (Arcturus), s nimiž poprvé přišla na výpočetní nasazení a AI specializovaná architektura CDNA. Generace MI200 přináší její vylepšenou verzi CDNA2, má tedy architekturu inovovanou.

Lisa Su ukazuje vzorek GPU Instinct MI200 (Zdroj: AMD)

Vedlo toho je ale upraveno I/O. Akcelerátor poskytuje linky Infinity Fabric 3.0, a umožňuje tak koherentní propojení mezi svými sousedy – GPU, ale také s hostitelskými CPU, musí to ovšem být procesory Epyc od AMD. V systému tedy vše může mít sdílenou paměť, což zjednodušuje programování.

Druhá důležitá novinka je, že Aldebaran/MI200 používá vícečipovou stavbu GPU, respektive asi lze říci, že jde o GPU čipletové. U grafických karet bývalo běžné, že se na jednu kartu osadilo více GPU, propojených na úrovni PCI Expressu, ale MI200 má své dva čipy integrované hlouběji, takže AMD toto řešení označuje jako „první multi-die GPU“, což implikuje, že jde o něco jiného, než předchozí multi-GPU karty. V jednom pouzdru jsou dva čiplety GCD (Graphics Computer Die, nebo možná lépe GPU Compute Die, protože grafiku nejspíš ani neumí počítat), propojené vysokorychlostním rozhraním.

Dva 6nm čiplety

Čiplet GCD je vyráběný 6nm procesem TSMC (N6) a nevíme sice zatím, jak je velký. Dle AMD má obsahovat 29,1 miliard tranzistorů, což je jen o 14 % více, než v 7nm čipu Arcturus (ten prý měl 25,6 miliardy). Asi by proto mohl být o dost menší než výpočetní GPU Nvidia Ampere GA100, jež má 54,2 miliard tranzistorů v 826 mm², nejspíš by mohl být někde mezi 450 a 500 mm². Na jednom GCD se nachází 112 CU, tedy 7168 shaderů. V praxi ale na každém čipletu GCD budou nějaké CU vypnuté kvůli tomu, aby se daly použít i čipy s defekty, což je u velkých GPU téměř nevyhnutnost.

Model Instinct 250X má mít dohromady 220 CU a 14 080 shaderů. Verze MI250 pořád v provedení OAM má 104 CU v každém GCD, takže celek dostane 208 jednotek CU a 13 312 shaderů. Zatím nemáme informace o verzi MI210, ta bude patrně ještě více zredukovaná.

Arcturus a architektura CDNA2 opět obsahuje i Matrix cores pro akceleraci AI. U těch se uvádí počet čtyř na každou CU, takže model MI250X jich má 880, model MI250 pak 832.

AMD Instinct MI200 v provedení OAM v serveru (Zdroj: AMD)

3,2 TB/s paměťové propustnosti

Každý čiplet GCD má svůj paměťový řadič, jenž je tvořen čtyřmi kanály (4096bitová sběrnice), na kterých je napojena paměť HBM2E s efektivním taktem 3,2 GHz. Celková sběrnice obou GCD dohromady je tak 8192 bitů a propustnost dohromady 3,2 TB/s, toto je stejné pro model MI250 i MI250X. Obě poloviny by asi měly být funkčně samostatné, takže AMD by asi mělo být schopné uvést i jednočipletovou verzi s 4096bitovou pamětí a 110 CU. Je dokonce možné, že ta PCIe verze MI210 bude vyrobená takto.

Kapacita paměti je 64 GB HBM2E pro každou polovinu, celek má tedy 128 GB. Díky koherentnímu propojení může GCD přistupovat i do paměti připojené k druhému GCD, ovšem bude při tom mít sníženou propustnost. Je to víceméně jako u Epyců nebo Threadripperů první generace.

AMD Instinct MI200/Aldebaran (Zdroj: AMD)

Propojení linkami Infinity Fabric 3.0

Vedle výpočetních jednotek je na každém čipletu GCD přítomných osm rozhraní Infinity Fabric 3.0, z nichž čtyři slouží k propojení s druhým čipletem, tři by typicky asi měly být propojené se sousedními akcelerátory a čtvrtý s hostitelským CPU. Trošku odlišné je to u modelu Instinct MI250. Ten má jen šest linek a nepodporuje koherentní zapojení do procesoru (možná se počítá s tím, že bude provozován často ve starších serverech nebo serverech s CPU Intel, kde není možné se k CPU přes Infinity Fabric připojit).

Linky propojující akcelerátor se sousedy a s procesorem jsou vyvedené na piny onoho mezaninového provedení OAM, o propojení se stará základní deska. Šířka jedné linky je 16 bitů a efektivní rychlost 25 Gb/s na jeden bit duplexně, takže jedna linka dodává 50 GB/s v obou směrech. Což znamená, že mezi oběma polovinami Instinctu MI250/MI250X je propustnost 200 GB/s obousměrně, do sousedních GPU a do procesoru je to pak obvykle těch obyčejných 50 GB/s.

Celkové zapojení může být čtyři akcelerátory na jednom CPU, kde všechna GPU jsou přímo napojená (jedním ze svých dvou GCD čipletů). Toto je doporučené pro HPC aplikace (superpočítače). Propojení Infinity Fabric do procesoru ale zřejmě potřebuje zvláštní verzi Epyců, není jasné, zda fungují všechny modely generace Epyc 7003, nebo jsou třeba nějaké zvláštní modely s odlišným socketem.

HPC zapojení se čtyřmi GPU koherentní připojení k CPU (Zdroj: AMD, via AnandTech)

Ale je možné propojit také osm akcelerátorů Instinct dohromady, což by se asi používalo pro aplikace strojového učení/AI. V takovém případě by se použila dvouprocesorová deska.

Zapojení s osmi GPU a dvěma CPU přes PCI Express (Zdroj: AMD, via AnandTech)

AMD samozřejmě preferuje, aby uživatelé GPU Instinct MI200 párovali s procesory Epyc, kde se dá pak také jako bonus použít ono koherentní napojení akcelerátorů k procesoru pomocí IF 3.0. Ale podporováno je také zapojení s konkurenčními procesory – nebo s procesory Epyc na deskách, které nepodporují propojení přes Infinity Fabric. V takovém případě se linka IF 3.0 použitá ke komunikaci s CPU promění na rozhraní PCI Express 4.0 ×16, které ale není koherentní a má propustnost jen 32 GB/s duplexně. Mezi sebou se ale GPU mohou po IF 3.0 bavit dál.

Článek pokračuje na další straně, kde se podíváme na architekturu, výkon, spotřebu a použití.

  •  
  •  
  •  
Flattr this!

Radeon RX 7600 XT přichází. Nejlevnější grafika AMD s 16GB pamětí

Prakticky současně s odhalením nových grafik Nvidia GeForce RTX 4070 Super, RTX 4070 Ti Super a RTX 4080 Super mělo prezentaci na CES 2024 také AMD. A tato společnost také přidává do nabídky grafických karet (u něj Radeonů RX 7000 s architekturou RDNA 3) nový model, byť založený na jednom z již existujících čipů: Radeon RX 7600 XT. Jeho parametry neprosákly předem, takže odhalení je výjimečně i trochu s překvapením. Celý článok „Radeon RX 7600 XT přichází. Nejlevnější grafika AMD s 16GB pamětí“ »

  •  
  •  
  •  

Radeon RX 7600 XT má 16GB paměť. Navi 33 nebo Navi 32 XLW?

Měli jsme tu teď informaci o tom, že AMD s výrobci karet chystá na nynější měsíc vydání grafiky Radeon RX 7600 XT. V poslední zprávě jsme psali, že ještě nebylo jasné, na základě jakého GPU bude tato grafika postavená – či půjde o zrychlený Radeon RX 7600, nebo naopak spíš o osekaný RX 7700 XT. To se teď asi vyjasnilo dalším únikem v databázi EEC. V té se objevily karty Gigabyte s údajem o kapacitě paměti, který asi říká vše. Celý článok „Radeon RX 7600 XT má 16GB paměť. Navi 33 nebo Navi 32 XLW?“ »

  •  
  •  
  •  

Steam Deck OLED: Handheld Valve dostal 6nm SoC a další zlepšení

Firma Valve opakovaně prohlásila, že nová generace jejího úspěšného herního handheld zařízení Steam Deck je daleko a nemáme ji čekat v blízké době. Tím ale zřejmě myslela novou generaci ve smyslu zařízení, které výrazně zvýší výkon podobně jako nová generace herních konzolí. Teď totiž Valve překvapivě uvedlo na trh nový Steam Deck OLED s novým 6nm procesorem, který přináší nový displej, lepší výbavu a výdrž na baterii. Celý článok „Steam Deck OLED: Handheld Valve dostal 6nm SoC a další zlepšení“ »

  •  
  •  
  •  

Pridaj komentár

Vaša e-mailová adresa nebude zverejnená. Vyžadované polia sú označené *