Blackwell: Architektura a novinky GeForce RTX 5000 [Rozbor]

Nová GPU generace Blackwell / RTX 5000

Grafické karty nové generace od Nvidie – GeForce RTX 5090 a RTX 5080 – sice vyjdou až třicátého, ale už je po embargu a prvních recenzích nejvyššího modelu RTX 5090, který jsme testovali i my. V tomto článku se podíváme na architekturu Blackwell, která tyto nové grafiky pohání, a její nové vlastnosti a funkce. Od DLSS 4 přes architekturu výpočetních jednotek a výbavu čipu až po softwarovou stránku této nové generace.

GPU generace RTX 5000 / Blackwell jsou celkově nová architektura proti předchozí generaci 4000 s architekturou Ada Lovelace. Prakticky všechny součásti by měly být změněné či aktualizované na novější verzi IP. S jednou výjimkou – GPU jsou stále vyráběná stejným procesem jako GPU architektury Ada Lovelace: technologií 4N od TSMC, což je pro Nvidii speciálně upravená verze procesu N5. Toto je rozdíl proti výpočetní verzi Blackwellu (akcelerátor B200/GB200) pro servery, kde Nvidia použila proces nazvaný 4NP s nějakým dalšími laděním navíc.

GB202

Nejvýkonnější čip v generaci Blackwell, GB202 s 92,2 miliardami tranzistorů, má mít plochu 750 mm², obsahuje 192 bloků SM (SM = Streaming Multiprocessor), což dává 24 576 shaderů. SM jsou rozložené v 96 blocích TPC po dvou SM (Texture Processing Cluster). V jednom bloku SM jsou nadále přítomná RT jádra (jedno na SM) a tensor jádra (čtyři na jeden SM). GB202 má tedy 192 RT jader a 768 tensor jader.

Na úrovni bloků TPC se vedle dvou SM nacházejí také texturovací jednotky v počtu osmi – GPU jich tedy má 768. V reálně prodávaných konfiguracích bude část vypnutá, počty jednotek závisí na počtu aktivních TPC.

Schéma GPU Nvidia GB202

TPC jsou zase spojené do 12 bloků GPC (Graphics Processing Cluster), kdy jeden GPC obsahuje 8 TPC (a tím 16 SM). Na úrovni GPC by měly být přítomné jednotky ROP v počtu 16 na jeden blok GPC (dvě Raster operation partitions po 8 ROP). Celé GPU GB202 obsahuje 192 ROP, při vypnutí bloku GPC ale grafika o jeho jednotky přijde, takže například RTX 5090 by měla mít jen 176 ROP (má totiž 11 aktivních GPC, 170 SM).

GDDR7

GPU generace Blackwell jsou první používající paměti GDDR7. V případě čipu GB202 je to dokonce s 512bitovou paměťovou sběrnicí (poprvé od generace Fermi). Řadiče jsou stále 32bitové, v GB202 je jich tedy paralelně 16 (a odpovídající počet v nižších GPU). V GeForce RTX 5090 s čipem GB202 jede GDDR7 na efektivním taktu 28,0 GHz a podobné to asi bude u většiny modelů. RTX 5080 však pro paměti používá efektivní takt 30,0 GHz.

GDDR7 v GPU Blackwell

GDDR7 používá pulzně amplitudovou signalizaci PAM3, která přenese 1,5 bitu za cyklus. To na první pohled může působit jako krok zpět proti PAM4 (2 bity za cyklus), ale zdá se, že jednodušší signalizace spolu s možná více vyladěnou technologií dovolují, aby komunikace GDDR7 měla při stejném taktu výrazně lepší odstup signálu od šumu, takže sice přenese o 25 % dat méně za jeden cyklus, ale může se nataktovat mnohem výše, takže finální „efektivní frekvence“ (efektivní přenosová rychlost v Gb/s na 1 bit šířky) paměti je o tolik vyšší než u GDDR6X. Dokonce by podle Nvidie měla být lepší i energetická efektivita.

L2 cache

GPU Blackwell mají navíc také poměrně velkou L2 cache, která může hrát srovnatelnou roli jako Infinity Cache (L3 cache) v GPU od AMD – Blackwell L3 cache nemá, L2 je v hierarchii poslední stupeň před samotnou pamětí. Zdá se, že kapacity paměti L2 jsou v GPU generace Blackwell beze změny proti odpovídajícím čipům generace Ada Lovelace (RTX 4000), až na případ GB202. Toto GPU má 128 MB L2 cache proti 96 MB u předchůdce AD102.

Zdá se nicméně, že z této štědré kapacity L2 cache bude mít GeForce RTX 5090 dost velkou část vypnutou, v tomto herním modelu je z jí aktivních jen 96 MB. Plnou cache bude mít asi jen nějaká serverová nebo workstation verze grafiky s čipem GB202. Podobné to bylo i u RTX 4090.

GeForce RTX 5090 s čipem GB202

Menší GPU v řadě: GB203

Čip GB203, který bude osazen v GeForce RTX 5080 a 5070 Ti, má velikost jen 378 mm² a má obsahovat 45,6 miliardy tranzistorů. Je zajímavé, že je to o trošku méně než v čipu AD103 minulé generace (45,9 miliardy), který byl i o vlásek větší (378,6 mm²). Z tohoto se zdá, že Nvidii se podařilo při víceméně stejné výrobní technologii 4N od TSMC a stejné hustotě tranzistorů dostat v generaci Blackwell na jednotku plochy nějaké nové technologie navíc a více výkonu – pokud tedy nárůst výkonu u GeForce RTX 5080 proti RTX 4080 nebude dán jen navýšením spotřeby z 320 na 360 W (a tím frekvencí). Architektura Blackwell by ale sama o sobě měla při stejné frekvenci dávat o něco lepší výkon, takže to, že nepotřebuje o moc víc místa na čipu, je zajímavé.

Toto GPU je tvořeno 7 bloky GPC, 42 bloky TPC a 84 SM. Celkem má tedy 10 752 shaderů, 84 RT jader, 336 texturovacích jednotek a 336 tensor jader. GPU obsahuje 64 MB L2 cache, stejně jako předchozí AD103 v GeForce RTX 4080.

Z počtu 7 GPC vyplývá počet 112 jednotek ROP. Toto GPU má jen 256bitovou paměťovou sběrnici. Nvidia tedy přeskočila 384bitovou konfiguraci, u GeForce RTX 5080 bude šířka pamětí poloviční (a kapacita také) a jen trochu to bude kompenzovat vyšší frekvence, protože u tohoto modelu poběží GDDR7 na 30,0 GHz efektivně (je však pravda, že počet výpočetních jednotek je dokonce ještě méně než poloviční proti GB202, není to tedy v nerovnováze).

GeForce RTX 5070 Founders Edition

GB205 pro levnější karty

Třetím čipem v řadě je GB205, GB204 neexistuje a náhradou minulého AD104 je právě až GB205. Plocha tohoto GPU, které se dle Nvidie skládá z 31,1 miliard tranzistorů, je 263 mm², výrazně méně než u čipu AD104 (294,5 mm² s 35,8 miliardami tranzistorů), takže Nvidia bude mít při předpokladu stejně naceněných karet RTX 5070 (které toto GPU budou používat) větší marži, nebo může grafiky prodávat za nižší ceny než RTX 4070.

V tomto případě je menší plocha čipu ale způsobená tím, že GB205 má slabší parametry. Zatímco AD104 obsahuje 60 bloků SM, čip GB205 má jen 50 SM (5 GPC, 25 TPC), což je v plné konfiguraci 6400 shaderů, 50 RT jader a 200 tensor jader – RTX 5070 ale bude mít osekanou konfiguraci s jen 6144 shadery, bude se v ní tedy dát upotřebit i čip s nějakým defektem.

Stejně jako AD104 má čip 192bitovou paměťovou sběrnici, ale už umí paměti GDDR7 stejně jako vyšší sourozenci. Kapacita L2 cache je 48 MB stejně jako u AD104 a GPU má i stejných 80 ROP.

Článek pokračuje na další straně.


  •  
  •  
  •  
Flattr this!

Intel zrušil x86S, snahu o vyčištění legacy zátěže procesorů x86

Na podzim jsme tu měli zprávu, že do procesorové architektury Panther Cove, kterou Intel vydá za dva roky (ne však v procesorech Panther Lake, takže pozor na záměnu), se zřejmě poprvé dostane vylepšení instrukční sady x86 označené APX a také „reformované“ SIMD instrukce AVX10, které jsou kompromis mezi AVX-512 a AVX2 určený pro hybridní procesory. Nepřijde ale architektura x86S, třetí z těchto očekávaných inovací. Byla totiž zrušena. Celý článok „Intel zrušil x86S, snahu o vyčištění legacy zátěže procesorů x86“ »

  •  
  •  
  •  

AMD aktualizací vypnulo část jádra Zen 4. Výkon by ale měl zůstat

Procesory AMD s architekturou Zen 5 po vydání dostávaly různé aktualizace vylepšující Windows (zejména ale šlo o aktualizaci Windows, která přímo v procesoru a firmwaru desek nic neměnila). Vypadá to, že u procesorů s předchozí architekturou Zen 4 místo toho došlo k drobné změně negativní, kdy jedna z aktualizací odebrala dříve aktivní funkci v jádrech. Z jakého důvodu, ví jenom AMD. Ale zdá se, že dopad by neměl být nijak významný. Celý článok „AMD aktualizací vypnulo část jádra Zen 4. Výkon by ale měl zůstat“ »

  •  
  •  
  •  

Batttlemage: Novinky a detaily GPU architektury Intel Xe2 [Rozbor]

Intel odhalil novou generaci svých grafických karet Arc, nazvanou Battlemage nebo také „Série B“. Ta obsahuje novou výrazně zlepšenou architekturu, s níž má Arc teď druhou šanci získat si přízeň hráčů – byť to bude muset dělat hlavně pomocí nízkých cen, protože nyní vydaná GPU budou konkurovat jen v pásmu levnějších mainstreamových grafik. Zatímco samotným kartám jsme věnovali tento článek, zde se podíváme na samotnou architekturu. Celý článok „Batttlemage: Novinky a detaily GPU architektury Intel Xe2 [Rozbor]“ »

  •  
  •  
  •  

Pridaj komentár

Vaša e-mailová adresa nebude zverejnená. Vyžadované polia sú označené *