Nová GPU generace Blackwell / RTX 5000
Grafické karty nové generace od Nvidie – GeForce RTX 5090 a RTX 5080 – sice vyjdou až třicátého, ale už je po embargu a prvních recenzích nejvyššího modelu RTX 5090, který jsme testovali i my. V tomto článku se podíváme na architekturu Blackwell, která tyto nové grafiky pohání, a její nové vlastnosti a funkce. Od DLSS 4 přes architekturu výpočetních jednotek a výbavu čipu až po softwarovou stránku této nové generace.
GPU generace RTX 5000 / Blackwell jsou celkově nová architektura proti předchozí generaci 4000 s architekturou Ada Lovelace. Prakticky všechny součásti by měly být změněné či aktualizované na novější verzi IP. S jednou výjimkou – GPU jsou stále vyráběná stejným procesem jako GPU architektury Ada Lovelace: technologií 4N od TSMC, což je pro Nvidii speciálně upravená verze procesu N5. Toto je rozdíl proti výpočetní verzi Blackwellu (akcelerátor B200/GB200) pro servery, kde Nvidia použila proces nazvaný 4NP s nějakým dalšími laděním navíc.
GB202
Nejvýkonnější čip v generaci Blackwell, GB202 s 92,2 miliardami tranzistorů, má mít plochu 750 mm², obsahuje 192 bloků SM (SM = Streaming Multiprocessor), což dává 24 576 shaderů. SM jsou rozložené v 96 blocích TPC po dvou SM (Texture Processing Cluster). V jednom bloku SM jsou nadále přítomná RT jádra (jedno na SM) a tensor jádra (čtyři na jeden SM). GB202 má tedy 192 RT jader a 768 tensor jader.
Na úrovni bloků TPC se vedle dvou SM nacházejí také texturovací jednotky v počtu osmi – GPU jich tedy má 768. V reálně prodávaných konfiguracích bude část vypnutá, počty jednotek závisí na počtu aktivních TPC.

TPC jsou zase spojené do 12 bloků GPC (Graphics Processing Cluster), kdy jeden GPC obsahuje 8 TPC (a tím 16 SM). Na úrovni GPC by měly být přítomné jednotky ROP v počtu 16 na jeden blok GPC (dvě Raster operation partitions po 8 ROP). Celé GPU GB202 obsahuje 192 ROP, při vypnutí bloku GPC ale grafika o jeho jednotky přijde, takže například RTX 5090 by měla mít jen 176 ROP (má totiž 11 aktivních GPC, 170 SM).
GDDR7
GPU generace Blackwell jsou první používající paměti GDDR7. V případě čipu GB202 je to dokonce s 512bitovou paměťovou sběrnicí (poprvé od generace Fermi). Řadiče jsou stále 32bitové, v GB202 je jich tedy paralelně 16 (a odpovídající počet v nižších GPU). V GeForce RTX 5090 s čipem GB202 jede GDDR7 na efektivním taktu 28,0 GHz a podobné to asi bude u většiny modelů. RTX 5080 však pro paměti používá efektivní takt 30,0 GHz.

GDDR7 používá pulzně amplitudovou signalizaci PAM3, která přenese 1,5 bitu za cyklus. To na první pohled může působit jako krok zpět proti PAM4 (2 bity za cyklus), ale zdá se, že jednodušší signalizace spolu s možná více vyladěnou technologií dovolují, aby komunikace GDDR7 měla při stejném taktu výrazně lepší odstup signálu od šumu, takže sice přenese o 25 % dat méně za jeden cyklus, ale může se nataktovat mnohem výše, takže finální „efektivní frekvence“ (efektivní přenosová rychlost v Gb/s na 1 bit šířky) paměti je o tolik vyšší než u GDDR6X. Dokonce by podle Nvidie měla být lepší i energetická efektivita.
- Více: GPU Ampere mají nové paměti GDDR6X na bázi PAM4, máme detaily
- Více: Paměti GDDR7 pro nové generace GPU jsou hotové. Takt až 48 GHz
L2 cache
GPU Blackwell mají navíc také poměrně velkou L2 cache, která může hrát srovnatelnou roli jako Infinity Cache (L3 cache) v GPU od AMD – Blackwell L3 cache nemá, L2 je v hierarchii poslední stupeň před samotnou pamětí. Zdá se, že kapacity paměti L2 jsou v GPU generace Blackwell beze změny proti odpovídajícím čipům generace Ada Lovelace (RTX 4000), až na případ GB202. Toto GPU má 128 MB L2 cache proti 96 MB u předchůdce AD102.
Zdá se nicméně, že z této štědré kapacity L2 cache bude mít GeForce RTX 5090 dost velkou část vypnutou, v tomto herním modelu je z jí aktivních jen 96 MB. Plnou cache bude mít asi jen nějaká serverová nebo workstation verze grafiky s čipem GB202. Podobné to bylo i u RTX 4090.

Menší GPU v řadě: GB203
Čip GB203, který bude osazen v GeForce RTX 5080 a 5070 Ti, má velikost jen 378 mm² a má obsahovat 45,6 miliardy tranzistorů. Je zajímavé, že je to o trošku méně než v čipu AD103 minulé generace (45,9 miliardy), který byl i o vlásek větší (378,6 mm²). Z tohoto se zdá, že Nvidii se podařilo při víceméně stejné výrobní technologii 4N od TSMC a stejné hustotě tranzistorů dostat v generaci Blackwell na jednotku plochy nějaké nové technologie navíc a více výkonu – pokud tedy nárůst výkonu u GeForce RTX 5080 proti RTX 4080 nebude dán jen navýšením spotřeby z 320 na 360 W (a tím frekvencí). Architektura Blackwell by ale sama o sobě měla při stejné frekvenci dávat o něco lepší výkon, takže to, že nepotřebuje o moc víc místa na čipu, je zajímavé.
Toto GPU je tvořeno 7 bloky GPC, 42 bloky TPC a 84 SM. Celkem má tedy 10 752 shaderů, 84 RT jader, 336 texturovacích jednotek a 336 tensor jader. GPU obsahuje 64 MB L2 cache, stejně jako předchozí AD103 v GeForce RTX 4080.
Z počtu 7 GPC vyplývá počet 112 jednotek ROP. Toto GPU má jen 256bitovou paměťovou sběrnici. Nvidia tedy přeskočila 384bitovou konfiguraci, u GeForce RTX 5080 bude šířka pamětí poloviční (a kapacita také) a jen trochu to bude kompenzovat vyšší frekvence, protože u tohoto modelu poběží GDDR7 na 30,0 GHz efektivně (je však pravda, že počet výpočetních jednotek je dokonce ještě méně než poloviční proti GB202, není to tedy v nerovnováze).

GB205 pro levnější karty
Třetím čipem v řadě je GB205, GB204 neexistuje a náhradou minulého AD104 je právě až GB205. Plocha tohoto GPU, které se dle Nvidie skládá z 31,1 miliard tranzistorů, je 263 mm², výrazně méně než u čipu AD104 (294,5 mm² s 35,8 miliardami tranzistorů), takže Nvidia bude mít při předpokladu stejně naceněných karet RTX 5070 (které toto GPU budou používat) větší marži, nebo může grafiky prodávat za nižší ceny než RTX 4070.
V tomto případě je menší plocha čipu ale způsobená tím, že GB205 má slabší parametry. Zatímco AD104 obsahuje 60 bloků SM, čip GB205 má jen 50 SM (5 GPC, 25 TPC), což je v plné konfiguraci 6400 shaderů, 50 RT jader a 200 tensor jader – RTX 5070 ale bude mít osekanou konfiguraci s jen 6144 shadery, bude se v ní tedy dát upotřebit i čip s nějakým defektem.
Stejně jako AD104 má čip 192bitovou paměťovou sběrnici, ale už umí paměti GDDR7 stejně jako vyšší sourozenci. Kapacita L2 cache je 48 MB stejně jako u AD104 a GPU má i stejných 80 ROP.
Článek pokračuje na další straně.
⠀
- Contents
- Nová GPU generace Blackwell / RTX 5000
- Architektura Blackwell
- Nové technologie čipů Blackwell
- Software a novinky ve výbavě