Blackwell: Architektura a novinky GeForce RTX 5000 [Rozbor]

Grafické karty nové generace od Nvidie – GeForce RTX 5090 a RTX 5080 – sice vyjdou až třicátého, ale už je po embargu a prvních recenzích nejvyššího modelu RTX 5090, který jsme testovali i my. V tomto článku se podíváme na architekturu Blackwell, která tyto nové grafiky pohání, a její nové vlastnosti a funkce. Od DLSS 4 přes architekturu výpočetních jednotek a výbavu čipu až po softwarovou stránku této nové generace.

GPU generace RTX 5000 / Blackwell jsou celkově nová architektura proti předchozí generaci 4000 s architekturou Ada Lovelace. Prakticky všechny součásti by měly být změněné či aktualizované na novější verzi IP. S jednou výjimkou – GPU jsou stále vyráběná stejným procesem jako GPU architektury Ada Lovelace: technologií 4N od TSMC, což je pro Nvidii speciálně upravená verze procesu N5. Toto je rozdíl proti výpočetní verzi Blackwellu (akcelerátor B200/GB200) pro servery, kde Nvidia použila proces nazvaný 4NP s nějakým dalšími laděním navíc.

GB202

Nejvýkonnější čip v generaci Blackwell, GB202 s 92,2 miliardami tranzistorů, má mít plochu 750 mm², obsahuje 192 bloků SM (SM = Streaming Multiprocessor), což dává 24 576 shaderů. SM jsou rozložené v 96 blocích TPC po dvou SM (Texture Processing Cluster). V jednom bloku SM jsou nadále přítomná RT jádra (jedno na SM) a tensor jádra (čtyři na jeden SM). GB202 má tedy 192 RT jader a 768 tensor jader.

Na úrovni bloků TPC se vedle dvou SM nacházejí také texturovací jednotky v počtu osmi – GPU jich tedy má 768. V reálně prodávaných konfiguracích bude část vypnutá, počty jednotek závisí na počtu aktivních TPC.

Schéma GPU Nvidia GB202

TPC jsou zase spojené do 12 bloků GPC (Graphics Processing Cluster), kdy jeden GPC obsahuje 8 TPC (a tím 16 SM). Na úrovni GPC by měly být přítomné jednotky ROP v počtu 16 na jeden blok GPC (dvě Raster operation partitions po 8 ROP). Celé GPU GB202 obsahuje 192 ROP, při vypnutí bloku GPC ale grafika o jeho jednotky přijde, takže například RTX 5090 by měla mít jen 176 ROP (má totiž 11 aktivních GPC, 170 SM).

GDDR7

GPU generace Blackwell jsou první používající paměti GDDR7. V případě čipu GB202 je to dokonce s 512bitovou paměťovou sběrnicí (poprvé od generace Fermi). Řadiče jsou stále 32bitové, v GB202 je jich tedy paralelně 16 (a odpovídající počet v nižších GPU). V GeForce RTX 5090 s čipem GB202 jede GDDR7 na efektivním taktu 28,0 GHz a podobné to asi bude u většiny modelů. RTX 5080 však pro paměti používá efektivní takt 30,0 GHz.

GDDR7 v GPU Blackwell

GDDR7 používá pulzně amplitudovou signalizaci PAM3, která přenese 1,5 bitu za cyklus. To na první pohled může působit jako krok zpět proti PAM4 (2 bity za cyklus), ale zdá se, že jednodušší signalizace spolu s možná více vyladěnou technologií dovolují, aby komunikace GDDR7 měla při stejném taktu výrazně lepší odstup signálu od šumu, takže sice přenese o 25 % dat méně za jeden cyklus, ale může se nataktovat mnohem výše, takže finální „efektivní frekvence“ (efektivní přenosová rychlost v Gb/s na 1 bit šířky) paměti je o tolik vyšší než u GDDR6X. Dokonce by podle Nvidie měla být lepší i energetická efektivita.

L2 cache

GPU Blackwell mají navíc také poměrně velkou L2 cache, která může hrát srovnatelnou roli jako Infinity Cache (L3 cache) v GPU od AMD – Blackwell L3 cache nemá, L2 je v hierarchii poslední stupeň před samotnou pamětí. Zdá se, že kapacity paměti L2 jsou v GPU generace Blackwell beze změny proti odpovídajícím čipům generace Ada Lovelace (RTX 4000), až na případ GB202. Toto GPU má 128 MB L2 cache proti 96 MB u předchůdce AD102.

Zdá se nicméně, že z této štědré kapacity L2 cache bude mít GeForce RTX 5090 dost velkou část vypnutou, v tomto herním modelu je z jí aktivních jen 96 MB. Plnou cache bude mít asi jen nějaká serverová nebo workstation verze grafiky s čipem GB202. Podobné to bylo i u RTX 4090.

GeForce RTX 5090 s čipem GB202

Menší GPU v řadě: GB203

Čip GB203, který bude osazen v GeForce RTX 5080 a 5070 Ti, má velikost jen 378 mm² a má obsahovat 45,6 miliardy tranzistorů. Je zajímavé, že je to o trošku méně než v čipu AD103 minulé generace (45,9 miliardy), který byl i o vlásek větší (378,6 mm²). Z tohoto se zdá, že Nvidii se podařilo při víceméně stejné výrobní technologii 4N od TSMC a stejné hustotě tranzistorů dostat v generaci Blackwell na jednotku plochy nějaké nové technologie navíc a více výkonu – pokud tedy nárůst výkonu u GeForce RTX 5080 proti RTX 4080 nebude dán jen navýšením spotřeby z 320 na 360 W (a tím frekvencí). Architektura Blackwell by ale sama o sobě měla při stejné frekvenci dávat o něco lepší výkon, takže to, že nepotřebuje o moc víc místa na čipu, je zajímavé.

Toto GPU je tvořeno 7 bloky GPC, 42 bloky TPC a 84 SM. Celkem má tedy 10 752 shaderů, 84 RT jader, 336 texturovacích jednotek a 336 tensor jader. GPU obsahuje 64 MB L2 cache, stejně jako předchozí AD103 v GeForce RTX 4080.

Z počtu 7 GPC vyplývá počet 112 jednotek ROP. Toto GPU má jen 256bitovou paměťovou sběrnici. Nvidia tedy přeskočila 384bitovou konfiguraci, u GeForce RTX 5080 bude šířka pamětí poloviční (a kapacita také) a jen trochu to bude kompenzovat vyšší frekvence, protože u tohoto modelu poběží GDDR7 na 30,0 GHz efektivně (je však pravda, že počet výpočetních jednotek je dokonce ještě méně než poloviční proti GB202, není to tedy v nerovnováze).

GeForce RTX 5070 Founders Edition

GB205 pro levnější karty

Třetím čipem v řadě je GB205, GB204 neexistuje a náhradou minulého AD104 je právě až GB205. Plocha tohoto GPU, které se dle Nvidie skládá z 31,1 miliard tranzistorů, je 263 mm², výrazně méně než u čipu AD104 (294,5 mm² s 35,8 miliardami tranzistorů), takže Nvidia bude mít při předpokladu stejně naceněných karet RTX 5070 (které toto GPU budou používat) větší marži, nebo může grafiky prodávat za nižší ceny než RTX 4070.

V tomto případě je menší plocha čipu ale způsobená tím, že GB205 má slabší parametry. Zatímco AD104 obsahuje 60 bloků SM, čip GB205 má jen 50 SM (5 GPC, 25 TPC), což je v plné konfiguraci 6400 shaderů, 50 RT jader a 200 tensor jader – RTX 5070 ale bude mít osekanou konfiguraci s jen 6144 shadery, bude se v ní tedy dát upotřebit i čip s nějakým defektem.

Stejně jako AD104 má čip 192bitovou paměťovou sběrnici, ale už umí paměti GDDR7 stejně jako vyšší sourozenci. Kapacita L2 cache je 48 MB stejně jako u AD104 a GPU má i stejných 80 ROP.

Článek pokračuje na další straně.


Unified Core: Intel chystá přelomovou změnu v procesorech

Jak známo, od roku 2021 používá Intel hybridní architekturu CPU s velkými a malými jádry (od procesorů Core 12. generace, ale vyzkoušel si to už s experimentálním procesorem Lakefield o rok a půl dříve). Malá jádra „E-Core“ odvozená od někdejších čipů Atom jsou ovšem u řady lidí dost nepopulární. Na obzoru se teď ale rýsuje razantní změna – zatímco teď má Intel dvě zcela rozdílné architektury, v budoucnu přejde na jedinou. Celý článok „Unified Core: Intel chystá přelomovou změnu v procesorech“ »

AMD RDNA 4m: APU budou mít upgrade RDNA 3.5 s podporou FSR

Nedávno jsme tu měli článek o tom, že notebookové procesory AMD Ryzen (tzv. APU) poměrně dlouho zůstanou na starší architektuře integrovaného GPU a velký upgrade na RDNA 5 u nich zřejmě nastane až v roce 2029. Ukazuje se ale, že ač toto stále platí, chystané APU Medusa Point, které vyjde za rok, přece jenom bude mít nějaké grafické novinky. Jeho GPU totiž sice staví na staré RDNA 3.5, ale dostanou se do něj některé důležité novinky. Celý článok „AMD RDNA 4m: APU budou mít upgrade RDNA 3.5 s podporou FSR“ »

Adreno X2 odhaleno: Má Snapdragon X2 nejlepší integrované GPU?

Tento podzim byly předběžně před vydáním plánovaným na příští rok odhalené nejen procesory Panther Lake od Intelu, ale také Arm procesory Snapdragon X2 Elite od Qualcommu. A vypadá to, že budou mít s 1,8nm novinkou Intelu jeden společný rys: Jejich integrované GPU bude překvapivě silné a nejspíš po vydání o dost předběhne konkurenci od AMD, třebaže konvenčně jsou právě jeho APU spojována se špičkovými integrovanými grafikami. Celý článok „Adreno X2 odhaleno: Má Snapdragon X2 nejlepší integrované GPU?“ »

One comment Pridať komentár

Pridaj komentár

Vaša e-mailová adresa nebude zverejnená. Vyžadované polia sú označené *