Rozbor GPU Ampere: co je nového v architektuře GeForce RTX 3000

Jan Olšan

4 roky ago

PCI Express 4.0, HDMI 2.1, AV1, 8K video a 8K (upscalované) hraní

Po stránce hardwaru byl tento měsíc obrazně řečeno celý zelený díky vydání nové generace grafických karet Nvidia, GeForce RTX 3000. Ty jsou založené na nové architektuře Ampere. Co přináší a v čem je nová proti Turingu, probereme v tomto článku: novou architekturu SM stojící za dvojnásobnými počty shaderů nebo výrobní proces nebo charakteristicky obou čipů, které zatím byly odhaleny.

Vše nové: proces, architektura i paměti a konektivita

Ampere je po všech stránkách nová generace GPU. Spojuje trojici inovací: nový výrobní proces, novou architekturu samotných bloků a výpočetních jednotek GPU, ale tentokrát rovnou i novou technologii pamětí GDDR6X, lišící se od předchozích využitím efektivnější signalizace PAM4. Té jsme se ovšem již věnovali samostatně zde.

Výrobní proces: speciální upravená technologie 8N

Už poměrně dlouho se objevovaly informace, že Nvidia začne GPU vyrábět u Samsungu místo u TSMC, které je nejetablovanější ze zakázkových „Foundry“ továren. Nvidia již používala 14nm proces Samsungu (14LPP) pro některé méně výkonné čipy Pascal (GP107 v GeForce GTX 1050/1050 Ti). Když se tedy už loni objevily zprávy, že Nvidia pro čipy příští generace použije proces Samsungu, uvažovalo se nejdřív, že půjde o něco podobného.

Nakonec je v generaci Ampere situace jiná. Nvidia vyrábí u Samsungu nejvýkonnější modely GPU, GA102 a GA104, jen výpočetní GA100 pro servery je vyráběn na 7nm procesu TSMC. Herní Ampere je ale specifické nejen tím, že je od Samsungu, ale také tím, že není 7nm. Nvidia zvolila starší technologii Samsungu, tzv. 8nm proces, jenž je vylepšeným derivátem 10nm generace.

Slajd, kde Nvidia oznamuje použití 8nm procesu 8N

Proces se označuje 8N, protože je specificky určený pro Nvidii a měl by obsahovat různá neupřesněná vylepšení a úpravy pro její potřeby. Mělo by jít tedy o lepší technologii než je proces 8LPP, který používají některé mobily, podle některých informací úpravy pro Nvidii mají za výsledek až o 10 % vyšší výkon (čímž se myslí vyšší dosažená frekvence) než původní verze procesu zaměřená spíše na mobilní SOC. Ovšem tento proces dosahuje pravděpodobně nižší energetickou efektivitu a hustotu tranzistorů než reálný 7nm proces, jenž je už u Samsungu založený na EUV litografii. Pravděpodobně jsou vlastnosti také o něco méně dobré než u 7nm procesu TSMC.

Nvidia sice uvádí v marketingových materiálech až 1,9× nárůst energetické efektivity, ale to je značně přehnané. Ve srovnání výkonů a spotřeb pro grafiku GeForce RTX 3080/3090 při hraní vychází výrazně horší faktory (cca 1,1–1,3× podle okolností). Ovšem pozor – pokud by Nvidia nastavila stejná TDP jako u Turingu, vycházela by asi efektivita výrazně lépe (jen by výkon byl nižší). Konkrétní číslo závisí na tom, jak agresivně jsou taktované srovnávané čipy, takže nelze říct, jaký je mezi Turingem a Ampere faktor obecně.

Slajd, kde Nvidia tvrdí, že Ampere má 1,9× energetickou efektivitu. Jde však zdá se o srovnání podtaktovaného GA102 s TU102 na standardním taktu, což je v praxi nerealistické

Proces je každopádně jen implementační detail, který pro uživatele není přímo důležitý, pro nás budou rozhodovat až finální výsledky. 8nm proces je ostatně také pořád generační posun proti 12nm technologii používané v Turingu (12nm proces TSMC je derivát jeho 16nm technologie použité v GPU Pascal).

Další informace: Parametry, ceny, výkon karet Nvidia GeForce RTX 3090, 3080 a 3070

Je možné, že Nvidia původně počítala s o něco vyšší energetickou efektivitou, protože GPU Ampere na procesu 8N mají nezvykle vysoká TDP (GeForce RTX 3080 320 W, RTX 3090 rovnou 350 W). Je teoreticky možné, že spotřeba vyšla vyšší než plánovaná, ale to nevíme – Nvidia klidně mohla na vyšší spotřeby cílit od počátku.

GPU GA102,verze z GeForce RTX 3080 (Zdroj: techPowerUp)

Volba 8nm procesu byla prakticky určitě vědomá, nejde asi o to, že by pro Ampere nezbývaly 7nm kapacity a 8nm proces byl „nouzové řešení“. Nvidia pravděpodobně použila 8nm technologii proto, že GPU s ní stojí výrazně méně na výrobu, i když se započte jejich vyšší plocha. Podobné to bylo i s volbou 12nm procesu u Turingu. To, že Nvidia zvolila Samsung místo TSMC, nejspíš přineslo další úsporu, protože Samsung se snaží pro svůj Foundry byznys agresivně získat klienty a nabídl pravděpodobně štědrou slevu, zatímco TSMC má dalších klientů dost a nemělo motivaci snížit si marži podobně nízkou cenou.

Výsledkem každopádně je, že karty Ampere budou po stránce GPU (ale ne nutně po stránce PCB, VRM a pamětí) relativně levné na výrobu, což bude důležité v konkurenčním boji se 7nm Radeony (jejichž čipy jsou asi i při menší ploše dražší).

⠀

GPU Ampere: GA102

Výkonnější z obou 8nm herních čipů Ampere má označení GA102 a nachází se v kartách RTX 3090 a RTX 3080. Fyzicky je v něm sedm základdních konstrukčních bloků GPC (Graphic Processing Cluster), z nichž každý obsahuje 6 bloků TPC (Texture Processing Cluster), ty se pak ještě dělí na dva bloky SM po 128 shaderech. Celé GA102 má 84 SM a tím pádem 10 752 shaderů. V každém bloku SM je jedno RT jádro (takže celkem 84) a čtyři tensor jádra (celkem 336).

Čip je velký 628,4 mm² a tvoří ho 28,3 miliard tranzistorů, obsahuje 6MB L2 cache (a množství 128KB L1 cachí v jednotlivých blocích, ty jsou také vylepšené proti Turingu). Kromě bloků SM s výpočetními (a také texturovacími) jednotkami obsahuje samozřejmě další například multimediální jednotky, paměťové řadiče GDDR6X či volitelně GDDR6 (podporováno je obojí) s celkovou 384bitovou šířkou.

GA102 má také rozhraní NVLink třetí generace pro propojení dvou GPU (tři nebo čtyři karty propojit nelze). Celkem jde o čtyři ×4 rozhraní, které celkově dávají propustnost až 56,25 GB/s v obou směrech.

V grafikách GeForce je v obou modelech GA102 oříznuté. GeForce RTX 3090 ho má v téměř plné palbě, jsou vypnuté jen dva bloky SM, takže karta ztrácí 256 shaderů, 8 tensor a 2 RT jádra. GeForce RTX 3080 je osekaná výrazněji, přišla o celý jeden GPC a čtyři další SM – má jen 8704 shaderů (68 bloků SM), 68 RT jader a 272 tensor jader. Také je u ní zkrácena paměťová sběrnice na jen 320 bitů, tj. jsou vypnuté 2 z 12 kanálů.

GA104

Dále má Nvidia v pořadí levnější model GPU Ampere, jenž by měl mít asi 48 bloků SM, čili 6144 shaderů, 192 tensor jader a 48 RT jader. Je použitý v GeForce RTX 3070 opět s mírným oříznutím: aktivní je 46 SM/5888 shaderů a 46 RT jader/184 tensor jader. Organizace čipu je jiná – má šest GPC, v nichž jsou místo 6 TPC vždy jen 4 bloky TPC. Každý TPC má pak dva bloky SM, dál je to již stejné.

Tento čip má 256bitový paměťový řadič, zatím použitý s GDDR6, ale není vyloučeno, že je podporována i GDDR6X. Čip obsahuje 4MB L2 cache a je podle Nvidie složen ze 17,4 miliardy tranzistorů. Jeho plocha je 392 mm².

ROP budou teď vázané na bloky GPC

Poměrně důležitá změna v Ampere je v organizaci jednotek ROP. Předchozí architektury je měly svázané s paměťovým řadičem a L2 cache, takže například 192bitová karta musela vždy mít 48 ROP, 256bitová 64 ROP, 384bitová 96.

U Ampere tuto vázanost Nvidia zrušila a ROP jsou naopak vázané na bloky GPC a škálují s nimi. Každý blok GPC by jich měl mít 16, takže čip GA104 obsahuje 96 ROP a čip GA102 už 112 ROP díky sedmi aktivním blokům GPC (RTX 3080 je tedy asi oseknutá na 96 ROP).

⠀

Nová architektura bloku SM a shaderů

Asi nejdůležitější změna je v shaderech na úrovni bloků SM a souvisí s tím, že Ampere má na jeden blok SM teď 128 místo 64 shaderů („Cuda jader“) a celkové počty jednotek/Cuda jader narostly na víc jak dvojnásobky. Neznamená to tak úplně, že by jeden SM v Ampere měl dvakrát víc prostředků a výkonu, je to trošku složitější.

Ve skutečnosti je tato architektura pokračování změny, kterou Nvidi udělala už v GPU Turing a Volta. Původně u Maxwellu a Pascalu bylo v jednom bloku SM 64 shaderů, které podporovaly instrukce FP32 (floating point operace, které jsou v GPU nejdůležitější) a INT32 (celočíselné). Reálně je to v SM členěno tak, že blok obsahuje čtyři subsekce s warp schedulerem a load/store částmi a každá posílá operace do 16 jednotek FP32/shaderů jako jeden 16-wide SIMD vektor („warp“). Všech 16 jednotek počítá stejnou operaci (warp), jen se stejnými daty. Jeden SM je tak vlastně trochu jako čtyři 16-wide SIMD jednotky (proto je nepřesné mluvit o 64 „Cuda jádrech“).

Zpracování dvou FP32 operací paralelně

U architektur Volta a Turing udělala Nvidia velkou změnu a místo tohoto paralelně k FP32 jednotkám přidala separátní INT32 jednotky schopné pouze celočíselných operací. Subsekce/warp scheduler v Turingu může místo jedné 16-wide operace (warpu) v jednom cyklu poslat ke zpracování dvě – jednu FP32 do hlavních jednotek, a pokud má současně ještě „na holení“ celočíselnou instrukci, tu pošle do separátní INT32 jednotky. Celkově tedy blok SM mohl za jeden cyklus zpracovat 64 FP32 operací jako Pascal, ale k tomu navíc paralelně s nimi 64 INT32 operací. Celočíselné instrukce jsou méně časté (poměr kolísá, průměrně dejme tomu 3:1), ale jejich odesláním do paralelní jednotky se FP32 jednotka uvolní pro další operace a značně stoupne výkon na 1 MHz.

Zdvojení shaderů v Ampere je ve skutečnosti jenom další úprava tohoto uspořádání, která už není tak velká. Nvidia ponechala schopnost bloku SM (respektive subsekce) za jeden cyklus zpracovat dvě operace. Ale tentokrát jsou takto paralelně zapojené ne jednotka FP32 a jednotka INT32, ale jednotka FP32 a jednotka, která dokáže udělat buď operaci INT32, nebo FP32. Ampere tak dovede za cyklus provádět dvě floating point operace místo jedné (což je 2× zrychlení), nebo jednu FP32 a INT32 jako Turing/Volta. FP32+FP32 se ale využije častěji a tak budou většinu času použité obě tyto pipeline (či datové cesty), zatímco u Turingu se INT32 pipeline používala dejme tomu jen z poloviny či třetiny.

U Ampere díky tomuto značně vzroste výkon na 1 MHz, ale ne úplně na dvojnásobek výkonu Turingu. Jednak budou výpočty brzdit i jiné věci, zejména se ale urychluje jen výpočet operací FP32+FP32, kdežto v případě, kdy se sejde operace FP32 a INT32, bude výkon stejný jako u Turingu.

Počet shaderů ve specifikacích

Fyzicky je tak jeden blok SM pořád vlastně tvořený čtyřmi subsekcemi s warp schedulerem posílajícím warpy to 16-wide jednotek, ale tyto 16-wide vektory/warpy může poslat dva. U Turingu ještě Nvidia nepočítala jednotky pro INT32 operace jako separátní shadery, proto tato GPU nemělo zdvojnásobený počet shaderů ve specifikacích. Ale protože v Ampere tato druhá paralelně použitelná jednotka umí dělat i instrukce FP32, už je důvod ji počítat jako samostatný shader, proto má tedy teď jeden blok SM oficiálně 128 shaderů a GPU se stejným počtem SM má teĎ dvojnásobně shaderů.

Například TU104 a GA104 mají zřejmě obě 48 SM, ale u Turinga se to počítá jako 3072, u Ampere jako 6144 shaderů. Výkon v přepočtu na jeden shader kvůli tomuto asi u grafik Turing bude vycházet vyšší než u Ampere, ale to je celkem podružné. Podstatný je celkový výkon GPU nebo výkon na jeden blok SM (ten stoupl).

Mimochodem: toto se týká jen herní verze architektury Ampere. Je zajímavé, že výpočetní Ampere A100 pro servery toto nemá a jeho shadery jsou uspořádány jako v architektuře Volta a celkový počet shaderů se proto uvádí jen 64 na blok SM.

Nové Tensor jádro 3. generace

V bloku SM není jen tato změna. Nvidia aktualizovala také architekturu Tensor jader pro výpočty umělé inteligence na bázi neuronových sítí (používají se pro DLSS) a RT jádra pro ray tracing.

Tensor jádra jsou převzata z výpočetní verze Ampere a jejich hlavní novinka je v použití techniky Structured Sparsity, kdy jádro při maticových operacích neprovádí operace s nulovými hodnotami (algoritmus sám může část hodnot blízkych na nulu zaokrouhlit). Na místo těchto nul se pak posunou ostatní hodnoty.

Schéma fungování technologie Structured Sparsity

Ve výsledku se celkově výpočet provede jen s cca polovičním počtem celkových násobení, takž efektivně má jednotka ekvivalent dvojnásobku svých skutečných TFLOPS.

V herním Ampere se nachází 4 tensor jádra na jeden blok SM, které každé dá 128 operací FP16 FMA za cyklus. V Turingu bylo osm jader schopných 64 operací za cyklus, takže to by dávalo stejný nezměněný výkon. Jenže s využitím zmíněné funkce Structured Sparsity to u Ampere ve výsledku platí jako dvojnásobek. Nvidia na základě toho uvádí, že výkon v umělé inteligence je dvojnásobný (případně ještě vyšší, protože Ampere má více bloků SM).

Blok SM má s tensor jádry 3. generace 2× efektivní výkon díky funkci Sparsity

RT jádro 2. generace

Jádra pro ray tracing jsou v Ampere teprv druhé generace. Jejich architektura a fungování je asi podobná – stále provádějí hledání průsečíků paprsků s bounding volume boxy v BVH hierarchii a poté s trojúhelníky objektů scény, jak to definuje standard DXR v rámci DirectX Ultimate.

Ovšem podle Nvidie je výpočetní výkon těchto jader, který mají dostupný k provádění těchto operací, výrazně vyšší, až dvojnásobně. RT jádra také mohou nyní pracovat současně s tensor jádry, což u Turingu nebylo dovoleno, tam smělo být aktivní vždy jen jedno z toho.

RT jádra umí hardwarově akcelerovat efekt motion blur

Kromě tohoto zlepšení výkonu má RT jádro v Ampere ještě jednu další novinku. Nvidia zabudovala do jeho architektury schopnost aplikovat efekt motion blur. Spočívá to v tom, že při výpočtu průsečíku paprsku a objektu dochází k temporálnímu zprůměrování s průsečíky pro předchozí časové okamžiky, takže pak je výsledný obraz rozmazaný, jako by byl zvlášť aplikován efekt motion blur.

Ray Tracing s hardwarově akcelerovaným Motion Blurem

Tento hardwarově prováděný motion blur logicky bude proveden jenom v raytracingové scéně nebo efektu, ne když se hra vykresluje klasickou rasterizací.

⠀

PCI Express 4.0 a RTX IO

GPU Ampere je první od Nvidie, které používá PCI Express 4.0 (respektive skoro – Nvidia vydala před pár týdny pro notebooky GeForce MX450, která má čip Turing TU117 v nové revizi, která kupodivu podporuje PCI Express 4.0 ×4). PCI Express 4.0 dodává grafice dvakrát větší datovou propustnost při komunikaci do systému, jedna linka přenáší 2 GB/s místo 1 GB/s u PCI Expressu 3.0. Načítání textur nebo jiných dat je dvojnásobně rychlé.

Ampere zatím nemá tak vysoký výkon, aby ho PCI Express 3.0 výrazně omezoval. Podle testů techPowerUpu ve hrách přijdete jen asi o 1 % výkonu, pokud kartu osadíte do slotu PCIe 3.0 ×16 místo PCIe 4.0 ×16. Trošku větší rozdíl to bude, když budete mít jen osm linek, ale pořád jsou to propady v jednotkách procent.

Propustnost PCIe 4.0 má být využívána pro nový režim přímého načítání komprimovaných textur přímo z NVMe SSD pomocí DMA přenosu, aniž by se procházelo přes CPU a paměť RAM. Tato technika se jmenuje DirectStorage, Nvidia jí říká RTX IO.

Textury se u této technologie dekomprimují přímo na GPU pomocí shaderů, což podle Nvidie dovoluje rozbalovat výrazně větší množství dat, které by jinak zabralo mnoho jader CPU. V demu předváděném při odhalení například GPU zastoupilo až 24 jader CPU, ale toto je asi výjimečný případ. Implementace RTX IO/DirectStorage není úplně hardwarová vlastnost, protože dekomprese běží na obecných výpočetních jednotkách. Díky tomu ji zpětně dostane i generace grafik Turing.

HDMI 2.1 a podpora 8K

GPU Ampere podporuje jako první samostatná grafika výstup HDMI 2.1, a to s maximálním datovým tokem 48 Gb/s. Zvládne díky tomu u televizí rozlišení až 8K se 60 snímky za sekundu nebo 4K s 240 snímky za sekundu. Je to i včetně HDR.

Ovšem pozor, není to nekomprimovaný plnohodnotný obraz, toto už vyžaduje jednak použití ztrátové komprese DSC 1.2a a navíc i nastavení podvzorkovaných barev YUV 4:2:0 (kdy má jasová složka rozlišení 8K, ale barevná efektivně jen 4K).

U DisplayPortu změny nejsou, zde Nvidia podporuje jenom DP 1.4a, na DisplayPort 2.0 je asi ještě příliš brzo. Jak na DisplayPortu, tak na HDMI grafiky umí použít ochranu proti kopírování HDCP 2.3.

Podpora videa ve formátu AV1

Kromě zobrazení 8K umí GPU Ampere také pracovat s videem v tomto rozlišení (8K je 7680 × 4320 bodů). Ampere má nový dekódovací blok, který podporuje kromě klasického H.264 a H.265 (HEVC) a VP9 již také nový formát AV1 (tuto novinku současně uvádí také Tiger Lake od Intelu a vypadá to, že bude i v Radeonech RX 6000).

AV1 by měla grafika umět přehrávat v profilu 0 a levelu 6.0, to znamená ve 8 a 10bitové barevné hloubce, ale jen s barevným vzorkováním 4:2:0, nikoliv 4:2:2 a 4:4:4 (pro HEVC je podporováno 4:4:4). Má být podporováno přehrávání 8K při 60 snímcích za sekundu.

Podpora přehrávání videa v AV1 v GPU Ampere

Komprese (enkódování) do AV1 naopak ještě možná není. Ampere má totiž jen nové dekodéry videa. Hardwarový enkodér NVENC byl víceméně převzatý z předchozí generace Turing a podporuje kompresi maximálně do HEVC a VP9. Nicméně ani Intel enkodér AV1 zatím nemá, dává smysl, aby byla přidána nejprve podpora pro přehrávání, která dá méně práce.

Schopnosti hardwarových dekodérů a enkodérů videa v GPU Ampere

8K hraní (pomocí DLSS)

Zejména u GeForce RTX 3090 (ale mělo by to být podobně možné i s RTX 3080, která nemá o tolik méně výkonu) Nvidia při odhalení avizovala i možnost hraní v rozlišení 8K/7680 × 4320 bodů, které má 4× více bodů než 4K. Toto ovšem neznamená nativní vykreslování, ale jen hraní s upscalováním na 8K.

Nvidia k tomu používá upscaling DLSS, který teď v nové verzi DLSS 2.1 dostává schopnost 8K výstupu. Ta používá nový režim Ultra Performance, který má ještě vyšší rychlost a nižší kvalitu než dosud nejrychlejší režim „Performance“. Původní nastavení Performance provádí upscaling s faktorem zvětšení 2× v obou dimenzích, tedy pro 4K výstup se ve skutečnosti na grafice vykresluje jen v rozlišení 1920 × 1080 bodů a pak se pomocí tensor jader upscaluje na 3840 × 2160 bodů.

Schéma fungování upscalingu Nvidia DLSS 2.0 s temporální stabilizací

DLSS s 8K rozlišením (Ultra Performance) funguje s ještě větším upscalovacím faktorem 3× v obou dimenzích. To znamená, že pro hraní v 8K se reálně vykresluje jen obraz s rozlišením 2560 × 1440 bodů, zbytek je upscaling. Míra rozmazávání a artefaktů tedy asi bude zase větší. Díky takto nízkému internímu rozlišení by frekvence měly být logicky docela dobře hratelné, ale plnohodnotné 8K vykreslování to samozřejmě zdaleka není.

Nová architektura, která však rozvíjí novinky z Turingu a Volty

Tolik tedy k architektuře GPU Ampere. Obecně se možná dá říci, že není až tak novátorská jako Turing a Volta, kde se poprvé objevila RT jádra a tensor jádra (už je sice předtím mělo GPU Volta, ale jenom pro servery). Ampere zejména zvyšuje výkon těchto jednotek. Z tohoto je ovšem výjimka ono zdvojnásobení počtu shaderů, které bylo velmi dobře utajeno a postaralo se při uvedení o velké překvapení. I tady jde ale současně o dotažení něčeho, co už vlastně bylo trošku naznačené v Turingu a architektuře Volta, ale Amperem výrazně vylepšené.

Ampere po všech stránkách (shadery, paměť, RT jádra, tensor jádra) zřejmě rozvine výrazně vyšší výkon, takže novinky z minulé generace budou teď lépe využitelné ve hrách, navíc titulů s raytracingovými efekty by nyní už mělo být víc než v letech 2018/2019.

PCB grafiky GeForce RTX 3080 Founders Edition s GPU Ampere GA102

Nvidia tedy v architektuře odvedla dobrou práci, ale určitou vadou na kráse je, že vysoký absolutní výkon je provázený navýšením příkonu, ať už je to vina 8nm procesu, nebo se tak Nvidia prostě sama rozhodla. Nemalá část výkonnostního nárůstu generace RTX 3000 tak v praxi je dosažená navýšením spotřeby, zatímco efektivita tolik nestoupla. Ovšem toto může být přechodné, je možné, že v další generaci na 7nm nebo 5nm procesu se Nvidia opět vrátí k nižším spotřebám.

Konkrétní chování výkonu u jednotlivých modelů karet Ampere už necháme do recenzí.

⠀

Back to: Nový výrobní proces 8N: technologie Samsungu vylepšená speciálně pro Nvidii