Rozbor GPU Ampere: co je nového v architektuře GeForce RTX 3000

PCI Express 4.0, HDMI 2.1, AV1, 8K video a 8K (upscalované) hraní

Po stránce hardwaru byl tento měsíc obrazně řečeno celý zelený díky vydání nové generace grafických karet Nvidia, GeForce RTX 3000. Ty jsou založené na nové architektuře Ampere. Co přináší a v čem je nová proti Turingu, probereme v tomto článku: novou architekturu SM stojící za dvojnásobnými počty shaderů nebo výrobní proces nebo charakteristicky obou čipů, které zatím byly odhaleny.

PCI Express 4.0 a RTX IO

GPU Ampere je první od Nvidie, které používá PCI Express 4.0 (respektive skoro – Nvidia vydala před pár týdny pro notebooky GeForce MX450, která má čip Turing TU117 v nové revizi, která kupodivu podporuje PCI Express 4.0 ×4). PCI Express 4.0 dodává grafice dvakrát větší datovou propustnost při komunikaci do systému, jedna linka přenáší 2 GB/s místo 1 GB/s u PCI Expressu 3.0. Načítání textur nebo jiných dat je dvojnásobně rychlé.

Ampere zatím nemá tak vysoký výkon, aby ho PCI Express 3.0 výrazně omezoval. Podle testů techPowerUpu ve hrách přijdete jen asi o 1 % výkonu, pokud kartu osadíte do slotu PCIe 3.0 ×16 místo PCIe 4.0 ×16. Trošku větší rozdíl to bude, když budete mít jen osm linek, ale pořád jsou to propady v jednotkách procent.

Propustnost PCIe 4.0 má být využívána pro nový režim přímého načítání komprimovaných textur přímo z NVMe SSD pomocí DMA přenosu, aniž by se procházelo přes CPU a paměť RAM. Tato technika se jmenuje DirectStorage, Nvidia jí říká RTX IO.

Textury se u této technologie dekomprimují přímo na GPU pomocí shaderů, což podle Nvidie dovoluje rozbalovat výrazně větší množství dat, které by jinak zabralo mnoho jader CPU. V demu předváděném při odhalení například GPU zastoupilo až 24 jader CPU, ale toto je asi výjimečný případ. Implementace RTX IO/DirectStorage není úplně hardwarová vlastnost, protože dekomprese běží na obecných výpočetních jednotkách. Díky tomu ji zpětně dostane i generace grafik Turing.

HDMI 2.1 a podpora 8K

GPU Ampere podporuje jako první samostatná grafika výstup HDMI 2.1, a to s maximálním datovým tokem 48 Gb/s. Zvládne díky tomu u televizí rozlišení až 8K se 60 snímky za sekundu nebo 4K s 240 snímky za sekundu. Je to i včetně HDR.

Ovšem pozor, není to nekomprimovaný plnohodnotný obraz, toto už vyžaduje jednak použití ztrátové komprese DSC 1.2a a navíc i nastavení podvzorkovaných barev YUV 4:2:0 (kdy má jasová složka rozlišení 8K, ale barevná efektivně jen 4K).

U DisplayPortu změny nejsou, zde Nvidia podporuje jenom DP 1.4a, na DisplayPort 2.0 je asi ještě příliš brzo. Jak na DisplayPortu, tak na HDMI grafiky umí použít ochranu proti kopírování HDCP 2.3.

Podpora videa ve formátu AV1

Kromě zobrazení 8K umí GPU Ampere také pracovat s videem v tomto rozlišení (8K je 7680 × 4320 bodů). Ampere má nový dekódovací blok, který podporuje kromě klasického H.264 a H.265 (HEVC) a VP9 již také nový formát AV1 (tuto novinku současně uvádí také Tiger Lake od Intelu a vypadá to, že bude i v Radeonech RX 6000).

AV1 by měla grafika umět přehrávat v profilu 0 a levelu 6.0, to znamená ve 8 a 10bitové barevné hloubce, ale jen s barevným vzorkováním 4:2:0, nikoliv 4:2:2 a 4:4:4 (pro HEVC je podporováno 4:4:4). Má být podporováno přehrávání 8K při 60 snímcích za sekundu.

Podpora přehrávání videa v AV1 v GPU Ampere

Komprese (enkódování) do AV1 naopak ještě možná není. Ampere má totiž jen nové dekodéry videa. Hardwarový enkodér NVENC byl víceméně převzatý z předchozí generace Turing a podporuje kompresi maximálně do HEVC a VP9. Nicméně ani Intel enkodér AV1 zatím nemá, dává smysl, aby byla přidána nejprve podpora pro přehrávání, která dá méně práce.

Schopnosti hardwarových dekodérů a enkodérů videa v GPU Ampere

8K hraní (pomocí DLSS)

Zejména u GeForce RTX 3090 (ale mělo by to být podobně možné i s RTX 3080, která nemá o tolik méně výkonu) Nvidia při odhalení avizovala i možnost hraní v rozlišení 8K/7680 × 4320 bodů, které má 4× více bodů než 4K. Toto ovšem neznamená nativní vykreslování, ale jen hraní s upscalováním na 8K.

Nvidia k tomu používá upscaling DLSS, který teď v nové verzi DLSS 2.1 dostává schopnost 8K výstupu. Ta používá nový režim Ultra Performance, který má ještě vyšší rychlost a nižší kvalitu než dosud nejrychlejší režim „Performance“. Původní nastavení Performance provádí upscaling s faktorem zvětšení 2× v obou dimenzích, tedy pro 4K výstup se ve skutečnosti na grafice vykresluje jen v rozlišení 1920 × 1080 bodů a pak se pomocí tensor jader upscaluje na 3840 × 2160 bodů.

Schéma fungování upscalingu Nvidia DLSS 2.0 s temporální stabilizací

DLSS s 8K rozlišením (Ultra Performance) funguje s ještě větším upscalovacím faktorem 3× v obou dimenzích. To znamená, že pro hraní v 8K se reálně vykresluje jen obraz s rozlišením 2560 × 1440 bodů, zbytek je upscaling. Míra rozmazávání a artefaktů tedy asi bude zase větší. Díky takto nízkému internímu rozlišení by frekvence měly být logicky docela dobře hratelné, ale plnohodnotné 8K vykreslování to samozřejmě zdaleka není.

Nová architektura, která však rozvíjí novinky z Turingu a Volty

Tolik tedy k architektuře GPU Ampere. Obecně se možná dá říci, že není až tak novátorská jako Turing a Volta, kde se poprvé objevila RT jádra a tensor jádra (už je sice předtím mělo GPU Volta, ale jenom pro servery). Ampere zejména zvyšuje výkon těchto jednotek. Z tohoto je ovšem výjimka ono zdvojnásobení počtu shaderů, které bylo velmi dobře utajeno a postaralo se při uvedení o velké překvapení. I tady jde ale současně o dotažení něčeho, co už vlastně bylo trošku naznačené v Turingu a architektuře Volta, ale Amperem výrazně vylepšené.

Ampere po všech stránkách (shadery, paměť, RT jádra, tensor jádra) zřejmě rozvine výrazně vyšší výkon, takže novinky z minulé generace budou teď lépe využitelné ve hrách, navíc titulů s raytracingovými efekty by nyní už mělo být víc než v letech 2018/2019.

PCB grafiky GeForce RTX 3080 Founders Edition s GPU Ampere GA102

Nvidia tedy v architektuře odvedla dobrou práci, ale určitou vadou na kráse je, že vysoký absolutní výkon je provázený navýšením příkonu, ať už je to vina 8nm procesu, nebo se tak Nvidia prostě sama rozhodla. Nemalá část výkonnostního nárůstu generace RTX 3000 tak v praxi je dosažená navýšením spotřeby, zatímco efektivita tolik nestoupla. Ovšem toto může být přechodné, je možné, že v další generaci na 7nm nebo 5nm procesu se Nvidia opět vrátí k nižším spotřebám.

Konkrétní chování výkonu u jednotlivých modelů karet Ampere už necháme do recenzí.

⠀

Back to: Nový výrobní proces 8N: technologie Samsungu vylepšená speciálně pro Nvidii

Flattr this!

GeForce GeForce RTX GPU Nvidia Nvidia Ampere

the patient on Nvidia v generaci Blackwell zase chystá grafiku Titan… pro AI?V Bratislavě jenom některé, bohužel. Měli byste s tím něco dělat, Bufo 🙂
Jmeno on Trpí degradací čipů Raptor Lake i mobilní procesory Intel?Tohle je bomba : it appears that at least all 65 W or higher base...
Bufo on Nvidia v generaci Blackwell zase chystá grafiku Titan… pro AI?A není to málo Antone Pavloviči? Nebylo by lepší již na východ od Břeclavi?
the patient on Nvidia v generaci Blackwell zase chystá grafiku Titan… pro AI?Bude na tom trénovat největší konzervativní jazykový model, kterým plánuje nahradit všechny slovenské politiky na...
Roob on Nvidia v generaci Blackwell zase chystá grafiku Titan… pro AI?https://pctuning.cz/article/elon-musk-pohani-nejrychlejsi-datove-centrum-ai-generatory-v-navesech tu je dalsi, co nakupil, ale co ponuka?? Aka sluzba mu na tom pojde,...
the patient on Nvidia v generaci Blackwell zase chystá grafiku Titan… pro AI?@bufo Neměl jsem v úmyslu poodkrývat politické preference, myslím, že to vyznívá docela neutrálně. I...
Bufo on Nvidia v generaci Blackwell zase chystá grafiku Titan… pro AI?@ the patient Si vymenoval "brilantné" politické osobnosti (inak Mr. Presidents of Hungary and Russia...
the patient on Nvidia v generaci Blackwell zase chystá grafiku Titan… pro AI?Máš pravdu, tahle nejistota by jistě povzbudila Muska a Petersona vyvodit mnoho pozoruhodných závěrů. Fico...
Bufo on Nvidia v generaci Blackwell zase chystá grafiku Titan… pro AI?Rozmýšľam (keď už sedím na tom záchode :D ), že ako by sa pri mechanickom/robotickom...