Proč je Zen 4 tak rychlý v AI aplikacích Topaz Labs? Kvůli Intelu

Zen 4 a VNNI

Ryzeny 7000 s architekturou Zen 4 jsou první generace procesorů AMD, která podporuje 512bitové vektorové instrukce AVX-512. Už jsme tu probírali jejich větší či menší přínosy. Jádra Zen 4 ale podporují další instrukční rozšíření, které bývalo chloubou Intelu a teď se u něj trošku obrátily role: VNNI. Vypadá to, že v řadě programů přináší hodně radikální zlepšení výkonu a tentokrát nevadí, že zatím AMD má jen 256bitové jednotky SIMD.

O instrukcích VNNI (Vector Neural Network Instructions) jste možná dřív slyšeli pod označením DL Boost. Toto označení pod sebe zahrnovalo 512bitové instrukce VNNI, také někdy označované jako AVX512_VNNI na jedné straně, a podporu operací s čísly ve formátu BFloat16 (AVX512_BF16) na straně druhé. Druhé rozšíření měly serverové Xeony Cooper Lake, to první (VNNI), pak bylo Intelem notně inzerováno u 10nm procesorů Ice LakeTiger Lake (Core 10. a 11. generace pro notebooky).

Intel sliboval, že instrukce VNNI razantně navýší výkon těchto procesorů v operacích neuronových sítí, tedy v „AI“ aplikacích, pro které jsou tyto instrukce explicitně navržené. Měly by používat 16bitovou a 8bitovou přesnost (s celočíselnými hodnotami), které se hodí pro inferenci, tedy pro aplikaci už natrénované sítě. Firma tehdy získala coby partnera firmu Topaz Labs, která pomocí VNNI (skrze framework OpenVINO) zoptimalizovala své aplikace (Gigapixel AI, Denoise AI, Video Enhance AI…).

A Intel pak programy Topaz Labs ukazoval ve svých oficiálních benchmarcích, kde dávaly čtyřjádrovým mobilním procesorům vyšší výkon, než by jim normálně příslušelo. Tehdy to byla značná výhoda proti konkurenčním procesorům bez VNNI.

Upscaling pomocí AI od Topaz Labs (zdroj: Intel)

Dřív výhoda pro Intel, teď pro konkurenci

S příchodem Zenu 4 se ale v tomhle docela obrací karta. Paradoxně se stalo, že Intel odebral podporu instrukcí AVX512_VNNI z procesorů Alder Lake, protože používají 512bitové registry a jsou jedním ze subsetů AVX-512 (byť hodně specifickým). Jenže jádro AMD Zen 4 je zase přidalo, takže teď nastala situace, kdy je výhoda na jejich straně.

V aplikacích Topaz Labs jsme v našich recenzích skutečně pozorovali výkon, který je vysoce nad průměrem Ryzenů 7000 v ostatních programech. Ryzen 9 7900X byl o 90–126 % rychlejší než Ryzen 9 5900X, ale podobnou doslova čočku dostaly i procesory Alder Lake – proti těm je Ryzen 9 7900X v těchto testech rychlejší o 75–95 %, což jinde opravdu nebývá. A přitom ještě nejde o nejvýkonnější model, který AMD má. Uvidíme, zda bude Ryzen 9 7950X škálovat ještě výš. Nicméně už i Ryzen 5 7600X také má hodně vysoký výkon.

Benchmarky Zenu 4: AI aplikace Topaz Labs



Takto mimořádný nárůst výkonu u Zenu 4 by byl až podezřelý, ale z článku o AVX-512 si možná pamatujete, že Phoronix našel řadu testů používajících také framework OpenVINO a zřejmě instrukce VNNI, kde Zen 4 až dvojnásobné zrychlení dosáhl. Vysvětlení je tedy zřejmě: ač byla akcelerace aplikací Topaz Labs původně určená pro procesory Intel, na Ryzenech 7000 je také automaticky zapnutá.

Tip: AVX-512 na Ryzenech 7000: jak užitečné je a je implementace od AMD lepší než od Intelu?

Zeptali jsme se na to přímo v Topaz Labs coby autorů a bylo nám potvrzeno, že tyto programy opravdu na Zenech 4 podporu VNNI využívají. A tyto instrukce také přes to, že AMD AVX-512 implementovalo pomocí 256bitových jednotek, evidentně mají dost vysoký výkon, aby to stálo zato. Tato skóre tedy nejsou nějakou divnou anomálií, ale ukazují legitimní výsledek – zrychlení je tak anomální proto že jde o specifickou akceleraci a ne obecný kód.

Podle informací od Topaz Labs by jejich aplikace měly využívat i formu VNNI, která se označuje AVX2_VNNI nebo také VNNI/256. Ta vznikla pro procesory Alder Lake. Protože u nich Intel vypnul AVX-512, musely být deaktivované také instrukce VNNI využívající stejné 512bitové registry. Malá jádra Gracemont je totiž nemají a podporují jen AVX2 (navíc asi se 128bitovými jednotkami). Kvůli užitečnosti VNNI ale Intel vyrobil zmíněnou verzi AVX2_VNNI, která pracuje s 256bitovými registry. Má však asi poloviční výkon (jenže to by měl mít i Zen 4), a také asi bude pomalejší na malých jádrech než na P-Core Golden Cove.

Slajd Intelu inzerující vysoký výkon AI aplikací Topaz Labs, umožněný instrukcemi AVX512_VNNI procesorů Ice Lake a Tiger Lake (zdroj: Intel)

A jak ukazují výsledky Core i9-12900K, ten nižší výkon AVX2_VNNI proti implementaci v Zenu 4 není legrace. Původně jsme uvažovali o tom, zda třeba AI aplikace Topaz Labs neignorují instrukce AVX2_VNNI v Alder Lake, ale podle firmy jsou také použité (leda že by jejich detekce a využití bylo implementováno až v pozdější verzi, než používá naše metodika). Na druhou stranu, poměrně nízko vychází i výkon dalších procesorů Intelu, které by měly mít původní 512bitovou verzi VNNI v plné palbě (Rocket Lake, například Core i9-11900K). U těch není vidět podobný brutální nárůst výkonu proti předchůdci (Core i9-10900K).

Kdo ví, zda teď Intel nelituje, že akceleraci programů přes VNNI a OpenVINO podporoval, když nyní vidí, jak z ní – aspoň pro tuto chvíli – nejvíc profituje konkurence…

Zdroje: Topaz Labs, Intel

Jan Olšan, redaktor Cnews.cz


⠀⠀

  •  
  •  
  •  
Flattr this!

FSR 3.1 zlepšuje kvalitu, umí přidat generování snímků k DLSS

Na grafické konferenci GDC 2024 odhalilo AMD novou verzi herního upscalingu FidelityFX Super Resolution (FSR) 3.1. Jde o evoluční vylepšení vycházející z loňského FSR 3.0, které má mimo jiného zlepšovat obrazovou kvalitu, ale současně přináší zajímavou změnu. Ve FSR 3 se objevila technologie generování snímků (analogická generování snímků v DLSS 3 a 3.5 od Nvidie). Ta se v generaci FSR 3.1 dá nově využít i samostatně a zkombinovat s DLSS. Celý článok „FSR 3.1 zlepšuje kvalitu, umí přidat generování snímků k DLSS“ »

  •  
  •  
  •  

AMD Ryzen 8700F a 8400F: Levná APU bez grafiky do AM5

Před nedávnem internetem proletěla kontroverze okolo procesoru Ryzen 7 5700 založeném na čipu Cezanne s menší cache a podporou jen PCIe 3.0, na což bylo široce (i u nás) upozorňováno při vydání, nicméně ne ke každému tato informace asi dorazila. Brzo možná bude něco podobného, protože AMD teď chystá obdobné procesory pro platformu AM5 – Ryzeny 8000F bez integrované grafiky, ale založené na APU čipech Hawk Point. Celý článok „AMD Ryzen 8700F a 8400F: Levná APU bez grafiky do AM5“ »

  •  
  •  
  •  

Ray tracing na AMD RDNA 4 bude díky BVH8 dvakrát rychlejší

Před několika dny prosákly informace o připravované konzoli PlayStation 5 Pro od Sony, která přinese upgradovaný hardware s výrazně silnějším grafickým procesorem a akceleraci AI, která umožní použít uspcaling PSSR založený na umělé inteligenci. Další podrobnosti, které se teď objevily, ale mají dopad i na připravované grafiky Radeon RX 8000, mluví totiž o schopnostech GPU architektury RDNA 4 v ray tracingu, které se mají o dost zlepšit. Celý článok „Ray tracing na AMD RDNA 4 bude díky BVH8 dvakrát rychlejší“ »

  •  
  •  
  •  

Pridaj komentár

Vaša e-mailová adresa nebude zverejnená. Vyžadované polia sú označené *