Detaily Zenu 3: rozbor změn a vylepšení nové CPU architektury AMD

Jak velké je výšení IPC a koncepce Zenu 3

Minulý měsíc AMD vydalo procesory Ryzeny 5000. Jejich architektura Zen 3 přinesla nakonec možná víc, než se čekalo, výkon na 1 MHz někde převyšuje i IPC nejnovějšího jádra Intelu Willow Cove (Tiger Lake). Zen 3 je podle AMD jeho největší překopání architektury od vůbec prvního Zenu, pročež se podíváme, jaké změny v něm inženýři provedli, aby dokázali porazit Intel i v jednovláknovém a herním výkonu.

IPC: zvýšení je různé podle aplikace (či testu)

AMD samotné uvádí, že IPC jádra Zen 3 je o 19 % vyšší než u Zenu 3, čímž se myslí zvýšení výkonu na 1 MHz frekvence. Jinými slovy, dejme tomu, že budeme mít jádro Zen 2 na stejné frekvenci (třeba 4,0 GHz) jako jádro Zen 3. Zen 3 by při stejném taktu měl mít o 19 % vyšší výkon. Toto ovšem platí v průměru či přibližně, reálně se změny IPC různí program od programu. Někde například Zen 3 může mít vyšší IPC než Intel Tiger Lake, jinde ne.

IPC architektury Zen 3 v porovnání se Zenem 2 podle AMD (výsledných 19 % je geometrický průměr těchto úloh)

Oněch 19 % od AMD vychází z měření v 26 aplikacích měřených na osmi jádrech (16 vláknech) při 4,0 GHz. Tyto programy můžete vidět v následujícím grafu, kde je vidět, že reálně bylo naměřené zlepšení IPC od +9 % po +39 %. Všimněte si ale, že největší přínosy AMD naměřilo u her, kde to nebude projev vyššího hrubého výkonu jádra, ale často projev větší L3 cache a toho, že je procesor složený z jednoho CCX a ne ze dvou. Zahrnutí her do průměru jinými slovy možná trošku „smrdí“ a zkreslilo průměr. Proto je oněch +19 % možná příliš optimistické číslo. Podívejme se proto ještě na jiné testy IPC.

ComputerBase skutečně naměřil nižší nárůst. Průměrné zlepšení IPC mu vyšlo jen +11 %, ovšem nešlo o srovnání jednovláknové, ale o srovnání 16jader Ryzen 9 3950X a 5950X zamčených na 3,6 GHz. Je možné, že rozdíl v IPC zkreslilo zase směrem dolů to, že přece jenom při vytížení všech 32 vláken už je asi často saturován dvoukanálový paměťový řadič. Je možné, že Zen 3 by měl na víc, ale už to nedovoluje propustnost pamětí, které má stejně rychlé jako Zen 2 a to výkon limituje.

V jednom vlákně při 3,6 GHz naměřil stejný test zlepšení IPC o 14–15 %, což už je lepší. Ovšem jednovláknový test používal méně aplikací. Toto může, ale nemusí podporovat závěr, že předchozí číslo z multi-threadu je podhodnocené, protože se staly úzkým hrdlem paměti.

Měření IPC jádra Zen 3 proti Zenu 2 v recenzi ComputerBase, single-thread

Další měření provedl Techspot. Ten testoval Cinebench, kompresi v 7-zipu, Blender, Corona a V-Ray (poněkud přílišný důraz na 3D rendering), ale také Adobe Premiere, Photoshop a After Effects a DaVinci Resolve. Tentokrát to bylo měřeno na osmi jádrech a zjištěno bylo zvýšení IPC v průměru o 12 % v aplikacích a o 22 % ve hrách. Celkově v průměru +16 %. Ale opět, měřit IPC na hrách je poněkud problematické – možná to ani moc nedává smysl, i když informativní údaj to asi pro hráče může být.

Naopak AnandTech došel k výsledku, který de facto validuje 19% číslo od AMD, ačkoliv hry k měření nepoužívá. V jeho případě použil jednovláknová měření v testu SPEC a ničem jiném (SPEC má ale mnoho různých subtestů). V souhrnu z jednotlivých subtestů SPEC2006 a SPEC2017 mu vyšlo, že průměrné zvýšení IPC je +21,38 %, ale realističtěji spíše +19,12 %, což je výsledek, pokud se eliminuje problematický test libquantum. Ten typicky hodně ovlivňují triky v kompilátorech (Intel ICC), které jsou určené jen a čistě pro manipulování tohoto testu a nejsou jinak možné v praxi. Zen 3 v něm má IPC vyšší prakticky dvojnásobně, ale tento výstřelek je asi nikoliv vlivem kompilace, ale tím, že se test vejde do jeho 32MB L3 cache a u ostatních CPU ne. Mediánní průměr z testů je 18,86 %. Čísla AnandTechu tedy vycházejí pro Zen 3 hodně dobře. Má podle nich mimochodem o dost vyšší IPC než Intel Tiger Lake/Ice Lake – v SPECint2017 o 13 % a v SPECfp2017 o 3 %.

Měření IPC jádra Zen 3 proti v recenzi AnandTechu, single-thread v SPEC2017

SPEC je ale asi už atypický a vykazuje nejspíš vyšší než průměrný rozdíl mezi Zenem 2 a Zenem 3, pokud tedy AnandTech neudělal nějakou chybu. Trošku problematické je, že neměřil při stejné frekvenci, ale s aktivním turbo boostem a poté výsledná skóre přepočítal podle frekvencí – zde je samozřejmě prostor pro chybu, pokud nebyla průměrná frekvence změřena přesně. Je možné, že třeba počítal s nižší frekvencí, než na které Zen 3 reálně běžel, a u Zenu 2 a jader Intel naopak. Možná výsledek ovlivnily odlišné paměti neo to, že Ice Lake a Tiger Lake byly testované v noteboocích.

Vlastní měření IPC odlišné od ostatních provedl také The Stilt a publikoval ho na Overclock.net. Jde o test v celé řadě programů, některých běžných (x264, x265), jiných poměrně neobvyklých. Celou sadu grafů najdete zde v albu na Imgur. V průměru vychází Stiltovi pro Zen 3 o 18,3 % lepší IPC než pro Zen 2 a 23,9 % vyšší proti Skylake/Comet Lake.

Měření IPC jádra Zen 3 proti v testu od The Stilta, single-thread v 36 programech (Legenda: VMR = Zen 3, CML-S = Intel Comet Lake, 100 % je IPC/výkon Zenu 2. Údaje s poznámkou (ER) jsou očištěné o nejhorší a nejlepší výsledek, tedy výsedky s velkou odchylkou od průměru)

Mimochodem, i zde byly některé výstřelky – pokud se odstraní nejhorší a nejnižší skóre pro každé CPU, tak vyjde průměrné zlepšení IPC pro Zen 3 hůř, vychází už jen o 14,4 % vyšší proti jádru Zen 2. U Zenu 3 má takové abnormálně vysoké zvýšení výkonu test Vampire Numbers (+180 %, takže vypuštění tohoto výsledku je asi na místě). Jinak by tyto testy měly být jednovláknové na fixní frekvenci 4,0 GHz. Ovšem zatímco Zen 2 a Zen 3 měly paměti DDR3-3200, Comet Lake jen DDR4-2933 (protože víc nepodporuje oficiálně).

Zrychlení díky lepší efektivitě místo přidávání jednotek (zatím?)

Zen 3 tedy udělal docela velké změny v jádře (ve výpočetních ALU a FPU částech je dost změněna koncepce), ale AMD nepřikročilo ke změnám jako je zvětšení cache a přidání samotných výpočetních jednotek (ALU, FMAC). Toto jádro tedy zvyšuje efektivitu a IPC téměř vždy jen tím, že pouze lépe využívá stejný počet jednotek, jako měl Zen 2. Například díky omezení konfliktů na portech a změněným schedulerům. Výjimkou je ona posílená Load/Store část.

Podobně jako nerozšířilo jádro o víc ALU, ani AMD nezvětšilo výrazně out of order fronty jako je reorder buffer, jenž je jen 256 proti 352 u Intelu a ~600 u Apple (Apple má jinak také 4× větší L1 cache).

Je možné, že toto „přidání hrubé síly“ si tedy AMD nechává do budoucích dalších architektur, ale samozřejmě těžko hádat, kdy (a zda vůbec), by třeba přidání ALU mohlo nastat. Jádro Zen 4 by asi mohlo opět být spíše evoluční jako byl Zen 2 a přidávat evoluční zlepšení, takže další velké překopání by možná mohl přinést až Zen 5 (rok 2023 nebo 2024?). Vkrádá se otázka, jeslti třeba AMD nemohlo být s cíli architektury ambicióznější: pokud je Zen 3 celkově přepracované jádro, nemohl být cíl vyšší než to o cca 11 až 16 % vyšší IPC, které není zas tak daleko od změn možných s inkrementálním přístupem k vývoji nových jader? Je možné, že hypoteticky mohlo AMD přijít i s agresivnějším redesignem. Ovšem na druhou stranu je nutno pamatovat, že Zen 3 je navržený pro stejný 7nm proces jako Zen 2, inženýři tedy museli dávat velký pozor, aby při zlepšení výkonu nezvýšili i spotřebu. Jinak by totiž kvůli omezení TDP výkon stoupl jen málo. Je možné, že základ Zenu 3 pořádně ukáže, co v něm je, až ve vylepšení podobě na 5nm procesu, tedy v podobě Zenu 4.

Shrnující srovnání Zenu 2 a Zenu 3 od AMD

Co dál Zen 3 nepřináší, je nějaká forma podpory AVX-512, byť i třeba se sníženým výkonem, kdy by se 512bitové operace vykonávaly ve dvou cyklech. Je možné, že toto je strategické rozhodnutí, kdy AMD nechce podporovat toto instrukční rozšíření (značně košaté, protože Intel přidal mnoho různých subsetů), dokud to nebude nezbytné. Možná dokonce může spekulovat na to, že se toto rozšíření mimo superpočítače neprosadí a Intelu zbude jako spíše bagáže než benefit, nebo by ho dokonce mohl sám opustit, alespoň u některých CPU architektur. Přidání AVX-512 by vyžadovalo rozšíření registrů a v FPU na dvojnásobek (512bitové registry ZMM), takže asi nejde o úplně zanedbatelnou křemíkovou investici. Zda se tyto instrukce někdy v procesorech AMD objeví, tak zůstává nejasné.

(Momentálně) nejlepší CPU jádro ve světě x86 procesorů?

Podpora AVX-512 zůstává jednou z výhod Intelu. Zejména na serverových verzích jader, která mají druhou 512bitovou jednotku pro FMAC, ale poměrně užitečná je i základní verze bez ní, kteoru mají jádra Sunny Cove/Willow Cove v procesorech Intel Ice Lake a Tiger Lake – a kterou také budou mít 14nm desktopová Rocket Lake, která Intel proti Ryzenům 5000 vydá za nějaká tři měsíce od nynějška. V aplikacích schopných využít AVX-512 by tedy mohl Intel AMD dál utíkat, ale vypadá to, že v ostatních případech už typicky Zen 3 architektonicky dohnal nejnovější jádra Intelu, ba spíš je často i předhání.

Už remíza by zde byla vzhledem k poměru velikostí a rozpočtů obou firem docela slušný úspěch. Ale vypadá to, že AMD dílem lehce vyšším IPC, dílem vyšším taktem (proti Tiger Lake) Intel poráží. Podle recenzí to vypadá, že Zen 3 v Ryzenech 5000 dobyl pro AMD absolutní výkonnostní trůn.

Zdroje: AMD, AnandTech


  •  
  •  
  •  
Flattr this!

FSR 3.1 zlepšuje kvalitu, umí přidat generování snímků k DLSS

Na grafické konferenci GDC 2024 odhalilo AMD novou verzi herního upscalingu FidelityFX Super Resolution (FSR) 3.1. Jde o evoluční vylepšení vycházející z loňského FSR 3.0, které má mimo jiného zlepšovat obrazovou kvalitu, ale současně přináší zajímavou změnu. Ve FSR 3 se objevila technologie generování snímků (analogická generování snímků v DLSS 3 a 3.5 od Nvidie). Ta se v generaci FSR 3.1 dá nově využít i samostatně a zkombinovat s DLSS. Celý článok „FSR 3.1 zlepšuje kvalitu, umí přidat generování snímků k DLSS“ »

  •  
  •  
  •  

AMD Ryzen 8700F a 8400F: Levná APU bez grafiky do AM5

Před nedávnem internetem proletěla kontroverze okolo procesoru Ryzen 7 5700 založeném na čipu Cezanne s menší cache a podporou jen PCIe 3.0, na což bylo široce (i u nás) upozorňováno při vydání, nicméně ne ke každému tato informace asi dorazila. Brzo možná bude něco podobného, protože AMD teď chystá obdobné procesory pro platformu AM5 – Ryzeny 8000F bez integrované grafiky, ale založené na APU čipech Hawk Point. Celý článok „AMD Ryzen 8700F a 8400F: Levná APU bez grafiky do AM5“ »

  •  
  •  
  •  

Ray tracing na AMD RDNA 4 bude díky BVH8 dvakrát rychlejší

Před několika dny prosákly informace o připravované konzoli PlayStation 5 Pro od Sony, která přinese upgradovaný hardware s výrazně silnějším grafickým procesorem a akceleraci AI, která umožní použít uspcaling PSSR založený na umělé inteligenci. Další podrobnosti, které se teď objevily, ale mají dopad i na připravované grafiky Radeon RX 8000, mluví totiž o schopnostech GPU architektury RDNA 4 v ray tracingu, které se mají o dost zlepšit. Celý článok „Ray tracing na AMD RDNA 4 bude díky BVH8 dvakrát rychlejší“ »

  •  
  •  
  •  

Komentáre (6) Pridať komentár

  1. Zdravím, taková otázka na autora. Můžem čekat více článků od tebe na tomto webu, vzhledem k situaci s cnews. Nebo jsou nějaké jiné plány?

    1. Bez ohľadu na to, ako to dopadne so Cnews (verím, že pozitívne a čoskoro bude fungovať tak ako predtým), tak by Jano mal vo väčšom objeme vydávať články aj u nás. Celkovo sa na HWC čoskoro dočkáte veľkých zmien, na ktoré sa už pripravujeme dlhší čas a štart je blízko. 🙂

Pridaj komentár

Vaša e-mailová adresa nebude zverejnená. Vyžadované polia sú označené *