Cortex-A710: efektivní prostřední jádro
ARM letos oznámil novou generaci instrukční sady: ARMv9, s níž přichází třeba nové instrukce SVE. Teď tyto novinky přechází z papíru do reality: firma odhalila první CPU jádra, která přinesou ARMv9 do mobilů, ale asi i PC: Cortex-A710, dále vůbec nejvýkonnější jádro Cortex-X2 a také po letech nové úsporné malé jádro Cortex-A510. To je hodně zajímavé, Arm totiž sáhl po řešení se sdílenou FPU připomínajícím CMT architekturu AMD Bulldozer.
To, že potřebu co nejvyššího výkonu nyní bude vykrývat jádro line X, využívá ARM k tomu, aby mohl prostřední jádro udělal efektivnější i za cenu trošku dosažitelného výkonu. Na loňský Cortex-A78 firma pro tuto roli navazuje jádrem označeným A710. Při přechodu na architekturu ARMv9 tedy bylo změněno značení na třímístné; ovšem jeho logika je zřejmě taková, že místo „A79“ se skočilo rovnou na „A7deset“. Mimochodem, toto by asi mělo být jádro, z nějž je odvozena serverová architektura Neoverse N2.
Vypůjčený čas pro 32bitů
Cortex-A710 tedy také podporuje architekturu ARMv9 a její novinky a také by zřejmě mělo jít o evolucí předchozího designu s různými úpravami a změnami. Proti Cortexu-X2 je tu jedna změna. Ač to u ostatních jader ARM udělal, zde neodstranil podporu pro 32bitový režim, toto jádro jako jediné z nových designů umí spouštět staré 32bitové aplikace (OS ne).
Jaký to má důvod? Zejména v Číně jsou údajně vývojáři pozadu v portování telefonních aplikací na 64bitovou architekturu a potřebují více času na přechod. Dočasně tak takové aplikace bude možné spouštět na prostředních jádrech A710, i když ostatní jádra procesoru už jejich chod neumožní.
Část vylepšení z Cortexu-X2
Cortex-A710 má přebírat vylepšení frontendu z Cortexu-X2 jako je dokonalejší predikce větvení – proti Cortexu-a78 byla kapacita Branch Target Bufferu (a také Global History Bufferu) zvětšená na dvojnásobek. Také L1 TLB (ale tentokrát instrukční, ne datový) byl zvětšen o 50 %, z 32 na 48 položek. Většina struktur by ale měla být nezměněná, zůstala také macro-OP cache pro již dekódované instrukce o 1500 položkách.
ARM ale naopak snížil propustnost macro-Op cache. Místo 6 instrukcí za cyklus už z ní může jít do dalšího zpracování maximálně 5, a stejně tak se snížila propustnost fáze dispatch (také z 6 na 5 operací/cyklus). Šířka jádra se tedy v této části naopak zúžila. Toto by mělo mít negativní efekt na IPC, ale patrně to vylepší efektivitu a spotřebu dostatečně na to, aby se to pro cílové určení jádra A710 vyplatilo udělat. ARM na oplátku u tohoto jádra také zkrátil pipeline z 11 na 10 cyklů (opět ve fázi dispatch), což by mělo IPC zase zvýšit.
Podobně jako ARM klade prioritu na efektivní frontend v predikci větvení, také jádro A710 přebírá pokroky v prefetchingu. I ten totiž dovoluje lepší využití daného počtu jednotek a tedy zlepšuje IPC, aniž by se musely posilovat samotné výpočetní prostředky, což by stálo víc tranzistorů a větší spotřebu.
Také toto jádro podporuje SVE a SVE 2 a má rovněž 128bitové SIMD pipeline. Ale proti Cortexu-X2 zřejmě jen dvě, celková teoretická výpočetní propustnost je tedy poloviční.
IPC lepší o jednociferná procenta
Arm uvádí, že při stejné frekvenci bude mít Cortex-A710 asi o 10% vyšší výkon než Cortex-A78. Ovšem reálně je asi navýšení IPC o dost nižší. ARM totiž v prezentaci opět srovnává A710 s 8MB L3 cache s Cortexem-A78 s jen 4MB L3 cache. Pokud reálně mobilní procesory skutečně nebudou mít dvojnásobně velkou L3 cache, tak bude pokrok ve výkonu nižší.
Efektivita jádra ale má být výrazně lepší než u Cortexu-A78. ARM uvádí, že pokud by se takt nového jádra snížil tak, aby mělo stejný výkon jako A78, pak bude mít až o 30 % nižší spotřebu, což je dobrý výsledek – je to pro stejný výrobní proces (i když si zase musíme odečíst faktor, kdy ve srovnáních Cortexu-A710 pomáhá větší L3 cache).
Letošní architektury nezvedají výkon tak, jako předchozí
Jak architektura X2, tak A710 tedy nepřinášejí tak vysoké nárůsty IPC a výkonu, jak možná někdo očekával. Nepotvrdila se tedy tak úplně očekávání, že ARM bude držet zběsilé tempo, s kterým se IPC Cortexů zvyšovalo v předchozích generacích a že rychle předstihne ve výkonu Intel a AMD. Na druhou stranu to může být proto, že architektury musely být výrazně upravovány pro kompatibilitu s ARMv9 a její nové součásti, pročež zbylo méně času a zdrojů na změny zvyšující výkon.
Větší skok ve výkonu by u obou těchto linií jader mohl nastat příští rok – respektive v jádrech, které ARM odhalí příští rok, ale v prodeji asi mohou být spíš až v roce 2023, tedy snad v Cortexu-X3 a A710. To totiž budou zbrusu nové architektury. Zatímco X2 a A710 jsou vývojové výhonky architektury Cortex-A76, vyvíjené týmem v Austinu (a po několika generacích už může tomuto základu docházet potenciál ke zlepšením), příští rok by mělo oboje nahrazeno úplnými novinkami, které vyvíjí pro změnu tým v Sophii (ten v Texasu začne zase pracovat na další linii, která přijde až za několik let).
Článek pokračuje na další straně.
- Contents
- Cortex-X2: nejvýkonnější architektura od ARMu
- Cortex-A710: efektivní prostřední jádro
- Cortex-A510: úplná novinka v malých jádrech se starým překvapením