Cortex-A720: nové prostřední jádro proti E-Core u Intelu
ARM poslední dobou uváděl každý rok novou generaci procesorových jader. A nejinak tomu bude letos, jen tentokrát tuto akci přesunul na veletrh Computex. ARM tam tento rok odhalil kompletní linii nových architektur: nové velké „prime“ jádro Cortex-X4 pro maximální jednovláknový výkon, nové prostřední jádro Cortex-A720, jehož rolí je generovat mnohovláknový výkon (jako E-Core Intelu) a konečně i nové malé úsporné jádro Cortex-A520.
Také Cortex-A715 dostal novou náhradu, pojmenovanou A720. Tato třída jader dříve představovala velká jádra, ale nebyla optimalizovaná až tak moc na jednovláknový výkon, jako spíše na efektivitu a plochu. Poté, co úloha 1T výkonu přešla na Cortexy-X, jsou tato jádra linie Cortex-A specializována zejména na mnohovláknový výkon, jak už bylo řečeno. Takže je můžete vnímat jako obdobu E-Core (nyní architektury Gracemont) u Intelu. V levnějších mobilních SoC ale Cortex-X4 může chybět a Cortex-A720 pak v nich bude mít roli velkého jádra.
U Cortexu-A720 neudělal ARM tak velké změny proti předchozímu designu Cortexu-A715, jaké jste mohli vidět v předchozí kapitole, a jde spíše o evoluční vylepšení. Jádro má být zaměřené zejména na zlepšení efektivity (co do spotřeby, ale i do plochy a ceny). Také přidává podporu instrukční sady ARMv9.2.
Cortex-A720 zřejmě stejně jako Cortex-X4 zredukoval délku pipeline, protože cena za chybně odhadnuté větvení byla zredukována ze 12 na 11 cyklů. Vylepšena byla opět i predikce větvení, ovšem asi ne co do výkonu, ale tak, aby zpracování větvení bylo efektivnější z hlediska spotřebované energie (údajně bez negativního dopadu na výkon). Stejně jako Cortex-X4 nemá jádro A720 žádnou micro-op cache, ale v tomto případě byla odstraněna již předchozím jádrem A715.
Cortex-A720 také stejně jako jádro X4 přešlo na pipelinovanou floating-point děličku, takže i u tohoto jádra se zlepší výkon instrukcí FDIV. Pipelining byl přidán také pro floating-point výpočet druhé odmocniny (FSQRT). Výsledkem je zrychlení těchto operací (asi jak co do latence této instrukce, tak do propustnosti, čili kolik jich jednotka zvládne za určitý počet cyklů) a zároveň podle ARMu nedošlo k významnému zvětšení plochy děličky.
Jednotka FPU má také zrychlenou práci při převodu hodnot z floating-point a SIMD (Neon, SVE / SVE 2) registrů do obecných integerových registrů. Trvá tedy kratší dobu, než jsou výsledky z těchto instrukcí přístupné pro další zpracování mimo FPU. Předávání dat mezi částmi jádra (forwarding network) bylo zlepšeno také směrem do jednotek AGU provádějících zápis do paměti (cache) a také se zlepšila práce load/store front.
Cortex-A720 má také zrychlenou L2 cache, která má latenci jen 9 cyklů proti 10 u předchozího Cortexu-A715. Minimálně pro některé druhy operací byla vylepšená také její datová propustnost. Podle ARMu totiž operace MemSet v L2 cache probíhají až 2× rychleji.
Jádro má také opět vylepšené prefetechery, což je spolu s prediktory větvení oblast, která bývá kontinuálně vylepšována v prakticky každé nové generaci a má přímý vliv na zlepšení IPC. Jádro by nově mělo mít spatial prefetching do L2 cache, který byl předtím jen u jader Cortex-X.
O trošku lepší výkon, ale hlavně efektivita
Podle ARMu by jádro Cortex-A720 mělo mít výkon vyšší o 1–13 % proti Cortexu-A715, přičemž úlohu od úlohy se to bude lišit (v průměru bude asi zlepšení jen okolo 5 %). Toto by mělo být na stejném výrobním procesu. O něco více má stoupnout efektivita, ta má na stejném procesu být údajně v průměru o nějakých 6 % lepší (v praxi se to ale bude lišit aplikaci od aplikace). Tento rozptyl můžete vidět na grafu pro úlohy benchmarků SPEC.
ARM u tohoto jádra nabízí několik možností konfigurace, vedle výkonnější možnosti má také existovat verze, která má při implementaci mít zhruba stejnou plochu jako Cortex-A78 (design z roku 2020). Tato konfigurace má nižší výkon, ale stále má být o 10 % rychlejší než toto starší jádro. Jejím smyslem je použití v SoC pro levné telefony, které používají stará jádra jako Cortex-A76 a právě A78. Tato osekaná verze Cortexu-A720 by mohla jejich výrobce přimět, aby konečně přešli na novější architekturu s instrukční sadou ARMv9.
Článek pokračuje na další straně.
⠀
- Contents
- Total Compute Solution 23
- Cortex-X4: Nejširší out-of-order jádro v historii ARMu
- Cortex-A720: nové prostřední jádro proti E-Core u Intelu
- Nové malé jádro: Cortex-A520