Bemutatta az új Cortex magokat az ARM

A Cortex-A55-ös és -A75-ös fejlesztések már az új ARMv8.2-A utasítás-architektúrát használják, így a DynamIQ-t is támogatják.

Az ARM mondhatni menetrendszerűen a Computexet választotta a legújabb Cortex magok bemutatására, ám amíg az elmúlt évben csak egy Cortex-A73-as frissítésre futotta, addig az idén jóval komolyabb dolgokat mutatott be a cég.

Az új, Cortex-A55-ös és -A75-ös fejlesztések az első olyan megoldások, amelyek már az ARMv8.2-A utasítás-architektúrát használják. Ez a kiterjesztett lehetőségek miatt fontos, mivel számos rendszerkomponenst frissített a vállalat, így nem csak pár új magról van szó, hanem egy nagyobb dizájnváltásról. A legfontosabb tényező, hogy a Big.Little rendszert leváltja a jóval modernebb DynamIQ koncepció, amelyről az alábbi hírben már beszámoltunk.


[+]

A DynamIQ alapos kiterjesztése a Big.Little rendszernek. Lényegesen jobban skálázódik és lényegesen szabadabban tervezhető. A kezdés azonban itt is egy egyszerű dizájnnal történik, mivel egyelőre kétféle mag áll rendelkezésre, viszont fontos tényező, hogy amint lesz kettőnél több ARMv8.2-A-s mag a lehetőségek jelentősen kibővülnek.


[+]

Az ARM által ajánlott DynamIQ dizájnban négy-négy Cortex-A55-ös és Cortex-A75-ös mag került összekapcsolásra. Ezek képeznek egy klasztert egy DSU-val (DynamIQ Shared Unit). Utóbbiban találhatók azok a komponensek, amelyek nem az egyes magok privát részei, hanem konkrétan meg vannak osztva. Minden egyes komponenst az aszinkron hidakon keresztül érik el az egyes magok. Ez megfelelő tervezés mellett optimalizált teljesítményt és késleltetést biztosít a teljes klaszterre nézve. A 16 utas csoportasszociatív L3 gyorsítótár az összes mag között megosztott, ami teljesen új topológiát jelent a gyorsítótárak között, és ezt az SCU, vagyis a Snoop Control Unit vezérli, amely integrált snoop filtert is tartalmaz. Az L3 gyorsítótár mérete egyébként 1, 2 vagy 4 MB lehet a célzott piactól függően.

Egy DSU CCI, CCN vagy CMN gyorsítótár-koherens interfészekkel tud kommunikálni egy vagy két 128 bites AMBA 5 ACE vagy egy 256 bites AMBA 5 CHI porton keresztül. Ezeket egészíti ki egy kombinált ACP (Accelerated Coherency Port) és PP (Peripheral Port) egység, amelyekkel specializált gyorsítók és I/O feladatok köthetők be. Végül a DSU része még az energiamenedzsmentért felelős egység, amely a magok szintjén konfigurálható órajel- és feszültségvezérlésért felel.

A változások egyértelműen az olyan piacok meghódítását segítik, mint az autóipar. Ezen a területen az ASIL-D hitelesítés megszerzése szükséges egy lapka szempontjából, és a DynamIQ vezet be olyan újításokat, mint a hibafelismerés, ezen belül is a korrigálható és nem korrigálható problémák jelentése a szoftver felé, vagy az L3 gyorsítótár esetében az ECC támogatása és a paritásbit jelenléte.

A magokra rátérve a Cortex-A75 lesz a gyorsabbik megoldás, de nyilván ez több fogyasztást is jelent. Maga a fejlesztés sok szempontból eléggé hasonlít a Cortex-A73-ra, gondolva itt a fizikai regiszterfájlokkal dolgozó out of order logikára, ami az utasítások sorrendtől független végrehajtásáért felel. Ráadásul a Cortex-A75 futószalaghossza ugyanúgy minimum 11 és maximum 16 ciklus, mint a Cortex-A73 esetében. Ugyanakkor nagy változás, hogy az új mag már órajelenként három utasítást tud dekódolni, szemben a Cortex-A73 két utasítás széles egységével, ami azt is jelenti, hogy már hat mikrooperáció adható tovább ciklusonként a korábbi négy helyett.

ARM Cortex-A75
ARM Cortex-A75 [+]

Szintén megváltozott a lebegőpontos teljesítmény, mivel a Cortex-A75 órajelenként 3 mikrooperációt tud továbbítani a Cortex-A73 2 mikrooperációja helyett, és parancslistánként is két mikrooperációra nőtt a bevitel, ami kompenzálja a futószalaghossz egy fokozattal történő növekedését a parancslistákra vonatkozóan. Az egységek tekintetében viszont pozitív változás, hogy a MAC operáció késleltetése hatról öt ciklusra csökkent. A Cortex-A75 további lényeges változása a Cortex-A73-hoz képest az L2 gyorsítótárban keresendő, amely mostantól a mag része, és a kapacitása 256 vagy 512 kB lehet.

A Cortex-A55 valószínűleg nagyobb figyelmet kap majd, mivel ez váltja a nagyon sikeresnek mondható Cortex-A53-at. Itt a dizájnt tekintve annyira hatalmas változás nem lesz. Továbbra is in order a logika, vagyis az utasítások végrehajtása a beérkezés sorrendjében fog történni, ahogy a futószalaghossz is minimum 8 és maximum 10 ciklus marad, és az órajelenkénti két utasítás dekódolása sem jelent előrelépést. Az ARM problémája itt tisztán annyi, hogy ez a dizájn az ideális egyensúlyt keresi a teljesítmény és a fogyasztás között, és ebből a szempontból még ma is ez a megfelelő felépítés.

ARM Cortex-A55
ARM Cortex-A55 [+]

Apró változásokra azonban futotta, ugyanis az L1 utasításgyorsítótár mostantól négyutas csoportasszociatív a korábbi kétutas helyett, és a késleltetése is csökkent, valamint a kapacitása 16, 32 és 64 kB lehet, tehát a 8 kB-os opció kiesik. Hasonlóan 16, 32 és 64 kB lehet az L1 adatgyorsítótár, amely végre teljesen exkluzív, tehát az adatokat az L2 gyorsítótár már nem duplikálja. Fejlődött az elágazásbecslésért felelős rész, illetve az L2 gyorsítótár is a processzormag része lett, a kapacitása pedig 64, 128 vagy 256 kB lehet. Ezt egyébként opcionálisan ki is lehet hagyni, de a legtöbb piacon nem kifejezetten ajánlott L2 gyorsítótár nélkül szállítani az Cortex-A55-ös magot. Mindezek mellett a lebegőpontos rész továbbra is opcionális az új mag esetében, egyszerűen bizonyos piacok ezt nem igénylik.

Az ARMv8.2-A utasítás-architektúrával számos általános előrelépést is hoztak a Cortex-A55-ös és -A75-ös magok. Többek között mostantól támogatott a 16 bites lebegőpontos feldolgozás, ami a szimpla pontosságnál kínál gyorsabb számítási teljesítményt azokon a területeken, ahol a pontosság annyira nem számít. A korábbi Cortex dizájnok is képesek voltak 16 bites lebegőpontos adatokat betölteni, de a feldolgozás előtt átkonvertálták őket 32 bitessé, így sebességet vesztett a hardver, ugyanakkor az új magoknál erre nincs szükség, ami a teljesítményt is a kétszeresére növeli. A másik újítás a 8 bites integer skaláris szorzat támogatása, amely a gépi tanulás szempontjából lényeges, annak érdekében, hogy a teljesítmény a korábbi dizájnokhoz képest négyszeres legyen.

Az ARM Cortex-A55-ös és Cortex-A75-ös magok már licencelhetők a DynamIQ technika mellett. A kiterjesztett lehetőségek miatt a korábbinál jóval több eszközben tűnhetnek fel.

  • Kapcsolódó cégek:
  • ARM

Azóta történt

Előzmények

Hirdetés