Computex 2019: új Cortex és Mali magot fejlesztett az ARM

A processzorok tekintetében a Cortex-A77 lesz az új sláger, míg a GPU IP-k piacára a Mali-G77 megy, ami még érdekesebb is.

Az ARM az idei, Computexszel egybehangolt TechDay rendezvényén új fejlesztéseket jelentett be, konkrétan egy CPU és egy GPU IP-t. A processzor tekintetében a friss csúcs a Deimos kódnevű Cortex-A77 lesz. Ez a mag lényegében a Cortex-A76 továbbfejlesztésének tekinthető, így ez 7 nm-es node-ra készült, valamint marad az ARMv8.2-A utasítás-architektúra, és a DynamIQ koncepció támogatása.


[+]

A gyorsítótárak tekintetében a Cortex-A77 64-64 kB-nyi L1 utasítás- és adatgyorsítótárat használ, az L2 gyorsítótár 256 vagy 512 kB lehet, amelyek mellé 4 MB-os L3 gyorsítótár építhető, emellett a célzott órajel 3 GHz. Látszatra nem fedezhető fel előrelépés a Cortex-A76-hez viszonyítva, de a finomságok most a motorháztető alatt rejtőznek, ugyanis az ARM célja az IPC jelentős növelése volt. Ennek érdekében ugyan az eredeti dizájn alappilléreihez nem nyúltak, viszont alaposan kicombosították azt.


[+]

Többek között az L1 utasítás-gyorsítótár mellett megjelent egy macro-OP gyorsítótár, továbbá az elágazásbecslő hatékonyabban fog működni. Az újratervezésnek hála a fejlesztés órajelenként már nem négy, hanem hat utasítást tud dekódolni, a feldolgozók szempontjából pedig a Cortex-A77 integer része két branch egységet, három egyszerű ALU-t, valamint egy többciklusú integer ALU-t alkalmaz, ami egyszerű ALU-ként is képes működni. Mindezek mellett a teljes futószalag késleltetése is csökkent.


[+]

A fentiek további trükkökkel kiegészülve azt eredményezik, hogy a Cortex-A77 a Cortex-A76-hoz viszonyítva, feladattól függően 17-34%-kal jobb IPC-vel rendelkezik.

Hirdetés

Komolyabb fejlesztésnek számít azonban a Mali-G77, amely a Valhall architektúrára cseréli le a korábbi Bifrostot. A vállalat teljesen átdolgozta a dizájnt, így egy shader magon belül mostantól nem kell három feldolgozómotort felfűzni egymás mellé, ennek nyilvánvaló előnye a kedvezőbb ütemezés, viszont mostantól szélesebb vektormotor is kell, hiszen egy egységből kevesebb operációt lehet elvégezni.


[+]

Az ARM a fentiek miatt a Bifrost, 4 operáció széles feldolgozócsoportját, amit maximum párosával lehetett elhelyezni, lecserélte egy 16 operáció szélesre, emellett maga a végrehajtó is átalakult, hiszen az FMA utasítást végrehajtó lebegőpontos feldolgozóhoz már nem társul egy ADD/SF egység, ami egy ADD utasításra feldolgozó volt, illetve a speciális funkciókat is megoldotta, ideértve a trigonometrikus és transzcendens utasításokat. Utóbbi helyett párhuzamosította magát a végrehajtót a cég, így az SFU, vagyis a speciális funkciókra szabott egység külön érhető el, egy CVT mellett, ami például a konvertálásokra van. Ilyen formában nemcsak az adatút rövidült a felére, hanem párhuzamossá is vált.


[+]

Maga az FMA ALU egyébként 32 bites lebegőpontos operációk mellett teljes sebességgel támogatja a 16 bites lebegő pontos, illetve a 8 bites integer mátrix szorzást. Egy multiprocesszoron belül egyébként két darab 16 operáció szélesre feldolgozócsoport található.


[+]

Átalakult a textúrázóblokk is, amely immáron kétszer több textúrázót tartalmaz a Mali-G76 eredeti dizájnhoz képest eleve megduplázott blokkjához viszonyítva.


[+]

A Mali-G77 rendkívül konfigurálható, a multiprocesszorok száma 7 és 16 között lehet, míg az L2 gyorsítótár 512 kB vagy 4 MB közé eshet. Maga az új fejlesztés az ARM mérései szerint 30%-kal hatékonyabb, és ennyivel gyorsabb egységnyi területen a Mali-G76-hoz viszonyítva, gépi tanulás mellett viszont az előrelépés inkább 60%.

Az ARM új CPU és GPU IP-jét már licencelhetik a partnerek.

  • Kapcsolódó cégek:
  • ARM

Azóta történt

Előzmények