Core i7-5775C: Broadwell, a számkivetett

A Broadwell és a grafika

Az Intel a Broadwell fejlesztése során igen sok erőforrást fektetett az integrált grafikus vezérlőbe. Ez még ugyan nem jelent radikálisan új architektúrát, de a Gen8-as rendszer így is alapos ráncfelvarrás a korábbi Gen7.5-ös verzióhoz viszonyítva.

A grafikus számítások szempontjából a Gen8 architektúra – elődeihez hasonlóan – továbbra is három jól elkülöníthető részre osztható. A setup motor a Haswell IGP-jéhez képest nem változott, míg a kalkulációkért a már megszokott shader tömb felelős, amelyből az új dizájn mellett maximum hat darab kaphat helyet; tulajdonképpen ez az egység a hagyományos értelemben vett multiprocesszor. Ebben mostantól maximum 8 darab Execution Unit lesz fellelhető, melyek továbbra is komplex feldolgozók, így megmarad bennük a két darab 128 bites vektormotor.

Utóbbiak közül az egyik felel az általános operációk feldolgozásáért, míg a másik a speciális, trigonometrikus és transzcendens utasításokat támogatja, de mindkét vektoros egység kezeli az FMA-t, ami rögtön utat ad a 4+4 co-issue képességnek. Ezzel tehát az Execution Unitok továbbra is órajelenként nyolc darab, egymástól független FMA utasítást képesek végrehajtani. Természetesen a függőség kezelése kulcsfontosságú maradt, mivel az egymástól függő operációk párhuzamos feldolgozása nem lehetséges; erről ezúttal is a Thread Dispatch egység gondoskodik, amely igyekszik úgy etetni a vektormotorokat, hogy minél többször hasznosítható legyen a 4+4 co-issue feldolgozás. Mindemellett az alaparchitektúrát érintő finomítás, hogy javult a 32 bites integer műveletek feldolgozási sebessége.

A 8 darab Execution Unit egy shader tömbön belül érdekes döntésnek tűnhet az előző generációs architektúrához képest, figyelembe véve azt is, hogy az Intel a Sandy Bridge megjelenése óta komoly utat járt be az IGP fejlesztése. A shader tömbben található feldolgozók száma gyakorlatilag minden generációban változott, ami egyetlen más, GPU-architektúrát tervező cégre sem jellemző. Maga a folyamatos módosítás azt jelzi, hogy a mérnökök egyszerűen nem találják az optimális konfigurációt. Az Ivy Bridge Gen7-es IGP-jében például egy shader tömb 16 feldolgozót használt, és ez a szám a Haswell Gen7.5-ös megoldásánál 10-re csökkent, majd ahogy említettük, ma már csak 8 darab Execution Unitról beszélhetünk.

Az elmúlt években azonban az Intel rájöhetett arra, hogy nem volt semmi gond az eredeti koncepciójukkal, nem ettől volt rossz a hardver kihasználhatósága, így a Broadwell fejlesztésénél visszatértek az alapokhoz, így új irányt vehetett a fejlesztés a jobb hatékonyság és a jobb skálázhatóság érdekében. A Gen8 architektúrában a feldolgozók helyett az L1 gyorsítótár mérete nőtt a shader tömbökön belül. Ezzel megnő az esélye annak, hogy az adott feladat számára szükséges adat ott lesz az L1 gyorsítótárban, amivel a rendszer dolgozhat addig, amíg a többi szál számára is befut a szükséges információ.


A Broadwell-H processzorok IGP-je [+]

A gyorsítótár növelése egyébként egy nagyon egyszerű módja a hatékonyság növelésének, de a cégek csak a legvégső esetben nyúlnak ehhez a megoldáshoz, mert érezhető hátránya a koncepciónak, hogy jóval méretesebb lesz maga a grafikus vezérlő, és ez a Broadwell esetében abszolút meglátszik.

A shader tömbökben szokás szerint megmarad a 256 kB-os kapacitást kínáló URB, azaz a Unified Return Buffer, mely egy gyorsan elérhető, írható és olvasható megosztott memória az Execution Unitok között. A textúrázás szempontjából sok változás nincs az elődhöz viszonyítva, azaz egy shader tömb két darab megosztott textúrázó blokkot tartalmaz, melyek egyenként négy darab Gather4-kompatibilis textúrázó csatornát alkalmaznak. Természetesen jelen van a blokkonkénti textúrázó gyorsítótár is, mely egy 4 kB-os elsődleges és egy 24 kB-os másodlagos szintből áll.

A shader tömbök mellett találhatók a render tömbök, amelyek a data porton keresztül érhetők el, utóbbi tartalmazza a ROP-blokkot is, melyben négy blending és négy Z mintavételező egység dolgozik. Ezen a ponton tehát nincs változás a korábbi IGP-khez képest, viszont nőtt a ROP blokkhoz tartozó gyorsítótárak mérete. Megmaradt az L3 gyorsítótár is, ami az IGP saját, szabadon felhasználható memóriája, és ide a processzormagok nem írhatnak semmit, ráadásul ennek mérete a Gen7.5 architektúrához képest 256 kB-ról 384 kB-ra nőtt. Ezzel kapcsolatban fontos még megjegyezni, hogy az L3 gyorsítótér felel a Local Data Share (LDS) funkció ellátásáért is. Mivel az asztali Broadwell lapka IGP-je hat shader tömb mellett két render tömböt használ, így összesen nyolc-nyolc darab blending és Z mintavételező egység található benne, illetve két darab 384 kB-os L3 gyorsítótárral rendelkezik. A teljesség kedvéért leírjuk az Execution Unitok összesített számát is, ami 48.

A cikk még nem ért véget, kérlek, lapozz!

  • Kapcsolódó cégek:
  • Intel

Azóta történt

Előzmények

Hirdetés