Hirdetés

Penryn - az Intel sebességet vált

Az Intel sebességet vált: itt a Penryn

Az Intel folytatni kívánja tikk-takk taktikáját, melynek lényege, hogy 2 évente vezet be új gyártástechnológiát, e ciklus félidejében pedig megújítja architektúráját is. 2005 végétől kezdte csökkenteni a Pentium processzorcsalád csíkszélességét 65 nm-re, tavaly pedig bejelentette a Core mikroarchitektúrát és az erre alapozó Core 2 családot (szintén 65 nm-en). Bár a 45 nm-es Core processzorok már most rendelkezésünkre állnak, nagyobb mennyiségben csak jövőre kerülnek forgalomba. Ezzel el is érkeztünk tesztünk tárgyához, a Core mikroarchitektúra második generációjához, melyet összefoglalóan Penryn kódnéven ismerhetünk.


Penryn-ostya [+]

A Penrynt első hallásra akár el is intézhetnénk egy legyintéssel – kisebb csíkszélesség, nagyobb cache... Mégsem tesszük ezt, ugyanis jóval többről van szó, az új processzorcsalád számos tekintetben megújult, ezek közül is a legfontosabb, hogy megváltoztatták a tranzisztorok anyagi felépítését. Az Intel mindig is élen járt a különböző gyártástechnológiai újítások terén, ám voltak a cégnek nehezebb időszakai is, gondoljunk csak a Prescott bevezetésére, melynek kedvezőtlen tulajdonságai miatt a legnagyobb processzorgyártó bizony veszített piaci részesedéséből. Mi volt a baj? Eltekintve az architekturális felépítéstől, a Prescott gyártástechnológiai szempontból is egy sor újítást hozott magával. Az Intel sorozatgyártásban itt alkalmazta először a feszített szilícium technológiát, mellyel a tranzisztorok teljesítményét 10–20%-kal volt képes növelni. Ennél fontosabb számunkra, hogy szintén a Prescott esetében használtak először alacsony k állandójú (low k) dielektrikumot a szigeteléshez, ezzel további 20%-kal csökkentették a kapacitív ellenállást. A mérleg másik serpenyőjét azonban lehúzta, hogy a csíkszélesség 130 nm-ről 90 nm-re történt csökkentése miatt nagyon megnőtt a szivárgási áram, ami miatt végül ez az architektúra nem érte el eredetileg tervezett órajeleit, s ezzel a kitűzött teljesítményt sem, miközben a disszipáció nagy volt.


Az ábra szerint a legproblémásabb a 90 nm-es csíkszélesség volt, azaz a Prescott
forrás: spectrum.ieee.org

A tranzisztorokban korábban hosszú éveken keresztül szilícium-dioxidot (SiO2) használtak kapuoxidként. Miközben a tranzisztorok mérete (csíkszélessége) csökkent, a szigetelőréteg vastagsága is csökkent, azonban törvényszerű, hogy létezik egy határ, melyen túl az adott réteg vastagságának csökkentésére már nincs mód (SiO2 esetén elvileg 1-2 nm, az Intel 65 nm-es gyártástechnológiája mellett nem vastagabb, mint 5 atomi réteg), ugyanis ezen a ponton túl a szivárgási áram drasztikusan megnő, ezzel a fogyasztás is, miközben a tranzisztor megbízhatósága csökken. A szivárgás egy félvezető több pontján is létrejöhet, de a legproblémásabb, amikor a kapuoxid szivárog.

A mérnökök jól tudták ezt, ezért ennek kiküszöbölésére hosszú évek után olyan anyagot kísérleteztek ki, melyeket alacsony k állandójú (low k) dielektrikumokként ismerhettünk meg: ezek általában az SiO2 továbbtisztított variánsai, melyek az eredeti anyagtól eltérő elektromos tulajdonságokkal bírnak, mégis megbízhatóan bevethetők szigetelőként. A tranzisztorok méretének további csökkenésével azonban újabb és újabb, nagyobb kapacitív ellenállással rendelkező szigetelő anyagok bevetése válik szükségessé, így a low k dielektrikumok után az Intel most bevezette a nagy k együtthatójú (high k) kapuoxidot tranzisztoraiban. Nevéből következik, hogy ennek az anyagnak – melynek a Penryn esetében a hafnium a fő összetevője – nagyobb a dielektromos állandója, mint a szilícium-dioxidé. A dielektromos állandó egy anyag azon tulajdonságára utal, hogy milyen mértékben képes az elektromos töltést visszatartani. Egy magasabb dielektromos állandójú anyag magasabb kapacitív ellenállást biztosít két vezető réteg között, miközben vastagsága nem csökken/nő, így megakadályozza a szivárgást. Az új eljárás révén az Intel esetében – bár tovább csökkent a csíkszélesség – nem nőtt a szivárgási áram.


Forrás: spectrum.ieee.org

Ezzel azonban még nem küszöböltek ki minden, a tranzisztorok méretcsökkenésével járó problémát. Fentebb a kapuoxiddal foglalkoztunk, amely a csatornát (azt a régiót, ahol áram folyik a tranzisztor bekapcsolt állapotában) választja el a kapuelektródától, de az Intel ez utóbbin is változtat. A kapuelektródában itt használnak először hagyományos polikristályos szilícium helyett fémes anyagokat. A pontos összetétel persze titok, annyi ismert, hogy a p és n típusú tranzisztoroknál eltérő anyagot alkalmaznak. Mindezzel tovább folytatódhat a mikroelektronikai komponensek miniatürizációja, és – egyelőre – Moore törvénye sem veszti aktualitását.

Hirdetés

Számokban kifejezve ezek az újítások azt eredményezik, hogy körülbelül kétszeresére nőhet a tranzisztorsűrűség; a gyártó dönthet arról, hogy kisebb csíkszélesség mellett kisebb területű chipet vagy közel azonos méretű, de fejlettebb, gyorsabb, összetettebb chipet gyárt. Hozzávetőleg 30%-kal csökken a tranzisztor állapotváltásának feszültségigénye, több mint 20%-kal nőhet az állapotváltás sebessége, illetve kevesebb mint ötödére csökkenhet a source és drain elektródák közötti szivárgási áram. És akkor még nem szóltunk arról, hogy kevesebb mint tizedére csökkenhet a kapuelektróda szivárgása.

Gyártástechnológiai szemszögből tehát a csíkszélesség csökkentése és a tranzisztorok – több évtizede használt – anyagának módosítása jelenti a Penryn fő újdonságát. Az Intel azonban nem pusztán miniatürizálta a Core 2 processzorokat, hanem – részint a technológiai előrelépésnek köszönhetően – nagyobb teljesítményt ígérő funkciókkal is ellátta chipjeit. A gyártástechnológiai újítások után lássuk az architekturális változtatásokat.

Először is a Penryn az aktuális Core 2-nél 50%-kal nagyobb másodszintű gyorsítótárral rendelkezik. Ez azt jelenti, hogy egy kétmagos Core 2 processzor esetében 4 helyett immár 6 MB lehet az L2 cache maximális mérete (négymagos processzornál kétszer 6 MB). A méret megnövelésén felül a cache késleltetési ideje is csökkent, tehát – legalábbis az Intel szerint – gyorsult a tár, emellett 16 helyett immár 24 utas csoportasszociatív tárról beszélünk.


[+]

A lebegőpontos számításokat végző egységgel kapcsolatos újítás a Fast Radix-16 Divider bevezetése, mellyel akár 3-szorosára gyorsulhat a bitek eltolása, a négyzetgyökvonás (egyszeres, kiterjesztett és kétszeres pontossággal) és 1,6–2-szeresére gyorsulhatnak az osztások (ugyancsak egyszeres, kiterjesztett és kétszeres pontosságnál is). A Fast Radix-16 Divider órajelenként 4 bitnyi hányados kiszámolására képes a Merom (az első generációs Core 2) Radix-2,4 2 bites sebességével szemben. Szintén az FPU gyorsítását célozza a Super Shuffle Engine megjelenése, melynek segítségével az SSE adatműveletek feldolgozása gyorsul; a Penryn immár az összes 128 bites SSE utasítás végrehajtását egy órajelen belül befejezi. Ezek az újítások elvileg – egyebek mellett – a különböző képszerkesztő és videovágó programoknak kedveznek (a shuffle bitek eltolását/újrapozicionálását jelenti). Továbbfejlesztették az Intel Virtualizaton Technologyt is, főleg a virtuális gépek közötti váltások sebessége javult 25–75%-kal.

A Core-nál megismert Smart Memory Access, illetve annak továbbfejlesztett Memory Disambiguation nevezetű technológiája is változott: az új processzor a STORE műveleteket méggyorsabban képes betűzni az utasítássorozatba (mint ismeretes, a Memory Disambiguation a soron kívüli, out-of-order műveletek írási és olvasási hatékonyságát növeli azáltal, hogy a LOAD műveleteket a STORE-ok elé helyezi). Ha már a memóriaelérésnél tartunk, meg kell említeni, hogy a Penryn processzorok rendszerbuszának órajele immár elérheti az 400 MHz-et is (1600 MHz QPB), szemben a Core 2-esek 333 MHz-es (1333 MHz QPB) csúcssebességével. Ez jól jön majd a DDR3 piacának.

Talán a leglényegesebb újítás egy új utasításkészlet, az SSE4, pontosabban annak első verziójának, az SSE4.1-nek az implementálása (további hét SSE4-es utasítás jelenik meg majd a Nehalemben). A Core 2 processzoroknál megismerhettük a Supplemental SSE3-at (SSSE3), melyet először sokan az SSE4-nek hittek, de végül kiderült, hogy nem az. Az SSE4.1-et most vezetik be a Penrynben, ez 47 új utasítást tartalmaz (további 7 utasítás a Nehalemben), melyek az élet minden területén gyorsulást hozhatnak magukkal (képszerkesztés, grafika, videófeldolgozás, játék, multimédia, adatbáziskezelés, szövegkeresés, víruskeresés, és különféle memóriaintenzív alkalmazások), feltéve, hogy a programozók erre optimalizálják a kódot.

A Penryn család mobil processzorai további fejlesztésekkel bővültek, úgy mint az Enhanced Dynamic Acceleration Technology és a Deep Power Down Technology. Ezeknek hála a processzorok fogyasztása tovább csökkenhet, ami notebookok esetében fontos tényező az energiamegtakarítás és az akkuidő miatt. Az Intel mobil processzorok több módon képesek csökkenteni a fogyasztást: csökkentik a feszültséget, az órajelet, mindkettőt és/vagy lekapcsolják a cache-t. A Deep Power Down Technologyval kiegészítve a Penryn mobil processzorok a következő állapotokat ismerik:


  • C0: teljes terhelésnél aktív, nincs energiagazdálkodás.
  • C1 (Halt): csökken a feszültség és lekapcsol a processzormag, viszont az alaplapi áramkörök feszültség alatt vannak, és a gyorsítótárakban található adatok is tovább élnek (a teljesítmény nem csökken érezhetően, mert a „felébredési” idő nagyon rövid, viszont az energiamegtakarítás sem jelentős).
  • C3 (Deep Sleep): ugyanaz, mint a C1, de lekapcsolnak az alaplapi áramkörök, és kiürül az L1 cache is. Az L2 cache tartalma megmarad. A felébredési idő kicsit hosszabb, viszont még mindig nem jelentős a megtakarítás.
  • C4 (Deeper Sleep): ugyanaz, mint a C3, de a magfeszültség tovább csökken, és az L2 cache egy része is lekapcsol (valószínűleg csak az üres területek), illetve az egyik CPU-mag teljesen kikapcsolhat.
  • DC4 (Enhanced Deeper Sleep): a C4-gyel ellentétben már mindkét processzormag kikapcsol.
  • C6 (Deep Power Down): minden kikapcsol (CPU, alaplapi áramkörök, L1 és L2 cache), és a magfeszültség drasztikusan lecsökken. Maximális megtakarítás, de a felébredési idő itt a leghosszabb.

A különböző állapotok között a processzor természetesen önmagától váltogat, tehát nem úgy kell kapcsolgatni egyikből a másikba, mintha az operációs rendszert állítgatnánk.

Az Enhanced Dynamic Acceleration Technology tovább keveri a kártyákat: ha az egyik processzormag eléri legalább a C3 állapotot, akkor a Penryn mobil processzorok esetében elképzelhető, hogy a másik, nem alvó processzormag megnöveli órajelét egészen addig, amíg el nem éri a hivatalos TDP-értéket, tehát a két mag együttes fogyasztásának maximumát. Ennek következménye, hogy a processzor az egy szálon futó programokat gyorsabban fogja futtatni, még akár az is elképzelhető, hogy tuningra kerül sor.

A cikk még nem ért véget, kérlek, lapozz!

Hirdetés

  • Kapcsolódó cégek:
  • Intel

Azóta történt

Előzmények

Hirdetés