Bevezető
Az Intel egy héttel ezelőtt bejelentette új generációs Pentium 4 processzorát, a 90 nanométeres csíkszélességgel gyártott Prescottot. A chip eredetileg a tavalyi év negyedik negyedévében mutatkozott volna be, de a gyártástechnológiai váltás ezúttal nem volt olyan zökkenőmentes, mint korábban. Az új processzor végfelhasználóknak szánt változata "E" jelöléssel került forgalomba 3,4, 3,2, 3,0 és 2,8 GHz-es kivitelben. A Prescott azonban nem csupán egy újabb, kisebb csíkszélességgel gyártott Pentium 4, hanem a processzorcsalád első jelentősen átdolgozott mikroarchitektúrára épülő revíziója is egyben. Egy adott processzorgeneráción belül ilyen mértékű változtatásokra korábban az Intel nem szánta rá magát, némileg túlozva az új chipet új processzornak is tekinthetjük.
Balra a Northwood, jobbra a Prescott
A Prescott legfontosabb újításait az alábbi összehasonlítló táblázatban foglaltuk össze:
Northwood | P4EE (Gallatin) | Prescott | Athlon 64 | |
Gyártástechnológia (mikron) | 0,13 | 0,13 | 0,09 | 0,13 |
Tranzisztor (millió) | 55 | 169 | 125 | 105,9 |
Magméret (mm2) | 131 | 237 | 112 | 193 |
Vezetékréteg | 6 Cu | 6 Cu | 7 Cu | 9 Cu |
Tápfeszültség (V) | 1,5-1,55 | 1,55 | 1,3-1,5 | 1,55 |
Futószalag (fokozat) | 20 | 20 | 31 | 12/17 |
L1 cache | 8 KB adat (4-utas), 12k uop trace cache | 8 KB adat (4-utas), 12k uop trace cache | 16 KB adat (8-utas), 12k uop trace cache | 64 KB adat, 64 KB utasítás (2-utas) |
L2 cache | 512 KB (8-utas) | 512 KB (8-utas) | 1 MB (8-utas) | 1 MB (16-utas) |
L3 cache | - | 2 MB | - | - |
SIMD | MMX, SSE,SSE2 | MMX, SSE, SSE2 | MMX, SSE, SSE2, SSE3 | 3DNow!, MMX, SSE, SSE2 |
Hyper-Threading | + | + | + | - |
Foglalat | Socket 478 | Socket 478 | Socket 478, később Socket T | Socket 754, később Socket 939 |
A következő négy oldalon részletesen ismertetjük a Prescottnak a táblázatban csupán címszavakban felsorolt mikroarchitekturális és gyártástechnológiai jellemzőit, majd egy átfogó teszt keretében vallatóra fogjuk a processzort, hogy választ kapjunk arra kérdésre: vajon a módosított architektúra hoz-e kézzelfogható előnyöket számunkra, végfelhasználók számára.
Egy új processzor
A Prescott magja
A Prescott egyik váratlan újítása a rendkívül hosszú futószalag: az Intel mérnökei igen merészen 20 fokozatról 31 fokozatra növelték a futószalag hosszát.* A radikális lépést a működési frekvencia skálázhatóságának kitolása indokolta, hiszen azáltal, hogy az utasításvégrehajtást több részfeladatra bontja le a processzor, a részfeladatokat végző áramköri elemek bonyolultsága csökkenthető, és így növelhető az órajel. Az Intel célkitűzései szerint a módosított architektúra 4-5 GHz-ig skálázódik. A futószalag-fokozatok számának növelése azonban a gyakorlatban a processzor teljesítményének csökkenéséhez vezethet: jó példa erre az első Pentium 4 processzor (Willamette), amely azonos órajelen látványosan gyengébb teljesítményt nyújtott, mint a 10 fokozatú futószalaggal ellátott Pentium III. Joggal várhatnánk tehát, hogy a Prescott gyengébb teljesítményt nyújt, mint elődje; a bevezetett további mikroarchitekturális változtatások jelentős része éppen a hosszabb futószalag okozta teljesítménycsökkenés minimalizálását szolgálja.
Elágazásbecslés
Hirdetés
Ilyen a javított hatékonyságú elágazásbecslés. Jól ismert tény, hogy az elágazások (GO TO, IF-THEN-ELSE) kezelése komoly kihívást jelent a processzortervezők számára, hiszen az elágazáskezelő logika hatékonysága jelentős mértékben befolyásolja a chipek teljesítményét. A modern mikroprocesszorok jelentős része – így a Pentium 4 vagy az Athlon 64 – az elágazásokat spekulatív módon hajtja végre. Ez azt jelenti, hogy a processzor megbecsüli a feltétel eredményét és a becslésnek megfelelő ágon folytatja a program végrehajtását. Ám ha a becslés hibás volt, a processzornak törölnie kell a spekulatív módon végrehajtott utasításokat, vissza kell állítania az elágazás előtti állapotot, és a helyes ágon kell megkezdenie a végrehajtást. Ez egy 31 fokozatú futószalagot tartalmazó processzor esetében számos ciklusnyi kiesést jelent, ami – figyelembe véve, hogy egy általános célú program minden 4-6. utasítása elágazás – komoly teljesítménycsökkenéssel járhat.
A Prescott statikus elágazásbecslő logikája intelligensebb, mint a Northwoodé. A Northwood ugyanis minden feltételes visszaugráshoz határozott elágazás értéket rendel, azaz úgy becsüli, hogy a feltételtől függő ugrást végre kell hajtani. Ez a statikus szabály rendkívül hatékonyan alkalmazható a programkódban található ciklusok végrehajtása során, hiszen ezek kizárólag visszafelé mutató elágazást tartalmaznak. De nem minden feltételes visszaugrás cikluszáró utasítás. Ezeknek a kivételeknek az azonosítására szolgál az a logika, amelyik megvizsgálja, hogy milyen távoli a feltételes visszaugrás: általánosságban elmondható ugyanis, hogy a cikluszáró ugrások rövidebbek.
A Prescott dinamikus elágazásbecslése is hatékonyabb, mint a korábbi Pentium 4 modelleké: az Intel mérnökei a Pentium M processzorban használt megoldást ültették át a Prescottba. A vállalat mérései szerint a fejlettebb elágazáskezelésnek köszönhetően a SPEC CPU2000 teszt alkalmazásaiban átlagosan 13 százalékkal csökken a téves becslések száma.
Ütemezés
Az utasítások hatékony ütemezése a modern – soron kívüli végrehajtást támogató szuperskalár – processzorokban rendkívül fontos a teljesítmény szempontjából. Az utasításütemező feladata, hogy a processzor végrehajtóegységeit – amennyire csak lehetséges – folyamatosan dolgoztassa. Azonban minél hosszabb a futószalag, annál nehezebb a dolga az ütemezőnek, hiszen annál több utasítást kell okosan (a köztük lévő függőségeket elemezve) sorba állítania végrehajtásra. Az ütemezők hatékonyságát javítandó növelték meg a Prescottban a lebegőpontos ütemezőpuffer és néhány további puffer méretét, így az ütemezők több utasítás közül választhatják ki a végrehajtásra legalkalmasabb jelölteket.
Szintén a hatékonyabb ütemezés érdekében vezette be az Intel az egymástól függő betöltő (load) és tároló (store) utasítások intelligens kezelését. Az utasítások párhuzamos végrehajtása során gyakran előfordul, hogy olyan adatra (például egy szorzás eredményére) van szükség egy művelethez, amely még nem került visszaírásra a gyorsítótárba. Ilyenkor az adatot betöltő utasítás mindaddig nem hajtódik végre, míg a korábbi eredmény nem került tárolásra. A Prescott azonban tartalmaz egy becslő logikát, amelynek az a feladata, hogy megjósolja: egy tároló utasítás eredményére szüksége lehet-e egy közeli betöltő utasításnak, és ha igen, a betöltés ütemezését késlelteti.
* A mikroprocesszorok teljesítménye jelentősen növelhető az utasítások végrehajtásának párhuzamosítása (azaz egy időben több utasítás végrehajtása) révén. A futószalagelvű utasításvégrehajtás a párhuzamosítás egyik régóta alkalmazott technikája. A processzor futószalagja egy ipari gyártósorhoz hasonlítható. Egy gépkocsi elkészítése számos lépésből áll, minden egyes lépés valamit hozzáad a készülő járműhöz. A gyártósoron az egyes lépések végrehajtása párhuzamos, minden egyes lépésben egy újabb autó kerül szerelésre. A processzor szintén lépésekre, részfeladatokra bontja az utasítások végrehajtását, és minden egyes lépésben az utasítás egy-egy részét hajtja végre. Akárcsak a gyártósoron, az egyes lépések végrehajtása párhuzamosan folyik újabb és újabb utasításokon, azaz – optimális esetben – minden lépésre jut egy utasítás. A futószalag fokozatainak száma az utasítás végrehajtásához szükséges részfeladatok számát adja meg.
Cache, SSE3 és Hyper-Threading
A Prescott – a már jó ideje szárnyra kapott híreknek megfelelően – megnövelt méretű gyorsítótárat tartalmaz. Az új processzorban 16 kbyte méretű, 8-utas csoportasszociatív elsőszintű adatcache található (a Northwoodban 8 kbyte méretű, 4-utas csoportasszociatív). Az elsőszintű utasításcache, a már dekódolt mikroutasításokat naplózó execution trace cache mérete nem változott, az továbbra is 12 000 mikroutasítást képes tárolni (ez körülbelül 8-16 kbyte méretű hagyományos utasításcache-nek felel meg). Megkétszereződött ugyanakkor a másodszintű gyorsítótár, amelynek mérete 1 MB lett.
A gyorsítótárak azonban nem csupán nagyobbak, de lassabbak is lettek. A cache késleltetésének növekedését jól illusztrálja az alábbi grafikon, melyen a CPU-Z programmal mért adatokat tüntettük fel. A feltüntetett számok órajelciklusban értendőek, 64 byte stride és minden esetben a cache méretének megfelelő blokkméret mellett:
Végrehajtó egységek
Amint az az alábbi blokkdiagramon látható, a Pentium 4 processzorban három darab ALU (integer végrehajtó egység) található. Ezek közül kettő az egyszerű fixpontos műveleteket hajtja végre, és a magsebesség kétszeresének megfelelő frekvencián üzemel (2x ALU). A harmadik, lassabb – magsebességen működő – végrehajtó egység (VE) a komplexebb műveletek elvégzéséért felelős. A gyorsabb integer műveletvégzés érdekében a Prescottban a lassabb ALU-ból a 2x ALU-ba került a léptetés (shift) és forgatás (rotate) utasításokat végrehajtó egység, így ezek a műveletek gyorsabban hajtódnak végre.
A Prescott sematikus felépítése
További újítás, hogy az új processzor gyorsabban végez az egész számú szorzásokkal is, köszönhetően a dedikált integerszorzó (iMul) egységnek. A Northwood az egész számokkal végzett szorzást a lebegőpontos egységben hajtotta végre, majd az eredményt átadta az ALU-nak – ami jelentős késleltetéssel járt. A dedikált szorzónak köszönhetően az adatok végrehajtó egységek közötti mozgatásával járó extra ciklusok megtakaríthatók.
SSE3 és Hyper-Threading
A Prescottban mutatkozik be a korábban Prescott New Instructions (PNI) néven ismert SSE3 utasításkészlet is. Az SSE3-mal 13 új utasítás válik elérhetővé: 5 utasítással bővül az összetett aritmetikai és 4 utasítással a 3D-s grafika gyorsításáért felelős műveletek sora, 1 utasítás szolgál a lebegőpontos-fixpontos konverzió megvalósítására, 1 a videokódolás gyorsítására, míg 2 a Hyper-Threading technológia hatékonyabb kihasználására.
Az Intel dokumentumainak tanúsága szerint a szimultán többszálú végrehajtást lehetővé tevő Hyper-Threading általában is jobb hatékonysággal működik, mint a Northwoodban. Ez a nagyobb gyorsítótárak és a megnövelt méretű pufferek mellett a továbbfejlesztett hardveres előbehívő (prefetch) logikának is köszönhető. Az SSE3 részeként bevezetett 2 új HT-utasítás (Monitor, Mwait) az egyes programszálak futásának üresjáratait segít kiküszöbölni. Ezek kihasználásához az operációs rendszer kernelszintű frissítésére van szükség, így a HT-teljesítményre gyakorolt hatásukat csak egy kompatibilis Linux-kernel vagy Windows-javítócsomag megjelenését követően tapasztalhatjuk majd meg.
Gyártástechnológiai ugrás
Az Intel a Prescott processzorokat – a Dothan kódnevű Pentium M-hez hasonlóan – 90 nanométeres technológiával gyártja. A nagyobb gyorsítótárak alkalmazását és az ismertetett további mikroarchitekturális fejlesztéseket a kisebb csíkszélesség bevezetése tette lehetővé, hiszen a 125 millió tranzisztort tartalmazó processzor 0,13 mikronos csíkszélesség mellett a gyártás gazdaságosságát ellehetetlenítő monstre magmérettel rendelkezett volna. Az áramkörök sűrítése terén azonban látványos munkát végeztek a vállalat mérnökei: a rendkívül magas tranzisztorszám ellenére a Prescott magmérete mindössze 1122. Összehasonlításként: a 20 millió tranzisztorral soványabb AMD Opteron processzor magmérete 1142 lesz 90 nanométeren. A miniatürizálási siker nem kis részben annak köszönhető, hogy az Intelnek sikerült a gyorsítótárak építőelemeit alkotó, 6 tranzisztorból álló SRAM memóriacellákat 1,15 u2-nyi területre sűrítenie – ez pedig rekordnak számít az iparágban.
A kisebb áramköri elemek kialakításához a vállalat először alkalmazott 193 nanométeres hullámhosszú fényt használó litográfiai berendezéseket, szemben a 0,13 mikronos gyártás során felhasznált 248 nanométeres eszközökkel. A félvezető áramkörök gyártása során ezekkel a berendezésekkel alakítják ki az áramkör rajzolatát hordozó maszkok átvilágításával a lapka egyes rétegeinek mintázatát, azaz magukat az áramköri elemeket.
Forrás: IBM Research
Sorozatgyártásban szintén a Prescott esetében alkalmazta először az Intel az IBM által kifejlesztett feszített szilícium (strained silicon) technológiát. Ennek – a tranzisztorok teljesítményét javító – megoldásnak a hátterében az a felismerés áll, hogy egyes ásványok atomjai természetüknél fogva idomulnak egymáshoz. Amennyiben szilíciumot helyeznek egy lazább atomi szerkezetű hordozóra (mint amilyen szilícium-germánium), a szilícium atomjai idomulnak a hordozóéihoz, és lazább szerkezetbe rendeződnek, így pedig a töltéshordozók akadálytalanabbul, gyorsabban áramolhatnak a csatornában. Az Intel adatai szerint a feszített szilíciumot használó tranzisztorok teljesítménye 10-20 százalékkal nő. Emellett a processzort alkotó egyes tranzisztorok kapuelektródáját nikkelszilicid sapkával látták el, ami – a gyártó állítása szerint – szintén elősegíti az elektronok szabadabb áramlását.
A Prescott tranzisztora
A Prescott áramköri elemei felett hét rétegben helyezkednek el az áramköri elemeket összekötő mikroszkopikus rézvezetékek; a Northwood esetében még hatrétegű huzalozást alkalmazott gyártó. A vezetékrétegek számának növelése ugyan bonyolultabbá teszi a gyártás folyamatát, de hozzájárul a magméret csökkentéséhez. A vezetékek szigeteléséhez korábban még nem alkalmazott alacsony k állandójú (low k) dielektrikumot, CDO-t (carbon-doped oxide-ot) használtak, amely a 0,13 mikronos gyártásnál használt SiOF (fluorine-incorporated silicon oxide) szigetelőréteghez képest közel 20 százalékkal csökkenti a kapacitív ellenállást. Íme egy közelkép a Prescott vezetékrétegeiről:
Fogyasztás
A fejlettebb gyártástechnológia alkalmazása általában a processzorok fogyasztásának csökkenését eredményezi: az azonos órajelen futó, de eltérő technológiával előállított lapkák között jelentős különbségek mutatkoznak a disszipációs mutatókban – a kisebb csíkszélességű változatok javára. A Prescott azonban szakít ezzel a hagyománnyal. A 90 nanométeres technológiával gyártott chip jóval többet fogyaszt, mint a Northwood, és lehagyja még a 169 millió tranzisztort tartalmazó Pentium 4 Extreme Editiont (Gallatin) is. A disszipációs mutatók romlásáért feltehetően a csíkszélesség csökkentésével egyre komolyabb problémát okozó szivárgási áram tehető felelőssé.
Átlagos disszipáció (Watt) | |||
Órajel | Northwood | P4EE (Gallatin) | Prescott |
2,8 GHz | 69,7 | - | 89 |
3 GHz | 81,9 | - | 89 |
3,2 GHz | 82 | 92,1 | 103 |
3,4 GHz | 89 | 102,9 | 103 |
Forrás: Intel
A gyakorlatban a különbségek még látványosabbak. Amint azt a ZDNet által végzett mérések igazolják, a Prescott-alapú rendszerek fogyasztása jelentősen magasabb, mint a hasonló kategóriájú Northwood- vagy Athlon 64-alapú számítógépeké. Az alábbi eredményeket a lap munkatársai 256 MB memóriával és ATI Radeon 9800 Pro videokártyával felszerelt rendszerek vizsgálata során mérték:
Disszipáció (Watt) | ||||
Alaplap | Processzor | Üresjárat | Teljes terhelés | Cool'n'Quiet |
Asus P4C800 | P4 3.2E GHz (Prescott) | 165 | 248 | n/a |
Asus P4C800 | P4 3.2 GHz (Northwood) | 125 | 179 | n/a |
Intel D875PBZ | P4 3.2E GHz (Prescott) | 145 | 242 | n/a |
Intel D875PBZ | P4 3.2 GHz (Northwood) | 113 | 182 | n/a |
Asus K8V Deluxe | Athlon 64 3200+ | 158 | 168 | 120 |
Fujitsu Siemens D1607 | Athlon 64 3200+ | 148 | 156 | 110 |
Forrás: Intel Prescott: the benchmarks, ZDNet
Mindez természetesen azt is jelenti, hogy a Prescott melegebb, mint elődje – az Intel dokumentumai szerint azonban nem igényel sajátos hűtőt, a Pentium 4 processzorokhoz jelenleg is hozzáférhető modellek kielégítő hűtést biztosítanak. Az alábbi értékeket a teszteléshez kapott gyári Intel hűtőventilátorral mértük:
Prescott vs Northwood - hőmérsékleti értékek | ||||
Hyper-Threading kikapcsolva | ||||
Üresjáratban | Teljes terhelés alatt | |||
Northwood 3,2 GHz | 44°C | 48°C | ||
Prescott 3,2 GHz | 56°C | 60°C | ||
Különbség | +12°C | +12°C | ||
Hyper-Threading bekapcsolva | ||||
Üresjáratban | Teljes terhelés alatt | |||
Northwood 3,2 GHz | 34°C | 52°C | ||
Prescott 3,2 GHz | 45°C | 63°C | ||
Különbség | +11°C | +11°C |
A jelentős fogyasztás miatt a Prescott processzorok nem feltétlenül működnek együtt a korábbi alaplapokkal. Az Intel dokumentumai szerint kizárólag a 2,8 és 3 GHz-en futó modellek használhatók garantáltan minden, 800 MHz-es rendszerbuszt támogató Pentium 4-es lapban. A 3,2 és 3,4 GHz-es változatok már a robosztusabb FMB 1.5 (Flexible Motherboard 1.5) specifikációnak megfelelő, "Prescott ready" alaplapokkal párosíthatók csupán.
Tesztprogramok, konfiguráció
A processzorral végzett mérések során az alábbi tesztprogramokat használtuk:
-
Szintetikus benchmarkok
-
AIDA v3.90
-
Sandra 2004
-
Cachemem v2.65
-
Sciencemark v2.0
-
-
Tömörítés
-
WinACE v2.5
-
WinRAR v3.3
-
7-Zip v3.13
-
-
Konvertálás-kódolás
-
MainConcept MPEG Encoder v1.4.1
-
XMpeg v5.03 és DivX 5.1.1
-
Windows Media Encoder 9
-
Lame Ain't MP3 Encoder v3.95
-
OGGEnc v1.0.1
-
-
Renderelés
-
Discreet 3ds max 6
-
NewTek Lightwave 3D 7.5
-
Cinebench 2003
-
Pov-Ray v3.5
-
-
Professzionális grafikus alkalmazások
-
Specviewperf v7.1
-
-
Játékok
-
Quake III Arena v1.32
-
Wolfenstein Enemy Territory
-
Unreal Tournament 2003 v2225
-
Splinter Cell v1.02B
-
Tomb Raider: Angel of Darkness v49
-
Halo Combat Evolved v1.02
-
FutureMark 3DMark2001SE B330
-
-
Egyéb
-
Photoshop 7.0.1
-
SETI@home v3.08
-
A tesztkonfigurációk pedig a következőképpen alakultak:
Konfiguráció / összetevők |
Prescott konfig | Northwood konfig | Athlon 64 konfig |
Processzor | Intel Pentium 4 3,2E GHz (Prescott) | Intel Pentium 4 3,2C GHz (Northwood) | AMD Athlon 64 3200+ |
Alaplap | Intel D875PBZ (Intel 875P) BIOS rev. BZ87510A.86A.0091.P21 | Albatron K8X800 Pro II (VIA K8T800) BIOS rev. 1.06 | |
Memória | Corsair TwinX CMX512-4000Pro CAS 3-4-4-7, 1 GB összesen | ||
Videokártya | Gecube ATI Radeon 9800 Pro (400/350 MHz) | ||
Merevlemez | Seagate Barracuda ATA IV 60 GB | ||
Operációs rendszer | Windows XP Professional + Windows XP Service Pack 1 + DirectX 9.0B SE | ||
Chipset-driver | Intel Inf Update 5.1.1.2.1002 | VIA Hyperion v4.49pv | |
VGA-driver | ATI Catalyst 4.1 |
Szintetikus tesztek
Memória-sávszélesség
A memóriaelérés sebességének mérése során meglepő eredményeket kaptunk. A Sandra adatai szerint nincs jelentős különbség a Northwood és a Prescott között, noha a továbbfejlesztett hardveres előbehívásnak és a nagyobb gyorsítótárnak köszönhetően gyorsabb memóriaelérést várnánk. És várakozásunkat be is igazolja az AIDA32, amely tisztes, ~1000 MB/mp-es sebességkülönbséget mér a Prescott javára. Ez nem kevés. A Sandra rutinjai itt, úgy tűnik, csődöt mondtak.
Szintetikus processzorsebesség-mérés
A ScienceMark egy szintetikus tesztprogram, amely MMX-, SSE-, SSE2-, 3DNow!- és Hyper-Threading-optimalizációval rendelkezik – nem véletlenül került tesztprogramjaink közé. A Molecular Dynamics benchmark különböző anyagok termodinamikai magatartásának szimulálására szolgál, és dinamikus molekuláris szimulációt végez el 216 darab argonatommal. Az egyes tesztek részletes leírása itt olvasható. A Prescott itt leszerepel: a Northwood bekapcsolt HT-val könnyedén veszi az akadályt, és még az Athlon 64-es processzort is utoléri. Érdekes, hogy HT nélkül mindkét Intel-processzor azonos eredményt ér el, azonban bekapcsolt HT mellett a Northwood az erősebb. Későbbi tesztjeink ezzel szemben azt mutatják, hogy a Prescott HT-implementációja hatékonyabb.
A Primordia a periódusos rendszer bármelyik atomja elektronjainak mozgását képes kiszámolni. A Prescott ismét gyengébben teljesít, mint a Northwood, amely ezúttal is sikeresen veszi az akadályt az Athlon 64-es processzor ellenében. A Primordia esetében a két Intel-processzor a Hyper-Threading bekapcsolásának hatására azonos mértékben, ~20 %-kal gyorsul.
Tömörítés, konvertálás
Tömörítés
Valós alkalmazásokat futtató tesztjeink sorában az első a tömörítés: a felhasználók többsége nap mint nap használja a mérésre használt programokat. A WinACE és a WinRAR – noha nem használja a HT technológiát – Prescott-barátnak tűnik, és az új processzor 7-Zip alatt további előnyre tesz szert a HT-támogatásnak köszönhetően. A tömörített könyvtár mérete 227 MB.
Konvertálás-kódolás
Ismert program a MainConcept MPEG-enkódere, mellyel egy 70 MB-os AVI fájlt konvertáltunk át MPEG2 formátumba. A program támogatja a Hyper-Threadinget – legalábbis az MPEG2-kódolás esetén, MPEG1-kódolásnál még bugos a támogatás. Ezúttal a Northwood a Prescott-tal egy szinten teljesít, azonban a közhiedelemmel ellentétben (ti. kódolásra csakis a P4-et jó) az Athlon 64 jobbnak bizonyul mindkettejüknél, HT ide vagy oda.
Az eredményül kapott 600 MB-os MPEG2 fájlt ezek után átkonvertáltuk DivX AVI formátumba. A DivX 5.1.1 azon kevés alkalmazások egyike, amelyik már támogatja az SSE3 utasításkészletet, ez azonban nem látszik az eredményeken. A Prescott a javított Hyper-Threadingnek köszönhetően győzi le elődjét.
Végül egy 12 MB-os MPG fájlt konvertáltunk WMV formátumba a Windows Media Encoder 9 segítségével, amelyről köztudott, hogy Hyper-Threadingre is optimalizált. A WMV-kódolásban a Prescott majdnem pariban van a Northwooddal, míg az Athlon 64-nek nincs sok beleszólása kettejük párharcába.
A LAME mp3-kódoló számára elsősorban az órajel számít. A szoftver támogatja az MMX és az SSE2 utasításkészleteket, HT-t azonban nem. Ennek megfelelően a Prescott ezúttal sem tud felülkerekedni. Az Athlon 64 ebben a tesztben ismét csak messziről nézi a két Pentium 4 csatáját. A tesztfájl 118 MB méretű, hossza pedig 5 perc 50 másodperc volt.
Az OGG enkóder – a LAME-mel ellentétben – láthatóan kevésbé kedveli a hosszabb futószalagot, így az Athlon 64 jóval alacsonyabb órajele ellenére is felül tud kerekedni a Prescotton. A tesztfájl mérete 209 MB, hossza pedig 20 perc 43 másodperc volt.
Renderelés
A professzionális 3D-modellező programok alatt nyújtott teljesítményt elsőként a 3ds max alatt mért eredményekkel illusztráljuk. Fontos adalék, hogy e szoftver esetében a sebesség nagyban függ a használt plugintől, amely vagy kihasználja, vagy nem az újabb processzorok kiegészítő utasításkészleteit és szolgáltatásait.
Elsőként a 3ds max saját renderét próbáltuk ki, a MAX scanline renderert; ez támogatja a Hyper-Threadinget. E tesztben a leggyorsabbnak a Northwood bizonyult, utána következik az Athlon 64, majd a sort a Prescott zárja. A beépített renderer nem támogatja még az SSE2-t.
Második pluginünk a V-Ray, amely az eredmények tanúsága szerint már inkább barátja a Prescottnak, de még mindig a Northwood a befutó. Az Athlon 64 itt már csak a gyertyatartó szerepét kapta.
A Cebas Finalrender Stage-1 egy újnak számító plugin, telepítéskor például rákérdez, hogy régebbi (P2, P3, Athlon) vagy újabb (P4, Athlon XP) processzoros rendszerünk van-e. Valószínűleg ennek köszönhető, hogy ebben a tesztben az előző kettővel ellentétben a Prescott a győztes.
Lightwave-vel is végeztünk méréseket. Az első tesztben meglepő módon az Athlon 64 lett a győztes, a Prescott pedig ezúttal még HT-vel sem volt képes felnőni a Northwoodhoz.
A Cinebench 2003 egy ingyenes benchmark, amely a CINEMA 4D R8 szoftverre épül. A program egy képet renderel le, a lefutott teszt idejét vagy pontszámát lehet feljegyezni. Mi ezúttal a pontszámot jegyeztük fel, ez ugyanis megmutatja azt is, hogy processzorunk hogyan teljesít egy 1 GHz-es Pentium III-hoz képest (100 pont = 1 GHz-es Pentium III). A Cinebench esetében a Northwood közel 14%-kal gyorsabb az azonos órajelen járó Prescottnál.
A POV-Ray a mostanság használatos ray-tracing render programok "elődje", azonban már használja az SSE és SSE2 utasításkészletet, a Hyper-Threadinget viszont nem támogatja. A Prescott ebben a tesztben is alulmarad a Northwooddal szemben.
A Specviewperf grafikus számításokat szimulál, amelyeket különböző professzionális designer, modellező és mérnöki alkalmazások generálnak.
-
3dsmax-02: a SPECapc-n alapul, amelyet OpenGL driverrel 3ds max 3.1-re konfiguráltak
-
drv-09: az Intergraph DesignReview modellező csomagjára épül, 5 különböző tesztből épül fel
-
dx-08: az IBM Data Explorer alkalmazására épül, 10 különböző teszt
-
light-06: a Discreet Lightscape radiosity alkalmazására épül 4 különböző teszttel
-
proe-02: a SPECapc for Pro/ENGINEER 2001 alkalmazásra épül, két modellt mér le három módban: shaded (árnyékos), wireframe és hidden-line removal (HLR)
-
ugs-03: a SPECapc for Unigraphics V17-re épül, a program egy 2,1 millió háromszögből álló motor modelljét manipulálja
Ezek az alkalmazástípusok tipikusan nagy adatcsomagok renderelésére szolgálnak. Mind a hat teszt relatív high-end alkalmazásokat reprezentál. A hat tesztből a Prescott nyer meg négyet, ami kissé meglepő az eddig eredményeket figyelembe véve. Minthogy a program nem támogatja Hyper-Threading technológiát, az új processzor jó szerepléséért nagyrészt a nagyobb memória-sávszélesség felelős.
Játékok
Az OpenGL API-t használó játékokban az Athlon 64 processzor fölénye kimagasló. A régi Quake3-motor még nem támogatja az SSE2 és SSE3 utasításkészletet és a Hyper-Threadinget, ami ezúttal döntő tényezőnek bizonyul. Az Athlon 64 esetében használtuk az SSE-re optimalizált DLL-eket Quake3 alatt, míg a Wolfenstein esetében nem, mert nincs ilyen pluginről tudomásunk. Ezekben a tesztekben a Prescott hol valamivel lassabb, mint a Northwood, hol pedig azzal azonos eredményt ér el.
A Direct3D-re épülő DirectX7-es, de már néhány DirectX 8-as shadert támogató UT2003 igazi gépizzasztó játék. Az Intel-processzorok versenyét – minimális különbséggel ugyan, de – a Northwood nyeri ismét.
A 3DMark2001SE-ben a Prescott a közel 20%-kal nagyobb memória-sávszélességének köszönhetően felülkerekedik a Northwoodon, azonban még ez sem elég a boldogsághoz az Athlon 64 ellenében.
Következő két játékunkban folytatódik a tendencia, és az Athlon 64 mögött lemaradva küzd egymással a két Intel-processzor. Míg a Splinter Cellben a Prescott bizonyul gyorsabbnak minden felbontásban, addig a Tomb Raiderben a Northwood állja jobban a sarat – egészen 800x600-as felbontásig. 1024x768-as felbontásban a játék már VGA-limitált.
A Halo alatt mért eredmények igen vegyes képet mutatnak: 640x480-as és 800x600-as felbontásban a Northwood és a Prescott azonos fps-t produkál, ráadásul ez az fps-szám több, mint amit az Athlon 64 tud felmutatni, azonban 1024x768-as felbontásban fordul a kocka. Itt a Prescott valamivel gyorsabb, mint a Northwood. Érdemes még megjegyezni, hogy a teszt során kipróbáltuk a Halót kikapcsolt HT-val is, és érdekes módon hol gyengébb, hol jobb eredményeket produkáltak az Intel-processzorok ebben a helyzetben: mintha "félig" HT-optimalizált is lenne a játék.
Photoshop, SETI
A Photoshopban egy PS7Bench nevű actiont futtattunk le, és a rengeteg szűrővel megrakott szkript lefutásához szükséges időt jegyeztük fel. A Photoshop szintén egy érdekes jószág, ugyanis nem maga a program, hanem a különböző szűrők támogatják a Hyper-Threading technológiát (míg a program maga támogatja az SSE és SSE2-t is). Az action számos Radial Blur, Polar Coordinates, Watercolor és Pointillize szűrőt tartalmazott.
Végül pedig SETI-ben egy csomag kiszámításának idejét jegyeztük fel, türelmetlenségünknek hála a csomag teljes kiszámolását nem vártuk végig, hanem 12,46%-nál abbahagytuk a stopperolást. A Prescott ebben a tesztben közel másfél perccel gyorsabb a Northwoodnál, amely 9 másodperccel gyorsabb az Athlon 64-nél. A program nem támogatja a HT-t.
A Hyper-Threading áldásai
A tesztek során arra a kérdésre is választ kerestünk, hogy vajon mérhető-e, észrevehető-e mindennapi használat közben a Prescott – papíron – hatékonyabb Hyper-Threading-implementációjának teljesítménynövelő hatása.
Hyper-Threading teszt | Prescott HT On | Prescott HT Off | Northwood HT On | Northwood HT Off | Athlon 64 |
Photoshop Action lefutásának ideje (p:mp) | 9:13 | 13:16 | 9:35 | 13:40 | 10:47 |
miközben a NAV vírust keres (darab fájlt scannelt) | ~86000 | ~110000 | ~91000 | ~110000 | ~110000 |
Másodpercenkénti bescannelt fájlok száma | ~155 | ~138 | ~158 | ~134 | ~170 |
Először azt vizsgáltuk, hogy miközben a Norton Antivirus 2003 a háttérben vírust keres a merevlemezen, mennyi idő alatt fut le ugyanaz a Photoshop-action, melyet korábbi méréseink során is használtunk. Az action lefutásához szükséges idő mellett azt is feljegyeztük, hogy a vírusirtó ezidő alatt hány fájlt szkennelt át. Tesztünkben a Prescott szerepelt a legjobban, hiszen a legrövidebb idő alatt végzett a Photoshop-szkript futtatásával, és emellett 155 fájlt ellenőrzött le másodpercenként, ami versenyképes eredmény. A Northwood némileg lassabban végzett a munkával, viszont ezt másodpercenként hárommal több leellenőrzött fájllal hálálta meg. Figyelemre méltó, hogy a többszálú végrehajtást nem támogató Athlon 64 ellenőrizte le másodpercenként a legtöbb fájlt, ellenben a szkripttel versenytársainál sokkal lassabban végzett.
Hyper-Threading teszt | Prescott HT On | Prescott HT Off | Northwood HT On | Northwood HT Off | Athlon 64 |
WinRAR tömörítés ideje (p:mp) | 2:38 | 5:33 | 2:57 | 6:20 | 4:26 |
miközben az ACDSee BMP fájlokat konvertál PNG-re (darabszám) | 33 | 64 | 41 | 99 | 54 |
1 percre jutó átkonvertálások száma | ~12 | ~11 | ~14 | ~15 | ~12 |
Következő tesztünkben arra voltunk kíváncsiak, hogy a háttérben futó ACDSee, amely 1600x1200-as BMP fájlokat konvertál PNG formátumba, hány konvertálással végez, miközben tömörítünk. Nem volt elég ACDSee-ben jól teljesíteni, hiszen mértük a tömörítés végrehajtásának idejét is. Amint látható, a Prescott ismét jól szerepel, míg a valamivel lassabban tömörítő Northwood ezúttal is több fájlt konvertál. Százalékban kifejezve: a Prescott 11%-kal gyorsabban végez a Northwoodnál, viszont a Northwood 15%-kal több kép átalakításával készül el adott idő alatt.
Hyper-Threading teszt | Prescott HT On | Prescott HT Off | Northwood HT On | Northwood HT Off | Athlon 64 |
MPEG2-ből DivX AVI konvertálásának az ideje (p:mp) | 3:50 | 4:09 | 4:11 | 4:07 | 4:06 |
miközben a Quake III-mal játszunk (fps) | 114 | 71 | 116 | 71 | 70 |
Utolsó tesztünkben pedig azt mértük, hogy miközben a Quake 3-mal játszunk, mennyi idő alatt készül el az MPEG-DivX AVI konverzió a háttérben. A Prescott ismét jól szerepel, versenytársainál gyorsabban végez az átalakítással, és noha nem ő produkálja a legtöbb fps-t a játék alatt, hátránya mindössze 2 fps. A Hyper-Threading technológia előnye az alkalmazások párhuzamos futtatásakor itt igen szembetűnő. Míg a fájlkonvertáláshoz szükséges idő nem változik jelentős mértékben a HT ki- és bekapcsolásával, addig a játék más sebességfokozatra kapcsol a HT aktiválása mellett.
Tuning
A tuningot a cikk végére hagytuk, amolyan bónuszként, hiszen nem mindenkinek kenyere a megahertzek kergetése. Akinek mégis, annak feltehetően nagy elvárásai vannak az új architektúrával szemben, köszönhetően a 0,09 mikronos gyártástechnológiának és az eleve magasabb órajelekre tervezett felépítésnek. A Prescott legjobb tudomásunk szerint maximálisan 3,6 GHz-es órajelet ér el a Socket 478-as foglalatban, majd az Intel áttér az LGA775-ös (Socket T) tokozásra. Érdekesebb lenne tehát az LGA775-ös Prescottot vizsgálni, erre azonban egyelőre nincs lehetőség.
A szorzózár-mentes mintapéldányt 3800 MHz-ig tudtuk stabilan túlhajtani, ehhez az 1,35 voltos alapfeszültséget 1,425 voltra kellett emelni (a CPU-Z kevesebbet mutat). A legjobb teljesítményt úgy sajtoltuk ki a rendszerből, hogy a szorzót 15-szörösre állítottuk, az FSB-t pedig 253 MHz-re. A túlhajtás során persze nem a kevéssé tuningbarát Intel-alaplapot, hanem egy Abit IC7-et (1.1-es verzió), majd egy Epox 4PCA3i-t használtunk. Mindkét lap probléma nélkül vette az akadályt, a Prescott processzor hibátlanul működött bennük.
Korábbi tesztünkben (Bemutatkozik az extrém Pentium 4) már megkerestük a 3,2 GHz-es, Northwood magos Pentium 4 processzor maximális órajelét (3,52 GHz a mi esetünkben), illetve egy másik cikkünkben (Athlon 64-es lapok a szorítóban) egy Athlon 64 3200+ processzort húztunk fel 2400 MHz-re. Ezekre az eredményekre rá lehet fogni, hogy a léghűtéssel elérhető maximális órajelek közelében vannak (szórás persze mindig van). A Northwood mag körülbelül 3,4 GHz-en fullad ki, és noha szerencséseknek 3,6-3,7 GHz-en is megy a processzoruk, ez már extrém értéknek számít. Az Athlon 64 pedig 2400 MHz környékén éri el határait. Természetesen jönnek majd optimalizált magrevíziók, ám ez a Prescottra ugyanúgy igaz.
Tuningtesztek
Memória-sávszélesség
3,8 GHz-re tuningolva, szinkron 253 MHz-es FSB-vel a Prescott rendkívül impresszív 7000 MB/mp-es memóriaolvasási sebességet produkál AIDA alatt, de persze a 2300+ MB/mp-es memóriaírás sem mondható rossz eredménynek. A Northwood sem szégyenkezhet, hiszen „ő” csak 220 MHz-es FSB-n jár. Az Athlon 64 gyenge eredménye a merőben eltérő architektúrára vezethető vissza (nincs kétcsatornás memóriavezérlő, példának okáért).
Szintetikus processzorsebesség-mérés
A Sciencemark szerint a 2,4 GHz-re tuningolt Athlon 64-es processzor gyorsabb minden esetben, mint a szintén tuningolt Pentium 4-esek, ez pedig az Intel processzorokra nézve nem túl jó hír. Az Athlon 64 400 MHz-es frekvenciaemelése (memória-sávszélesség növekedés nélkül) többet ér, mint a Prescott esetében a 600 MHz-es tuning (ami a szinkron beállítás hatására memória-sávszélesség növekedéssel is jár).
Tömörítés
Emlékezzünk vissza, alapórajeleken a Prescott nem igazán érhetett az Athlon 64 nyomába (18 másodperces különbség volt köztük), viszont 3,8 GHz-re tuningolva már csak 5 másodperccel maradt el a 2400 MHz-re tuningolt Athlon 64-től. A Northwood a relatív alacsony órajelének köszönheti gyengébb szereplését.
Konvertálás
Az MPEG-AVI konvertálás esetében egy később is sokszor ismétlődő tendenciát figyelhetünk meg: a magas órajelek a streaming jellegű alkalmazások esetében megdobják a relatív teljesítményt. Bár az Athlon 64 400 MHz-es tuningja százalékban mérve nagyobb gyorsulást hozott, mint a Prescotté, a vezető processzort befogni egyelőre nincs esélye az AMD versenyzőjének (és sokáig nem is lesz).
Játékok
A 3DMark2001SE esetében – alapórajelen – a Prescott majd 1500 ponttal el van maradva riválisától, ám 3,8 GHz-re tuningolva már ~600 ponttal megelőzi annak szintén tuningolt változatát. Ez azonban kevés az örömhöz, ugyanis a Quake III és az Unreal Tournament 2003 alatt továbbra is az Athlon 64 a győztes, igaz, előnye arányaiban nem növekedett.
Ítélet
Az általunk végzett mérések eredményei azt bizonyítják, hogy az Intel mérnökei jó munkát végeztek a hosszabb futószalag teljesítményre gyakorolt negatív hatásainak ellensúlyozására: a Prescott összességében nem lassabb látványosan, mint a Northwood. Ez azonban legfeljebb a szakemberek elismerését vívhatja ki, a végfelhasználók meggyőzéséhez jelenleg nem elegendő. Mi, felhasználók ugyanis – nem elítélhető módon – teljesítménynövekedést vártunk az új processzortól, ám a végeredmény meglehetősen vegyesre sikeredett. Ezt illusztrálja táblázatunk, melyben összefoglaljuk, hogy az egyes méréseink során a Prescott százalékban kifejezve mennyivel teljesített jobban vagy rosszabbul, mint elődje:
Prescott vs Northwood | |
Szintetikus processzorsebesség-mérés | |
Sciencemark - Molecular Dynamics | -12% |
Sciencemark - Primordia | -13% |
Tömörítés | |
WinACE | 7% |
WinRAR | 8% |
7-Zip | 8% |
Konvertálás-kódolás | |
MainConcept MPEG Encoder | 0% |
XMpeg és DivX | 3% |
Windows Media Encoder | -1% |
L.A.M.E. | -16% |
OGGEnc | -16% |
Renderelés | |
3ds max - MAX Scanline renderer | -7% |
3ds max - V-Ray renderer | -5% |
3ds max - Cebas Finalrender Stage-1 | 2% |
Lightwave - StageScene Sparklers | -5% |
Lightwave - Skull head newest | 0% |
Cinebench 2003 | -13% |
POV-Ray | -7% |
Játékok - OpenGL | |
Quake III Arena - 640 / 800 / 1024 | 0% / 0% / -3% |
Wolfenstein ET - 640 / 800 / 1024 | -3% / -1% / 0% |
Játékok - DirectX | |
UT2003 Flyby / Botmatch - 640x480 | -2% / -2% |
UT2003 Flyby / Botmatch - 800x600 | -1% / -2% |
UT2003 Flyby / Botmatch - 1024x768 | -2% / -2% |
Splinter Cell - 640 / 800 / 1024 | 2% / 2% / 1% |
Tomb Raider: AOD - 640 / 800 / 1024 | -5% / -4% / 1% |
Halo - 640 / 800 / 1024 | 0% / 0% / 9% |
3DMark2001SE | -8% |
Más | |
SETI@home | 10% |
Photoshop | 0% |
Hyper-Threading tesztek | |
NAV és Photoshop | 4% |
WinRAR és ACDSee | 11% |
DivX és Quake III | 9% |
A Prescott vonzerejét az ellentmondásos teljesítmény mellett tovább gyengíti, hogy a processzor jelentősen többet fogyaszt és erőteljesebben melegszik, mint a Northwood. Az Intel ígérete szerint a harmadik negyedévben megjelennek olyan, 3,2 és 3,4 GHz-en futó változatok is, melyek a korábbi (FMB 1.0) alaplapokban is működőképesek lesznek, azonban egyelőre a gyártástechnológia gyermekbetegségei – ha másként nem, hát a hűtőbordát megérintve – kézzelfoghatók.
Az összképet bizonyosan javítja a jövőben az SSE3 utasításkészletre optimalizált alkalmazások megjelenése és a 90 nanométeres technológia beérése, de jelenleg kevés érv szól a Prescott mellett. Akárcsak annak idején a Willamette Pentium 4, a Prescott is a jövőben mutathatja ki foga fehérjét. A processzor rendkívül magas tranzisztorszáma sejtetni engedi, hogy a chip tartalmaz olyan, egyelőre nem aktivált képességeket is, melyek idővel vonzóbbá tehetik. Ilyen a LaGrande biztonsági funkció, melynek támogatására a lapka fel van készítve, de ilyen lehet a 64 bites támogatás vagy a dinamikus többszálú végrehajtás is, melyek implementálásáról pletykák szólnak.
Ami pedig a felső kategóriás asztali processzorok szélesebb skáláját illeti, az AMD Athlon 64 egyelőre könnyedén elhárította a Prescott támadását. Többen tartottak attól korábban, hogy a 90 nanométeres Pentium 4 megjelenésével ismét felborul az AMD sokszor kritizált modellszámozási rendszere; e félelem azonban alaptalannak bizonyult.
A 3,2 GHz-es Prescott processzort az Intel Magyarország bocsátotta rendelkezésünkre.
Erasmus és fLeSs