Hirdetés

Phenom II: az AMD mentőövet dob önmagának

5. Utasításvégrehajtás
1. Phenom II: bevezető 2. Phenom II: a megmentő? 3. Konfiguráció és fogyasztás 4. Gyorsítótárak, memóriaelérés 5. Utasításvégrehajtás 6. Tömörítés, videokódolás 7. 3D-s tervezés, renderelés 8. Fotó- és videofeldolgozás, további programok 9. Játékok 10. Összegző grafikonok és tuning 11. Konklúzió
Írta: fLeSs
2009-02-09 12:09

Utasításvégrehajtás

Az utasításvégrehajtással kapcsolatos különbségek feltérképezésére szintén az Everest tesztjeit vettük elő. Itt különösen érdekes lehet a Hyper-Threading használata, hiszen ezekből a tesztekből kiderül, hogy a Nehalem esetében kínról vagy áldásról van-e szó. Hogy az egyes eredmények hátterét megértsük, felvettük a kapcsolatot a program készítőivel.

A CPU Queen egy egyszerű, egész számokkal dolgozó benchmark, amely a processzorok elágazásbecslési képességeire fókuszál, és a „nyolc királynő egy sakktáblán” feladványra épül (10 x 10-es játékmezőn). A teszt MMX-, SSE2- és SSSE3-optimalizált, és kevesebb mint 1 MB memóriát foglal le. Ebben a tesztben az elágazáskezelés képességei határozzák meg a pontszámot. Nemcsak a branch prediction táblák és a becslés pontossága, a return stack mérete, hanem az is, hogy az utasításkészlet támogatja-e valamilyen módon maguknak az elágazásoknak az elkerülését (van-e CMOV vagy PABSB utasítás), illetve képes-e egyszerre párhuzamosan több bábu helyzetével számolni.

A CPU Photoworxx különböző digitális fotófeldolgozási műveleteket hajtat végre a processzorral (kitöltés, forgatás, random stb.). Ez a teszt főleg a processzorok integer számolási végrehajtási egységeit dolgoztatja meg a memória-alrendszerrel egyetemben, ezért nem skálázódik olyan jól több processzormag esetén. A teszt csak alap x86-os utasításokat használ. Photoworxx a legösszetettebb teszt, többféle méretű képpel dolgozik, sok minden számít benne, de leginkább az átlagos memóriaelérés ideje a döntő. Sokat jelentenek a jobb prefetcherek, és itt számít a legtöbbet a memória és a cache-ek hatása, márpedig a memória elérése javult, így a Photoworxx eredmény is magasabb lett.

A CPU ZLib is egy integer benchmark, amely a publikusan elérhető ZLib fájltömörítési algoritmussal méri le a processzor és a memória-alrendszer teljesítményét, ez a teszt is csak alap x86-os utasításokat használ. Itt inkább a CPU sebessége, illetve képességei számítanak (dekódolás szélessége, out-of-order load támogatása, ugrásbecslés, reordering ablak mérete), mint a memória sebessége.

A CPU AES is egy integer benchmark, amely az AES (azaz Rijndael) adattitkosító algoritmust használja. A teszt Vincent Rijmen, Antoon Bosselaers és Paulo Barreto publikusan elérhető C kódját használja ECB módban. A benchmark alap x86-os utasításokat, és összesen 48 MB memóriát használ. Itt is inkább a CPU sebessége a fontos, illetve kiugróan az out-of-order load képesség számít (a hardveres AES-támogatást leszámítva persze). A főleg végrehajtási sebességtől függő tesztek közül egyedül itt volt kimutathatóan, 8%-kal gyorsabb a felújított architektúra, ami valamelyik kisebb optimalizáció eredménye lehet.

Az FPU Julia a processzorok 32 bites (egyszeres pontosságú) lebegőpontos teljesítményét méri le a „Julia” fraktál segítségével. A benchmark kódja assemblyben íródott, és extrém mértékben használja ki az egyes AMD és Intel SIMD-utasításkészleteket (x87, 3DNow!, 3DNow!+, SSE). Az eredmények okán előző tesztünkben sokat töprengtünk, ugyanis nem értettük, hogy a K10 miért ennyivel lassabb. Végül a program készítői adták meg a magyarázatot, miszerint a Julia bench beleszalad a K8/K10-nek abba a korlátjába, hogy az architektúra nem bírja, ha cserélődnek az SSE regisztereknél az adattípusok. A Core-on ez nem gond, és emiatt gyorsabb/rövidebb kódot lehet írni.

Az FPU Mandel a 64 bites (kétszeres pontosságú) lebegőpontos teljesítményt méri le a „Mandelbrot” fraktál egyes frame-jeinek kiszámolása révén. Ez a benchmark is assemblyben íródott, és hasonlóan az FPU Juliához, kihasználja az egyes SIMD-utasításkészleteket (x87 vagy SSE2). Itt a Nehalem még HT nélkül is gyorsabb a Penrynnél. A Julia benchez képest a K10 itt azért szerepel jól (pontosabban fogalmazva nem vérzik el úgy, mint az előbb), mert a Julia belső ciklusa egyszerre 8 pixelen dolgozik, a Mandelé viszont csak 4 pixelen, emiatt a típusváltást (int/float) kiváltó kód Mandelban rövidebb és gyorsabb az AMD CPU-kon.

Az FPU SinJulia a 80 bites (kiterjesztett pontosságú) lebegőpontos teljesítményt méri le a „Julia” fraktál módosított változatának kiszámolásával. A kód assemblyben íródott, és erősen kihasználja a trigonometrikus és exponenciális x87-es utasításokat. Míg a Juliánál a raw 32 bites lebegőpontos MUL/ADD/MOV képességek számítanak, addig a SinJuliánál a legpontosabb 80 bites mód kihajtása a lényeg, és a transzcendens utasítások (sin, cos, e^x) megvalósítása. Teljes végrehajtási idő szempontjábol a sin, cos, e^x sebessége a döntő, amiben egyébként a P6 leszármazottai hagyományosan gyorsabbak.

A szintetikus tesztekből levonhatjuk a tanulságot: a Phenom II az utasításvégrehajtás szempontjából lényegében változatlan az első verzióhoz képest, a memóriára támaszkodó PhotoWorxx teszten kívül az új K10-esnek csak a CPU AES benchmarkban volt kimutatható előnye.

A cikk még nem ért véget, kérlek, lapozz!

Kapcsolódó cégek:
AMD

Azóta történt

A 2009 eleji processzorhelyzet

A két rivális ontja az újabbnál újabb, drágábbnál drágább processzorokat, de mi a helyzet a középkategóriában?
CPU-VGA párválasztó a csúcskategóriában

Ezúttal a legdrágább videokártyákat és a négymagos processzorok krémjét eresztettük össze.
Kiszivárgott az AMD legfrissebb ütemterve

Rengeteg asztali processzor jön még az idén.
AMD: végleg beolvadt az ATI

A vállalat egységes termékfejlesztési részleget alakít ki.

Előzmények

Mától elérhetőek az AM3 tokozású Phenom II processzorok

A gyártó összesen 5 új modellel jelentkezett, melyek a DDR3-as memóriákat is támogatják.
Érkezőben az új Phenom II processzorok

Feltűntek az árlistákon az első Socket AM3-as tokozású AMD termékek.
AMD: a Phenom II ára is csökken

Az alacsonyabb fogyasztói árak mellett a második negyedévben érkező új csúcsmodellről is érkeztek információk.
Hivatalosan is útnak indult a Dragon platform

Megérkezett az utolsó hozzávaló is: a Phenom II X4 processzor.