A Nagy AMD Llano APU Megateszt

3. A leleplezett Llano közelebbről
1. A fúzióig vezető rögös út 2. APU kezdődik! 3. A leleplezett Llano közelebbről 4. A leleplezett Llano még közelebbről 5. Az FCH és a rá épülő ASUS F1A75-V PRO 6. Hammertől Huskyig 7. K8-tól K12-ig - áttekintés 8. K8-tól K12-ig - a szintetikus eredmények tükrében 9. K8-tól K12-ig - a valós felhasználás tükrében 10. K8-tól K12-ig - a valós felhasználás tükrében II. 11. K8-tól K12-ig - összesített eredmények 12. A Llano és a Core i3 csatája: bemelegítés 13. Videóvágás, szerkesztés (CPU) 14. Videókódolás, egyéb (CPU) 15. Renderelés, tömörítés (CPU) 16. Játékok (CPU) 17. Második menet: GPU tesztek 18. Crysis Warhead, DiRT 3, Shogun 2 19. Metro 2033, STALKER, AvP 20. BFBC2, Starcraft 2, GPU-s konvertálás 21. Az A8-3850 APU tuningja 22. Végszó
Írta: Oliverda
2011-08-01 08:02

A leleplezett Llano közelebbről

Végül idén júniusban, néhány évnyi izzadságos fejlesztőmunka után beérett a régóta dédelgetett újítás, azaz útjára indultak az A szériás APU-k. Ahogy az előző oldalon említésre is került, végül házon belül a netbookba, ultravékony notebookba és nettopokba szánt, alacsony fogyasztású Zacate és az Ontario (ugyanaz a lapka) beelőzte a Llanót, de ennek ellenére a várhatóan jóval nagyobb számítási teljesítmény miatt a közönség részéről mégis nagyobb érdeklődés övezte utóbbit. Sokan (nem véletlenül) csak ezzel a fejlesztéssel azonosították az egész Fusion hadjáratot.

[+]

Az AMD állítása szerint a Llano az azt megelőző platformokban található, összesen 374 mm² szilíciumlapkányi területet 228 mm²-en képes kiváltani. Ebbe a 374 mm²-be a korábbi alaplapi északi híd, egy négymagos CPU és egy alsó-középkategóriás diszkrét grafikus kártya tartozik bele. Természetesen azt vegyük figyelembe, hogy a Llano egy alacsonyabb, 32 nanométeres csíkszélességen készül, azaz ennek köszönhetőn kisebb területen képes ugyanazt a tranzisztorszámot felvonultatni. Apropó, gyártástechnológia: a Llano az első 32 nanométeren tömeggyártásban érkező AMD processzor. A lapkák a GlobalFoundries drezdai üzemében készülnek, egy meglehetősen öszvér technológia keretein belül. Ez alkalmazza az AMD által már az első Athlon 64-ek és Opteronok (2003) óta gyakorlatilag folyamatosan alkalmazott SOI (Silicon-On-Insulator, szilícium a szigetelőn) technológiát, melyet – az Intel által még 45 nm-en bevezetett megoldásához hasonló, de itt gate-first megvalósításon alapuló – HKMG (High-K Metal Gate, magas k együtthatós fémkapu tranzisztor) technológia egészít ki.

Ezen túlmenően a 45 nm-es Deneb és Shanghai lapkák gyártásánál először alkalmazott immerziós litográfiát is továbbvitték a 11 fémrétegből felépülő lapka gyártásához. Mindezen technológiák ötvözése a fejlesztők szerint számottevően növeli a tranzisztorsűrűséget és csökkenti a szivárgási áramot. Jelenleg az Intel rendelkezik még 32 nanométeres processzorral. Összehasonlítás gyanánt, míg a négymagos Sandy Bridge 216 mm²-en 995 millió tranzisztort tartalmaz, addig a négymagos Llano 228 mm²-en 1,45 milliárdot. Természetesen ilyen egyszerűen nem lehet összevetni a két lapkát, hisz eltérő arányban tartalmaznak különféle részegységeket, melyek tranzisztorsűrűsége jelentősen eltérő lehet.

[+]

Míg a Sandy Bridge az x86-os CPU-magokra helyezi a hangsúlyt, addig a Llano inkább a GPU-ra gyúr. Az egyes magok méretének összehasonlítása is sokat sejtető.

forrás: www.chip-architect.com

Egyetlen Sandy Bridge mag és a szervesen hozzá kapcsolódó L3 cache szelet majdnem akkora, mint a két, 1 MB-os másodlagos gyorsítótárral operáló, Husky kódnévre hallgató x86-os Llano mag. Itt nagyon eltérő architektúrákról van szó, de azért azt tudni lehet, hogy a méret és a számítási teljesítmény általában (jó esetben) bizonyos mértékben arányos egymással.

[+]

A Llano lapka egyelőre egyféle fizikai kialakításban létezik. Ez összesen négy darab, Stars családból származó CPU magot tartalmaz és egy meglehetősen méretes GPU-t. Mindezek mellett egy összesen 24 sávból álló PCI Express vezérlő is integrálásra került, mely mellől nem maradhatott el az integrált, maximum DDR3-1866 szabványú memóriát támogató IMC sem.

A Sumo

A GPU rész gyakorlatilag a HD 5600 és 5500 sorozatokból megismert VLIW5 architektúrás Redwood kissé átdolgozott, majd Sumo névre átkeresztelt mása. Az Evergreen alapokra építkező szekció öt darab shader tömbbel rendelkezik, ezzel összesen 400 shader processzort tartalmaz. Ezek 80 utas tömbökbe rendeződnek, ami összesen 20 darab, Gather4-kompatibilis textúrázó csatornát tesz lehetővé két darab ROP blokk mellett, amelyek együttesen nyolc blending egységet eredményeznek. A lassabb verziókat a diszkrét GPU-k esetében már jól bevett gyakorlat szerint a tömbök letiltásával hozzák létre.

AMD Llano – Radeon HD magok paraméterei
Típus	Magórajel	Radeon magok száma	Dual Graphics opció	Dual Graphics társ-GPU	Grafikus mag kódneve
6550D	600 MHz	400 (5 x 80)	van	Turks	BeaverCreek
6530D	443 MHz	320 (4 x 80)	van	Turks	BeaverCreek
6410D	600 MHz	160 (2 x 80)	van	Turks	WinterPark
6370D	443 MHz	160 (2 x 80)	nincs	-	WinterPark

A módosítások között szerepel az UVD motor frissítése, mellyel a harmadik generációs UVD 3 váltotta az eggyel korábbi verziót. Ez utóbbi motor kezeli a H.264/AVC, az MPEG-2/4, a VC-1, a DivX és az XviD videók gyorsítását egészen Ultra HD felbontásig. A GPU támogatja a DirectX 11-es, az OpenGL 4.1-es, az OpenCL 1.1-es, az OpenGL ES 2.0-s, valamint a DirectCompute 5.0-s API-t, továbbá képes a Direct2D és a DirectWrite felhasználásával a weboldalak megjelenítését gyorsítani. Ezen felül támogatja a WebGL-t is, ami a böngészőablakban futó háromdimenziós animáció gyorsítását teszi lehetővé, illetve a flash animációk gyorsítása sem jelent akadályt.

Azzal, hogy ez a GPU beépítésre került a Llanóba, gyakorlatilag megszületett az első 32 nanométeres Radeon is, melyhez hasonló csíkszélességű diszkrét variáns a TSMC stratégiájának átszervezése miatt már biztosan nem lesz. Még említésre érdemes a Dual Graphics névre hallgató technológia támogatása, mely tulajdonképpen a Hybrid CrossFire utódjának tekinthető. Ennek lényege, hogy az APU-ban található grafikus processzor számítási teljesítménye egy extra GPU-t tartalmazó diszkrét kártyával még tovább növelhető. Jelen állás szerint a Radeon HD 6450, 6570 és 6670 társítható az A szériás Fusion APU-k mellé.

Egy elmaradhatatlan változás érintette a memóriavezérlést is, mely a dedikált 128 bites interfész helyett immáron az APU egyetlen 128 bites memóriavezérlőjére csatlakozik rá egy saját, GMC nevű egység segítségével. Ennek értelmében a GPU osztozik a CPU-magokkal a rendelkezésre álló, DDR3-1866 szabványú memória esetén 29,8 GB/secundumos maximális sávszélességen. Összehasonlításképpen egy Redwood-alapú, GDDR5 szabványú, 4 GHz-es effektív frekvencián ketyegő memóriával szerelt HD 5670 ennek több mint duplájával, 64 GB/s sávszélességgel gazdálkodhat önállóan. A mérnökök természetesen ezzel már a tervezés első fázisa óta tisztában voltak, és ennek okán néhány további speciális módosítást is eszközöltek. A GPU saját dedikált kapcsolatot kapott az integrált memóriavezérlőhöz (Garlic bus), így bár a GPU saját memóriaként a rendszermemória egy szeletét használja, amihez a már említett GMC-n keresztül fér hozzá, logikailag ezt a szeletet autonóm módon kezeli (akárcsak korábban a diszkrét GPU-k melletti memóriát vagy a sideport RAM-ot). Erre azért van szükség, mert míg a CPU által kezelt memória-hozzáférések szigorú előírások szerint (sorrendiség = koherencia) történnek, a GPU a saját memóriaolvasásait és írásait meglehetősen szabadon átrendezheti, ezzel növelve hatékonyságát.

Kényesebb kérdés a CPU és a GPU kommunikációja: ennek meggyorsítására létrehoztak köztük egy közvetlen buszt is (Onion bus). Ez már alapvetően előrelépés, hiszen a CPU által kezelt memória, valamint a diszkrét vagy a chipsetbe integrált GPU saját memóriája között idáig ott volt egy PCI Express kapcsolat, illetve HyperTransport-link, amin keresztül folyhatott a kommunikáció. Ezentúl sokkal egyszerűbben hozzá tudnak férni egymás memóriájához. Most vessünk egy pillantást ennek módjára!

A CPU közvetlenül az Onion buszon keresztül tudja küldeni a GPU-nak szánt adatait, amely aztán kiírja azt a Garlic buszon keresztül saját memóriájába; teheti mindezt kb. 8 GB/s sebességgel, míg a PCI Expressen keresztül ez nagyjából 6 GB/s-ben maximalizálódott. A CPU olvashatja is a GPU memóriáját, ez viszont sokkal lassabb, lévén az olvasások előtt jeleznie kell a GPU felé, hogy az fejezze be a még függőben lévő/átrendezett memóriaírásait, csak ezután olvasható a GPU-memória tartalma biztonságosan. A GPU saját memóriáján kívül (a driver által biztosított virtuálismemória-kezelés által) hozzáférhet a rendszermemória többi részéhez is közvetlenül, viszont ilyenkor figyelembe kell vennie, hogy a kért memóriatartalom akár valamely mag L1/L2 cache-ében is lehet, ezért minden ilyen kérést továbbítani kell először a magokhoz is: erre szintén az Onion buszt használja. Ha valamelyik cache-ben van a naprakész adat, akkor közvetlenül onnan kapja meg, nem kell a rendszermemóriához fordulnia.

Mindez azt eredményezi, hogy CPU által kezelt rendszermemória és a GPU saját memóriája közötti adatmásolások/adatduplázások nagy része feleslegessé válik (zero copy), hiszen az egyik fél által feldolgozott kész adatokat a másik közvetlenül felhasználhatja további számításaihoz, felszabadítva ezzel a memóriavezérlő által biztosítottt 29,8 GB/s maximális memória-sávszélesség egy részét "hasznosabb" célokra.

A cikk még nem ért véget, kérlek, lapozz!

Kapcsolódó cégek:
AMD

Azóta történt

PH!TV – Lenovo S205, az AMD APU-ja

Újabb Brazos példány érkezett a Lenovótól. Az S205 kedvező ára mellett elég lehet egy kis netezéshez, offiszoláshoz akár a suliba.
HTPC-király lehet az Asus F1A75-I Deluxe

Az apró, Mini-ITX szabványú alaplap kiváló multimédiás képességeket kínál.
Csökkentek a processzoreladások a második negyedévben

Az IDC adatai szerint az AMD a mobil és az asztali CPU-k piacán, míg az Intel a szerverek szegmensében növelte részesedését.
Visszaesőben a VGA-piac

A Mercury Research némileg meglepő eredményei szerint a rendszerszintű integráció az asztali termékekre van negatív hatással.

Előzmények

Részletek az AMD következő generációs platformjairól

A vállalat beavatta a partnereket a 2012-es tervekbe, miközben a Bulldozer architektúrára épülő processzorok augusztusi szállítását készítik elő.
Hivatalosan is elstartolt az AMD Lynx platform

A vállalat az asztali piacra egyelőre négy darab A szériás Fusion APU-t szán.
Intel Core i3-2100: az új népprocesszor

Tesztünkben megpróbálunk fényt deríteni a jelenleg legolcsóbb, Sandy Bridge alapú asztali CPU tudására.
CPU vs. VGA a csúcskategóriában

Sorozatunk legújabb részében négy processzort és négy videokártyát teszteltünk le nyolc játék alatt.