Hirdetés
A leleplezett Llano közelebbről
Végül idén júniusban, néhány évnyi izzadságos fejlesztőmunka után beérett a régóta dédelgetett újítás, azaz útjára indultak az A szériás APU-k. Ahogy az előző oldalon említésre is került, végül házon belül a netbookba, ultravékony notebookba és nettopokba szánt, alacsony fogyasztású Zacate és az Ontario (ugyanaz a lapka) beelőzte a Llanót, de ennek ellenére a várhatóan jóval nagyobb számítási teljesítmény miatt a közönség részéről mégis nagyobb érdeklődés övezte utóbbit. Sokan (nem véletlenül) csak ezzel a fejlesztéssel azonosították az egész Fusion hadjáratot.
Az AMD állítása szerint a Llano az azt megelőző platformokban található, összesen 374 mm² szilíciumlapkányi területet 228 mm²-en képes kiváltani. Ebbe a 374 mm²-be a korábbi alaplapi északi híd, egy négymagos CPU és egy alsó-középkategóriás diszkrét grafikus kártya tartozik bele. Természetesen azt vegyük figyelembe, hogy a Llano egy alacsonyabb, 32 nanométeres csíkszélességen készül, azaz ennek köszönhetőn kisebb területen képes ugyanazt a tranzisztorszámot felvonultatni. Apropó, gyártástechnológia: a Llano az első 32 nanométeren tömeggyártásban érkező AMD processzor. A lapkák a GlobalFoundries drezdai üzemében készülnek, egy meglehetősen öszvér technológia keretein belül. Ez alkalmazza az AMD által már az első Athlon 64-ek és Opteronok (2003) óta gyakorlatilag folyamatosan alkalmazott SOI (Silicon-On-Insulator, szilícium a szigetelőn) technológiát, melyet – az Intel által még 45 nm-en bevezetett megoldásához hasonló, de itt gate-first megvalósításon alapuló – HKMG (High-K Metal Gate, magas k együtthatós fémkapu tranzisztor) technológia egészít ki.
Ezen túlmenően a 45 nm-es Deneb és Shanghai lapkák gyártásánál először alkalmazott immerziós litográfiát is továbbvitték a 11 fémrétegből felépülő lapka gyártásához. Mindezen technológiák ötvözése a fejlesztők szerint számottevően növeli a tranzisztorsűrűséget és csökkenti a szivárgási áramot. Jelenleg az Intel rendelkezik még 32 nanométeres processzorral. Összehasonlítás gyanánt, míg a négymagos Sandy Bridge 216 mm2-en 995 millió tranzisztort tartalmaz, addig a négymagos Llano 228 mm2-en 1,45 milliárdot. Természetesen ilyen egyszerűen nem lehet összevetni a két lapkát, hisz eltérő arányban tartalmaznak különféle részegységeket, melyek tranzisztorsűrűsége jelentősen eltérő lehet.
Míg a Sandy Bridge az x86-os CPU-magokra helyezi a hangsúlyt, addig a Llano inkább a GPU-ra gyúr. Az egyes magok méretének összehasonlítása is sokat sejtető.
forrás: www.chip-architect.com
Egyetlen Sandy Bridge mag és a szervesen hozzá kapcsolódó L3 cache szelet majdnem akkora, mint a két, 1 MB-os másodlagos gyorsítótárral operáló, Husky kódnévre hallgató x86-os Llano mag. Itt nagyon eltérő architektúrákról van szó, de azért azt tudni lehet, hogy a méret és a számítási teljesítmény általában (jó esetben) bizonyos mértékben arányos egymással.
A Llano lapka egyelőre egyféle fizikai kialakításban létezik. Ez összesen négy darab, Stars családból származó CPU magot tartalmaz és egy meglehetősen méretes GPU-t. Mindezek mellett egy összesen 24 sávból álló PCI Express vezérlő is integrálásra került, mely mellől nem maradhatott el az integrált, maximum DDR3-1866 szabványú memóriát támogató IMC sem.
A Sumo
A GPU rész gyakorlatilag a HD 5600 és 5500 sorozatokból megismert VLIW5 architektúrás Redwood kissé átdolgozott, majd Sumo névre átkeresztelt mása. Az Evergreen alapokra építkező szekció öt darab shader tömbbel rendelkezik, ezzel összesen 400 shader processzort tartalmaz. Ezek 80 utas tömbökbe rendeződnek, ami összesen 20 darab, Gather4-kompatibilis textúrázó csatornát tesz lehetővé két darab ROP blokk mellett, amelyek együttesen nyolc blending egységet eredményeznek. A lassabb verziókat a diszkrét GPU-k esetében már jól bevett gyakorlat szerint a tömbök letiltásával hozzák létre.
Típus | Magórajel | Radeon magok száma | Dual Graphics opció | Dual Graphics társ-GPU | Grafikus mag kódneve |
6550D | 600 MHz | 400 (5 x 80) | van | Turks | BeaverCreek |
---|---|---|---|---|---|
6530D | 443 MHz | 320 (4 x 80) | van | Turks | BeaverCreek |
6410D | 600 MHz | 160 (2 x 80) | van | Turks | WinterPark |
6370D | 443 MHz | 160 (2 x 80) | nincs | - | WinterPark |
A módosítások között szerepel az UVD motor frissítése, mellyel a harmadik generációs UVD 3 váltotta az eggyel korábbi verziót. Ez utóbbi motor kezeli a H.264/AVC, az MPEG-2/4, a VC-1, a DivX és az XviD videók gyorsítását egészen Ultra HD felbontásig. A GPU támogatja a DirectX 11-es, az OpenGL 4.1-es, az OpenCL 1.1-es, az OpenGL ES 2.0-s, valamint a DirectCompute 5.0-s API-t, továbbá képes a Direct2D és a DirectWrite felhasználásával a weboldalak megjelenítését gyorsítani. Ezen felül támogatja a WebGL-t is, ami a böngészőablakban futó háromdimenziós animáció gyorsítását teszi lehetővé, illetve a flash animációk gyorsítása sem jelent akadályt.
Azzal, hogy ez a GPU beépítésre került a Llanóba, gyakorlatilag megszületett az első 32 nanométeres Radeon is, melyhez hasonló csíkszélességű diszkrét variáns a TSMC stratégiájának átszervezése miatt már biztosan nem lesz. Még említésre érdemes a Dual Graphics névre hallgató technológia támogatása, mely tulajdonképpen a Hybrid CrossFire utódjának tekinthető. Ennek lényege, hogy az APU-ban található grafikus processzor számítási teljesítménye egy extra GPU-t tartalmazó diszkrét kártyával még tovább növelhető. Jelen állás szerint a Radeon HD 6450, 6570 és 6670 társítható az A szériás Fusion APU-k mellé.
Egy elmaradhatatlan változás érintette a memóriavezérlést is, mely a dedikált 128 bites interfész helyett immáron az APU egyetlen 128 bites memóriavezérlőjére csatlakozik rá egy saját, GMC nevű egység segítségével. Ennek értelmében a GPU osztozik a CPU-magokkal a rendelkezésre álló, DDR3-1866 szabványú memória esetén 29,8 GB/secundumos maximális sávszélességen. Összehasonlításképpen egy Redwood-alapú, GDDR5 szabványú, 4 GHz-es effektív frekvencián ketyegő memóriával szerelt HD 5670 ennek több mint duplájával, 64 GB/s sávszélességgel gazdálkodhat önállóan. A mérnökök természetesen ezzel már a tervezés első fázisa óta tisztában voltak, és ennek okán néhány további speciális módosítást is eszközöltek. A GPU saját dedikált kapcsolatot kapott az integrált memóriavezérlőhöz (Garlic bus), így bár a GPU saját memóriaként a rendszermemória egy szeletét használja, amihez a már említett GMC-n keresztül fér hozzá, logikailag ezt a szeletet autonóm módon kezeli (akárcsak korábban a diszkrét GPU-k melletti memóriát vagy a sideport RAM-ot). Erre azért van szükség, mert míg a CPU által kezelt memória-hozzáférések szigorú előírások szerint (sorrendiség = koherencia) történnek, a GPU a saját memóriaolvasásait és írásait meglehetősen szabadon átrendezheti, ezzel növelve hatékonyságát.
Kényesebb kérdés a CPU és a GPU kommunikációja: ennek meggyorsítására létrehoztak köztük egy közvetlen buszt is (Onion bus). Ez már alapvetően előrelépés, hiszen a CPU által kezelt memória, valamint a diszkrét vagy a chipsetbe integrált GPU saját memóriája között idáig ott volt egy PCI Express kapcsolat, illetve HyperTransport-link, amin keresztül folyhatott a kommunikáció. Ezentúl sokkal egyszerűbben hozzá tudnak férni egymás memóriájához. Most vessünk egy pillantást ennek módjára!
A CPU közvetlenül az Onion buszon keresztül tudja küldeni a GPU-nak szánt adatait, amely aztán kiírja azt a Garlic buszon keresztül saját memóriájába; teheti mindezt kb. 8 GB/s sebességgel, míg a PCI Expressen keresztül ez nagyjából 6 GB/s-ben maximalizálódott. A CPU olvashatja is a GPU memóriáját, ez viszont sokkal lassabb, lévén az olvasások előtt jeleznie kell a GPU felé, hogy az fejezze be a még függőben lévő/átrendezett memóriaírásait, csak ezután olvasható a GPU-memória tartalma biztonságosan. A GPU saját memóriáján kívül (a driver által biztosított virtuálismemória-kezelés által) hozzáférhet a rendszermemória többi részéhez is közvetlenül, viszont ilyenkor figyelembe kell vennie, hogy a kért memóriatartalom akár valamely mag L1/L2 cache-ében is lehet, ezért minden ilyen kérést továbbítani kell először a magokhoz is: erre szintén az Onion buszt használja. Ha valamelyik cache-ben van a naprakész adat, akkor közvetlenül onnan kapja meg, nem kell a rendszermemóriához fordulnia.
Mindez azt eredményezi, hogy CPU által kezelt rendszermemória és a GPU saját memóriája közötti adatmásolások/adatduplázások nagy része feleslegessé válik (zero copy), hiszen az egyik fél által feldolgozott kész adatokat a másik közvetlenül felhasználhatja további számításaihoz, felszabadítva ezzel a memóriavezérlő által biztosítottt 29,8 GB/s maximális memória-sávszélesség egy részét "hasznosabb" célokra.
A cikk még nem ért véget, kérlek, lapozz!