Hirdetés

Új hozzászólás Aktív témák

  • Abu85

    HÁZIGAZDA

    válasz gbors #4356 üzenetére

    Nem feltétlenül lett volna 25%-kal gyorsabb. Az AMD-től már hallottam, hogy a Cayman a dispatch részen gyenge, ezt a motort egy az egyben a Bartstól kapta meg, csak az már nem elég jó. A 64 ROP-ból jó ha 10%-ot nyernek. Többre nincs lehetőség. Ráadásul a rendszer is asszimetrikus lenne, mert a setup motor nem képes 32 pixelnél többre. Az extrákkal pedig szimplán kivitelezhetetlen lett volna a HD 6990. Vissza kellett volna venni az órajelet, és akkor a GTX 590 elverte volna, bár ez nem biztos, de sanszos lenne. Most viszont a HD 6990 a leggyorsabb rendszer. Tudják azok a mérnökök, hogy mit csinálnak, hiszen mind az asztali, mind pedig a mobil piacon egy Radeon a leggyorsabb.

    Ez a fúzió következő nagy állomása. Az AMD három lépcsőre osztja az egészet. Az elsőt már ismerjük a Llanoval. Egy CPU és egy GPU egy lapkában, egy nagyon alacsony késleltetésű, és gyors busszal összekötve (Onion busz). Ez valószínűleg azért alakult így, mert az aktuális programokat CPU+VGA feldolgozásra írják, és nem lenne célszerű ennél többet csinálni. A Sandy Bridge erre jó példa, mert az Intel ennél továbbment azzal, hogy az IGP ír az L3-ba, de az inkább cache-szemetelés, mint jól kezelt fícsőr, amire az AMD gyártja is az összehasonlító videókat. [link] - Ez az egyik, de mindegyikben ugyanazt a koncepciós hibát használják fel, vagyis azt, hogy a Sandy Bridge IGP-je következmény nélkül piszkíthat 1,5 (HD Graphics 2000) vagy 3 (HD Graphics 3000) MB-ot az L3-ba, ezzel a procikat cache-missbe taszítja, és mehetnek a rendszermemóriához az adatért. Az egész azért súlyos, mert az adatok L3-ba való újratöltése után semmi sem garantálja, hogy a következő órajelben már nem barmol oda az IGP. Az egész egy konkrétan futtatott programnál kezelhető, mert az Intel a grafikus driverben szépen profilozza be a játékokat, és kapcsolgatja ki az IGP L3 írási funkcióját, ahol ez gond, de több program mellett ez nem kezelhető ilyen simán. Elég egy olyan program, ahol az IGP írhat az L3-ba, és már érezhetően megbomlik az egész rendszer hatékony működése. Az AMD a videóban a "biztonság kedvéért" (;]) két 3D-s programot is bevetett, hogy az IGP 6 MB-os területet barmoljon szét az L3-ban, ez konkrétan ugye az aktuális proci teljes kapacitása, így nem csoda, hogy a rendszer ennyire meghalt. Ha most csinálnák meg ugyanezt, akkor már kisebb lenne a hatás, mert az Intel már tiltja az L3 írás arra a Final Fantasy benchmarkra, így a videó elején mutatott másodperces akadások is megszűntek. Persze a sebesség kisebb, de a futás úgymond egyenletes. Ilyet még az NV rendezvényén láttam a Dead Rising alatt, amikor Igor játszott rajta, és az klotyóajtó 3 másodperc múlva nyílt ki, addig teljesen lemerevedett a kép. Azóta (áprilisi driver) ebben a játékban is tiltva van az L3 írás, így nincsenek akadások, csak folyamatosan 20 alatt az fps. Jó amúgy ez az írós koncepció, mert kétségtelen, hogy erre szükség van a hatékony CPU+GPU feldolgozáshoz, de jelenleg nulla program van erre felkészítve, és ez így lutri, mert vagy jól működik, vagy nem. Na de elkalandoztunk a tárgytól.
    A következő fúziós lépcső a Trinity. Ez a lapka már majdnem kész, volt is belőle demó, így sokat lehet róla tudni. A működésben nagyon hasonlít a Llanora, vagyis az AMD továbbra is az Onion buszos összeköttetést tartja jónak, a programokra és a fentiekre való tekintettel. Annyi lesz a különbség, hogy a GPU része a rendszernek képes lesz több, teljesen független utasításfolyam párhuzamos futtatására. Ezzel például több OpenCL-es program is futhat egy időben. Szintén megjelenik a GPU C++ támogatása. Bár nem programozástechnikai dolog, de megváltozik az energiamenedzsment. A Llano esetén eléggé kimért a dolog, vagyis kvázi fix fogyasztása van a procimagoknak és a GPU résznek. A Trinitynél ez átlapolható, vagyis a proci durván turbózhat, ha arra van szükség, és akkor a GPU-rész alacsony órajelű módba kapcsol. Fordítva is előfordulhat persze, ha nagy GPU-erőre van szükség, ilyenkor a proci rész gazdálkodik. Úgy tudom a GTC-s rendezvényről, hogy alapértelmezetten 30%-os fogyasztásátlapolás lehetséges, de az egész módosítható lesz a Catalystból +/-10%-os irányban, vagy akár manuálisan vezérelhető, ezt mondjuk csak az expert felhasználóknak javasolja az AMD. A manuális rész persze picit gázos, mert nyilván ez a százalékos játék nem következményektől mentes. A lapka teljes fogyasztása fix, ha mondjuk +40%-ot power budgetet adsz a GPU-nak, akkor azt elveszi a procirésztől. Nyilván a manuális kontroll állandó hatás, vagyis jól kell ismerni az alkalmazást. Persze a legtöbb felhasználó úgyis az automatikus kontrollon hagyja, akkor pedig a hardver dönt a menedzsmentről. Szvsz az a legjobb.
    A Trinity utáni lépcső a durva fúzió. Eddig csak nyalogattuk a heterogén feldolgozást, amire valóban van lehetőség a Fusion lapkákban, de az egész korlátozott. A harmadik lépcsőben közös címteret és teljesen koherens memóriát kap a CPU és a GPU, továbbá a GPU kezelheti az x86 virtuális memóriát CPU pointereken keresztül. Ezt hívja az AMD architekturális integrálásnak. A chip kódneve nem ismert, de nyilván ez a következő állomás a Trinity után. Valószínűleg ez a lépcső két lapkát is eredményez, mivel a 16 nm messze van, így addig belefér egy upgrade, jelentsen az bármit is. A heterogén éra utolsó lépcsője, vagy mondjuk úgy kiteljesedése pedig az AMD szemében rendszerszintű integráció. Erről még nagyon kevés adat van, és ez még nekem sem teljesen világos, de amolyan Cell-szerűvé vállnak majd a chipek, az előny, hogy logikai szinten eltűnik a különbség a CPU és a GPU között. Az AMD-nél ennek az előjele a Bulldozer modulos felépítése, nyilván ez az architektúra az elkövetkező 5-7 évet meghatározza az AMD-nél, hiszen mindent alárendeltek az alapok fejlesztésénél a Fusion terveknek.

    A Kaigai blog előrejelzéseiből az Intel is ugyanezt az utat járja be, némi eltéréssel. Nekik ugye az első APU-juk az Ivy Bridge, ami folytatja a Sandy L3 írást, remélhetőleg jobb felügyelet mellett. A következő chip a Haswell, ami szintén erősít a CPU és a GPU kapcsolatán, de inkább a CPU fejlesztését helyezi előtérbe, ellentétben az AMD filozófiájával. Ugye itt az AVX2, mint újdonság, ami előnyt jelenthet. Nyilván a tick-tock miatt lesz egy szokásos upgrade, illetve az úgynevezett, vagy AMD-nél látható architekturális integrálás lépcsője nem igazán valósul meg. Majd végül, nagyjából hasonló időben (pontos időpont nincs, de mindkét cégnél úgy 2015-2016-ot jelent ez) az Intel is eljut rendszerszintű integrációhoz, ami a náluk annyit jelent, hogy a Larrabee-szerű magok beköltöznek a prociba a főmagok mellé. Ez is amolyan Cell-szerű minta. Itt is eltűnik a logikai különbség a CPU és a GPU között. Már ha a Larrabee magokat valaha is GPU-nak tekintettük. :)

    Az NVIDIA esetében nincs ilyen előrejelzés, de az irányt nem nehéz kitalálni. Náluk a Tegra 4 lesz az első APU. Az I/O koherencia a CPU és GPU között biztosítható, ha felhasználják az ARM MMU-400 buszát (ez ugye a miért ne eset, mert hát csak egy licenc kérdése az egész :) - persze biztosat nem lehet tudni). Ezzel 2012-ben ez lenne a legmodernebb chip az APU integrációt tekintve. A következő lépcső náluk a project denver, és nagyjából ugyanazt az utat járják, amit az AMD időbeli lépcsője, vagyis közös címtét és teljesen koherens memória a CPU és a GPU között, illetve a GPU kezelheti az virtuális memóriát. Itt ugye az x86 hiányában az ARM-ra kell építeni. Ennél tovább nem teljesen ismertek az NV lépései. Annyit tudunk, hogy a fejlesztéseknél a GPU dominál, vagyis az Intellel és az AMD-vel ellentétben minden egyes lapkában a CPU kapja a háttérszerepet. Az Intelnél ugye a CPU-é a főszerep, míg az AMD egyensúlyozni próbál, hogy mi lehet a valós alkalmazások szempontjából az ideális elosztás.

    [ Szerkesztve ]

    Senki sem dől be a hivatalos szóvivőnek, de mindenki hisz egy meg nem nevezett forrásnak.

Új hozzászólás Aktív témák