Keresés

Hirdetés

Új hozzászólás Aktív témák

  • namaste

    tag

    válasz LordX #2 üzenetére

    A GK110-tól lehet párhuzamosan több kernelt futtatni, lásd Hyper-Q.

    (#14) Abu85
    "Az NV nem tervez DP-re."
    Miért ne tervezne?

    "... amelyekhez a PTX miatt muszáj ragaszkodniuk."
    A PTX-nek semmi köze a hardverhez, az egy virtuális utasításkészlet, amit olyan GPU natív kódra fordítanak, amilyen GPU-n a program éppen fut. A GPU mikroarchitektúrájához meg végképp semmi köze nincs.

    Amit írsz a GCN ALU-ról, abból az jön le, hogy az FP32 utasításokat is FP64 pipeline-on számolja.

  • namaste

    tag

    válasz Abu85 #25 üzenetére

    Jó, de ez nem jelenti azt, hogy "Az NV nem tervez DP-re". Ezt akkor lehetne mondani, ha a Pascalt is csak 1/32 FP64 : FP32 aránnyal hozná ki.

    A driver egy "fma.f64 d, a, b, c" PTX utasításból egy "fma.f64 r0, r1, r2, r3" natív utasítást fordít. Ennek mi köze van ahhoz, hogy milyen a mikroarchitektúra? Ezt az utasítást a hardver végrehajthatja dedikált FP64 ALU-n, vagy multiprecíziós ALU-n.

    Ez magyarázhatja a GCN magas fogyasztását. Persze hogy elölről kezdték a tervezést, mert kukázták a VLIW architektúrát.

    [ Szerkesztve ]

  • namaste

    tag

    válasz Abu85 #28 üzenetére

    És ezt te így eldöntöd? Majd a piac eldönti kell-e neki. Persze 1:2 jó lenne, 1:3 elmegy, 1:4 hááát, 1:8 mivan?, 1:32 képfeldolgozásra, neurális hálózatra, játékra jó lesz.

    Ez csak egy példa volt egy FP64-es utasításra. Vannak olyan utasítások amit egy az egyben lehet fordítani natív kódra, és vannak amelyeket nem. Ha egy újabb hardver újabb utasításokat hoz és nincs rá PTX utasítás, akkor az azt jelenti, hogy a PTX nem korlátozza a mikroarchitektúrát. A hardver mérnökök szabadon* alakíthatják az utasításkészletet, a GPU felépítését, a szoftveresek eldöntik lesz új PTX utasítás a következő verzióban vagy nem és megírják hozzá a fordítót.
    * Inkább egyeztetve és kompromisszumokat kötve az igények (piac), a technikai lehetőségek figyelembevételével.

    Az a komplex ütemezés, ami
    - viszonylag kevés tranzisztor igényel,
    - nem is használják DX11-ben
    és emiatt sokat fogyaszt a GPU ... Hát, nem is tudom ...
    A nagy fogyasztást inkább rá lehet fogni azokra a részekre, amelyek működnek is: CU/ALU, TMU, ROP, belső busz, cache, memóriavezérlő.

  • namaste

    tag

    válasz Abu85 #30 üzenetére

    A virtuális ISA-nak az a célja, hogy minél általánosabb, hordozhatóbb legyen, ne kötődjön a hardverhez.
    Az egyeztetésen csak a hardver ISA-ban kell megegyezniük, a szoftvereseknek tudniuk kell a fordító optimalizáláshoz mennyi órajel alatt, milyen késleltetéssel hajt végre egy-egy utasítást. Nem hiszem, hogy a szoftveresek megmondják, mennyi tranzisztorból legyen az ALU, vagy a hardveresek megmondják mi legyen a PTX-ben, a fordító hogyan fordítson natív kódra.

    A tranzisztorok 3.37%-a miatt nagy a fogyasztás?
    Amúgy a Fiji nem jó példa, mert az energiahatékonysága a Maxwellhez hasonló. Ebben benne van a HBM, vagy a Nano órajel és feszültség visszavétele is.

Új hozzászólás Aktív témák