Keresés

Hirdetés

Új hozzászólás Aktív témák

  • Abu85

    HÁZIGAZDA

    válasz lenox #44 üzenetére

    Pontosítsuk akkor ezt. A Tensor azért leválasztott feldolgozó, mert ALU-k szintjén nem működik, csupán 4x4-es mátrixban (a Volta és a Turing esetében, de lehet más mátrix más hardveren). Ezért különbözteti meg erősen az NVIDIA, mert amíg a normál FP16 FMA gyakorlatilag egy egyszerűen elérhető ALU operáció, addig a Tensor-féle FP16 FMAC inkább mátrixba fűzött változata ennek, ami csak mátrixokon tud dolgozni. Utóbbi teljesen más támogatást igényel, és a legtöbb API-ban, főleg a szabványosokban ez nincs is lekezelve. Pusztán az ALU szintjén persze alapvetően FMA-ről van szó, de csupán egy ALU a Tensor esetében nem hozzáférhető, ellentétben a fő ALU-kkal.

    A mátrixot nem érdemes az FMA elé rakni, mert félrevezető. Az operáció zajlik mátrixokon, de maga a csupasz utasítás nem. Ergo nem az "fp16 matrix multiply-add" a legjobb leírás rá, hanem fp16 fused multiply-accumulate 4x4-es mátrixokon.

    [ Szerkesztve ]

    Senki sem dől be a hivatalos szóvivőnek, de mindenki hisz egy meg nem nevezett forrásnak.

Új hozzászólás Aktív témák