Keresés

Hirdetés

Új hozzászólás Aktív témák

  • Abu85

    HÁZIGAZDA

    válasz dabadab #1 üzenetére

    A TensorRT-nek van egy fallback módja, ami tensor magok nélkül is képes futni, mert mátrixszorzásra képesek a CUDA magok is, csak éppen lassabban, mert sokkal több lesz az offchip adatmozgás.
    Ha olvasod tovább azt a bekezdés, akkor benne is van a hírben, hogy működhet az alkalmazás a korábbi hardvereken is, csak a mostani verzió a tensor magokra van optimalizálva, ezért van csak erre engedélyezve alapértelmezetten. Egy későbbi verzióból talán ez a limitáció eltűnik. Amúgy is a memória terhelése a gond a teljesítmény szempontjából, de tensor magok mellett jobb marad majd a sebesség, mert egy csomó offchip adatmozgástól mentesül rendszer. Ezért van amúgy az is, hogy a tensor magokkal nem rendelkező hardvereken sokkal nagyobb a VRAM használata. Szóval alapvetően ez nem marketing. Az NV igazat mond, csak még nincs kész az alkalmazás, és nyilván számításba kell venni azt is, hogy például -20% egy tensor magos hardveren elég sok, hát még ha nincs tensor magod.

    [ Szerkesztve ]

    Senki sem dől be a hivatalos szóvivőnek, de mindenki hisz egy meg nem nevezett forrásnak.

  • Abu85

    HÁZIGAZDA

    válasz b. #4 üzenetére

    Mindenképpen használni kell a tensor magokat. Gondolj bele, az input+output szűrés -20%-os teljesítménnyel is járhat úgy, hogy közben a tensor magok minimalizálják az offchip adatmozgást, tehát kímélik a VRAM-ot és a memóriabuszt. Ha a tensor magokat kizárod, akkor sokkal nagyobb terhelést kap a VRAM, tehát még nagyobb lassulással kell kalkulálni. Szóval ez TensorRT-n marad, és lesz a natív mód, meg a fallback. Ma még csak natív mód van hivatalosan, és beműthető a fallback, csak nem ajánlott.

    Nem. Ekkora terhelés van az RTX-eken. Ezek friss adatok, amiket kaptunk. Tensor nélküli hardvereken még nincs mérés, mert nincs rá optimalizálva a program. Felesleges a számokkal dobálni, amikor nem történt meg az optimalizálás az egyes hardverekre. RTX-re van csak optimalizálás. Lényegében nem a számolás része ennek a megterhelő, hanem a memóriabusz csuklik bele egy picikét. És itt jön a Tensor előnye, hogy sok adatmozgás onchip marad, tehát a méréseket tekintve maximum -10-20%-kal (input/input+output konfigurációtól függően) megoldható a feladat. Ha ez nincs, akkor még többet eszik.

    [ Szerkesztve ]

    Senki sem dől be a hivatalos szóvivőnek, de mindenki hisz egy meg nem nevezett forrásnak.

  • Abu85

    HÁZIGAZDA

    válasz b. #6 üzenetére

    A GPU-n is van extra terhelés. Nem a semmiből jön az eredmény. A probléma az szokott lenni, hogy maguk a GPU-k erősen heterogén processzorok, tehát mondjuk a Windows esetleg tudja mérni pár részegység terhelési szintjét, miközben igen sok más részegység terhelése láthatatlan számára. Ez nem olyan könnyű, mint egy CPU, ahol vannak magok és annyi. Itt azért igen eltérő részegységek összessége egy GPU, és persze egy olyan leegyszerűsített alkalmazásnál, ami csak egy százalékot köp vissza, igen nehéz egy teljes képet mutatni egy ennyire heterogén hardver terheléséről. Ha az adott feladat olyan részegységet terhel, ami láthatatlan például a Windows feladatkezelőjének, akkor azzal nem nagyon tud mit kezdeni, kiír egy kövér 0%-ot a GPU-ra, akkor is, ha köze sincs a valósághoz.

    Senki sem dől be a hivatalos szóvivőnek, de mindenki hisz egy meg nem nevezett forrásnak.

  • Abu85

    HÁZIGAZDA

    válasz Cyberboy42 #13 üzenetére

    Ha a program később támogatni fogja az eszköz direkt kiválasztását, akkor lehetséges.

    [ Szerkesztve ]

    Senki sem dől be a hivatalos szóvivőnek, de mindenki hisz egy meg nem nevezett forrásnak.

Új hozzászólás Aktív témák