Hirdetés

Keresés

Új hozzászólás Aktív témák

  • namaste

    tag

    válasz Simid #15 üzenetére

    Egy utasítás csak HP, SP vagy DP számokkal dolgozik, az ütemezőtől függ, hogy képes-e egyszerre kiadni egy SP és egy DP utasítást végrehajtásra.
    Nem tudok olyan algoritmust, ami egy kernelen belül vegyesen használ SP és DP számokat.

    Kutatnak olyan módszereket, amelyek két fázisban dolgoznak:
    1. SP-ben gyorsan és energiatakarékosan kiszámolnak egy előzetes, kevésbé pontos eredményt,
    2. a megkapott részeredményt átkonvertálják DP-re és DP számokkal tovább számolva egy pontosabb megoldást kapnak.

    Esetleg még szóba jöhet, hogy egymástól független, eltérő pontosságú számokat használó feladatokat párhuzamosan futtatnak. Pl. gépi tanulás (HP), képfeldogozás (SP), n-body (DP). Ha lenne is ilyen, ki kell mérni, vajon megéri-e, azaz gyorsabb.

  • Loha

    veterán

    válasz Simid #15 üzenetére

    NV-nál a Keplertől kezde az FP64-es (Dupla Pontosságú) számításokat külön FP64-es CUDA magok végzik, amik az FP32-es (SP) számítások alatt pihennek, viszont az FP32-es egységekkel párhuzamosan is képesek FP64-es számításokon dolgozni.

    Az FP32-es számításokat a dedikált FP32-es CUDA magok végzik, amik Pascaltól kezdve képesek lesznek dupla sebességgel az FP16-os számításokra is.

    AMD-nél (Hawaii) az FP32-es számolóegységek végzik az FP64-es és FP16-os számításokat is, fele, illetve dupla sebességgel.

    (#18) MongolZ: Szerintem valószínű, hogy az NV is kísérletezett már korábban a HBM-el, csak nem épített rá terméket mint az AMD.

Új hozzászólás Aktív témák