Hirdetés

Új hozzászólás Aktív témák

  • lenox

    veterán

    válasz Zoli0726 #244 üzenetére

    De erre az a bevett szokas, hogy mondjuk van 4096 adatod, 256 threaded, mindegyik thread beolvas 16 adatot, utana szink, es maris elerheto mindenkinek mind a 4096. Szink nelkul nem tudom, hogy lehet ilyet csinalni, illetve olyat nyilvan lehet, hogy minden thread mind a 4096-ot olvassa es irja a local mem-be, csak nem tudom miert lenne jo igy csinalni.

    A cpu kód meg természetesen nem akkor optimális mint a gpu, de senkit nem érdekel, mikor optimális az opencl kód cpu-n ha úgyis a gpu-n akarom futtatni.

    Ezt csak amiatt irtam, hogy a linkelt eredmenyek ertelmezesenel erdemes figyelembe venni, hogy egy cpu optimalis kod joval gyorsabb az ott mert sebessegnel. Termeszetesen ha van olyan opcio, hogy gpun futtatsz, akkor a cpu kodot felesleges gyurni, amugy is sokkal idoigenyesebb. Csak erdemes tudni, hogy esetleg egy sok alkalommal hasznalt szoftver eseteben (mint pl. egy jatekmotor) azert van valoszinusege, hogy lesz aki megcsinalja.

Új hozzászólás Aktív témák