Új hozzászólás Aktív témák

  • lenox

    veterán

    válasz Zoli0726 #248 üzenetére

    írni nem írok,

    Nyilvan a local mem-be iras soran kerul adat, errol az irasrol beszeltem. Amikor mar benne van es mindenki csak olvassa nem kell szinkronizalni. Amikor eloszor masolod globalbol localba akkor kell.

    Egyébként én nagyon úgy érzem, hogy elkanyarodtunk arról, hogy nem csak a cpu/gpu peak a lényeg, hanem az adathozzáférés, ami gpu esetében jobb.

    Lehet errol is beszelni. Cpu-nal alapvetoen a regiszterekben levo adatokbol kellene dolgozni, ahol nem kell az adatra varni, tehat ez megy pl. full 4 GHz-cel. Nyilvan van, hogy level1 cache-t kell elerni, akkor van kulonbseg, de azert van 16 xmm register, hogy ne minden egyes utasitasnak kelljen level1 cachet olvasni. Szoval szerintem egy jol megirt kodban altalaban nem fog kijonni ide 2-szeres szorzo. Amugy valoban sp floatokat tekintve nehalemnel 4 byte/clock az olvasasi sebesseg egy feldolgozora vetitve, mig pl. 7750-nel 8 byte/clock. Ebbol azt hihetned, hogy valoban szorozni kell kettovel, csakhogy a valosagban ez nem igy mukodik. Ha valoban ez a sebesseg a bottleneck, akkor a nehalem vs 7750m eseten (figyelembe veve, hogy az i7 3.33 GHz-en a 7750m meg 575 MHz-en megy, 3330/575=5.8) az arany (512feldolgozo * 8 byte )/( 4core * 4feldolgozo * 4byte * 5.8)=11, szoval kb. ugyanaz az arany, mint a peak gflopsnal.

Új hozzászólás Aktív témák