Keresés

Hirdetés

Új hozzászólás Aktív témák

  • dezz

    nagyúr

    válasz Raymond #78 üzenetére

    1. Korábban egy hasonló megmozdulásról volt egy videó, amin az látszott, hogy a foglalatból kiszerelték a régi procit, és beszerelték az újat. Talán itt is megtörtént.

    2. Egy kétmagos Opteron szaturálni tudja a teljes sávszélt? Akár csak a saját memória-hozzáféréséét, akár csak egyszerű mov-okkal?

    "A STREAM egy pure bandwidth teszt."

    Azért az a pure talán egy picit túlzás, nem? "The STREAM benchmark is a simple synthetic benchmark program that measures sustainable memory bandwidth (in MB/s) and the corresponding computation rate for simple vector kernels." Itt van, hogy mit is csinál: [link] A sima copy mellett van ott más is.

    Elképzelhető, hogy a Shanghaios konfignál valójában nem működött a HT3.0, csak az Istanbulnál.

    Ill. ha tényleg ez a HT assist gyorsít ennyit (a felesleges adatcserék kiküszöbölésével), akkor annak miért ne lehetne köze a teszthez?

  • dezz

    nagyúr

    válasz Raymond #83 üzenetére

    1. Jó, de arról nem szól a fáma, hogy azok új modulok-e, vagy előzőleg régebbi Opteron volt-e bennük. (Akár csak a demó kedvéért.) Nem mintha a modul cseréje túl nagy költség lenne; fontosabb, hogy az alaplap a helyén maradhat. De nem is láttam még ilyen modul rendszerű szervereket, a sima rackekban az alaplap(ok)on szoktak lenni a procik. Ezért is fontos a foglalat szintű kompatibilitás, különben mindegy lenne.

    2. "A pure bandwidth pedig nem tulzas. Nezd meg a linkeket amit talaltal, ott is le van irva. Egyebkent ez vilagos ha osszeveted a tesztelt procik maximalis szamitasi teljesitmenyet a max elerheto memoria savszelel. Egyszeruen nem tudsz annyi adatot mozgatni hogy a szamolas legyen a szuk keresztmetszet."

    Ha ez teljesen igaz lenne, akkor minden tesztnél egyforma MB/s értékek jönnének ki, mert kizárólag a memória-sávszél számítana. De ha megnézed a számokat, mint előzőleg kértelek, akkor láthatod, hogy eltérnek.

    Nem teljesen egyértelmű a számomra, hogy a "the code is structured so that data re-use is not possible" rész 1-1 procimagra vonatkozik, vagy a teljes rendszerre. Utóbbi esetén a HT assist a hasznos adatokkal valóban "nem foglalkozik", de esetleg valamilyen egyéb, sávszélt foglaló adatcserét kiküszöbölhet.

  • P.H.

    senior tag

    válasz Raymond #83 üzenetére

    "What’s interesting here is that Stream isn’t really designed to test CPU performance; it’s mainly designed to test memory bandwidth. The Tech Report says that the huge jump in performance may well be down to a new feature in the CPU that AMD calls HT Assist, which is designed to stop the HyperTransport links between CPU sockets getting clogged up with unnecessary coherency synchronisation requests. According to the site, HT Assist basically stores an index of the CPU’s caches in the processor’s L3 cache, and it can then filter probe requests rather than sending them to all the sockets in the server. The site also says that you’ll be able to set the amount of space dedicated to probe filtering in the BIOS." [link]

    MOESI alatt, ha a privát cache-rendszerben (L1/L2) nem található az adott vonal, akkor szórni kell a teljes rendszerben a kérést, mert nem tudni, hol található RAM-tartalomtól különböző Owner vagy Modified példány, ugyanez érvényes Shared esetben is.

    MESIF esetében először az L3-hoz kell továbbítani (mivel ott a teljes CPU cache-einek ujjlenyomata megtalálható), ha ott nincs, csak akkor kell a rendszerben (az L3-mak felé) szórni.

    Nekem úgy tűnik, az AMD ezt az Intel-es megoldást "másolta le", hogy információja legyen (az L3-ban) a node-ja többi magján tárolt cache-tartalmaktól (jobb esetben a node-ok Owner- és Modified-vonalairól), viszont míg az Intel nem az L3-méret rovására tárolja ezt az információt, az AMD igen. Tehát a HT Assist itt szerepet játszik, pl. úgy, hogy nem terheli feleslegesen a node-ján a privát cache-eket probe-bel (vagy a többi node cache-eit, ha azokban biztosan nincs memóriától különböző tartalom az adott kérésre), ha "The array sizes are defined so that each array is larger than the cache of the machine to be tested, and the code is structured so that data re-use is not possible."

    [ Szerkesztve ]

    Arguing on the Internet is like running in the Special Olympics. Even if you win, you are still ... ˙˙˙ Real Eyes Realize Real Lies ˙˙˙

  • dezz

    nagyúr

    válasz Raymond #97 üzenetére

    "Egyebkent az hogy a ket eredmeny pont ugy jon ki az ismert STREAM eredmenyek alapjan hogy a Shanghai rendszer 1Ghz HT link es DDR2-800 eredmenyeket ad (kb. 25GB/s) az Istanbul pedig kb. olyat ami egy 2Ghz koruli HT es magasabb orajelu DDR3 memoriakkal (1066 minimum, de inkabb 1333Mhz) jonne ki szinten nem lehet a veletlen muve."

    Hát igen, ez gyanús.

    "Nezd, ha megtalaltad a STREAM oldalat ott minden megvan. Az hogy vannak apro elteresek egy-egy futam es egy-egy metodus kozott nem lenyeges. Ez mindig is lesz es minden architekturan elojon. Van ahol picit nagyobbak a difik, van ahol alig van valami. Ezert publikaljak mindig mind a negy metodus eredmenyet."

    Ez ellentmondás, mert ha lényegtelen, akkor felesleges ennyi számot külön publikálni.

    Azt egy szóval sem állítottam, hogy az az 1-2 plusz (FP) számítási művelet önmagában lassítana, hiszen sok esetben pl. a TRIAD-nál nagyobb szám (MB/s) jön ki, mint az egyszerű COPY-nál.

    Én az egyszerű COPY esetét tekinteném pure bandwidth mérésnek, a többi már speciális memória-hozzáférési pattenek esetén mutatott áteresztő képesség.

    "De oszinten szolva nem akarlak egy industry standard benchmarkrol gyozkodni, uttananezhetsz magad is."

    Hiszem már utánanéztem, és egymást győzködjük. ;)

    P.H.: Ezt írtam le én is röviden a #96-os alján. De azért meglepő lenne, ha csak az ennyit számítana, nem?

  • Oliverda

    félisten

    válasz Raymond #121 üzenetére

    Köszi gV! :D

    Biztos olcsón mérik.

    [ Szerkesztve ]

    "Minden negyedik-ötödik magyar funkcionális analfabéta – derült ki a nemzetközi felmérésekből."

Új hozzászólás Aktív témák