Keresés

Hirdetés

Új hozzászólás Aktív témák

  • Raymond

    félisten

    Melyebb beleasas (a cikkbeli reszlethiany miatt) nelkul ket kerdes merul fel gyakorlatilag azonnal:

    1) Ha a harmadik tesztnek az volt a celja hogy a drop-in replacement-et demonstraja akkor miert nem valasztottak egy olyan rendszert ami ezt valojaban demonstralta is volna? Az hogy a hasznalt rendszerben kicserelik a CPU/Mem alrendszert nem demostral SocketF drop-in replacement-et.

    2) Mi koze van egy STREAM benchmark eredmenynek ahhoz hogy 4 vagy 6 magosak a hasznalt procik vagy barmilyen "HT assist" funkciohoz? A STREAM egy pure bandwidth teszt. Egy sima ketmagos Opteron ugyanazt az eredmenyt adja mint egy negymagos ha ugyanaz a tipusu memoria (pl. DDR2-667) van hasznalva. 1, 2 vagy 4 socket rendszer szinten nem jatszik szerepet ha a RAM es a HT egyforma.

    Szoval valami nem ugy van ahogy az a TR cikk alapjan lejon. A 25GB/s vs. 42GB/s esetleg ugy johet ki hogy a ket rendszer nem volt egyforma mint ahogy irjak es volt koztuk difi. HT vagy RAM vagy mindketto.

    [ Szerkesztve ]

    Privat velemeny - keretik nem megkovezni...

  • Raymond

    félisten

    válasz dezz #80 üzenetére

    1) A cikkben ez all szo szerint:

    "The 16-core Shanghai system produced throughput numbers in the range of 25,000 MB/s. The 24-core Istanbul box, by contrast, hit about 42,000 MB/s. The tech then swapped the processor-and-memory daughtercards between the two boxes, and of course, the performance characteristics moved with them."

    Es ez latszik a kepen is.

    2) En ismerem a STREAM benchmarkot ezert irtam amit irtam. Igen, egy ketmagos Opteron is ugyanazt az eredmenyt fogja a STREAM alatt hozni mint egy negymagos ha ugyanazt a memoriat hasznalod. A pure bandwidth pedig nem tulzas. Nezd meg a linkeket amit talaltal, ott is le van irva. Egyebkent ez vilagos ha osszeveted a tesztelt procik maximalis szamitasi teljesitmenyet a max elerheto memoria savszelel. Egyszeruen nem tudsz annyi adatot mozgatni hogy a szamolas legyen a szuk keresztmetszet. A ket lenyeges resz az STREAM oldal(ak)rol:

    "The array sizes are defined so that each array is larger than the cache of the machine to be tested, and the code is structured so that data re-use is not possible."

    "The intent of STREAM is not to suggest that ``real'' applications have no data re-use, but rather to decouple the measurement of the memory subsystem from the hypothetical ``peak'' performance of the machine."

    Ha utannaolvasol a STREAM-nek akkor lathatod hogy ott nincs mit csinalnia egy HT assistnak.

    Privat velemeny - keretik nem megkovezni...

  • Raymond

    félisten

    válasz #06658560 #93 üzenetére

    Mindegyik processzornak sajat beepitett vezerloje van es mindegyik a processzorok kozti HT linken keresztul eri el a a tobbiekhez kapcsolodo memoriat.

    Privat velemeny - keretik nem megkovezni...

  • Raymond

    félisten

    válasz dezz #96 üzenetére

    1) "De nem is láttam még ilyen modul rendszerű szervereket"

    Pedig van par ilyen. Nezz korul a nagyobb (4+ socket) kepeknel. Es ezert is fura hogy nem egy olyan rendszert hasznaltak ahol az alaplapon vannak a CPU-k.

    Egyebkent az hogy a ket eredmeny pont ugy jon ki az ismert STREAM eredmenyek alapjan hogy a Shanghai rendszer 1Ghz HT link es DDR2-800 eredmenyeket ad (kb. 25GB/s) az Istanbul pedig kb. olyat ami egy 2Ghz koruli HT es magasabb orajelu DDR3 memoriakkal (1066 minimum, de inkabb 1333Mhz) jonne ki szinten nem lehet a veletlen muve.

    2) "Ha ez teljesen igaz lenne, akkor minden tesztnél egyforma MB/s értékek jönnének ki,"

    Nezd, ha megtalaltad a STREAM oldalat ott minden megvan. Az hogy vannak apro elteresek egy-egy futam es egy-egy metodus kozott nem lenyeges. Ez mindig is lesz es minden architekturan elojon. Van ahol picit nagyobbak a difik, van ahol alig van valami. Ezert publikaljak mindig mind a negy metodus eredmenyet.

    De oszinten szolva nem akarlak egy industry standard benchmarkrol gyozkodni, uttananezhetsz magad is. Egyebkent azt is mondhatjuk A STREAM a memoria atereszto kepesseg LINPACK-ja. A LINPACK a realisan elerheto vektoros szamitasi teljesitmenyt meri, a STREAM pedig a maximum elerheto realis memoria atereszto kepesseget meri.

    "Nem teljesen egyértelmű a számomra, hogy a "the code is structured so that data re-use is not possible" rész 1-1 procimagra vonatkozik, vagy a teljes rendszerre."

    A teszt a rendszerben elerheto osszes magot hasznalja. Ezert vagja haza a 4 socket Opteron rendszer a 4 socket Intel rendszereket. Mind a negy procinak kulon elerese van a memoriahoz ugyhogy a lokalis CPU-n futo kernelt konyebb etetni. Az Intelnel ez egy vagy ket (amugy sem gyors) FSB-n kene hogy tortenjen es meg is latszik az eredmenyeken.

    Amint lathattad a program oldalan a dataset ugy van felallitva hogy az adatokat mindig a memoriabol kelljen huzni es a cache metodusok ne jussanak szerephez. Ezert is van az hogy ha egy 4 socket 2 core (8 total) Opteron rendszer ugyanazt az eredmenyt adja mint egy 4 socket 4 core (16 total) rendszer. Mar a 2 mag vektoros szamitasi teljesitmenye is nagyobb annal mint amilyen gyorsan az adatokat a memoriabol be tudod tolteni.

    Privat velemeny - keretik nem megkovezni...

  • Raymond

    félisten

    válasz P.H. #98 üzenetére

    Thank you! :) :R

    Viszont meg mindig nem ertem hogy johet ki a 25->42 GB/s eredmeny. Nincs korelacio a szamok kozott barmilyen oldalrol nezem is.

    Privat velemeny - keretik nem megkovezni...

  • Raymond

    félisten

    Na, lassan csak kiderul mi is volt a helyzet azzal a STREAM tesztel:

    "Besides HT assist, AMD has now confirmed to us that the memory controller has been tuned quite a bit."

    [link]

    Privat velemeny - keretik nem megkovezni...

Új hozzászólás Aktív témák