Hirdetés

Új hozzászólás Aktív témák

  • fLeSs

    nagyúr

    válasz dezz #3250 üzenetére

    pure FPU tesztet találtam, vagy legalábbis vmi olyasmi: [link]

    "I press keys on a keyboard all day and click a mouse in front of a glowing rectangle. Somehow that turns into food and shelter."

  • fLeSs

    nagyúr

    válasz fLeSs #3251 üzenetére

    némileg tévedtem: "J2SE platform version 1.4.2 now uses SSE and SSE2 instruction sets for floating point computations on hardware and software platforms that support this feature. Use of the SSE and SSE2 instruction sets allows J2SE platform version 1.4.2 to have optimal performance of scientific and numerical computations and to take full advantage of new hardware and software platforms."

    "I press keys on a keyboard all day and click a mouse in front of a glowing rectangle. Somehow that turns into food and shelter."

  • #95904256

    törölt tag

    válasz dezz #3250 üzenetére

    Nem igazán vagyok híve a "pure" benchmark teszteknek. Ezek a számok igazából csak egy szűk körnek beszédesek. A valós alkalmazások ( pl.: játékok, böngésző lapbetöltések, konverterek, tömörítők... ) eredményei jóval többet elárulnak arról hogy a hétköznapi felhasználás során mi várható az adott dologtól.

    Vannak persze kombinált tesztek is, mint pl. az általatok is emlegetett SPECxxx tesztek, de ugye az már közel sem "pure"... :)

    [ Szerkesztve ]

  • fLeSs

    nagyúr

    válasz #95904256 #3253 üzenetére

    ez igaz, de azért érdekességképpen ezek is szerepet kaphatnak egy tesztben, sok mindenre fény derülhet a szintetikus mérésekben.

    nem ismeri vki a nuendo 3-at?

    [ Szerkesztve ]

    "I press keys on a keyboard all day and click a mouse in front of a glowing rectangle. Somehow that turns into food and shelter."

  • dezz

    nagyúr

    válasz fLeSs #3252 üzenetére

    Végülis nem csak különféle Java platformok összehasonlítására jó, hanem ugyanazon platform különféle procikon hozott sebességének összehasonlítására is. Bár tényleg nem teljesen "pure", de ez talán nem is olyan nagy baj. Viszont legalább SIMD-intenzívnek tűnik.

    akosf: Én is kb. így gondolom (de azért talán többeket is érdekel - vagy majd cikken kívül le lehetne tesztelni), viszont nem sok desktop alkalmazás akad egyelőre, ami intenzíven SIMD-ezik, főleg fp SIMD-ben (nem tudom, az a DivX codec int vagy fp SIMD).

    A SPEC teszteknél az egyedi alkalmazásteszt-számok is elérhetőek, vagy csak az átlagolt eredmény? Mert ha igen, talán érdekesebbek lennének azok, mint az utóbbi. Na persze nem az átlag-játékosnak, de talán a tudományosabb beállítottságúak tudnák értékelni. (Persze valamilyen "tömzsi" grafikon képében jelenhetne meg, hogy ne foglaljon sok helyet.)

    Jut eszembe, a Havok Physics engine nem SIMD-ezik? Ésszerű lenne a számára. Viszont nem nagyon tudok fizikai benchmarkról... Valaki írna, szerintem sikeres lenne. Ez már több embert érdekelne.

    [ Szerkesztve ]

  • #95904256

    törölt tag

    válasz fLeSs #3254 üzenetére

    Csak örülni tudok annak hogy minél több minden fog szerepelni a tesztben... :R

  • hunnylander

    őstag

    válasz fLeSs #3254 üzenetére

    Hagyjad már azt a Steinberg Nuendo 3-at.

    Ha nagyon akarsz FPU-t megdolgoztató audióprogramos benchmark-ot, tudok segíteni. De a múltkor is valamit 'eltoltál' vele, és nem lett a dologból semmi. :)) Talán még rémlik (Sonar).

    Viszont azóta már van jobb négymagost (akárhánymagost) is kihasználni tudó audió szoftverem. Ha nagyon akarod, tudok kérni egy licenszet nektek. Benne vagyok a fejlesztő csapatban (mint béta tesztelő) és ismerem a fejlesztőket, jó fejek és segítőkészek. Lehet, hogy ér nekik az ingyen reklám annyit, hogy cserébe megdobjanak egy licensszel (200 dollár). Teszt projektek meg nem gond, mert van bőven és tudok csinálni könnyedén, mivel ezzel a szoftverrel dolgozok nap mint nap.

    www.HunnyF1.com

  • Raymond

    félisten

    válasz dezz #3248 üzenetére

    "Mintha nem tudnád, hogy nem csak sávszélesség többlet van ott, hanem latency-ben is jobb az AMD. De szerintem több programnak a sávszél sem mindegy."

    Nezd, a bebizonyithatatlant akarod bebizonyitani. Azzal kezdodott hogy a SIMD FP teljesitmenyt az fp_rate tesztel tamasztod ala. Modtam hogy azt nem lehet. Akkor jottel azzal hogy ha az fp_rate eredmenye tenyleg a savszelessegtol fuggene akkor az Int_rate is elohozna az elonyt. Erre mondtam hogy nem, mert azok a programok messze nem olyan savszelesseg igenyesek. Megnezted es jottel hogy az 1/3-aduk fugg a savszelessegtol es a kesleltetestol is es felsoroltal parat. Tehat mar abbol az 1/3-bol amit magad talaltal sem fugg az osszes a savszelessegtol. Raadasul ha egy pointer chaser-es programot mint peldaul az a path finding akarhany peldanyban is futtatod ha a ket teljesen proci egyforma es csak az elerheto mem savszelessegben kulonboznek az eredmeny ugyanaz lesz mindkettonel mert egyszeruen nem szaturaljak a bus-t.

    Komolyan nem ertem miert vitazal felesleges ahelyett hogy megnezned. Tegnap irtam par eredmenyt azt nem magyaraztad el (nem is tudnad vele az allitasod bizonyitani). Itt van meg valami akkor. Nezd meg milyen Int_rate eredmenyt kap egy 3Ghz 5160-as Xeon. 36-ot a legjobb submission-el, az atlag olyan 32-33. Ugyanebbol a procibol kettopedig kap 68-at a legjobb submission-el az atlag pedig 60-62. Majdnem idealis a skalazodas. Azt az 5-6%-ot leveszted a system overhead-el, de vilagos hogy a memoria savszelesseg egyaltalan nem jatszik szerepet. A 3Ghz-es Opteron 2222-nel ezek az eredmenyek 29-30 egy processzorral es 57-58 ketto-vel. Ennel vilagosabban mar nem tudom megmutatni hogy sem a SPECInt sem pedig a SPECInt_rate eredmenyek nincsenek az elerheto memoria savszelessegel befolyasolva. Remelem ez a tema ezzel befejezve.

    "Mert épp azt bizonygatom, hogy nem csak összteljesítményben jobb."

    Akkor ez valahogy nagyon nem megy (egyebkent nem is mehet). Mondjuk a Cinebench skalazodas erdekelne miert van, mejd egyszer utana jarunk :)

    "A mostani tesztekben nem sok SIMD teszt volt... Talán az egyedüli:"

    Hat ugy oszinten az minden csak nem pure SIMD teszt. Viszont a pure SIMD tesztre ami sem a memoria savszelessegel es a processzor semmi mas tulajdonsagaval nincs befolyasolva csakis a tiszta SIMD kepesegekkel arra van ott egy kivalo pelda. Megpedig a Sandra Mandelbrot teszt. Ket processzor eredmenye semmi mastol nem fugg csak az Int es az FP SIMD teljesitmenytol. Szepen latszik melyik processzor mitt tud. Eleg osszehasonlitani ugyanazon csalad ket tagjat. Peldaul a 6000+ es a 6400+ csak az orajelbol adodo kulombseget mutatja ugyanugy ahogy az E6600 es a Q6600 csak a dupla annyi magbol adodo kulombseget mutatja.

    A "normalis" programok kozul peldaul a Valve Particle benchmark, a piCOLOR vagy epp a 3DStudio MAX is eleg szepen leteszteli az SIMD kepessegeket. Nem azt latni beloluk hogy a K10 valahogy jobb lenne mint a Core2. Mondjuk en is kivancsi lennek mi lett azzal a ujitassal amirol az AMD regelt par honapja hogy a K10-ben el is lehet majd juttatni a feldolgozando adatokat az egysegekhez a Core2-vel ellentetben. Kerestem tegnap a prezentaciot vagy az oldalt ahol kepeket kozoltek rola de nem talaltam. Itt is linkeltuk pedig a topic-ban nem is egyszer. Majd meg lehet megnezem de per pillanat semmi kedvem. Ha viszont megtalaltad belinkelhetned.

    Privat velemeny - keretik nem megkovezni...

  • fLeSs

    nagyúr

    válasz hunnylander #3257 üzenetére

    Azért a nuendót váalsztottam, mert ismert, és mert project exportnál 2-4 mag között is 100%-osan kimutatja a skálázódást. de még az sem biztos, hogy tesztelni fogok vele, először mindig le kell tesztelnem, hogy jók-e ezek a progik tesztelésre. :D
    de ha nem jön össze, akkor szólok.

    "I press keys on a keyboard all day and click a mouse in front of a glowing rectangle. Somehow that turns into food and shelter."

  • Raymond

    félisten

    válasz dezz #3255 üzenetére

    A video kodolasnal az van hasznalva ami a leggyorsabb. Ez mara mar mindig az SSE2 vagy magasabb verzioju kod lett.

    SPEC reszeredmenyek ott vannak linkelve a jobb oldalon tobb formatumban is ha kilistazol valamit.

    Minden fizikai engin SIMD-ezik, attol lehet most mar valamit is kezdeni veluk. HAVOK sajna most mar Intel tulajdon es egyebkent sem volt ingyenes. Az AGEIA Physix meghajtoiban viszont van par demo, de benchmarkolni nem tudom hogy lehetne veluk.

    Privat velemeny - keretik nem megkovezni...

  • hunnylander

    őstag

    válasz fLeSs #3259 üzenetére

    Az enyém is tudja azt, de nem a Sonar-ról beszélek. Egyébként nekem meg van Steinberg Cubase SX 3-mam a szép kék USB kulcsával együtt. Bibibi. :D És ha ismered a Steinberg Nuendo-t, akor tudod, hogy az a Cubase tesója, post production-re kihegyezve, és kompatibilisek. Zenére, audióban a két program teljesen ugyanaz, csak a Nuendo-nak van néhány extra videós/filmipari ficsőrje. Meg az árcéduláját is a filmes szakmának szánták.

    Viszont szintén nem a Cubase-re utaltam, mert hogy nem szeretem az ilyen böhöm szoftvereket, csak speciális dolgokra vettem.

    [ Szerkesztve ]

    www.HunnyF1.com

  • fLeSs

    nagyúr

    válasz hunnylander #3261 üzenetére

    én egyiket sem ismerem... :D csak a tesztelés miatt fogom egy picit megismerni.

    [ Szerkesztve ]

    "I press keys on a keyboard all day and click a mouse in front of a glowing rectangle. Somehow that turns into food and shelter."

  • hunnylander

    őstag

    válasz fLeSs #3262 üzenetére

    Na éppen emiatt nem a legkomplexebb és legböhömebb progiba kellene belekapnod, ha csak egy kis floating point audio rendering-et akarsz.

    A Nuendo az a 'Hans Zimmer'-eknek való, hogy befejezzék rajta a filmzenéjüket.

    Ugyanazt a Phenom nyúzó audio projektet Orion-nal 10 perc alatt összedobom, amihez a Cubase/Nuendo-ban kell vagy egy óra mert egyszerűen túlkomplikált és körülményesebb, lassabb a workflow-ja.

    [ Szerkesztve ]

    www.HunnyF1.com

  • dokar

    addikt

    ezt találtam, nem túl kecsegtető:

    +22.5% alapfeszen

    [ Szerkesztve ]

    extra - SEXRay

  • dezz

    nagyúr

    válasz Raymond #3258 üzenetére

    [OFF]"Azzal kezdodott hogy a SIMD FP teljesitmenyt az fp_rate tesztel tamasztod ala. Modtam hogy azt nem lehet."
    Ha egy hw gyakorlati teljesítményét akarjuk megtudni magas kihasználtság mellett, akkor nagyon is a RATE teszteket kell használnunk, nem pedig az egyszálas simákat.

    De mint írtam, az egyszálas fp eredmény is elég jó volt (mivel a tesztek jó része fp SIMD-es kód). Majd még megpróbálom előkeríteni. Vagy ki kell várnunk, míg újra publikálják. Viszont ennek nem sok gyakorlati jelentősége van...

    Hát még egy full szintetikus elméleti maximumot tesztelő raw teszteknek. Az annyira nem érdekel senkit, hogy mint kiderült, nem is nagyon találni ilyen teszprogramot...

    "Akkor jottel azzal hogy ha az fp_rate eredmenye tenyleg a savszelessegtol fuggene akkor az Int_rate is elohozna az elonyt."
    Idézz pontosan: ha csak attól függene. Az természetes, hogy ettől is függ.

    "Erre mondtam hogy nem, mert azok a programok messze nem olyan savszelesseg igenyesek."
    A memóriahozzáférés-intenzív nem csak sávszélességet jelent, hanem latency-érzékenységet is. És van olyan ott bőven, aminek ez sokat számíthat.

    Ezen kívül több is van közöttük, ami nyugodtan használhat int SIMD kódot, és az bizony nagyon is lehet sávszél-igényes.

    "Megnezted"
    A feltételezéseidet ne tálald tényként, amíg nem tudod kétséget kizáróan bizonyítani (ha az nem lett volna elég, hogy közöltem).

    "es jottel hogy az 1/3-aduk fugg a savszelessegtol es a kesleltetestol is es felsoroltal parat. Tehat mar abbol az 1/3-bol amit magad talaltal sem fugg az osszes a savszelessegtol."
    Értsd már meg, hogy eleve nem csak sávszélességről volt szó, csak te gondoltad ezt.

    "Raadasul ha egy pointer chaser-es programot mint peldaul az a path finding akarhany peldanyban is futtatod ha a ket teljesen proci egyforma es csak az elerheto mem savszelessegben kulonboznek az eredmeny ugyanaz lesz mindkettonel mert egyszeruen nem szaturaljak a bus-t."
    Lásd eggyel feljebb.

    "Komolyan nem ertem miert vitazal felesleges ahelyett hogy megnezned."
    Mit nem nézek meg?

    "Tegnap irtam par eredmenyt azt nem magyaraztad el (nem is tudnad vele az allitasod bizonyitani)."
    De igen: azok 99%-ban nem (fp) SIMD-es tesztek.[/OFF]

    "Itt van meg valami akkor. Nezd meg milyen Int_rate eredmenyt kap egy 3Ghz 5160-as Xeon. 36-ot a legjobb submission-el, az atlag olyan 32-33. Ugyanebbol a procibol kettopedig kap 68-at a legjobb submission-el az atlag pedig 60-62. Majdnem idealis a skalazodas. Azt az 5-6%-ot leveszted a system overhead-el, de vilagos hogy a memoria savszelesseg egyaltalan nem jatszik szerepet. A 3Ghz-es Opteron 2222-nel ezek az eredmenyek 29-30 egy processzorral es 57-58 ketto-vel. Ennel vilagosabban mar nem tudom megmutatni hogy sem a SPECInt sem pedig a SPECInt_rate eredmenyek nincsenek az elerheto memoria savszelessegel befolyasolva. Remelem ez a tema ezzel befejezve."
    No és azt mivel magyarázod, hogy sem az egyprocis, sem a kétprocis teszteket összehasonlítva nem jön ki a Core alapú Xeon 5160-as kb. 30%-os integer előnye? Csak nem mindkét esetben kompenzálódik az Opteronos rendszer sávszél és latency előnye által?

    De tegyük fel, itt kevésbé számítanak ezek. Ezzek még nem bizonyítottad, hogy fp_rate-nél csak ezek számítanak.

    "Mondjuk a Cinebench skalazodas erdekelne miert van, mejd egyszer utana jarunk"
    Valószínű, hogy mivel egy scene-n dolgoznak a szálak, közös adatbázisból dolgoznak, így sokszor előfordulhat, hogy a L3-ba kerül az adat, és több mag hívja onnan. Továbbá ray-tracingnél sok a kicsi és véletlenszerű memória-hozzáférés is, ami az független memória-csatornákon jobban megy. Talán latency-ben is jobb még valamivel a Phenom.

    "Hat ugy oszinten az minden csak nem pure SIMD teszt."
    Nem is, de SIMD-intenzív. Jól is szerepel benne a Phenom...

    "Viszont a pure SIMD tesztre ami sem a memoria savszelessegel es a processzor semmi mas tulajdonsagaval nincs befolyasolva csakis a tiszta SIMD kepesegekkel arra van ott egy kivalo pelda. Megpedig a Sandra Mandelbrot teszt. Ket processzor eredmenye semmi mastol nem fugg csak az Int es az FP SIMD teljesitmenytol. Szepen latszik melyik processzor mitt tud. Eleg osszehasonlitani ugyanazon csalad ket tagjat. Peldaul a 6000+ es a 6400+ csak az orajelbol adodo kulombseget mutatja ugyanugy ahogy az E6600 es a Q6600 csak a dupla annyi magbol adodo kulombseget mutatja."
    Ha tényleg annyira pure az a teszt, akkor valami nagyon nem stimmel a Phenom számaival. Ha az 5600+ (2,8 GHz) 62939-es eredményét megszorozzuk 4-gyel (2x mag, 2x bitszélesség), és levonjuk az órajelkülönbségből adódó 7%-ot, a Phenom 9900-asnak (2,6 GHz) ~234133 pontot kellett volna hoznia. Ehelyett hozott 192141-et... Ez 18%-os deficit. Talán azt mondod, 1 K10 mag azonos órajelen 18%-kal lassabb, mint 1 K8 mag, fp SIMD-ben...? (Az int-et most nem számolom ki.)

    "Kerestem tegnap a prezentaciot vagy az oldalt ahol kepeket kozoltek rola de nem talaltam. Itt is linkeltuk pedig a topic-ban nem is egyszer. Majd meg lehet megnezem de per pillanat semmi kedvem. Ha viszont megtalaltad belinkelhetned."
    A varsóira gondolsz?

    [ Szerkesztve ]

  • Oliverda

    félisten

    válasz dokar #3264 üzenetére

    Van nálam most egy 4200+ Windsor F2-es, az még ennyit sem tud alapfeszen. :DDD

    "Minden negyedik-ötödik magyar funkcionális analfabéta – derült ki a nemzetközi felmérésekből."

  • #95904256

    törölt tag

    válasz dezz #3265 üzenetére

    Talán azt mondod, 1 K10 mag azonos órajelen 18%-kal lassabb, mint 1 K8 mag, fp SIMD-ben...?

    64 vagy 128 bites operandushosszra gondolsz?

    Nem vennék rá mérget hogy 64 biten a K10 nem lehet gyengébb...

  • dezz

    nagyúr

    válasz #95904256 #3267 üzenetére

    128 bitesre, mivel ugye 2x2-szeres gyorsulási elvárásról volt szó a két proci között, csak rosszul írtam. Ez lett volna: 1 K10 mag azonos órajelen 18%-kal lassabb a 2x-es gyorsulásnál, mint 1 K8 mag, fp SIMD-ben...? Mondjuk jobban belegondolva elképzelhető, hogy a 128 bitesre bővítés nem hoz 2x-es pure gyorsulást.

  • hunnylander

    őstag

    válasz dokar #3264 üzenetére

    Szerintem ez kifejezetten jó eredmény. :)

    [ Szerkesztve ]

    www.HunnyF1.com

  • #95904256

    törölt tag

    válasz dezz #3268 üzenetére

    Semmi gond. Én is rosszul írtam. 64bit / 128bit helyett skalár / vektor műveletekre gondoltam, de úgy látom sikerült kihámozni belőle. :)

  • dezz

    nagyúr

    Itt van még egy Phenom teszt: Hothardware
    (Azért jópár tesztben hozza a 2x-es teljesítményt X2-höz képest azonos órajelen (ilyenkor a 6400+-hoz képest ~60%-ot hoz 2,4 GHz-en), és sokszor ott liheg a C2Q 6600 nyakába.)

    De ezt és ezt nem tudom mire vélni... (Monjduk ezt sem igazán, de erről már volt szó.)

    Raymondnak mondanám, természetesen ezt is láttam. :) (2,83 GHz-re felszorozva egyébként 142200 pont lenne fp-ben, ami persze még mindig lassabb.) Apropó, miért ilyen alacsony az int SIMD teljesítmény, amikor még az SSE4-et sem használja?

    Egyébként ez alapján (hasonlóan felszorozva az órajelkülönbség szerint) skalár fp-ben (legalábbis Whetstone-ban) még jobb is, mint a C2Q QX6800 (36883 vs. 38017). (A zöld nem tudom, miért gyorsabb.)

    [ Szerkesztve ]

  • Andre1234

    aktív tag

    válasz dokar #3264 üzenetére

    Azért itt jobban néz ki..

    Ha x tart végtelenbe, akkor a prímek reciprok szorzatának negáltja 0-hoz tart...

  • Andre1234

    aktív tag

    kell az az újjabb stepping..katt

    Ha x tart végtelenbe, akkor a prímek reciprok szorzatának negáltja 0-hoz tart...

  • Joshi

    titán

    válasz Andre1234 #3273 üzenetére

    A 3055Mhz helyett csinálhattak volna 4055-öt is. Photoshoppal lett készítve a CPU-Z nem? ;]

  • Andre1234

    aktív tag

    AMD Phenom X4 9600 - 2,3 GHz, Cache L2 2 Mb, L3 4 Mb, Socket AM2+

    fLeSs: azt írja ha nem vagy elégedett a termékkel akkor 8 napon belül visszafizetik..
    Le tudod tesztelni ennyi időn belül?? :D :D

    Ha x tart végtelenbe, akkor a prímek reciprok szorzatának negáltja 0-hoz tart...

  • Andre1234

    aktív tag

    válasz Joshi #3274 üzenetére

    azért van ott a katt hogy mindenki eldöntse hogy valós-e..
    de miért ne lenne az??nem ez lenne az első példány amit 3gigára tornáztak..
    Raymond mindjárt megkövez hogy hol erre a bizonyíték :DD persze egy valid sokat dobna a hitelesítésen.

    Ha x tart végtelenbe, akkor a prímek reciprok szorzatának negáltja 0-hoz tart...

  • #95904256

    törölt tag

    válasz Joshi #3274 üzenetére

    Ebben a tesztben szerepel egy "Power Consumption" fejezet is...

    Phenom 9900: Idle->Load: 197->345 Watt
    Core2Quad Q6600: Idle->Load: 196->242 Watt

    ...azt hittem hogy a natív négy mag legalább a fogyasztásban előnyt jelent. :(

  • Andre1234

    aktív tag

    válasz #95904256 #3277 üzenetére

    mégse lesz akkor phemonod???

    Ha x tart végtelenbe, akkor a prímek reciprok szorzatának negáltja 0-hoz tart...

  • Raymond

    félisten

    válasz dezz #3265 üzenetére

    "Ha egy hw gyakorlati teljesítményét akarjuk megtudni magas kihasználtság mellett, akkor nagyon is a RATE teszteket kell használnunk, nem pedig az egyszálas simákat."

    Meg egyszer - a rate tesztek system throughput tesztek. Nem ersz vele semmit ha egy 2 vagy 4 socket-es rendszerek rate eredmenyet hasznalod *egy* proci teljesitmenyenek megitelesere. Semmi ertelme mert nem azt mutatja amirol beszelsz.

    "De mint írtam, az egyszálas fp eredmény is elég jó volt (mivel a tesztek jó része fp SIMD-es kód)."

    Csak sajnos a realitas az hogy nem voltak es nem is jok az eredmenyek:

    SPECfp2006 (base/peak)
    AMD 1.9GHz - 10.7/11.2 - Note 2 socket system
    Intel 3GHz - 18.4/21.4 - Note 2 socket system
    Intel 2GHz - 14.5/16.9 - Note 2 socket system

    [link]

    Ezek az egyszalas fp eredmenyek, ne zavarjon hogy ket socket-es rendszeren futottak. Lehetett volna az 8 socket-es az eredmeny ugyanaz lenne. Opteronos nincs, de megnezheted az egy socketes 4 magos Xeon eredmenyeket az adatbazisban, van beloluk eleg. Akkor lathatod hogy a szamok ulnek.

    "Idézz pontosan: ha csak attól függene. Az természetes, hogy ettől is függ."

    Idezek: #3246 "Tehát nagyon is ki kellett volna jönnie itt is a sávszélesség-többlet csodás hatásának."

    Nem latok ott se "is"-t se mast. De mondjuk lenyegtelen, mert az igazsag az hogy a savszelessegtol nem fugg. Ezt a #3258-ben leirtam de valahogy most sem valaszoltal ra. Megkerdem megy egyszer. Ha az Int_rate teszt egy kicsit is fuggene az elerheto memoria savszelessegtol akkor hogy lehet hogy az eredmeny gyakorlatilag idealisan skalazodik 4-8-16 ugrasoknal? Sehogy, azert skalazodik ugy mert nem fugg tole. Ugyanaz a skalazodas lathato az Opteron 1-2-4 socket rendszernel es a Xeon 1-2-4 socket rendszernel. Es abban ugye egyetertunk hogy mar egy 2 socket-es Opteronnal sokkal nagyobb a memoria savszelesseg mint egy Xeon-nal. Egy 4 socket-es rendszerrol nem is beszelve.

    "Ezen kívül több is van közöttük, ami nyugodtan használhat int SIMD kódot, és az bizony nagyon is lehet sávszél-igényes."

    Valami pelda? Nem fogok linkelni semmit, hagyom hogy keress egyet akkor talan rajossz vegre mennyire nincs igazad. Mutass egy intenziv SIMD Int kodot hasznalo programot ahol egy K8 vagy a K10 gyorsabb mint egy Core2 CPU mert nagyobb a memoria savszelesseg.

    "A feltételezéseidet ne tálald tényként, amíg nem tudod kétséget kizáróan bizonyítani (ha az nem lett volna elég, hogy közöltem)."

    Hat nekem egyelore ugy tunik hogy az egyetlen aki itt szamokkal alatamaszatotta azallitasait az en vagyok. Nem a feltetelezeseimet talalom tenykjent hanem a publikusan lekozolt tenyeket irtam csak le neked. Jo lenne ha mar vegre elmagyaraznad amire parszor kertelek feljebb is.

    "Értsd már meg, hogy eleve nem csak sávszélességről volt szó, csak te gondoltad ezt."

    Akkor lehet hogy erthetobben kene irnod? Nem fogom beidezgetni a hozzasolasokat egyenkent mert ennek ninsc ertelme. Olvasd vissza a diskurat a #3240-tol. Azzal kezdodott hogy hogy az fp_rate eremenyel magyarazod hogy a K10 jobb fFP SIMD-ben. Erre mondtam hogy a rate-et nem hasznalhatod mert elsosorban a mem savszelesseg jon ott elo. Erre azt irtad a #3242-ben hogy ilyen alapon az Int_rate is jobb lenne. Akkor irtam a #3243-ban hogy nem mert azok a tesztek nem fuggenek a memoria savszelessegtol. Es hogy nezd meg mibol allnak. Akkor jottel a #3244-ben hogy csupa memoria intenziv program van ott. Megkertelek a #3245-ben hogy ird mar le melyikek lennenek azok mert nekem nem ugy tunik. Erre a #3246-ben mar felsorltal parat azzal a kiulonbseggel hogy mar csak az 1/3-a a teszteknek az elozoleg allitott "csupa" helyett es azok is mar nem csak savszelesseg igenyesek hanem kesleltetes is. De azert meg mindig odairtad hogy "...nagyon is ki kellett volna jönnie itt is a sávszélesség-többlet csodás hatásának.". Pedig mar megmondtam az elejen hogy nem mert nem fugg tole. Semmi mast nem kelett volna csinalnod csak megnezni ez eredmenyeket a SPEC adatbazisban hogy erre rajojj magadtol is. Ehelyett meg mindig golytatod es meg most is probalod valahogy elmagyarazni hogy fugg de komolyan nem ertem hogy miert. Az eredmenyek onmagukert beszelnek. Ha gyakorlatilag idealis skalazaodas van 1socket/2mag es 4socket/8mag Xeon rendszernel egy tesztben annal tobb bizonyitek nem kell hogy az a teszt fuggetlen a memoria savszelessegtol.

    "De igen: azok 99%-ban nem (fp) SIMD-es tesztek."
    A #3240-ben leirt szamokra gondoltam.

    "No és azt mivel magyarázod, hogy sem az egyprocis, sem a kétprocis teszteket összehasonlítva nem jön ki a Core alapú Xeon 5160-as kb. 30%-os integer előnye? Csak nem mindkét esetben kompenzálódik az Opteronos rendszer sávszél és latency előnye által?

    Nem. Javaslom a tesztben szereplo programok es a publikalt eredmenyek tanulmanyozasat.

    "Talán latency-ben is jobb még valamivel a Phenom."

    A tesztekbol nem jon elo szamottevo kulonbseg. Valami mas lehet az oka.

    "Nem is, de SIMD-intenzív. Jól is szerepel benne a Phenom..."

    Van ott egy csomo masik program ami szinten SIMD intenziv azokban megsem szerepel olyan jol. Es azokbol van a tobb - gyakorlatilag az osszesben lasabb.

    A Sandra-nal az ugyanazon architekturajo procikat hasonlitsd ossze. Pl. 5600+ vs. 6400+ vagy C2D vs.C2Q. Latszik az idealis skalazodas. Az hogy a Phenom nem pont ketszer annyi mint a K8 nem arra mutat hogy a programban van a problema hanem inkabb arra hogy a Phenom-nal vagy meg valami nem ul a bug-ok miatt vagy hogy ennyi lett a javulas :)

    "A varsóira gondolsz?"
    Nem, arra ahol a 128bit SIMD teljesitmeny volt illusztralva hogy miert is lesz jobb a K10-ben. Volt ket abra, mindketton olyan negysavos utnak megfelelo volt abrazolva. A K10 eseteben nem volt valtozas, a C2 eseteben viszont a ketoldalrol leszukultek az utak. Azt akartak illusztralni hogy a K10 majd el si tuja juttatni a megfeleo mennyisegu adatot a feldolgozo egysegekhez a C2-vel ellentetben. Na ez az amibol egyelore nem latszik sokminden.

    Privat velemeny - keretik nem megkovezni...

  • fLeSs

    nagyúr

    válasz Raymond #3281 üzenetére

    [link]

    a vitátokhoz kapcsolódik némileg ez a hsz [link] olvastad? kicsit más megvilágításba helyezi a dolgokat. specfp_rate-ben 2 ghz-en magasabb pontszám a barcelonánál, mint a 3 ghz-es xeonnál.

    [ Szerkesztve ]

    "I press keys on a keyboard all day and click a mouse in front of a glowing rectangle. Somehow that turns into food and shelter."

  • Raymond

    félisten

    válasz fLeSs #3282 üzenetére

    Ez volt az :) Na ez az elony egyelore valahogy nem mutatkozik meg.

    [ Szerkesztve ]

    Privat velemeny - keretik nem megkovezni...

  • dezz

    nagyúr

    válasz #95904256 #3277 üzenetére

    Azt is vedd számításba, hogy ez egy 1,3V-on hajtott Engineering Sample, holott egy jobban sikerült B2-es 9600-as 1,1V-on is elmegy, és a későbbi steppingek valószínű szintén javítanak majd a helyzeten. Azt sem lehet pontosan tudni, mennyire működött a C'n'Q, és a többi új fogyasztáscsökkentő megoldás.

  • #95904256

    törölt tag

    válasz dezz #3284 üzenetére

    Igaz. Nem is figyeltem hogy ES proci... :U

    De most megnéztem az AnandTech-es tesztet. Úgy tűnik az ottan tesztel példány nem ES, mégsem sokkal kedvezőbb a helyzet.

    Q6600: 162 -> 223 Watt
    P9700: 168 -> 252 Watt
    P9900: 165 -> 265 Watt

    Terhelt állapotban a Q6600-hoz képest a +30..40 Watt soknak tűnik.
    Mit ne mondjak, azt hittem hogy a Q6600-nál azért hűvösebb lesz...

    [ Szerkesztve ]

  • dezz

    nagyúr

    válasz Raymond #3281 üzenetére

    Kezd egy végtelen ciklusra hasonlítani ez a vita. Nyilvánvaló dolgokat felesleges ismételgetned, mint pl. a szöveget a rate tesztekről - tisztában vagyok vele, hogy azok mik, magam is írtam már többször. Csak úgy emlékeztem, a sima (1-szálas) SPECfp teljesítmény is valamivel jobb volt, mint a másiké, csak a rate (többszálas) még jobb.

    Ettől még lehet pl., hogy 1 procis, 4 szálas esetben is az AMD jöhet ki győztesen, és van is rá példa.

    Látom, nem tudod elfogadni, ha nincs 100%-ig igazad. Pedig most sincs. :)
    1. Állandóan próbálod bagatellizálni a rate eredményt, holott éppen ez mutatja meg, hogy szerepel egy platform különféle hétköznapi esetekben. Ez számít, nem az, mennyi a pure, elméleti max. teljesítménye a proci FPU egységének.
    2. Szerinted nem számít a sávszél/latency az int_rate tesztekben. Pedig már felvetettem neked, hogy akkor hová tűnik a 30%-os előny? De akkor nézd meg a számokat (fLeSs által linkelt oldalról):

    SPECint_2006:
    2x Barcelona 1,9 GHz: 11,3 --> 2 GHz: 11,9
    2x Xeon E5335 2 GHz: 15,6 -----> előny: 31%

    SPECint_RATE_2006:
    2x Barcelona 2GHz: 88.3
    2x Xeon E5335 2 GHz: 84.2 ----> 4,8% hátrány!
    (Pedig itt [is?] alkalmazásra került egy bizonyos Auto-Parallelization fordításnál Intelnél, ami kb. 8%-kal növelte a teljesítményét.)

    "De mondjuk lenyegtelen, mert az igazsag az hogy a savszelessegtol nem fugg."
    Nem tudom, hogy csak a sávszélességtől, vagy inkább a latencytől, de láthatod, hogy függ.

    "Ezt a #3258-ben leirtam de valahogy most sem valaszoltal ra."
    Dehogynem, már ott is leírtam a 30%-os előny eltűnését.

    "Csak sajnos a realitas az hogy"
    ...az Inteles számokat 8%-kal növeli az Auto-Parallelization az Inteles compilerben.
    Anélküli számok (SPECfp_base2006):
    AMD 1.9GHz - 9.97 --> 2 GHz: 10,5
    Intel 2.00 GHz - 10.9

    "Valami pelda? Nem fogok linkelni semmit, hagyom hogy keress egyet akkor talan rajossz vegre mennyire nincs igazad. Mutass egy intenziv SIMD Int kodot hasznalo programot ahol egy K8 vagy a K10 gyorsabb mint egy Core2 CPU mert nagyobb a memoria savszelesseg."
    1. Most nem jön be a spec.org, később leírom, melyikről gondolom, hogy SIMD-es.
    2. Miért előlteted továbbra is ezt a sávszélességet, amikor már megbeszéltük, hogy nem csak erről van szól, hanem a latencyről is?

    "Akkor lehet hogy erthetobben kene irnod? Nem fogom beidezgetni a hozzasolasokat egyenkent mert ennek ninsc ertelme."
    Hát tényleg nincs, mert én már a legelején úgy fogalmaztam, "memória-intenzít", illetve "memóriahozzéférés-intenzív", amibe beletartozik a latency is. Csak te jöttél állandóan a sávszéllel. (Lehet, hogy utána 1-2x engem is félrevittél ezzel.)

    "Erre a #3246-ben mar felsorltal parat azzal a kiulonbseggel hogy mar csak az 1/3-a a teszteknek az elozoleg allitott "csupa" helyett"
    Jaj, de szépen tudsz csúsztatni. Ezt írtam:
    "1/3-a inkább memória(-hozzáférés) intenzív (Programming Language, C Compiler, Search Gene Sequence, Path-finding Algorithms, XML Processing), további 1/3 ez is-az is, és csak a maradék 1/3 a számítás-igényesebb."

    "A tesztekbol nem jon elo szamottevo kulonbseg. Valami mas lehet az oka."
    Mi lehet még?

    "Van ott egy csomo masik program ami szinten SIMD intenziv azokban megsem szerepel olyan jol."
    Melyik az a "csomó"?

    "Es azokbol van a tobb - gyakorlatilag az osszesben lasabb."
    Gyakorlatilag nem, lásd VirtualDub and DivX encoding.

    Ami a Mandelbrot tesztet illeti: idézet a Sisoft oldaláról [link]:
    [i]Q: Are the tests in the CPU Multi-Media Benchmark optimised for a specific CPU?
    A: Yes, the tests are optimised as far as possible but without introducing instructions that would generate large penalties on other processors.

    ALU (Integer) Test - Optimised for Intel Pentium core.
    FPU (Floating Point) Test - Optimised for Intel Pentium core.
    MMX (Integer) Test - Optimised for Intel Pentium MMX core.
    Enhanced MMX (Integer) Test - Optimised for AMD Athlon.
    SSE (Integer & Floating Point) Test - Optimised for Intel Pentium III.
    SSE2 (Integer & Floating Point) Test - Optimised for Intel Pentium 4.

    SSSE3 (Integer) Test - Optimised for Intel Core 2.[/i]

    "Az hogy a Phenom nem pont ketszer annyi mint a K8 nem arra mutat hogy a programban van a problema hanem inkabb arra hogy a Phenom-nal vagy meg valami nem ul a bug-ok miatt vagy hogy ennyi lett a javulas"
    Előfordulhat, mint ahogy az is, hogy Phenomra nem olyan jól optimizált.

  • Raymond

    félisten

    válasz fLeSs #3282 üzenetére

    Mire gondolsz hogy mas megvilagitasba helyezi? Az fp_rate tesztekben mar a K8 is gyorsabb volt mint egy C2D pedig az messze nem olyan gyors mag.

    Privat velemeny - keretik nem megkovezni...

  • dezz

    nagyúr

    válasz #95904256 #3285 üzenetére

    Ne felejtsd el, hogy a Phenomban ott van az NB is. Az végülis nagyjából ki is teszi azt a 30W-ot (a C2Q 6600 2,4GHz-es, mint a P9700).

    (#3280) ftc: No, akkor official a P9600 Black Edition idei kijövetele. :K Már csak az árát kellene tudni, de állítólag ugyanannyi lesz, mint a sima. Javaslom, aki most Phemonot akar venni, erre pályázzon... :D

  • #95904256

    törölt tag

    válasz dezz #3288 üzenetére

    Ne felejtsd el, hogy a Phenomban ott van az NB is. Az végülis nagyjából ki is teszi azt a 30W-ot (a C2Q 6600 2,4GHz-es, mint a P9700).

    Nem felejtem. De szerinted a Q6600 memóriavezérlő nélkül futtatta a programokat?

  • Raymond

    félisten

    válasz dezz #3286 üzenetére

    "Kezd egy végtelen ciklusra hasonlítani ez a vita."

    Pontosan. Eleg faraszto hogy a sajat szavaidat nem ismered el, pedig itt vannak par hozzaszolassal odebb.

    "Nyilvánvaló dolgokat felesleges ismételgetned, mint pl. a szöveget a rate tesztekről - tisztában vagyok vele, hogy azok mik, magam is írtam már többször.

    Legyen.

    "Csak úgy emlékeztem, a sima (1-szálas) SPECfp teljesítmény is valamivel jobb volt, mint a másiké, csak a rate (többszálas) még jobb."

    Belinkeltem a szamokat neked. Lattad hogy az egy szalas eredmeny nem jobb? Igen vagy nem? A tobbi elerheto rate eredmeny a multi socket Opteron rendszer teljesitmenyenek folenyet mutatja es ahogy eredetileg is irtam ez azert jon ki mert tobb memora savszelesseg all a rendelkezesre es a legfontosabb tenyezo az fp_rate eredmenyeknel. Mar a #3240-ben a legelejen megkerdeztem ezt:

    SPECfp_rate 2Ghz-en:
    4mag/2socket K8 = 40
    4mag/2socket Xeon = 40
    8mag/2 socket Xeon = 56

    Hogyan magyaraznad meg a pusztan 40% elonyt a Xeon eseteben ketszer annyi maggal sajat maga es a regi K8 ellen ha az fp_rate teszt nem elsosorban a memoria savszelessegtol fuggene? Kelll meg tobb erv? Az emlitett 8mag/2sockt Xeon 56-os eredmenyet meg egy 8mag/4socket 8212-es Opteron rendszer is lenyomja a maga 72-es eredmenyevel. Sot, ez a 2Ghz-es Opteron eredmeny meg a 8mag/2socket 3Ghz-es Xeon eredmenyt is lenyomja ami csak 66-ot er el.

    Szoval tobb socketes fp_rate eremenyeket 1 processzor FP (SIMD vagy sem) teljesitmenyenek megitelesere hasznalni badarsag.

    "Ettől még lehet pl., hogy 1 procis, 4 szálas esetben is az AMD jöhet ki győztesen, és van is rá példa."

    SPEC-rol beszlesz vagy ugy altalaban?

    "Látom, nem tudod elfogadni, ha nincs 100%-ig igazad. Pedig most sincs. "

    Nezd nem en allitottam badarsagot az elejen es nem en vagyok az aki most probalja uj es uj kondiciokkal valahogy bemagyarazani hogy nem is azt irta amit irt. Nem akartam beidezgetni a hozzaszolasaidbol de ugy latszik maskent nem megy.

    "Állandóan próbálod bagatellizálni a rate eredményt, holott éppen ez mutatja meg, hogy szerepel egy platform különféle hétköznapi esetekben."

    Ehez lasd a fenti peldat (K8/K10/Xeon eredmenyek). Nem bagatelizalom. Azt irtam mar le nem egyszer hogy az 1 CPU 1 socket teljesitmeny megitelesere alkalmatlan a felepitese miatt.

    "Ez számít, nem az, mennyi a pure, elméleti max. teljesítménye a proci FPU egységének."

    Ezt nem is vitattam soha.

    "Szerinted nem számít a sávszél/latency az int_rate tesztekben. Pedig már felvetettem neked, hogy akkor hová tűnik a 30%-os előny?"

    Nem mondtam hogy a latency nem szamit, azt montam a savszelesseg nem szamit. A latency-t te keverted bele miutan az Int eredmenyekkel akartad alatamasztani azt az allitasod hogy az fp_rate teszteknel sem a savszel szamit. Hogy vadolj meg a szvaaid kiforgatasaval beidezem a kerdeses reszeket:

    #3242-ban irtad:
    "Ilyen alapon a K10 SPECint_RATE eredményének is jobbnak kellene lennie (ez sem feltétlenül mozgat kevesebb adatot), mégsem az."

    #3246-ban irtam en:
    "Egyebkent az Int tesztek messze nem annyira savszeligenyesek mint az FP tesztek. A SPEC-ben sem meg ugy altalaban sem. Ezert hasznalnak FP kodot a maximalis memoria savszelesseg meresere minden letezo tesztprogramban (mindegy hogy Everest, Sciencemark, Sandra vagy epp a Linpack)."

    #3244-ben irtad:
    "Csupa memória-intenzív program van az int csomagban is."

    Aztan megkerdeztem melyikek es erre:

    [I]#3246-ban irtad:
    "Ne viccelj már. 1/3-a inkább memória(-hozzáférés) intenzív (Programming Language, C Compiler, Search Gene Sequence, Path-finding Algorithms, XML Processing), további 1/3 ez is-az is, és csak a maradék 1/3 a számítás-igényesebb.

    Tehát nagyon is ki kellett volna jönnie itt is a sávszélesség-többlet csodás hatásának."[/I]

    Na itt keverted bele a latency-t, addig senki nem hozta fel. Meg is kerdeztem a #3247-ben hogyan befolyesolja szerinted a nagyobb savszelesseg a latency erzekeny programokat. Erre irtad a #3248-ban hogy:

    "Mintha nem tudnád, hogy nem csak sávszélesség többlet van ott, hanem latency-ben is jobb az AMD. De szerintem több programnak a sávszél sem mindegy."

    Ami szep probalkozas volt elterelni mas iranyba a temat de a kerdest nem valaszoltad meg. A valasz az eredeti kerdesre az hogy "sehogy", nem valami zsovialis "ugy si tudod hogy milyen felepitesu az AMD memory controller" stilusu szoveg. Aztan azota nem tudod befelyezni. Es meg azt allitod en nem tudom elismerni ha nincs 100% igazam es csusztatok amikor azt mondom miket allitottal. Hat most ideztem igy nincs hely felreinterpretalasnak.

    Egyebkent a legjobb SPECInt_rate eredmeny a 2GHz 5335-nel 92.2, tehat hatrany nincs.

    "Nem tudom, hogy csak a sávszélességtől, vagy inkább a latencytől, de láthatod, hogy függ."

    Messze nem annyira mint az fp_rate ami a savszelessegen all vagy bukik. Ott van peldaul az 1x5365 (3Ghz) eredmenye ami 61.3 es 2x5160 (3Ghz) ami 68.8 ugyanabban a rendszerben.

    ""Ezt a #3258-ben leirtam de valahogy most sem valaszoltal ra."
    Dehogynem, már ott is leírtam a 30%-os előny eltűnését."

    Csak megint nem arra valaszoltam amit kerdeztem. Nem az Intel<->AMD-re voltam kivancsi hanem amit ott levezettem neked. Hogy hogyan magyarazod az egy darab Xeon -> 2 darab Xeon es az 1 darab Opteron -> 2 darab Opteron majdnem idealis (es ugyanaolyan merteku) skalazodasat ha koztudottan a ket socket-es Opteron elonye a memoria rendszer feljettsege a ket socket-es Xeon rendszrekhez kepest. Meg megprobalhatod leirni.

    A base eredmenyekhez javaslom nezd meg megint mirol szol a SPEC. Tenyleg faraszto hogy ezt itt kell megvitatnunk mert nem vagy kepes utannanezni.

    "Hát tényleg nincs, mert én már a legelején úgy fogalmaztam, "memória-intenzít", illetve "memóriahozzéférés-intenzív", amibe beletartozik a latency is. Csak te jöttél állandóan a sávszéllel. (Lehet, hogy utána 1-2x engem is félrevittél ezzel.)"

    LOL, en vittelek felre.

    ""Van ott egy csomo masik program ami szinten SIMD intenziv azokban megsem szerepel olyan jol."
    Melyik az a "csomó"?"

    Beidezem de nem ertem miert nem nezed meg magadtol. Peldaul a piCOLOR, Cinebench, 3DSMax, Folding@HOME GROMACS.

    Ugye nem fogd az Inteles kartyat kijatszani a Sandra-nal :U

    Privat velemeny - keretik nem megkovezni...

  • Raymond

    félisten

    válasz dezz #3288 üzenetére

    Csak az ott lekozolt eredmenyekhez mindegy hogy hol van az NB mert az az egesz rendszer fogyasztasa...

    Privat velemeny - keretik nem megkovezni...

  • shabbarulez

    őstag

    válasz fLeSs #3282 üzenetére

    Biztos jók ezek a tesztek, csak azt nem értem a Barcelonát miért a már kifutó Xeon 5300-as szériával mérik össze, miért nem inkább az új 5400-as széria procijaival.

    Pl. Itt lehet találni olyan eredmény:
    2x Xeon 5365 3 Ghz, 1333FSB, 8MB L2
    SpecINTrate 107, base 98.9
    SpecFPrate 66.9, base 63.1

    De van ilyen is Spec.org oldalán
    2x Xeon 5460 3.16 Ghz,1333FSB, 12MB L2
    SpecINTrate 138, base 112
    SpecFPrate 78.5, base 70.3

    De pl. 5472-ről nem látok tesztek, pedig ott a 3 Ghz mellett 1600-as FSB van, ami gyanítom a rate teszteknél pozitíval befolyásolná a végeredményt.

    Az már csak mellékesen az 5365 G0 $1172 és 120W TDP, egy 5472 meg ugyanilyen TDP mellett $958, TDP 80W mellett pedig $1022. Szóval újabb, olcsóbb, kisebb fogyasztású és nagyobb teljesítményt nyújtó proci is van már, talán azzal kellene Barcelonát összeméregetni.

    [ Szerkesztve ]

  • dezz

    nagyúr

    válasz Raymond #3290 üzenetére

    Basszus, nem veszed észre, hogy nyitott kapukat döngetsz? Ha nem vetted volna észre, az előzőekben előkerültek a nem-rate számok, amik megmutatták, hogy 1 szálon nem erősebb a K10.

    "Pontosan. Eleg faraszto hogy a sajat szavaidat nem ismered el, pedig itt vannak par hozzaszolassal odebb."
    Valamit elismerek, de azt biztos nem, ami csak te adsz a számba.

    'Csak úgy emlékeztem, a sima (1-szálas) SPECfp teljesítmény is valamivel jobb volt, mint a másiké, csak a rate (többszálas) még jobb.' <- Ez itt múlt idő...

    "Belinkeltem a szamokat neked. Lattad hogy az egy szalas eredmeny nem jobb? Igen vagy nem?"
    De, ba***eg, láttam. Sőt, magam is előkapartam számokat a fLeSs linkjét követve. Sőt még összehasonlításokat is tettem. Szerinted mindazt csukott szemmel vittem véghez? :P

    "Hogyan magyaraznad meg a pusztan 40% elonyt a Xeon eseteben ketszer annyi maggal sajat maga es a regi K8 ellen ha az fp_rate teszt nem elsosorban a memoria savszelessegtol fuggene?"
    Belátom, jobban el kellett volna gondolkodni ezen, de én inkább arra a részére koncentráltam, hogy ha a jobb memória-elérés egy szintre hozza a gyengébb K8-at a 2-magos Xeonnal (2-2db), akkor a hasonló felállású (2-utas) Barcelona vs. Clovertown meccsben mutatkozó jelentős Barcelona előny arra vall, hogy önmagában is jobb az FPU-ja. Nem találod ezt logikus gondolatnak?

    Az int_rate-tel kapcsolatban mindketten tévedtünk, mert éppenhogy ott is jobban szerepel a (2-utas) Barcelona (ha nem is feltétlenül a nagyon sávszél miatt, hanem általánosságban a jobb memória-elérés által, amiben benne van az alacsonyabb latency is).

    "Szoval tobb socketes fp_rate eremenyeket 1 processzor FP (SIMD vagy sem) teljesitmenyenek megitelesere hasznalni badarsag."
    Igen. De miből is gondoltad, hogy én nem így gondolom? Figyelmedbe ajánlanám a legelső ide vonatkozó megjegyzésemet:
    'Lásd SPEC_FP és főleg SPEC_FP_RATE teszteredmények.' (#3226)
    Szó sincs itt többutas rendszerekre vonatkozó RATE eredményről. De egy 4-magos proci teljesítményének megítésésére igenis a RATE eredményeket kell nézni.
    Az ide vonatkozó következő hsz-emben (#3237) le is írtam, miért:
    'a RATE tesztek annyit csinálnak, hogy nem egyetlen szálon futtatják az adott tesztet, hanem az összes magon egyet. Vagy szerinted nem számít, hogy egy többmagos CPU hogy szerepel többszálú környezetben?'

    Világosodik már valami?

    "Nezd nem en allitottam badarsagot az elejen es nem en vagyok az aki most probalja uj es uj kondiciokkal valahogy bemagyarazani hogy nem is azt irta amit irt."
    Igenis nem írtam badarságot, csak te szépen rosszhiszeműen félreértelmezted, több ponton is. :U Igencsak rosszhiszemű személy vagy, úgy látszik. :(

    "Ehez lasd a fenti peldat (K8/K10/Xeon eredmenyek). Nem bagatelizalom. Azt irtam mar le nem egyszer hogy az 1 CPU 1 socket teljesitmeny megitelesere alkalmatlan a felepitese miatt."
    Ez hülyeség! A sima teszt 1 magot tesztel, de egy többmagos prociban több mag van. :W

    "Ezt nem is vitattam soha."
    Akkor miért is az 1-szálas SPEC-t, meg ilyen Mandelbrotokat erőltetsz?

    "Nem mondtam hogy a latency nem szamit, azt montam a savszelesseg nem szamit. A latency-t te keverted bele miutan az Int eredmenyekkel akartad alatamasztani azt az allitasod hogy az fp_rate teszteknel sem a savszel szamit."
    Basszus, vedd észre, hogy az "ilyen alapon" kezdetű kijelentésem nem konkrétan sávszélre vonatkozott!!!! Erre reagáltam vele: "a HT miatt gyorsabb az Opteron" - ami nem csak sávszélre vonatkozik, hanem a HT másik előnyére, a kisebb latency-re. Meg ugye ott van még az IMC is, mint az AMD CPU-k jellemző velejárója. Te emlegetted utána csak a sávszélt, miközben én (1 eset kivételével - arra írtam, hogy már belebeszélted a fejembe a sávszél szót, mellesleg ua. hsz-ben az általános kifejezést is használtam) szándékosan az általános memória-intenzív, memóriahozzéférés-intenzív kifejezéseket használtam, amibe természetesen beleértendő a latency is. (Főleg pl. egy véletlenszerű hozzéférésú path findingnél! :U)

    "Na itt keverted bele a latency-t, addig senki nem hozta fel."
    Nem kellett azt belekeverni, mert már eleve benne volt, a HT, és úgy általában az Opteronos platform emlegetése által.

    "Ami szep probalkozas volt elterelni mas iranyba a temat"
    Nem akartam én elterelni semmit sehová, csak vissza a helyes útra (tehát hogy egyszerre van szó sávszéltöbbletről, és jobb latencyről).

    "de a kerdest nem valaszoltad meg. A valasz az eredeti kerdesre az hogy "sehogy","
    Benne is volt: 'Mintha nem tudnád, hogy nem csak sávszélesség többlet van ott, hanem latency-ben is jobb az AMD.' = itt nem (feltétlenül) a sávszél játszik szerepet, hanem a latency.

    "Es meg azt allitod en nem tudom elismerni ha nincs 100% igazam es csusztatok amikor azt mondom miket allitottal. Hat most ideztem igy nincs hely felreinterpretalasnak."
    De, úgy tűnik, nagyon is van, ha már ilyen eszelősen erre törekszel. :U Hát ennyire nehezedre esik elismerni, hogy van ott bőven memória(hozzáférés)-intenzív program?

    Egyebkent a legjobb SPECInt_rate eredmeny a 2GHz 5335-nel 92.2, tehat hatrany nincs."
    Ó, micsoda óvatos fogalmazás... Nem az számít, hogy nincs hátrány, hanem hogy hová tűnt az a 31%-os előny... Mindenképpen deficit.

    "Csak megint nem arra valaszoltam amit kerdeztem."
    Csak felhívtam a figyelmed egy nem mellékes körülményre.

    "Meg megprobalhatod leirni."
    Tudod mit? Magyarázd meg inkább te, hogy lehet ez, amikor láthatóan system-bound az int_rate is. Kíváncsi vagyok.

    "A base eredmenyekhez javaslom nezd meg megint mirol szol a SPEC. Tenyleg faraszto hogy ezt itt kell megvitatnunk mert nem vagy kepes utannanezni."
    Itt most rohadtul nem számít, hogy base vagy sem. Azért base számot írtam, mert kevesebb számolással össze lehetett hasonlítani. De akkor inkább számolok még egy kicsit, hogy "ne sírjon a szád".

    Auto-Parallelization nélküli SPECfp_2006:
    AMD 1.9GHz - 11.3 --> 2 GHz: 11,9
    Intel 2.66 GHz - 14.5 --> 2 GHz: 10,9
    Tehát, Intel előnyt jelentő Auto-Parallelization compiling nélkül 9% az AMD gyorsabb. Na ehhez mit szólsz? Valószínű jópár programnál az Inteles fordító használata jópár százalékkal befolyásolja az eredményeket.

    "Beidezem de nem ertem miert nem nezed meg magadtol. Peldaul a piCOLOR, Cinebench, 3DSMax, Folding@HOME GROMACS."
    Késő van ahhoz, hogy most ennek nekiálljak utánanézni, de tudtommal a Cinebench és a 3DMax tudtommal skalár fp-t használ.

    "Ugye nem fogd az Inteles kartyat kijatszani a Sandra-nal"
    Itt most mire gondolsz? Az Inteles optimizációra? Ja, tudom, "nem nagyon" hozták vele hátrányos helyzetbe a többi procit, csak egy kicsit... LOL.

    (#3291): Huh, ha ezt most nem írtad volna le, biztos hülyén halok meg. :U Főleg miután akorf már emlékeztetett.

    [ Szerkesztve ]

  • fLeSs

    nagyúr

    válasz dezz #3293 üzenetére

    Én már el sem olvasom ezeket a km-es hsz-eket. :D
    Viszont az Auto-Parallelization nem jelent az Intel számára előnyt, pontosabban Auto-Parallelization-nel fordítva a kódot többszálas végrehajtásúra fordul a kód, nem pedig Intel procira. [link]

    [ Szerkesztve ]

    "I press keys on a keyboard all day and click a mouse in front of a glowing rectangle. Somehow that turns into food and shelter."

  • dezz

    nagyúr

    válasz shabbarulez #3292 üzenetére

    Talán mert az egy októben 9-i levél volt?

    "2x Xeon 5365 3 Ghz, 1333FSB, 8MB L2
    SpecINTrate 107, base 98.9
    SpecFPrate 66.9, base 63.1"

    Ez nyilván egy újabb compilerrel született - ugyhogy a Barcelonánál is frissebb eredményeket kellene alapul venni, de ilyenek egyelőre nincsenek.

    "2x Xeon 5460 3.16 Ghz,1333FSB, 12MB L2
    SpecINTrate 138, base 112
    SpecFPrate 78.5, base 70.3"

    Gondolom, itt is bejátszik az újabb compiler. De még így is beelőzi fp_rate-ben a Barcelona: 86.3 / base 80.6 - 2,5 GHz-en.

    Aztán itt van még ez az Auto-Parallelization dolog is, ami elég jót tesz az ezt felhasználó teszeredményeknek. Persze ha az Intel nem hajlandó (rendesen) támogatni a K10-et, nincs mit tenni - viszont nem minden project születik az Intel fordítóját használandó.

    Raymond: Ami még kimaradt:
    "SPEC-rol beszlesz vagy ugy altalaban?"
    Nagyjából mindegy, mert a SPEC tesztek is valós alkalmazások.

    És ezekről a SPECint tesztprogramokról gondolom, hogy esetleg SIMD-esek lehetnek (akár compileres optimizáció által, ha van már ilyen lehetőség):
    Artificial Intelligence: Go; Search Gene Sequence; Artificial Intelligence: chess; Physics / Quantum Computing; Video Compression.

    fLeSs: A vastagon szedett részeket azért megnézheted. :)

    Hát, nem tudom, milyen úton-módon, de az azzal és anélkül született eredményekből (lásd pl. SPECfp_2006) az tűnik ki (egyelőre), hogy bizony előnyhöz juttatja az Intel procijait. Vajon miért nincs auto-paralellized Barcelona eredmény?

    [ Szerkesztve ]

  • fLeSs

    nagyúr

    válasz dezz #3295 üzenetére

    Egyetlen tesztben volt bekapcsolva az auto parallel, a legfelsőnél, ami specint_rate, 116/97,9-et ért el a xeon, auto parallel nélkül meg 107/98,9-et. A többinél nem volt bekapcsolva. Lehet hasonlítgatni.

    [ Szerkesztve ]

    "I press keys on a keyboard all day and click a mouse in front of a glowing rectangle. Somehow that turns into food and shelter."

  • dezz

    nagyúr

    válasz dezz #3297 üzenetére

    Ja, és több optimizációs eljárásnál saját procira kifinomultabb optimizációs eljárások is életbe lépnek.

    Meg itt van egy ilyen is (a majdnem mindig használatos -fast kapcsoló aktiválja Intel proci esetén):
    [i]-xT
    CXXOPTIMIZE
    Code is optimized for Intel(R) Core(TM)2 Duo processors, Intel(R) Core(TM)2 Quad processors and Intel(R) Xeon(R) processors with SSSE3. The resulting code may contain unconditional use of features that are not supported on other processors. This option also enables new optimizations in addition to Intel processor-specific optimizations including advanced data layout and code restructuring optimizations to improve memory accesses for Intel processors.

    Do not use this option if you are executing a program on a processor that is not an Intel processor. If you use this option on a non-compatible processor to compile the main program (in Fortran) or the function main() in C/C++, the program will display a fatal run-time error if they are executed on unsupported processors.[/i]

    Tehát, nem csak Intel-specifikus optimizációkat aktivál, de mégsem lehet máshol használni, mert egy kapcsolóra van téve az összes, és akkor jön a fatal run time error az SSSE3 miatt. :P Ügyes.

    (Korábban egyébként az SSE2-es és 3-as kód nem-Intel procira generálását próbálták lehetetlenné tenni - egy ideig sikerült is. Utána egy ideig már csak erősen megnehezíteni tudták. :U )

  • Raymond

    félisten

    válasz dezz #3293 üzenetére

    "...én inkább arra a részére koncentráltam, hogy ha a jobb memória-elérés egy szintre hozza a gyengébb K8-at a 2-magos Xeonnal (2-2db), akkor a hasonló felállású (2-utas) Barcelona vs. Clovertown meccsben mutatkozó jelentős Barcelona előny arra vall, hogy önmagában is jobb az FPU-ja. Nem találod ezt logikus gondolatnak?

    Nem. Mar irtam hogy egy 8mag/4socket Opteron rendszer (2x 2Ghz 8212 CPU) erdemenye (72 [link] ) is messze magasabb mint a 8mag/2socket Xeon eredmenye. Szerinted a K8 FPU-ja annyival jobb lenne mint a C2-e hogy ugyanazon a frekvencian ugyanazzal a mag mennyisegel kb. 28%-al nagyobb osszteljesitmeny ad? Vagy ott van meg peldaul az a teny is hogy a 77.3-as ( [link] ) Barcelona eredmeny csak 7%-al magasabb az ugyanannyi magot tertalmazo K8 rendszernel. Errol mit gondolsz?

    "Az int_rate-tel kapcsolatban mindketten tévedtünk, mert éppenhogy ott is jobban szerepel a (2-utas) Barcelona (ha nem is feltétlenül a nagyon sávszél miatt, hanem általánosságban a jobb memória-elérés által, amiben benne van az alacsonyabb latency is)."

    Hat...nem szerepel jobban:
    2x Opteron 2350 = 88.3/77.3 link
    2x Xeon 5335 = 92.2/78.1 [link]

    "Világosodik már valami?"

    Eddig is vilagos volt. Csakhogy 4mag/1socket K10-es fp_rate teszt eredmenyek nincsenek es soha nem is voltak publikalva. Tehat ilyen eremenyekre nem hivatkozhatsz. Ha leirod hogy 'Lásd SPEC_FP és főleg SPEC_FP_RATE teszteredmények.' akkor csak azokat lathatod amik leteznek.

    "Igencsak rosszhiszemű személy vagy, úgy látszik."

    Vili, az az eletcelom hogy veled vitazzak az internete kizarolag abbol az okbol hogy ne aludj nyugodtan :U

    ""Ehez lasd a fenti peldat (K8/K10/Xeon eredmenyek). Nem bagatelizalom. Azt irtam mar le nem egyszer hogy az 1 CPU 1 socket teljesitmeny megitelesere alkalmatlan a felepitese miatt."

    Upsz, ezt elirtam. Arra koncentraltam hogy a *letezo* rate eredmenyeket nem hasznalhato a 4mag/1socket K10 eredmenyek megsaccolarasara de valahogy az a fenti badarsag jott ki belole. Pardon.

    "Akkor miért is az 1-szálas SPEC-t, meg ilyen Mandelbrotokat erőltetsz?"

    SPEC elmagyarazva az elobb, a Mandelbrot nem egyszalas.

    "Nem kellett azt belekeverni, mert már eleve benne volt, a HT, és úgy általában az Opteronos platform emlegetése által."

    A HT nem jatszik semmilyen szerepet a memoria latency-nel sem pedig savszelessegben egy 4mag/1socket K10 rendszernel. A tobb socket-es rendszereknel igen, de ahogy itt tuzetesen kifejtetted nem azokrol beszelsz.

    "Hát ennyire nehezedre esik elismerni, hogy van ott bőven memória(hozzáférés)-intenzív program?"

    ?? Nem is vittatam soha. Ha szerinted igen akkor ird mar meg hogy hol legyszi.

    "Tudod mit? Magyarázd meg inkább te, hogy lehet ez, amikor láthatóan system-bound az int_rate is. Kíváncsi vagyok."

    Wow. A rate tesztek system bound. Direkt arra talaltak ki oket, nem kell eredmenyek tanulmanyozasaval "latni" es megvilagosodni. Ezt mar le is irtam az elejen.

    "Itt most rohadtul nem számít, hogy base vagy sem."

    Nezegesd meg a SPEC-et mert rohadtul nem mindegy hogy egy base vagy egy peak eredmenyrol beszelunk.

    Privat velemeny - keretik nem megkovezni...

  • #95904256

    törölt tag

    Bocsánat, de megkérdezhetem hogy min vitáztok?

    Sajnos ezekből a hosszú hozzászólásokból nem sokat értek. :(

    [ Szerkesztve ]

Új hozzászólás Aktív témák