Hirdetés

Aktív témák

  • Power

    senior tag

    válasz perla #296 üzenetére

    ''Tenyleg nem lassabb? Xeon MP? Vagy akar Xeon? Ezek mind lassabbak, mint a megfelelo p4-ek. A Xeon MP meg orajelben is.''

    Nem a xeon-okról volt szó, hanem a RISC-ek 1 illetve több processzoros példányai között. A XeonMP pedig igeni gyorsabb azonos órajelen, mint a sima P4.
    Nyílván a Xeon-oknak a megbízhatóság miatt nem hajhatják olyan magasan, de 3 GHz-es XeonMP már van.

    SPECint2K peak:
    Xeon - 3,2GHz - 1563
    XeonMP - 3,0GHz - 1408
    P4 - 3,4GHz - 1393

    Ez alapján még az alacsonyabb órajel ellenére sem lassabb, sőt.

    ''Nem tudom ertelmezni amit irtal, hogy ugyanolyan gyorsak. PPC-t nem tudom, de szerintem mind dual procira van tervezve, A64 meg multiprocira, szal nincs beloluk single-re tervezett, nem?''

    Ebből a szempontból tökmindegy.

    ''Ja, 3 operandusos utasitasok gyorsitjak a kodot. Latszik, hogy sose programoztal assemblyben. Tok fontos, hogy nem irodik felul egy operandus, nem kell ujra betolteni, vagy masik regiszterbe menteni, ez kezzelfoghato gyorsulast jelent.''

    Te ezt honnan veszed, hogy én mit csináltam és mit nem? :))
    Kis naiv. Már rég egész más hajtódik végre, mint amit te látsz az x86 opcodok alapján. Az áttöltések nem lassítanak semmit, csak plusz tranzisztor kérdése, regiszter átnevezés az egész. Semmit nem gyorsít.

    ''Hogy a 4 operandusu utasitasokrol mar ne is beszeljek. Pl. nem tudom hallottal-e mar arrol, hogy egy ilyen jellegu muvelet: d=a*b+c az ppc-ben 1 utasitassal vegrehajthato, es ugyanugy 1 orajel mint barmi mas. Probalj egy a*b+b*c+c*a kifejezest kiszamitani 2 es 3-4 operandusu muveletekkel, es latni fogod, hogy melyik a gyorsabb. ''

    Barátom te keversz valamit! :)
    Itt nem a 4 operandus miatt gyorsabb, hanem azért mert kétműveletet hajt végre a VE. A három operandusú műveletek: a = b + c, ez a klasszikus RISC.

    ''Szukseg van tobb regiszterre, megint azt tudom mondani, hogy latszik, hogy nem programoztal assemblyben. De tekintsd pl. ugy, hogy a regiszterek a 0. szintu cache, minel tobb van, annal jobb. Kulonben ennel nyilvanvalobb dolgot, hogy az x86 architecturaban keves a regiszter, nem is lehet talalni. Te ezt komolyan cafolni probalod???? Ja, taskvaltasnal trade-off van, ezert van optimalis meret, nem kell ezer regiszter. Eleg mondjuk 32.''

    Már megint feltételezgetsz? :)
    Az x86 is van elég regiszter nem csak az amit az opcode-ból látsz. Belül egy sima memória operandusú művelet is regiszteresre helyetessítődik.
    A 32 nem elég, de ennyi van az x86.
    Ha jól emlékszem a P4-ben 128 entry-s a regiszter file.

    ''cache, minel tobb van, annal jobb''

    Ez sincs így csak a mesében.

    ''Ez igaz, ilyenkor a l1 cache-be toltest lassitja.''

    Nem mert könnyen párhuzamosítható. Az L1-L2 között késleltetés pedig még így is lassú - 10-30 órajel.

    ''3. Latod, hogy tudtam. 3 operandusu muvelettel es tobb regiszterrel. Illetve igazabol 'felesleges' utasitasokat sporoltam meg ezekkel. Egyebkent nyilvan nem az IPC fog vissza, az csak meri a proci egy jellemzojet, nem meghatarozza''

    Azt hiszem folyamatosan kevered az összetett műveleket a több operandusossággal.

    ''Nemnem. A peldam jo, egy csomo tranyot kidobtam, amikor csak a magot tartottam meg, par regiszter meg par utasitas siman kitelik belole. Es forditot csak x86-ra meg itaniumra nehez irni, riscre sokkal egyszerubb, ez is egy elonye, csak eddig errol nem volt szo, mert nem a hardverhez kapcsolodik.''

    Abban biztos vagyok, hogy még nem írtál compilert. :)
    Én sem, de sok olyan embert ismerek aki igen. Szerintük egy RISC esetén a kb. 3-4 év után lesz jó, de kb. 8-10 év után éri azt a szintet, hogy nem nagyon van mit javítani a teljesítményen, s ezt minden egyes generációnál el kell játszani.

    ''Amugy eddig azt magyaraztad, hogy risckel kozelebe se jutok az x86-nak, mostmar visszakoztal, hogy szignifikans kulonbseget nem tudok osszehozni. Egyreszt ez a nem szignifikans kulonbseg szerintem akar 20-30% is lehet ''

    Nem visszakozok.
    20-30% kizárt.
    max 5%-ra gondoltam :)

    ''(ki lehet probalni G5-on csak 4-6-8 regiszter hasznalataval mennyivel lassabb kodot lehet irni, es amikor rajossz, hogy hoppa, ki kell irni a memoriaba az adatot, mert nincs tobb regiszter, akkor kiderul, hogy mennyit lassit), masreszt mivel kidobtam a procibol egy nagy reszt, valszeg magasabb orajelet is el lehetne erni, harmadreszt ez 0 uj otletet tartalmazo megoldas, szal ha meg 1-2 evet belefektet az ember a tervezesbe, nyilvan egyeb gyoritasokat is kitalal, es nem csak egy siman lemasolt procit krealna''

    A G5 alatt a PPC970-et érted?
    Ez ilyen visszafele bizonyítás? :))
    Na mindegy, nem akarok semmi bántót írni.

Aktív témák