Keresés

Hirdetés

Új hozzászólás Aktív témák

  • DraXoN

    addikt

    válasz paprobert #22 üzenetére

    a felépítés mögött az elmélet egy része az volt, hogy egy-egy művelet végrehajtása esetenként több órajelet is igénybe vesz, így a sok tranzisztort igénylő lebegőpontos részek a 2 cpu közötti megoszlása, elméletben nem okoz semmiféle teljesítmény vesztést, főleg, hogy egyes régebbi 64bites kódok esetén "dedikálni" lehetett csak a fél egységet fixen a cpuhoz, így akkor 2 teljes mag volt egy modul (csak kicsit csonka FPU egységekkel).. tökéletesen működő programfolyamat elosztással valóban kb. meg se lehetett volna érezni ezt a felépítést, de sajnos az architektúra más részei is "tranzisztor spórolás" áldozatai lettek (az architektúra felépítése miatt kellett a nagy cache, ami más egységektől vette el a területet), így "buta" lett az elágazásbecslő, ami "végzetes" lett a végső eredmény szempontjából (túl sokszor "összeakadtak" a folyamatok, erősen rontva a hatásfokot)..

    végeredményben a hatásfok ugyan jobb volt mint az aktuális SMT/HT implementációk, de visszatekintve, nem igazán "érte meg" az egyedi út, a programokat is erősen rá kellett volna optimalizálni, de a sors is sújtotta az architektúrát a gyenge gyártási minőség miatt (a tervezetthez képest "alacsony órajelek", magas szivárgás jellemezte az egész élettartam alatt az architektúrát)...

    lényegében "több volt" mint egy sima cpu mag ami 2 szálat kapott, képes volt "korlátozottan" 2 külön magként is működni (így nézve nem volt átverés), de ha teljes szélességű AVX kódokat (például) futtatott rajta az ember, akkor a magok belső késleltetése annyira megnőtt mint ha végső teljesítményben csak "fele" mag lenne (felváltva kapták meg a modulban a cpumagok az osztott erőforrást, nem mindig ideális időzítéssel).. lényében "túl merész" lett a felépítés, és a végterméknek sok gyenge pontja lett ami külön-külön is gyengített, de együtt eléggé rossz lett a felépítés hatékonysága.
    - Túl magas latency a cache felépítés miatt (egymásra épülő felépítés, először L1ben keres, ha ott nincs, L2, ha nincs L3, ha nincs központi memória)
    - "gyenge" elágazásbecslő, így sok volt az "újrakezdett" műveletsor (a magas lantency növelte ennek a hibának a súlyát, mert akár ilyenkor minden adat "beállhatott").
    - rossz gyártástechnológia (4Ghz körül lett volna a kezdőórajel, és 5-6 Ghz az általános működési tartomány)
    - erősebb szoftveres optimalizáció kellett volna a felépítéshez, de már windows szinten elbukott ez, később kapott egy "alap" optimalizálást, de kétlem, hogy valaha is teljesen normálisan megírták volna a windows szálkezelését rá (voltak/vannak ráutaló jelek, hogy nem tökéletes a dolog, már nem is lesz persze).
    látható, hogy a felépítés miatt igen sok cache kell a rendszernek, de még ezzel a rengeteggel a belsejében is "kevés" volt az összmennyiség, ráadásul az L3 cache órajele is csak töredéke volt a cpu órajelének (annak "húzásával" igen szép teljesítmény növekedés érhető el az architektúrában.. egyes esetekben persze)..

    [ Szerkesztve ]

    The human head cannot turn 360 degrees... || Ryzen 7 5700X; RX580 8G; 64GB; 2TB + 240GB + 2TB || Samsung Galaxy Z Flip 5

  • Bici

    félisten

    válasz paprobert #140 üzenetére

    Szerintem akkoriban lógott az AMD keze a HSA bilibe.
    Gondolom arra számítottak, hogy majd GPU compute-tal megoldják a CPU erő hiányát, ami szerintem nagyon jó ötlet lett volna, csak nem jött be. :D

    Eladó régi hardverek: https://hardverapro.hu/apro/sok_regi_kutyu/friss.html

  • Abu85

    HÁZIGAZDA

    válasz paprobert #149 üzenetére

    Kisebb magokkal, több építhető a lapkába, és ezzel a throughput teljesítmény növekszik. A modul pedig arra van, hogy egy szál teljesítménye legyen maximalizálva, mivel a második szál már csak 60-80% pluszt hoz.

    Senki sem dől be a hivatalos szóvivőnek, de mindenki hisz egy meg nem nevezett forrásnak.

  • Yutani

    nagyúr

    válasz paprobert #151 üzenetére

    Elég hosszú lett a Bulldozer pipeline-ja, ott vesztett sokat az IPC-ből.

    #tarcsad

  • apatyas

    Korrektor

    válasz paprobert #151 üzenetére

    A Phenom II -nek 3* alu+agu volt az integer blokkjában, a bulldozernek (legalább is az elején, ahogy emlékszem változtattak még rajta) meg csak 2* . Az előző hsz-beli dolgokkal együtt, arra tervezték hogy magas órajelen tudjon futni. De a szilícium nem így akarta. (ez a P4-el a hasonlóság)

    pezo77 #5 2017.12.14. 13:29 Hmm. És ez az e-hajó akkor hol is tud kikötni? Az e-bay -ben? ;)

  • Abu85

    HÁZIGAZDA

    válasz paprobert #151 üzenetére

    A szoftver. A Pentium 4 és a Bulldozer ugyanott bukott el. Nem hasonlítottak a P6-dizájnhoz, és így nem voltak jók hozzá a tipikus szoftveroptimalizálások. Ennyi. A Zen egy P6-hoz hasonló dizájn, és rögtön működik.

    Viszont a P6-szerű dizájnoknál sok a korlát, vagyis lehet, hogy a gyakorlatban jól működik, de az ARM már most jobb a Cortex-A76-tel, és akkor még hol vannak az igazán nagy teljesítményre tervezett dizájnjaik...

    Az Intel és az AMD is rajta van már a heterogén dizájnokon. Az AMD a ROCm (HSA), míg az Intel a OneAPI (SYCL) koncepciót üti most, mert tudják ők, hogy ha nem tudnak új dizájnokat behozni a processzoroknál, akkor el kell kezdeni átalakítani az egész rendszert.

    [ Szerkesztve ]

    Senki sem dől be a hivatalos szóvivőnek, de mindenki hisz egy meg nem nevezett forrásnak.

Új hozzászólás Aktív témák