Hirdetés

Hozzászólok Aktív témák

  • dezz

    nagyúr

    A koherens jelző a HT esetén szerintem arra vonatkozik, hogy többprocis rendszerekben a HT vonalak egymástól függetlenül működve egy időben többfelé többféle transzportot valósíthatnak meg. (Ellentétben a Xeonos rendszerekkel, ahol egy központi NB-n keresztül történik a dolog, egymásra várva.) ((Ehhez hozzávéve a Direct Connect architektúrát, tehát hogy minden proci össze van kötve minden (ill. 8 utasnál, K8-nál csak majdnem minden) más procival, no ettől lesz gyorsabb még egy K8 alapú többutas Opteronos rendszer is heavy load alatt, mint egy Core alapú Xeonos. Mi lesz itt a 3 helyett 4 - méghozzá jóval gyorsabb - HT vonallal rendelkező, és magjukban is fejlettebb K10-esek esetén...? Ha esetleg desktopon nem is annyira, szerver fronton bizony van mitől félnie az Intelnek. Ráadásul a ''csomópontokat'' natívan 4 magos, L3-on keresztül gyorsan kommunikáló chipek adják... Nem csoda, hogy a Craynek is komoly tervei vannak az új Opteronokkal.))

  • Raymond

    félisten

    válasz dezz #1451 üzenetére

    Back in business...majd egy honap utan. My precious broadband :D

    [link]

    ''In a single-processor configuration, the links are non-coherent – all three are available for connection with system I/O components. In a multi-processor configuration, one must be coherent, leaving the others for I/O responsibilities. The coherent link allows each processor to access another’s memory. Thus, an AMD Opteron processor 800-series CPU, designed for four- and eight-way configurations, needs three coherent HyperTransport technology links to communicate with its neighboring processors.''

    Errol szol a koherencia. Ha jol emlekszem ezert kell fizetni a HT-ert az AMD-nek. A sima HT ingyenes, a cHT mar nem.

    Privat velemeny - keretik nem megkovezni...

  • Raymond

    félisten

    válasz robyeger #1448 üzenetére

    Csak annyit kellett volna kiolvasnod hogy ''összetartozás, összefüggőség''. Ezt jelenti a koherencia.

    ''A full duplex és a double pump-ra nem mondtam, hogy teljesen azonosak, csak számszakilag egyezik meg az elméleti sávszélességük.''

    Teljesen mindegy, nem keverheted a kettot.

    Privat velemeny - keretik nem megkovezni...

  • Raymond

    félisten

    válasz robyeger #1443 üzenetére

    Ezt mar a mulkor is elmagyarzatam nem is egyszer. Nem tudom honnan szeded azokat a szamokat.

    A K8-nal az L2<->IMC savszelesseg 64bit/ciklus, tehat 2Ghz-es proci eseteben ez 16GB/sec atteresztokepesseget jelent. A K10-nel ez duplazodik 128bit-re.

    Privat velemeny - keretik nem megkovezni...

  • dokar

    addikt

    válasz AMD Power #1455 üzenetére

    csak kézrátétellel tudták megállapítani, hogy ''Ez bizony meleg''

    ez ám a mérnöki precízitás :DDD

    extra - SEXRay

  • Rive

    addikt

    válasz dezz #1451 üzenetére

    A koherens jelző a HT esetén szerintem arra vonatkozik, hogy többprocis rendszerekben a HT vonalak egymástól függetlenül működve egy időben többfelé többféle transzportot valósíthatnak meg.
    Izé. Nem neked szól: aki nem tudja, MP-fronton mi a koherencia, az inkább ne terhelje a topikot.

    Alapesetben ugyebár van egy core, egy hozzá tartozó cache és egy memória. A cache egyes memóriaterületek másolatait tartalmazza. Ezek a másolatok a core áldásos közreműködése folytán megváltozhatnak. Mivel a rendszerben a cacheable területekhez csak egy magnak van hozzáférése, elég a megváltozott tartalmat akkor visszaírni a memóriába, ha a gyorsítótárban valamire épp nagyobb szükség van.

    MP esetén egy memória, több core, több cache. Azonos memóriaterületnek több gyorsítótárban is lehetnek másolatai. A több gyorsítótár több maghoz tartozik, és elvileg előfordulhat olyan eset, amikor a magok egyszerre próbálnak azonos memóriaterülettel - illetve az adott memóriaterület helyi másolataival dolgozni. Komolyabb extra hardver nélkül nem igazán biztosítható, hogy ilyenkor az egyes másolatok ne térjenek el egymástól.

    A koherencia azt jelenti, hogy az egyes másolatok mindig ugyanazt tartalmazzák, illetve ha az egyik változik, akkor ez a változás 'azonnal' jelentkezik a többinél is. Az azonnal itt annyit jelent, hogy a klf. magokon futó klf. programok számára azonnal. Maga a művelet természetesen akár igen sok órajelnyi időt is igénybe vehet. De ebből a programok nem vehetnek észre semmit.

    A HT link egy olyan adatút, ami transzparens összeköttetést biztosít a két végén található memóriatartományok között. Ha legalább az egyik végén nincs olyan memória, amit gyorsítótárazni lehet, akkor ez elég is. Illetve akkor is, ha csak egy procc van a rendszerben.
    Ha a HT mindkét végén procc fekszik, saját cacheable memóriával, akkor gondoskodni kell az adatok másolatainak automatikus szinkronizálásáról. Az olyan HT link, ami erre képes, a koherens HT.

    /// Nekünk nem Mohács, de Hofi kell! /// Szíriusziak menjetek haza!!!

  • #95904256

    törölt tag

    Mi történik akkor ha két CPU is dolgozik ugyanazon a memóricímen lévő adattal és mindkettő CPU-n futó folyamat egyszerre szeretné módosítani?

  • Rive

    addikt

    válasz #95904256 #1458 üzenetére

    A cache-koherencia egy veszettül húzós témakör, és eléggé durván be tudja határolni a MP rendszerek teljesítményét. A szakirodalma is elég nagy. Ha a neten rákeresel, hogy 'cache coherency', akkor sokmindent találhatsz, én már jóideje nem foglalkozom szorosan a témával.

    A megoldások természetesen olyanok, hogy elviekben képesek lekezelni az 'egyszerre' érkező kéréseket. A gyakorlatban ez nagyon sok idő, úgyhogy a programozók (kernel-bűvészek) egyik fontos feladata, hogy minél kevesebb osztottan használt memóriaterület legyen.

    /// Nekünk nem Mohács, de Hofi kell! /// Szíriusziak menjetek haza!!!

  • P.H.

    senior tag

    válasz #95904256 #1458 üzenetére

    Mi történik? Felhasználói program esetén jól a programozó körmére néznek, :) hogy miért csinált ilyen jellegű kódot (hacsak nem kifejezetten HyperThreading-szerű felépítésre és osztott L1 D-cache-re írta a programot), már csak a felesleges adatvándorlások miatt is. Vagy hogy legalább miért nincsenek a közös adatot módosító részek levédve legalább pl. OS-szintű critical section-ben.

    Kernel-szinten elkerülhetetlenek az ilyen események (pl. pont a critical section-okat kezelő mutex-ek, vagy egyéb semaphorok, event-ek esetében), akkor a hardware megoldja, ahogy tudja.


    Pl. AMD esetében:
    ''Deadlocks can occur when multiple processors fight for the ownership of the same cache-line. They do so for instance if they both want to write to the same line. A cache-line is generally loaded as soon as possible in case of a cache-miss. This will cause the cache-line to be invalidated in other caches in case of a store. Two processors get in a deadlock if they keep invalidating each others cache-lines before they are able to finish the stores.

    An example given is the case where two processor try to complete a store which is to an unaligned address so that part of the store data goes to cache line A1 and part of the store data goes to cache line A2. Unaligned stores of this type are typically split into two stores by the hardware. An exponential back-off mechanism is provided to handle this kind of deadlock situations. A back-off time is introduced when the memory access remains unsuccessful before retrying to become owner of the cache-line again. This time grows exponentially after each unsuccessful try until one of the processors finally succeeds.
    ''

    [Szerkesztve]

    Arguing on the Internet is like running in the Special Olympics. Even if you win, you are still ... ˙˙˙ Real Eyes Realize Real Lies ˙˙˙

  • #95904256

    törölt tag

    válasz P.H. #1460 üzenetére

    Igazából olyasmire gondoltam pl. hogy fut egy modulo képző program (több százezer bit hosszú adatokkal) és egy bizonyos tartományban ( pl. ami 4Gbiten (512MB-on) ábrázolható ) a modulo eredményeket 1-1 bit bebillentésével jelzi illetve érzékeli hogy már volt ilyen eredmény ( pl. BTS utasítás ). Ilyenkor párhuzamosan futhatna több modulo-képzés egy közös bittáblával, ami OS szinten osztott memóriaterület...

    Viszont ez a cache-vonalért történű küzdelem is érdekes. Honnan tudja egyik-másik CPU hogy a másik CPU mely memóriacímeket birtokolja? Minden egyes memóriaírásnál lekérdezi pl. a HyperTransport-ton keresztül hogy az adott vonal foglalt-e már egy másik CPU által? Ez egy 8 CPU-s rendszerben erősen visszafoghatja a memória írási sebességet... :F
    Vagy van ennél jobb megoldás?

  • P.H.

    senior tag

    válasz #95904256 #1461 üzenetére

    Azt kell ilyenkor nagyon mérlegelni, hogy egy-egy, a közös adatterülethez való hozzáférésre mennyi, azt nem érintő önálló számítási művelet jut, mert ha sok, akkor hatékony lesz az az eset is, amit írsz (pl. ismert előre, hogy egy-egy tartományra jutó számítási feladat hossza órajelekben vagy percekben/órákban mérhető).


    ''Honnan tudja egyik-másik CPU hogy a másik CPU mely memóriacímeket birtokolja?''

    Ez a cikk [link], amit korábban linkeltem, egy elég jó kezdeti betekintést ad ebbe a világba. (Amit a link mellett írtam, ''Az alján látható, hogy többek között az Intel által használt MESI cache-protocol és az AMD által használt MOESI eltér skálázhatóságban, utóbbi mellett több magot lehet összerakni, mint előbbinél, ezért használja ezt az AMD.'' esetében ''magot'' helyett talán inkább ''CPU-t'' kellett volna írnom, bár ez sem igaz, a node kifejezés az igazi, mert Kentsfield esetén a 2x2 mag 2 node, a négymagos K10 pedig 1 node. A two vs three hop jelentéstartalma és -eltérése, és sok egyéb dolog pedig pl. innen [link] kiolvasható konkrét teljesítményadatok találhatók benne, de nem a riválisokkal összehasonlítva, hanem arra vonatkozólag, hogyan viselkedik egy többmagos-többprocesszoros Opteron-rendszer különböző körülmények között).

    De amit felvetettél, jogos (pl. a cikkből, a legegyszerűbb megközelítésben):
    ''When a processor reads or writes a cache line, it must broadcast a snoop request to all other processors in the system to ensure that it gets the most recent valid cache line. When a processor wishes to write to a cache line, it must first broadcast an invalidate snoop, which tells other processors to evict that cache line. In both cases, the processor must wait to receive responses from all other processors before proceeding.''

    [Szerkesztve]

    Arguing on the Internet is like running in the Special Olympics. Even if you win, you are still ... ˙˙˙ Real Eyes Realize Real Lies ˙˙˙

  • #95904256

    törölt tag

    válasz P.H. #1462 üzenetére

    Köszönöm az információkat. Ma is tanultam valamit. :)

  • dezz

    nagyúr

    válasz P.H. #1450 üzenetére

    Látom, nem vagy a tömör fogalmazás híve. ;) De én nem szeretném ezt most hozzád hasonlóan a legapróbb részletekre kiterjedően kifejteni. :) Viszont nem egészen értem, melyik rész nem egyértelmű a számodra. Na mindegy, majd valahogy összejön.
    Arra gondolok, hogy pl. az aritmetikai művelet+memória(/cache)-művelet típusú utasítások K8/K10 esetén jó esetben egy makro-op-ot eredményeznek, miközben Core2-n ez általában 2 különálló mikro-op lesz.
    Nos, korábban volt ugye szó a két architektúra szélességéről, és a kiindulóul szolgáló cikkben 3 vs. 4 ''egységnyi'' szélesség szerepelt. Csak - mint ugyancsak szó volt róla - a cikkíró mindkettőnél egyformának tekintette ezt az ''egységet'', mikro-op-nak írva mindkét helyen. Pedig AMD-nél valójában makro-op-ról van szó, ami 2 mikro-op-ot tartalmazhat, pl. magában foglalhatja a fenti műveletekhez szükséges 2 mikro-op-ot. Ezáltal, mikro-op-ban mérve 6 vs. 5-ös szélességről beszélhetünk, az AMD javára. És ez valódi effektív érték, mivel fenti típusú utasítások jó esetben tényleg ''megvannak'' 1 makro-op-ból.

    #1450: Hmm, ha jól értem, ha módosítva volt az adat, legalább akkor valamilyen közvetlenebb úton olvassák ki a procik egymástól, nem? Nos, milyen úton?

    Raymond+Rive: Erm, igen, legalább nekem utána kellett volna jobban nézni, ha nem vagyok benne biztos. :B Csak túl egyértelműnek tűnt, mivel valahogy összekevertem a szót a kauzalitással. :D

    AMD Power: Nézd csak meg most a kommenteket, van ott a végén 1-2 érdekes. ;)

    [Szerkesztve]

  • robyeger

    addikt

    válasz dezz #1449 üzenetére

    Én is azt hittem az SRQ közös, de az X-bit labs és egyéb írások által, kénytelen voltam átértékelni álláspontom, amúgy az XBAR-tól nem kell félni :)
    -Igen, K8-nál a magórajel leosztásából képződik a memória órajele, én csak azt akartam kifejezni, hogy a GPU függetlenül dolgozhat a CPUtól az alaplapi memóriában. Tehát ha pl. alacsony a CPU magórajele és ezáltal pl. egy 800Mhz-es memóriából valósan kevesebb az általa elérhető sávszél, attól a GPU számára ezen felül is biztosított sávszélesség egészen a memória teljes terhelhetőségéig.
    -K10-es DDR3-as kihasználását sávszélességre értettem, a késleltetés már más tészta.

    Keresem a 9th Company: Roots Of Terror játék magyar feliratos változatát,mindenféle megoldás érdekel; Intel Pentium-D940/''C1''stepping/ (1.3V-200x16) @ (1.43V-333x12) 4Ghz

  • robyeger

    addikt

    válasz P.H. #1450 üzenetére

    Abba úgy látom egyet értünk, hogy a kutya az SRQ és L2 cache környékén van elásva. Én nem hiszem, hogy csak szoftveres akadálya lenne, hogy a magok gyorsítótárai közvetlenül kommunikáljanak, mondjuk a MOESI protokoll lenne a hibás. Szerintem egyszerűen ugyan az motiválta az AMDt, mint az Intelt, akkortájt ''hogy lehet minél gyorsabban összeilleszteni két magot''. Ennek legegyszerűbb módja, ha magok közvetlenül kommunikációját kizárjuk. pedig régen azt hittem az L1 cachek képesek gyors adatcserére a magok között, ha már az L2 lassucska :B, hiszen az AMD a magok között magórajeles kommunikációval reklámozza X2 procijait. Viszont a memória sávszél benchmárkokban szó nincs magok közötti kommunikációról, egyszerűen a két mag függetlenül egymástól hoz fel adatokat a memóriából, itt kibukik, hogy maga az L2<->mem átvitel lassabb, mint 6.4GB/sec. Én nem akarom átrajzolni a K8-as ''metszeti'' ábrákat, de ha nem az SRQ-nál van a processzor szorzó, akkor mond meg te hogy hol van??

    Keresem a 9th Company: Roots Of Terror játék magyar feliratos változatát,mindenféle megoldás érdekel; Intel Pentium-D940/''C1''stepping/ (1.3V-200x16) @ (1.43V-333x12) 4Ghz

  • robyeger

    addikt

    válasz Raymond #1454 üzenetére

    Igen K8-nál az XBAR az IMC, a HTT és az SRQ között 2db 64bites magórajelen futó busz van, de az SRQ és a L2 között 2x2db 64bites busz van, pont azért mert itt alapórajelre lassulunk vissza, viszont feltételezésem szerint az L1 és a TLB az SRQ-hoz már szintén magórajelen kapcsolódik, ezért nem nevezhetjük klasszikus FSB kialakításnak. De ha te szerinted máshol van a processzor szorzója, akkor várom a javaslatodat.

    [Szerkesztve]

    Keresem a 9th Company: Roots Of Terror játék magyar feliratos változatát,mindenféle megoldás érdekel; Intel Pentium-D940/''C1''stepping/ (1.3V-200x16) @ (1.43V-333x12) 4Ghz

  • Raymond

    félisten

    válasz robyeger #1466 üzenetére

    Here we go again....

    ''Én is azt hittem az SRQ közös, de az X-bit labs és egyéb írások által, kénytelen voltam átértékelni álláspontom,...''

    Mar hogy az atyauristenbe lehetne nem kozos az SRQ es az XBar? Ha soha nem lattal volna egy rendszer diagramot a belso felepitesrol az alapveto logika is megmondja hogy az a ketto nem lehet mas mint kozos a magok kozt. Mi ertelme lenne egy prociban ket darabnak? Egyebkent az altalad itt nem olyan reg linkelt AMD-s PDF emlitett 26. oldalan is lathatod: [link]

    ''K10-es DDR3-as kihasználását sávszélességre értettem, a késleltetés már más tészta.''

    Mar hogyne tudna kihasznalni? A cache-t is valahogy meg kell tolteni es egy rakat feladat van ahol minel nagyobb a savszel annal jobb. Gondolom most megint attol felsz hogy a cache visszafogja a proci teljesitmenyet es hiaba van gyorsabb RAM, ''megakad az adat'' a cache-nel mint ahogy azt mar honapok ota hangoztatod mindenhol. Felejtsd mar azt el. Meg egy 17GB/s-t nyujto DDR3 memrendszert sem fog visszafogni egy 32GB/s savszelessegu cache.

    Privat velemeny - keretik nem megkovezni...

  • robyeger

    addikt

    válasz Raymond #1469 üzenetére

    A Hammer-nél 1mag van!!! (2001-es prezentáció), sajnos eddigi életem során nem láttam X2 prociról teljes blokk sémát, ezért találgatok én is, hogy hol illeszthették össze a két mag struktúráját.
    Az L2 cache sebessége lehet, hogy 32GB/sec az L1-től és a közvetlen végrehajtóegységektől nézve, de az SRQ és a memória felől ehhez képest, mint a csiga. Maradjunk annyiban mint a K8-nál a 2mag ki tudja használni a DDR2-800-at, úgy K10-nél 4mag képes lesz 3200Mhz-es DDR3 memória leterhelésére, persze elméletben! :)


    [Szerkesztve]

    Keresem a 9th Company: Roots Of Terror játék magyar feliratos változatát,mindenféle megoldás érdekel; Intel Pentium-D940/''C1''stepping/ (1.3V-200x16) @ (1.43V-333x12) 4Ghz

  • Raymond

    félisten

    válasz robyeger #1468 üzenetére

    Eszmeletlen. A #1467-et siman ki is hagyom, ife is egyszeruen mar nem tudom mit irjak. Full deja vu-m van es a multkori amokfutasod jut az eszembe....

    '' az SRQ és a L2 között 2x2db 64bites busz van, pont azért mert itt alapórajelre lassulunk vissza,''

    :O Megint az alaporajel. Ertsd mar meg hogy a K8-nal az a 200Mhz csak egy referencia ertek amihez a rendszer igazodik a HTT miatt. Peldaul egy AM2-es X2-nel semmi nem megy 200Mhz-n. A core, cache-ek, SRQ, IMC, XBAR mind magorajelen mennek (X.Y Ghz), a HT linkek mennek 1000Mhz-n es meg a memoria is ami mar nem is a prociban van 400Mhz-n megy. Miert olyan nehez ezt felfogni???

    Privat velemeny - keretik nem megkovezni...

  • robyeger

    addikt

    válasz Raymond #1471 üzenetére

    nehéz lesz arról meggyőznöd, hogy a K8-as prociknál a szorzó(nem keverendő a HTT szorzóval) csak dísznek van :D

    Keresem a 9th Company: Roots Of Terror játék magyar feliratos változatát,mindenféle megoldás érdekel; Intel Pentium-D940/''C1''stepping/ (1.3V-200x16) @ (1.43V-333x12) 4Ghz

  • Raymond

    félisten

    válasz robyeger #1470 üzenetére

    ''... sajnos eddigi életem során nem láttam X2 prociról teljes blokk sémát, ezért találgatok én is, hogy hol illeszthették össze a két mag struktúráját.''

    Latod ahelyett hogy hulyesegekkel irkodnad tele a topic-okat lehet egy kis idot kellene szannod a tema tanulmanyozasara. Az X2 nem most jott ki, van rola egy rakas cikk. Par masodperc guglizas eredmenye [L]''http://www.amd.com/us-en/Processors/ProductInformation/0,,30_118_8796_14281,00.html''[/L] Vagy itt van egy Anandtech-es cikk 2005-bol(!) ott nincs megdontve az a kep az AMD oldalarol.

    ''Az L2 cache sebessége lehet, hogy 32GB/sec az L1-től és a közvetlen végrehajtóegységektől nézve, de az SRQ és a memória felől ehhez képest, mint a csiga.''

    Mar hogy lenne csiga? Az a 32GB/s a 2Ghz-s procinal az L2-tol nem a mag fele hanem a masik oldalra (ami szerinted csiga) annyi. Azzal nem akarlak leterhelni hogy ez aggregalt de leirom nehogy azt mond nem szoltam.

    Na mindegy, ugyanott vagyunk ahol par honapja. Semmi ertelme veled barmirol is diskuralni, az alapokkal nem vagy tisztaban es nem is nez ki ugy hogy ragadna rad valami. Megprobalom az ignore mode-ot.

    Privat velemeny - keretik nem megkovezni...

  • Raymond

    félisten

    válasz robyeger #1472 üzenetére

    Nem mondtam hogy disznek van, csak azt hogy semmi nem megy annyin az egesz processzorban, meg ezt sem vagy kepes felfogni. De nem is akarlak meggyozni. Lasd itt egyel feljebb...

    Privat velemeny - keretik nem megkovezni...

  • robyeger

    addikt

    válasz Raymond #1473 üzenetére

    Az K10-es architektúrát szeretnék megismerni, mikor még a K8-at se ismerjük rendesen, részleteiben :( , pedig K7, K8, K10, egymásra épülnek, a következő generáció mindig az előző tovább gondolt verziója.
    Szóval erre a szokásos marketing ábrára gondolsz: [link], én ilyen fajta ábrából szeretnék egy 2magost látni [link], ha tudsz ilyet mutatni nagyon megkösszönném :R , mert sehol nem találtam. :(( Amúgy eddig én is azt hittem az SRQ-n keresztül így vagy úgy, most tekintsünk el hogy milyen órajelen folyhat kommunikáció a 2mag között, de a valóságban, amit P.H. is előbbiekben mutatott, még senki nem tudta közvetlen kommunikációra bírni az X2 két magját, egyszerűen a másik mag inkább a memóriából veszi az adatot és nem a szomszéd mag gyorsítótárából. Hiába a marketinges szép ábrák és a dicső himnuszok, hogy magórajeles kommunikációra képesek az X2 magjai, ha egyszerűen a gyakorlatban nem csinálják. Véleményem szerint septiben csak az memóriavezérlőnél illesztették össze a két magot. Valószínűleg egy közös SRQ kifejlesztése sokkal nagyobb energiákat emésztett volna fel és onnan már csak egy apró lépés a közös L3 cache a magok között, amit csak mostanra sikerült kiviteleznie, persze megerősített formában megduplázva a belső busz és cache tárak szélességét.
    Javaslom fog egy K8-as gépet és játsz el a proci szorzójával és az alapórajellel, így a gyakorlatban láthatod mi változik a rendszer sebességén.

    [Szerkesztve]

    Keresem a 9th Company: Roots Of Terror játék magyar feliratos változatát,mindenféle megoldás érdekel; Intel Pentium-D940/''C1''stepping/ (1.3V-200x16) @ (1.43V-333x12) 4Ghz

  • P.H.

    senior tag

    #1467: ''Én nem hiszem, hogy csak szoftveres akadálya lenne, hogy a magok gyorsítótárai közvetlenül kommunikáljanak, mondjuk a MOESI protokoll lenne a hibás.''

    Ebben mi a szoftveres?!


    #1468: ''viszont feltételezésem szerint az L1 és a TLB az SRQ-hoz már szintén magórajelen kapcsolódik,''

    És megint egy olyan mondat, amely teljesen komolytalanná teszi a megelőző és következő mondandódat. Persze a TLB szép rövídítés, nagyon szakmaian hangzik megemlíteni, és jól illik a többi 2-3-4 betűs közé; csakhogy tartalma a mag magánügye, nem kapcsolódik sehogyan a külvilághoz.


    #1470: ''A Hammer-nél 1mag van!!! (2001-es prezentáció)''

    Ezt így felejtd el. A Clawhammer pl. 1 magos CPU, de a Hammer (rendszer)architektúra, ahogy ez a [link] prezentáció is így kezdődik. Ugyan 2001-es, de azért nem nehéz belátni, hogy az IMC, az XBAR és SRQ tervezésekor már több magot feltételeztek. Te is használod, korábban is már belinkelted azt a képet:
    [kép]

    Ezen [link] hsz-ed óta nem bírtam megérteni, hogy miért nem lapozol a következő két oldalra, de most már látom: mert nem érted, hogy ez egy darab kétmagos CPU ábrája.


    #1475: ''én ilyen fajta ábrából szeretnék egy 2magost látni''

    Tehát ott van, továbbá még kettő, amely részletesen megbontva ábrázolja a parancs- és adatáramlásokat:
    [kép]
    [kép]

    És hangsúlyozom, a ''to CPU'', a ''CPU0'' és a szürke ''CPU1'' kifejezések magokat jelentenek, a további processzorok még mindig a HyperTransport-linkek másik, nem ábrázolt végein vannak. Továbbá igazából nincs is közvetlen adatcserére utaló útvonal ábrázolva, mint amilyen parancsút viszont van.

    [Szerkesztve]

    Arguing on the Internet is like running in the Special Olympics. Even if you win, you are still ... ˙˙˙ Real Eyes Realize Real Lies ˙˙˙

  • #64791808

    törölt tag

    válasz robyeger #1472 üzenetére

    A K8-ban az alapórajelnek és a szorzónak csak matematikai jelentősége van. Sőt, van olyan alaplap, ahol a szorzóval nem is találkozol, csak osztókkal.

    A K8-nál a kiindulási alap a magsebesség, ebből osztódik vissza a HTT sebesség, és a memória sebessége. Pl X2 3800+, 2000MHz-en megy a mag, 10-es osztó van a memóriának a DDR400-felé (5-ös, ha DDR2-800). 2-es osztó a HTT felé.

    Mért nem így írják a biosba? Azért, mert az isten tudja mióta GTL rendszerű busz-szorzó rendszerben működnek a processzorok ezen a piacon, ez a külső memóriavezérlő miatt van így (jó, ez nagyon leegyszerűsített ok). Nos a K8 volt az első, amely teljes egészében szakít a hagyományokkal, FSB sebesség, mert maga az FSB sem létezik, nincs ilyen busz. Azért hagyták meg ezt a logikát, hogy ne keverjék meg az embereket. Mellesleg nem minden lapon van ez így, valahol normálisan, proci sebességből származtatják a dolgokat.

    Ha ennyit nem értessz meg a K8-ból, akkor nem vagyok abban teljesen biztos, hogy egyáltalán vitapartner vagy-e itt, inkább csak felkent kibic.

  • dezz

    nagyúr

    válasz #64791808 #1477 üzenetére

    Nem nem, a HT órajel az alapórajelből származik a HT szorzóval. És ha nincs PCI clock lock (más neveken is szerepel), akkor még a PCI órajelet is ebből osztja a chipset. (Apropó, a chipset is megkapja az alapórajelet, nem csak a proci.)

  • #95904256

    törölt tag

    válasz dezz #1478 üzenetére

    A HT órajelének mivel kell szinkronban lennie? Minden bizonnyal azzal közös órajelforrásra támaszkodik, akár felszorozza azt, akár leosztja.

    szerk.: Ha nincs szinkronban semmivel ( pl. vezérlőjeles handshake-t használ? ) akkor meg teljesen mindegy hogy mi az órajel forrása, a lényeg hogy stabil legyen és előállítható legyen belőle a kívánt HT órajel.

    [Szerkesztve]

  • EQMontoya

    veterán

    válasz #95904256 #1479 üzenetére

    hoghyogy szinkronban? proci órajel függvényében változik (proci órajel*ht szorzó) nyilván cpu húzásánál növeled az órajelet, ezért érdemes a ht szorzót csökkenteni, hogy ne válljon a rendszer ettől instabillá, lényegében ennyi.

    Same rules apply!

  • Zeratul

    addikt

    válasz robyeger #1475 üzenetére

    Robi már mengint hülyeségeket beszélsz. K7 esetén dualproci esetén tudott a K7 közvetlenül írni/olvasni a másik proci cachében. K8 eleve multimagos multisocketes architeturának készült.

    [Szerkesztve]

    [Szerkesztve]

  • #95904256

    törölt tag

    válasz EQMontoya #1480 üzenetére

    A HT órajelének csak van valami funkciója, nem?

    Gondolom, azért van órajelre szüksége mert különféle áramköröket kell szinkronozni vele. Természetesen lehet más okból is ( pl. a karórákban lévő kvarckristály pusztán időalapot szolgáltat, mégis kvázi-szinkronban van a többi karórával, különben mindenkinek más időtartamot jelentene egy-egy perc vagy óra... ).

    Szóval ha szinkron miatt van, akkor melyik áramkörrel közös az órajel és miért?
    Ha meg más miatt van, akkor mire használja a HT busz az órajelet?

    szerk: P.H. által a 1476-os hozzászólásban linkelt kép alapján a HT és a DRAM órajelének láthatóan semmi köze egymáshoz. Pedig a RAM is az alapórajelről megy, nem?

    [Szerkesztve]

  • P.H.

    senior tag

    válasz #95904256 #1482 üzenetére

    Ezen a területen sokkal jártasabb vagy nálam, szerintem ezáltal [link] (BIOS and Kernel Developer's Guide for AMD Athlon 64 and AMD Opteron Processors) lehet legjobban rálátni.

    Ebből is a következő rövid szakaszok érdekesek:
    3.3.13 LDTi Frequency/Revision Registers
    12.4 HyperTransport™ Link Frequency Selection

    Az első alatt felsorolt bitértékek nem tűnnek sem osztónak, sem szorzónak (bár attól még lehetnek):

    ''Processors with multiple HyperTransport™ links are capable of operating the links at different frequencies. There are three supported link frequency groups:
    800 MHz, 400 MHz, 200 MHz
    1000 MHz
    600 MHz
    Processors can be configured with link frequencies from up to two link frequency groups.
    0000b = 200 MHz
    0001b = reserved
    0010b = 400 MHz
    0011b = reserved
    0100b = 600 MHz
    0101b = 800 MHz
    0110b = 1000 MHz
    0111b = reserved
    1000–1110b = reserved
    1111b = 100 MHz
    ''

    És a 3.3.13. záró megjegyzése sejtetni engedi, hogy az összekötött eszközöknek lehet saját órajelgenerátoruk.


    [Szerkesztve]

    Arguing on the Internet is like running in the Special Olympics. Even if you win, you are still ... ˙˙˙ Real Eyes Realize Real Lies ˙˙˙

  • dezz

    nagyúr

    válasz #95904256 #1482 üzenetére

    Pl. a következő okokból kell órajel a HT-nek is (még ha ez szinkronban is van az alapórajellel): 1. ez magasabb frekiként ''sűrűbb'', mint az alapórajel, így az ehhez kötött műveletek gyorsabban követhetik egymást, nem kell bevárni az alapórajel éleit. (Pl. az Intel FSB-je - miközben QDR-es - az alapórajelhez igazodik, tehát pl. a csomagok kezdete vagy az adatirányváltások.) 2. Ilyen frekiknél (főleg, hogy DDR az adatátvitel) nem is lenne teljesen biztonságos, ha minden végponton egy-egy PLL-lel külön-külön állítanának elő az alapórajelből ilyen magas órajelet, és így fogadnák a ''biteket''. (Bár Intelnél végülis ez történik, de ott csak két, viszonylag közeli végpont van [miközben a HT mindenféle egzotikus elrendezést megenged], és a végső data rate is kb. fele akkora.)

    Azt is tudni kell, hogy a HT (full duplex) 16 bites (asszem bizonyos esetekben lehet 4x8 is, de most mindegy), viszont DDR-es, így 64 bit átvitele (egy irányba) 2 ütem.

    Szerintem a HT portokon kívül semmi sem osztozik a HT busz órajelében. (Mivel akkor eléggé vissza lehetne venni a proci teljesítményét a HT szorzó alacsonyra állításával.)

    ''Pedig a RAM is az alapórajelről megy, nem?''
    (A mag-szorzó közbeiktatásával.) És?

    [Szerkesztve]

  • dezz

    nagyúr

    válasz dezz #1484 üzenetére

    ''két, viszonylag közeli végpont van [miközben a HT mindenféle egzotikus elrendezést megenged]'' -> na ezt úgy értettem, hogy az elsőnél két fix végpont van, de miközben HT-nél is egyszerre két végpont között zajlik a csomagátvitel (mivel ez csomag-alapú), ezek akár több pont közül választódhatnak ki mindkét oldalon (valószínűleg végpont-címzéssel megy a dolog).

    (Ja, meg azt se felejtsük el, hogy a HT busz nem korlátozódik az AMD procijaira, hanem iparszerte jópár cég alkalmazza, és előfordulnak olyan esetek, amikor csak a HT órajel képzheti a szinkronizációt, mármint az a HT buszon lévő eszközöknek pl. eltérő az alapfrekije.)

    [Szerkesztve]

  • rauschie

    senior tag

    Tudna nekem valaki linkelni valami átfogóbb magyar összefoglalót?

    Tények/találgatások, jólenne aránylag amatőr hangvétellel, ami itt a topicban megy nekem nagyrészt magas+angolt igencsak töröm, köszi előre is!

  • Rive

    addikt

    válasz #95904256 #1482 üzenetére

    pl. a karórákban lévő kvarckristály pusztán időalapot szolgáltat, mégis kvázi-szinkronban van a többi karórával
    Bocs, ez hülyeség. A szinkron az adott szakterületen nem csak (nagyjából) azonos frekvenciát, hanem kifejezetten azonos frekvenciát és fix fázist (!) jelent.

    Gondolom, azért van órajelre szüksége mert különféle áramköröket kell szinkronozni vele.
    Lásd forrás-szinkron, aka SST, Source-Synchronous Transfer. Máshogy ma már nem is nagyon működik.

    /// Nekünk nem Mohács, de Hofi kell! /// Szíriusziak menjetek haza!!!

  • Rive

    addikt

    válasz #95904256 #1482 üzenetére

    A HT órajelének csak van valami funkciója, nem?
    Ja! Ja. A funkció ebben az esetben az - ha nem tévedek nagyot - hogy a procc ebből szorozza fel a magórajelet, majd a magórajelből osztja le a memóriaórajelet. De bevallom, ennek utána kéne néznem kissé.

    /// Nekünk nem Mohács, de Hofi kell! /// Szíriusziak menjetek haza!!!

  • #65675776

    törölt tag

    válasz Rive #1488 üzenetére

    A HT órajele csak és kizárólag a HT busz átviteli sebességét határozza meg. Semmi másnak az órajele nem függ tőle. A proci továbbra is az External Clock-ból állítja elő a maga belső órajelét. Ahogy a HT vezérlő is az EC-ből a sajátját (azaz a HT buszét).

  • P.H.

    senior tag

    válasz P.H. #1483 üzenetére

    Most vettem észre, hogy nekem lementve a linkelt .PDF 2005 októberi verziója (rev. 3.28) van, viszont a link egy 2003-asra mutat, amiben még nincs benne az említett záró megjegyzés:

    ''Note: The processor’s HyperTransport links operate in Synchronous (Sync) mode as described in the HyperTransport I/O Link Specification. Sync mode operation requires the transmit and receive clocks for all links to be derived from the same time base. If different clock generators are used to drive the reference clock to the devices on both sides of the link, then the following requirements must be satisfied to ensure proper link operation:
    1. All clock generators must use the same reference clock source.
    2. Spread spectrum clocking must not be enabled in any of the clock generators unless the frequency deviations are synchronized between the outputs of all clock generators.
    ''

    És nincs benne a 12.4 szakasz sem:

    ''The BIOS should determine the set of frequencies that a processor is capable of for every HyperTransport™ link connected to the processor. Each frequency in the set must be defined by the corresponding link frequency capability bit in the LnkFreqCap field, Function 0, Offsets 88h, A8h, C8h, and it must be equal to or less than the maximum frequency values specified in the processor data sheets.

    If a HyperTransport™ link is non-coherent, then the BIOS should initialize the HyperTransport™ link frequency (Link field, Function 0, Offsets 88h, A8h, C8h) with the highest value from the set of frequencies of which the processor is capable and which is less than or equal to the maximum frequency values specified in the chipset data sheets, and the maximum frequency supported by the platform.

    If a HyperTransport™ link is coherent, then the BIOS should initialize the HyperTransport™ link frequencies (Link field, Function 0, Offsets 88h, A8h, C8h) of both processors with the highest common frequency value from the sets of frequencies of which each processor is capable that is less than or equal to the maximum frequency supported by the platform.
    ''

    Arguing on the Internet is like running in the Special Olympics. Even if you win, you are still ... ˙˙˙ Real Eyes Realize Real Lies ˙˙˙

  • #95904256

    törölt tag

    válasz Rive #1487 üzenetére

    A szinkron az adott szakterületen nem csak (nagyjából) azonos frekvenciát, hanem kifejezetten azonos frekvenciát és fix fázist (!) jelent.

    Nem. A szinkron önmagában sem frekvenciát, sem fázist nem jelent.
    A szinkronizálás egy művelet, a szinkron pedig ennek a folytonosságát jelenti.

  • P.H.

    senior tag

    A gondolattal eljátszva, ha a megjegyzést le kellene fordítani magyarra, akkor az hogyan nézne ki? Tehát hogyan kell érteni? :) Legegyszerűbben, mik a nyilvánvaló tévedések a következőkben?

    A processzorok összes HyperTransport linkje szinkron módban működik, a HyperTransport I/O Link Specification-ban leírt módon (ez feltételezi, hogy aszinkron módot is tudnak, bár nem ismerem az adott specifikációt). Ezen leírt szinkron mód elengedhetetlen feltétele, hogy az összes link esetén mind az adó, mind a vevő vonalak azonos óraegységeken alapuljanak. (Mivel a korábbiak - pl. ''Processors can be configured with link frequencies from up to two link frequency groups.'' - alapján feltételezhetően a koherens és a nemkoherens linkek eltérő frekvencián működhetnek egy CPU-n belül). Ha egy link két végén lévő eszközöknél két különböző órajelgenerátor állítja elő a közös frekvenciát, akkor a következő követelményeknek kell eleget tenniük:
    1. Mindkét órajelgenerátor azonos forráson alapul -> azonos frekvencia feltétel? (Ez itt a sejtésem szerint a fenti bináris értékekre utal, amelyek szabványosak, bármilyen alapból legyenek előállítva. Vagy emellett egyben az egyetlen közös alapórajelre meglétére is utal, mely mindkét eszköznek egyik adott bemeneti jele kell legyen? Utóbbi léte leegyszerűsíti a helyzetet.)
    2. Spread spectrum (erre mi a helyes magyar kifejezés? Kiszélesített? Vagy nem szigorú határú?) órajelezés már csak akkor engedélyezhető, miután (ha egyáltalán) a két órajelgenerátor esetleges eltérő üteme már összehangolttá válik. -> azonos fázis feltétel? (Ettől válik kérdőjelessé bennem az előző kritériumban említett system-wide egyetlen közös alapórajel. Vagy ez csak 8 CPU-s, kiegészítő alaplapos rendszerekben lenne boot-kor eltérő ütemű?)

    [Szerkesztve]

    Arguing on the Internet is like running in the Special Olympics. Even if you win, you are still ... ˙˙˙ Real Eyes Realize Real Lies ˙˙˙

  • keIdor

    félisten

    válasz Overlocker #1493 üzenetére

    Szept. 10-re ígérnek 2 Opteron-t.

    [Szerkesztve]

    Announcing the RTX-3080 TiE

  • robyeger

    addikt

    válasz P.H. #1476 üzenetére

    -Az hogy a processzor milyen mikrokódokra bontja szét a komplex x86 utasításokat lényegében szoftveres, ezt szokták hiba esetén patch-elni alaplapi BIOS frissítésekben és esetenként változtatni egy új stepping megalkotásakor. Ha az AMD azóta nem volt képes megoldani, az X2 magok közvetlen kommunikációját, akkor nagy valószínűséggel nem szoftveres problémáról van szó.
    [link]
    Hova jutottunk, több magot képzelni a Hammer-be :( Biztos a hypertransport is 3maghoz kapcsolódik azért számozták be 0,1,2-vel :DD Vagy a CPU 0 ugyan fizikálisan nincs ott, de be van tervezve, ezért kapott 0 sorszámot ;) Ez még a kopasznak is hajmeresztő! Az általad említett prezentációban érdekes módon az osztott memóriavezérlőt se ábrázolják/említik, talán azért mert akkor még azt se tudták mi fán terem. Számos cikk született a Hammer megalkotásának idején, mutassál már egy hivatalosat is, amiben a hammer és a multicore szó szerepel! Az igaz, hogy több processzoros rendszerről van szó és annak is tervezték, de több magról akkoriban szó sem volt. Még1x a fenti ábrából szeretnék X2-st látni!
    Ha valakinek sikerül magáról levetnie márkarajongását, egyszerű logikával rájöhetne, hogy pl. 2Ghz K8-esetén, ha SRQ felől is 16GB/sec sávszéllel lehetne elérni az L2 cache-t, akkor nem lenne szükség L3 cache-re és dupla buszszélességre.

    [Szerkesztve]

    Keresem a 9th Company: Roots Of Terror játék magyar feliratos változatát,mindenféle megoldás érdekel; Intel Pentium-D940/''C1''stepping/ (1.3V-200x16) @ (1.43V-333x12) 4Ghz

  • robyeger

    addikt

    válasz #64791808 #1477 üzenetére

    [link] Igen sajnos az alaplapgyártóknak se volt pontos fogalma DDR1 memória idején a K8 procik működéséről, visszatekintve akkortájt én is a sötétben tapogatóztam, rengeteg zavaró tényező volt(van sanos jelenleg is) De arra megkérnélek, hogy konkrét javaslattal/kritikával gyere, ne általános marketing szlogenekkel. :R
    Állítod: ''A K8-nál a kiindulási alap a magsebesség, ebből osztódik vissza a HTT sebesség, és a memória sebessége.'', pedig ez nem igaz külön szorzója van a HTT-nek és a processzornak is, külön állíthatók, az csak tervezési/működési egyszerűsítés, hogy a processzor és a HTT alapórajele azonos.

    [Szerkesztve]

    Keresem a 9th Company: Roots Of Terror játék magyar feliratos változatát,mindenféle megoldás érdekel; Intel Pentium-D940/''C1''stepping/ (1.3V-200x16) @ (1.43V-333x12) 4Ghz

  • Zeratul

    addikt

    válasz robyeger #1495 üzenetére

    Robi úgy néz ki képtelen vagy fejlődni és kevered a szezont a fazonnal. HT link annyira hasonlítható össze a rendszermemória kommunikációval mint flash ram a SAS-al.

  • Rive

    addikt

    válasz #95904256 #1491 üzenetére

    Nem. A szinkron önmagában sem frekvenciát, sem fázist nem jelent.
    A szinkronizálás egy művelet, a szinkron pedig ennek a folytonosságát jelenti.

    Akkor ez a threadet olvasd el még egyszer.

    /// Nekünk nem Mohács, de Hofi kell! /// Szíriusziak menjetek haza!!!

  • P.H.

    senior tag

    válasz robyeger #1495 üzenetére

    Ha kiörömködted magad, akkor nézzük, mit ábrázol a kép az AMD szerint:

    [kép]

    innen: [link]
    AMD Eighth-Generation Processor Architecture (White Paper), October 16, 2001

    A nem létező rajongásomnál sokkal érdekesebb, hogy ha egy kétmagos AMD CPU felépítésével teljesen tisztában vagy, akkor miért nem ismered fel a szerkezetét képen, ránézésre.


    ''-Az hogy a processzor milyen mikrokódokra bontja szét a komplex x86 utasításokat lényegében szoftveres, ezt szokták hiba esetén patch-elni alaplapi BIOS frissítésekben és esetenként változtatni egy új stepping megalkotásakor.''
    Csak ennek semmi köze a MOESI-hez, és úgy általában a cache protocol-okhoz. Bár a fentiből is kiderül, hogy fogalmad sincs, hogy a pl. a cache probe kifejezés mit takar.

    [Szerkesztve]

    Arguing on the Internet is like running in the Special Olympics. Even if you win, you are still ... ˙˙˙ Real Eyes Realize Real Lies ˙˙˙

Hozzászólok Aktív témák

Hirdetés