Keresés: - AMD-s mélyvíz: Raphael, Rembrandt, Zen4

Legfrissebb anyagok

PROHARDVER! témák

Mobilarena témák

IT café témák

GAMEPOD.hu témák

LOGOUT.hu témák

Keresés

Hirdetés

Az Apple megszerezné a klubvilágbajnokság közvetítési jogait

ph A vállalat ezért irgalmatlan pénzt fizetne a FIFA-nak, és ezzel rajzolná át az online streaming platformok háborújában a frontvonalakat.
AMD Radeon undervolt/overclock

lo Minden egy hideg, téli estén kezdődött, mikor rájöttem, hogy már kicsit kevés az RTX2060...
iPaden is vége az App Store monopóliumának

ma Ősztől lehet alternatív alkalmazásboltból telepíteni az EU tagállamaiban.

Téma összefoglaló

Utoljára frissítve: 2023-12-13 04:53

PROHARDVER!

OLVASD VÉGIG ALAPOSAN MIELŐTT ÚJ HOZZÁSZÓLÁST ÍRNÁL!!!

Új hozzászólás Aktív témák

#213 #95904256 törölt tag

Új Válasz 2007-04-19 13:56:01 #213
Új hozzászólás
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra
Privát üzenet küldése

#95904256

törölt tag

Meddig kell még várni az új AMD arhitektúrára?
Mi a legutóbbi ígéret? Már szívesen izzítanám...

Ott vagyunk már?
Ott vagyunk már?
Ott vagyunk már?
#216 #95904256 törölt tag

Új Válasz 2007-04-19 20:39:10 #216
Új hozzászólás
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra
Privát üzenet küldése

#95904256

törölt tag

Mutatnátok egy olyan integer utasításokat tartalmazó forráskódot amelyik egy Core2-n gyorsabban fut mint egy K8-as magon azonos órajelek mellett?
#440 #95904256 törölt tag dezz #439

Új Válasz 2007-05-07 09:23:18 #440
Új hozzászólás
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra
Privát üzenet küldése

#95904256

törölt tag

válasz dezz #439 üzenetére

Megjegyezném hogy a P4D-ről a C2D SSE végrehajtása nem csak a 128 bites engine miatt gyorsult jelentősen.

Lássuk pár SSE2 utasítás késleltetési / ütemezési idejét:

MOVAPD xmm,xmm: 7 / 1 ---> 1 / 0,33
ADDPD xmm,xmm: 5 / 2 ---> 3 / 1
MULPD xmm,xmm: 7 / 2 ---> 5 / 1

elméleti sebességnövekmények:

Adatpakolászás: 7*1/1/0,33 = x 21,0
Összeadás: 5*2/3/1 = x 3,33
Szorzás: 7*2/5/1 = x 2,8

A K10-re visszakanyarodva, az alábbiakra számíthatunk:

MOVAPD xmm,xmm: 1 / 0,33
ADDPD xmm,xmm: 4 / 1
MULPD xmm,xmm: 4 / 1

Ez versenyben van a Core2-vel.
#463 #95904256 törölt tag Raymond #454

Új Válasz 2007-05-07 18:18:35 #463
Új hozzászólás
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra
Privát üzenet küldése

#95904256

törölt tag

válasz Raymond #454 üzenetére

Hm... Az hogy MMX és 3DNow! kiszorul és helyett csak SSE utasítások lesznek, az rendben. De hogy az x87 kiszorul, az szívszorító.

Pár nagyon jó dolog elveszne...

1, bővített pontosság (80 bit)
- ugye ezzel 32 biten is lehetett 64 bites integer szorzást, osztást csinálni...
(szerk.: az INTEL CPU-k eleve az FPU-t használják integer osztáshoz, így jóval gyorsabb is az AMD CPU-knál)
- jól jött amikor dupla pontossággal nem mentek a dolgok...

2, egyszerű X^Y számítás lehetősége (F2XM1)
- mert eddig nem csak szögletes volt...

3, maradékképzés
- ez pótolható, közel azonos végrehajtási idővel

4, szögfüggvények
- ezeket eddig 80 bit pontossággal tudta a proci...
(mondjuk a sinust olyan 50 bit pontosságig gyorsabban lehet SSE2-vel produkálni, de ez felett már gyorsan nő a szükséges look-up tábla méret vagy a szükséges órajelek száma)

5, logaritmus
- kár érte...

[Szerkesztve]
#465 #95904256 törölt tag dezz #464

Új Válasz 2007-05-07 19:34:27 #465
Új hozzászólás
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra
Privát üzenet küldése

#95904256

törölt tag

válasz dezz #464 üzenetére

dezz: Úgy érted hogy az FPU regiszterek ''dedikáltsága'' vagy a temporary regiszterek szűnnek meg?

Ha ez előbbi, akkor hurrá! Sikerült átdolgozniuk (egyszerűsíteniük) az egész egységet. Ez kisebb késleltetéseket, kisebb fogyasztást jelenthet.

Ha az utóbbi, akkor: Megspórolnak pár ezer tranzisztort, viszont a ''speciális'' műveleteket lelassítják. ( szögfüggvények, maradékképzés, logaritmus, ... )
#469 #95904256 törölt tag Raymond #467

Új Válasz 2007-05-07 21:05:37 #469
Új hozzászólás
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra
Privát üzenet küldése

#95904256

törölt tag

válasz Raymond #467 üzenetére

Hali Raymond!

Szerintem megrázó lesz amit mondok.
Tökéletesen működik az összes FPU/MMX/3DNow! utasítás 64 bites Windows alatt, méghozzá mindenféle hókusz-pókusz nélkül. Ezt már csak azért is mondom mert nap mint nap használom. Egyébként furcsa lenne hogy egy OS leakarná tiltani a processzor egyes utasításait. Na jó, vannak privilegizált utasítások... De pl. eddig sosem volt szükségem arra hogy MSR tartalmat módosítsak.
#473 #95904256 törölt tag Raymond #472

Új Válasz 2007-05-07 23:04:39 #473
Új hozzászólás
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra
Privát üzenet küldése

#95904256

törölt tag

válasz Raymond #472 üzenetére

Én csak azt mondom hogy nyűgös leszek ha előkell ásnom a FPU emulátoraimat...
Legutóbb egy 386SX-en használtam efféle cuccot... Úgy tizenegynéhány éve...

Erről a letiltásos históriáról hol lehet bővebben olvasni?
Natív 64 bites módban egyedül a PUSHA/POPA páros nem működik.
#476 #95904256 törölt tag P.H. #475

Új Válasz 2007-05-08 06:32:26 #476
Új hozzászólás
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra
Privát üzenet küldése

#95904256

törölt tag

válasz P.H. #475 üzenetére

Hali P.H.!

Épp tegnap próbáltam az alábbi kódot egy K8 és egy Core2 magon:
(64 bit vs. 128 bit SSE)

cycle:
ADDPD XMM1,XMM0
ADDPD XMM2,XMM0
ADDPD XMM3,XMM0
ADDPD XMM4,XMM0
DEC EAX
JNZ cycle

A Core2 pont kétszer volt gyorsabb.
Fogadni mernék hogy ez cache-ben prefetchelt operandusok és más utasításokkal is működik. ( Na jó, MUL esetén 5 műveletet kell overlappolni a duplázáshoz. )
#478 #95904256 törölt tag Raymond #477

Új Válasz 2007-05-08 10:33:47 #478
Új hozzászólás
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra
Privát üzenet küldése

#95904256

törölt tag

válasz Raymond #477 üzenetére

Akkor valamit nem értek vagy valamit te értettél félre.

Szerintem az általam felhozott programrészlet azért fut pont kétszer lassabban K8-on mert az kénytelen 2 macro-opra bontani mindegyik utasítást, míg a Core2 csak 1 macro-opra bontja. Ha jól sejtem 1 db SSE egység esetén is ugyanezt a különbséget tapasztalnám. Ez abból jön hogy a fenti programrészletben 4 db 4 órajel késleltetésű utasítás szerepel. Vagyis az átlapolás tökéletesen működik 1 db SSE egység esetén is.

Tehát nem értem hogy miért hoztad fel hogy az eredmény az exec unitok száma miatt jött ki.

szerk.: Tévedtem, az átlapolás nem úgy működik ahogy azt eddig gondoltam.

[Szerkesztve]
#480 #95904256 törölt tag Raymond #479

Új Válasz 2007-05-08 12:33:41 #480
Új hozzászólás
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra
Privát üzenet küldése

#95904256

törölt tag

válasz Raymond #479 üzenetére

Van kulombseg a 64bit es a128bit teszteredmenyeid kozott?
Persze. Minden úgy van mint a nagykönyvben...
#488 #95904256 törölt tag P.H. #485

Új Válasz 2007-05-08 22:20:55 #488
Új hozzászólás
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra
Privát üzenet küldése

#95904256

törölt tag

válasz P.H. #485 üzenetére

Szerintem az OS programozóknak kellene figyelmesebbnek, felkészültebbnek lenniük, és nem a CPU gyártóknak kellene kézenfogva vezetni őket. Mert egyelőre csak az x87/MMX/3DNow! ... de aztán?

Jó, persze x87/MMX/3DNow! nem létszükséglet kernel módban, de az efféle ''korlátozom a szabadságod'' szemlélet nekem nem tetszik. Ezzel nem hibát szüntetnek meg, csak a hibalehetőségeket szűkítik. Ennek viszont van elegánsabb (szoftveres) módja is...

[Szerkesztve]
#490 #95904256 törölt tag Raymond #477

Új Válasz 2007-05-09 11:04:45 #490
Új hozzászólás
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra
Privát üzenet küldése

#95904256

törölt tag

válasz Raymond #477 üzenetére

Hali Raymond!

Említetted hogy a Core2 3 128 bites SSE műveletvégzőt tartalmaz, amelyek közül ekttő szimmetrikus. Ez a szimmetria pontosan mit takar?

A 3. SSE műveletvégző miben különbözik tőlük?
Esetleg tudnál adni valami linket ahol ezt részletezik?
#491 #95904256 törölt tag #95904256 #490

Új Válasz 2007-05-09 11:32:59 #491
Új hozzászólás
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra
Privát üzenet küldése

#95904256

törölt tag

válasz #95904256 #490 üzenetére

Eddig ennyit sikerült találnom:

The Core microarchitecture also substantially improves on the floating point and SSE capabilities of its predecessors. Although Core’s 3 SSE units are not fully symmetric, the differences are relatively minor (shifting and multiplication resources).

Vagyis majdnem minden a három azonos.
#502 #95904256 törölt tag Rive #501

Új Válasz 2007-05-09 21:15:46 #502
Új hozzászólás
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra
Privát üzenet küldése

#95904256

törölt tag

válasz Rive #501 üzenetére

Az én tapasztalataim is azt mutatják hogy a 1,5-2 feletti IPC érték eléréséhez már bűvésznek kell lenni ( K8 ). De próbaképp írok valami rutin, kifejezetten az IPC maximum értékének kiméréséhez.
#506 #95904256 törölt tag P.H. #503

Új Válasz 2007-05-09 23:17:31 #506
Új hozzászólás
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra
Privát üzenet küldése

#95904256

törölt tag

válasz P.H. #503 üzenetére

Hali P.H.!

Kipróbáltam a REP MOVSB, FSTSW illetve FCOS utasításokkal is a dolgot, miszerint a VectorPath felfüggeszti a többi utasítás dekódolását. Ez nem teljesen igaz. Valóban lelassul a dekódolás, de nem áll meg.

Kipróbáltam egy X2-esen is hogy milyen IPC-t lehet elérni: 2,997
#508 #95904256 törölt tag P.H. #507

Új Válasz 2007-05-09 23:38:45 #508
Új hozzászólás
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra
Privát üzenet küldése

#95904256

törölt tag

válasz P.H. #507 üzenetére

FCOS + integer műveletek -> nincs lassulás
FSTSW + integer műveletek -> nincs lassulás
REP MOVSB + integer műveletek -> CX értékétől függ, CX=1 esetén nincs lassulás
#522 #95904256 törölt tag Rive #513

Új Válasz 2007-05-10 13:55:20 #522
Új hozzászólás
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra
Privát üzenet küldése

#95904256

törölt tag

válasz Rive #513 üzenetére

Hali Rive!

Kipróbáltam egy X2-esen is hogy milyen IPC-t lehet elérni: 2,997
Ezt hogyan? Per-core? Csodálkoznék...

Mit használsz? Utasításszám, vagy a performance-counterek?

Egyszerűen végrehajtottam rögzített mennyiségű utasítást (n) és a timestamp countert felhasználva megmértem hogy mennyi órajelre volt szüksége (t). Ebből számoltam ki az IPC értékét ( x = n/t ). Természetesen egy magon futott le az egész.

A mérés után megnéztem a K8 arhitektúra sematikus rajzát, ami alátámasztotta a fenti értéket. 3 párhuzamos utasításdekóder van benne.

Természetesen egyszerű utasításokat használtam ( FADD,FMUL,MOV,DEC,JNZ ).

[Szerkesztve]
#525 #95904256 törölt tag Raymond #495

Új Válasz 2007-05-10 15:04:25 #525
Új hozzászólás
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra
Privát üzenet küldése

#95904256

törölt tag

válasz Raymond #495 üzenetére

Hali Raymond!

Az ''ars technica'' cikk valóban érdekes, de első neki futásra kicsit gyanúsak voltak azok a kifejezések hogy: I'm guessing; I'm currently assuming; I'm suspect, ...

Szóval kicsit megmozgattam a Core2 lebegőpontos SSE műveleteket végző egységeit.

100.000 (8x12.500) műveletet végrehajtva az alábbi idők jöttek ki:

ADDPD reg0-7,mem -> 1,1 órajel / utasítás
DIVPD reg0-7,mem -> 31,1 órajel / utasítás (itt már jelentős a várakozás)
MULPD reg0-7,mem -> 1,1 órajel / utasítás (na, ezt hogy csinálta?!)
XORPD reg0-7,mem -> 1,1 órajel / utasítás
SQRTPD reg0-7,mem -> 57,2 órajel / utasítás

Gondolom az 1,1 órajelből az 0,1 azért jött be mert nem volt egy 9. regiszter a további latency time átlapoláshoz. Ha egy ADDPD 3 órajelig tart, és 1 órajeles átlag jött ki akkor hány DP (64 bit) összeadó dolgozott egyszerre? 6...
A MULPD-s mérést többször is átnéztem. Hibátlan eredménynek tűnik. Viszont ez azt jelentené hogy egyszerre 10 DP szorzó egységnek kellett működött. Ez szerintetek lehetséges? Tényleg ilyen ''FPU monster'' a Core2?
#526 #95904256 törölt tag Rive #524

Új Válasz 2007-05-10 15:33:41 #526
Új hozzászólás
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra
Privát üzenet küldése

#95904256

törölt tag

válasz Rive #524 üzenetére

Gondolkodom rajta, de most még nem érdekel. Ugyan nagyjából tudom miről adhatnak infót a performance counterek, de gőzöm sincs mit kezdjek velük...
#529 #95904256 törölt tag #95904256 #525

Új Válasz 2007-05-10 17:05:07 #529
Új hozzászólás
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra
Privát üzenet küldése

#95904256

törölt tag

válasz #95904256 #525 üzenetére

Core2:
ADDPD reg0-7,mem -> 1,1 órajel / utasítás
DIVPD reg0-7,mem -> 31,1 órajel / utasítás
MULPD reg0-7,mem -> 1,1 órajel / utasítás
XORPD reg0-7,mem -> 1,1 órajel / utasítás
SQRTPD reg0-7,mem -> 57,2 órajel / utasítás

K8:
ADDPD reg0-7,mem -> 2,1 órajel / utasítás -> 2 db 64 bites összeadó (FADD,FMISC?)
DIVPD reg0-7,mem -> 34,1 órajel / utasítás -> 1 db 64 bites osztó (FMISC)
MULPD reg0-7,mem -> 2,1 órajel / utasítás -> 2 db 64 bites szorzó (FMUL,FMISC?)
XORPD reg0-7,mem -> 2,1 órajel / utasítás -> 2 db 64 bites logika (ALU)
SQRTPD reg0-7,mem -> 48,1 órajel / utasítás -> 1 db 64 bites gyökvonó (FMISC)

Szóval a K8 is veri a Core2-t, gyökvonásban.
#530 #95904256 törölt tag P.H. #528

Új Válasz 2007-05-10 17:16:44 #530
Új hozzászólás
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra
Privát üzenet küldése

#95904256

törölt tag

válasz P.H. #528 üzenetére

Hali P.H.!

Most aztán megvagyok keveredve, a szorzó és az összeadó áramköröket illetően.

Ezek szerint a műveletet ténylegesen végrehajtó egységek is pipe-oltak vagy csak az ütemező?

Ezt úgy értem hogy gondolom a tényleges szorzás nem 1 órajel alatt hajtódik végre ( rengeteg tranzisztort igényelne ), hanem közben több részeredményből tevődik össze, így vannak ''lépések''. Ezek a részeredmények haladnak egymás után, és ezt nevezzük pipe-nak?

Vagy úgy működik a dolog hogy van egy rakás különálló szorzó illetve összeadó és az ütemező amikor talál egy éppen nem foglalt egységet valamint van mit ''belepakolni'', akkor odaadja neki az operandusokat, az kiszámolja az eredményt ( 3/5 órajel ) majd elveszi tőle?
#535 #95904256 törölt tag P.H. #534

Új Válasz 2007-05-10 20:38:03 #535
Új hozzászólás
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra
Privát üzenet küldése

#95904256

törölt tag

válasz P.H. #534 üzenetére

Remek! Köszönöm.

Újabb ezernyi kérdésem lett.
Jöhet belőlük egy pár?

1, Mit jelent és miért jó az hogy az L2 Cache 16 utas?
Gondolom egyszerre 16 hozzáférési kérelem ( írás / olvasás ) irányulhat a cache vezérlőhöz, de honnan a fenéből jön össze ennyi kérelem?

2, Az AGU-k generálják a memória operandusok címeit?
Ebből az következne hogy pl. egy ADD reg,mem legalább 2 macro opból áll. Először lefut az AGU-n a memória operandus címképző macro opja, majd utána az ALU-n lefut az összeadás. Valamint a lebegőpontos/MMX egységnél az FSTORE végzi azt a munkát mint az integer résznél az AGU. Jól gondolom?
#547 #95904256 törölt tag Rive #544

Új Válasz 2007-05-11 09:05:01 #547
Új hozzászólás
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra
Privát üzenet küldése

#95904256

törölt tag

válasz Rive #544 üzenetére

Hali Rive!

Tudnál segíteni abban hogy hol, merre keressem ezt az AMD softvert, illetve hol kell regisztrálni. Sajnos az AMD lapja nekem egy kicsit kesze-kuszának tűnik.
#556 #95904256 törölt tag Raymond #551

Új Válasz 2007-05-11 19:12:27 #556
Új hozzászólás
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra
Privát üzenet küldése

#95904256

törölt tag

válasz Raymond #551 üzenetére

Hali Raymond!

Remek cikk. Remélem abból a 2010-re datált heterogén CPU/GPU dologból legalább 2015-re lesz valami. Nagyon mókás lenne egy olyat megcsiklandozni.
#557 #95904256 törölt tag P.H. #528

Új Válasz 2007-05-11 19:24:54 #557
Új hozzászólás
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra
Privát üzenet küldése

#95904256

törölt tag

válasz P.H. #528 üzenetére

Az XORPD-t nem értem inkább. Nem 2 vagy 3 SSE ALU van a Core2-ben? 2 esetén már 0.5 órajel/utasításnak kellett volna kijönni.
Nekem van egy tippem, persze lehet hogy tévedek. De...

XORPD xmm,mem -> 1 órajel / utasítás ( 8 bájtos utasítás )
XORPD xmm,xmm -> 0,5 órajel / utasítás ( 4 bájtos utasítás )

Elvileg a Core2 x86 instruction predecodere 128 biten ( 16 bájton ) kapcsolódik az instruction cache-hez. A teszt kód 16 bájra volt illesztve, mégis, nem lehet hogy a decoder nem tudott két'' XORPD xmm,mem''-et 2x8 bájtról leképezni?
#559 #95904256 törölt tag P.H. #558

Új Válasz 2007-05-12 12:26:24 #559
Új hozzászólás
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra
Privát üzenet küldése

#95904256

törölt tag

válasz P.H. #558 üzenetére

Összesen 128 bájtot címezgettem, nem hiszem hogy a Data Cache lett volna a szűk keresztmetszet, de ezt csak egy hét múlva tudom letesztelni.

A ''4/8 bájtos utasítás'' alatt azt értem hogy az utasítás kódja ennyi bájtra fordult le.

szerk.: Majd kipróbálom XORPD XMM0,[DATA0] helyett XORPD XMM0,[ESI+00] formában, így kiderül hogy a data vagy decoder oldalról jött be a csökkenés.

[Szerkesztve]
#620 #95904256 törölt tag dezz #619

Új Válasz 2007-05-17 07:59:37 #620
Új hozzászólás
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra
Privát üzenet küldése

#95904256

törölt tag

válasz dezz #619 üzenetére

Szia dezz!

Említetted hogy az AMD 30-40%-os FP (SSE2+) előnyt mond a K10-re a Core2-vel szemben, holott a műveletvégzők mennyisége azonos. Ez egyben azt is jelenti hogy a Core2 műveletvégzői az idő legalább 30-40%-ban ''üresben'' járnak. Már pedig az eddigi eredmények alapján úgy tűnik, az Intel mérnökei nem végeztek ilyen ''csapnivaló'' munkát.

A K10 így látatlanban csak hajszálnyival tűnik gyorsabbnak. Nem látok benne olyan csodát ami indokolná hogy könnyűszerrel ''lelépje'' a konkurens arhitektúrát.

P.H.

Szerintem a CPU hatékonyságát jelentősen növelné az is ha nem kellene minden egyes utasítást minden egyes végrehajtás előtt újra és újra micro/macro opokra dekódolni. Ezzel legalább 2-3 lépcsővel csökkenne a pipeline hossza az ismételt végrehajtásoknál.

[Szerkesztve]
#623 #95904256 törölt tag dezz #622

Új Válasz 2007-05-17 15:21:06 #623
Új hozzászólás
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra
Privát üzenet küldése

#95904256

törölt tag

válasz dezz #622 üzenetére

Szerintem összeszedted az összes olyan különbséget amiért a K10 egy hajszálnyival képes a Core2-re ráverni. Talán a 256 bites I-cache ami egy kicsit talányos. Akárhogy is nézegetem, az a Core2 nagyon eltaláltatott. Csak egy-két extrém eset az amiben a K8 utoléri (megelőzi). Amennyire a Core2 eltér a NetBurst-től, a K10 annyira hasonlít a K8-ra. Olyan mint egy nagytestvér. Meglátjuk mi lesz belőle.

Az FMISC valószínűleg a VectorPath-os FP utasítások miatt ''egyéb'' dolgokat jelöli.
Pl. sinus, cosinus, integer műveletek, ...

A K8-ból IPC=3,000-t lehetett kicsikarni, nem többet. Egyébként kíváncsi vagyok hogy szerinted hogyan lehet elérni nagyobb értéket.
#625 #95904256 törölt tag dezz #624

Új Válasz 2007-05-17 18:15:11 #625
Új hozzászólás
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra
Privát üzenet küldése

#95904256

törölt tag

válasz dezz #624 üzenetére

Hali dezz!

A K8-on az FDIV az FMUL-on keresztül hajtódik végre méghozzá úgy hogy azon az egységen minden felfüggesztődik ( tapasztalat hogy nem lehet átlapolni az osztással párhuzamos szorzásokat, de lehet hogy még az előjelváltás (FCHS, FABS) sem működik ).

Na jó, kipróbálok még pár vectorpath+directpath kombinációt egy jobb IPC érték eléréséhez ( hátha... ), de szerintem amit microcode enginnek vélsz az nem más mint az utasítások kezdőcímét meghatározó/tároló egység. Ugyanis nem piskóta dolog megmondani egyszerre 16 bájton hogy hol kezdődnek utasítások. Ugye ez kell ahhoz hogy egyszerre több utasítás dekódolásának lehessen nekikezdeni. Tkp. akkor lehetsz biztos a második, harmadik, stb. utasítások kezdőcímében mikor az elsőnek ( előzőnek ) a hosszát is sikerült meghatározni. Gondolom egy ömódosító kód ( SMC ) elég jól megtudja bolondítani a dolgokat.
#627 #95904256 törölt tag dezz #626

Új Válasz 2007-05-17 20:00:14 #627
Új hozzászólás
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra
Privát üzenet küldése

#95904256

törölt tag

válasz dezz #626 üzenetére

Na, megtörtént a próba. A legjobb eredményt akkor kaptam ha a CLD, mint legegyszerűbb vectorpath utasítás mellé ( 1 bájtos, 2 órajeles, 1 darab nem ugrásfeltétel bitet állítgat ) társítottam MOV, DEC, JNZ directpath utasításokat. IPC=2,991
#629 #95904256 törölt tag dezz #628

Új Válasz 2007-05-17 20:35:39 #629
Új hozzászólás
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra
Privát üzenet küldése

#95904256

törölt tag

válasz dezz #628 üzenetére

A Core2-n is single ként fordul az SSE utasítások nagyrésze. Tehát az 1 komplex + 3 single dekóder nem olyan rossz felállás az intel részéről. Kb. annak felelhet meg mint a K10-nél az 1 vectorpath + 3 directpath ( double ) dekóder?

[Szerkesztve]
#655 #95904256 törölt tag Rive #544

Új Válasz 2007-05-21 15:40:38 #655
Új hozzászólás
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra
Privát üzenet küldése

#95904256

törölt tag

válasz Rive #544 üzenetére

Hali Rive!

Nem sikerült beizzítanom az AMD-féle CodeAnalyst-ot. Állandóan hibára fut amint indítani akarok egy profilt. Neked hogy sikerült működésre bírnod?

Viszont az Intel vTune -, ami az AMD-s CodeAnalyst birodalmi megfelelője - tökéletesen működik.
#688 #95904256 törölt tag P.H. #687

Új Válasz 2007-05-28 11:14:15 #688
Új hozzászólás
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra
Privát üzenet küldése

#95904256

törölt tag

válasz P.H. #687 üzenetére

Annyit megjegyeznék attól hogy az Intel CPU-k uop gyárak, nem jelenti azt hogy nem hatékonyak. Ezen uop-ok valamivel egyszerűbb szerkezetűek mint a konkurens makro-opok, így egyszerűbb vezérlő logikát igényelnek. A Core2-es 96 uop-os ROB-ja még ha szűk keresztmetszetet is jelent, azért jelentősen nem marad le a K8 72 makro-op-os ICU-jától. Ehhez hozzátenném hogy szeretnék látni egy olyan kódot ahol ez jelenti a szűk keresztmetszetet, ugyanis erősen párhuzamos (OoO) végrehajtás szűkséges hozzá. Más szóval egy ilyen limitet csak magas IPC értékű kóddal lehet elérni, ami még ritka.
#691 #95904256 törölt tag dezz #689

Új Válasz 2007-05-28 14:41:01 #691
Új hozzászólás
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra
Privát üzenet küldése

#95904256

törölt tag

válasz dezz #689 üzenetére

Dezz, néha becsinálok azon amit az AMD mond. Ez a majd ''45nm-en lesz gazdaságos'' dolog is egy kicsit fura. Meg az is hogy a Brisbane magos processzorok gyorsítótára azért lassabb mert így majd nagyobbat lehet gyártni. Na jó, de melyik Brisbane magos prociba tudom utólag belerakni a nagyobb gyorsítótárat? Gondolom a 65nm-es processzorhoz meg majd zsugorítót fognak árusítani...

Az hogy egy vezérlés egyszerűbb vagy bonyolultabb, nem lényeges a számunkra ha ugyanazt a teljesítményt nyújtja. Viszont ami egyszerűbb, azt könnyebb fejleszteni.
#693 #95904256 törölt tag szacsee #690

Új Válasz 2007-05-28 18:35:41 #693
Új hozzászólás
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra
Privát üzenet küldése

#95904256

törölt tag

válasz szacsee #690 üzenetére

Hali szacsee!

Természetesen minél gyorsabb a RAM-od annál jobb.

Azért remélem hogy a DDR2-800 CL4-es RAM-ok is jók lesznek. Legalább a Kuma magosokhoz. De messze van még július...
#695 #95904256 törölt tag

Új Válasz 2007-05-28 22:56:34 #695
Új hozzászólás
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra
Privát üzenet küldése

#95904256

törölt tag

Kicsit off-topic leszek, de találtam egy X-bit labs tesztet az AMD 4x4 és az Intel V8 platformok összehasonlításáról: [link]
#719 #95904256 törölt tag ftc #718

Új Válasz 2007-06-03 20:08:30 #719
Új hozzászólás
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra
Privát üzenet küldése

#95904256

törölt tag

válasz ftc #718 üzenetére

Egyelőre csak találgathatunk a harmadszintű gyorsítótárral kapcsolatban. Ha azt veszem figyelembe hogy a K10 felépítése erősen hasonlít a K8-éra, ami nem volt különösebben érzékeny a L2 cache méretére, valamint az L3 várhatóan lassabb hozzáférést biztosít mint az L2, akkor azt mondhatnám hogy nem okozhat jelentős lassulást a hiánya. Ha azonban megnézzük hogy az L2 mérete a K10-nél is csak 512kB magonként, ráadásul ezek a magok éhesebbek ( gyorsabb működés, szélesebb adatutak ), akkor igenis nagy szükség lehet az L3-ra...
#724 #95904256 törölt tag

Új Válasz 2007-06-05 08:50:05 #724
Új hozzászólás
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra
Privát üzenet küldése

#95904256

törölt tag

Nem ma kezdődött a Computex? Sőt, ha jól sejtem akkor már javában AMD Barcelona demók mennek... Mit hallani???
#726 #95904256 törölt tag Raymond #725

Új Válasz 2007-06-05 13:57:33 #726
Új hozzászólás
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra
Privát üzenet küldése

#95904256

törölt tag

válasz Raymond #725 üzenetére

Eddig reménykedtem hogy esetleg egy karácsony előtti árcsökkentést is láthatok.
#739 #95904256 törölt tag

Új Válasz 2007-06-06 09:54:25 #739
Új hozzászólás
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra
Privát üzenet küldése

#95904256

törölt tag

Megtudnátok mondani hogy az SSE2-es regisztereknél az FPU-n belül is csak 52 bites a mantissza vagy nagyobb a kerekítések miatt? Ha nagyobb akkor melyik CPU-nál mennyivel? Vagy erre is kitér az IEEE754 vagy egyéb standard?
#754 #95904256 törölt tag Raymond #744

Új Válasz 2007-06-06 11:43:24 #754
Új hozzászólás
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra
Privát üzenet küldése

#95904256

törölt tag

válasz Raymond #744 üzenetére

Az 1.6GHz-es dologhoz annyit hozzátennék hogy annak idején mikor az AMD a Hammer-ből szállítótta az első teszt darabokat az alaplapgyártóknak, akkor azok 800MHz-re voltak korlátozva.
#803 #95904256 törölt tag VaniliásRönk #802

Új Válasz 2007-06-07 19:12:01 #803
Új hozzászólás
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra
Privát üzenet küldése

#95904256

törölt tag

válasz VaniliásRönk #802 üzenetére

Ha nem így lenne akkor most egyik AMD prociban sem lenne SSE utasításkészlet.
#805 #95904256 törölt tag VaniliásRönk #804

Új Válasz 2007-06-07 19:26:31 #805
Új hozzászólás
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra
Privát üzenet küldése

#95904256

törölt tag

válasz VaniliásRönk #804 üzenetére

A 3DNow!-hoz annyit hozzátennék hogy még nem pusztult ki. Sőt ugyanaz az algoritmus 3DNow!-ra optimalizáltan legalább olyan gyorsan fut a jelenleg kapható AMD processzorokon mintha SSE-re lenne optimalizálva. Ráadásul a reciprokszámítás még egy bittel pontosabb is... ;-)
#815 #95904256 törölt tag P.H. #808

Új Válasz 2007-06-07 21:55:55 #815
Új hozzászólás
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra
Privát üzenet küldése

#95904256

törölt tag

válasz P.H. #808 üzenetére

Hali P.H.!

Miután jó egynéhány algoritmuson kipróbáltam a különbséget az SSE és a 3DNow! közt így nem nagyon tudnak meghatni egy harmadik fél dokumentációi alapján történő találgatások. Természetesen lehet találni olyan feladatot ahol az SSE több regiszterben tárolt adat miatt előnyben van (8x4x32bit vs. 8x2x32bit), viszont 3DNow!-ra is lehet találni olyan feladatokat amelyek a DSP jelegű utasítások révén élveznek előnyt.

A reciprokos dolgot meg próbáld ki... Igazam lesz...
#826 #95904256 törölt tag P.H. #825

Új Válasz 2007-06-07 23:01:33 #826
Új hozzászólás
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra
Privát üzenet küldése

#95904256

törölt tag

válasz P.H. #825 üzenetére

Ismerős dokumentáció. A végrehajtási időket nézegetve valóban úgy tűnik hogy az 1 darab 128 bites SSE művelet ( amit a processzor 2 darab 64 bites műveletként hajt végre ) azonos futásidőt produkál 2 darab különálló 64 bites 3DNow! művelettel. Azonban a 3DNow! kód ( ahol már program szinten két önálló utasítás van ) mérhetően gyorsabban fut le. A különbség nem drasztikus, csak néhány százalék.

Utána néztem a dokumentációkban reciprokos dolognak is.

3DNow! PFRCP pontossága: 14 bit
( AMD 21928 3DNow! Technology Manual )
Bár nekem néha csak 13 bites pontosságot sikerült kimérnem.

SSE RCPPS/RCPSS pontossága: |relativ.hiba| < 1,5*2^-12
( Intel 25366718 IA-32 Instruction Set )
Ez meg bizony csak 11-12 bitnyi pontosságot garantál.

Megjegyzés: Az AMD processzorok SSE reciprokképzés estén NEM a 3DNow! pontosságot hozzák.
#830 #95904256 törölt tag Rive #829

Új Válasz 2007-06-08 10:12:44 #830
Új hozzászólás
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra
Privát üzenet küldése

#95904256

törölt tag

válasz Rive #829 üzenetére

A Transmeta mostanában abból él hogy a Longrun2 technológiáját és egyébb ''energy-efficient'' megoldásokat próbál eladni. Ha jól tudom akkor az Efficeon processzort megvették tőle és még gyártják valahol Tajvan környékén, különféle beágyazott rendszerekhez. A Linux guru Linus Torvalds-tól meg békében elváltak, miután éveken keresztül 100 millió dolláros veszteségeket produkált a cég. Azóta talán nyereségesek, de valami minimális árbevétellel.

szerk: A honlapjukon olyasmi szerepel hogy a cég vagyona kb. 26 millió dollár és folytatják az adóság törlesztését...

[Szerkesztve]
#835 #95904256 törölt tag Raymond #833

Új Válasz 2007-06-08 13:27:53 #835
Új hozzászólás
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra
Privát üzenet küldése

#95904256

törölt tag

válasz Raymond #833 üzenetére

AMD Platform Power Estimator: [link]
4/68/150/32/20000/9/200%/0.25 --> $468,782,640.00 megtakarítás, és ez a plafon...

szerk: AMD mindenre gondol, játék hülye gyerekeknek.

[Szerkesztve]
#836 #95904256 törölt tag

Új Válasz 2007-06-08 15:02:07 #836
Új hozzászólás
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra
Privát üzenet küldése

#95904256

törölt tag

Múltkor említettétek hogy sikerült az AMD-nek majd 500MHz-zel növelni a K10-es magok frekvenciáit. Szerintem ez összefüggésben lehet a CPU és a memórivazérlő feszültség ellátásának szétbontásával. Lehet hogy ez okoz némi csúszást a megjelenésben? Gondolom az AMD erősen érdekelt abban hogy kifogástalan, mindent legyűrő processzor kerüljön piacra, különben nem fogja tudni visszaszerezni az elmúlt hónapokban elvesztett piaci részesedését.
#877 #95904256 törölt tag P.H. #874

Új Válasz 2007-06-09 15:26:31 #877
Új hozzászólás
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra
Privát üzenet küldése

#95904256

törölt tag

válasz P.H. #874 üzenetére

Reciprok letesztelve, tessék megkapaszkodni !!!

Teszthez használt CPU-k:
AMD X2 3600+ Windsor (1800@2400MHz)
Intel E4300 Allendale (1800@3200MHz)

Mérés:
31 bites prímszámok reciprokképzése
AMD 3DNow!, PFRCP 32 bit <-> FIDIV 80 bit
AMD SSE, RCPSS 32 bit <-> FIDIV 80 bit
Intel SSE, RCPSS 32 bit <-> FIDIV 80 bit

Mérés beállítások:
FPU, SSE: Kerekítés a legközelebbi egészhez, egyenlőség esetén pároshoz.
FPU: extended ( 80 bites ) pontosság

Eredmény:
Az esetek túlnyomó többségében mindhárom eredmény eltér egymástól.

Példa:
IEEE734 formátumú reciprok eredmények n=3 -ra.
AMD 3DNow!: 3EAAAA00 ( = 0,33332825 )
AMD SSE: 3EAAA800 ( = 0,3331299 )
Intel SSE: 3EAAA000 ( = 0,33325195 )

Hogy mindhárom eredmény eltért, nos ez erősen meglepett. Ezért a keresést kiterjesztettem az összes 31 bites pozitív egész számra. Ekkor jött a még nagyobb meglepetés, ugyanis a legnagyobb hibát az n=1 eset produkálta!

Maximális eltérések:
AMD 3DNow! : 0,00003051758 ( hiba = 1/32767 -> épp nincs meg a 14 bit )
AMD SSE: 0,000244140625 ( hiba = 2 ^ -12 -> 11 bit mindig jó)
Intel SSE: 0,000244140625 ( hiba = 2 ^ -12 -> 11 bit mindig jó)

Megjegyzés:
Az AMD SSE eredmények mikor eltértek az Intel eredményektől, mindig pontosabbak voltak.

Szerk.: A Newton-Raphson iteráció használható SSE esetén is, csak akkor manuálisan kell leprogramozni. Nem igényel több regisztert, csak eggyel több memória műveletet. Xb=Xa*(2-N*Xa), ahol Xa az N reciprok közelítő értéke. Ez egy körben megduplázza a hasznos bitek számát. Ami azt jelenti hogy az SSE 11 bites pontosságát nem lehet egy körben 24 bites mantissza méretre ( single precision ) interpolálni.

[Szerkesztve]
#887 #95904256 törölt tag P.H. #885

Új Válasz 2007-06-10 08:00:33 #887
Új hozzászólás
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra
Privát üzenet küldése

#95904256

törölt tag

válasz P.H. #885 üzenetére

Valószínű hogy az Intel is look-up ol, csak spórolósabban. A 14 bites mantisszához elég egy 16kB-os ROM, illetve a kitevőhöz kell még egy 128 bájtos. Az SSE esetén elég 4kB/128. Egy iterátor áramkörnek legalább 1-2 szorzásra lenne szüksége, ami még ha egy ciklusos is ( 12 bites szorzó ) nem lenne gyorsabb a ROM-os megoldásnál, valamint helyet sem spórolna.

Az AMD illetve Intel eredmények közti különbség is a look-up tábla méretéből adódhat. Az RCPxS-nél a mantissza 24 bitjéből az alsó 12-ő törlődik, viszont az AMD-nek megvan a lehetősége hogy az utolsó megmaradó bitet kerekítse.