[Re:] Szivárgások az AMD FX processzorok paramétereiről

Legfrissebb anyagok

PROHARDVER! témák

Mobilarena témák

IT café témák

GAMEPOD témák

LOGOUT témák

Új hozzászólás Aktív témák

#100 P.H. senior tag hugo chávez #98

Új Válasz 2011-07-17 23:16:14 #100
Új hozzászólás
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra
Privát üzenet küldése

P.H.

senior tag

válasz hugo chávez #98 üzenetére

Ha ennyire kisarkítva nézed, akkor 256 bites AVX esetén igen, ennyi. De nem minden fekete-fehér. Ahogy linkelted is:
"When Intel introduced SSE2 in the P4, each 128-bit instruction was cracked into two 64-bit uops, and the throughput did not substantially improve. This created a chicken and egg problem: Intel wanted developers to use SSE2 (since the P4 was not designed to execute x87 particularly fast), but developers do not want to rewrite or recompile code for a marginal gain.
Sandy Bridge can sustain a full 16 single precision FLOP/cycle or 8 double precision FLOP/cycle – double the capabilities of Nehalem. This guarantees that software which uses AVX will actually see a substantial performance advantage on Sandy Bridge and should spur faster adoption. Intel seems to have learned from the lessons of SSE2 and hopefully, the uptake for AVX amongst the software community will be far swifter."
Adott mindkét oldalon egy-egy 128 bites FPU, külön FADD és FMUL futtató egységekkel: el kellett dönteni, hogy az igen nagy mennyiségű plusz tranzisztort (és az általuk igényelt plusz fogyasztást) mibe fektetik:
- az AMD a 128 bites végrehajtásra és a meglevő programokra helyezte a hangsúlyt: két majdnem azonos képességű FADD+FMUL végrehajtót tettek az FPU-ba, pontosan úgy, ahogy eddig a K7-K10 családban 3 majdnem azonos ALU+AGU van; így teljesen mindegy, hogy a programban milyen az FADD- és FMUL-jellegű utasítások aránya (eddig nagyon nem volt az). Ezt megfejelték azzal, hogy a register-to-register értékmásolás (amik nagy része az AVX alatt feleslegessé válik, de SSEx alatt elég sok van, mivel egy-egy művelet felülírja az egyik paraméterét) 0 órajelet igényel, a registerfile megoldja saját hatáskörben (órajelenként 4-et, ha minden igaz).
Az AVX-es programokat nem túl hatékonyan hajtja végre, de az SSEx-alapúak végrehajtását eléggé felgyorsítja.
- az Intel maradt az 1 FADD + 1 FMUL futtatóegység felépítésnél, ezt látták 256 bites végrehajtókkal, felhasználva hozzá a meglevő integer adatutat is, illetve hozzáadva egy kis energiatakarékosságot (innen):
Floating point warm-up effect
The latencies and throughputs of floating point vector operations is varying according to the processor load. The ideal latency is 3 clock cycles for a floating point vector addition and 5 clock cycles for a vector multiplication regardless of the vector size. The ideal throughput is one vector addition and one vector multiplication per clock cycle. These ideal numbers are obtained only after a warm-up period of several hundred floating point instructions.
The processor is in a cold state when it has not seen any floating point instructions for a while. The latency for 256-bit vector additions and multiplications is initially two clocks longer than the ideal number, then one clock longer, and after several hundred floating point instructions the processor goes to the warm state where latencies are 3 and 5 clocks respectively. The throughput is half the ideal value for 256-bit vector operations in the cold state. 128-bit vector operations are less affected by this warm-up effect. The latency of 128-bit vector additions and multiplications is at most one clock cycle longer than the ideal value, and the throughput is not reduced in the cold state.
The cold state does not affect division, move, shuffle, Boolean and other vector instructions.
There is no official explanation for this warm-up effect yet, but my guess is that the processor can turn off some of the most expensive execution resources to save power, and turn on these resources only when the load is heavy. Another possible explanation is that half the execution resources are initially allocated to the other thread running in the same core.
Mindkettő kihozza a maximumot a 32 nm-es lehetőségekből, mivel mindkettő szinte megduplázza az FPU fizikai méretét. Az AMD annyival van könnyebb helyzetben, hogy mivel a korábbi - K8-alapú - FPU-kat arra tervezte, hogy minden 128 bites utasítás 2x 64 bitesre fordítódik és hajtódik végre, így amikor 128 bitesre bővítette azt, akkor az FPU "kiürült", azonos végrehajtási sebességhez feleannyi belső uop-műveletet kap. Ezt most kitömik a 2. szállal.
#99 Oliverda félisten hugo chávez #98

Új Válasz 2011-07-17 23:06:30 #99
Új hozzászólás
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra
Privát üzenet küldése

Oliverda

félisten

válasz hugo chávez #98 üzenetére

Már csak alkalmazás kellene ami egyáltalán használja az AVX-et.
#98 hugo chávez aktív tag Abu85 #94

Új Válasz 2011-07-17 22:50:59 #98
Új hozzászólás
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra
Privát üzenet küldése

hugo chávez

aktív tag

válasz Abu85 #94 üzenetére

Már elkezdtem írni a nem túl pozitív véleményemet a slide-ról, de látom, hogy P.H. megelőzött, mindegy, azért köszi
(#96) P.H.:
Hát akkor ennyi, azonos FPU órajelen, 256 bites AVX kód esetén a 4 magos Sandy dupla akkora peak teljesítményre képes, mint egy 8 magos (4 modulos) Bulldozer
#97 nuke7 veterán antikomcsi #89

Új Válasz 2011-07-17 22:39:02 #97
Új hozzászólás
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra
Privát üzenet küldése

nuke7

veterán

válasz antikomcsi #89 üzenetére
#96 P.H. senior tag hugo chávez #93

Új Válasz 2011-07-17 22:22:33 #96
Új hozzászólás
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra
Privát üzenet küldése

P.H.

senior tag

válasz hugo chávez #93 üzenetére

Erről az ábráról van szó.
Nincs újabb, 4 magos Sandy Bridge-dzsel és 8 modulos Bulldozerrel számoltak, így jönnek ki az értékek: felszorozták az FPU-darabszámmal a névleges teljesítményt, mivel X6-hoz 48-at írnak, ami ott 8 FLOPS/mag=FPU, a K10 órajelenként 2 4xSP bites műveletet tud. A Bulldozer szintúgy, tehát a 64 FLOPS-hoz 8 Bulldozer-FPU kell. Így nézve kijön, hogy azonos magszám (4) mellett a Sandy Bridge 256 bites műveleteknél 2x akkora teljesítményt hoz, mint 128 biten, a 8 modulos (mindkét esetben 2 művelet/órajel), 16 magos Bulldozer pedig konstant 64 FLOPS-ot.
Hogy miért így hasonlított össze az AMD, azt ők tudják...
#95 dízelracer őstag hohoo #92

Új Válasz 2011-07-17 22:19:39 #95
Új hozzászólás
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra

dízelracer

őstag

válasz hohoo #92 üzenetére

Aha tehát a phenom2 erősebb mint a Sandy Bridge i5/i7. Okos megállapítás.
#94 Abu85 HÁZIGAZDA hugo chávez #93

Új Válasz 2011-07-17 22:14:38 #94
Új hozzászólás
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra
Privát üzenet küldése

Abu85

HÁZIGAZDA

válasz hugo chávez #93 üzenetére

Ez a legutolsó Flex FP összefoglaló. Szokás szerint apró betűs rész nélkül.
#93 hugo chávez aktív tag Abu85 #91

Új Válasz 2011-07-17 22:04:39 #93
Új hozzászólás
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra
Privát üzenet küldése

hugo chávez

aktív tag

válasz Abu85 #91 üzenetére

Neked van valami frissebb, vagy részletesebb anyagod a modulonkénti FLOP/ciklus-ról?
Mert az Oliverda által írt cikkben a slide-okon az van, hogy a 16 magos (2x4 modulos?) Interlagos 64 FLOP/ciklust tud akkor is, ha a két 128 bites FMAC-en két 128 bites utasítás hajtódik végre és akkor is ha egy 256 bites, tehát az a kérdés, hogy itt a FLOP alatt 32 (SP), vagy 64 (DP) bitet értenek-e? Mert, ha 32 bites, akkor azonos FPU órajelen egy 4 magos Sandy ugyanannyi (64) FLOP/ciklust tud, mint egy 16 magos Interlagos, ami nem túl jó előjel a 8 magos Zambezi lebegőpontos teljesítményére nézve. Jó, az FMA valószínűleg valamennyit fog dobni a tényleges sebességen, de ennek mértéke jelenleg nem ismert, szóval akár egészen kicsi is lehet.
#92 hohoo senior tag dízelracer #79

Új Válasz 2011-07-17 20:33:31 #92
Új hozzászólás
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra

hohoo

senior tag

válasz dízelracer #79 üzenetére

Aha tehát rosszabb lesz mint a phenom2? okos megállapítás
#91 Abu85 HÁZIGAZDA hugo chávez #90

Új Válasz 2011-07-17 19:45:06 #91
Új hozzászólás
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra
Privát üzenet küldése

Abu85

HÁZIGAZDA

válasz hugo chávez #90 üzenetére

Akkor az IB lehet, hogy bővít, majd meglátjuk.
A Bulldozer az FMUL+FADD-nál nem tiszta, hogy hogyan működik. Az AMD FLOP/ciklus paramétereit nézve, csupán annyi derül ki, hogy a modul FLOP/ciklus teljesítménye megegyezik az SB mag FLOP/ciklus teljesítményével. Persze a trükk mindig az apró betűs részben van elrejtve.
#90 hugo chávez aktív tag Abu85 #82

Új Válasz 2011-07-17 19:14:33 #90
Új hozzászólás
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra
Privát üzenet küldése

hugo chávez

aktív tag

válasz Abu85 #82 üzenetére

"Maga az AVX utasításkészlet ugyanaz az SB-ben és ugyanaz lesz az IB-ben..."
Lehet, hogy az IB-ben bővítenek az AVX utasításkészleten, mert vannak erre utaló jelek:
"These build upon the instructions coming in Intel® microarchitecture code name Ivy Bridge, including the digital random number generator, half-float (float16) accelerators, and extend the Intel® Advanced Vector extensions (Intel® AVX) that launched in 2011." [link]
és
"Q: Is there a version of Intel Compiler available that supports Intel AVX?
A: Yes, the current Intel Compiler supports the Intel AVX instructions. This version also includes support for SSE4, AES and PCLMULQDQ instructions. To use the post-32nm new instructions for the processor codenamed Ivybridge, it is required that you use Intel(R) Parallel Composer 2011 Update 2 or Intel(R) Composer XE 2011 Update 2. The compiler version is 12.0.2.x." [link]
persze biztosat csak akkor lehet tudni, ha az Intel kiad egy hivatalos közleményt.
"A 256 bites utasítás esetében nem lesz különbség, egy-egy utasítás lehetséges a Bulldozer modulban és az SB/IB magban. Mindezt órajelenként persze."
A Sandy magonként egy 256 bites FADD-ot és egy 256 bites FMUL-t tud egyszerre ciklusonként, mint azt fLeSs, P.H. és David Kanter is írta, a Bull pedig nekem úgy tűnik, hogy modulonként csak vagy egy 256 bites FADD-ot, vagy egy 256 bites FMUL-t tud ciklusonként. Mondjuk, Oliverda azt írta a cikkében, hogy a Bull modulokban lesz két 128 bites SIMD Integer egység is és nekem az jött le, hogy ezek az FMAC-ekhez hasonlóan szintén képesek lesznek "összevonva" 256 bites műveletekre. Ezzel szemben az Intelnél a 256 bites integer műveleteket majd csak a Haswell fogja tudni az AVX2 utasításkészlettel.
#89 antikomcsi veterán

Új Válasz 2011-07-17 18:20:27 #89
Új hozzászólás
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra
Privát üzenet küldése

antikomcsi

veterán

Szerintem be is fejezhetjük az offolást, úgysincs értelme annak, amit csinálunk.
Üdv, Nektek!
#88 Zeratul addikt antikomcsi #86

Új Válasz 2011-07-17 18:04:00 #88
Új hozzászólás
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra
Privát üzenet küldése

Zeratul

addikt

válasz antikomcsi #86 üzenetére

Emlékeim szerint viszont ez a királyság nagyon rövid volt, hisz a 9800GX2 nem tűrte az ellentmondást senkitől.
Csak amíg a 3800x2-n nyeresége volt az AMDnek addig a 9800GX2 a gyártási költségeket se fedezte. A 4800x2 ellen már nem is volt ellenszere az nVidiának, a legutóbbi dupla GPUs próbálkozása meg inkább szánalmas lett mint sikeres.
#87 Remus389 veterán antikomcsi #86

Új Válasz 2011-07-17 17:47:32 #87
Új hozzászólás
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra
Privát üzenet küldése

Remus389

veterán

válasz antikomcsi #86 üzenetére

a 3800-as szeria akkor is siker volt, megha mersekeltebb siker, de siker
szegeny nvidianak is lejjebb kellett vinnie a viszonylag dragan gyarthato 8800gt arat es ki kellett hozni az egychipes 3850/70-esek ellen a 9600gt-t, mert megirigyelte az amd sikereit a kozepkategoriaban(ahol a legtobb karesz fogy).
egyszoval a 3800-asok is sikeresek voltak a maguk arszegmenseben
#86 antikomcsi veterán Remus389 #83

Új Válasz 2011-07-17 16:00:05 #86
Új hozzászólás
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra
Privát üzenet küldése

antikomcsi

veterán

válasz Remus389 #83 üzenetére

Úgy látom az eltelt idő megszépítette az emlékeidet.
A 3850/70 akkor fogyott volna még jobban, ha nem ég a nép 8800GT lázban. Nem sok lehetőségük volt labdába rúgni.
A korona meg presztízs kérdés, nincs sok jelentősége számunkra, az mindig vándorol egyik fejről a másikra.
A 3870X2 valóban legyűrte a nála legalább másfél évvel idősebb 8800GTX-et, tulajdonképpen itt lépett rá az AMD a másik ösvényre. Egy gpu-val nem tudott lépést tartani, ezért inkább úgy döntöttek, hogy a csúcson 2 db. egyszerűbb, olcsóbb tervezési és gyártási költségű lapkát küld harcba egy nyákon.
Emlékeim szerint viszont ez a királyság nagyon rövid volt, hisz a 9800GX2 nem tűrte az ellentmondást senkitől.
(#85) R.Zoli
Ha az egyik cégnek részvényese lehetnék, én mégis inkább az nv-nél állnék sorba osztalék fizetéskor, ha fényesen áll, ha nem.
(#84) nuke7
6600GT - 7600GT - 8800GTS 320/640 - 8800GT 512 - GTX260 - GTX460
Igen, ezek mind valóban sz@rok voltak, senki nem akart ilyet.
#85 R.Zoli őstag antikomcsi #80

Új Válasz 2011-07-17 15:02:21 #85
Új hozzászólás
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra
Privát üzenet küldése

R.Zoli

őstag

válasz antikomcsi #80 üzenetére

Azért NV tényleg nem áll fényesen. Leggyorsabb VGA címet is elég régóta nem uralták folyamatosan, die size/performance arányban is gyengék, illetve mobil platformban is veri őket az AMD, pedig a mobil a legdinamikusabban fejlődő ág és akkor a fusion-ről nem is beszéltem... A legjobb példa az MXM modulos high-end mobil chipek ahol is a 6990M 75 wattos keretből átlagban 15%-kal elveri az NV zászlósát... Egyébként meg a HPC piacon az NV nem egyeduralkodó, azért használtak már Radeonokat is etéren, tény ,hogy van előnye de még ez is könnyen romba dőlhet a 7000-es széria megjelenésével,mert az sokkal fejlettebbnek ígérkezik amit az NV évek múlva tervez majd.
#84 nuke7 veterán Abu85 #82

Új Válasz 2011-07-17 12:04:08 #84
Új hozzászólás
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra
Privát üzenet küldése

nuke7

veterán

válasz Abu85 #82 üzenetére

igen, erre gondoltam, csak már késő volt, hogy rendesen fogalmazzak
(#80) antikomcsi: egyet kell, hogy értsek az előttem szóló remusz-szal, ugyanis rendre a 3870x2 és 4870x2 állva hagyta a nvidia játékos kártyáit...
és most mondthatod azt, hogy az nvidia előrébb jár, mert ők a hpc piacon is jelen vannak, de ha nem bírtak normális játékos kártyát összehozni jó áron 2-3 "generácio" alatt, akkor most ki van előrébb? - nem lehet, hogy az amd csak tényleg egy másik piacra koncentrált, ahol át is vette a vezetést..?
#83 Remus389 veterán antikomcsi #80

Új Válasz 2011-07-17 11:38:52 #83
Új hozzászólás
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra
Privát üzenet küldése

Remus389

veterán

válasz antikomcsi #80 üzenetére

tévedsz mert a 3800-as széria igen komoly siker volt, és a koronát is elhódították az nvidiától a 3870X2 személyében, és a 3850/70-es karik szép számmal fogytak
a 4800-as pedig nemcsak komoly siker volt, hanem kb szenzációs
#82 Abu85 HÁZIGAZDA nuke7 #78

Új Válasz 2011-07-17 10:59:29 #82
Új hozzászólás
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra
Privát üzenet küldése

Abu85

HÁZIGAZDA

válasz nuke7 #78 üzenetére

Ezt nem teljesen értem, szerintem valamit félreértettél ezzel kapcsolatban. Maga az AVX utasításkészlet ugyanaz az SB-ben és ugyanaz lesz az IB-ben, mint a Bulldozerre épülő AMD processzorokban. Ami különbség lesz az AVX kezelésben, hogy egy Bulldozer modul két 128 bites AVX utasítást is megcsinál, míg a Sandy Bridge és az Ivy Bridge mag egyre képes. A 256 bites utasítás esetében nem lesz különbség, egy-egy utasítás lehetséges a Bulldozer modulban és az SB/IB magban. Mindezt órajelenként persze.
A Bulldozer az FMA4 támogatásban és az XOP utasításkészletben tart előrébb. Ebből az FMA4 a lényeges. Az Intel az FMA3-at vezeti be a Haswellben, amire az AMD válaszol egy kompatibilis FMA3-mal a NG Bulldozerben, miközben a programozhatóság rugalmasságát szem előtt tartva megőrzik az FMA4-et is.
#81 RyanGiggs őstag dízelracer #79

Új Válasz 2011-07-17 10:57:24 #81
Új hozzászólás
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra
Privát üzenet küldése

RyanGiggs

őstag

válasz dízelracer #79 üzenetére

"...2x annyi maggal"... és több fogyasztással. (szerintem)
Már nagyon kíváncsi vagyok erre a Bull-ra...lehet végül i5-2500K-t veszek?!
#80 antikomcsi veterán nuke7 #75

Új Válasz 2011-07-17 10:51:52 #80
Új hozzászólás
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra
Privát üzenet küldése

antikomcsi

veterán

válasz nuke7 #75 üzenetére

Itt most nem csúcs kategóriás dolgokról volt szó, vagy gpu felépítésről tranzisztorról-tranzisztorra. Csupán fejlesztésről. Az nv ebben előrébb jár, és már betette arra a piacra a lábát, ahova az AMD eddig nem tudta.
Viszont ha minden jól megy a 7000-es széria, vagy annak néhány tagja már alkalmas lesz a gpu-t olyan számítási feladatokra befogni amire eddig nem lehetett. És mivel az nv már most gennyesre kereste magát e téren, ez szerintem lemaradásnak fogható fel.
Erről lenne szó, nem az odapörkölésről.
Amúgy meg a 2900XT az egyenesen bukta volt, a 3000-es sorozat nem tudta felvenni a versenyt rendesen, a 4000-es sorozat már jobb volt, rögtön ennek kellett volna jönni a 3000-esek helyett, ezek is nagyjából annyival voltak olcsóbbak, mint amennyivel lassabbak voltak a konkurenciánál. Ami jól sikerült marketingileg az az 5000-es kártyák dx11-es hájpolásának meglovagolása, de sajnos túl sok hasznot az sem hozott kezdetben az ismert problémák miatt.
#79 dízelracer őstag

Új Válasz 2011-07-16 23:42:48 #79
Új hozzászólás
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra

dízelracer

őstag

Tartok tőle, hogy ez bizony kevés lesz a Sandy Bridge i5/i7 ellen vagy maximum azonos teljesítményt nyújt majd 2x annyi maggal.
#78 nuke7 veterán korcsi #76

Új Válasz 2011-07-16 23:35:48 #78
Új hozzászólás
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra
Privát üzenet küldése

nuke7

veterán

válasz korcsi #76 üzenetére

a még ki nem jött uj intel cpu eggyel régebbi avx-et fog tudni hardveresen mint a most megjelenő bulldozer...
#77 hugo chávez aktív tag korcsi #76

Új Válasz 2011-07-16 23:34:37 #77
Új hozzászólás
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra
Privát üzenet küldése

hugo chávez

aktív tag

válasz korcsi #76 üzenetére

Így van, sőt a Sandy magonként 2 256 bites műveletet tud egyszerre, de csak AVX-et támogató kód esetén.