- Azonnali informatikai kérdések órája
- Befutottak a Samsung 990 EVO Plus SSD-k
- Intel Core i5 / i7 / i9 "Alder Lake-Raptor Lake/Refresh" (LGA1700)
- Vezeték nélküli fülhallgatók
- Milyen billentyűzetet vegyek?
- Milyen videókártyát?
- AMD Navi Radeon™ RX 9xxx sorozat
- Először égett le egy újságnál a GeForce RTX 5090
- HiFi műszaki szemmel - sztereó hangrendszerek
- TCL LCD és LED TV-k
Új hozzászólás Aktív témák
-
P.H.
senior tag
válasz
hugo chávez #98 üzenetére
Ha ennyire kisarkítva nézed, akkor 256 bites AVX esetén igen, ennyi. De nem minden fekete-fehér. Ahogy linkelted is:
"When Intel introduced SSE2 in the P4, each 128-bit instruction was cracked into two 64-bit uops, and the throughput did not substantially improve. This created a chicken and egg problem: Intel wanted developers to use SSE2 (since the P4 was not designed to execute x87 particularly fast), but developers do not want to rewrite or recompile code for a marginal gain.Sandy Bridge can sustain a full 16 single precision FLOP/cycle or 8 double precision FLOP/cycle – double the capabilities of Nehalem. This guarantees that software which uses AVX will actually see a substantial performance advantage on Sandy Bridge and should spur faster adoption. Intel seems to have learned from the lessons of SSE2 and hopefully, the uptake for AVX amongst the software community will be far swifter."
Adott mindkét oldalon egy-egy 128 bites FPU, külön FADD és FMUL futtató egységekkel: el kellett dönteni, hogy az igen nagy mennyiségű plusz tranzisztort (és az általuk igényelt plusz fogyasztást) mibe fektetik:
- az AMD a 128 bites végrehajtásra és a meglevő programokra helyezte a hangsúlyt: két majdnem azonos képességű FADD+FMUL végrehajtót tettek az FPU-ba, pontosan úgy, ahogy eddig a K7-K10 családban 3 majdnem azonos ALU+AGU van; így teljesen mindegy, hogy a programban milyen az FADD- és FMUL-jellegű utasítások aránya (eddig nagyon nem volt az). Ezt megfejelték azzal, hogy a register-to-register értékmásolás (amik nagy része az AVX alatt feleslegessé válik, de SSEx alatt elég sok van, mivel egy-egy művelet felülírja az egyik paraméterét) 0 órajelet igényel, a registerfile megoldja saját hatáskörben (órajelenként 4-et, ha minden igaz).
Az AVX-es programokat nem túl hatékonyan hajtja végre, de az SSEx-alapúak végrehajtását eléggé felgyorsítja.- az Intel maradt az 1 FADD + 1 FMUL futtatóegység felépítésnél, ezt látták 256 bites végrehajtókkal, felhasználva hozzá a meglevő integer adatutat is, illetve hozzáadva egy kis energiatakarékosságot (innen):
Floating point warm-up effect
The latencies and throughputs of floating point vector operations is varying according to the processor load. The ideal latency is 3 clock cycles for a floating point vector addition and 5 clock cycles for a vector multiplication regardless of the vector size. The ideal throughput is one vector addition and one vector multiplication per clock cycle. These ideal numbers are obtained only after a warm-up period of several hundred floating point instructions.
The processor is in a cold state when it has not seen any floating point instructions for a while. The latency for 256-bit vector additions and multiplications is initially two clocks longer than the ideal number, then one clock longer, and after several hundred floating point instructions the processor goes to the warm state where latencies are 3 and 5 clocks respectively. The throughput is half the ideal value for 256-bit vector operations in the cold state. 128-bit vector operations are less affected by this warm-up effect. The latency of 128-bit vector additions and multiplications is at most one clock cycle longer than the ideal value, and the throughput is not reduced in the cold state.
The cold state does not affect division, move, shuffle, Boolean and other vector instructions.
There is no official explanation for this warm-up effect yet, but my guess is that the processor can turn off some of the most expensive execution resources to save power, and turn on these resources only when the load is heavy. Another possible explanation is that half the execution resources are initially allocated to the other thread running in the same core.
Mindkettő kihozza a maximumot a 32 nm-es lehetőségekből, mivel mindkettő szinte megduplázza az FPU fizikai méretét. Az AMD annyival van könnyebb helyzetben, hogy mivel a korábbi - K8-alapú - FPU-kat arra tervezte, hogy minden 128 bites utasítás 2x 64 bitesre fordítódik és hajtódik végre, így amikor 128 bitesre bővítette azt, akkor az FPU "kiürült", azonos végrehajtási sebességhez feleannyi belső uop-műveletet kap. Ezt most kitömik a 2. szállal.
-
Oliverda
félisten
válasz
hugo chávez #98 üzenetére
Már csak alkalmazás kellene ami egyáltalán használja az AVX-et.
-
hugo chávez
aktív tag
Már elkezdtem írni a nem túl pozitív
véleményemet a slide-ról, de látom, hogy P.H. megelőzött, mindegy, azért köszi
(#96) P.H.:
Hát akkor ennyi, azonos FPU órajelen, 256 bites AVX kód esetén a 4 magos Sandy dupla akkora peak teljesítményre képes, mint egy 8 magos (4 modulos) Bulldozer
-
nuke7
veterán
válasz
antikomcsi #89 üzenetére
-
P.H.
senior tag
válasz
hugo chávez #93 üzenetére
Erről az ábráról van szó.
Nincs újabb, 4 magos Sandy Bridge-dzsel és 8 modulos Bulldozerrel számoltak, így jönnek ki az értékek: felszorozták az FPU-darabszámmal a névleges teljesítményt, mivel X6-hoz 48-at írnak, ami ott 8 FLOPS/mag=FPU, a K10 órajelenként 2 4xSP bites műveletet tud. A Bulldozer szintúgy, tehát a 64 FLOPS-hoz 8 Bulldozer-FPU kell. Így nézve kijön, hogy azonos magszám (4) mellett a Sandy Bridge 256 bites műveleteknél 2x akkora teljesítményt hoz, mint 128 biten, a 8 modulos (mindkét esetben 2 művelet/órajel), 16 magos Bulldozer pedig konstant 64 FLOPS-ot.
Hogy miért így hasonlított össze az AMD, azt ők tudják...
-
Abu85
HÁZIGAZDA
válasz
hugo chávez #93 üzenetére
Ez a legutolsó Flex FP összefoglaló. Szokás szerint apró betűs rész nélkül.
-
hugo chávez
aktív tag
Neked van valami frissebb, vagy részletesebb anyagod a modulonkénti FLOP/ciklus-ról?
Mert az Oliverda által írt cikkben a slide-okon az van, hogy a 16 magos (2x4 modulos?) Interlagos 64 FLOP/ciklust tud akkor is, ha a két 128 bites FMAC-en két 128 bites utasítás hajtódik végre és akkor is ha egy 256 bites, tehát az a kérdés, hogy itt a FLOP alatt 32 (SP), vagy 64 (DP) bitet értenek-e? Mert, ha 32 bites, akkor azonos FPU órajelen egy 4 magos Sandy ugyanannyi (64) FLOP/ciklust tud, mint egy 16 magos Interlagos, ami nem túl jó előjel a 8 magos Zambezi lebegőpontos teljesítményére nézve. Jó, az FMA valószínűleg valamennyit fog dobni a tényleges sebességen, de ennek mértéke jelenleg nem ismert, szóval akár egészen kicsi is lehet. -
hohoo
senior tag
válasz
dízelracer #79 üzenetére
Aha tehát rosszabb lesz mint a phenom2? okos megállapítás
-
Abu85
HÁZIGAZDA
válasz
hugo chávez #90 üzenetére
Akkor az IB lehet, hogy bővít, majd meglátjuk.
A Bulldozer az FMUL+FADD-nál nem tiszta, hogy hogyan működik. Az AMD FLOP/ciklus paramétereit nézve, csupán annyi derül ki, hogy a modul FLOP/ciklus teljesítménye megegyezik az SB mag FLOP/ciklus teljesítményével. Persze a trükk mindig az apró betűs részben van elrejtve.
-
hugo chávez
aktív tag
"Maga az AVX utasításkészlet ugyanaz az SB-ben és ugyanaz lesz az IB-ben..."
Lehet, hogy az IB-ben bővítenek az AVX utasításkészleten, mert vannak erre utaló jelek:
"These build upon the instructions coming in Intel® microarchitecture code name Ivy Bridge, including the digital random number generator, half-float (float16) accelerators, and extend the Intel® Advanced Vector extensions (Intel® AVX) that launched in 2011." [link]
és
"Q: Is there a version of Intel Compiler available that supports Intel AVX?
A: Yes, the current Intel Compiler supports the Intel AVX instructions. This version also includes support for SSE4, AES and PCLMULQDQ instructions. To use the post-32nm new instructions for the processor codenamed Ivybridge, it is required that you use Intel(R) Parallel Composer 2011 Update 2 or Intel(R) Composer XE 2011 Update 2. The compiler version is 12.0.2.x." [link]persze biztosat csak akkor lehet tudni, ha az Intel kiad egy hivatalos közleményt.
"A 256 bites utasítás esetében nem lesz különbség, egy-egy utasítás lehetséges a Bulldozer modulban és az SB/IB magban. Mindezt órajelenként persze."
A Sandy magonként egy 256 bites FADD-ot és egy 256 bites FMUL-t tud egyszerre ciklusonként, mint azt fLeSs, P.H. és David Kanter is írta, a Bull pedig nekem úgy tűnik, hogy modulonként csak vagy egy 256 bites FADD-ot, vagy egy 256 bites FMUL-t tud ciklusonként. Mondjuk, Oliverda azt írta a cikkében, hogy a Bull modulokban lesz két 128 bites SIMD Integer egység is és nekem az jött le, hogy ezek az FMAC-ekhez hasonlóan szintén képesek lesznek "összevonva" 256 bites műveletekre. Ezzel szemben az Intelnél a 256 bites integer műveleteket majd csak a Haswell fogja tudni az AVX2 utasításkészlettel.
-
antikomcsi
veterán
Szerintem be is fejezhetjük az offolást, úgysincs értelme annak, amit csinálunk.
Üdv, Nektek!
-
Zeratul
addikt
válasz
antikomcsi #86 üzenetére
Emlékeim szerint viszont ez a királyság nagyon rövid volt, hisz a 9800GX2 nem tűrte az ellentmondást senkitől.
Csak amíg a 3800x2-n nyeresége volt az AMDnek addig a 9800GX2 a gyártási költségeket se fedezte. A 4800x2 ellen már nem is volt ellenszere az nVidiának, a legutóbbi dupla GPUs próbálkozása meg inkább szánalmas lett mint sikeres.
-
Remus389
veterán
válasz
antikomcsi #86 üzenetére
a 3800-as szeria akkor is siker volt, megha mersekeltebb siker, de siker
szegeny nvidianak is lejjebb kellett vinnie a viszonylag dragan gyarthato 8800gt arat es ki kellett hozni az egychipes 3850/70-esek ellen a 9600gt-t, mert megirigyelte az amd sikereit a kozepkategoriaban(ahol a legtobb karesz fogy).
egyszoval a 3800-asok is sikeresek voltak a maguk arszegmenseben
-
antikomcsi
veterán
Úgy látom az eltelt idő megszépítette az emlékeidet.
A 3850/70 akkor fogyott volna még jobban, ha nem ég a nép 8800GT lázban. Nem sok lehetőségük volt labdába rúgni.
A korona meg presztízs kérdés, nincs sok jelentősége számunkra, az mindig vándorol egyik fejről a másikra.
A 3870X2 valóban legyűrte a nála legalább másfél évvel idősebb 8800GTX-et, tulajdonképpen itt lépett rá az AMD a másik ösvényre. Egy gpu-val nem tudott lépést tartani, ezért inkább úgy döntöttek, hogy a csúcson 2 db. egyszerűbb, olcsóbb tervezési és gyártási költségű lapkát küld harcba egy nyákon.
Emlékeim szerint viszont ez a királyság nagyon rövid volt, hisz a 9800GX2 nem tűrte az ellentmondást senkitől.
(#85) R.Zoli
Ha az egyik cégnek részvényese lehetnék, én mégis inkább az nv-nél állnék sorba osztalék fizetéskor, ha fényesen áll, ha nem.
(#84) nuke7
6600GT - 7600GT - 8800GTS 320/640 - 8800GT 512 - GTX260 - GTX460
Igen, ezek mind valóban sz@rok voltak, senki nem akart ilyet. -
R.Zoli
őstag
válasz
antikomcsi #80 üzenetére
Azért NV tényleg nem áll fényesen. Leggyorsabb VGA címet is elég régóta nem uralták folyamatosan, die size/performance arányban is gyengék, illetve mobil platformban is veri őket az AMD, pedig a mobil a legdinamikusabban fejlődő ág és akkor a fusion-ről nem is beszéltem... A legjobb példa az MXM modulos high-end mobil chipek ahol is a 6990M 75 wattos keretből átlagban 15%-kal elveri az NV zászlósát... Egyébként meg a HPC piacon az NV nem egyeduralkodó, azért használtak már Radeonokat is etéren, tény ,hogy van előnye de még ez is könnyen romba dőlhet a 7000-es széria megjelenésével,mert az sokkal fejlettebbnek ígérkezik amit az NV évek múlva tervez majd.
-
nuke7
veterán
igen, erre gondoltam, csak már késő volt, hogy rendesen fogalmazzak
(#80) antikomcsi: egyet kell, hogy értsek az előttem szóló remusz-szal, ugyanis rendre a 3870x2 és 4870x2 állva hagyta a nvidia játékos kártyáit...
és most mondthatod azt, hogy az nvidia előrébb jár, mert ők a hpc piacon is jelen vannak, de ha nem bírtak normális játékos kártyát összehozni jó áron 2-3 "generácio" alatt, akkor most ki van előrébb?- nem lehet, hogy az amd csak tényleg egy másik piacra koncentrált, ahol át is vette a vezetést..?
-
Remus389
veterán
válasz
antikomcsi #80 üzenetére
tévedsz mert a 3800-as széria igen komoly siker volt, és a koronát is elhódították az nvidiától a 3870X2 személyében, és a 3850/70-es karik szép számmal fogytak
a 4800-as pedig nemcsak komoly siker volt, hanem kb szenzációs
-
Abu85
HÁZIGAZDA
Ezt nem teljesen értem, szerintem valamit félreértettél ezzel kapcsolatban. Maga az AVX utasításkészlet ugyanaz az SB-ben és ugyanaz lesz az IB-ben, mint a Bulldozerre épülő AMD processzorokban. Ami különbség lesz az AVX kezelésben, hogy egy Bulldozer modul két 128 bites AVX utasítást is megcsinál, míg a Sandy Bridge és az Ivy Bridge mag egyre képes. A 256 bites utasítás esetében nem lesz különbség, egy-egy utasítás lehetséges a Bulldozer modulban és az SB/IB magban. Mindezt órajelenként persze.
A Bulldozer az FMA4 támogatásban és az XOP utasításkészletben tart előrébb. Ebből az FMA4 a lényeges. Az Intel az FMA3-at vezeti be a Haswellben, amire az AMD válaszol egy kompatibilis FMA3-mal a NG Bulldozerben, miközben a programozhatóság rugalmasságát szem előtt tartva megőrzik az FMA4-et is. -
RyanGiggs
őstag
válasz
dízelracer #79 üzenetére
"...2x annyi maggal"... és több fogyasztással. (szerintem)
Már nagyon kíváncsi vagyok erre a Bull-ra...lehet végül i5-2500K-t veszek?! -
antikomcsi
veterán
Itt most nem csúcs kategóriás dolgokról volt szó, vagy gpu felépítésről tranzisztorról-tranzisztorra. Csupán fejlesztésről. Az nv ebben előrébb jár, és már betette arra a piacra a lábát, ahova az AMD eddig nem tudta.
Viszont ha minden jól megy a 7000-es széria, vagy annak néhány tagja már alkalmas lesz a gpu-t olyan számítási feladatokra befogni amire eddig nem lehetett. És mivel az nv már most gennyesre kereste magát e téren, ez szerintem lemaradásnak fogható fel.
Erről lenne szó, nem az odapörkölésről.
Amúgy meg a 2900XT az egyenesen bukta volt, a 3000-es sorozat nem tudta felvenni a versenyt rendesen, a 4000-es sorozat már jobb volt, rögtön ennek kellett volna jönni a 3000-esek helyett, ezek is nagyjából annyival voltak olcsóbbak, mint amennyivel lassabbak voltak a konkurenciánál. Ami jól sikerült marketingileg az az 5000-es kártyák dx11-es hájpolásának meglovagolása, de sajnos túl sok hasznot az sem hozott kezdetben az ismert problémák miatt.
-
dízelracer
őstag
Tartok tőle, hogy ez bizony kevés lesz a Sandy Bridge i5/i7 ellen vagy maximum azonos teljesítményt nyújt majd 2x annyi maggal.
Új hozzászólás Aktív témák
Hirdetés
- EAFC 25
- HBO Max
- Geri Bátyó: Megint tahó voltam – SZEMÉLYISÉGFEJLŐDÉS
- Azonnali informatikai kérdések órája
- sh4d0w: Netflix? Ugyan, VW előfizetés!
- iPhone-t használók OFF topikja
- Befutottak a Samsung 990 EVO Plus SSD-k
- Intel Core i5 / i7 / i9 "Alder Lake-Raptor Lake/Refresh" (LGA1700)
- Autós topik
- Elektromos autók - motorok
- További aktív témák...
- i3-8100 -4 x3,6 ghz
- AMD Ryzen 5 3600 BOX - Új, 3 év garancia - Eladó!
- Intel Core i5-14500 14-Core 2.6GHz LGA1700 (24M Cache, up to 5.00 GHz) Processzor!
- BESZÁMÍTÁS! Intel Core i7 4770 4mag 8szál processzor garanciával hibátlan működéssel
- I5-13400F 2x16 GB RAM SEASONIC 750W TÁP GIGABYTE GA-B760M ZALMAN Z1 PLUS HÁZ GARANCIA!!!!!
- BESZÁMÍTÁS! ASROCK B550 R5 3600 16GB DDR4 250GB SSD 1TB HDD RX 5700 XT 8GB CM MasterBox MB500 700W
- HP Elite / ZBook Thunderbolt 3 docking station
- Gamer PC-Számítógép! Csere-Beszámítás! Mini PC! I5 10600KF / RTX 3060 12GB/ 16GB DDR4 / 1TB SSD
- ÚJ Lenovo LOQ 15IRX9 - QHD 165Hz - i7-13650HX - 16GB - 1TB - RTX 4060 - Win11 - 3 év garancia - HUN
- ÁRGARANCIA!Épített KomPhone i5 14400F 16/32/64GB RAM RX 9060 XT 16GB GAMER PC termékbeszámítással
Állásajánlatok
Cég: FOTC
Város: Budapest