- Vezeték nélküli fülhallgatók
- AMD Ryzen 9 / 7 / 5 / 3 3***(X) "Zen 2" (AM4)
- Apple notebookok
- Mini-ITX
- NVIDIA GeForce RTX 3080 / 3090 / Ti (GA102)
- Fejhallgató erősítő és DAC topik
- TCL LCD és LED TV-k
- AMD K6-III, és minden ami RETRO - Oldschool tuning
- Milyen videókártyát?
- Furcsa processzorrészt kap a Lunar Lake
Hirdetés
-
The Witcher - Jön az 5. évad, ezzel együtt pedig elkaszálták a sorozatot
gp A negyedik szezon forgatása a napokban kezdődött el, kíváncsian várjuk mikor láthatjuk a végeredményt.
-
Nem bírják kiszolgálni az AI energiaigényét
it Az amerikai elektromos hálózat nem bővül elég gyorsan ahhoz, hogy az AI nagy energiaigényét kiszolgálja.
-
Toyota Corolla Touring Sport 2.0 teszt és az autóipar
lo Némi autóipari kitekintés után egy középkategóriás autót mutatok be, ami az észszerűség műhelyében készül.
-
PROHARDVER!
OLVASD VÉGIG ALAPOSAN MIELŐTT ÚJ HOZZÁSZÓLÁST ÍRNÁL!!!
Új hozzászólás Aktív témák
-
dezz
nagyúr
válasz Yutani #16645 üzenetére
Nos, ha folytatni akarod az "ugatást" , meg kell értened, hogy a tipikus IPC az összes utasítás throughputjának átlaga, miközben egy adott alkalmazásban mutatott teljesítmény eltérhet ettől, akár pozitív, akár negatív irányba, attól függően, hogy többségében nagyobb vagy kisebb throughputú utasításokat használ.
Ha pl. CB-s (FP-intenzív) teljesítménytöbbletről beszélünk, az nem "IPC javulás", hanem CB/FP-teljesítmény javulás.
Mivel továbbra is +40%-kal számolod a CB-s teljesítményt is, a #16630-as vonatkozó szorzója és a többi eredmény is hibás, újra kell számolnod.
The Stilt FP-intenzív esetre írt arányszámokat, 2 Zen mag vs. 1 XV modul -> 0,73 x 2 = 1,46 -> +46%. (Ehhez jön majd az SMT által hozott többlet, amit persze még nem tudunk.) Most hogy csak a hasára ütött vagy valós alapja van, nem tudhatjuk, de el lehet számolgatni vele.
Mondhatod, hogy szerinted hasraütés, de nem/te sem tudhatod, hogy FP-intenzív esetben hogy alakul a teljesítménytöbblet.
A scenariókban miért 100 pont az alap? És miért a rosszabbik, 95%-os többmagos skálázódással számolsz AMD esetén?
"Egyébként fogalmam sincs, Stiltnek honnan jött az a 46%, amikor az AMD mindig is 40%-ot említett."
Nem tudom, de nem először írom le, hogyan lehet más az FP-intenzív kóddal jelentkező teljesítménytöbblet, mint a tipikus IPC növekedés.
(#16640) Simid: #16605
-
Balala2007
tag
válasz Petykemano #16648 üzenetére
Jaguarnak 2
3, mint PProtol Penrynig, K7-tol K12-ig, meg Bonnell + Silvermont. 2clk-os L1D-je a Northwoodnak volt legutobb, azelott meg csak Socket7-eseknek.
nem tudom, hogy mi a jelentősége, hatása, hogy az AGU-k egy része ALU funkciókat is ellát.
Duplazodik az integer throughput. Clk-onkent 2x annyi fuggetlen egesz muvelet hajtodhat vegre,miért elég a Zennek 4 ALU + 2 AGU ?
Ki mondta, h eleg? Hoztak egy dontest a statisztikak, az energiakeret, a felulethasznalat, meg meg ki tudja milyen szempontok alapjan. Kompromisszum, mint minden ilyen.Esetleg arra gondolsz, hogy a K7-K12 korszakban 3 AGU volt? Ez ugyan jol nezett ki, de 3 dolog durvan behatarolta: az L1D ezekben mindig csak 2 portos volt, masreszt nem tudtak az AGU queue-k kozott ugralni az assignolt uop-ok, harmadreszt ott meg nem volt spekulativ a memoriakezeles.
Vagy esetleg arra, hogy HSW-SKL vonalon a Port2-3-7 AGU a 2R+1W portos L1D-hez? Ez igaz, de a Port7 csak az egyszeru, index regiszter nelkuli cimszamitasokat tudja (HSW-ben meg biztosan, nem tudom ezt fixaltak-e mar.)
Az lehet a megoldas, amit mar a K10 is tudott: az egyszeru cimszamitasokat tudja a 4 ALU is kezelni, es csak komplexekhez kell a 2 AGU. Ez a gyakorlatban jo lehet egy 2R+1W portos L1D-hez.[ Szerkesztve ]
AIDA64.com
-
Petykemano
veterán
válasz Balala2007 #16652 üzenetére
Pont erre voltam kiváncsi, hogy miért 4+2-nél húzták meg a határt, amikor bulldozernél 2+2 volt.
De érteni vélem.Azt olvastam pl a VISC témában, hogy az IPC sok esetben attól is függ, hogy mennyire lehet feladatot párhuzamosítani. Ez az Instruction Level Parallelism, ami már most is eléggé csúcsra van járatva. feltételezem, hogy az OoO végrehajtás pont azt szolgálja, hogy a CPU amennyire lehet, minél ügyesebben átrendezze a műveleteket, hogy minél magasabb ILP-t tudjon elérni. A csúcsra járatás tekintetében a 4 ALU, amennyivel az HSW és a SKL is rendelkezik, nem véletlen és nem véletlenül nem több.
Tulajdonképpen a bulldozer 1 magja akkor képes volt extrém esetben kvázi 4 ALU szélesként funkcionálni, ezért is lehetett, hogy az integer teljesítmény core2core nem is maradt el annyira. Viszont összetett, vagy FPU intenzív terhelés alatt "összeomlott".A Zen esetén a 4 ALU továbbra is biztosítja a megfelelő integer feldolgozó szélességet, sőt úgy, hogy ezek inkább ALU-k, mint AGU-k, talán még erősebb, stabilabb teljesítményt is adhatnak (persze ez még mindig függ attól, hogy a többi rész tudja-e etetni), de mivel van 2 dedikált AGU, ezért összetett terhelés esetén, tehát amikor az FPU is enni kér, nem feleződik le a integer számítási kapacitás: részben mert van 2 AGU, sőt, maguk az ALU-k is tudhatnak saját maguknak alapvető agu jellegű műveleteket elvégezni.
A rendelkezésre álló erőforrások kihasználtságát az SMT növelheti, hiszen ha két külön szálat futtat a mag, akkor kevesebbet kell bűvészkedni az utasítások párhuzamosíthatóságán.Azt mondd el még nekem, hogy mi a helyzet a FPU képességekkel.
Próbáltam keresni gyorsan a neten, és azt meg is találtam, hogy egy bulldozer modul 2 128 bites FMAC egységet tartalmaz, ami tulajdonképpen 1-1 add + multiply egység, ha jól sejtem gyárilag összeolvasztott egysége.
Ezzel szemben a Zennél 2 FMUL és 2 FADD egység van, ami a leírás szerint egyenként 3ciklus késleltetéssel végeznek műveletet, és össze tudnak állni FMAC-ké 5 ciklus késleltetéssel műveletet végzendő.
Itt már is kérdezném, hogy fenti azt jelenti, hogy azért választották-e vajon a különálló FMUL és FADD egységeket, mert a bulldozer esetén a 2 FMAC különálló FADD és FMUL műveleteket is csak ugyanazzal a késleltetéssel tudott végrehajtani, mint FMAC műveleteket és persze ezekből is csak egyszerre kettőt?Itt ami kérdés számomra, hogy vajon egy bulldozer mag, pontosabban amikor egy szál futott egy bulldozer modulon, akkor vajon mindkét FMAC egységet tudta-e használni és csak több szál esetén volt osztozkodás? Vagy egy szál a modulban 128 bites utasítás esetén érintetlenül hagyta a másik FMAC egységet és csak akkor használta, ha 256bites utasítást kellett végrehajtania?
Ez azért érdekes kérdés, mert ha előbbi, vagyis a modulon futó 1 szál teljes mértékben tudta hasznosítani a modul FPU-ját, akkor a Zen, amely magonként kap majd egy "ilyet", 1 szálas FPU teljesítményben milyen előrelépést tud majd felmutatni?
Ellenben ha utóbbi, hogy a bulldozerben 1 szál jellemzően csak az FPU felét használta, akkor a The Stilt által mondott "1 zen mag = 0.73XV modul" komoly előrelépést jelent.Találgatunk, aztán majd úgyis kiderül..
-
dezz
nagyúr
Még egy infó, ami segítheti a megértést: az utasításkészlet tagjainak (és azok különféle címzésmódjainak) végrehajtásához eltérő számú órajelciklusra van szükség és ezekhez más-más IPC rendelhető (ez attól is függ, hogy egyet vagy többet tud párhuzamosan végrehajtani egy mag). A tipikus IPC meghatározására különféle módszereket lehet igénybe venni, pl. az említett IPC-k egyszerű vagy előfordulási aránnyal súlyozott átlagát lehet venni, vagy egy a különféle utasításokat átlagos előfordulási arányban, átlagos függőségi helyzetben tartalmazó szintetikus mintakód végrehajtásából lehet számolni. Nem tudom, az AMD melyik módszer híve.
(#16653) Petykemano: Jó kérdések. (A Zenre vonatkozóakat valószínűleg majd élőben való tesztelgetés során lehet megválaszolni.)
[ Szerkesztve ]
-
Z10N
veterán
válasz Yutani #16630 üzenetére
Kivancsisagbol csinaltam egy CB R15 tesztet az 1090T-vel, bar 4200-n most nem kinoztam.
4000: 601 (friss inditas)
3900: 568 (munkamenet)
3800: 536 (munkamenet)nb2800
ht2400
dram1600-cl8Amit mondtal kijott a 0,025-s arany. Ebbol ket dolog latszik szamomra. Elsokent, hogy a Phenom2 meg mindig eleg szamomra es bizonyos esetekben meg mindig jobb a 4 modulos fx-nel. Illetve a zen-tol legalabb masfelszeres novekedest varnek minimum. Szoval cb900+ avagy 0,0375-t varnek el tole, ami ha jol nezem i7-4700 szint.
Simid kalkulacioja alapjan "0,0388 lenne ami már sokkal közelebb van a skylake-hez" ez kivitelezheto is lenne, mivel a sandy teljesitmenye mar keves (foleg a 0,032). Surun hasznalom a cinema4d-t szoval nem artana, ha hozna az elvarhatot. Bar studio munkanal (vst/transzponalas/wav render/stb.) meg kivalo az X6, de az x264@1080p-ben enkodolas mar neha kohog, nem beszelve az x265-rol. Gamer szempontbol meg van dx12
http://cbscores.com/
https://us.rebusfarm.net/en/tempbench?view=benchmark# sshnuke 10.2.2.2 -rootpw="Z10N0101"
-
Balala2007
tag
válasz Petykemano #16653 üzenetére
Tulajdonképpen a bulldozer 1 magja akkor képes volt extrém esetben kvázi 4 ALU szélesként funkcionáln
Csak az Excavator.FPU intenzív terhelés alatt "összeomlott".
A K15 szeria rengeteg reszletben le van maradva az Intelhez kepest a mar emlitetteken kivul is (pl. nincs uop cache, macrofusion gyengebb, stb), de az FPU-nal a donto az, hogy 3x128b EU all szemben 3x256b EU-kal.A rendelkezésre álló erőforrások kihasználtságát az SMT növelheti, hiszen ha két külön szálat futtat a mag, akkor kevesebbet kell bűvészkedni az utasítások párhuzamosíthatóságán.
Ha ket IP-tol jonnek a uop-ok, akkor azok implicit fuggetlenek, az mar TLP.FMAC egységet tartalmaz, ami tulajdonképpen 1-1 add + multiply egység, ha jól sejtem gyárilag összeolvasztott egysége.
Az FMAC-ban nagyon hangsulyos a Fused, azt jelenti, hogy a szorzas utan kimarad egy kerekitesi fazis, a szorzas eredmenyehez vegtelen pontosaggal adodik a harmadik operandus. Ezt SW-bol eleg nehez pontosan utanozni, az Intel SDE pl. nagysagrendileg ~100x lassabb a nativnal.Ezzel szemben a Zennél 2 FMUL és 2 FADD egység van, ami a leírás szerint egyenként 3ciklus késleltetéssel végeznek műveletet
Csak az ADD 3, az SP MUL 4, a DP MUL 5. Itt egy tablazat a gcc patch-ek alapjan, amit most a Zenrol tudni lehet.Itt már is kérdezném, hogy fenti azt jelenti, hogy azért választották-e vajon a különálló FMUL és FADD egységeket, mert a bulldozer esetén a 2 FMAC különálló FADD és FMUL műveleteket is csak ugyanazzal a késleltetéssel tudott végrehajtani, mint FMAC műveleteket és persze ezekből is csak egyszerre kettőt?
Nem, FMA-ra egyszerubb kulon muveletkent gondolni.egy bulldozer mag, pontosabban amikor egy szál futott egy bulldozer modulon, akkor vajon mindkét FMAC egységet tudta-e használni
Persze, latszik a throughput adatokon.1 szálas FPU teljesítményben milyen előrelépést tud majd felmutatni?
A jobb ADD/MUL latency-n mar nyer, es ha pl. a regiszteren beluli pack/shuffle/permute EU-t nem kapcsoljak ugyanarra a portra, mint az FMA (mint az Intel Port0-1 FMA, Port5 shuffle), akkor azon is, ha a store nem utkozik az elobbiekkel, az megint elony, stb.A gcc patchekbol sejtheto, hogy az AMD celja a Zennel a x64-hez hasonlo lehet: ahogy anno az Intel kihagyta a 64b-es x86 kiterjesztest az IA64 kedveert, ugy most a legacy x64-et hanyagolja a 256/512b-es SIMD-ekert. Bar sok reszlet meg hianyzik, az erzodik, h a Zeppelin core-t a legacy x64 kodok futtatasara optimalizaljak.
Peak Flopsban az Intel 2x erosebb, de ehhez a kodokat is ujra kell forditani -> kicsi Itanium szindroma.
Ket *szelsoseges* pelda szemlelteteskent:
Code1 (128b SSE):
mulps xmm1, xmm2
mulps xmm14, xmm15
addps xmm6, xmm7
addps xmm8, xmm10
Code2 (256b FMA):
vmfadd213pd ymm0, ymm1, xmm2
vmfadd213pd ymm3, ymm4, xmm5
vmfadd213pd ymm6, ymm7, xmm8
vmfadd213pd ymm9, ymm10, xmm11Code1 throughput Zenen 1clk, Skylake-en 2clk, Zen 2x gyorsabb Skylake-nel a 4 FPU port miatt.
Code2 throughput Zenen 4clk, Skylake-en 2clk, Skylake 2x gyorsabb a Zennel a 256b-es portok miatt.Nekem most ugy tunik, hogy ha kipofoztak a cache-eket, kapott egy nagyobb ROB-ot, egy turheto branch predictort es memoriakezelest, akkor a Zennel integerben ~Skylake, SSE2-SSE4 Skylake+, AVX-AVX2-FMA: XV+ szintet celozhattak meg. Aztan a tesztekbol majd kiderul, mi jott ossze ebbol.
AIDA64.com
-
Fiery
veterán
válasz Balala2007 #16658 üzenetére
-
headhunter
addikt
Bristol Ridge asztali és Mobil APU-k is egyszerre jelennek meg?
AM4 alaplapokat, CPU-kat is a Computexen (2016 Május 31. - Június 04-ig.) jelentik be és a boltokban 1-2 héten belül megvásárolható?
[ Módosította: Oliverda ]
-
Oliverda
félisten
válasz Balala2007 #16658 üzenetére
A fejlesszünk a (bizonytalan) jövő igényeinek néhányszor már nem jött be, talán a jelennek való megfelelés nagyobb sikert hoz.
Az AVX és az FMA pedig nem fog hiányozni, ahol ez igazán fontos (pl. HPC) oda az AMD GPU-val próbál betörni.
[ Szerkesztve ]
"Minden negyedik-ötödik magyar funkcionális analfabéta – derült ki a nemzetközi felmérésekből."
-
Fiery
veterán
válasz headhunter #16660 üzenetére
Nem valoszinu. Ennek fokent az az oka, hogy a mobil BR teljesen mas platformba erkezik, mint a desktop BR. Az elobbi gyakorlatilag a mobil Kaveri FP4 tokozasu platformjat kapja meg, kulso chipset (FCH) nelkul; mig az utobbi a Promontory chipset + AM4 kombot. Az elobbi joval kisebb melo, hiszen egy meglevo platformba kell csupan bepattintani egy valtozatlan tokozasu uj procit.
-
Balala2007
tag
Tudtommal az elso x86/x64 HW SHA eredmeny (ilyen lesz a Zenben is): Intel Broxton/Goldmont GB3 eredmenyek
AIDA64.com
-
-
Oliverda
félisten
Az X6 1090T-nek és annak eredményeinek semmi köze a topikhoz, ahogy az sem tartozik ide, hogy ki mennyit várna, ki mennyit szeretne a Zentől, ki miről álmodik nagy unalmában. Több 10 vagy 100 hozzászólás óta ez megy, baromi unalmas már, a semminél is sokkal unalmasabb. Itt a #16658 és társai a releváns szakmai hozzászólások, a többinek nyugodtan lehet nyitni OFF topikot, például Zenről álmodozók címmel, ez a topik pedig marad tényszerűen a realitás talaján, amennyire csak lehet.
[ Szerkesztve ]
"Minden negyedik-ötödik magyar funkcionális analfabéta – derült ki a nemzetközi felmérésekből."
-
Yutani
nagyúr
válasz derive #16666 üzenetére
Azok a "páran" nyilván én vagyok. És miért ne matekozhatnék? Mindenki spekulálgat, és nem csak itthon, hanem világszerte, hogy mit is tudhat a Zen, mert rohadtul kíváncsiak vagyunk rá, és még legalább 6 hónap van a bemutatásáig.
Egyetlen infonk van eddig a Zen sebességéről, ami az Excavator IPC+40%. Ennek két lehetséges megközelítése:
1.) 1 szálon hozza a 40% IPC növekedést (ez lenne logikus, de ki tudja, az AMD mire gondolt)
2.) Egy Excavator modul (CU, compute unit) sebességének hozza 140%-át két Zen mag (The Stilt teóriája az Anandtech fórumáról)Ezt a két scenariót vizsgáltam a Cinebench R15-ben általam felfedezett összefüggések alapján. Az első scenario alapján a Zen az Ivy és a Haswell között lesz (majdnem Haswell), de a második szerint kicsivel a Sandy alatt.
A kollégák itt a topikban rávilágítottak, hogy az IPC nem egy exact valami, mivel ahány féle művelet, úgy változik az IPC értéke is (integer, FP, stb). Az, hogy az AMD milyen típusú művelet IPC-jét vette alapul, amikor kimondta a 40%-os javulást, nem tudhatjuk, ezért jobb híján egy általános IPC növekedéssel tudunk csak számolgatni.
Egyébként is ez egy találhatós topik, úgyhogy találgatunk. Így legalább megy a fórum, és nem az van, hogy napokig senki nem szól hozzá. Látod, te is hozzászóltál!
[ Szerkesztve ]
#tarcsad
-
leviske
veterán
Na akkor egy összefoglaló pár érdekesebb Fiery hozzászólásból:
Úgy tűnik csak 8 magos lapka jön most: [link] [link] [link]
Foglalatok (AM4/SP3/SP4): [link] [link] [link] [link]
Kódnév értelmező (Zeppelin, Zen, Summit Ridge): [link]
ES példányok várható megjelenése (tipp): [link]
Teljesítmény kérdés: [link] [link] [link] [link]
Architektúra: [link] [link] [link]
AM4 lapok: [link]Ezek önmagukban nézve nem elhintések, de ha megnézed az ilyesmi reakcióit a korábbi termékekkel kapcsolatban, mint amilyen pl a Kaveri, kivehető egy pozitívabb hozzáállás képe.
-
dezz
nagyúr
válasz Yutani #16667 üzenetére
"2.) Egy Excavator modul (CU, compute unit) sebességének hozza 140%-át két Zen mag (The Stilt teóriája az Anandtech fórumáról)"
The Stilt azt írta, 1 Zen mag a 73%-át hozza egy XV modulénak. 2 Zen mag 100%-os multicore skálázódásnál 146%-ot hoz, 97%-nál 141,62-t, 95%-nál pedig 138,7-et (SMT nélkül). Megjegyzem, általános "Magic Number" nem létezik, legfeljebb adott alkalmazásra vonatkozó. (Lehet átlagolni, de az inkább az általános ár/telj. arányt határozza meg.)
De ez a 40-46% amúgy sem lehet valós, mert akkor az alkalmazások nagy részében lassabb lenne a Zen, mint akár az XV, legalábbis SMT nélkül, de akár azzal is, akkor pedig mi értelme lenne? [link]
ps. tényleg lehetne egy találgatós topic, mivel ez per def. mikroarchitektúrális részletezésre és a legfontosabb egyéb infók közlésére szolgál.
-
Mahrenburg
senior tag
"Egy fel nem használt Phenom II matrica olyan mint egy nap ami sosem kelt fel, egy múló szerelemről szóló dal amit sosem énekeltek, egy harcos szív amely sosem dobbanhatott..!" by Habugi
-
Oliverda
félisten
válasz Mahrenburg #16682 üzenetére
Végre valaki cselekszik is. Beleírom a TIR-be az elérhetőségét.
"Minden negyedik-ötödik magyar funkcionális analfabéta – derült ki a nemzetközi felmérésekből."
-
Oliverda
félisten
"I'm also pleased to share that we are making excellent progress on our strategy to reestablish our presence in the datacenter market, as we successfully passed several key milestones related to our next-generation Zen-based server processor. The Zen silicon running in our bring-up labs is meeting our expectations, and priority customer sampling is on track to begin this quarter in advance of datacenter system availability in 2017.
.
.
We are pleased with the progress on Zen. Obviously, there are lots of engineering milestones to pass, but a key one is that we're on track to sample to our priority customers in the second quarter."[ Szerkesztve ]
"Minden negyedik-ötödik magyar funkcionális analfabéta – derült ki a nemzetközi felmérésekből."
-
Fiery
veterán
válasz Oliverda #16694 üzenetére
A "sampling" ebben a kontextusban is az ES peldanyok kisszerias gyartasat takarja? Mert ha igen, akkor megiscsak stimmel az, hogy me'g csak most kezdik el teriteni a Zent az AMD kapuin kivul... Persze ha az A0 stepping kapasbol remekul sikerul, akkor nincs akadalya az oszi piaci rajtnak sem. Megint mas kerdes, hogy ebben a szovegben a Zen az AM4 foglalatu desktop procit takarja vagy a Zen alapu Opteront? En az utobbinak ertelmezem.
-
Yutani
nagyúr
AMD didn’t say very much about Zen this time out, though Lisa Su noted that the chip is moving through internal validation, and meeting AMD’s internal goals. Asked when the chip would be available in market, she stated it would begin sampling to priority customers in Q2 2016 with expected data center availability in 2017. There were no updates on mainstream consumer availability. Forrás
Tehát szó sincs még a consumer Zenről, legalábbis itt nem volt.
[ Szerkesztve ]
#tarcsad
-
Oliverda
félisten
-
headhunter
addikt
Új hozzászólás Aktív témák
A topikban az OFF és minden egyéb, nem a témához kapcsolódó hozzászólás gyártása TILOS!
Az ide nem illő hozzászólások topikja:[link]
MIELŐTT LINKELNÉL VAGY KÉRDEZNÉL, MINDIG OLVASS KICSIT VISSZA!!
A topik témája:
Az AMD éppen érkező, vagy jövőbeni új processzorainak kivesézése, lehetőleg minél inkább szakmai keretek között maradva.