Hirdetés
- Visszafogott, vékony és vezetékmentes ProArt billentyűzet jött az ASUS-tól
- Nem tiltották be a Teslát Kaliforniában, Robotaxival ünnepelt a márka
- Az ARM részvényeinek eladásában csúcsosodott ki az NVIDIA felvásárlási kísérlete
- Jobb tömörítő algoritmussal kínálja meg a DirectStorage API-t a Microsoft
- Mi történik, ha minden PCIe slot tele van?
- AMD Ryzen 9 / 7 / 5 9***(X) "Zen 5" (AM5)
- "Krémes" kopogással és pajkos külsővel hódítana a Yunzii klaviatúrája
- 3D nyomtatás
- Milyen széket vegyek?
- Milyen TV-t vegyek?
- Milyen videókártyát?
- Épített vízhűtés (nem kompakt) topic
- Milyen asztali médialejátszót?
- Milyen notebookot vegyek?
- Bambu Lab 3D nyomtatók
Új hozzászólás Aktív témák
-
Petykemano
veterán
válasz
#45185024
#38155
üzenetére
Én inkább valahogy úgy illusztrálnám a problémát, mint a procikban a pipeline-ok.

A zenben van 4 ALU egy magban. outoforder, tehát ügyesen sorrendezi a parancsokat, hogy minden órajelciklusban lehetőleg minden ALU-nak legyen - időzített - dolga. (ILP)
És még ez is úgy van, hogy a 4 ALU-t (meg az fpu-t) valójában akár 2 szál is tudja kezelni, kihasználni1 lapka -> 2 CCX (L3$/CCX) -> 2x4 mag (L1$ & L2$ / core) -> 2x4x4 ALU
Tehát 4 ALU / L1$+L2$

Ehhez képest a GCN:
1 lapka -> 4 SE -> 4x(9 - 16) CU -> 4x(9-16)x4 SIMD -> 4x(9-16)x4x16 ALU
Itt a L1$ a CU-ban van => 64ALU/L1$
az L2$ pedig az SE-ben => 1024ALU / L2$A problémát a hatékonytalanságra szerintem úgy lehetne illusztrálni, mintha a zen magban sokkal több, mondjuk 4 helyett 8 ALU lenne. Nyilván nehéz lenneo olyan szintű ILP-t elérni, amivel kihasználható 8 aLU egyszerre.
Tehát most annyi történik, hogy vezérlést, ütemezést és valószínűleg cache-t is visznek a SIMD szintre ezzel növelve a granularitást. Tehát nem a 64 ALU-t vezérlő CU lesz a legkisebb önálló egység, hanem egy 16 ALU-s SIMD.
"The main thing is that AMD has applied for a patent for a new design that apparently moves much more of the scheduling and control logic down the chain. This makes it look a little bit more like nVidia, which has the same scheduling logic on the streaming multiprocessor (SM) level. A card like the 1080 has 20 SMs active, to be compared with the 4 shader engines AMD uses. The metaphor isn't exact, but NVidia's SMs each control the equivalent of 2 CUs, while AMD's shader engines are asked to control as many as 16."
"But here's the thing, almost everything in that design is scalable. You can make a sSIMD with 2 ALUs or 4 ALUs, a CU with 4 superSIMDs or 6 superSIMDs, you can make a product with 2 CUs or 10 CUs. What is the implication of this? By mixing and matching components you can make a fit for purpose gpu, for gaming for compute or for AI. But there is more! You can take one of the subcomponents and mix it with an entirely different processor, a DSP, an FPGA and, yes, a cpu to make something entirely new."
(innen)
Új hozzászólás Aktív témák
A topikban az OFF és minden egyéb, nem a témához kapcsolódó hozzászólás gyártása TILOS!
Megbízhatatlan oldalakat ahol nem mérnek (pl gamegpu) ne linkeljetek.
- AMD Ryzen 9 / 7 / 5 9***(X) "Zen 5" (AM5)
- D1Rect: Nagy "hülyétkapokazapróktól" topik
- Folyószámla, bankszámla, bankváltás, külföldi kártyahasználat
- gban: Ingyen kellene, de tegnapra
- "Krémes" kopogással és pajkos külsővel hódítana a Yunzii klaviatúrája
- Mobil flották
- Filmgyűjtés
- 3D nyomtatás
- Milyen széket vegyek?
- sziku69: Szólánc.
- További aktív témák...
- LG 65G4 - 65" OLED evo - 4K 144Hz & 0.1ms - MLA Plus - 3000 Nits - NVIDIA G-Sync - FreeSync Premium
- HIBÁTLAN iPhone 11 Pro Max 64GB Space Grey-1 ÉV GARANCIA - Kártyafüggetlen, MS4415
- GYÖNYÖRŰ iPhone 14 Pro Max 256GB Deep Purple - 1 ÉV GARANCIA -Kártyafüggetlen, MS4279
- Tablet felvásárlás!! Apple iPad, iPad Mini, iPad Air, iPad Pro
- Dell Precision 7550,15.6",FHD,i7-10850H,16GB DDR4,512GB SSD,Quadro T2000 4GB VGA,WIN11, 2 KAMERA
Állásajánlatok
Cég: Laptopműhely Bt.
Város: Budapest
Cég: PCMENTOR SZERVIZ KFT.
Város: Budapest


