Legfrissebb anyagok

PROHARDVER! témák

Mobilarena témák

IT café témák

GAMEPOD.hu témák

LOGOUT.hu témák

Hirdetés

AMD Radeon undervolt/overclock

lo Minden egy hideg, téli estén kezdődött, mikor rájöttem, hogy már kicsit kevés az RTX2060...
Képeken az egyik kameráját elvesztő Sony Xperia 10 VI

ma Részletes anyag került fel az internetre a Sony idei középkategóriás telefonjáról, három helyett két hátlapi kamera várható.
Mozgásban az F1 24

gp A Forma 1 versenyek rajongói hamarosan végre belevethetik magukat az idei epizódba.

Új hozzászólás Aktív témák

#1 Petykemano veterán

Új Válasz 2015-11-23 21:37:00 #1
Új hozzászólás
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra
Privát üzenet küldése

Petykemano

veterán

nagy kár, hogy az AMD nem csinált ilyesmiket a nagyszámú ACE egységgel például, aminek még mindig semmi haszna.

Találgatunk, aztán majd úgyis kiderül..
#2 LordX veterán Petykemano #1

Új Válasz 2015-11-23 22:07:29 #2
Új hozzászólás
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra
Privát üzenet küldése

LordX

veterán

válasz Petykemano #1 üzenetére

Max játékra, de HPC esetében feladatokat ütemezni AMD-n nagyságrendekkel egyszerűbb feladat, mint nVidián, pont az ACE egységek miatt. nVidián nem futtatsz 2 különböző kernelt egyszerre, GCN3-an meg akár 8-at is, ha van elég CU és sávszél.
#3 kpityu2 őstag

Új Válasz 2015-11-24 05:13:14 #3
Új hozzászólás
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra
Privát üzenet küldése

kpityu2

őstag

Mi az a HPC-piac? Olyasmi mint a kínai-piac?

[ Szerkesztve ]

Okos mérnök a hülyeséggel is kalkulál. Avagy, a "Figyelj oda jobban" tábla nem munkavédelmi eszköz....
#4 #95904256 törölt tag kpityu2 #3

Új Válasz 2015-11-24 06:18:59 #4
Új hozzászólás
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra
Privát üzenet küldése

#95904256

törölt tag

válasz kpityu2 #3 üzenetére

Pontosan. Csak itt nem zoknira gyúrnak hanem gigaflopsokra.
#5 Petykemano veterán LordX #2

Új Válasz 2015-11-24 07:27:49 #5
Új hozzászólás
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra
Privát üzenet küldése

Petykemano

veterán

válasz LordX #2 üzenetére

Értem. Ez - nyilván nem önmagában - komoly vetsrnyelőnyhöz juttatta az amdt a hpc piacon?
Én úgy látom, de persze nem vagyok se szakmabel, se beavatott, csak egyszerű hírfogyasztó, hogy bár a firepro 9150 a legjobb dp teljesítményű kártya már egy jóideje, mégis a még meg se jelent pascalról írják, hogy már van is rá komoly megrendelés. Persze, ebben nyilván a cudának is nagy szerepe van.
Az is megoldható lehetett volna, hogy ha ez a fícsör a hpc piacon fontos és értelmes, akkor csak a firepro termékekből nem kivágni.
(Utólag Okos Kapitány voltam)

Találgatunk, aztán majd úgyis kiderül..
#6 LordX veterán Petykemano #5

Új Válasz 2015-11-24 07:43:02 #6
Új hozzászólás
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra
Privát üzenet küldése

LordX

veterán

válasz Petykemano #5 üzenetére

Technológiailag komoly versenyelőny.
A probléma ott van, hogy mivel jópár évvel korábban kezdte az nVidia az AMD-hez képest, ezért minden komoly programkönyvtár CUDA-ban van megírva. Innentől az AMD olyan fejlett dolgokkal rendelkezhet, amilyet csak el lehet képzelni, nVidiát jóval többen fognak venni. Ez szép lassan változik, de a kulcsszó a lassan...
#7 L3zl13 nagyúr

Új Válasz 2015-11-24 07:43:06 #7
Új hozzászólás
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra
Privát üzenet küldése

L3zl13

nagyúr

'az új csúcslapkára két Tesla gyorsító érkezik, és ezek közül az egyiken egy, míg a másikon két darab Pascal architektúrára épülő lapka lesz található'
Elég zavaros, hogy a "lapka" kifejezés úgy tűnik több dologra van használva egy mondaton belül.
'Ezekből ugyanis valószínűleg, hogy'
Ez meg nekem magyartalan.

Aki hülye, haljon meg!
#8 Bici félisten Petykemano #5

Új Válasz 2015-11-24 08:49:46 #8
Új hozzászólás
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra
Privát üzenet küldése

Bici

félisten

válasz Petykemano #5 üzenetére

Az AMD ezért hozta létre a Boltzmann Initiative szoftvercsomagot.

Eladó régi hardverek: https://hardverapro.hu/apro/sok_regi_kutyu/friss.html
#9 Fiery veterán LordX #6

Új Válasz 2015-11-24 09:40:51 #9
Új hozzászólás
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra
Privát üzenet küldése

Fiery

veterán

válasz LordX #6 üzenetére

"A probléma ott van, hogy mivel jópár évvel korábban kezdte az nVidia az AMD-hez képest"
Ez sajnos nem igaz. Az nVIDIA 2007 juniusaban mutatta be a CUDA-t, mig az AMD Stream SDK 1.0 2007 decembereben jelent meg. A hatterben zajlo munka is kozel egyszerre indult el, persze anno me'g az ATI iranyitasa alatt.
A problemat az okozta, hogy az AMD nem sokkal a Stream bemutatasa utan dobta az egeszet, es inkabb az OpenCL-re szavazott. Ami viszont mind a mai napig nem mukodik a gyakorlatban, persze 1-2 udito peldat leszamitva. Az nVIDIA vegig kitartott a zart, sajat API mellett, es ennek meg is lett az eredmenye. Nem eleg ugyanis egy jo hardvert letenni az asztalra, ahhoz kell egy megfelelo (idealis esetben testreszabott, azaz a hardverhez fejlesztett) API, es ahhoz pedig egy fejlesztoi kozosseg. Az AMD-nek ez a (GPGPU/HPC) hajo mar elment, nem is veletlen, hogy ketsegbeesesukben mar a CUDA-hoz nyultak. De ez sem fog segiteni rajtuk, hiszen ki fog CUDA konverzioval vacakolni, amig van megfelelo alternativa nativ CUDA-s hardverbol is? Az AMD egyetlen eselye az lenne, ha a FirePro fele annyi penzert 2x nagyobb teljesitmenyt tudna nyujtani, es a CUDA source-ot modositani sem kellene ehhez. Ez viszont nem fog megtortenni, a 3 kriterium egyike sem fog teljesulni.

[ Szerkesztve ]
#10 Reggie0 félisten LordX #2

Új Válasz 2015-11-24 10:40:11 #10
Új hozzászólás
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra
Privát üzenet küldése

Reggie0

félisten

válasz LordX #2 üzenetére

Miert lenne? Mar 1.5 eve is amint elinditottam ket cudas progit, azok osztoztak a kartyan. Semmit sem kellett szarozni hozza es jol skalazodtak.
#11 Abu85 HÁZIGAZDA Fiery #9

Új Válasz 2015-11-24 16:55:01 #11
Új hozzászólás
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra
Privát üzenet küldése

Abu85

HÁZIGAZDA

válasz Fiery #9 üzenetére

Azért a FirePro S9150/S9170 eléggé sikeres lett. Sosem adtak el még annyit FirePro gyorsítót, mint mostanában. A következő körben simán nagy sanszuk van, mert amíg az Intel és az NV 3-4 TFLOPS-os gyorsítóval jön, addig az AMD 7-8 TFLOPS-ot céloz DP-ben ugyanakkora TDP kereten belül. Nyilván az NV most úgy van vele, hogy nulláról újratervezni nem lenne ideális az egész hardvert, az Intel meg elkölti a tranyók 70%-át gyorsítótárra/buszokra, tehát nekik arányaiban nagyon kevés tranyó marad a regiszterekre és a valós feldolgozókra. Egy 7 TFLOPS DP-s FirePro portolás szükségessége nélkül simán váltópont, mivel kétszeres lesz a hatékonysága a többi gyorsítóhoz képest DP-ben. Ezt addig fent is tudják tartani, amíg az Intel és az NV nem dönt úgy, hogy nulláról újrakezdik a tervezést.

[ Szerkesztve ]

Senki sem dől be a hivatalos szóvivőnek, de mindenki hisz egy meg nem nevezett forrásnak.
#12 #06658560 törölt tag Abu85 #11

Új Válasz 2015-11-24 17:08:10 #12
Új hozzászólás
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra
Privát üzenet küldése

#06658560

törölt tag

válasz Abu85 #11 üzenetére

"Azért a FirePro S9150/S9170 eléggé sikeres lett. Sosem adtak el még annyit FirePro gyorsítót, mint mostanában. A következő körben simán nagy sanszuk van, mert amíg az Intel és az NV 3-4 TFLOPS-os gyorsítóval jön, addig az AMD 7-8 TFLOPS-ot céloz DP-ben ugyanakkora TDP kereten belül."
Szép és jó, de gyorsan utána nézve (top500.org volt kéznél) ennek ellenére is nagyon kicsi a piaci részesedésük. Pénzügyi eredmények sem voltak túl fényesek, mintha túl nagy haszonkulccsal nem tudtak volna dolgozni.
#13 Fiery veterán Abu85 #11

Új Válasz 2015-11-24 17:11:54 #13
Új hozzászólás
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra
Privát üzenet küldése

Fiery

veterán

válasz Abu85 #11 üzenetére

"Azért a FirePro S9150/S9170 eléggé sikeres lett"
Mihez kepest? Es valojaban ez mit jelent? Urban legend, vagy vannak eladasi szamok is a birtokodban, mindket gyartotol (AMD, nVIDIA) ?
"Sosem adtak el még annyit FirePro gyorsítót, mint mostanában"
Ha jol tudom, nem olyan reg me'g nagyjabol 0-t adtak el, legalabbis ha a "FirePro gyorsito" kifejezest nem a workstation FirePro-kra ertjuk, hanem a kifejezetten HPC kartyakra. Ahhoz kepest 2x vagy 5x annyit eladni valojaban mennyire szep teljesitmeny? Nagyon nem mindegy, hogy 10% piaci reszesedesrol lep valaki 50%-ra, vagy 0,1%-rol 0,5%-ra. Es egyebkent is, mennyi az annyi? Hany db kelt el?
"addig az AMD 7-8 TFLOPS-ot céloz DP-ben ugyanakkora TDP kereten belül."
Celozni mindig is tudtak, sosem a slideware volt a gyengeseguk. Varjuk ki, hogy mikorra keszulnek el egy 7+ DP TFLOPS gyorsitoval, es addigra mi lesz a konkurencia. Ja, es kene egy API is, amivel meg lehet hajtani rendesen a cuccot. Megjegyzem, akarmennyire is kifejezetten a HPC piacra tervezi a gyorsitojat az AMD, nem tartom realisnak 2x nagyobb teljesitmeny/fogyasztas mutato elereset a Pascal alapu Teslakhoz kepest, csupan azert, mert kivagjak a GPU-bol a HPC piacon ertektelen reszeket.
"Nyilván az NV most úgy van vele, hogy nulláról újratervezni nem lenne ideális az egész hardvert"
Igen, mert az nVIDIA-nal tudnak szamolni, es ismerik a piaci viszonyokat Nem pedig igernek egy hatalmas maszlagot, es utana jon a szokasos kesoi piaci debutalas es -- az igeretekhez kepest -- harmatos termek.
"Egy 7 TFLOPS DP-s FirePro portolás szükségessége nélkül simán váltópont"
Eloszor nezzuk meg azt a konkret termeket, ami tenyleg 2x nagyobb DP teljesitmenyt nyujt, mint a legdurvabb Tesla ill. Xeon Phi.
#14 Abu85 HÁZIGAZDA Fiery #13

Új Válasz 2015-11-24 17:23:41 #14
Új hozzászólás
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra
Privát üzenet küldése

Abu85

HÁZIGAZDA

válasz Fiery #13 üzenetére

Számok nincsenek, csak annyi, hogy tízszeresére nőttek az eladások egy év alatt. De ez logikus, mert csak a FirePro S9150 és S9170 képes 2,5 TFLOPS-is DP-re. Ennek a közelében nincs senki ilyen fogyasztáson.
Az NV nem tervez DP-re. Egyszerűen az architektúráikba nehezen építhető multi-precision ALU. Az NV integerre, FP32-re és FP64-re külön ALU-kat használ, és nem azért, mert ez jó, hanem azért, mert 2005-ban meghoztak olyan döntéseket, amelyekhez a PTX miatt muszáj ragaszkodniuk. Az AMD 2008-ben úgy döntött, hogy nulláról tervezik meg a hardvert. Csak emiatt ennyire erősek DP-ben a mostani rendszereik. Nekik a DP beépítése a teljes lapkaterületet csak 6%-kal növeli meg. Eközben az NV-nek ez a GK210 esetében +40%.

[ Szerkesztve ]

Senki sem dől be a hivatalos szóvivőnek, de mindenki hisz egy meg nem nevezett forrásnak.
#15 #06658560 törölt tag Abu85 #14

Új Válasz 2015-11-24 17:40:10 #15
Új hozzászólás
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra
Privát üzenet küldése

#06658560

törölt tag

válasz Abu85 #14 üzenetére

"Számok nincsenek, csak annyi, hogy tízszeresére nőttek az eladások egy év alatt. De ez logikus, mert csak a FirePro S9150 és S9170 képes 2,5 TFLOPS-is DP-re"
És a kettő milyen logikai kapcsolatban van egymással?
#16 Abu85 HÁZIGAZDA #06658560 #15

Új Válasz 2015-11-24 17:49:35 #16
Új hozzászólás
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra
Privát üzenet küldése

Abu85

HÁZIGAZDA

válasz #06658560 #15 üzenetére

Például az, hogy ha szükséged van 220-240 watt között 2,5 TFLOPS DP-re, akkor vagy a FirePro S9150/S9170-et választod vagy semmit.

[ Szerkesztve ]

Senki sem dől be a hivatalos szóvivőnek, de mindenki hisz egy meg nem nevezett forrásnak.
#17 Fiery veterán Abu85 #16

Új Válasz 2015-11-24 17:53:09 #17
Új hozzászólás
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra
Privát üzenet küldése

Fiery

veterán

válasz Abu85 #16 üzenetére

... vagy maradsz a Teslanal, mert mar van kesz CUDA-s szoftvered Az elet nem olyan fekete-feher, mint amilyennek lefested. Ez nem ugy mukodik, hogy ha pont ekkora energia keretben pont ilyen teljesitmeny kell, akkor csak megveszed a vasat es orulsz neki. Barcsak igy lenne. De ez nem egy videokartya, hanem egy HPC gyorsito. Ezen (FirePro) nem fut el akarmi, mint egy videokartyan egy tetszoleges D3D/OpenGL jatek. Me'g egy meglevo OpenCL kod sem feltetlenul fog futni vagy eleg jol futni egy FirePron, a Hipify meg hasonlo slideware pedig erosen a jovo zeneje.

[ Szerkesztve ]
#18 Abu85 HÁZIGAZDA Fiery #17

Új Válasz 2015-11-24 17:58:26 #18
Új hozzászólás
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra
Privát üzenet küldése

Abu85

HÁZIGAZDA

válasz Fiery #17 üzenetére

A HPC-piacon az SC15 alatt pont arról volt szó, hogy nagyobbrészt vannak OpenCL alkalmazások, mert nem akarják magukat zárt platformhoz kötni az érintettek. Erről nyugodtan megkérdezheted Vincent Hendriksent, aki pont portolásokkal foglalkozik.
Az AMD cuccát a piac nem fogadta jól. A legtöbben azt akarják, hogy az egész legyen nyílt, például a SYCL által. Most azzal nincs előrébb a piac, hogy az AMD a hardveres előnyét kihasználva a saját CUDA-jába zárja az egészet. Lehetséges, de csak az fog történni, hogy az egyik kútból a másikba esünk. A valós megoldás a SYCL.

Senki sem dől be a hivatalos szóvivőnek, de mindenki hisz egy meg nem nevezett forrásnak.
#19 #06658560 törölt tag Abu85 #16

Új Válasz 2015-11-24 18:18:00 #19
Új hozzászólás
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra
Privát üzenet küldése

#06658560

törölt tag

válasz Abu85 #16 üzenetére

Megint nehezen megy a gondolkodás: logikailag abból, hogy X teljesítményre képes a Radeon, hol következik, hogy az eladásoknak n-szeresére kellett nőniük?
#18: Figyelembe véve a trendeket a Top500.org adatai alapján, az NV mintha nagyon dominálna. Az a szumma 0,6% gyorsító részesedés júniushoz mérten csökkent, nem igazán azt mutatja, hogy hú de sikeres lett a piac körében.

[ Szerkesztve ]
#20 Loha veterán Fiery #13

Új Válasz 2015-11-24 18:31:13 #20
Új hozzászólás
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra
Privát üzenet küldése

Loha

veterán

válasz Fiery #13 üzenetére

"Es egyebkent is, mennyi az annyi? Hany db kelt el?"
Szerintem ebből elég jól lehet következtetni:
top500.org HIGHLIGHTS - NOVEMBER 2015
"A total of 104 systems on the list are using accelerator/co-processor technology, up from 90 on June 2015. Sixty-six (66) of these use NVIDIA chips, three use ATI Radeon, and there are now 27 systems with Intel Xeon Phi technology. Four systems use a combination of Nvidia and Intel Xeon Phi accelerators/co-processors."

[ Szerkesztve ]
#21 Fiery veterán Loha #20

Új Válasz 2015-11-24 20:22:57 #21
Új hozzászólás
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra
Privát üzenet küldése

Fiery

veterán

válasz Loha #20 üzenetére

Fene tudja. Ebbol akkor lehetne kovetkeztetni, ha lehetne tudni, az AMD ill. az nVIDIA HPC gyorsitoibol mennyi kerul szuperszamitogepbe, es mennyi kerul kliens gepbe vagy egyedi felhasznalasra. Ha tippelni kellene, en azt mondanam, legalabb az eladasok fele nem szuperszamitogepbe kerul, hiszen a szuperszamitogepekbe nem szamitanak bele a GPU szerverek sem, es plane nem szamitanak bele az egyedi vasarlok. Ha pedig innen kozelitjuk meg a dolgot, akkor valojaban lehetetlen megbecsulni azt, hogy az AMD mennyivel tobb FireProt ad el iden, mint mondjuk 2 eve. Az odaig oke, hogy tobbet, de nagyon nem mindegy, hogy az darabra vagy osszegre mennyi valojaban. Szep dolog 5x annyi kartyat eladni, de nem mindegy, az 500 db vegeredmenyben, vagy 500 ezer db.
#22 namaste tag LordX #2

Új Válasz 2015-11-24 21:59:00 #22
Új hozzászólás
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra
Privát üzenet küldése

namaste

tag

válasz LordX #2 üzenetére

A GK110-tól lehet párhuzamosan több kernelt futtatni, lásd Hyper-Q.
(#14) Abu85
"Az NV nem tervez DP-re."
Miért ne tervezne?
"... amelyekhez a PTX miatt muszáj ragaszkodniuk."
A PTX-nek semmi köze a hardverhez, az egy virtuális utasításkészlet, amit olyan GPU natív kódra fordítanak, amilyen GPU-n a program éppen fut. A GPU mikroarchitektúrájához meg végképp semmi köze nincs.
Amit írsz a GCN ALU-ról, abból az jön le, hogy az FP32 utasításokat is FP64 pipeline-on számolja.
#23 LordX veterán Reggie0 #10

Új Válasz 2015-11-25 07:37:02 #23
Új hozzászólás
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra
Privát üzenet küldése

LordX

veterán

válasz Reggie0 #10 üzenetére

Valahogy kizárt dolognak tartom, hogy egyszerre fut ott két kernel, időosztásban esetleg.
#24 Reggie0 félisten LordX #23

Új Válasz 2015-11-25 09:20:57 #24
Új hozzászólás
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra
Privát üzenet küldése

Reggie0

félisten

válasz LordX #23 üzenetére

Tehat azt mondod, hogy a Dynamic Parallelism funkciot csak azert tudja, hogy onmagat allitsa le egy kernel es esetleg ne a child kerneleket piszkalja? Erdeks megkozelites.
Amugy: https://www.nvidia.com/content/PDF/kepler/NVIDIA-Kepler-GK110-Architecture-Whitepaper.pdf

[ Szerkesztve ]
#25 Abu85 HÁZIGAZDA namaste #22

Új Válasz 2015-11-25 09:25:56 #25
Új hozzászólás
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra
Privát üzenet küldése

Abu85

HÁZIGAZDA

válasz namaste #22 üzenetére

Mert azzal az alappal, amin dolgoznak nagyon nehéz DP-t csinálni komoly tranzisztormennyiség beáldozása nélkül. Emiatt elmennek a Pascalnal is egy GPU-val 2 TFLOPS-ig és az lesz a plafon. Két GPU-val kapsz majd 4 TFLOPS-ot a csúcs-Teslával.
Viszont a hardveres ISA-t érdemes annyira közel tervezni a vISA-hoz, amennyire lehet. Különben a hatékonyság nem lesz elég jó.
Igen, de a GCN esetében az AMD úgy döntött, hogy nulláról tervez. Ezért tudnak olyan dolgokat megcsinálni, amit más nem.

[ Szerkesztve ]

Senki sem dől be a hivatalos szóvivőnek, de mindenki hisz egy meg nem nevezett forrásnak.
#26 namaste tag Abu85 #25

Új Válasz 2015-11-25 18:19:43 #26
Új hozzászólás
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra
Privát üzenet küldése

namaste

tag

válasz Abu85 #25 üzenetére

Jó, de ez nem jelenti azt, hogy "Az NV nem tervez DP-re". Ezt akkor lehetne mondani, ha a Pascalt is csak 1/32 FP64 : FP32 aránnyal hozná ki.
A driver egy "fma.f64 d, a, b, c" PTX utasításból egy "fma.f64 r0, r1, r2, r3" natív utasítást fordít. Ennek mi köze van ahhoz, hogy milyen a mikroarchitektúra? Ezt az utasítást a hardver végrehajthatja dedikált FP64 ALU-n, vagy multiprecíziós ALU-n.
Ez magyarázhatja a GCN magas fogyasztását. Persze hogy elölről kezdték a tervezést, mert kukázták a VLIW architektúrát.

[ Szerkesztve ]
#27 LordX veterán Reggie0 #24

Új Válasz 2015-11-25 23:10:35 #27
Új hozzászólás
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra
Privát üzenet küldése

LordX

veterán

válasz Reggie0 #24 üzenetére

Mivan? a DP arról szól, hogy a kernel tud berakni másik kerneleket a sorba. Semmi köze nincs ahoz, hogy hány darab kernel fut egyszerre.
Igen, a Hiper-Q már támogat több sort (és egy kategóriával jobb, mint előtte), de még mindig csak coarse multithreading, nem fut egyszerre 2 warp.
#28 Abu85 HÁZIGAZDA namaste #26

Új Válasz 2015-11-26 16:48:15 #28
Új hozzászólás
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra
Privát üzenet küldése

Abu85

HÁZIGAZDA

válasz namaste #26 üzenetére

Aki nem tervez 2:1-es DP-re, az valójában nem tervez DP-re.
Ehhez az utasításhoz nincs köze, de a mai vISA-kban kb. 200 utasítás van, míg a hardveres ISA-kban kb. 300-400. Természetesen az a legjobb, ha mindegyik vISA utasításra van egy direkt hardveres utasítás, amivel az helyettesíthető. Emiatt a hardvert részben a PTX-hez kell igazítani, ami megköti a mérnökök kezét.
A GCN azért fogyaszt sokat, mert rendkívül komplex, már-már a processzorokhoz mérhető az ütemezése. Emellett tele van olyan képességekkel, amelyek beépítéséig más még el sem jutott. A Pascal részben ezeket hozza.

[ Szerkesztve ]

Senki sem dől be a hivatalos szóvivőnek, de mindenki hisz egy meg nem nevezett forrásnak.
#29 namaste tag Abu85 #28

Új Válasz 2015-11-26 19:51:50 #29
Új hozzászólás
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra
Privát üzenet küldése

namaste

tag

válasz Abu85 #28 üzenetére

És ezt te így eldöntöd? Majd a piac eldönti kell-e neki. Persze 1:2 jó lenne, 1:3 elmegy, 1:4 hááát, 1:8 mivan?, 1:32 képfeldolgozásra, neurális hálózatra, játékra jó lesz.
Ez csak egy példa volt egy FP64-es utasításra. Vannak olyan utasítások amit egy az egyben lehet fordítani natív kódra, és vannak amelyeket nem. Ha egy újabb hardver újabb utasításokat hoz és nincs rá PTX utasítás, akkor az azt jelenti, hogy a PTX nem korlátozza a mikroarchitektúrát. A hardver mérnökök szabadon* alakíthatják az utasításkészletet, a GPU felépítését, a szoftveresek eldöntik lesz új PTX utasítás a következő verzióban vagy nem és megírják hozzá a fordítót.
* Inkább egyeztetve és kompromisszumokat kötve az igények (piac), a technikai lehetőségek figyelembevételével.
Az a komplex ütemezés, ami
- viszonylag kevés tranzisztor igényel,
- nem is használják DX11-ben
és emiatt sokat fogyaszt a GPU ... Hát, nem is tudom ...
A nagy fogyasztást inkább rá lehet fogni azokra a részekre, amelyek működnek is: CU/ALU, TMU, ROP, belső busz, cache, memóriavezérlő.
#30 Abu85 HÁZIGAZDA namaste #29

Új Válasz 2015-11-27 09:33:01 #30
Új hozzászólás
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra
Privát üzenet küldése

Abu85

HÁZIGAZDA

válasz namaste #29 üzenetére

Nem én döntöm el, de nyilván egyértelműen az a hardver lesz előnyben, ami 2:1-es DP-t tud, mert az jóval hatékonyabban csinálja meg, mint a 4:1-es vagy 8:1-es opció.
Az egyeztetés már azzal jár, hogy megbeszélik a lehetséges kompromisszumokat, hogy mi legyen a jó a teljes csomagnak.
- azért 300 millió tranzisztort nem neveznék kevésnek. Nagyjából ennyi megy el a Fiji-ben az ütemezésre. Ennek jó része a finomszemcsés preempció.
- a DX11 elavult, viszont az előnyösebb ütemezés az új API-kban, is többet ad. Például a Vulkan és a DX12 specifikációival csak a GCN tud mixált wavefront interleavinget és multi engine concurrency-t.

Senki sem dől be a hivatalos szóvivőnek, de mindenki hisz egy meg nem nevezett forrásnak.
#31 namaste tag Abu85 #30

Új Válasz 2015-11-27 20:35:43 #31
Új hozzászólás
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra
Privát üzenet küldése

namaste

tag

válasz Abu85 #30 üzenetére

A virtuális ISA-nak az a célja, hogy minél általánosabb, hordozhatóbb legyen, ne kötődjön a hardverhez.
Az egyeztetésen csak a hardver ISA-ban kell megegyezniük, a szoftvereseknek tudniuk kell a fordító optimalizáláshoz mennyi órajel alatt, milyen késleltetéssel hajt végre egy-egy utasítást. Nem hiszem, hogy a szoftveresek megmondják, mennyi tranzisztorból legyen az ALU, vagy a hardveresek megmondják mi legyen a PTX-ben, a fordító hogyan fordítson natív kódra.
A tranzisztorok 3.37%-a miatt nagy a fogyasztás?
Amúgy a Fiji nem jó példa, mert az energiahatékonysága a Maxwellhez hasonló. Ebben benne van a HBM, vagy a Nano órajel és feszültség visszavétele is.