- Megbírságolták a Razert a Zephyr maszkok miatt
- Mini-ITX
- NVIDIA GeForce RTX 3080 / 3090 / Ti (GA102)
- AMD K6-III, és minden ami RETRO - Oldschool tuning
- SSD kibeszélő
- Autóhifi
- Projektor topic
- Házimozi belépő szinten
- Intel Core i5 / i7 / i9 "Alder Lake-Raptor Lake/Refresh" (LGA1700)
- Milyen billentyűzetet vegyek?
Hirdetés
-
Letartóztatták a bitcoin-Jézust
it Amerikai adókerülés vádjával, Spanyolországban tartóztatták le a bitcoin-Jézusként ismert Roger Vert.
-
Senua's Saga: Hellblade II - Íme a végleges gépigény
gp A folytatás megjelenéséig kicsivel több mint két hetet kell már csak várnunk.
-
AMD Radeon undervolt/overclock
lo Minden egy hideg, téli estén kezdődött, mikor rájöttem, hogy már kicsit kevés az RTX2060...
Új hozzászólás Aktív témák
-
nagyúr
fijiből nem készült firepro igaz? akkor a hpc szegmensbe az nvidia szállíthat először hbm(2)es gpu-t?
az nvlink a konzumer szegmensben is maradhat kétgpus kártyáknál? arról esetleg van hír, hogy kívülre is kivezetnék, és leváltaná az sli hidat?Tudod, mit jelent az, hogy nemezis? Az érintett, erősebb fél kinyilatkoztatása a méltó büntetés mértékét illetően. Az érintett fél jelen esetben egy szadista állat... én.
-
stratova
veterán
Várhatóan a 32 bites, vagyis a szimpla pontosság melletti tempó negyede vagy nyolcada áll majd rendelkezésre.
Ez egy vállalható kompromisszumnak tűnik. Nvidia és AMD termékei közül utoljára Kepler tudott 1/3-as arányt felmutatni, GCN 1.0 Tahitije 1/4-et, GCN 1.1 Hawaii 1/8-at GCN 1.2 Tonga ill. Fury 1/16-ot míg Maxwell 1/32-t.
Pardon elvileg a FirePro S sorozatban 1/2 az arány Hawaii (és Grenada) esetében, de ha ezt is kétféleképpen tudják konfigurálni mi a gátja annak, hoyg a játékos ill mobil piacra szánt variánsok komolyabb csonkítást kapjanak egy esetlegesenjobb játékteljesítmény/fogyasztás mutató reményében?
[ Szerkesztve ]
-
#06658560
törölt tag
Az 1TB/s vs. 80GB/s sávszél komoly dilemma lesz programozáskor.
-
Fiery
veterán
Mi koze az FP64 teljesitmenynek a jatekokhoz ill. a mobil piachoz? Az, hogy mestersegesen korlatozzak az FP64 teljesitmenyt, nem a fogyasztas miatt van, hanem a termek szegmentalas okan. A fogyasztas lejjebb szoritasa pedig megoldott minden modern Radeonon az orajel es Vcore finom szabalyozasaval.
A hirhez: esetleg erdemes lenne arrol is irni, ebben a hirben vagy egy kulon hirben/cikkben, hogy mire es hogyan lehet hasznalni az FP16-ot. Milyen szamitasi feladatoknal jon ez jol? Mi varhato az AMD reszerol az FP16 kapcsan? A Pascal mennyivel gyorsabban hajtja vegre az FP16 szamitasokat, mint az FP32-t?
[ Szerkesztve ]
-
Fiery
veterán
Nyilvan aki egy (vagy tobb) 2 GPU-s Teslat vasarol csillio Ft-ert, az nem hulye, hanem pontosan tudja, hogy mit vesz, es azt hogyan fogja tudni meghajtani. A 2 GPU-t osszekoto szuk csatornara remek megoldas, ha a 2 GPU fuggetlen adatokon dolgozik. Eddig is boven volt a fejlesztoknek lehetosege figyelembe venni az ilyen architekturalis limiteket, pl. a szálak ill. work-groupok kozotti kommunikacio mar regota megoldott. Ha a maximalis teljesitmenyt akarod elerni, mar most is igyekszel CU-n (SP-n) belul maradni. Ha pedig egy fejleszto ehhez mar hozzaszokott, nem nagy kaland egy GPU-n belul maradni.
[ Szerkesztve ]
-
stratova
veterán
Hmm úgy rémlik korábban arról volt szó, hogy mivel Kepler/Maxwell szervezése más, így ott tényleges megtakarítás lehet az FP64 teljesítmény csökkentése. De nem tudom ez mennyire lenne igaz GCN-re, amellett hogy bevett szokás a Vcore és órajelmérséklés, emiatt is kérdeztem.
[ Szerkesztve ]
-
Fiery
veterán
A fizikailag is limitalt FP64 vegrehajtasi teljesitmeny rengeteg tranzisztort sporol. De hogy a tranzisztor sporolas vagy a fogyasztas minimalizalas-e az oka a Maxwellnel a durvan megvagott FP64 teljesitmenynek, azt nem tudom. Az viszont teny, hogy a konzumer piacnak tok mindegy az FP64 teljesitmeny, sot, a legtobb esetben az sem problema, ha nem is tamogatja a GPU az FP64-et (ld. Intel).
A GCN kapcsan pedig az biztos, hogy oriasi tranzisztor mennyiseget es igy lapkateruletet is lehetne sporolni a Hawaii/Grenada kapcsan, ha nem lenne ilyen utos az FP64 teljesitmeny. Az AMD reszerol a Hawaii/Grenada egy jol lathatoan kompromisszumos megoldas. Valojaban jobb lett volna 2 verziot kesziteni ebbol a GPU-bol, egyet a konzumer piacra, egyet pedig a HPC piacra. De ugyanez a kompromisszum figyelheto meg az nVIDIA-nal is, csak naluk kicsit tobb penz befolyik a HPC piacbol, igy ott kevesbe ervagas, hogy relative olcson kell eladni a bazinagy es mestersegesen korlatozott FP64 teljesitmenyu GPU-kat a konzumer piacra (ld. GK110).
[ Szerkesztve ]
-
#06658560
törölt tag
Az rendben van, viszont ez a nagy lépcső azt eredményezi, hogy potenciálisan kevésbé éri meg egy ilyet venni két egy GPU-s megoldás helyett. És inkább egymástól függetlenül párhuzamosítható, mint egymással átszőtt szálakban kell gondolkodni. Az egységesen kezelhető memória hiánya a problémám így.
-
lenox
veterán
válasz #06658560 #11 üzenetére
Ezt nem annyira ertem. Teszem azt egy gpus tesla 4000, ket gpus 6000, es a ket gpusnal az eddigiekhez kepest van olyan opcio, hogy az egyik adatait a masik 80 GB/sec-es sebesseggel eleri. Szoval a ket gpus olcsobb, mint 2 egy gpus (mondjuk altalaban tdp limit miatt nem ketszer gyorsabb, hanem pl. pont 1.5-szor), ellenben csak 1 kartyahelyet foglal, tehat ugyanakkora helyre 1.5-szer akkora teljesitmenyt tudsz berakni. Miert erne meg akkor kevesbe ilyet venni?
[ Szerkesztve ]
-
Abu85
HÁZIGAZDA
Az NVLINK-et csak az IBM processzorai támogatják. Az Intel/AMD nem, tehát PC-be nem jó. Esetleg olyan formában lehetséges, hogy az NV készít egy PCI Express NVLINK vezérlőt, amelyhez csinálnak megfelelő portokat az alaplapon, de ilyenkor a kiadott kártyák nem használhatók PCI Express portokban.
(#6) Fiery: Ezekről elszórva írtunk korábban.
Az FP16 ott jön jól, ahol nem szükséges az a pontosság, amit az FP32 ad. Ez még a játékokra is jellemző lesz, mert a DX12 pont támogatja.
Az AMD a GCN3 óta támogatja az FP16-ot. Egy CU 64 FP32-es, vagy 128 FP16-os műveletre képes. Magyarul az FP16 kétszer gyorsabb elméletben.
A Pascal esetében is az lesz bevezetve, amit az AMD bevezetett a GCN3-ban. Ott is kétszer gyorsabb lesz elméletben az FP16, mint az FP32.[ Szerkesztve ]
Senki sem dől be a hivatalos szóvivőnek, de mindenki hisz egy meg nem nevezett forrásnak.
-
Madárpók
aktív tag
Sok helyre elég a szimpla pontosság, ahol kell egy kevés duplával megtámogatva, de pl. iteratív megoldást kívánó problémáknál, mátrixok diagonalizálásánál komolyan kellhet a dupla pontosság.
-
Fiery
veterán
válasz #06658560 #11 üzenetére
"Az rendben van, viszont ez a nagy lépcső azt eredményezi, hogy potenciálisan kevésbé éri meg egy ilyet venni két egy GPU-s megoldás helyett."
Ez legyen azoknak a problemaja, akik ezzel foglalkoznak Eleg jo valasztek van HPC megoldasbol (pl. FirePro S, ugyebar), nem kotelezo 2 GPU-s Teslat venni.
A GPGPU programozas amugy is arrol szol, hogy ha lehet, egymastol fuggetlen adatokat adj a GPU-nak, feldolgozasra. Ha teljesen fuggetlen, oriasi mennyisegu adatot tudsz adni a GPU-nak, az a legjobb, minden GPU szamara. Pl. egy 1 gigapixeles foto, aminek minden pixelet le kell sotetiteni egyforman 50%-kal, na ez egy tuti melo a GPU-knak
"Az egységesen kezelhető memória hiánya a problémám így."
Arra a Knights Landing lesz az igazi megoldas Viccet felreteve, egy sima 1 GPU-s videokartyan sem celszeru a memoriabol ossze-vissza olvasgatni/irni, mert agyonvagja az elerheto teljesitmenyt. A compute feladatoknal le vannak osztva a lapok, es torekedni kell arra, hogy mindenki csak a sajat portajan sepregessen. Azaz, pl. egy 64 CU-s GPU eseteben kepzeletben oszd fel a memoriat 64 szeletre, minden CU kap egy szeletet, es oda garazdalkodik (ir/olvas). Ez az idealis leosztas, minden mas lassitja a feldolgozast. Az, amit egyesek kommunikalnak egyes hirportalokon, hogy a GPU-knak csak odaadod az adatokat, es mindent megoldanak maguktol, az csupan a naiv, favago megoldas. Nyilvan van olyan feladat, aminel ez is mukodik (lasd fentebb a foto feldolgozasi pelda), de sajnos sok esetben nagyon komolyan oda kell figyelni az adott platform architekturalis jellemzoire. Ezert sem mindegy, hogy egy compute kodot milyen vason futtatsz, es ezert sem problema az, ha van egy specialis architekturalis jellemzoje egy GPU-nak. Sok esetben elobb valasztjak ki a hardvert, es utana irjak meg hozza a compute kodot, figyelembe veve az osszes hardveres jellemzot/sajatossagot. Es ezert is nehez a compute teljesitmenyt portolni, ahogy Abu is mondta mar kb. parezer alkalommal
-
polika
senior tag
Azt írják majdnem mindenütt hogy az FP16-al a deep learning gyorsítását várják, mert ott nem szükséges ennél nagyobb pontosság, viszont "darabszámra" baromi sokat kell számolni. És mivel nagyon jól párhuzamosítható még ideálisabb lenne GPU-ra, ha a gyorsítókártya ennél a precíziónál dupla teljesítményt produkálna.
Én ahogy látom NV megint időben reagált egy valós piaci igényre, és emiatt megint baromi sok megrendelésük lesz ebben a szegmensben (manapság ezek deep learninges cuccok menőnek számítanak és nagyon sok helyen próbálják bevetni őket...)
Nem tudom hogy AMD alszik, vagy neki is lesz egy ilyesmire kihegyezett dizájnja, vagy inkább más piaci szegmensre pályáznak, maradnak a mérnöki feladatoknál ahol szükséges a nagy pontosság, esetleg Abu többet tud
-
icp1970
senior tag
Nagyin ígéretesen hangzik.
-
szabi80sz
tag
Tényleg a deep learning-ben lesz jelentős a 16 bit. Ebben eddig is jobb volt az nVidia. Saját tapasztalat. A gond az AMD-nél szoftveres és hardveres. Korábban írtam nekik ez ügyben és megköszönték. Azóta jönnek az újabb és újabb előre mutató fejlesztéseik a(z általam is) leírt gyengeségeiket próbálják kiküszöbölni. Most legutóbb a Cuda vs OpenCl-es gondot próbálták megoldani ( [link] ), sajnos azért mert szükséges volt (mert az OpenCl nagyon gyenge a Cuda-hoz képest) . Én már annyit költöttem AMD-s videokártyákra, hogy nem merek már beruházni AMD gpu-ra.. Elolvastam a marketinget régebben is (itt a prohardver-en), bevásároltam és a valóság mindig siralmas volt.. folyamatosan csalódnom kellett a teljesítményben, pedig elméletben mindig szebbek voltak a számok, a gyakorlatban pedig egyéb korlátok akadtak.. Már nem merek AMD-vel próbálkozni, mert csak marketing oldalon látom a teljesítményt, meg a fórumos szájhősökben, a valóságban sajnos nem.
-
Abu85
HÁZIGAZDA
Fiji használható deep learningre, de nagy probléma a memória kapacitása. Viszont FP16-ban 16 TFLOPS-ot tud, ami ma magasan a legjobb.
(#10) Fiery: Az extra tranyó dizájntól függ. Az AMD-nél például kétféle CU van. Egy normál multi-precision ALUs, és egy limitált. Előbbi tud 2:1-es FP32 : FP64-et, vagyis fele teljesítménnyel DP-t, míg utóbbinál nincs DP.
A normál tömb ugyanazon a node-on nagyjából +6%-kal foglal több helyet, mint a limitált.
A probléma a DP-vel nem az, hogy 6%-ot nem éri meg bevállalni, hanem rohadt nehéz olyan multi-precision ALU-t csinálni, ami 4:2:1 arányban tud FP16 : FP32 : FP64-et csak 6%-kal nagyobb lapkaterület igénylésével.
Az Intel például az inaktív 4:1-es DP-je nagyjából +15%-os extra. Az NV esetében pedig a DP ALU a Kepler óta különálló feldolgozó.[ Szerkesztve ]
Senki sem dől be a hivatalos szóvivőnek, de mindenki hisz egy meg nem nevezett forrásnak.
-
Fiery
veterán
Koszi az infot. Azt szeretnem me'g megkerdezni, hogy a Fijinel mire van ahhoz szukseg, hogy az altalad emlitett FP16 kepessegeket munkara lehessen fogni? Mert az OpenCL azt jelzi, hogy nem tamogatja a cucc az FP16-ot. A hamarosan megjeleno Crimson driverben debutal az FP16 az AMD OpenCL drivereben?
-
Goblin12
őstag
A HBM2 memóriákat a Samsung vagy a Hynix fogja szállítani, erről csak később születik majd döntés. Mivel a Samuval még perben vannak, így nagyon nagy valószínűséggel Hynix lesz.
Jesszus, végig olvastam amit össze írtatok a téma még érdekel is, de ez már a mély víznél is mélyebb.
-
Abu85
HÁZIGAZDA
A DX12 driverben tuti benne van, mert a Fable Legendsben az UE4 FP16-os hardvereken FP16-os formátumokat használ. A többin pedig FP32-eseket. Ezért nyer némi extrát a GCN3 a GCN1/GCN2-höz képest.
Az OpenCL driverben szerintem csak a FirePro esetében van benne. Az előrébb jár a radeonos drivernél. A sima Catalystben biztosan nincs.
[ Szerkesztve ]
Senki sem dől be a hivatalos szóvivőnek, de mindenki hisz egy meg nem nevezett forrásnak.
-
cheatergs
senior tag
Na, talán most már vki megválaszolja, ha múltkor nem, szal: ez az FP16 az az FP16, aminél mindenki pofozta az Nv-t az FX-ek idején?
Mindig minden mindegy
-
Fiery
veterán
Koszi, sajnos a Fiji alapu FirePro egyelore feher hollo kategoria. A FirePro S9150 pedig nem tamogatja az FP16-ot:
[[ Device Properties: ]]
Device Name: Hawaii
Video Adapter: AMD FirePro S9150 (FireGL V)
Device Type: GPU
Device Vendor: Advanced Micro Devices, Inc.
Device Version: OpenCL 1.2 AMD-APP (1573.4)
Device Profile: Full
Driver Version: 1573.4 (VM)[[ Half-Precision Floating-Point Capabilities: ]]
Correctly Rounded Divide and Sqrt: Not Supported
Denorms: Not Supported
IEEE754-2008 FMA: Not Supported
INF and NaNs: Not Supported
Rounding to Infinity: Not Supported
Rounding to Nearest Even: Not Supported
Rounding to Zero: Not Supported
Software Basic Floating-Point Operations: No[[ Device Extensions: ]]
...
cl_khr_fp16: Not Supported
cl_khr_fp64: Supported
...Persze lehet, hogy ez egy regi driver, es az ujabbakkal mar megy az FP16 a Hawaii/Grenada alapu FireProkon is (?) Mindenesetre bizom benne, hogy az AMD hamarosan a Fury szerian is engedelyezi az FP16-ot, az ugyanis egy nagyon erdekes feature lenne -- legalabbis szamomra.
[ Szerkesztve ]
-
mThomm
csendes tag
Első nekifutásra sikerült Pacalnak olvasni
-
Abu85
HÁZIGAZDA
Új hozzászólás Aktív témák
- Megbírságolták a Razert a Zephyr maszkok miatt
- Formula-1
- Samsung Galaxy S23 és S23+ - ami belül van, az számít igazán
- Redmi Note 13 Pro+ - a fejlődés íve
- Súlyos adatvédelmi botrányba kerülhet a ChatGPT az EU-ban
- Poco X6 Pro - ötös alá
- Futás, futópályák
- Crypto Trade
- Mini-ITX
- Orvosi kérdések
- További aktív témák...
- 1080ti ichill x4
- SAPPHIRE Radeon RX 6950XT OC NITRO+ 16GB GDDR6 - ÚJ - GARANCIA - Beszámítás: OK
- Eladó AMD ASUS Radeon HD7770 2 GB PCI-E videokártya
- -Keresek- Nvidia 40 vagy 30 RTX kártyát X-box Series X beszámítással. Természetesen ráfizetéssel.
- -Keresek- Nvidia RTX kártyát X-box Series X beszámítással és ráfizetéssel és csak személyesen.
Állásajánlatok
Cég: Ozeki Kft.
Város: Debrecen
Cég: Promenade Publishing House Kft.
Város: Budapest