Új hozzászólás Aktív témák
-
mThomm
csendes tag
Első nekifutásra sikerült Pacalnak olvasni
-
Fiery
veterán
Koszi, sajnos a Fiji alapu FirePro egyelore feher hollo kategoria. A FirePro S9150 pedig nem tamogatja az FP16-ot:
[[ Device Properties: ]]
Device Name: Hawaii
Video Adapter: AMD FirePro S9150 (FireGL V)
Device Type: GPU
Device Vendor: Advanced Micro Devices, Inc.
Device Version: OpenCL 1.2 AMD-APP (1573.4)
Device Profile: Full
Driver Version: 1573.4 (VM)[[ Half-Precision Floating-Point Capabilities: ]]
Correctly Rounded Divide and Sqrt: Not Supported
Denorms: Not Supported
IEEE754-2008 FMA: Not Supported
INF and NaNs: Not Supported
Rounding to Infinity: Not Supported
Rounding to Nearest Even: Not Supported
Rounding to Zero: Not Supported
Software Basic Floating-Point Operations: No[[ Device Extensions: ]]
...
cl_khr_fp16: Not Supported
cl_khr_fp64: Supported
...Persze lehet, hogy ez egy regi driver, es az ujabbakkal mar megy az FP16 a Hawaii/Grenada alapu FireProkon is (?) Mindenesetre bizom benne, hogy az AMD hamarosan a Fury szerian is engedelyezi az FP16-ot, az ugyanis egy nagyon erdekes feature lenne -- legalabbis szamomra.
-
cheatergs
senior tag
Na, talán most már vki megválaszolja, ha múltkor nem, szal: ez az FP16 az az FP16, aminél mindenki pofozta az Nv-t az FX-ek idején?
-
Abu85
HÁZIGAZDA
A DX12 driverben tuti benne van, mert a Fable Legendsben az UE4 FP16-os hardvereken FP16-os formátumokat használ. A többin pedig FP32-eseket. Ezért nyer némi extrát a GCN3 a GCN1/GCN2-höz képest.
Az OpenCL driverben szerintem csak a FirePro esetében van benne. Az előrébb jár a radeonos drivernél. A sima Catalystben biztosan nincs.
-
Goblin12
őstag
A HBM2 memóriákat a Samsung vagy a Hynix fogja szállítani, erről csak később születik majd döntés. Mivel a Samuval még perben vannak, így nagyon nagy valószínűséggel Hynix lesz.
Jesszus, végig olvastam amit össze írtatok a téma még érdekel is, de ez már a mély víznél is mélyebb.
-
Fiery
veterán
Koszi az infot. Azt szeretnem me'g megkerdezni, hogy a Fijinel mire van ahhoz szukseg, hogy az altalad emlitett FP16 kepessegeket munkara lehessen fogni? Mert az OpenCL azt jelzi, hogy nem tamogatja a cucc az FP16-ot. A hamarosan megjeleno Crimson driverben debutal az FP16 az AMD OpenCL drivereben?
-
Abu85
HÁZIGAZDA
Fiji használható deep learningre, de nagy probléma a memória kapacitása. Viszont FP16-ban 16 TFLOPS-ot tud, ami ma magasan a legjobb.
(#10) Fiery: Az extra tranyó dizájntól függ. Az AMD-nél például kétféle CU van. Egy normál multi-precision ALUs, és egy limitált. Előbbi tud 2:1-es FP32 : FP64-et, vagyis fele teljesítménnyel DP-t, míg utóbbinál nincs DP.
A normál tömb ugyanazon a node-on nagyjából +6%-kal foglal több helyet, mint a limitált.
A probléma a DP-vel nem az, hogy 6%-ot nem éri meg bevállalni, hanem rohadt nehéz olyan multi-precision ALU-t csinálni, ami 4:2:1 arányban tud FP16 : FP32 : FP64-et csak 6%-kal nagyobb lapkaterület igénylésével.
Az Intel például az inaktív 4:1-es DP-je nagyjából +15%-os extra. Az NV esetében pedig a DP ALU a Kepler óta különálló feldolgozó. -
szabi80sz
tag
Tényleg a deep learning-ben lesz jelentős a 16 bit. Ebben eddig is jobb volt az nVidia. Saját tapasztalat. A gond az AMD-nél szoftveres és hardveres. Korábban írtam nekik ez ügyben és megköszönték. Azóta jönnek az újabb és újabb előre mutató fejlesztéseik a(z általam is) leírt gyengeségeiket próbálják kiküszöbölni. Most legutóbb a Cuda vs OpenCl-es gondot próbálták megoldani ( [link] ), sajnos azért mert szükséges volt (mert az OpenCl nagyon gyenge a Cuda-hoz képest) . Én már annyit költöttem AMD-s videokártyákra, hogy nem merek már beruházni AMD gpu-ra.. Elolvastam a marketinget régebben is (itt a prohardver-en), bevásároltam és a valóság mindig siralmas volt.. folyamatosan csalódnom kellett a teljesítményben, pedig elméletben mindig szebbek voltak a számok, a gyakorlatban pedig egyéb korlátok akadtak.. Már nem merek AMD-vel próbálkozni, mert csak marketing oldalon látom a teljesítményt, meg a fórumos szájhősökben, a valóságban sajnos nem.
-
icp1970
senior tag
Nagyin ígéretesen hangzik.
-
polika
senior tag
Azt írják majdnem mindenütt hogy az FP16-al a deep learning gyorsítását várják, mert ott nem szükséges ennél nagyobb pontosság, viszont "darabszámra" baromi sokat kell számolni. És mivel nagyon jól párhuzamosítható még ideálisabb lenne GPU-ra, ha a gyorsítókártya ennél a precíziónál dupla teljesítményt produkálna.
Én ahogy látom NV megint időben reagált egy valós piaci igényre, és emiatt megint baromi sok megrendelésük lesz ebben a szegmensben (manapság ezek deep learninges cuccok menőnek számítanak és nagyon sok helyen próbálják bevetni őket...)
Nem tudom hogy AMD alszik, vagy neki is lesz egy ilyesmire kihegyezett dizájnja, vagy inkább más piaci szegmensre pályáznak, maradnak a mérnöki feladatoknál ahol szükséges a nagy pontosság, esetleg Abu többet tud
-
Fiery
veterán
válasz
#06658560 #11 üzenetére
"Az rendben van, viszont ez a nagy lépcső azt eredményezi, hogy potenciálisan kevésbé éri meg egy ilyet venni két egy GPU-s megoldás helyett."
Ez legyen azoknak a problemaja, akik ezzel foglalkoznak
Eleg jo valasztek van HPC megoldasbol (pl. FirePro S, ugyebar), nem kotelezo 2 GPU-s Teslat venni.
A GPGPU programozas amugy is arrol szol, hogy ha lehet, egymastol fuggetlen adatokat adj a GPU-nak, feldolgozasra. Ha teljesen fuggetlen, oriasi mennyisegu adatot tudsz adni a GPU-nak, az a legjobb, minden GPU szamara. Pl. egy 1 gigapixeles foto, aminek minden pixelet le kell sotetiteni egyforman 50%-kal, na ez egy tuti melo a GPU-knak
"Az egységesen kezelhető memória hiánya a problémám így."
Arra a Knights Landing lesz az igazi megoldas
Viccet felreteve, egy sima 1 GPU-s videokartyan sem celszeru a memoriabol ossze-vissza olvasgatni/irni, mert agyonvagja az elerheto teljesitmenyt. A compute feladatoknal le vannak osztva a lapok, es torekedni kell arra, hogy mindenki csak a sajat portajan sepregessen. Azaz, pl. egy 64 CU-s GPU eseteben kepzeletben oszd fel a memoriat 64 szeletre, minden CU kap egy szeletet, es oda garazdalkodik (ir/olvas). Ez az idealis leosztas, minden mas lassitja a feldolgozast. Az, amit egyesek kommunikalnak egyes hirportalokon, hogy a GPU-knak csak odaadod az adatokat, es mindent megoldanak maguktol, az csupan a naiv, favago megoldas. Nyilvan van olyan feladat, aminel ez is mukodik (lasd fentebb a foto feldolgozasi pelda), de sajnos sok esetben nagyon komolyan oda kell figyelni az adott platform architekturalis jellemzoire. Ezert sem mindegy, hogy egy compute kodot milyen vason futtatsz, es ezert sem problema az, ha van egy specialis architekturalis jellemzoje egy GPU-nak. Sok esetben elobb valasztjak ki a hardvert, es utana irjak meg hozza a compute kodot, figyelembe veve az osszes hardveres jellemzot/sajatossagot. Es ezert is nehez a compute teljesitmenyt portolni, ahogy Abu is mondta mar kb. parezer alkalommal
-
Madárpók
aktív tag
Sok helyre elég a szimpla pontosság, ahol kell egy kevés duplával megtámogatva, de pl. iteratív megoldást kívánó problémáknál, mátrixok diagonalizálásánál komolyan kellhet a dupla pontosság.
-
Abu85
HÁZIGAZDA
Az NVLINK-et csak az IBM processzorai támogatják. Az Intel/AMD nem, tehát PC-be nem jó. Esetleg olyan formában lehetséges, hogy az NV készít egy PCI Express NVLINK vezérlőt, amelyhez csinálnak megfelelő portokat az alaplapon, de ilyenkor a kiadott kártyák nem használhatók PCI Express portokban.
(#6) Fiery: Ezekről elszórva írtunk korábban.
Az FP16 ott jön jól, ahol nem szükséges az a pontosság, amit az FP32 ad. Ez még a játékokra is jellemző lesz, mert a DX12 pont támogatja.
Az AMD a GCN3 óta támogatja az FP16-ot. Egy CU 64 FP32-es, vagy 128 FP16-os műveletre képes. Magyarul az FP16 kétszer gyorsabb elméletben.
A Pascal esetében is az lesz bevezetve, amit az AMD bevezetett a GCN3-ban. Ott is kétszer gyorsabb lesz elméletben az FP16, mint az FP32. -
lenox
veterán
válasz
#06658560 #11 üzenetére
Ezt nem annyira ertem. Teszem azt egy gpus tesla 4000, ket gpus 6000, es a ket gpusnal az eddigiekhez kepest van olyan opcio, hogy az egyik adatait a masik 80 GB/sec-es sebesseggel eleri. Szoval a ket gpus olcsobb, mint 2 egy gpus (mondjuk altalaban tdp limit miatt nem ketszer gyorsabb, hanem pl. pont 1.5-szor), ellenben csak 1 kartyahelyet foglal, tehat ugyanakkora helyre 1.5-szer akkora teljesitmenyt tudsz berakni. Miert erne meg akkor kevesbe ilyet venni?
-
#06658560
törölt tag
Az rendben van, viszont ez a nagy lépcső azt eredményezi, hogy potenciálisan kevésbé éri meg egy ilyet venni két egy GPU-s megoldás helyett. És inkább egymástól függetlenül párhuzamosítható, mint egymással átszőtt szálakban kell gondolkodni. Az egységesen kezelhető memória hiánya a problémám így.
-
Fiery
veterán
A fizikailag is limitalt FP64 vegrehajtasi teljesitmeny rengeteg tranzisztort sporol. De hogy a tranzisztor sporolas vagy a fogyasztas minimalizalas-e az oka a Maxwellnel a durvan megvagott FP64 teljesitmenynek, azt nem tudom. Az viszont teny, hogy a konzumer piacnak tok mindegy az FP64 teljesitmeny, sot, a legtobb esetben az sem problema, ha nem is tamogatja a GPU az FP64-et (ld. Intel).
A GCN kapcsan pedig az biztos, hogy oriasi tranzisztor mennyiseget es igy lapkateruletet is lehetne sporolni a Hawaii/Grenada kapcsan, ha nem lenne ilyen utos az FP64 teljesitmeny. Az AMD reszerol a Hawaii/Grenada egy jol lathatoan kompromisszumos megoldas. Valojaban jobb lett volna 2 verziot kesziteni ebbol a GPU-bol, egyet a konzumer piacra, egyet pedig a HPC piacra. De ugyanez a kompromisszum figyelheto meg az nVIDIA-nal is, csak naluk kicsit tobb penz befolyik a HPC piacbol, igy ott kevesbe ervagas, hogy relative olcson kell eladni a bazinagy es mestersegesen korlatozott FP64 teljesitmenyu GPU-kat a konzumer piacra (ld. GK110).
-
stratova
veterán
-
Fiery
veterán
Nyilvan aki egy (vagy tobb) 2 GPU-s Teslat vasarol csillio Ft-ert, az nem hulye, hanem pontosan tudja, hogy mit vesz, es azt hogyan fogja tudni meghajtani. A 2 GPU-t osszekoto szuk csatornara remek megoldas, ha a 2 GPU fuggetlen adatokon dolgozik. Eddig is boven volt a fejlesztoknek lehetosege figyelembe venni az ilyen architekturalis limiteket, pl. a szálak ill. work-groupok kozotti kommunikacio mar regota megoldott. Ha a maximalis teljesitmenyt akarod elerni, mar most is igyekszel CU-n (SP-n) belul maradni. Ha pedig egy fejleszto ehhez mar hozzaszokott, nem nagy kaland egy GPU-n belul maradni.
-
Fiery
veterán
Mi koze az FP64 teljesitmenynek a jatekokhoz ill. a mobil piachoz? Az, hogy mestersegesen korlatozzak az FP64 teljesitmenyt, nem a fogyasztas miatt van, hanem a termek szegmentalas okan. A fogyasztas lejjebb szoritasa pedig megoldott minden modern Radeonon az orajel es Vcore finom szabalyozasaval.
A hirhez: esetleg erdemes lenne arrol is irni, ebben a hirben vagy egy kulon hirben/cikkben, hogy mire es hogyan lehet hasznalni az FP16-ot. Milyen szamitasi feladatoknal jon ez jol? Mi varhato az AMD reszerol az FP16 kapcsan? A Pascal mennyivel gyorsabban hajtja vegre az FP16 szamitasokat, mint az FP32-t?
-
#06658560
törölt tag
Az 1TB/s vs. 80GB/s sávszél komoly dilemma lesz programozáskor.
-
stratova
veterán
Várhatóan a 32 bites, vagyis a szimpla pontosság melletti tempó negyede vagy nyolcada áll majd rendelkezésre.
Ez egy vállalható kompromisszumnak tűnik. Nvidia és AMD termékei közül utoljára Kepler tudott 1/3-as arányt felmutatni, GCN 1.0 Tahitije 1/4-et, GCN 1.1 Hawaii 1/8-at GCN 1.2 Tonga ill. Fury 1/16-ot míg Maxwell 1/32-t.
Pardon elvileg a FirePro S sorozatban 1/2 az arány Hawaii (és Grenada) esetében, de ha ezt is kétféleképpen tudják konfigurálni mi a gátja annak, hoyg a játékos ill mobil piacra szánt variánsok komolyabb csonkítást kapjanak egy esetlegesenjobb játékteljesítmény/fogyasztás mutató reményében?
-
fijiből nem készült firepro igaz? akkor a hpc szegmensbe az nvidia szállíthat először hbm(2)es gpu-t?
az nvlink a konzumer szegmensben is maradhat kétgpus kártyáknál? arról esetleg van hír, hogy kívülre is kivezetnék, és leváltaná az sli hidat?
Új hozzászólás Aktív témák
ph A fejlesztés első körben a HPC-piacot célozza meg, és már megrendelések is vannak rá.
- sziku69: Szólánc.
- Motorola Edge 60 Fusion - nem csak a forma időtálló
- sziku69: Fűzzük össze a szavakat :)
- Gaming notebook topik
- ASUS routerek
- Épített vízhűtés (nem kompakt) topic
- GeForce RTX 5060 Ti: Ha az ár jó, minden jó (lenne)
- exHWSW - Értünk mindenhez IS
- Kés topik
- Samsung Galaxy Watch (Tizen és Wear OS) ingyenes számlapok, kupon kódok
- További aktív témák...
- BESZÁMÍTÁS! GIGABYTE Z370P i5 9500 16GB DDR4 512GB SSD RX 5700XT 8GB Rampage SHIVA Zalman 600W
- Telefon felvásárlás!! Honor 200 Lite, Honor 200, Honor 200 Pro, Honor 200 Smart
- Eredeti, új Lenovo 330W töltők - ADL330SDC3A
- IPhone 16 256GB!!! Bontatlan! One függő! Jótállás: 2028.04.04.-ig
- ÁRGARANCIA!Épített KomPhone Ryzen 5 5600X 16/32/64GB RAM RX 7600XT 16GB GAMER PC termékbeszámítással
Állásajánlatok
Cég: PCMENTOR SZERVIZ KFT.
Város: Budapest
Cég: Laptopszaki Kft.
Város: Budapest