Keresés: - AMD vs. INTEL vs. NVIDIA - PROHARDVER! Hozzászólások

Hirdetés

Legfrissebb anyagok

PROHARDVER! témák

Mobilarena témák

IT café témák

GAMEPOD témák

LOGOUT témák

Keresés

Új hozzászólás Aktív témák

#34990 namaste tag Abu85 #34969

Új Válasz 2018-09-16 22:07:00 #34990
Új hozzászólás
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra
Privát üzenet küldése

namaste

tag

válasz Abu85 #34969 üzenetére

A Forza Horizon 4-ben 4K felbontáson a 1080Ti jobb mint a Vega 64, 1440p ugyanez. Ez igen meglepő, mert mindig azt írod, az AMD driver így, a Vega úgy, az NV driver meg amúgy, de a magasabb felbontásokon mégis elfogy a lendület. És nem csak ebben a játékban, volt már több példa is erre. Tehát, amikor 3 éve elkészült az AMD DX12 driver, akkor nem gondoltak a nagyobb felbontásokra.
A wccftech tesztje szerint négy mag/négy szál felett az átlag FPS alig nő, ha engedélyezik az SMT-t az jó hatással van a minimum FPS-re. Hol van a 64 szálig skálázódó motor?
#34810 namaste tag Petykemano #34807

Új Válasz 2018-09-06 22:28:22 #34810
Új hozzászólás
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra
Privát üzenet küldése

namaste

tag

válasz Petykemano #34807 üzenetére

Neked honnan jönnek a számok?
2018 2. negyedévben 11 millió kártyát adtak el, tavaly összesen 52 milliót.
#33804 namaste tag Loha #33794

Új Válasz 2018-05-10 20:36:53 #33804
Új hozzászólás
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra
Privát üzenet küldése

namaste

tag

válasz Loha #33794 üzenetére

Nem ezt volt a hozzászólásom lényege, hanem az, hogy teljesen mindegy milyen elnevezést használnak.
Ha valaki akarja, sorba rendezheti az AMD GPU-kat CU szám, méret vagy tranzisztorszám alapján és megkapja melyik hanyadik a sorban.
#33791 namaste tag keIdor #33731

Új Válasz 2018-05-09 19:38:42 #33791
Új hozzászólás
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra
Privát üzenet küldése

namaste

tag

válasz keIdor #33731 üzenetére

Eltolódtak a kategóriák, de nem a kódnév számít, hanem a teljesítmény. Számít mit kínál a konkurencia, mindig egymáshoz igazodnak. Ha a GF104 felvette volna a versenyt a HD 5870-nel, akkor az lett volna a GTX 480.
Fermiből nem volt GF102, Maxwellből se volt GM202. Kepler, Pascal, Volta csúcs GPU-k nem jöttek ki játékosoknak, csak a pro felhasználóknak. (Igaz, nincs Volta játékos kártya.)
Ha már vs, az AMD csinálja jól, nem számozza a GPU-kat, hanem neveket ad és 1. vonalbeli GPU-t küld a 3. vonalbeli ellen.
(#33739) TTomax
A HPC és a gépi tanulás is vágott GPU-t kap, ráadásul prémium árat fizetnek érte.
#30603 namaste tag Abu85 #30588

Új Válasz 2017-09-26 23:20:42 #30603
Új hozzászólás
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra
Privát üzenet küldése

namaste

tag

válasz Abu85 #30588 üzenetére

A többszálú gyorsítás mértéke függ a játéktól, hogyan használják az API-t.
Azért nem tudják az NV GPU-k ugyanúgy kezelni a StructuredBuffert mint a GCN, mert a konstans pufferre 64 kB-os mérethatár van. Ezért a shader fordító csak akkor használja, ha cbuffert szerepel a shader kódban vagy driverből egyedileg megoldják. Ha eltörlik ezt a korlátot, az egy megoldás.
#30578 namaste tag Abu85 #30558

Új Válasz 2017-09-22 23:59:02 #30578
Új hozzászólás
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra
Privát üzenet küldése

namaste

tag

válasz Abu85 #30558 üzenetére

Az API felépítése miatt nem lehet kihasználni a sok magot: soros feldolgozás, felesleges ellenőrzések, ugyanazt az adatot a CPU az egyik kezéből (játék) a másik kezébe (API/driver) teszi és közben a GPU vár.
A nyílt forrású Mesa OpenGL többszálú driverrel már vannak eredmények: nem működik, nincs érezhető hatása, lassul, illetve 5-10-20-...% FPS javulás. Egyelőre még fejlesztik.
Másolás csak DX11-hez kell a DX11 korlátai miatt, mert nem tud egyszerre kezelni cbuffert és tömböt. És még másolással együtt is megéri, gyorsabb.
Megnéztem GCN-en, lényegében ugyanazt a kódot fordítja StructuredBuffer és cbuffer használata esetén. A GCN fordító felismeri, hogy csak olvasás történik és az adatok ugyanazok minden szál számára, ezért a skalár egységen keresztül olvassa be a skalár regiszterekbe. Ez megmagyarázza miért mindegy a GCN-nek milyen kódot kap.
Ha az AMD trükközik, akkor az NV-nek is lehet. De ez nem trükközés, hanem okos fordítás.
Ez egy két és fél évvel ezelőtti cikk, érdemes lenne megnézni, hogy a régi és a mai driverekkel mennyi a különbség.
#30552 namaste tag Abu85 #30459

Új Válasz 2017-09-21 21:20:49 #30552
Új hozzászólás
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra
Privát üzenet küldése

namaste

tag

válasz Abu85 #30459 üzenetére

Hogy is van ez? Egyrészt "a driver elveszi az erőforrást a programtól", másrészt "a zöld paca egy kihasználhatatlan CPU idő".
Ha a többszálú drivernek nincs értelme, akkor az AMD miért fejlesztett ilyet?
Hol lehet megnézni ezt az előadást?
Azért kell a külön cache, mert ha az L1-en osztozik pl. a textúra adatokkal, akkor felülírják egymás adatait és többször kell a memóriából olvasni, valamint egyszerre lehet hozzáférni mindkettőhöz.
Konstans pufferbe a GPU nem ír, azért konstans, mert nem változik a tartalma. Az írható puffereket textúra, surface vagy egyszerű memória írással érik el.
Még egyszer, a GCN a konstans adatokat a Scalar Data Cache-en keresztül éri el.
#30458 namaste tag Loha #30456

Új Válasz 2017-09-19 23:39:18 #30458
Új hozzászólás
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra
Privát üzenet küldése

namaste

tag

válasz Loha #30456 üzenetére

Mindkét GPU akkor a legerősebb volt, ugyanabban a kategóriában. Méretre 352 vs. 294 mm², ez 20% differencia. Számítási teljesítményben és memória sávszélességben a Tahiti volt jobb, grafikában (háromszög, TEX, ROP) a GK104.
#30457 namaste tag Abu85 #30438

Új Válasz 2017-09-19 22:41:16 #30457
Új hozzászólás
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra
Privát üzenet küldése

namaste

tag

válasz Abu85 #30438 üzenetére

A videóban is az van, hogy a program nem használja ki a magokat, tehát marad CPU idő a driver szálaknak.
Konstans cache a GCN-ben is van, Scalar Data Cache (K$) a neve, igaz ez írható.
A DX12-ben is van konstans memóriaterület (CBV), ezek gyors elérésére van a GPU-kban dedikált cache.
"Az OS nem ismeri, hogy van egy ilyen lehetőség a hardverben így nem is használja."
De, a hardverben be vannak drótozva az összeköttetések és azért van a driver, hogy az API absztrakciós szintjét leképezze a konkrét hardverre.
"Ez a DX12 egyik nagy újítása, hogy a Microsoft betervezte azt, hogy minden pufferelérés ugyanolyan gyorsnak kell lennie."
Akkor GCN Scalar Data Cache is megy a levesbe.
#30391 namaste tag Abu85 #30375

Új Válasz 2017-09-19 00:01:17 #30391
Új hozzászólás
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra
Privát üzenet küldése

namaste

tag

válasz Abu85 #30375 üzenetére

Sok DX11 játék nem használja ki a négy magot, így marad CPU idő a drivernek.
Az MS-t nem volt nehéz meggyőzni, hiszen az Xboxban AMD GPU van. Biztos az AMD mindig meglepődik, amikor negyedévente megkapják a csekket az MS-től.
(#30376) Abu85
Nem kell diszkvalifikálnod a Geekbench Compute tesztet, csak azért mert az anandtech.com egy plusz 0-t ír az elért pontszám közepébe.
A Geekbench oldalán jelenleg 229763 maximum pontot kap a Vega.
Vega-val van a listában AMD Tambourine (Ryzen 5 2500U és Android), valamint AMD Mandolin.
(#30379) Abu85
Mik azok a fast path-ok?
#30350 namaste tag Loha #30348

Új Válasz 2017-09-16 23:50:23 #30350
Új hozzászólás
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra
Privát üzenet küldése

namaste

tag

válasz Loha #30348 üzenetére

A GCN és a Kepler kb. azonos teljesítmény/fogyasztás arányúak voltak. Energiahatékonyságban a Maxwell hozott nagyot a Tiled Caching-el.
A kényszer nem technikai, hanem inkább fejlesztői fókusz, az AMD nem engedhette meg magának, hogy sokfelé próbálkozzon.
Készül a Mesa 3D nyílt forrású driver OpenGL többszálú működési módja, majd meglátjuk mire képes, de biztató.
#30332 namaste tag Loha #30317

Új Válasz 2017-09-15 23:25:43 #30332
Új hozzászólás
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra
Privát üzenet küldése

namaste

tag

válasz Loha #30317 üzenetére

Az a videó összemossa az utasítás ütemezést és a feladat (parancslisták) ütemezést.
A feladatok ütemezését a Keplerben is HW végzi, a GigaThread Engine, a CPU-n futó driver a várakozási sor végére teszi az elkészült parancslistát.
Az AMD is megoldhatta volna a többszálú DX11 drivert, de ők inkább a Mantle irányába mentek.
#29719 namaste tag Abu85 #29710

Új Válasz 2017-08-17 21:11:31 #29719
Új hozzászólás
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra
Privát üzenet küldése

namaste

tag

válasz Abu85 #29710 üzenetére

Hogyan oldják meg és milyen hatékonyan?
Pl. ha a 65. UAV-ot egyszerű memória olvasás vagy írás utasításokkal emulálják, az mennyit lassít?
#29708 namaste tag Abu85 #29707

Új Válasz 2017-08-17 19:57:45 #29708
Új hozzászólás
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra
Privát üzenet küldése

namaste

tag

válasz Abu85 #29707 üzenetére

Attól még nem dobják ki a fix funkciós részeket, ha a plusz utasításokkal emulálnak valamit.
Ha sikerült megoldani a DX12 TIER3 bekötést, akkor sikerülhet megoldani a Metal 2-t is.
De ez megint lehet üzleti döntés, főleg ha KL-G valóban az Apple-nek készül és ezt a két cégtől rendelte.
#29705 namaste tag Abu85 #29702

Új Válasz 2017-08-17 19:34:57 #29705
Új hozzászólás
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra
Privát üzenet küldése

namaste

tag

válasz Abu85 #29702 üzenetére

De minden funkciójának megfelel az NV-ben egy fixfunkciós egység. Amennyivel esetleg többet fogyaszt az utasítások dekódolása, az jelentéktelen, a fixfunkciós egységeknek is kell energia.
Igazából csak a korlátozott számú erőforrásszám a probléma (64 UAV, 14 CBV), ha ez probléma, amit emulálni kell.
Miből gondolod, hogy ez műszaki és nem üzleti döntés?
#29701 namaste tag Abu85 #29677

Új Válasz 2017-08-17 19:20:31 #29701
Új hozzászólás
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra
Privát üzenet küldése

namaste

tag

válasz Abu85 #29677 üzenetére

Korábban azt írtad, hogy a vezérlés miatt fogyaszt sokat a GCN, most azt, hogy a skalár egység miatt. Ez már haladás, de ne állj meg itt, van még ott sok-sok tranzisztor.
Ha mindenképpen kis számú tranzisztorra akarod fogni, akkor az energiagazdálkodást szabályozó áramkörök a felelősök. És a Jolly Joker, a magas feszültség.
#25924 namaste tag Petykemano #25920

Új Válasz 2017-01-25 23:47:08 #25924
Új hozzászólás
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra
Privát üzenet küldése

namaste

tag

válasz Petykemano #25920 üzenetére

Azért tegyük hozzá, hogy sok tesztben a HairWorks-t kikapcsolják, így fair és nem sérül a valóság sem.
#24325 namaste tag Abu85 #24274

Új Válasz 2016-11-21 22:32:25 #24325
Új hozzászólás
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra
Privát üzenet küldése

namaste

tag

válasz Abu85 #24274 üzenetére

Olyan nincs, hogy több ROP-ot igényel az NV és kevesebbet az AMD, a ROP igény nem függ attól, hol helyezkedik el a TBR-IMR skálán.
A programokon múlik, hogyan használják a hardvert és persze az API-tól is, mit enged meg. DX11 esetén sok marad a GCN-ben, a ROP lesz a korlát, még a compute shader sem segít, mert nem lehet párhuzamosan futtatni a grafikával. Ezt oldja meg a DX12 async compute, a nem használt ALU-kat munkára lehet fogni.
Az SM6 és az AGS nem önmagáért van, l'art pour l'art, hanem a hatékonyság növelése miatt, minél több hasznos számítást lehessen végezni. Azaz az elméleti FLOPS-ból minél többet kihozni.
Erről a Tier 2 processzorterhelésről kérek egy API leírást.
#24208 namaste tag Abu85 #24197

Új Válasz 2016-11-20 00:30:08 #24208
Új hozzászólás
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra
Privát üzenet küldése

namaste

tag

válasz Abu85 #24197 üzenetére

Akkor gyorsabb a GCN, ha van async compute, az AGS csak hab a torán.
Hasonlítsd össze az RX 480 - GTX 1060 vagy az RX 460 - GTX 1050Ti eredményeit, van összefüggés a számítási teljesítmény és az FPS között.
Az RX 480 +30% számítási és -30% ROP teljesítménnyel 20-30%-kal több FPS-t ad.
Az RX 460 ugyanannyi számítási és fele ROP teljesítménnyel 10%-kal kevesebb FPS-t ad.
Bekötési modell: nem értem miért járna több processzorterheléssel. GCN-ben az az SGPR-ben vannak a leírók, NV-nél a konstans memóriában, mindkét cég hardvere úgy van felépítve, hogy optimálisan kezelje.
Tehát nincs kötelező RS szabály, akkor abba belefér az NV ajánlása is, ha valaki NV-re akar optimalizálni, akkor megteheti.
#24195 namaste tag Abu85 #24179

Új Válasz 2016-11-19 21:30:12 #24195
Új hozzászólás
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra
Privát üzenet küldése

namaste

tag

válasz Abu85 #24179 üzenetére

Ez nem ilyen egyszerű. És ez alapvetően félre van értve.
A GCN azért tud jól alkalmazkodni ezekhez az explicit API-khoz, mert ...
... mert gyorsabb (FLOPS) mint a kategóriatárs NV kártya. DX11 alatt az ALU-kat nem tudja kihasználni, egy részük üresen jár.
Mindig kiválasztasz egy dolgot, amivel megmagyarázod miért jobb a GCN, pl. most éppen a skalár egység.
GCN feltételes elágazás: jó, működik, sokoldalú, de van valami előnye a hardveres vezérléssel szemben? Az elágazás vezérléséhez több utasítás kell: elmenteni a maszkot, beírni a kontroll regiszterbe az új maszkot, ugyanezt megcsinálni a másik ágra, majd visszaírni az eredeti maszkot. Ezek mind külön-külön utasítás, egy skalár utasítás végrehajtásához 4 órajel kell.
Az NV ajánlásai megsértik a DX12 előírásait?
Amikor az MS ajánlásokat tesz az RS használatára, akkor figyelembe veszi az Xbox GCN GPU-ját, azaz a saját hardverét.
Az NV milyen formátumot nem támogat a Root Signature-ben?
#21635 namaste tag Abu85 #21468

Új Válasz 2016-08-22 22:33:05 #21635
Új hozzászólás
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra
Privát üzenet küldése

namaste

tag

válasz Abu85 #21468 üzenetére

Erről a DRM működésről kérnék forrást.
#21351 namaste tag Abu85 #21261

Új Válasz 2016-08-17 21:09:53 #21351
Új hozzászólás
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra
Privát üzenet küldése

namaste

tag

válasz Abu85 #21261 üzenetére

A program elküldi a shadert a drivernek, hogy fordítsa le, ilyenkor nincs rajta semmi DRM, teljesen szabványos HLSL binárist ad át a drivernek. Itt jön a csere: ezt a shadert nem kell lefordítani natív GPU kódra, ha van a driverben előre lefordított, optimalizált változat.
A GameWorks-t nem kötelező használni, ha valaki tud jobbat, írjon jobbat, még a GW játékokban is lehet alternatív megoldások közül választani a játékosoknak.
#21240 namaste tag Abu85 #21185

Új Válasz 2016-08-15 22:42:05 #21240
Új hozzászólás
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra
Privát üzenet küldése

namaste

tag

válasz Abu85 #21185 üzenetére

GameWorks DRM feltörésére mi a forrás? Van egyáltalán DRM? Sokkal egyszerűbb megszerezni a shadert mint ahogy írod.
Más játékokban nem cserélik ki a shadereket?
#21062 namaste tag Abu85 #21021

Új Válasz 2016-08-14 00:30:13 #21062
Új hozzászólás
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra
Privát üzenet küldése

namaste

tag

válasz Abu85 #21021 üzenetére

Hogy jön ki a GCN ~6000 és az NV ~4000 shader? Szerintem mindkettő sok.
Mi az a memóriamodell? Cache?
#20218 namaste tag gbors #20163

Új Válasz 2016-07-25 23:36:14 #20218
Új hozzászólás
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra
Privát üzenet küldése

namaste

tag

válasz gbors #20163 üzenetére

Érdemes lenne megvizsgálni mi mennyit számít. Külön megnézni az FPS-t Vulkan, Vulkan + async, Vulkan + intrinsic, Vulkan + async + intrinsic esetén.
#19205 namaste tag lezso6 #19139

Új Válasz 2016-07-12 22:14:37 #19205
Új hozzászólás
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra
Privát üzenet küldése

namaste

tag

válasz lezso6 #19139 üzenetére

A Pascal ugyanúgy vegyes ütemezésű mint a Maxwell, nyilván továbbfejlesztik.
"Nem ultramobil, csak azt mondom, hogy abba irányba ment el."
Jó, de odaért? Még mindig nem értem, miért írod ezt.
Persze, a Maxwell nem jó FP64-re, de nem is ajánlják HPC DP-re, viszont sok feladat van amire jó.
#19132 namaste tag lezso6 #19117

Új Válasz 2016-07-11 22:37:41 #19132
Új hozzászólás
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra
Privát üzenet küldése

namaste

tag

válasz lezso6 #19117 üzenetére

Régen minden jobb volt ... Nem szégyen visszatérni egy régebbi megoldáshoz, ha az hatékonyabb és ugyanúgy ellátja a feladatát. Viszont olyat még nem láttam máshol, ahogy megvalósították a Kepler-Maxwellnél.
Csak nem értem miért ultramobil. Írtam két példát mi jellemzi az ultramobil architektúrákat, ezek nem érvényesek a Maxwellre. Ha lefedik a teljes palettát, miért az ultramobilt választod ki? Miért nem a szervert? Pl. a Tegra az mobil szuperszámítógép.
A GP100-zal kapcsolatban nincs vita köztünk. A REG:ALU arány javítását megcsinálták a Maxwellnél is, mégis ultramobil. Pedig az igazi ultramobil GPU-knál még rosszabb az arány.
#19116 namaste tag lezso6 #19085

Új Válasz 2016-07-11 20:18:37 #19116
Új hozzászólás
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra
Privát üzenet küldése

namaste

tag

válasz lezso6 #19085 üzenetére

A statikus ütemezés miért visszafejlődés? Egyébként vegyes az ütemezés, van statikus és dinamikus része is. A shaderfordítást pedig mindig a driver végezte, az nem újdonság.
Miért ultramobil? Az igazi ultramobil GPU-k nem is hasonlítanak rá, pl. tile alapú renderelés, nincs LDS. Az új Mali-G71 lépett a SIMT működés irányába. Kíváncsi lennék meddig skálázódnak felfele.
Azért mert keveset fogyaszt az még nem ultramobil, tablettől a szerverekig mindenhol jól jön a kis fogyasztás.
Nem látom hol áldozták be a tudást. Kapott új utasításokat, jobban kihasználja a rendelkezésre álló ALU-kat mint a Kepler, azaz a hatékonyság nőtt.
#19082 namaste tag lezso6 #19065

Új Válasz 2016-07-10 22:18:43 #19082
Új hozzászólás
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra
Privát üzenet küldése

namaste

tag

válasz lezso6 #19065 üzenetére

Kepler ütemező: szoftveresen a PCIe buszon keresztül vezérelni? Nem hiszem. A GPU-ban parancsfeldolgozók vannak, a driver feltölti az adatokat és a parancslistákat, a GPU pedig szétosztja az ALU-knak. Ilyenek szintek vannak:
- legfelül GigaThread engine / Grid Management Unit
- GPC - PolyMorph Engine
- SMX - Warp Scheduler.
Maxwell: Igen, a Keplerben 2 db Warp Scheduler ütemez 3 db 32-es ALU blokkot és az LD/ST, SFU, TEX, DP egységeket. Míg a Maxwellnél szétszedték, egy Warp Scheduler egy 32-es ALU tömböt kezel, csak a TEX és a Shared Memory közös. Hívhatod trükknek, de végül is optimalizálás.
"de ennek megvannak a hátrányai is. Pl az 96 kB LDS miatt egyszerre csak 3 blokk használható ki."
... feltéve, hogy 3 db 32 szálat tartalmazó és 32 kB LDS-t használó szálcsoportot futtat. Ezt a szituációt nézd meg Kepleren és GCN CU-n is.
#19061 namaste tag lezso6 #19054

Új Válasz 2016-07-09 22:44:56 #19061
Új hozzászólás
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra
Privát üzenet küldése

namaste

tag

válasz lezso6 #19054 üzenetére

Pedig a Ferminél és a GP100-nál a legjobb az REG:ALU illetve az Shared Memory:ALU arány, a Keplernek a legrosszabb. A Fermi azért fogyasztott sokat, mert 40 nm-en készült és az ALU-kat magas frekvencián működtették.
Keplernél kiherélték az ütemezőt? Hogyan?
A Maxwellben SMM-ben ugyanannyi regiszter(fájl) van mint a Kepler SMX-ben, viszont kevesebb ALU osztozik rajta.
Hogyan lett butább a Maxwell ütemező?
#19053 namaste tag lezso6 #19046

Új Válasz 2016-07-09 22:00:00 #19053
Új hozzászólás
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra
Privát üzenet küldése

namaste

tag

válasz lezso6 #19046 üzenetére

Kepler - Maxwell
A Maxwell sokkal hatékonyabb ütemezővel rendelkezik, szinte minden területen történt előrelépés a Keplerhez képest. Csak egy terület maradt ki a fejlesztésből, az FP64 számolókat kispórolták, illetve nem készítettek belőle FP64 számításokra felkészített változatot. Helyette Keplerből kihozták a GK210-et, majd most a GP100-at.
#15991 namaste tag Abu85 #15971

Új Válasz 2016-04-26 19:08:36 #15991
Új hozzászólás
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra
Privát üzenet küldése

namaste

tag

válasz Abu85 #15971 üzenetére

Nem a techreport nézte be, te is tudod hogy működik: a textúrából pixelek lesznek.
#15315 namaste tag gbors #15313

Új Válasz 2016-03-23 21:58:23 #15315
Új hozzászólás
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra
Privát üzenet küldése

namaste

tag

válasz gbors #15313 üzenetére

"Ez egy nagyon hangzatos semmitmondás"
Ugye? De abból az ábrából nem derül ki semmi a crossbarra nézve. Se az hogy szimmetrikus, se az hogy aszimmetrikus.
Nyilván semmi jelentősége nincs, a GPU-k működnek, ahogy működnek. Néha előjön ez a téma (most Abu #15296 hozzászólásában), olyankor rákérdezek, hátha van valami bizonyíték, mellette vagy ellene. De semmi.
Abu
Egy kicsit elbeszélünk egymás mellett, a shader processzorok számára érzékelhető memóriasebességre gondoltam. DX11 alatt elfedi a driver (szerinted), viszont a többi API esetén detektálhatónak kell lennie.
DX11 esetén a lefoglalt memória és a szabad terület méretének összevetéséből lehetne észrevenni a többszörös memória használatot.
#15312 namaste tag Abu85 #15311

Új Válasz 2016-03-23 21:00:25 #15312
Új hozzászólás
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra
Privát üzenet küldése

namaste

tag

válasz Abu85 #15311 üzenetére

Azért nem DX11, mert azt elfedi a driver (vagy nem), tehát nem lehet kimutatni. A többi API-nál pedig mérhetőnek kell lennie.
Mert szerintem nem ilyen a crossbar felépítése és több helyre másolás sincs (azaz nem kell trükközni).
#15310 namaste tag Abu85 #15308

Új Válasz 2016-03-23 20:38:20 #15310
Új hozzászólás
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra
Privát üzenet küldése

namaste

tag

válasz Abu85 #15308 üzenetére

A CUDA, OpenCL, DX12 egy ideje elérhető, most már a Vulkan is, mind eléggé közvetlen memória hozzáférést biztosít. CUDA kóddal sikerült kimérni a 3.5+0.5GB-ot, a lehetőség adott.
"Jaj azt ne úgy képzeld el, hogy minden négyszer van benne."
Pont ez az ami nem tetszik: egyszer így működik, másszor úgy.
Elég sok vörös bundás vérmókus rohangál fel s alá, hát hajrá!
gbors
Beszélünk valamiról, de nem tudjuk honnan indultunk és azt sem tudjuk igaz-e.
Mi a keresztirány és mi az "egyenes" irány a különböző GPU-k esetén: GM107 (5 SMM), GM206 (8 SMM), GM204 (16 SMM), GM200 (24 SMM)?
#15307 namaste tag Abu85 #15306

Új Válasz 2016-03-23 18:12:06 #15307
Új hozzászólás
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra
Privát üzenet küldése

namaste

tag

válasz Abu85 #15306 üzenetére

Crossbar: Ez így kevés. Csak te és gbors írjátok, hogy keresztbe felezett sebességű, máshol nem találkoztam vele. A memóriasebességet ki lehetne mérni, elég sokan foglalkoznak GPU programozással (grafika, számítások), valaki biztos belebotlott valami memóriasebesség anomáliába.
Többszörös memória használat: Ha igaz volna, valakinek már találkoznia kellett volna ezzel, óriási botrány lenne. Megint. Egy 4GB kártyára feltöltesz 1GB-nyi adatot és 4GB lett belőle. Ezt képzeld el 3.5GB-os kártyával.
AMD hub: AZ AMD egyszer hubot ír, másszor crossbart. Melyik igaz?
#15305 namaste tag Abu85 #15296

Új Válasz 2016-03-23 17:41:43 #15305
Új hozzászólás
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra
Privát üzenet küldése

namaste

tag

válasz Abu85 #15296 üzenetére

Crossbarra, többszörös memória használatra van forrásod?
#8705 namaste tag Abu85 #8697

Új Válasz 2015-08-03 21:09:18 #8705
Új hozzászólás
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra
Privát üzenet küldése

namaste

tag

válasz Abu85 #8697 üzenetére

Mi a probléma a vec4-es kóddal? Egy vec4 utasítást nagyon egyszerű skalár utasításokká átalakítani: szét kell szedni 4 db skalár utasításra.
#8410 namaste tag Abu85 #8369

Új Válasz 2015-07-21 23:13:10 #8410
Új hozzászólás
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra
Privát üzenet küldése

namaste

tag

válasz Abu85 #8369 üzenetére

Hogy működik a HUB? Egyszerre mennyi CU érheti el a memóriát?
Crossbarban mihez kell "8 512 bites es nagyon sok 256 bites keresztbusz"?
(#8378) gbors
Miért gondolod, hogy priorizált és nem priorizált utak vannak a crossbarban?
#6536 namaste tag Ghoula #6516

Új Válasz 2015-06-17 21:34:13 #6536
Új hozzászólás
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra
Privát üzenet küldése

namaste

tag

válasz Ghoula #6516 üzenetére

"Az smm tiltás miatt esik a pixel fill rate?"
Igen. Egy SMM 128 bites busszal kapcsolódik a crossbarhoz és órajelenként 4 db 32 bites kiszámolt pixelt tud küldeni a ROP-ok felé. Két SMM letiltásával marad 22 SMM, ezek összesen 88 pixelt tudnak továbbítani egy órajel alatt. A ROP-ok órajelenként 96 pixelt tudnának feldolgozni, de csak 88-at kapnak. Tech Report GTX 980 Ti teszt

Új hozzászólás Aktív témák

Téma tudnivalók

A topikban az OFF és minden egyéb, nem a témához kapcsolódó hozzászólás gyártása TILOS!

Megbízhatatlan oldalakat ahol nem mérnek (pl gamegpu) ne linkeljetek.

Aktív témák

Hirdetés

Új fizetett hirdetések

Üzleti előfizetők hirdetései

Állásajánlatok

Üzletvezető

Cég: Laptopszaki Kft.

Város: Budapest

Részletek

Laptop Szervizes

Cég: PCMENTOR SZERVIZ KFT.

Város: Budapest

Részletek

H﻿i﻿r﻿d﻿et﻿é﻿s﻿

PROHARDVER! - hardver fórumok

Mobilarena - mobil fórumok

IT café - infotech fórumok

GAMEPOD - játék fórumok

LOGOUT - lépj ki, lépj be!

FÁRADT GŐZ - közösségi tér szinte bármiről

Blokkméret

Rendezés

Új hozzászólás Aktív témák

Új hozzászólás Aktív témák

PROHARDVER! - hardver fórumok

Mobilarena - mobil fórumok

IT café - infotech fórumok

GAMEPOD - játék fórumok

LOGOUT - lépj ki, lépj be!

FÁRADT GŐZ - közösségi tér szinte bármiről

Blokkméret

Rendezés

H﻿i﻿rde﻿t﻿és﻿

Állásajánlatok

Üzletvezető

Laptop Szervizes

Hirdetés

Hirdetés