Hirdetés

Új hozzászólás Aktív témák

  • con_di_B

    tag

    válasz Oliverda #163 üzenetére

    Jo, de a slide-rol az nem derul ki, hogy pontosan milyen ertelemben +15%. Feltolom a teszellalast (GCN1-ben igen gyenge volt), csinalok egy rakas mikropoligont amit majd ax RX 480 ugyesen kivag, kozben ugyelek ra, hogy a shaderemben olyan alacsony legyen az occupancy*, hogy meg az instruction prefetch is merhetove valik stb. aztan maris talaltam olyan benchmarkot, amiben merheto a nagy javulas.

    Viszont igazad van, hogy ha ki is jon a +15%, az meg mindig igen sovany. Meg mint mondtam, nem mindegy mivel profilozzak. Compute-ban pl. az osszes varazslat kozul maximum az instruction prefetch er barmit is. Marpedig ez az egyetlen terulet, amiben eddig volt elonyuk.

    Azt nem gondoltam volna, hogy mar a GDDR5X is ennyit szamit (most mar ugye 8GB-s kartyakrol beszelunk), de akkor az 1080 teljesitmenye maris teljesen ertheto.

    Az viszont erdekes, hogy a HBM1 mennyire gyenge, ahhoz kepest, hogy a latottak alapjan egy remalom volt integralni. A HBM2 ilyen ertelemben lesz ketszer olyan jo, vagy csak savszelessegben lesz elorelepes? Mert ha nem, akkor az AMD total mellenyult a HBM2-vel. (Tudom, hogy a P100 is azt hasznal, de az egy teljesen masik koltsegszint. Pontosabban, amennyiert azok a Teslak mennek, kb. mindegy a koltsegszint.)

    *Az pedig eleg alacsony lesz, ugyanis a D3D alatti viselkedest azt nem tudom, de az AMD OpenCL forditonak kulonleges kepessege, hogy tetszoleges, indokolatlag helyeken talal indokot arra, hogy meg egy regisztert lefoglaljon, amelyik hibat aztan loop unrolling eseten tetszolegesen sokszor kepes ujra elkovetni, ezzel az egekbe novelve a register pressure-t... Az ok, hogy a HLSL-nel IR-ig eloforditas van, de utana ugyanugy kene tudni ertelmesen forditani GPU kodra, feltetelezem ezt meg hasonloan ugyesen el lehet rontani.

Új hozzászólás Aktív témák