Keresés

Hirdetés

Új hozzászólás Aktív témák

  • Kansas

    addikt

    válasz Petykemano #4 üzenetére

    +1 kérdés: meddig lesz még érdemes külön rendszer- és videómemóriáról beszélni - vagy annyira eldobja az AMD a Fusion-t, hogy külön HBM VRAM-ot tesz az egybetokozott megoldásaiba és hagyja a rendszer-RAM-ot a CPU-nak?

    [ Szerkesztve ]

    Nincs olyan MI, ami képes lenne szimulálni az emberi hülyeséget... ha valaha lesz, annak tuti az emberi hülyeség lesz az oka... A Föld erőforrásai közül a legjobban az ész van elosztva - mindenki meg van róla győződve, hogy több jutott neki, mint másoknak.

  • Yany

    addikt

    válasz Petykemano #4 üzenetére

    Az első kérdésedre engem is érdekelne egy releváns válasz, főleg, hogy a Zen2-es magokat alacsonyabb késleltetéssel (is) reklámozza az AMD. Szóval nekem mindig fura volt látni, hogy a memvezérlőt külön teszik, de a késleltetésen még így is javítottak. Vagy ez vajon csak a megnövelt cache és javított elágazásbecslésnek köszönhető, de amikor ezek kifutnak/tévesztenek, akkor nagyobb a bünti?

    Építs kötélhidat  -  https://u3d.as/3078

  • Abu85

    HÁZIGAZDA

    válasz Petykemano #4 üzenetére

    1) Infinity Fabric. A Rome dizájnban már mindegyik lapka ugyanannyira van a memóriavezérlőtől. Mivel manapság elég sok magról beszélünk már, így eleve ajánlott NUMA-aware programokat írni, amelyek rendkívül toleránsak a késleltetéssel. A szerverpiacon ez nagyon jellemző, és igazából az asztali szintre is kezd lejönni ez az irány, hiszen a magok száma csak nőni fog.

    2) A GPU-hoz raksz egy HBM3-at. Az önmagában 512 GB/s. Ezt sokféleképpen lehet implementálni, mivel csak egy stackről van szó, így jó a Samsung RDL megoldása is, vagy a TSMC InFO. Több HMB stack esetén azért jóval bonyolultabb a probléma, ott az Si interposer nem úszható meg, de egyelőre az 512 GB/s elégnek tűnik.

    Az IF Rome platformhoz készült verziója egy baromira gyors link IFOP szinten is. Az új verzió 100 GB/s fölötti kapcsolatot ad. Ennél gyorsabban egy mai APU-ban sincs összekötve a két részegység, a Raven Ridge-ben úgy emlékszem 51,2 GB/s az SDF. Az IFOP pedig a CAKE-be fut be, onnan pedig a belső SDF-be mindegyik chipleten. IFIS, vagyis tokozások közötti kapcsolat esetén van igazán lényeges késleltetése az Infinity Fabric technológiának, és azzal az interfésszel a sávszélesség sem olyan nagy. Viszont legyen szó IFIS vagy IFOP összeköttetésről, a memóriakoherencia biztosított.

    Ha Rome platformhoz hasonló lesz a dizájn, akkor a memóriavezérlő az I/O lapkában lesz. A GPU és a CPU csak chiplet. A GPU-hoz hozzáköthető a HBM, de ezt optimális csak cache-ként működtetni.

    (#12) Yany: Itt azért nagyon sokat jelent, hogy mivel a magok száma drasztikusan elkezdett növekedni, a programfejlesztések is elindultak a NUMA-aware felé a desktop szinten. Ergo pusztán a program oldalán kezd toleránssá válni a rendszer a késleltetésre.

    [ Szerkesztve ]

    Senki sem dől be a hivatalos szóvivőnek, de mindenki hisz egy meg nem nevezett forrásnak.

  • Abu85

    HÁZIGAZDA

    válasz Petykemano #16 üzenetére

    Szerintem nem fognak külön GPU chipletet tervezni ide, hanem van egy normál GPU, és azt rakják ide, illetve VGA-ba is.

    Egyelőre a GDDR6 elképesztően drága, és eközben a fogyasztása sokkal rosszabb a HBM-nél. Az egyetlen, ami mellette szól az a kiépíthető mennyiség, de ez az AMD-nek nem probléma a HBCC miatt. Nem véletlen, hogy már a kisebb Vega esetében is HBM-re mentek. Olcsóbb lett mára a GDDR5X/6-os opcióknál, és még nincs is itt a Samsung low-cost csomagja, ami tipikusan a belépőszintet célozza a karakterisztikájával. Nem véletlen, hogy a Samsungnál különösebben a GDDR6-ról nem beszélnek, mert hatékonyságban mérföldekre van a low-cost HBM-jüktől, és ugye ehhez már Si interposer se kell.

    Persze a nagyobb buszszélesség szintjén nem úszható meg a normál HBM és az Si interposer, de ugye, ha 2 TB/s-ot akarsz, és nyilván jövőre az a cél, akkor ott eleve megépíted a rendszert, aztán kérsz érte egy borsos árat. A lényeg a Samsung low-cost megoldásával az, hogy maga a HBM a GDDR-ek alá menjen árban a belépőszinten is, és itt tényleg nem kell sok stack. Egy elég az 512 GB/s-hoz, ami azért egy entry GPU-hoz két év múlva is sok lesz.

    Szerintem a GPU-ból 3D-s WoW tokozású megoldást fogunk látni először, utána pedig jönnek majd a komplexebb megoldások, de ahhoz meg kell oldani az on-chip routingot tokozás szintjén. Nagyon eltérő chiplet dizájnokkal ez nem könnyű ám (egy GPU chiplet szinten ilyen lenne). Az AMD-nem van erre egy tanulmánya, ami az aktív interposerrel kezeli a gondot, de ez azért még évekre van a tényleges bevethetőségtől.

    [ Szerkesztve ]

    Senki sem dől be a hivatalos szóvivőnek, de mindenki hisz egy meg nem nevezett forrásnak.

Új hozzászólás Aktív témák