Hirdetés

Új hozzászólás Aktív témák

  • Petykemano

    veterán

    válasz b. #8058 üzenetére

    Az általad linkelt cikkből:

    "While it’s said that Frontier is showing impressive runs on some codes, we also hear the Slingshot interconnect, tasked with tying the mammoth HPE cluster together, is proving troublesome. Where, specifically, the fabric problems may lie is unclear, but there is speculation it’s related to integrating the HPE Cray-based Slingshot with the AMD EPYC CPUs and Radeon Instinct GPUs that will power Frontier. It’s possible DOE has decided to delay announcing it has stood up the country’s first exascale system until the rumored interconnect issues are resolved."

    Tehát azt mondod, hogy az Oak Ridge-nél mindenki kínosan ügyel, nehogy valami a brandnak ártó terhelő jellegű kijelentést tegyenek a CPU és a GPU beszállítóról, de az interconnect szállítóját nyugodtan lehet negatív színben feltüntetni, sőt lehet, hogy van egy nagy összekacsintás is, hogy inkább ők vigyék el a balhét, nehogy véletlen árnyék vetüljön az AMD-re?

    Szerintem két eset lehetséges:
    Mivel a viszonylag kisméretű Komondoron kívül nincs másik olyan slingshot-11 a listában, ami ne AMD+AMD lenne. Mivel a kisebb méretű slingshot-11+AMD+AMD rendszerek esetén nem jelentettek problémát, ezért feltételezhező, hogy nem valamilyen olyan hibáról lehet szó, amit azt AMD en bloc elrontott. Még kiderülhet, de jelen állás szerint nem ilyesmiről van szó.

    Az egyik lehetőség tehát az, hogy vagy a slingshot-11 nem képes megküzdeni ezzel a 60 millió alkatrésszel (ez persze nyilván nem mind compute node, de most fejből nem tudom, hány cPU és GPU van benne)
    Vagy a másik lehetőség az az, hogy az AMD hardver nem képes 60 milliós méretben skálázódni.

    Most csak tippelek, de ugye itt valami infinity architecture van már, tehát biztos kommunikálnak egymással a GPU-k és a CPU-k. Lehet, hogy ilyen kommunikáció más rendszerben, ami nem AMD infinity architecture nincs. És lehet, hogy a node-ok egymással való kommunikációja kevés node esetén nem jelent nagy terhet a hálózatra, de ekkora méretben, ennyi node esetén, mint a Frontier már túlterheli a Slingshot-11 interconnect-et.

Új hozzászólás Aktív témák