Nehézkes lesz az NVIDIA B200 gyártása, de nem megvalósíthatatlan

A pletykák a késésekről, sőt, manapság már a termékek törléséről is szaporodnak, viszont egyelőre utóbbit nem támasztja alá semmi.

Az NVIDIA még tavasszal jelentette be a méretesre tervezett Blackwell dizájnt, és az utóbbi időben egyre többször merül fel a késés, sőt, manapság már az egyik termék törlése is előjött pletykaként.

Mivel ezek a híresztelések nem újak, az utóbbi hetekben megpróbáltunk utánajárni, hogy mi lehet a gond. Ha egyáltalán van valami probléma a háttérben, és nem csak előre nem látható események okoznak egy picike csúszást, ami egyébként benne szokott lenni a pakliban, kvázi minden termékcsaláddal megtörténhet.

Hirdetés

Információink szerint a Blackwell dizájn működik, méghozzá mindegyik verziója, bár utóbbi logikus is, elvégre feltételezhető, hogy ha a B200 üzemel, akkor nyilván jó a fizikailag ugyanolyan csak gyengébbre paraméterezett B100 is. A problémák a gyárthatóság körül vannak, de állítólag ezzel a tervezésnél számolt az NVIDIA.

A Blackwell dizájn egy rendkívül komplex rendszer, ahol gyakorlatilag olyan dolgokat csinálnak a zöldek, amikről a mérnökpalántákat már a felsőoktatásban le szoktán beszélni. Utóbbit jó okkal teszik, fizikai törvények által okozott, nehezen kezelhető gondokat szülhet egy olyan specifikusan méretezett hardver, mint a B200. És itt teljesen mindegy, hogy a rendszer komponensei egyenként hibátlanul működnek, összarakás után megvan az esélye, hogy működésképtelen lesz a termék vagy azonnal, vagy az első tesztek alkalmával válik azzá.

A probléma forrása az, hogy a B200 tokozására két GPU kerül. Effektíve chiplet dizájnról beszélhetünk, ráadásul olyan chipletekkel, amelyek 858 mm² kiterjedésűek, vagyis konkrétan az úgynevezett reticle limit határárára vannak helyezve. Ahhoz, hogy ebből kettőt összekössenek egy tokozáson széles interposer szükséges, és még ugye ott vannak a HBM memóriák is nehezítésnek.

Az ilyen jellegű rendszerhez szükséges interposer nem tipikus, ugyanis az egyes lapkák közötti összeköttetésből fizikailag nagyon sok van, méghozzá nagyon kis mérettartományon belül, amit legegyszerűbb szilíciummal megoldani, de egy nagyon nagy szilícium ebben a méretben egyáltalán nem optimális interposernek, sőt, technikailag kivitelezhetetlen is. Emiatt maga az interposer amolyan hibrid kiépítésű, vagyis csak olyan területen alkalmaz szilíciumot, ahol erre szükség van az összeköttetések sűrűsége miatt. Ráadásul a chiplet dizájn csak két GPU-ból áll, így túl sok mérnöki kreativítást a trükközések szempontjából nem lehet belevinni, alapvetően csak egy mód van ezt összerakni.

A gondot egy ilyen konstrukciónál az okozza, hogy nagyon sok eltérő komponens szükséges hozzá, és ezek egyenként működhetnek hibátlanul, de összeszerelés után számítani fog, hogy a 10-20 mikrométer közötti fizikai kapcsolatokhoz szükséges illesztések mennyire pontosak. Ha nem eléggé, akkor hiába lett összeszerelve a termék, az nem fog bekapcsolni. Sőt, ilyen szélességű interposer esetén, ahol ennyire sűrű az összeköttetések száma, az is számít, hogy a bekapcsolás során keletkező hő hogyan módosítja az eltérő komponensek alakját. Az interposer nagy része például jobban görbül majd, mint maga a GPU, vagyis az is előfordulhat, hogy a nem elég pontos illesztés a bekapcsolásra elég, de hő hatására, az eltérően deformálódó elemek közötti kötések egy része elenged, és működésképtelenné válik a hardver.

Erről egyébként tudott az NVIDIA. Tehát pontosan látták már a tervezési szakaszban, hogy ez gondot fog okozni. De ez nem olyan jellegű probléma, hogy maga a termék megvalósíthatatlan lenne, pusztán arról van szó, hogy a legyártott hardverek jó része hibás lesz. Hogy mennyi az nagy kérdés, de jelenleg az a pletyka járja, hogy a hibaarány még a legpesszimistább becslésnél is rosszabb. Nyilván ez a gyártás finomításával még javulhat, sőt, igazából még a termék kiadása után is van lehetőség a korrekciókra, ami jobb kihozatalt fog majd eredményezni.

Ami érdekes ezzel kapcsolatban, hogy az olyan komplexitású hardvernél, amilyen a Blackwell dizájn – és ami tényleg tartalmaz mindent abból, amitől a mérnököket óva intik az oktatásuk során –, a 30-40% közötti kihozatal már jónak számít. És tekintve a rendszer árát bele is fér, ha a legyártott komponensek nagyjából kétharmada végül a kukában landol, hiszen sok tízezer dollárért vásárolható meg egyetlen egy termék. Itt csak arra kell figyelni, hogy ha terveznek egy bizonyos mennyiség eladására, akkor a hibaarányt figyelembe véve adják le a rendeléseket a komponensekre. Ebből az is érthető, hogy miért vannak olyan pletykák, amelyek a kezdeti szállítások csúszására vonatkoznak, ha tényleg alacsonyabb a kihozatal a vártnál, akkor eleinte nyilván kevesebb jól működő hardvert tud majd értékesíteni az NVIDIA. De erre reflektálhatnak úgy, hogy több komponenst rendelnek, illetve több gyártósort allokálnak a B200 GPU-jának gyártására a TSMC-nél, vagyis pár hónapon belül korrigálhatók ezek a tényezők. Az egyetlen valós hátrányt azok a lapkák fogják elszenvedni, amelyektől végül elvonják a gyártósort a B200 érdekében, de utóbbi rendszer kritikus projekt, tehát az NVIDIA számára megéri beáldozni az eredetileg kliensekre szánt kapacitást.

Előzmények

Hirdetés