A Huawei az idei Hot Chips konferencián prezentálta az UB-Mesh (United Bus mesh) technológiát, amely egészen nagy dologra vállalkozik: egyetlen protokollal szeretné összekapcsolni az AI adatközpontok összes komponensét. A probléma ismert, mivel az efféle szerverdizájnok sok kisebb komponensből épülnek fel, miközben kvázi egy nagy rendszerként teljesítik a feladatokat. Ahhoz, hogy ezt megtegyék, számos eltérő busz és protokoll kapcsolja össze az eltérő részegységeket, és itt tényleg van rengeteg alternatíva, többek között PCI Express, NVLINK, UALINK, TCP/IP, CXL, Ultra Ethernet és még sorolhatnánk. A lényeg az, hogy a komponensek egymással történű működése megoldható, de a protokollok közötti adattovábbítás nehézségekkel jár, a konvertálás maga energiát igényel, növeli a késleltetést, illetve pusztán a feladat szükségszerűsége extra vezérlők beépítését követeli meg.
A kínai cég ötlete annyi, hogy hagyjuk ezeket, és helyette mindenre legyen UB-Mesh, így bármelyik port képes lenne mindenféle adatkonverzió nélkül kommunikálni a másikkal. A Huawei definíciója szerint így az adatközpont úgynevezett supernode-dá válna, mivel az összes komponens az UB-Meshez kapcsolódik. Leegyszerűsítve minden feldolgozóegység, legyen az központi processzor vagy valamilyen gyorsító, egységesen elérné a memóriákat, az adattárolókat, a hálózati adaptereket, a switch-eket és minden mást.
Hirdetés
Ezzel az Ethernet felett is futtatható konstrukcióval egymillió chippel rendelkező klaszterek köthetők össze, méghozzá alacsony késleltetéssel, illetve nagy teljesítménnyel. A vállalat sajnos a mérnöki részleteket mellőzte, vagyis inkább a tudományos megközelítést mutatták meg, amely nyilván egy ekkora node skálázásának nehézségeire koncentrál.
A Huawei tehát egyelőre koncepciót mutatott be, ami a potenciális megvalósításra vonatkozik, és ebből a szempontból kulcskérdés a topológia, illetve a hibatűrés. A topológia kapcsán azért nem érdemes belemenni a részletekbe, mert több alternatíva is lehetséges. A kínai cégnek van javaslata, a lényeg viszont az, hogy a sávszélesség növelésével a költségek növelését kordában kell tartani, tehát valamiféle hibrid megoldás válik szükségszerűvé.
A hibatűrés már egy érdekesebb kérdés, mivel ekkora méretben az optikai összeköttetés elengedhetetlen, de pont a node extrém kiterjedése miatt felmerül a kieső hardver problémája. Ha ez egy mai adatközpontban történik meg, akkor oda lesz egy node, ami kellemetlen ugyan, de a be nem fejezett feladata újraindítható egy másik node-on, miközben azért az adatközpont jó része sértetlen, vagyis továbbra is megfelelően végzi a munkáját. A Huawei modelljével jóval nagyobb ára lenne egy komponens meghibásodásának, a teljesítmény jelentősen romlana általa, márpedig a hibák biztosan jönnek majd. A negatív hatás minimalizálása érdekében a cég többszintű redundanciát javasol, többek között tartalékkomponensekkel, több optikai linkkel, és hasonlók. Elméletben ezek jó opciók, de gyakorlati szinten egy egész, akár egymillió processzorból álló supernode redundanciájának kezelése extrém komplex feladat, hiszen a kieső komponens az egész koherens node működését veszélyezteti, miközben valós időben kell detektálni a hiba helyét, és ennek megfelelően újratervezni a topológiát.
A Huawei-féle UB-Mesh tehát papíron tényleg rendkívül jól hangzik, viszont a hibatűrésnél komoly kihívást jelent, és ez lehet a rendszer egyik gyenge pontja. Konkrét mérnöki leírás nélkül ugyanakkor nehéz meghatározni a pontos képességeit, így érdemes megadni a cégnek a lehetőséget ennek bemutatására is. Már csak azért is, mert a vállalat úgy tervezi, hogy nyílttá teszi a protokollt, így kellő érdeklődés mellett akár szabványos megoldás is lehet, ha a gyártók egységesen látják benne a potenciált.

