Hirdetés

Idén már az alacsony késleltetés is számít az NVIDIA-nak

A vállalat az idei GTC-n az AI-piac GPU-val nehezen lefedhető irányaira fókuszált.

Az idei GTC-n az NVIDIA már teljesen a Vera CPU és a Rubin gyorsító idei startjára fókuszál, amelyekről már korábban is beszélt a cég, legutóbb a CES 2026-on, sőt, azóta kiderült, hogy a Vera CPU önállóan is beszerezhető lesz. Túl sok újdonság ezekkel kapcsolatban nem hangzott el, ami annak is köszönhető, hogy a cég már a korábbi rendezvényeken is elég sok adatot elárult, így valójában már csak a tényleges megjelenés van hátra.

Ezeknél érdekesebb egy másik irány, ugyanis az NVIDIA felfigyelt rá, hogy valójában a klasszikus GPU-k nem igazán alkalmasak az AI minden területére. Tréningben elég jók, de a gépi tanulás következtetés szakasza ennél átfogóbb, mivel olyan speciális igények is jellemzik, ahol a GPU-k előnyei nem domborulnak ki.

Az egyik ilyen terjedő iránynak számítanak az AI-ügynökök, mivel itt a kapcsolódó munkafolyamatoknak csak egy részét adják a nagy nyelvi modellek, vagyis az összes számításnak arányaiban kevesebb részét teszik ki a mátrixműveletek. Melléjük számos, jóval nehezebben párhuzamosítható munkafolyamat társult be, amelyek elágazásokat, rendszerhívásokat, rengeteg kis, változó méretű feladatot, illetve jelentő mennyiségű IO műveletet tartalmaznak. Ezekben az AI-ra szánt gyorsítók gyengék, így NVIDIA a DGX Rubin NVL8 rendszerrel próbál újítani, ami mindössze nyolc gyorsítót tartalmaz, viszont ezek Intel Xeon 6 sorozatú CPU-hoz kapcsolódnak. Itt az arányokon is látszik, hogy alapvetően nem extrém skálázható rendszerről van szó, vagyis kifejezetten az AI-ügynökök futtatására van szabva.

A másik új irány a késleltetés problémája, és a GPU-k ebben sem túl jók, ha a gépi tanulás következtetés szakaszáról van szó. A CPU-k itt is erősek lennének, csakhogy elég sokat fogyasztanak is. Itt jön képbe a Groq, amelynek az eszközeit nemrég vásárolta fel az NVIDIA. Ezek úgynevezett LPU-k, azaz Language Processor Unitok, és ebből sejthető, hogy a nagy nyelvi modellekre vannak szabva. Valójában persze inkább alacsony késleltetésre optimalizált gyorsítóknak számítanak.


[+]

A Groq rendszere leginkább az NPU-khoz hasonló, és innen ered a nagyon jó késleltetése is, mert a Groq 3 LPX rackbe épített LP30 gyorsító alapját 500 MB-nyi SRAM adja, amelyet 150 TB/s-os tempóval érnek el a feldolgozók. Utóbbiak FP8-as formátummal 1,2 PFLOPS-ra képesek, miközben a teljes lapka 98 milliárd tranzisztorból áll, és a Samsung gyártja.


[+]

A számítási teljesítményen látható, hogy azért a GPU-khoz viszonyítva azért nagy a lemaradás, mégis az LP30 jön ki nem egy munkafolyamatban előnyösebbnek, mert olyan tempósan elérhető méretes gyorsítótára van, ami a kritikus munkafolyamatokban jelentős gyakorlati előnyt biztosít a számítási tempóban elszenvedett masszán hátrány ellenére is. Ez az eltérő hardveres felépítés nemcsak az alacsony késleltetésű előtöltésben segít, hanem az egész munkamenet dekódolási fázisát is jobban kezeli, amikor a tokenet generálása történik. Ezt a GPU-k annyira nem szeretik, mert kevésbé párhuzamosítható, illetve erősen memóriaintenzív.


[+]

Az NVIDIA a Groqot egyszerre használná majd a GPU-s gyorsítók mellett is, vagyis a feldolgozást megosztanák úgy, hogy a GPU-k számára kedvező munkafolyamatok maradjanak is a helyükön, de minden más mehet a kedvezőbb képeségekkel rendelkező hardverre. A Groq 3 LPX viszont specifikus dizájn, így egy szerver a host CPU mellé nyolc darab LP30-as Gorq 3 LPU-t kínál, ami rackszinten 256 darab LPU-ra jön ki, 325 PTLOPS-os számítási tempóval, FP8-as formátum mellett.

A jövőt tekintve az NVIDIA egy útitervvel is előállt, és 2028-ban a Feynman gyorsító mellé a Rosa CPU érkezik, a Gorq LP40 társaságában. Ezekről leghamarabb jövőre tudhatunk meg pontosabb részleteket.

Azóta történt

Előzmények