Érdekes riport jelent meg nemrég a Reuters oldalain, amelyben összesen nyolc forrásra hivatkozva arról írtak, hogy az OpenAI elégedetlen az NVIDIA legújabb AI gyorsítóival. Az egész ügy viszonylag bonyolult, mivel a két vállalat a szóban forgó piac legnagyobb szereplőinek számítanak, így eléggé egymásra vannak utalva. Viszont amíg régebben a tréning volt a gépi tanulás kritikus munkafolyamata, addig manapság egyre inkább a következtetés szakaszon van a hangsúly, hiszen egyre inkább az a fontos, hogy használni lehessen a megalkotott modelleket, lehetőség szerint jó teljesítmény és energiafelhasználás mellett.
Míg a tréning egy viszonylag bonyolult folyamat, amihez nagyon átgondolt szoftveres háttér szükséges, addig a gépi tanulás következtetés szakasza más jellegű problémakör. Itt lényegében a kész neuronhálók futtatásáról van szó a különböző keretrendszereken, és ugyan néha lehet hallani olyan véleményeket, hogy emiatt a következtetés munkafolyamata egyszerűbb, ez nem feltétlenül igaz, pusztán más jellegű feldolgozást igényel, mivel a hatékony működést eltérő tényezők határozzák meg a tréninghez viszonyítva.
Hirdetés
A legnagyobb különbség az, hogy amíg tréning során nincs kvázi valós idejű válaszkényszer, addig a következtetésnél igencsak fontos, hogy az ügyfél kérésére a lehető leghamarabb reagáljon az adott AI chatbot. Ezen a ponton masszívan felértékelődik az alacsony késleltetés, különösen a TTFT (Time To First Token) paraméter, ami nem csak azt határozza meg, hogy mennyire gyorsan ad választ a gép egy kérdésre, hanem a rendszer kihasználtsága szempontjából is döntő tényező, mivel túl magas TTFT esetén kevesebb ügyfél szolgálható ki egy szerverről, mert a beépített gyorsítók várakoznak a host CPU-kra. Ez ráadásul skálázási gondokat is felvet, ugyanis a relatíve lassú válasz miatt a késleltetés felhalmozódik. Ebben a TTFT paraméterben az NVIDIA komplett AI platformja nem kifejezetten erős, nem egy konkurens megoldás teljesít itt jobban, esetlegesen jelentősen.
A Reuters szerint hét forrásuk állította, hogy az OpenAI nincs megelégedve azzal a sebességgel, amellyel az NVIDIA AI platformja képes válaszokat generálni a ChatGPT felhasználóinak bizonyos problématípusoknál. Ide tartozik a szoftverfejlesztés területe, vagy amikor az AI más szoftverekkel kommunikál. Két forrás szerint az OpenAI keresi az olyan startupokat, mint a Cerebras vagy a Groq, annak érdekében, hogy a következtetés szakaszban gyorsabban teljesítő rendszert tudjanak biztosítani az ügyfeleknek. Az NVIDIA és a Groq viszont egy 20 milliárd dolláros licencmegállapodást kötött, és az egyik forrás úgy tudja, hogy ez le is zárta a tárgyalásokat.
A legnagyobb gond egyébként itt nem az NVIDIA-val van, hanem azzal, ahogy a vállalat tervezi az AI gyorsítóit. Ezek még a felépítésüket tekintve mindig inkább GPU-k, bizonyos AI-ra szabott hardverelemekkel kiegészítve. Ez tréningnél még hasznos is, mert rugalmasságot ad, de következtetésnél sokkal specifikusabbak az igények, emiatt jelentősen hatékonyabb hardver lenne tervezhető, ha elengednék a jelenleg alkalmazott felépítést, és inkább olyan dizájnra állnának át, ami a lapkán belül tartja a munkafolyamatokhoz szükséges adatot. Ehhez nagy mennyiségű SRAM szükséges, és nem véletlen, hogy az AI-ra szánt NPU-k is – gyártótól függetlenül – pont ezt a felépítést favorizálják. Ez persze az NVIDIA számára is választható út lenne, csak az efféle dizájn például nem jó grafikai vagy szimulációs számításokra.
Az OpenAI számára a valós probléma ott keletkezik, hogy a ChatGPT konkurensének számító Claude vagy Gemini részben támaszkodhat a Google saját TPU-dizájnjára, ami tipikusan egy gépi tanulás következtetés szakaszára tervezett konstrukció, és a jóval általánosabban tervezett GPU-kkal szemben előnyben van, ha a feldolgozás hatékonyságáról van szó, gondolva itt az alacsony késleltetésre.
Az egyik forrás szerint a fentiek a Codexnél váltak látványossá, ami egy kódírást segítő termék. Itt az OpenAI munkatársai a Codex bizonyos gyengeségeit az NVIDIA GPU-alapú dizájnjának tulajdonították. Sam Altman, az OpenAI vezetője egy nemrég lezajlott újságírói híváson azt nyilatkozta, hogy az ügyfelek nagyon magas árat hajlandók fizetni a sebességért a kódolási munkák során, ami a vállalat számára nagyon fontos bevételforrás lehet, és ennek érdekében az itt felmerülő igényeket részben a Cerebras dizájnjával elégítik majd ki. A cégvezér hozzátette, hogy az alkalmi ChatGPT felhasználók számára a sebesség kevésbé kritikus tényező.
A Reuters forrásai szerint a Cerebras és a Groq is kapott felvásárlási ajánlatott az NVIDIA-tól. Előbbi vállalat ezt teljesen elutasította, míg utóbbi a fentebb említett licencmegállapodásba ment bele, így elérhetővé tették a technológiájukat az NVIDIA számára. Ez az üzlet viszont nem zárta ki azt, hogy más ne licencelje ezeket, közben ugyanakkor a zöldek elcsábították a Groq mérnökeit.
Végeredményben a fentiek arra világítanak rá, hogy ahogy egyre inkább kritikus munkafolyamattá válik a gépi tanulás következtetés szakasza, úgy lesznek egyre kevésbé alkalmasak erre a feldolgozási formára a GPU-alapú dizájnok. Megcsinálják persze, csak messze nem olyan hatékonyan, ahogy a célirányosan erre tervezett hardverek. Ezen a ponton az NVIDIA még mindig nincs rossz helyzetben, mert igazából csak annyit kell tenniük, hogy kiműtik a készülő architektúrákból a grafikus és szimulációs számításokhoz való feldolgozókat, miközben az AI igényeihez optimalizálják a rendszer gyorsítótárdizájnját. És itt fontos kiemelni, hogy ez önmagában nem jelenti azt, hogy az NVIDIA nem kínálhat többet grafikai munkákra, illetve HPC-piacra szánt gyorsítókat, csak a jövőben már a tervezés szintjén is érdemes szétválasztani a két fő területet.
