Az adatközpontokba szánt gyorsítók piaca igencsak eltér a végfelhasználói megoldásoktól, ami persze régen is nagyon jellemző volt. Korábban ugyanakkor az egyik legfontosabb különbséget az FP64-es vagyis a dupla pontosságú számítási teljesítmény adta, ebből a szempontból ugyanis a szerverekbe fejlesztett dizájnok ki voltak gyúrva.
Az AI erősödése viszont némileg bekavart, mivel ehhez az irányhoz nem szükséges túl nagy pontosság, így a hardverek részegységei elkezdtek másfelé fejlődni, inkább az FP8 kezdett lényegessé válni. Önmagában ezzel semmi gond nincs, de minél több adatformátumot támogat egy hardver, annál komplexebbre kell tervezni a feldolgozóit, tehát egy ponton túl fel kell tenni a kérdést, hogy miképpen lehetne valamivel spórolni, mert minden lehetőség teljes sebességű működése nem túl kifizetődő a tranzisztorszámot tekintve.
Hirdetés
Az NVIDIA a B200 és B300 nevű Blackwell dizájnokkal megpróbált okosan reagálni a nem túl kedvező helyzetre, és viszonylag kevés natív FP64-es feldolgozót építettek a rendszerekbe. Ezek helyett inkább az úgynevezett Ozaki-sémára építettek, ami módszertől függően az Int8 vagy az FP8 formátumok kezelésére felkészített mátrixfeldolgozót használják arra, hogy emulálják az FP64-es számításokat. Ezzel a natív teljesítményhez viszonyítva 4-5-szörös tempóelőnyre lehet szert tenni, miközben nem szükséges hozzá speciális, FP64-re szabott hardverelem.
Arra gondolhatnánk, hogy az AMD is elmegy majd ebbe az irányba, mivel az utóbbi cég az Instinct MI300-as generációnál még mindig komolyan vette az FP64-et, így kvázi kimaxolták a lehetőségeket, de az Instinct MI400 sorozat kapcsán még nem lehetett tudni semmit sem arról, hogy mit lép a vállalat.
Nicholas Malaya, az AMD HPC fejlesztésekért felelős munkatársa, a HPCWire számára elmonda, hogy szoftverről lévén szó az Ozaki-sémát támogatni fogják, de nem találják az eredményeket olyan meggyőzőnek, hogy helyettesítsék a natív FP64-es feldolgozókat.
A szakember szerint az emuláció bizonyos esetekben rendben van, de figyelembe kell venni, hogy a módszerek nem IEEE-kompatibilisek, vagyis nem azt az eredményt adják, amit a natív FP64-es hardver, továbbá négyzetes mátrixokra támaszkodnak, és ha az adott HPC-feladat nem négyzetes mátrixokat használ, akkor a teljesítmény rendkívül lassú lehet.
Ezeknél is fontosabb, hogy az Ozaki-séma nem használható csak úgy automatikusan, ugyanis megfelelően kell hozzá módosítani a HPC-alkalmazásokat, de ezt nagyok kevesen tették eddig meg. Emiatt Nicholas Malaya szerint ez a fajta emulációs módszer a programok 90%-ára nem használható.
Az AMD a fentieket figyelembe véve úgy döntött, hogy az Instinct MI400 sorozatot, ezen belül is a HPC-piacot célzó MI430-as verziót továbbra is natív FP64-re tervezi.
Ez egyébként nem jelenti azt, hogy rosszul döntött az NVIDIA az Ozaki-sémára való támaszkodással. Ahogy a hír elején is írtuk, a tranzisztorbüdzsé limitált, amit mindkét cég érez, és figyelembe véve a célozható piacokat, a lehető legjobb felépítést próbálják elérni a készülő fejlesztéseknél, ami lényegében azt jelentheti, hogy itt-ott kompromisszumot kell kötni. A különbség annyi, hogy az AMD és az NVIDIA máshol húzza meg a nadrágszíjat.

