Saját gyorsítóval megy neki a gépi tanulásnak a Fujitsu

A DLU-t csak erre tervezte a cég, aminek hála drámai mértékben jobb az aktuális megoldásoknál.

A Fujitsu bejelentette, hogy kifejlesztettek egy gyorsítót a szerverpiacra, amelyet speciálisan a gépi tanulással kapcsolatos feladatok megoldására optimalizáltak. Ez az a terület, amely manapság rendkívül dinamikusan fejlődik, ugyanakkor számos cég látja úgy, hogy se a CPU-k, se a GPU-k nem ideálisak a számítások elvégzésére. Ezen elsődlegesen azt kell érteni, hogy speciálisan kialakított architektúrákkal nagyságrendi előrelépést lehetne elérni a hatásfok tekintetében, és emiatt számos ilyen megoldáson dolgoznak a gyártók.

A Fujitsu a DLU-t hozza, amely a Deep Learning Unit rövidítése. A vállalat célja az volt, hogy a fejlesztésük tízszer hatékonyabb legyen az aktuális megoldásokhoz képest, ami vagy sikerül vagy nem. Annyi biztos, hogy a DLU támogatja a Tofu (Torus fusion) összeköttetés valamelyik verzióját, de az még nincs tisztázva, hogy melyiket. Mint ismeretes, az első generációs konstrukció a Japánban működő K Computer óta érhető el, de a vállalat már tervezett egy második generációs, úgymond továbbfejlesztést is, ami az információátviteli tempót 40-ről 100 Gbps-ra emelte.

A DLU-n belülről egy heterogén többmagos processzor alapjaiban gépi tanuláshoz tervezett utasításarchitektúrával. A fő szempont az energiahatékonyság volt, a feldolgozók pedig 8 és 16 bites integer, illetve 16 és 32 bites lebegőpontos operációkat támogatnak. Maga a lapka több DPU-ból (Deep Learning Processing Unit) áll, de a Fujitsu még nem árulta el, hogy mennyiből. Egy DPU-ban viszont 16 darab DPE (Deep Learning Processing Elements) lesz, amelyekben 8 darab SIMD motor található. Sajnos a SIMD feldolgozók szélességét sem adta meg a cég, de annyi kiderült, hogy a DPE-kben nincs gyorsítótár, csupán egy rendkívül méretes regiszterfájl, ami tipikusan illik a gépi tanulás igényeihez.

A DPU-k közötti összeköttetést egy lapkán belüli hálózat biztosítja, míg magukat a DPU-kat fővezérlő kontrollálja, amelyek keresztül történik a memóriához való hozzáférés is. Utóbbi a lapkán belüli memóriavezérlőhöz kapcsolódik, de a memóriabusz szélességét nem adta meg a cég, viszont a memória HBM2 szabványú lesz. A DLU ránézésre nagyon hasonlít az adatpárhuzamos feldolgozásra tervezett architektúrákra, de biztosan előnyt jelent, hogy az utasításarchitektúra kialakításánál csak a gépi tanulás számított, így a hatásfok tekintetében elképzelhető, hogy több nagyságrendnyi előnye lesz az aktuális rendszerekhez képest.

A Fujitsu az első generációs DLU-t konkrétan gyorsítónak szánja, és a 2018-as üzleti évük folyamán jelenhet meg. A második generációs fejlesztés lesz az érdekesebb, ugyanis a vállalat a rendszer integrációját tervezi, így a fejlesztés konkrétan beépül a Fujitsu egyes processzoraiba, de erre vonatkozóan még nincs konkrét dátum.

Azóta történt

Előzmények

Hirdetés