A Google prezentálta legújabb AI gyorsítóit, amelyek a nyolcadik generációs TPU dizájnt képviselik. Ráadásul most két külön hardver is érkezett, egy a gépi tanulás következtetés, egy pedig a tréning szakaszára. Eredetileg a cég mindkét irányt egy hardverrel fedte le, bár inkább az utóbbira fókuszáltak a tervezést tekintve. Probléma ugyanakkor, hogy a két eltérő munkaterhelés különböző hardvereket is igényel. Jobban mondva megoldható közös gyorsítóval, de ha hatékonyság is kell, akkor érdemesebb célirányosan tervezni a rendszert.
A nyolcadik generáció sorozat így tesz, mivel a gépi tanulás következtetés szakaszára érkezik a TPU 8i, amely az előző szériához viszonyítva jobb sparsity-t, illetve továbbfejlesztett mátrixfeldolgozókat használ, kifejezetten a transzformer modellekhez igazodva.
A nagy előrelépést inkább a skálázás jelenti, ugyanis a TPU 8i bevezeti a Boardfly hierarchikus hálózati topológiát, amely podonként akár 1152 gyorsítót is támogat, 36 csoportba szervezve, csoportonkén 8 darab boardra osztva. Ez egészen extrém kiépítés, ami a podonként 11,6 EFLOPS-ot biztosít FP8-as formátummal, a memóriakapacitás pedig összesítve 331,8 TB lehet. A Google még a saját, Axion szerverprocesszorát is beveti, és minden ilyen CPU-hoz két TPU 8i gyorsító köthető.
A TPU 8t fejlesztés már a tréningre koncentrál, és elsődlegesen itt is a skálázhatóság kapta a fő hangsúlyt. Egy pod 9600 gyorsítót alkalmazhat, és ezáltal 121 EFLOPS érhető el FP4-es formátummal.
A Google nyolcadik generációs TPU sorozata a munkafolyamat célzott kiszolgálásával számottevő hatékonyságelőnyt kínál, ami a cég számára kritikus szempont, hiszen így tudják maguk számára a lehető legkisebb költséggel üzemeltetni az AI szolgáltatásaikat, ami különösen fontos az ügynökalapú AI terjedésével.

