A Tesla még 2019-ben mutatta be saját, önvezető autókba szánt lapkáját, de ez csak az érem egyik oldala, ugyanis a futtatott neuronhálót tréningelni is kell, amihez a cég eddig nem alkalmazott házon belüli hardvert. A D1-gyel azonban ez megváltozik, ugyanis a Tesla a gépi tanulás tréning szakaszára is tervezett magának egy saját dizájnt.
A Tesla D1 leginkább egy ASIC, vagyis az alkalmazásspecifikus integrált áramkör, amelyet kifejezetten a gépi tanulás tréning szakaszának igényeihez alakítottak ki. Maga a lapka a TSMC 7 nm-es node-ján készül, 50 milliárdnál is több tranzisztort tartalmaz, mindez pedig 645 mm²-es lapkaméretbe fért bele.
Hirdetés
A fejlesztés alapvető részegysége a training node, amiből 354 darab található a lapkán belül, ráadásul hálós topológiával vannak összekötve. Egy training node felfogható egy olyan egyedi tervezésű szuperskalár processzormagként, amely 8x8-as mátrixszorzásra tervezett vektor adatutat biztosít, miközben 1,25 MB-nyi SRAM-ot használ a helyi adattárolásra. Az egyes training node-ok minden irányban 512 GB/s-os adatátviteli tempóra képes buszon keresztül vannak összekötve. A lapkán belüli összesített sávszélesség egyébként a 10 TB/s-ot is elérheti.
A Tesla a hardvert bfloat16 és CFP8 (configurable FP8) operációkhoz tervezte. Ezekkel a számítási teljesítmény elérheti a 362 TFLOPS-ot. Persze a rendszer szimpla pontosságú lebegőpontos kalkulációkat is tud végezni, de sokkal lassabb, 22,6 TFLOPS-os tempó mellett. Ezek önmagukban nagyon szép értékek, de aligha mondhatók kiemelkedőnek. A D1-nek ugyanakkor van egy nagy titka, mégpedig az, hogy minden training node-on belüli switch csak egy ciklus késleltetéssel működik. Ez azért lényeges tényező, mert a D1 gyakorlatilag képes nagyjából arra a teljesítményre, amire egy modernebb, AI feldolgozásra tervezett GPU, miközben annak minden kommunikációs késleltetésből eredő hátrányát leveti magáról. Ez a gépi tanulás tréning szakaszának gyakorlati feldolgozásánál rendkívül hasznos képesség, mert jobb kihasználást garantál a hardverre nézve.
A Tesla D1 komoly extrája még az extrém skálázhatósága. Egy ilyen lapka minden oldalán 4 TB/s-os adatátviteli kapcsolatot biztosító interfész található, és ilyen formában a TSMC System on Wafer (InFO_SoW) technológiájával létrehozható egy olyan 5x5, azaz 25 lapkát biztosító rendszer, amit a vállalat training tile-nak nevez. Ez azonban még nem a felső határ, ugyanis egy training tile mind a négy oldalán 10 darab nagy teljesítményű I/O interfészt tartalmaz, amelyek oldalankénti teljesítménye 9 TB/s. Ezek segítségével 2x3-as kiépítésben összeköthető hat darab training tile, ami egy training matrixot alkot.
Tesla D1 training matrix
A training matrix tekinthető egy tálcának, és két ilyen tálca helyezhető egy kabinetbe, utóbbiból pedig tízet összekötve kijön egy ExaPod, és a Tesla ezeket építi majd be a saját szuperszámítógépbe, a Dojóba. Arról nincs adat, hogy a cég mennyi ExaPodot fog majd alkalmazni, de azt elárulták, hogy egy ilyen komplex egység 1,1 EFLOPS számítási teljesítményt kínál a gépi tanulás tréning szakaszához.
A Tesla szerint a D1-re építő rendszerük az általuk jelenleg használt NVIDIA A100-nál négyszer nagyobb teljesítményt képes elérni extrém skálázás mellett, miközben 1,3-szer jobb a hatékonysága, és ötödakkora helyigénnyel rendelkezik. Ezek az adatok összességében egy nagyságrenddel alacsonyabb TCO-t, vagyis a teljes életútra levetített költséget eredményeznek.