A szerverek piacán nagy az érdeklődés a különböző gyorsítók iránt, de manapság ez kezd igaz lenni a professzionális piacra, ahol ugyan a GPU-kat nem fogják be több ezres nagyságrendben, de erre nincs is szükség, mert még önmagukban is tekintélyes a teljesítményük. Sok feladat igen hatékonyan párhuzamosítható, így ma a GPU általános számításokra is nagyon jól használható. A felsőházban lényegében három cég versenyez, és közülük az AMD és az NVIDIA legerősebb megoldásai ismertek, de az Intel Xeon Phi gyorsítói még újoncnak tekinthetők. Utóbbinak hála túl sok valós teljesítményadatról még nem lehet tudni, de a termékek már a munkaállomásokba is rendelhetők, így szállingóznak az első eredmények.
Az OpenCL-t használó – egyébként magyar fejlesztésű – CLBenchmark az egyik legátfogóbb program a grafikus processzor általános számításokban mutatott teljesítményének mérésre, hiszen rengeteg különféle teszt van benne, így sok eltérő feladat mellett meghatározható a rendszer várható teljesítménye. A gyors, nagyjából azonos fogyasztási osztályba nevező professzionális gyorsítók között a teljesítménykülönbséget az alábbi táblázat részletezi:
Termék: | AMD FirePro W9000 |
Intel Xeon Phi 5110P |
NVIDIA Tesla K20c |
---|---|---|---|
Physics: SPH Fluid Simulation | 25 570 |
- | 10 118 |
Graphics: Raytrace | 273 922 |
30 707 | 182 116 |
Vision: Optical Flow | 9259 | - | 61 728 |
Image Filter: Sobel - Global memory usage | 1 883 000 |
57 271 | 1 409 600 |
Image Filter: Sobel - Local memory usage | 1 200 200 |
30 000 | 937 000 |
Image Filter: Sobel - Image usage | 1 820 200 | - | 912 700 |
Image Filter: Separated Gaussian Blur - Global memory usage | 155 700 |
11 360 | 262 100 |
Image Filter: Separated Gaussian Blur - Image usage | 685 400 |
- | 401 000 |
Image Filter: Median3x3 - Image usage | 1 006 300 |
- | 469 400 |
Programming Principles: Bucketing - Parallel Associative Local | 25 075 |
6049 | 13 054 |
Programming Principles: Reduction - Parallel Commutative case with Local memory usage | 1 009 900 | 64 668 | 436 000 |
Programming Principles: Scanning - Parallel Associative case with Local memory usage | 377 100 |
12 681 | 145 200 |
Programming Principles: Scanning - Sequential Associative case | 30 439 |
4 798 | 13 453 |
Programming Principles: Sum - Global atomic add | 44 678 |
2 843 | 33 100 |
Programming Principles: Sum - Local atomic add | 562 500 |
149 800 | 15 920 |
Programming Principles: Bitonic Merge Sort | 3800 |
192 | 10 269 |
Programming Principles: Tree search | 1406 |
4840 | 871 |
Sajnos a Xeon Phi esetében pár teszteredmény hiányzik, pedig a folyadékszimuláció sebességére mindenképp kíváncsiak lettünk volna.
A tesztekből leszűrhető, hogy ahol a feldolgozásra váró temérdek adat gyors elérése kritikus, ott a FirePro W9000 verhetetlen. Ez nem számít meglepetésnek, hiszen a GCN architektúra sajátossága, hogy az AMD teletömte a rendszert regiszterekkel és gyorsítótárak sokaságával. Ha hagyományos értelemben tekintünk a shader processzorra, akkor a Tahiti cGPU-ban egy ilyen egységhez 4 kB-nyi regiszterterület tartozik, miközben a Tesla K20c alapjául szolgáló GK110-ben ez az érték nagyjából 1,37 kB, míg a Xeon Phi 5110P, azaz a Knights Corner kódnevű lapka esetében ilyen értelmezésben csak 0,5 kB-os kapacitásról beszélhetünk.
A Tesla K20c alapvetően az Optical Flow tesztben domborít, aminek elsősorban szoftveres okai vannak. A megegyező lapkára épülő GeForce GTX Titan már sokkal gyengébben teljesít, de nem is a Teslához készült drivereket használja. A meghajtóban pedig a fő különbség, hogy az eszköz mennyi kernelt képes hatékonyan indítani. Természetesen a GeForce GTX Titan is képes lenne ilyen eredményre, de a kernelekkel való babrálást az NVIDIA célszerűnek tartja a teljesítmény korlátozásához, mivel az alkalmazás működését nem befolyásolja.
A Bitonic Merge Sortról ismert, hogy a Kepler architektúra kifejezetten kedveli, ahogy általában a más rendezési algoritmusokat is. A Xeon Phi eredménye ebben a tesztben érthetetlen, viszont jól megy neki a Tree search, ami elsősorban hatékony flow control hardvert igényel.