Adatok az Intel Xeon Phi teljesítményéről

A szerverek piacán nagy az érdeklődés a különböző gyorsítók iránt, de manapság ez kezd igaz lenni a professzionális piacra, ahol ugyan a GPU-kat nem fogják be több ezres nagyságrendben, de erre nincs is szükség, mert még önmagukban is tekintélyes a teljesítményük. Sok feladat igen hatékonyan párhuzamosítható, így ma a GPU általános számításokra is nagyon jól használható. A felsőházban lényegében három cég versenyez, és közülük az AMD és az NVIDIA legerősebb megoldásai ismertek, de az Intel Xeon Phi gyorsítói még újoncnak tekinthetők. Utóbbinak hála túl sok valós teljesítményadatról még nem lehet tudni, de a termékek már a munkaállomásokba is rendelhetők, így szállingóznak az első eredmények.

Az OpenCL-t használó – egyébként magyar fejlesztésű – CLBenchmark az egyik legátfogóbb program a grafikus processzor általános számításokban mutatott teljesítményének mérésre, hiszen rengeteg különféle teszt van benne, így sok eltérő feladat mellett meghatározható a rendszer várható teljesítménye. A gyors, nagyjából azonos fogyasztási osztályba nevező professzionális gyorsítók között a teljesítménykülönbséget az alábbi táblázat részletezi:

CLBenchmark eredmények
Termék: AMD
FirePro W9000
Intel
Xeon Phi 5110P
NVIDIA
Tesla K20c
Physics: SPH Fluid Simulation 25 570
- 10 118
Graphics: Raytrace 273 922
30 707 182 116
Vision: Optical Flow 9259 - 61 728
Image Filter: Sobel - Global memory usage 1 883 000
57 271 1 409 600
Image Filter: Sobel - Local memory usage 1 200 200
30 000 937 000
Image Filter: Sobel - Image usage 1 820 200 - 912 700
Image Filter: Separated Gaussian Blur - Global memory usage 155 700
11 360 262 100
Image Filter: Separated Gaussian Blur - Image usage 685 400
- 401 000
Image Filter: Median3x3 - Image usage 1 006 300
- 469 400
Programming Principles: Bucketing - Parallel Associative Local 25 075
6049 13 054
Programming Principles: Reduction - Parallel Commutative case with Local memory usage 1 009 900 64 668 436 000
Programming Principles: Scanning - Parallel Associative case with Local memory usage 377 100
12 681 145 200
Programming Principles: Scanning - Sequential Associative case 30 439
4 798 13 453
Programming Principles: Sum - Global atomic add 44 678
2 843 33 100
Programming Principles: Sum - Local atomic add 562 500
149 800 15 920
Programming Principles: Bitonic Merge Sort 3800
192 10 269
Programming Principles: Tree search 1406
4840 871

Sajnos a Xeon Phi esetében pár teszteredmény hiányzik, pedig a folyadékszimuláció sebességére mindenképp kíváncsiak lettünk volna.

A tesztekből leszűrhető, hogy ahol a feldolgozásra váró temérdek adat gyors elérése kritikus, ott a FirePro W9000 verhetetlen. Ez nem számít meglepetésnek, hiszen a GCN architektúra sajátossága, hogy az AMD teletömte a rendszert regiszterekkel és gyorsítótárak sokaságával. Ha hagyományos értelemben tekintünk a shader processzorra, akkor a Tahiti cGPU-ban egy ilyen egységhez 4 kB-nyi regiszterterület tartozik, miközben a Tesla K20c alapjául szolgáló GK110-ben ez az érték nagyjából 1,37 kB, míg a Xeon Phi 5110P, azaz a Knights Corner kódnevű lapka esetében ilyen értelmezésben csak 0,5 kB-os kapacitásról beszélhetünk.

A Tesla K20c alapvetően az Optical Flow tesztben domborít, aminek elsősorban szoftveres okai vannak. A megegyező lapkára épülő GeForce GTX Titan már sokkal gyengébben teljesít, de nem is a Teslához készült drivereket használja. A meghajtóban pedig a fő különbség, hogy az eszköz mennyi kernelt képes hatékonyan indítani. Természetesen a GeForce GTX Titan is képes lenne ilyen eredményre, de a kernelekkel való babrálást az NVIDIA célszerűnek tartja a teljesítmény korlátozásához, mivel az alkalmazás működését nem befolyásolja.

A Bitonic Merge Sortról ismert, hogy a Kepler architektúra kifejezetten kedveli, ahogy általában a más rendezési algoritmusokat is. A Xeon Phi eredménye ebben a tesztben érthetetlen, viszont jól megy neki a Tree search, ami elsősorban hatékony flow control hardvert igényel.

Azóta történt

Előzmények

Hirdetés