Mennyit érnek a szintetikus tesztek az ultramobil piacon?

A PC-n az elmúlt évtized nagy vitája a hardverek tesztelése kapcsán az volt, hogy mennyit érnek a szintetikus, vagy az úgynevezett félszintetikus tesztek a termékek értékelésénél. Máig igen eltérő vélemények vannak a témában, ami persze sosem baj, de annyi biztos, hogy a PC-s hardverek teljesítménye iránt érdeklődő olvasókat már nem érdeklik a nem valós körülményeket mérő direkt tesztprogramok eredményei. Ez valamikor még az előző évtized elején alakult így, amikor nyilvánvalóvá vált, hogy a szintetikus és félszintetikus tesztek úgymond nem tiszták, vagyis brutálisan lehet bennük csalni, ha az adott gyártó veszi a fáradtságot a driverek, vagy éppen a fordítók direkt „optimalizálására”.

Ez keserű felismerés volt mind a piacnak, mind a felhasználóknak, és legfőképp az adott tesztek fejlesztőinek. A bizalom a GeForce FX sorozat 3DMark 03-ban végrehajtott „specifikus optimalizálása” során tört meg teljesen, ugyanis az NVIDIA akkori driverei olyan szinten manipulálták a sebességet, hogy az még a képminőségen is megmutatkozott – jóval gyengébb lett. További problémát jelentett, hogy az akkori ATI nem nézte tétlenül a konkurencia ténykedését, így az általuk bevezetett optimalizáció a képminőséget ugyan nem rontotta, de a specifikus rutinok gyorsítottak a tempón. Az egész botrány eredménye az lett, hogy a felhasználók bizalma megrendült a direkt tesztprogramokban. Ez nem feltétlenül volt hátrányos, hiszen rengetegszer kiderült a történelem során, hogy a szintetikus vagy félszintetikus tesztprogramokban mért eredmény nem ritkán köszönőviszonyban sincs a gyakorlatban felmutatott teljesítménnyel. Ez alapvetően az adott mérési rendszer mivoltától függ, de jellemző, hogy a szintetikus mérések egy adott feladatra vannak kihegyezve. Ide sorolhatók a Dhrystone, a Fhourstones, a Geekbench, az AnTuTu, az AIDA64, valamint a SiSoftware Sandra alkalmazások. Utóbbi kettő szoftver valamilyen szinten kakukktojás, mert rendelkeznek ugyan tesztprogram modullal, de elsősorban nem ez a fő feladatuk, így ez a programfunkció az AIDA64 és a SiSoftware Sandra esetében amolyan extra.

Hirdetés

A szintetikus méréseket szerencsére ma már kevés felhasználó veszi komolyan, mivel alapvetően képtelenek az adott termék gyakorlati teljesítményét meghatározni. A komolyabb minőségre törekedő média is egyre inkább háttérbe szorítja ezek használatát. A tesztprogramok azonban sokszor nem hagyhatók ki, mivel a gyakorlati alkalmazásokkal való mérés jóval időigényesebb. Ugyanakkor a szintetikus mérések iránti negatív hozzáállás arra sarkalta a médiát, hogy a félszintetikus programokhoz nyúljanak. Ezek annyiban különböznek a szintetikus társaiktól, hogy megpróbálják szimulálni a gyakorlati helyzeteket, így az eredmény közelebb áll majd a valósághoz. Ide sorolható a 3DMark, a PCMark, a Cinebench, a LuxMark, a CLBenchmark vagy a GFXBench tesztprogramok. Az biztos, hogy tökéletesen lehetetlen szimulálni a valóságot, így mindegyik tesztprogramnak meg lesz az a hátránya, hogy meghatározott szabályok szerint működik. Például a 3DMarkok előre kiszámolt jelenettel dolgoznak, hogy a központi processzornak még a kisujját se kelljen mozdítania. Ez alapvetően koncepció, hiszen a FutureMark a GPU-limitre törekszik, de lényegében érthető, hogy miért nem lehet tökéletesen valós eredményt biztosítani ezzel a módszerrel. A félszintetikus programok azonban így is nagyon jól belövik a hardver valós teljesítményét, sokkal jobban, mint a hagyományos szintetikus tesztek. Tehát, ha mindenképp tesztprogrammal kell mérni az adott konfigurációt, akkor a félszintetikus megoldások közül érdemes választani. Persze jóval kevesebb lehetséges alkalmazás van erre a célra a szintetikus mezőnyhöz képest, mivel a félszintetikus tesztprogramok fejlesztése nagyságrendekkel drágább.

A csalás természetesen minden elterjedt tesztprogram feje felett ott lebeg. Ezt a szituációt persze nem az adott alkalmazás fejlesztője teremti, hanem a gyártók a driverek és a fordítók „optimalizálásával”, ezzel próbálnak az adott tesztprogramból nagyobb teljesítményt kipréselni. A fejlesztők természetesen küzdenek ez ellen, így folyamatosan ellenőrzik a gyártók által biztosított szoftvereket. Ebből a szempontból a FutureMark jelentheti a követendő példát, mivel a cég folyamatosan vizsgálja a drivereket és a fordítókat, hogy a csalás lehetőségét kizárják. Szintén kedvező, hogy a gyártók pontosan tudják, mit tekint csalásnak a FutureMark és mit nem, amivel egy ellenőrzött rendszer áll össze. A legtöbb tesztprogram ilyen irányba tart, így a fejlesztők folyamatos harcot vívnak a részrehajlás elkerülése érdekében. Persze vannak keserű ellenpéldák is, amit a BAPCo szolgáltatott. A szervezetből az Intel kivételével mára minden érintett kilépett, mivel kiderült, hogy a különböző CPU-k és GPU-k gyártóit nem egyenlő bánásmódban részesítették, ami a legsúlyosabb vétek egy tesztprogram esetében. Ez alapvetően lerontotta a SYSmark renoméját, aminek a konkurens alkalmazások fejlesztői nagyon örülhettek.

A PC láthatóan túl van azon a krízisen, ami a tesztprogramokat övezte. Ebből persze az előbbi alkalmazások nem jöttek ki jól, de előtérbe kerültek a valós alkalmazásokon végrehajtott tesztek, ami végtére is a felhasználóknak jó. Az ultramobil piac tíz év elteltével most ugyanezen megy keresztül. Nyilván ennek a végeredménye is a valós alkalmazások előtérbe kerülése lesz, amiből megint a vásárlók profitálnak, de a váltás nem lesz gyors. Az egyértelműen látszik, hogy egyre több probléma van a tesztprogramokkal. Az AnTuTu például jelezte egy kiszivárgott, Intel Silvermont mag teljesítményét mutató eredmény kapcsán, hogy az aktuális alkalmazásverzió erősen felülpontozza a hardvert. Ez természetesen könnyen javítható, de még nagyobb problémát jelent a Samsung nemrégiben kiderült apróbb trükkje.

1,2 GHz-en a magok már a teszt előtt.
1,2 GHz-en a magok már a teszt előtt. (forrás: AnandTech)

Az AnandTech rávilágított, hogy a Samsung 5410-es Exynos 5 Octa SoC a grafikus vezérlő 480 MHz-es órajelét 532 MHz-re emeli pár tesztprogram alatt. Egészen pontosan az AnTuTu, a GLBenchmark 2.5.1 és a Quadrant az érintett, továbbá a processzor esetében is érdekes adalék, hogy az előbbi alkalmazások futtatása során a Cortex-A15-ös magok órajele rögzült 1,2 GHz-en. Ennek a módszernek a problémája, hogy a tesztprogram fejlesztője ki sem tudja védeni, ugyanis egy alkalmazás nem állíthatja át a hardver órajelét.

Tulajdonképpen egyfajta csalásról van szó, vagy a régi megfogalmazással élve: „specifikus optimalizálás” történt. Ez azonban a leendő vásárlók szempontjából nem egy rossz dolog, hiszen végre egy olyan helyzetet teremtett, ami felnyithatja a világ szemét: az ultramobil hardverek teljesítményét ugyanis még ma is kizárólag szintetikus vagy félszintetikus tesztprogramokkal mérik, ami egyértelműen hátrányos, ehelyett a valós alkalmazásokat kell előtérbe helyezni – erre pedig a most kipattant botrány mellett egyre nagyobb esély van. Őszintén reméljük, hogy több cég is követi a Samsung példáját, így az ultramobil piacon a felhasználók hamar bizalmatlanná válhatnak a tesztprogramokkal kapcsolatban.

Előzmények

Hirdetés