Fény derült a Navi 10 GPU magas működési hőmérsékletének okára

Az új, korábbinál pontosabb órajel-szabályozás adja meg a választ a kérdésre.

Az AMD nyár közepén mutatta be a Radeon RX 5700-as sorozatú VGA-kat, amelyek a Navi 10 kódnevű GPU-ra épülnek. Ezekről az előbbi linken olvasható egy teszt is, de az utóbbi időben felvetődött, hogy a grafikus vezérlők a GPU-kat extrém módon terhelő programok alatt elérhetik a 110°C-t is.

Az AMD elmagyarázta egy blogposztjában, hogy ez teljesen normális, a jelenség oka a korábbinál pontosabb órajel-szabályozáshoz szükséges változás, amit újonnan vezettek be. Nevezetesen arról van szó, hogy a Navi 10 konkrétan képes meghatározni a lapka legforróbb pontját. Erre korábban egyetlen hardver sem volt képes a piacon, ami ugyan nem baj, működnek így is a rendszerek, de ilyenkor a hardver a beépített hődiódára, vagy hődiódákra épít. Ezekből egy vagy több kerül az egyes grafikus vezérlőkbe, nagyon eltérő, hogy melyikbe mennyi, és részben a kiolvasott értékek alapján dönt a hardver a beállítandó órajelről.

Hirdetés

Mint ismeretes, a grafikus vezérlő egy heterogén módon programozható rendszer, vagyis elképzelhető, hogy az egyik pontján, ahol éppen dolgozik, sokkal forróbban üzemel, mint azokon a pontokon, ahol vannak hődiódák. Ez a jelenség már a többmagos processzorok megjelenése óta köztudott, és például a Windows ütemezése, a legtöbb processzornál pont úgy működik, hogy az új szálakat az egymástól fizikailag távol lévő magokon indítja. Ezzel tulajdonképpen a processzorok magasabb órajelet képesek elérni, mert a lapkának a távoli pontjai vannak terhelve, amelyek így jobban felforrósodnak a többi területhez képest, de ami a lényeg, hogy nem egy kisebb kiterjedésű részre koncentrálódik a munkavégzés. Ez egyébként például pont rossz a Ryzeneknek, és a Microsoft a Windows 10 May 2019-es frissítésében, ezekre a processzorokra meg is változtatta az ütemezést, így a folyamatok indítása már a CCIX-en belüli legtávolabbi magokat célozza.

A lényeg az, hogy a terhelés függvényében az adott lapka két pontja között viszonylag nagy lehet a hőmérséklet-különbség. Itt persze nem érdemes emberi mértékekben gondolkodni, de az eltérés pont elérheti azt a szintet, ami az órajel-szabályozás szempontjából nem optimális. Végeredményben tehát kell valami megoldás arra, hogy meghatározható legyen az adott GPU-n a legforróbb pont, és ez eddig nem nagyon ment. A legtöbb hardverben ugyan van hődióda, akár kettő-három is, ráadásul olyan helyeken, amelyek a gyártó szerint kritikus területek lehetnek a melegedés szempontjából, de eléggé valószínű, hogy a visszajelzett hőmérsékletnél lesz forróbb pont, amit viszont a hardver már nem tud mérni. Ilyenkor az órajel-szabályozást úgy kell kialakítani, hogy az a tesztek alapján gyűjtött tapasztalat, illetve a lapkák közötti tipikus variancia figyelembe vétele mellett stabilan képes legyen működtetni a GPU-t. Lehet, hogy nem lesz optimális a beállított órajel, de nem fagy le.

Az AMD a 14 és 12 nm-es node-on készülő Polaris és Vega lapkák esetében egy hődiódára épített, amit persze kiegészítettek egyéb szenzorok is, de tulajdonképpen ezek alapján hozott meg a cég minden döntést a beállítandó feszültség és órajel tekintetében. A hardverek úgynevezett DPM lépcsőkre voltak osztva, ezekből fixen volt pár definiálva, az a GPU-tól függőt, hogy mennyi. Ez a rendszer természetesen működött, de ha az ideális órajel és feszültség pont két DPM lécső között volt, akkor a hardver azt nem tudta beállítani, egyszerűen vissza kellett skáláznia magát arra a DPM lépcsőre, ami alulról a legközelebb állt a számolt értékekhez.

A Vega 10 fix DPM lépcsői
A Vega 10 fix DPM lépcsői [+]

A 7 nm-es node-on készülő AMD GPU-k már egy finomszemcsés DPM mechanizmust használnak, vagyis pár fix DPM lépcső helyett több száz köztes állapot van. Ilyen formában rendkívül pontosan be lehet állítani a GPU-nak az optimális órajel és feszültség párosát, de ahhoz, hogy ez igazán hatékonyan működjön, pontosan kell meghatározni a GPU legforróbb pontját, különben az egész nem sokkal ér többet a korábbi modellnél.

A Navi 10 finomszemcsés DPM mechanizmusa
A Navi 10 finomszemcsés DPM mechanizmusa [+]

A fentiek miatt az újabb, 7 nm-es GPU-kban – különösen a Navi 10-ben – hálózatba kötött szenzorok határozzák meg a hardver működési hőmérsékletét. Ezzel lényegében egy hőtérképet készít az AMD a teljes lapkáról, ami nem ismeretlen a cég számára, a processzoraiknál régebb óta alkalmazzák ezt a megoldást. Ez egészen pontos eredményeket ad a vállalat kezébe az órajelre és a feszültségre vonatkozó döntések meghozásánál, mivel már nem kell annyira a biztonságra játszani. Nem szükséges feltételezni, hogy a mérés ugyan hiába mutat a határnál akár jóval alacsonyabb hőmérsékleteket, így is bőven elképzelhető, hogy a lapka egy ponton már túllépte a kritikus értéket.

A Navi 10 tehát alapvetően nem forróbb lapka az elődjeinél. A különbség az, hogy ez a hardver már képes kimérni a legforróbb pontját. Persze a felhasználók alapvetően úgy állnak a dolgokhoz, hogy amit nem látnak, az nem is létezik, pedig valójában simán el tudta érni egy régebbi GPU is a 110°C-os hőmérsékletet, csak nem volt eszköze hozzá, hogy ezt az adatot visszajuttassa a hőfokot monitorozó programoknak, így a felhasználók abban a hitben éltek, hogy biztosan nem melegszik fel ennyire. Ráadásul nagyon fontos tényező, hogy egy gyártó mennyire bízik a saját órajel-szabályozásában. Minél kevésbé, annál fontosabb alacsonyabb hőmérsékleti szinten meghúzni a maximális határt, mert egy dióda ugyan kimérhet 90°C-ot, de bőven elképzelhető, hogy egy másik ponton, ahol nincs szenzor, már meghaladta a 110°C-t. És fontos észben tartani, hogy szilíciumról beszélünk. Akár egy másodperc alatt képes megugrani a hőmérséklete, majd legalább ilyen gyorsan vissza tud hűlni, ha az adott területet terhelő munka megszűnt. Tehát ez egyáltalán nem olyan, mint egy sütő a konyhában, ahol percekig kell várni a felmelegedésére, majd akár egy órát is a visszahűlésére.

A fenti működés a fő oka annak is, hogy a Navi 10-ben nincs igazán órajeltartalék a tuning szempontjából. Egyszerűen a hardver automatikusan a határra tudja állítani magát, márpedig a tuning azért létezik, mert a gyártók alapvetően a biztonságra játszanak a gyári órajelek és gyári működés meghatározásánál, még akkor is, ha ezzel viszonylag sok teljesítményt vesztenek. Az AMD új órajel-szabályozási rendszere viszont úgy tud stabil működést kínálni, hogy közben nem kell teljesítményt hagyni a lapkákban.

Hirdetés

  • Kapcsolódó cégek:
  • AMD

Azóta történt

Előzmények

Hirdetés