Hirdetés

Hirdetés

Új hozzászólás Aktív témák

  • Balala2007

    tag

    #16816
    Viszont az számomra érthetetlen, hogy miért nem tud FMA-t a 2-3 porton a Zen...

    Nyilvan design trade-off, azaz kompromisszum. FMA-nak teruleti es energiakoltesegei vannak, es ennyit gondoltak bealdozhatonak.

    Most meg úgy néz ki, hogy FMA szempontjából teljesítményben egy Zen core=egy Bulldozer uarch modul (2x128 bit FlexFP)

    Per core per clock alapon pont a Fam15h teljesitmenyet hozza, vszeg ez volt az also hatar, ami ala nem mehettek.

    Vegleges, hogy az FMA4 kimarad a Zenbol. Gyozott az eredeti SSE5 koncepcio.

    Az FMA4 kodolasa pocsek, a negyedik operandust egy hozzacsapott byte-al irja le, ahol az also 4 bit kihasznalatlan, pl. mar egy 3D skalar szorzasnal 2 byte elonye van az FMA3-nak:

    AVX C4C12559CB vmulpd ymm1, ymm11, ymm11
    FMA4 C4C31D69CC10 vfmaddpd ymm1, ymm12, ymm12, ymm1
    FMA4 C4C31569CD10 vfmaddpd ymm1, ymm13, ymm13, ymm1
    ^^utolso 4 bit mindig 0

    AVX C4C12559CB vmulpd ymm1, ymm11, ymm11
    FMA3 C4C29DB8CC vfmadd231pd ymm1, ymm12, ymm12
    FMA3 C4C295B8CD vfmadd231pd ymm1, ymm13, ymm13

    Ez a tomorsegre toro x64-nel brutalis pazarlas, az AIDA64 RayTrace-ben pl. ~0.7%-kal rovidebb az FMA3 verzio. Osszeveteskeppen: ugyanitt az FMA hasznalat 18-20%-os kodrovidulest jelent az AVX2-hoz kepest.
    Az FMA3-nak az ad letjogosultsagot, hogy a legtobb gyakorlati esetben (matrix- es skalarszorzas, polinomhelyettesites, FFT, stb.) csak par %-ban kulonbozik mind a 4 operandus.

    #16812
    FMA-t milyen alkalmazások használnak?

    Ahol nagy mennyisegu lebegopontos szamitas kell, gyorsan es pontosan, tkpen barhol a gazdasagban vagy a tudomanyos eletben.
    (Karikirozva: ahol a gepekbol penzt csinalnak, nem pedig a gepekre koltik a penzt.)

    Itt egy hangsulyozottan toredekes lista a nepszerubb numerikus konyvtarakrol, amiket ilyen a celokra hoztak letre.

    Itt meg egy meg toredekesebb, nem tul naprakesz, ami a SIMD tamogatasok szintjet reszletezi.

    #16815
    Eleg keves, legalabbis en konkretan, a benchmarkokon kivul nem tudok egyrol sem.

    Amit itt mindenki ismer az a Prime95. De ha csak GMPLib-bol indulunk ki, akkor hasznalja a Mathematica, a Matlab es a Maple is.
    Elterjedeset neheziti, hogy ritkan lehet siman helyettesiteni, addig stabil eredmenyek szeteshetnek, pl. a klasszikus hogy FMA-val a 0.1*10.0-1.0 != 0.0.
    Itt egy "elmenybeszamolo" a MatLab + FMA tapasztalatokrol.

    [ Szerkesztve ]

    AIDA64.com

Új hozzászólás Aktív témák