Keresés

Új hozzászólás Aktív témák

  • Maverick14

    tag

    válasz cwn #69 üzenetére

    Hagyományos mikroprocesszoron is azoknak a neurális hálóknak a szimulációi fognak jól menni aminek az adatai beférnek az L2 cache-be. Az igazi kihívás az, hogy nagyobb adathalmaz esetén úgy alakítsd ki az algoritmusod adatfolyamát, hogy ne veszíts a sebességből a szűkebb memória sávszélesség miatt.
    Én Celluláris Neurális Hálózatot (CNN) szimuláltam Cell-en, ez egy lokálisan összekötött hálózat, ott meg lehetett oldani úgy a dolgot hogy mindig csak a cellatömb néhány sorát tároltam az SPE memóriájában. A sorok betöltését és az eredmény kimentését ügyesen át lehet lapolni a cellák állapotának kiszámolásával.
    A neurális hálóknak hatalmas irodalma van én csak a CNN-es részt ismerem valamennyire abból is a különféle platformokon történő megvalósítással foglalkozom. Szóval azt tudom javasolni hogy keress egy neurális háló modellt ami jól illeszkedik az adott feladathoz és ha használhatónak de lassú akkor foglalkozz a gyorsításával akár Cell-en, GPU-n vagy FPGA-n.

  • Maverick14

    tag

    válasz cwn #63 üzenetére

    Az általad linkelt cikkben szó sincs arról hogy ez a megoldás gyorsabb lehet mint pl. a Matlab FFT függvénye. Kapunk egy neurális hálót amivel hasonló problémáink lesznek mint pl. a radix-2 FFT-vel, nevezetesen hogy mindenki mindenkivel össze van kötve. Tehát egy bizonyos méret felett ugyanúgy memóriasávszélesség korlátos lesz a feladat mint a radix-2 FFT esetén.
    Ha már Cell és FFT akkor ezt érdemes megnézni: [link]
    (Talán olvastad te is ezt, ha már olyan régen foglalkozol Cell programozással... Amúgy az egész itteni párbeszédről a következő klasszikus szösszenet jutott eszembe [link] :) )

  • Maverick14

    tag

    válasz Raymond #41 üzenetére

    Már van új TOP500 lista? Le vagyok maradva. Köszi, az infót a Fermi teljesítményéről, kb. ekkora kihasználtságra tippeltem volna.

    Visszatéve a hírhez.
    Összehasonlítva a MIC-et a tavaly bejelentett SCC-vel érdekes, hogy ebben az újabb architektúrában már koherens a cache. Pedig az SCC-vel kapcsoltban még a szoftveres koherenciát és a "transactional memory" előnyeit ecsetelgették. Mondjuk a magok is vektorosak lettek, úgy tűnik mintha az Intel két tervezőcsapattal is dolgozna. Az egyik a Tera-Scale Research Processor, SCC a másik a Larrabee vonalat viszi.

  • Maverick14

    tag

    válasz cwn #12 üzenetére

    Tévedés, a 65nm-es PowerXCell 8i-ben már javítottak a DP műveletvégzés sebességén, ugyanannyi órajel alatt végzi el mint az SP-t. Így 102.4GFLOPs az elméleti számtási teljesítménye egy Cell processzornak.
    LINPACK alatt 100GFLOPs-os átlagot mértek: [link].
    A Fermi-re úgy tudom még nincs hasonló független LINPACK mérés. Szóval az elméleti számítási teljesítménye szép nagy, kérdés hogy a gyakorlatban mennyit lehet kihozni belőle.

    A sok kocaprogramozó pedig aki nem tud megbirkózni a Cell programozásával valószínűleg a közeljövőben megjelenő sokprocesszoros architektúrákat sem fogja tudni hatékonyan programozni.

Új hozzászólás Aktív témák

Hirdetés