Keresés: - [Re:] Az Intel előállt HPC-s terveivel

Legfrissebb anyagok

PROHARDVER! témák

Mobilarena témák

IT café témák

GAMEPOD témák

LOGOUT témák

Keresés

Új hozzászólás Aktív témák

#83 Maverick14 tag cwn #69

Új Válasz 2010-06-02 19:20:25 #83
Új hozzászólás
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra
Privát üzenet küldése

Maverick14

tag

válasz cwn #69 üzenetére

Hagyományos mikroprocesszoron is azoknak a neurális hálóknak a szimulációi fognak jól menni aminek az adatai beférnek az L2 cache-be. Az igazi kihívás az, hogy nagyobb adathalmaz esetén úgy alakítsd ki az algoritmusod adatfolyamát, hogy ne veszíts a sebességből a szűkebb memória sávszélesség miatt.
Én Celluláris Neurális Hálózatot (CNN) szimuláltam Cell-en, ez egy lokálisan összekötött hálózat, ott meg lehetett oldani úgy a dolgot hogy mindig csak a cellatömb néhány sorát tároltam az SPE memóriájában. A sorok betöltését és az eredmény kimentését ügyesen át lehet lapolni a cellák állapotának kiszámolásával.
A neurális hálóknak hatalmas irodalma van én csak a CNN-es részt ismerem valamennyire abból is a különféle platformokon történő megvalósítással foglalkozom. Szóval azt tudom javasolni hogy keress egy neurális háló modellt ami jól illeszkedik az adott feladathoz és ha használhatónak de lassú akkor foglalkozz a gyorsításával akár Cell-en, GPU-n vagy FPGA-n.
#65 Maverick14 tag cwn #63

Új Válasz 2010-06-02 09:23:49 #65
Új hozzászólás
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra
Privát üzenet küldése

Maverick14

tag

válasz cwn #63 üzenetére

Az általad linkelt cikkben szó sincs arról hogy ez a megoldás gyorsabb lehet mint pl. a Matlab FFT függvénye. Kapunk egy neurális hálót amivel hasonló problémáink lesznek mint pl. a radix-2 FFT-vel, nevezetesen hogy mindenki mindenkivel össze van kötve. Tehát egy bizonyos méret felett ugyanúgy memóriasávszélesség korlátos lesz a feladat mint a radix-2 FFT esetén.
Ha már Cell és FFT akkor ezt érdemes megnézni: [link]
(Talán olvastad te is ezt, ha már olyan régen foglalkozol Cell programozással... Amúgy az egész itteni párbeszédről a következő klasszikus szösszenet jutott eszembe [link] )
#42 Maverick14 tag Raymond #41

Új Válasz 2010-06-01 19:07:14 #42
Új hozzászólás
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra
Privát üzenet küldése

Maverick14

tag

válasz Raymond #41 üzenetére

Már van új TOP500 lista? Le vagyok maradva. Köszi, az infót a Fermi teljesítményéről, kb. ekkora kihasználtságra tippeltem volna.
Visszatéve a hírhez.
Összehasonlítva a MIC-et a tavaly bejelentett SCC-vel érdekes, hogy ebben az újabb architektúrában már koherens a cache. Pedig az SCC-vel kapcsoltban még a szoftveres koherenciát és a "transactional memory" előnyeit ecsetelgették. Mondjuk a magok is vektorosak lettek, úgy tűnik mintha az Intel két tervezőcsapattal is dolgozna. Az egyik a Tera-Scale Research Processor, SCC a másik a Larrabee vonalat viszi.
#37 Maverick14 tag cwn #12

Új Válasz 2010-06-01 17:37:34 #37
Új hozzászólás
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra
Privát üzenet küldése

Maverick14

tag

válasz cwn #12 üzenetére

Tévedés, a 65nm-es PowerXCell 8i-ben már javítottak a DP műveletvégzés sebességén, ugyanannyi órajel alatt végzi el mint az SP-t. Így 102.4GFLOPs az elméleti számtási teljesítménye egy Cell processzornak.
LINPACK alatt 100GFLOPs-os átlagot mértek: [link].
A Fermi-re úgy tudom még nincs hasonló független LINPACK mérés. Szóval az elméleti számítási teljesítménye szép nagy, kérdés hogy a gyakorlatban mennyit lehet kihozni belőle.
A sok kocaprogramozó pedig aki nem tud megbirkózni a Cell programozásával valószínűleg a közeljövőben megjelenő sokprocesszoros architektúrákat sem fogja tudni hatékonyan programozni.