Keresés: - Lokális AI chatprogramot adott ki az NVIDIA

Legfrissebb anyagok

PROHARDVER! témák

Mobilarena témák

IT café témák

GAMEPOD témák

LOGOUT témák

Keresés

Új hozzászólás Aktív témák

#13 Raymond titán MasterDeeJay #11

Új Válasz 2024-02-17 01:06:43 #13
Új hozzászólás
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra
Privát üzenet küldése

Raymond

titán

válasz MasterDeeJay #11 üzenetére

Kiprobaltam a chat-et leggyengebb gepen amit itthon van, egy Intel NUC6-os egy Celeron J3455 CPU-val. Nemhogy AVX2, meg AVX sincs benne. Ubuntu 22.04 es egy docker container-ben futo ollama elindul es megy, de meg a 3B-s mini-orca vagy a 2.7B-s phi-2 mellett is tobb mint 1 percig tart amig valaszol es talan 1 masodperc per szotag sebessegel general
#12 Raymond titán MasterDeeJay #11

Új Válasz 2024-02-15 12:22:20 #12
Új hozzászólás
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra
Privát üzenet küldése

Raymond

titán

válasz MasterDeeJay #11 üzenetére

Hat nem tudom, eleg rizikos azert az arert, akkor meg a rizikomentes 3090 is jol nez ki 700-800EUR kozott. Vagy egy uj 4060Ti 16GB is jobban nez ki 460EUR-ert.
#10 Raymond titán MasterDeeJay #9

Új Válasz 2024-02-15 12:02:38 #10
Új hozzászólás
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra
Privát üzenet küldése

Raymond

titán

válasz MasterDeeJay #9 üzenetére

A 90HX szerintem nem igazan jo, a hasznalt kartyaknal a VRAM-ra erdemes utazni de ott is csak ugy hogy jobb uzlet legyen mint a 280EUR-os uj 3060 12GB vagy a hasznalt ugyanebbol esetleg a 200-250EUR kozotti hasznalt 2080Ti. A 170HX nem ugyanaz mint az M10? Ott is 4 GPU es 4x 8GB VRAM vagy egy kartyan, ahhoz tul draga szerintem, egy kb ugyanannyiba kerulo 3090 24GB-nak tobb ertelme van. Legalabbis ezt irtam volna par hete, de ahogy nezem azok felmentek 700-800 koze igy nem annyira jo mar.
En ezt a videot neztem [link], ez alapjan olyan 2080Ti sebessege lehet az A770-nek SDXL kepgeneralasnal.
A 100GB/s nem rossz egy CPU-nal, de a 4090 pl. meg igy is 12x gyorsabb mint az i7-13700K es DDR5-6400 nalam a Llama-2-13b szovegeneralasnal. A 2080-am is kb. annyival gyorsabb mint az abban a gepben levo i7-6700K DDR4-2133 kombo.
#8 Raymond titán MasterDeeJay #7

Új Válasz 2024-02-15 11:18:09 #8
Új hozzászólás
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra
Privát üzenet küldése

Raymond

titán

válasz MasterDeeJay #7 üzenetére

"Chatgpt-t szeretnék localba valamit összerakni de még nem tiszta számomra melyik miben jó."
Ez most eleg nehez ugy mert mivel vadnyugati aranylaz van, naponta jonnek mindenfele hirek es hype hogy az uj XY modell a legjobb a vilagon stb. Rengeteg a zaj, de ha maradsz az alapoknal (Llama-2b, Mistral, Mixtral-8x7b) es ezek nepszerubb valtozatai (Nuos-Hermes) abban a valtozatban ami erdekel (generic, chat, instruct) akkor OK. Ha nem akarsz sok "Sorry Dave, I can not do that!" valaszt latni akkor az uncensored verziot keresd meg abbol amit hasznalni akarsz.
Az LM Studio-ban latod egyebkent ha rakeresel valamelyikre hogy melyik rep a legnepszerubb, az egy jo mutato.
Az zavar leginkább hogy a legtöbb helyen odaírják hogy cuda de nem írják hardverből mi a követelmény. (tesla P40 24gb lenne jó de az pascal és a fene se tudja mennyire támogatott)
Meg Maxwell-en is megy, a P40 (remelem a 24GB-os ) jo lesz, ott is van kozel 350GB/s savszel es az dob rajta sokat. A CPU-nal joval gyorsabb lesz az biztos es a nagyobb modellek is belefernem a VRAM-ba. A 13b modellek Q8-as verzioja siman.
Ha ilyen Skyrim szeru jatek chat-re kell akkor viszont tenyleg a modifikalt uncensored es roleplay-re optimalizalt modelleket nezd.
Lattam par hete az Intel videot a YT-on, gondoltam is rad hogy az A770-el kiprobalhatnad mert eleg jo it/s ertekeket produkalt Aztan kiment a fejembol, de latom te is megtalaltad.
A P40-nek egyebkent adj egy power limitet mert az inference sebessegre nem lesz kihatassal, de a fogyasztas es melegedesnek jot tesz [link]
#6 Raymond titán MasterDeeJay #5

Új Válasz 2024-02-15 10:05:54 #6
Új hozzászólás
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra
Privát üzenet küldése

Raymond

titán

válasz MasterDeeJay #5 üzenetére

A korlatozas a konkret TensortRT es model formatum/verzio kombinaciojabol akad, a 20-as sorozat nem tamogat minden formatumot, gondolom a bfloat16 amit hasznalnak. A 8GB kartyakon a Mistral-7b a 10GB+ kartyakon pedig a Llama-2-13b tudtommal mindketto a 4bit quantized valtozat.
Az LM Studio-ban a Llama-2-7b 5bit-es verzioja (Q5_K_M) egy sima RTX2080-al olyan 55 tok/s sebeseget ad.
Az NV demot eleg problemas letolteni, nalam csak 8-10Mbit-el jott es azert igy 35GB altart egy darabig. Hagytam menni, de olyan 11GB korul megszakadt. Az hogy mennyit hozna a TensorRT egy 4090-el nem tudom, de Stable Diffusion generalasnal a konvertalt modellek olyan 70-75% pluszt hoztak sebessegben a simahoz kepest.