VibeVoice HUN ComfyUI: élethű magyar hangklónozás a gépünkön

A VibeVoice egy olyan keretrendszer, amelyet kifejező, érzelemmel teli és élethű, hosszú formátumú, több szereplős audió generálására terveztek. Cseh Tamás munkájának hála immár magyar nyelvű hanganyagokat is létre lehet hozni.

A modell célja, hogy megoldja a hagyományos szövegből beszéd generáló (TTS) rendszerek skálázhatóságával, a beszélők konzisztenciájával és a természetes beszélgetési fordulatokkal kapcsolatos jelentős kihívásokat.
A VibeVoice modell képességei és különlegességei a következők:
- Képes akár négy különböző beszélővel történő beszélgetések szintetizálására. Akár 90 perces beszéd generálására is képes, ami meghaladja sok korábbi modell tipikus korlátait.
- Kiválóan alkalmas podcastok és hasonló hosszú formátumú audió tartalmak létrehozására.
- Lehetővé teszi hangmintákból történő hangklónozást. Ehhez tiszta, minimális háttérzajú hangminták szükségesek, legalább 3-10 másodperc, de jobb minőséghez ajánlott 30 másodperc.
- Szövegfájl betöltése: Szöveges scriptek betöltésére alkalmas .txt formátumú fájlokból.
- Rugalmas konfiguráció: Szabályozható olyan paraméterekkel, mint a hőmérséklet (temperature), a mintavétel (sampling) és a guidance scale (cfg_scale).

Két modellopció:
- VibeVoice-1.5B: Gyorsabb következtetést biztosít, és körülbelül 5 GB-os letöltési mérettel rendelkezik, ideális egyetlen beszélőhöz és gyors prototípus készítéshez.
- VibeVoice-7B: Magasabb minőségű kimenetet nyújt, különösen több szereplős beszélgetések esetén, lassabb a következtetése.

A ComfyUI egy hatékony, nyílt forráskódú, csomópont-alapú grafikus felhasználói felület (GUI), amely mesterséges intelligencia modellek segítségével képek, videók és egyéb médiatartalmak létrehozására szolgál. Az egyszerű szöveg-kép interfész helyett lehetővé teszi a felhasználók számára, hogy a teljes létrehozási folyamatot összekapcsolt "csomópontok" sorozataként építsék fel és jelenítsék meg.

*Telepítés*
cd ComfyUI/custom_nodes
git clone https://github.com/Enemyx-net/VibeVoice-ComfyUI
pip install -U huggingface_hub

*Letöltés*
Mappa: ComfyUI/models/vibevoice/
pip install -U huggingface_hub
huggingface-cli download Cseti/VibeVoice_7B_hun_v2 --local-dir VibeVoice_7B_hun_v2

*Letöltés LoRA*
Mappa: models/vibevoice/loras
Hozz létre egy HUN-1200 nevű mappát
Töltsd le ide az adapter_config.json-t: https://huggingface.co/Cseti/VibeVoice_7B_Diffusion-head-LoRA_Hungarian-CV17/tree/main/diffusion_head1200
Hozz létre egy diffusion_head nevű mappát
Ebbe töltsd le a model.safetensors fájlt innen: https://huggingface.co/Cseti/VibeVoice_7B_Diffusion-head-LoRA_Hungarian-CV17/tree/main/diffusion_head1200/diffusion_head

*Workflows*
Mp3Pintyo GitHub: https://github.com/mp3pintyo/comfyui-workflows/tree/main

Multiple Speakers:
pip install bitsandbytes

Gépigény:
VRAM: 7-18 GByte

*Linkek*
VibeVoice: A Frontier Open-Source Text-to-Speech Model: https://microsoft.github.io/VibeVoice/
VibeVoice bemutató: https://www.youtube.com/watch?v=nl3QOCYfukY
GitHub VibeVoice: https://github.com/microsoft/VibeVoice
VIBEVOICE Technical Report: https://arxiv.org/pdf/2508.19205
Hugging Face microsoft/VibeVoice-1.5B: https://huggingface.co/microsoft/VibeVoice-1.5B
VibeVoice ComfyUI: https://github.com/Enemyx-net/VibeVoice-ComfyUI
ComfyUI: https://github.com/comfyanonymous/ComfyUI
Qwen2.5-1.5B: https://huggingface.co/Qwen/Qwen2.5-1.5B/tree/main
Telepítési útmutató 1: Open source, ingyenes alkalmazások telepítése a saját számítógépünkre: https://www.youtube.com/watch?v=W8ihbCEI0Mg
ComfyUI, útmutató kezdőknek: https://www.youtube.com/watch?v=XOooCXcAOU4
VibeVoice ComfyUI: érzelemmel teli, élethű hangklónozás a gépünkön. Akár négy különböző beszélő:
https://www.youtube.com/watch?v=eyxzo43Sqng

Ez a videó bemutatja a mesterséges intelligencia alkalmazását. Az AI (mesterséges intelligencia) rengeteg területen könnyíti és segíti az életünket.