Hirdetés

Magyar hangklónozás egyszerűen, 8 másodpercnyi hang alapján

Hermes Agent és az OmniVoice TTS használata a gyakorlatban, a saját gépeden! Bemutatom neked, hogyan klónozhatsz hangot és generálhatsz több mint 600 nyelven beszédet (akár magyar nyelven is), mindezt lokálisan mindenféle telepítési parancsok nélkül.

Ebben a videóban bemutatom az OmniVoice-t, egy innovatív, diffúziós nyelvi modellen alapuló, masszívan többnyelvű "zero-shot" szövegfelolvasó (TTS) rendszert. A modell teljesen ingyenes és open source. A modell egylépcsős felépítésével küszöböli ki a hagyományos modellek információs szűk keresztmetszeteit, ezáltal kimagaslóan teljesít a hangklónozásban, a részletes hangtervezésben, a zajos környezetből származó hangminták megtisztításában és a kiejtés precíz vezérlésében.

Képességek – Mit tud a modell?
- Hangklónozás (Voice Cloning): Képes egy nagyon rövid, mindössze 3-10 másodperces referencia hanganyag alapján magas minőségben klónozni az eredeti beszélő hangját.
- Hangtervezés (Voice Design): Referenciahang nélkül is létrehozhatók hangok, pusztán a beszélő tulajdonságainak (pl. nem, életkor, hangmagasság, suttogás, akcentus vagy kínai dialektus) szöveges megadásával.
- Finomhangolt vezérlés (Fine-Grained Control): Lehetőséget ad a non-verbális elemek (például nevetés, sóhajtozás) szövegbe ágyazására, valamint a kiejtés pontos, fonémák vagy pinyin alapú korrekciójára.
- Zajtűrés (Prompt Denoising): Az OmniVoice fel tudja dolgozni a rossz minőségű, zajos vagy visszhangos referenciahangokat is, oly módon, hogy a zajt nem másolja le, hanem tiszta és jó minőségű beszédet generál.

Miben jó és miért jobb, mint mások?
- Példátlan nyelvi lefedettség: Több mint 600 nyelvet támogat, amivel a "zero-shot" TTS modellek között a legszélesebb lefedettséget nyújtja. Képes magas minőséget produkálni olyan alacsony erőforrású (low-resource) nyelveken is, amelyeket a legtöbb rendszer elhanyagol.
- Kivételes sebesség: Az inferencia (modellfuttatás) rendkívül gyors, a Real-Time Factor (RTF) akár 0,025 is lehet, ami azt jelenti, hogy 40-szer gyorsabb a valós idejű beszédnél.
- Egyszerűsített, egylépcsős architektúra: Szemben a hagyományos (kétlépcsős, először szemantikai, majd akusztikai) diszkrét nem-autoregresszív (NAR) modellekkel, amelyeknél a köztes lépések miatt romolhat a minőség és hibák adódhatnak össze, az OmniVoice közvetlenül a szövegből képez akusztikus tokeneket.
- LLM inicializálás: Ez az első NAR TTS modell, amely sikeresen használja egy előre betanított LLM súlyait a nyelvi alapokhoz, ami miatt az általa generált beszéd sokkal érthetőbb és emberibb, mint az eddigi hasonló rendszereké.
- Hatékony betanítási eljárás: A "per-layer" (rétegenkénti) maszkolás helyett egy úgynevezett "full-codebook random masking" (teljes kódkönyvre kiterjedő véletlenszerű maszkolási) stratégiát alkalmaz, amely sokkal hatékonyabb betanítást és jobb generálási minőséget eredményez.
Technikai adatok és specifikációk:
- Architektúra: Diffúziós nyelvi modell stílusú, egyfázisú diszkrét nem-autoregresszív (NAR) keretrendszer, amely egy kétirányú (bidirectional) Transformer gerincre épül.
- Alapmodell / Inicializálás: A modell a Qwen3-0.6B LLM súlyaira építkezik.
- Paraméterek száma: 0,8 milliárd (0.8B) paraméter.
- Kiképzési adatmennyiség: 581 ezer órányi, kizárólag nyílt forráskódú többnyelvű hangadatbázison (Emilia, LibriTTS, stb.) tanították be.

*Promptok*
1.
szeretném az OmniVoice TTS-t használni a hermes agentben a narrációkhoz. nézd meg a weboldalt, telepítsd fel amit kell, töltsd le amit kell és teszteljük is le magyar nyelvre. úgy kell megoldani, hogy utána bármilyen projekthez tudjam használni ha kérem: https://github.com/k2-fsa/OmniVoice
2.
a projekt mappájába bemásoltam /home/hermes/projects/2026-05-07_172427_omnivoice-tts-hermes/04_artifacts/media/ a sajat_hang_v1-8sec.wav fájlt ami az én hangom és a hozzá tartozó leiratot sajat_hang_v1-8sec.txt. Nézd meg az OmniVoice oldalát hogyan kell klónozni és klónozd a hangomat. Utána ha használjuk a Hermes Agentben a TTS-t és az Omnivoice-ot kérem akkor mindig az én hangomat használja.
3. további pontosítások
Készíts ebből egy Hermes skillt (ha már van akkor módosítsd) az OmniVoice TTS használatához. Legyen benne, hogy a Hermes aktív TTS providerét kell használni, OmniVoice esetén külön TTS-forrást kell készíteni a látható szövegtől, a magyar kiejtési javításokat fonetikusan kell megadni, a saját hangos referencia pontos és tiszta legyen, a --num-step 32 az alap minőségi beállítás, a beszédtempó maradjon természetes, és minden generált hangfájlt file/ffprobe ellenőrzéssel kell validálni.

*Linkek*
Hermes Agent: https://github.com/NousResearch/hermes-agent
Hermes telepítése: https://youtu.be/dcGR3zAJf4A
OmniVoice: https://zhu-han.github.io/omnivoice/
GitHub: https://github.com/k2-fsa/OmniVoice/
Hugging Face: https://huggingface.co/k2-fsa/OmniVoice
PDF: https://arxiv.org/pdf/2604.00688
Demo: https://huggingface.co/spaces/k2-fsa/OmniVoice