A HeartMuLa ökoszisztéma egy nyílt forráskódú zenei alapmodell-család, amelyet a zeneértés és -generálás előmozdítására terveztek. A rendszer négy fő technológiai összetevőből áll, amelyek együttesen teszik lehetővé a kiváló minőségű, szabályozható zene létrehozását és feldolgozását:
1. HeartMuLa (Generatív Modell)
Ez a rendszer központi eleme, egy LLM-alapú (Large Language Model) dalgeneráló modell, amely képes szöveges leírások, dalszövegek és referencia-audiók alapján zenét létrehozni.
- Egyedi funkciók: A modell támogatja a többnyelvű generálást (pl. angol, kínai, japán, koreai, spanyol), és képes hosszú távú zenei struktúrák kezelésére, akár 6 perces dalok létrehozására is.
- Architektúra: Egy hierarchikus felépítést alkalmaz (globális és lokális transzformerekkel), amely egyszerre biztosítja a számítási hatékonyságot és a magas hanghűséget.
- Szabályozhatóság: Lehetővé teszi a felhasználók számára, hogy természetes nyelvi utasításokkal részletesen szabályozzák a dal különböző szakaszainak (pl. intro, verze, refrén) stílusát. A 7 milliárd paraméteres verziója (7B) a tesztek alapján a kereskedelmi Suno modellel összemérhető teljesítményt nyújt.
2. HeartCodec (Audio Tokenizáló)
Ez egy speciális neurális audio kodek, amely a nyers hanghullámokat diszkrét tokenekké tömöríti, majd azokból rekonstruálja a zenét.
- Egyedi funkciók: Kiemelkedő tulajdonsága az ultra-alacsony képkockasebesség (12,5 Hz), amely jelentősen alacsonyabb a hagyományos modelleknél, így lehetővé teszi a hosszú zenei szekvenciák hatékonyabb modellezését.
- Működés: Szemantikában gazdag kódolókat (Whisper, WavLM, MuEncoder) és egy "Flow Matching" alapú dekódert használ a magas minőségű rekonstrukció érdekében, megőrizve a finom akusztikai részleteket.
3. HeartTranscriptor (Dalszöveg-felismerő)
Ez egy robusztus, dalszövegek felismerésére optimalizált modell.
- Egyedi funkciók: Kifejezetten a valós zenei forgatókönyvekhez tervezték, ahol a komplex zenei kíséret gyakran zavarja a hagyományos beszédfelismerőket. A modell a Whisper architektúrára épül, és kifejezetten az énekhangok és dalszövegek pontos leírására finomhangolták.
- Teljesítmény: Kiemelkedő pontosságot nyújt a dalszövegek felismerésében, minimalizálva a fonémák tévesztését.
4. HeartCLAP (Audio-Szöveg Igazítás)
Ez a komponens a zenei hanganyag és a szöveges leírások közötti kapcsolatot teremti meg.
- Egyedi funkciók: Egy egységes beágyazási (embedding) teret hoz létre a zenei leírások és a hanganyagok számára, ami lehetővé teszi a pontos zenei címkézést és a modalitások közötti (szöveg-zene) keresést. Ez a modell alapozza meg a generatív feladatokhoz szükséges szemantikai megértést.
Az ökoszisztéma nyílt forráskódú (Apache 2.0 licenc alatt érhető el), és támogatja a ComfyUI integrációt is, ami megkönnyíti a vizuális munkafolyamatokba való beillesztését.
*Telepítés*
winget install ffmpeg / sudo apt install ffmpeg
git clone https://github.com/HeartMuLa/heartlib.git
cd heartlib
py -3.10 -m venv venv
venv\Scripts\activate
python.exe -m pip install --upgrade pip
pip install -e .
pip install gradio mutagen
pip install triton-windows==3.5.1.post24
pip uninstall torch torchvision torchaudio -y
pip cache purge
pip install torch==2.4.1 torchvision==0.19.1 torchaudio==2.4.1 --index-url https://download.pytorch.org/whl/cu124
python -c "import torch; print(torch.cuda.is_available())"
hf download --local-dir ./ckpt HeartMuLa/HeartMuLaGen
hf download --local-dir ./ckpt/HeartMuLa-oss-3B HeartMuLa/HeartMuLa-RL-oss-3B-20260123
hf download --local-dir ./ckpt/HeartCodec-oss HeartMuLa/HeartCodec-oss-20260123
*Futtatás*
venv\Scripts\activate
python gui.py
*Linkek*
GitHub Mp3Pintyo HeartMula: https://github.com/mp3pintyo/HeartMuLa
Projekt: https://heartmula.github.io/
PDF: https://arxiv.org/pdf/2601.10547
GitHub heartlib: https://github.com/HeartMuLa/heartlib
HeartMuLa ComfyUI: https://github.com/benjiyaya/HeartMuLa_ComfyUI
Ez a videó bemutatja a mesterséges intelligencia alkalmazását. Az AI (mesterséges intelligencia) rengeteg területen könnyíti és segíti az életünket.
Suno helyett HeartMuLa: végtelen, ingyenes zene gépeden!
-
Írta:
YouTube
