ACE-Step - lokális zenegeneráló 19 nyelven

Ma egy igazán hangos fejlesztést hoztam nektek a zenei mesterséges intelligencia világából. Bemutatom az ACE-Step-et! Ez egy új, nyílt forráskódú alapmodell zenegeneráláshoz, aminek a fejlesztői azt a célt tűzték ki maguk elé, hogy ez legyen a zenei AI területének "Stable Diffusion pillanata", ami alapjaiban változtathatja meg a zenegenerálás lehetőségeit.

*Linkek*
Ace-Step: https://ace-step.github.io/
GitHub: https://github.com/ace-step/ACE-Step
Hugging Face modell: https://huggingface.co/ACE-Step/ACE-Step-v1-3.5B
Hugging Face Demo: https://huggingface.co/spaces/ACE-Step/ACE-Step
Comfy.org: https://docs.comfy.org/tutorials/audio/ace-step/ace-step-v1
ComfyUI node: https://github.com/billwuhao/ComfyUI_ACE-Step

*Telepítés*
git clone https://github.com/ace-step/ACE-Step.git
cd ACE-Step
conda create -n ace_step python=3.10 -y
conda activate ace_step
pip3 install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu126
pip install -e .

*Futtatás*
git pull
conda activate ace_step
acestep --port 7865

- Az ACE-Step egy *új, nyílt forráskódú alapmodell zenegeneráláshoz*. A modell Apache-2.0 licenc alatt jelent meg, és ingyenesen használható kereskedelmi célokra is
- Célja, hogy *leküzdje a jelenlegi zenegeneráló modellek korlátait*, mint például a sebesség, a zenei koherencia és a kontrollálhatóság közötti kompromisszumokat.
- A fejlesztők célja, hogy ez legyen a "Stable Diffusion pillanat" a zenei AI területén, egy gyors, általános célú, hatékony, de rugalmas architektúrát hozva létre, amelyre könnyű speciális feladatokat építeni

*Kulcsfontosságú Jellemzők*

- *Rendkívül gyors: Képes akár 4 perc zenét előállítani mindössze 20 másodperc alatt egy A100 GPU-n.
- *Kiváló zenei koherencia:* Jobb minőséget ér el a dallam, harmónia és ritmus terén, beleértve a dalszöveg illeszkedését is.
- Támogatja a teljes dal generálását, a hosszúság szabályozását és a természetes nyelvi leírásokat.
- Megőrzi a finom akusztikai részleteket.
- 19 nyelvet támogat. A top 10 nyelv teljesít a legjobban, beleértve az angolt, kínait, oroszt, spanyolt, japánt, németet, franciát, portugált, olaszt és koreait
- Képes különböző hangszeres stílusok generálására
- Támogatja a különböző vokális stílusokat és technikákat

*Mire Használható (Közvetlen és Alapként)*

- Eredeti zene generálása szöveges leírások alapján.
- Zene remixelés és stílusátvitel.
- Dalszövegek szerkesztése.
- Fejlett kontroll mechanizmusok, mint a *hangklónozás*.
- Speciális zenegenerálás alapjaként szolgálhat (pl. rap, jazz).
- Támogatja: LoRA fine-tune, Lyric2Vocal, Text2Samples

*Kontrollálhatósági Funkciók (Training-free)*

- Variációk generálása (Retake): Kis eltérésekkel újra tudja generálni ugyanazt a dalt a seed megváltoztatásával, állítható mértékkel
- Újrafestés (Repainting): Kijelölt szakaszokat (start/end időpont alapján) lehet újra generálni a zenében, maszkolási korlátokkal. Lehetővé teszi bizonyos részek módosítását más részek megőrzése mellett. stílus, énekes hangja, dalszöveg
- Dalszöveg szerkesztés (Lyric Edit): Lehetővé teszi a dalszöveg módosítását miközben a dallam, az ének vagy a kíséret megmarad.
- Kiterjesztés (Extend): Hozzá lehet adni zenét egy meglévő darab elejéhez vagy végéhez, megadva a kiterjesztés hosszát

*Fejlesztés*

- RapMachine: AI rendszer kifejezetten rap generálásra finomhangolva (LoRA fine-tune rap adatokon)
- StemGen: Képesség az egyedi hangszer sávok (stems) generálására (ControlNet-LoRA multi-track adatokon), referenciasáv vagy hangszer alapján
- Singing2Accompaniment: Kíséret generálása egy éneksávhoz adott stílus alapján, egy teljes instrumentális alapot hozva létre a vokálhoz (ControlNet)

*Fontos Korlátok*

- *Teljesítménye nyelvenként változik* (a top 10 nyelv működik a legjobban).
- Hosszabb generációk (5 percnél hosszabb) elveszíthetik a strukturális koherenciát.
- Ritka hangszerek nem mindig szólnak tökéletesen.
- Kimeneti inkonzisztencia.
- Stílus-specifikus gyengeségek.
- Folytonossági hibák (Continuity Artifacts)
- Vokális minőség
- Kontrollálhatóság finomsága

- *Nem használható szerzői joggal védett tartalom generálására engedély nélkül*.
- *Nem használható káros vagy sértő tartalom létrehozására*.
- *Tilos AI-generált zenét emberi alkotásként feltüntetni*.
- A felhasználóknak ellenőrizniük kell a generált művek eredetiségét

Hirdetés

Fotóznál vagy videóznál? Mutatjuk, melyik okostelefon mire való igazán!

PR Vásárlás előtt érdemes megnézni, mit kínálnak az aktuális telefonok, ha igazán ütős képeket vagy profi mozgóképeket szeretnénk készíteni.