Hirdetés

ACE-Step - lokális zenegeneráló 19 nyelven

Hirdetés

Ma egy igazán hangos fejlesztést hoztam nektek a zenei mesterséges intelligencia világából. Bemutatom az ACE-Step-et! Ez egy új, nyílt forráskódú alapmodell zenegeneráláshoz, aminek a fejlesztői azt a célt tűzték ki maguk elé, hogy ez legyen a zenei AI területének "Stable Diffusion pillanata", ami alapjaiban változtathatja meg a zenegenerálás lehetőségeit.

*Linkek*
Ace-Step: https://ace-step.github.io/
GitHub: https://github.com/ace-step/ACE-Step
Hugging Face modell: https://huggingface.co/ACE-Step/ACE-Step-v1-3.5B
Hugging Face Demo: https://huggingface.co/spaces/ACE-Step/ACE-Step
Comfy.org: https://docs.comfy.org/tutorials/audio/ace-step/ace-step-v1
ComfyUI node: https://github.com/billwuhao/ComfyUI_ACE-Step

*Telepítés*
git clone https://github.com/ace-step/ACE-Step.git
cd ACE-Step
conda create -n ace_step python=3.10 -y
conda activate ace_step
pip3 install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu126
pip install -e .

*Futtatás*
git pull
conda activate ace_step
acestep --port 7865

- Az ACE-Step egy *új, nyílt forráskódú alapmodell zenegeneráláshoz*. A modell Apache-2.0 licenc alatt jelent meg, és ingyenesen használható kereskedelmi célokra is
- Célja, hogy *leküzdje a jelenlegi zenegeneráló modellek korlátait*, mint például a sebesség, a zenei koherencia és a kontrollálhatóság közötti kompromisszumokat.
- A fejlesztők célja, hogy ez legyen a "Stable Diffusion pillanat" a zenei AI területén, egy gyors, általános célú, hatékony, de rugalmas architektúrát hozva létre, amelyre könnyű speciális feladatokat építeni

*Kulcsfontosságú Jellemzők*

- *Rendkívül gyors: Képes akár 4 perc zenét előállítani mindössze 20 másodperc alatt egy A100 GPU-n.
- *Kiváló zenei koherencia:* Jobb minőséget ér el a dallam, harmónia és ritmus terén, beleértve a dalszöveg illeszkedését is.
- Támogatja a teljes dal generálását, a hosszúság szabályozását és a természetes nyelvi leírásokat.
- Megőrzi a finom akusztikai részleteket.
- 19 nyelvet támogat. A top 10 nyelv teljesít a legjobban, beleértve az angolt, kínait, oroszt, spanyolt, japánt, németet, franciát, portugált, olaszt és koreait
- Képes különböző hangszeres stílusok generálására
- Támogatja a különböző vokális stílusokat és technikákat

*Mire Használható (Közvetlen és Alapként)*

- Eredeti zene generálása szöveges leírások alapján.
- Zene remixelés és stílusátvitel.
- Dalszövegek szerkesztése.
- Fejlett kontroll mechanizmusok, mint a *hangklónozás*.
- Speciális zenegenerálás alapjaként szolgálhat (pl. rap, jazz).
- Támogatja: LoRA fine-tune, Lyric2Vocal, Text2Samples

*Kontrollálhatósági Funkciók (Training-free)*

- Variációk generálása (Retake): Kis eltérésekkel újra tudja generálni ugyanazt a dalt a seed megváltoztatásával, állítható mértékkel
- Újrafestés (Repainting): Kijelölt szakaszokat (start/end időpont alapján) lehet újra generálni a zenében, maszkolási korlátokkal. Lehetővé teszi bizonyos részek módosítását más részek megőrzése mellett. stílus, énekes hangja, dalszöveg
- Dalszöveg szerkesztés (Lyric Edit): Lehetővé teszi a dalszöveg módosítását miközben a dallam, az ének vagy a kíséret megmarad.
- Kiterjesztés (Extend): Hozzá lehet adni zenét egy meglévő darab elejéhez vagy végéhez, megadva a kiterjesztés hosszát

*Fejlesztés*

- RapMachine: AI rendszer kifejezetten rap generálásra finomhangolva (LoRA fine-tune rap adatokon)
- StemGen: Képesség az egyedi hangszer sávok (stems) generálására (ControlNet-LoRA multi-track adatokon), referenciasáv vagy hangszer alapján
- Singing2Accompaniment: Kíséret generálása egy éneksávhoz adott stílus alapján, egy teljes instrumentális alapot hozva létre a vokálhoz (ControlNet)

*Fontos Korlátok*

- *Teljesítménye nyelvenként változik* (a top 10 nyelv működik a legjobban).
- Hosszabb generációk (5 percnél hosszabb) elveszíthetik a strukturális koherenciát.
- Ritka hangszerek nem mindig szólnak tökéletesen.
- Kimeneti inkonzisztencia.
- Stílus-specifikus gyengeségek.
- Folytonossági hibák (Continuity Artifacts)
- Vokális minőség
- Kontrollálhatóság finomsága

- *Nem használható szerzői joggal védett tartalom generálására engedély nélkül*.
- *Nem használható káros vagy sértő tartalom létrehozására*.
- *Tilos AI-generált zenét emberi alkotásként feltüntetni*.
- A felhasználóknak ellenőrizniük kell a generált művek eredetiségét

Hirdetés

Google Pixel 9a - A Google AI-ban rejlő erő

PR Most ajándék Pixel Buds A fülhallgatóval

Advertisement