A Tencent bemutatta a HunyuanWorld-Voyager nevű mesterséges intelligencia alapú eszközét, amely képes egyetlen képet egy irányítható, 3D-konzisztens videóvá alakítani – így a felfedezés izgalmát kínálja tényleges 3D-s modellezés nélkül. Ez egy okos megoldás: az RGB és a mélységadatok keverésével az objektumok pozícióját különböző szögekből is megőrzi, így a térbeli konzisztencia illúzióját kelti.
A modell célja, hogy egyetlen képből, felhasználó által definiált kameramozgással 3D-konzisztens pontfelhő-szekvenciákat hozzon létre a világ felfedezéséhez. A keretrendszer egy adatgyűjtő mechanizmust is tartalmaz, amely automatizálja a kameraállások és a metrikus mélység előrejelzését a videókhoz, lehetővé téve a nagy mennyiségű, annotált képzésadat létrehozását. A Voyager kiemelkedő teljesítményt mutatott a jelenetvideó-generálásban és a 3D világ rekonstrukcióban, felülmúlva a korábbi módszereket a geometriai koherencia és a vizuális minőség terén.
Az eredmények nem valódi 3D modellek, de hasonló hatást érnek el: A mesterséges intelligencia eszköz olyan 2D-s videóképeket generál, amelyek fenntartják a térbeli konzisztenciát, mintha a kamera egy valódi 3D-s térben mozogna. Minden egyes generálás mindössze 49 képkockát - nagyjából két másodpercnyi videót - eredményez, bár a Tencent szerint több klip is összekapcsolható "több perces" szekvenciákhoz. A tárgyak ugyanabban a relatív pozícióban maradnak, amikor a kamera mozog körülöttük, és a perspektíva helyesen változik, ahogy az egy valódi 3D-s környezetben elvárható lenne. Bár a kimenet inkább mélységtérképekkel ellátott videó, mint valódi 3D modellek, ezek az információk rekonstrukciós célokra 3D pontfelhőkké alakíthatók.
A rendszer egyetlen bemeneti képet és egy felhasználó által meghatározott kamerapályát fogad el. A felhasználók a rendelkezésre bocsátott felületen keresztül megadhatják a kameramozgásokat, például előre, hátra, balra, jobbra vagy elfordulást. A rendszer a kép- és mélységadatokat egy memóriahatékony "world cache"-rel kombinálja, hogy a felhasználó által meghatározott kameramozgást tükröző videósorozatokat állítson elő.
A Voyager-t arra képezték ki, hogy felismerje és reprodukálja a térbeli konzisztencia mintáit, de egy hozzáadott geometriai visszacsatolási hurokkal. Miközben minden egyes képkockát létrehoz, a kimenetet 3D pontokká alakítja, majd ezeket a pontokat visszavetíti 2D-be, hogy a következő képkockákra hivatkozhasson.
A modell jelentős licencelési korlátozásokkal jár. A Tencent más Hunyuan modelljeihez hasonlóan a licenc tiltja a használatot az Európai Unióban, az Egyesült Királyságban és Dél-Koreában. Emellett a 100 millió havi aktív felhasználót meghaladó kereskedelmi célú telepítésekhez külön licencelésre van szükség a Tencenttől.
*Linkek*
HunyuanWorld-Voyager: https://3d-models.hunyuan.tencent.com/world/
Kutatási anyag: https://3d-models.hunyuan.tencent.com/voyager/voyager_en/assets/HYWorld_Voyager.pdf
Hugging Face: https://huggingface.co/tencent/HunyuanWorld-Voyager
GitHub: https://github.com/Tencent-Hunyuan/HunyuanWorld-Voyager
RunPod: https://runpod.io?ref=2pdhmpu1
Runpod bemutató: https://www.youtube.com/watch?v=WudXnf8Gogc
Runpod Pytorch 2.4.0 / A100
40/100 GByte
*Telepítés*
wget https://repo.anaconda.com/archive/Anaconda3-2025.06-1-Linux-x86_64.sh
bash Anaconda3-2025.06-1-Linux-x86_64.sh
Nyomj Entert a licencszerződés elolvasásához.
Gépeld be, hogy "yes" (igen) a szerződés elfogadásához.
Hagyd jóvá az alapértelmezett telepítési helyet az Enter megnyomásával, hacsak nem akarod máshová tenni.
A telepítés végén a program megkérdezi, hogy futtassa-e a conda init-et. Gépeld be, hogy "yes".
source ~/.bashrc
git clone https://github.com/Tencent-Hunyuan/HunyuanWorld-Voyager
cd HunyuanWorld-Voyager
conda create -n voyager python==3.11.9
conda activate voyager
conda install pytorch==2.4.0 torchvision==0.19.0 torchaudio==2.4.0 pytorch-cuda=12.4 -c pytorch -c nvidia
python -m pip install -r requirements.txt
python -m pip install transformers==4.39.3
python -m pip install flash-attn
python -m pip install xfuser==0.4.2
pip install --no-deps git+https://github.com/microsoft/MoGe.git
pip install scipy==1.11.4
pip install git+https://github.com/EasternJournalist/utils3d.git@c5daf6f6c244d251f252102d09e9b7bcef791a38
pip install click gradio trimesh
pip install numpy==1.24.4 pandas==2.0.3 matplotlib==3.7.1 contourpy==1.3.1
ln -s /workspace/HunyuanWorld-Voyager/ckpts /root/ckpts
huggingface-cli download tencent/HunyuanWorld-Voyager --local-dir ./ckpts
*Futtatás*
python3 app.py
*DISCORD*
Mp3Pintyo szerver: https://discord.gg/NBgUuVDURG
*Támogatás*
Patreon: https://www.patreon.com/mp3pintyo
#ai #mesterségesintelligencia #mi #mp3pintyo
Tencent HunyuanWorld-Voyager: 3D-konzisztens videó egyetlen fotóból
-
Írta:
YouTube
Aktív témák
- Milyen billentyűzetet vegyek?
- sziku69: Fűzzük össze a szavakat :)
- Luck Dragon: Asszociációs játék. :)
- Vicces képek
- Kerti grill és bográcsozó házilag (BBQ, tervek, ötletek, receptek)
- Óra vagy karperec? Egészségügyi mindenes!
- Samsung Galaxy S26 Ultra - fontossági sorrend
- Házi barkács, gányolás, tákolás, megdöbbentő gépek!
- Milyen routert?
- Projektor topic
- További aktív témák...