Tencent HunyuanWorld-Voyager: 3D-konzisztens videó egyetlen fotóból

A Tencent bemutatta a HunyuanWorld-Voyager nevű mesterséges intelligencia alapú eszközét, amely képes egyetlen képet egy irányítható, 3D-konzisztens videóvá alakítani – így a felfedezés izgalmát kínálja tényleges 3D-s modellezés nélkül. Ez egy okos megoldás: az RGB és a mélységadatok keverésével az objektumok pozícióját különböző szögekből is megőrzi, így a térbeli konzisztencia illúzióját kelti.

A modell célja, hogy egyetlen képből, felhasználó által definiált kameramozgással 3D-konzisztens pontfelhő-szekvenciákat hozzon létre a világ felfedezéséhez. A keretrendszer egy adatgyűjtő mechanizmust is tartalmaz, amely automatizálja a kameraállások és a metrikus mélység előrejelzését a videókhoz, lehetővé téve a nagy mennyiségű, annotált képzésadat létrehozását. A Voyager kiemelkedő teljesítményt mutatott a jelenetvideó-generálásban és a 3D világ rekonstrukcióban, felülmúlva a korábbi módszereket a geometriai koherencia és a vizuális minőség terén.
Az eredmények nem valódi 3D modellek, de hasonló hatást érnek el: A mesterséges intelligencia eszköz olyan 2D-s videóképeket generál, amelyek fenntartják a térbeli konzisztenciát, mintha a kamera egy valódi 3D-s térben mozogna. Minden egyes generálás mindössze 49 képkockát - nagyjából két másodpercnyi videót - eredményez, bár a Tencent szerint több klip is összekapcsolható "több perces" szekvenciákhoz. A tárgyak ugyanabban a relatív pozícióban maradnak, amikor a kamera mozog körülöttük, és a perspektíva helyesen változik, ahogy az egy valódi 3D-s környezetben elvárható lenne. Bár a kimenet inkább mélységtérképekkel ellátott videó, mint valódi 3D modellek, ezek az információk rekonstrukciós célokra 3D pontfelhőkké alakíthatók.
A rendszer egyetlen bemeneti képet és egy felhasználó által meghatározott kamerapályát fogad el. A felhasználók a rendelkezésre bocsátott felületen keresztül megadhatják a kameramozgásokat, például előre, hátra, balra, jobbra vagy elfordulást. A rendszer a kép- és mélységadatokat egy memóriahatékony "world cache"-rel kombinálja, hogy a felhasználó által meghatározott kameramozgást tükröző videósorozatokat állítson elő.

A Voyager-t arra képezték ki, hogy felismerje és reprodukálja a térbeli konzisztencia mintáit, de egy hozzáadott geometriai visszacsatolási hurokkal. Miközben minden egyes képkockát létrehoz, a kimenetet 3D pontokká alakítja, majd ezeket a pontokat visszavetíti 2D-be, hogy a következő képkockákra hivatkozhasson.

A modell jelentős licencelési korlátozásokkal jár. A Tencent más Hunyuan modelljeihez hasonlóan a licenc tiltja a használatot az Európai Unióban, az Egyesült Királyságban és Dél-Koreában. Emellett a 100 millió havi aktív felhasználót meghaladó kereskedelmi célú telepítésekhez külön licencelésre van szükség a Tencenttől.

*Linkek*
HunyuanWorld-Voyager: https://3d-models.hunyuan.tencent.com/world/
Kutatási anyag: https://3d-models.hunyuan.tencent.com/voyager/voyager_en/assets/HYWorld_Voyager.pdf
Hugging Face: https://huggingface.co/tencent/HunyuanWorld-Voyager
GitHub: https://github.com/Tencent-Hunyuan/HunyuanWorld-Voyager
RunPod: https://runpod.io?ref=2pdhmpu1
Runpod bemutató: https://www.youtube.com/watch?v=WudXnf8Gogc

Runpod Pytorch 2.4.0 / A100
40/100 GByte

*Telepítés*
wget https://repo.anaconda.com/archive/Anaconda3-2025.06-1-Linux-x86_64.sh
bash Anaconda3-2025.06-1-Linux-x86_64.sh
Nyomj Entert a licencszerződés elolvasásához.
Gépeld be, hogy "yes" (igen) a szerződés elfogadásához.
Hagyd jóvá az alapértelmezett telepítési helyet az Enter megnyomásával, hacsak nem akarod máshová tenni.
A telepítés végén a program megkérdezi, hogy futtassa-e a conda init-et. Gépeld be, hogy "yes".
source ~/.bashrc

git clone https://github.com/Tencent-Hunyuan/HunyuanWorld-Voyager
cd HunyuanWorld-Voyager

conda create -n voyager python==3.11.9
conda activate voyager

conda install pytorch==2.4.0 torchvision==0.19.0 torchaudio==2.4.0 pytorch-cuda=12.4 -c pytorch -c nvidia

python -m pip install -r requirements.txt
python -m pip install transformers==4.39.3

python -m pip install flash-attn

python -m pip install xfuser==0.4.2

pip install --no-deps git+https://github.com/microsoft/MoGe.git
pip install scipy==1.11.4
pip install git+https://github.com/EasternJournalist/utils3d.git@c5daf6f6c244d251f252102d09e9b7bcef791a38
pip install click gradio trimesh
pip install numpy==1.24.4 pandas==2.0.3 matplotlib==3.7.1 contourpy==1.3.1

ln -s /workspace/HunyuanWorld-Voyager/ckpts /root/ckpts

huggingface-cli download tencent/HunyuanWorld-Voyager --local-dir ./ckpts

*Futtatás*
python3 app.py

*DISCORD*
Mp3Pintyo szerver: https://discord.gg/NBgUuVDURG

*Támogatás*
Patreon: https://www.patreon.com/mp3pintyo

#ai #mesterségesintelligencia #mi #mp3pintyo