Képzeljétek el, hogy létezik olyan nagy nyelvi modell is, amely nemcsak szöveget vagy képeket ért és generál mint például a jól ismert GPT-4o vagy a BAGEL modell hanem 3D objektumokat is.
Miről is van szó pontosan? A ShapeLLM-Omni egy natív, multimodális nagy nyelvi modell 3D generáláshoz és annak megértéséhez. Ez azt jelenti, hogy ellentétben azokkal a modellekkel, amelyek „csak” képeket és szöveget tudnak kezelni ez a rendszer képes dolgozni 3D-objektumokkal is. Ez azért fontos, mert a valódi 3D-képességek beépítése kulcsfontosságú olyan területeken, mint a 3D-tartalom gyártása, a robotika, a digitális másolatok vagy a virtuális környezetek. A kutatók azt mondják róla, hogy ez az első olyan egységes, autoregresszív keretrendszer, amely alapvető 3D-funkciókkal bővíti a multimodális modelleket.
De mit is tud ez a modell a gyakorlatban?
- Szövegből 3D-t generálni (Text-to-3D): megadjuk a leírást, és kapunk egy 3D-modellt.
- Képből 3D-t generálni (Image-to-3D): feltöltünk egy fotót, és a rendszer abból készít 3D-objektumot.
- 3D-hálók értelmezése és elemzése (3D Captioning/Understanding): felismeri és „leírja” a 3D-formákat, értelmezi azok szerkezetét és jelentését.
- Interaktív szerkesztés természetes nyelvű utasításokkal: például megkérjük, hogy vegyen le valamit egy modellről, vagy tegyen hozzá új elemeket.
Ez az egységes megközelítés lehetővé teszi, hogy egyetlen rendszerben, gördülékenyen váltogass szöveg, kép és 3D között – mindez rugalmasabbá és könnyebben hozzáférhetővé teszi a 3D-tartalom létrehozását és szerkesztését a hagyományos szoftverekhez képest.
*Linkek*
ShapeLLM-Omni: A Native Multimodal LLM for 3D Generation and Understanding: https://jamesyjl.github.io/ShapeLLM/
Kutatási anyag: https://arxiv.org/pdf/2506.01853
GitHub: https://github.com/JAMESYJL/ShapeLLM-Omni
Hugging Face demo: https://huggingface.co/spaces/yejunliang23/ShapLLM-Omni
RunPod: https://runpod.io?ref=2pdhmpu1
*Telepítés*
RunPod Pytorch 2.2.0
50/20GByte tárhely
git clone https://github.com/JAMESYJL/ShapeLLM-Omni.git
cd ShapeLLM-Omni
pip install --ignore-installed -r requirements.txt
pip install gradio -U
pip install gradio_client -U
share=True
python app.py
A ShapeLLM-Omni egy natív, multimodális nagy nyelvi modell 3D generáláshoz
-
Írta:
YouTube

Aktív témák
- LCD, plazma és projektoros TV-k hibái
- Vékonyabb lett, jobb kamerát kapott, de az akku maradt a régi: itt a Fold7
- Anime filmek és sorozatok
- Audi, Cupra, Seat, Skoda, Volkswagen topik
- Telekom otthoni szolgáltatások (TV, internet, telefon)
- ASUS routerek
- Motorola Moto Tag - nyomom, követ
- SSD kibeszélő
- Futás, futópályák
- Számtech boltosok memoárjai, azaz amikor kiborulunk...
- További aktív témák...