Tencent Hunyuan Image 2.0: ingyenes hiperrealisztikus képgenerátor

Írta: YouTube
2025-05-22 08:02

2025. május 16-án a Tencent bejelentett egy új generációs, valós idejű képgeneráló modellt a Hunyuan Image 2.0-át. Ezt a Tencent a Hunyuan sorozat részeként fejlesztette ki. Azonnal elérhetővé vált a Hunyuan weboldalán ingyenes regisztrációval.
A modell fő erőssége az ezredmásodperces reakcióidő és a hyperrealisztikus képminőség, melyeket egy rendkívül tömörített képkódoló és egy új diffúziós architektúra kombinációja tesz lehetővé. Rajztábla funkció, valamint “képből kép” (image-to-image) szerkesztés támogatása révén a felhasználók akár gépelés vagy beszéd közben is azonnal láthatják a kép változásait, átformálhatják a létrehozott képet anélkül, hogy újból meg kellene adniuk a promptot, és professzionális rajztábla-funkcióban is dolgozhatnak valós idejű színezéssel és többforrású képösszefésüléssel. A GenEval benchmarkon elért 95 %-os pontossága pedig a komplex, természetes nyelvű utasítások megértésében és követésében is kiemelkedő teljesítményt mutat.

Hunyuan ökoszisztéma: A modell a Tencent Hunyuan többmodalitású alapmodell-családjába tartozik, amely képes szöveget, képet és hangot is feldolgozni.

- Ezredmásodperces valós idejű text-to-image:
A gépelés vagy beszéd közben megjelenő előnézet lehetővé teszi a folyamatos, valós idejű visszacsatolást a prompt változásairól.
A hagyományos „írd-be → várj → nézd” folyamat helyett „írd-be és azonnal alkoss” élményt nyújt, ezredmásodperces késleltetéssel.
- Hyperrealisztikus képminőség
- A GenEval (Geneval Bench) komplex szöveges utasítások megértésére szolgáló benchmarkon a modell 95 % feletti pontosságot ért el, ezzel messze felülmúlva a legtöbb konkurens rendszert.
- Valós idejű rajztábla:
A felhasználó rajzolhat vonalrajzot, miközben a rendszer színezést és árnyékolást generál előnézetben, megtörve a „rajz-várás-javítás” lineáris munkafolyamatot.
- Több kép fúziója:
Több vázlatot/képet lehet egy vászonra feltölteni, a modell automatikusan egyezteti a perspektívát és a fény-árnyék viszonyokat, majd a prompt alapján egyesíti a képeket.
- Kép-alapú szerkesztés (image-to-image)
A referenciafotók fő tárgyának vagy kontúrjának kinyerése, majd finom módosítása. Például a felhasználó feltölthet egy fényképet egy tortáról, majd egy egyszerű paranccsal megváltoztathatja a csokoládét eperre. A forma és az elhelyezés megegyezik a referenciaképpel.

Technológiai áttörések
Paraméterek skálázása: Az előző verzióhoz képest egy nagyságrenddel több paraméter, ami növeli a modell kapacitását.
Ultra-magas tömörítésű képkódoló: Csökkenti a képszekvencia hosszát, miközben megőrzi a részletgazdagságot egy optimalizált, ellenőrzött tanulási kerettel.
Új diffúziós architektúra: Javított denoising-folyamat, amely gyorsabb és stabilabb generálást tesz lehetővé.
Megerősítéses tanulás esztétikai finomhangolással: „Lassú gondolkodás” alapú jutalmazási modell és széleskörű utótréning a realizmus érdekében.

*Linkek*
Twitter bejelentés: https://x.com/TencentHunyuan/status/1923263203825549457
Tencent Hunyuan Image 2.0: https://hunyuan.tencent.com/
Hír 1: https://wallstreetcn.com/articles/3747257
Hír 2: https://finance.sina.com.cn/tech/digi/2025-05-16/doc-inewueca6082704.shtml
Képgenerátor Aréna: https://github.com/mp3pintyo/Leaderboard-Image