Bemutatkozott a Stable Diffusion ex-dolgozói által alapított, európai székhelyű Black Forest Labs legújabb képalkotó modellcsaládja, a FLUX.1 Kontext, amely jelentős előrelépést jelent a generatív AI területén. Ez a modell egyesíti a szöveges leírás alapján történő képgenerálást és a meglévő képek szerkesztését, lehetővé téve a valós idejű, kontextus-érzékeny kreatív munkafolyamatokat pont úgy, mint az OpenAI GPT4o, Gemini Flash vagy a ByteDance BAGEL modellek.
Lássuk, miben különleges ez a modell:
- Kiemelkedő karakter- és objektumkonzisztencia: Hatékonyan megőrzi a karakterek, objektumok, stílusok egyedi jellemzőit több szerkesztési lépésen keresztül is. Ez a képesség (Character Consistency) az értékelések szerint is a legmagasabb pontszámot érte el a FLUX.1 Kontext [pro] modell esetében. Ez kritikus fontosságú a történetmeséléshez és a márkákhoz kapcsolódó alkalmazásokhoz.
- Kontextus-érzékeny képalkotás: Lehetővé teszi, hogy a szöveges leírások mellett meglévő képeket is használjunk bemenetként, így zökkenőmentesen használhatunk fel és módosíthatunk vizuális koncepciókat új, koherens képek előállításához. A modell figyelembe veszi a bemeneti képek szemantikai kontextusát.
- Egységesített képgenerálás és szerkesztés: Egyetlen modell képes a klasszikus szöveg-kép generálásra és a képek szöveges utasítások alapján történő módosítására. Ez jelentős bővítése a korábbi csak szöveg-kép modelleknek.
- Gyors, interaktív sebesség: Jelentősen alacsonyabb késleltetést és gyorsabb generálási időt biztosít, mint sok jelenlegi state-of-the-art modell. Az inferencia sebessége akár 8-szor gyorsabb lehet, mint a jelenlegi vezető modelleké (pl. GPT-Image), és az iteratív szerkesztésben nagyságrendekkel gyorsabb lehet, mint a korábbi state-of-the-art modellek. Interaktív sebességet tesz lehetővé minimális késleltetéssel.
- Iteratív szerkesztési munkafolyamatok: Lehetőséget nyújt utasítások egymás utáni hozzáadására és a korábbi szerkesztésekre való építkezésre. Ez lehetővé teszi a kép finomítását lépésről lépésre, minimális vizuális eltéréssel, miközben megőrzi a képminőséget és a karakterkonzisztenciát.
- Sokoldalú szerkesztési képességek: Támogatja a lokális szerkesztést (célzott módosítások az adott terület érintése nélkül), a stílusreferenciát (stílus átvétele egy referenciaképről szöveges prompt alapján), és a szövegszerkesztést (szöveg módosítása a képen belül). Képes vizuális jelzéseket (pl. keretek) is használni a szerkesztés irányítására.
- Egyszerű architektúra: A modell egy egyszerű sorozatkonkatenációs megközelítést használ a kontextus-képek és a célképek kódolt tokenjeinek kezelésére, ami lehetővé teszi a különböző bemeneti/kimeneti felbontásokat és képarányokat.
- Új benchmark: A teljesítmény validálásához bevezették a KontextBench nevű, valós használati eseteken alapuló benchmarkot, amely 1026 kép-prompt párból áll, öt feladatkategóriát lefedve.
Fontos megjegyezni a korlátokat is:
- a túlzottan sok iteratív szerkesztés okozta vizuális hibák
- az utasításokat nem mindig követi
- a korlátozott világismeret
*Linkek*
Introducing FLUX.1 Kontext and the BFL Playground: https://bfl.ai/announcements/flux-1-kontext
Kutatási anyag: https://cdn.sanity.io/files/gsvmb6gz/production/880b072208997108f87e5d2729d8a8be481310b5.pdf
FLUX Playground: https://playground.bfl.ai/
Comfy Day 0: https://blog.comfy.org/p/flux1-kontext-api-node-in-day-1-workflow
Árak összehasonlítása: https://www.reddit.com/r/FluxAI/comments/1l1bjs5/least_expensive_flux1_kontext_pro/
GitHub Képgenerátor Aréna: https://github.com/mp3pintyo/Leaderboard-Image
FLUX.1 Kontext: AI képszerkesztő a Stable Diffusion ex-dolgozóitól
-
Írta:
YouTube
Hirdetés

Aktív témák
- Kerti grill és bográcsozó házilag (BBQ, tervek, ötletek, receptek)
- Bestbuy játékok
- NVIDIA GeForce RTX 5080 / 5090 (GB203 / 202)
- Kerékpárosok, bringások ide!
- Jövedelem
- AMD Ryzen 9 / 7 / 5 9***(X) "Zen 5" (AM5)
- AMD GPU-k jövője - amit tudni vélünk
- HiFi műszaki szemmel - sztereó hangrendszerek
- Telekom otthoni szolgáltatások (TV, internet, telefon)
- Samsung Galaxy S21 FE 5G - utóirat
- További aktív témák...