Hirdetés

Google Imagen 4: Van esélye utolérni az OpenAI GPT image 1 képgenerátorát?

Az Imagen 4 a Google legújabb képgeneráló mesterséges intelligencia modellje, amely szöveges utasításokból (promptokból) hoz létre kiváló minőségű képeket. Ez a Google DeepMind által fejlesztett modell.

*Linkek*
Google Deepmind Imagen 4: https://deepmind.google/models/imagen/
Imagen 4 Model Card: https://storage.googleapis.com/deepmind-media/Model-Cards/Imagen-4-Model-Card.pdf
Google Gemini: https://gemini.google.com/
Google AI Studio: https://aistudio.google.com/generate-image
Google Whisk: https://labs.google/fx/tools/whisk
GitHub Képgenerátor Aréna: https://github.com/mp3pintyo/Leaderboard-Image
NordVPN: https://refer-nordvpn.com/PLfnZbUZLmQ

Mit tudunk róla?

- Kiváló képminőség: Általánosságban magasabb képminőséget biztosít minden stílusban és fotorealisztikus képeket képes létrehozni.
- Részletes kidolgozás: Figyelemre méltó megjelenést mutat az olyan finom részleteknél, mint a szövetek, vízcseppek és állati szőrök. Közelképeknél gazdagabb színeket, textúrákat és színátmeneteket képes megjeleníteni.
- Fejlett szövegkezelés: Jelentősen javult a szöveg megjelenítése és a tipográfia. Segít például üdvözlőlapok, plakátok és képregények készítésében.
- Különböző művészeti stílusok: Pontosabban tud különféle művészeti stílusokat megjeleníteni, a fotorealizmustól és impresszionizmustól az absztraktig és illusztrációig.
- Magasabb felbontás: Akár 2K felbontású képeket is képes generálni.
- Prompt követés: Kiválóan követi a promptokban megadott részleteket és utasításokat. Támogatja a többnyelvű promptokat is.
- Sebesség: Gyorsabb, mint az Imagen 3. Hamarosan elérhető lesz egy még gyorsabb változat, amely akár 10x gyorsabb lehet az előző modellnél.
- Elérhetőség: Elérhető a Vertex AI-n (nyilvános előzetesben), a Gemini alkalmazásban, a Whisk-en, valamint a Google Workspace alkalmazásaiban, mint a Slides, Vids és Docs.
- Eredmények: Az emberi értékelések alapján az Imagen 4 magas pontszámot ért el a GenAI-Bench teszteken az általános preferenciát illetően más modellekhez képest.

Miben fejlődött az Imagen 3-hoz képest?

- Általános minőség: Magasabb általános képminőség.
- Szöveg és tipográfia: Jelentősen jobb helyesírás és tipográfia.
- Felbontás: Támogatja a 2K felbontást.
- Sebesség: Gyorsabb, mint az Imagen 3.
- Részletek és színek: Gazdagabb színek, textúrák és részletek.
- Prompt követés: Jobb utasításkövetés.

Milyen korlátai vannak?

- Absztrakt logikai feladatok: Még mindig nehézségei vannak az olyan feladatokkal, amelyek numerikus érvelést igényelnek (például pontos számú tárgy generálása).
- Kompozíciós és térbeli érvelés: A modellek számára nehéznek bizonyulnak az olyan promptok, amelyek méretre (skála), összetett kifejezésekre, cselekvésekre vagy térbeli érvelésre vonatkoznak.
- Középre igazítás: Néha gondot okoz a képek középre igazítása.
- Zavaros promptok: Értelmetlen promptokra (például emojik vagy véletlenszerű karakterláncok) kiszámíthatatlan kimenetet adhat.
- Artefaktumok: Összetett kompozícióknál továbbra is előfordulhatnak artefaktumok, különösen apró arcok, szöveg vagy vékony struktúrák esetén.

Felelősség és biztonság

- Az Imagen 4 tartalmazza a SynthID nevű technológiát, amely láthatatlan digitális vízjelet ágyaz be a generált képekbe, segítve az AI által generált média azonosítását.
- A bemeneti promptokat és a kimeneti tartalmat biztonsági szűrők ellenőrzik.

Megjegyzendő továbbá, hogy egy művészcsoport keresetet nyújtott be a Google ellen az Imagen AI képgenerátorokkal kapcsolatban, azt állítva, hogy azokat az ő munkáikon képezték ki engedély nélkül. A kereset szerint az Imagen egy "jogellenesen származtatott mű", amelyen keresztül a Google "hatalmas szerzői jogsértést" követett el azáltal, hogy többször reprodukálta az eredeti műveiket, mivel azokat a nyílt forráskódú LAION-400M korpuszon képezték. A kereset az Imagen 2 és a Gemini alapmodell képzéséhez felhasznált munkákra is vonatkozik.

Hirdetés

Fotóznál vagy videóznál? Mutatjuk, melyik okostelefon mire való igazán!

PR Vásárlás előtt érdemes megnézni, mit kínálnak az aktuális telefonok, ha igazán ütős képeket vagy profi mozgóképeket szeretnénk készíteni.