Microsoft Lens: ingyenes, saját gépen futtatható képgeneráló modell

A Lens egy a Microsoft által kifejlesztett, 3,8 milliárd paraméteres, szövegből képet generáló (text-to-image) alapmodell, amely a Microsoft szerint lényegesen kevesebb számítási kapacitás felhasználásával éri el, sőt sok esetben túl is szárnyalja a jóval nagyobb modellek (pl. FLUX, SD3) minőségét. Képes akár 1440x1440-es felbontású, valósághű és rugalmas képarányú képek generálására, támogatja a többnyelvű utasításokat, és kiváló pontossággal képes szövegeket megjeleníteni a legkülönfélébb vizuális kompozíciókban.

*Mire képes és mik a fő képességei?*
- Magas felbontás és rugalmas képarányok: A modell akár 1440x1440 pixeles felbontásban is képes képeket generálni, és jól kezeli az 1:2-től 2:1-ig terjedő, sőt a képzés során nem látott egyedi képarányokat is.
- Kiváló többnyelvűség (Multilingual generalization): Bár kizárólag angol nyelvű adatokon tanították be, a beépített nyelvi modelljének köszönhetően megérti a kínai, francia, japán, spanyol és egyéb nyelvű utasításokat is.
- Vizuális szöveggenerálás: Jól teljesít, amikor szöveget kell a képeken megjeleníteni, legyen az egy poszter, egy üzlet cégtáblája, egy termékcímke vagy a metróállomás felirata.
- "Reasoner" (Értelmező) modul: Rendelkezik egy dedikált nyelvi modullal, amely képes a felhasználók pontatlan vagy kétértelmű kéréseit részletes, a képalkotáshoz optimális promptokká alakítani.
- Vizuális hibák elnyomása: A poszt-tréning (RL) során a modell megtanulta a fizikai szabályok betartását és a képi hibák, torzulások (artifacts) minimalizálását.

*Miért jobb, mint más modellek a Microsoft szerint?*
- Példátlan betanítási hatékonyság: Míg a modern konkurens modellek (pl. Z-Image, FLUX.2, Qwen-Image) 6-20 milliárd paraméterrel dolgoznak, a mindössze 3,8 milliárd paraméteres Lens felveszi velük a versenyt, miközben például a Z-Image képzési számítási igényének mindössze *19,3%-át* igényli.
- Villámgyors inferencia (generálás): Kompakt méretének köszönhetően sokkal gyorsabb a generálás. Egyetlen NVIDIA H100 GPU-n egy 1024x1024-es képet 20 lépés alatt *3,15 másodperc* alatt hoz létre, míg a gyorsított "Turbo" verzió 4 lépés alatt *0,84 másodperc* alatt végez.
- Sűrű információtartalmú adathalmaz (Dense Captions): Tanítása nem egyszerű, rövid képleírásokon alapult. A *Lens-800M* nevű, 800 millió képet tartalmazó adatbázisban minden képhez a GPT-4.1 által írt, átlagosan *109 szavas, nagyon részletes leírást* párosítottak, ami maximalizálta a betanítás hasznosságát (információsűrűségét).
- Kevert felbontású betanítás: A modellt egy időben tanították kis és nagy felbontású, különböző képarányú képeken, így anélkül sajátította el a nagy felbontású generálást, hogy a teljes betanítási költséget drasztikusan meg kellett volna növelni.

*Mik a technikai adatai?*
- Paraméterszám: 3,8 milliárd.
- Architektúra: Egy *48 blokkból álló MMDiT* (Latent Diffusion Transformer) architektúrára épül.
- Text Encoder: A GPT-OSS nyelvi modellt (20 milliárd paraméteres MoE modell, amelyből 3 milliárd aktív) használja.
- VAE: A kiváló minőségű és szemantikus FLUX.2 VAE-t alkalmazza.
- Modellváltozatok:*
1. *Lens :* Megerősítéses tanulással (RL) vizuális minőségre hangolva (20 lépéses generálás, CFG skála: 5.0).
2. *Lens-Turbo:* Desztillált verzió a szupergyors, **4-lépéses** generáláshoz (CFG skála: 1.0).
3. *Lens-Base:* Alapmodell, felügyelt tanulással (RL és desztilláció nélkül, 50 lépéses generálás).

*Linkek*
Hugging Face Microsoft Lens: https://huggingface.co/microsoft/Lens
HF Lens Turbo: https://huggingface.co/microsoft/Lens-Turbo
HF Lens Base: https://huggingface.co/microsoft/Lens-Base
Lens: Rethinking Training Efficiency for Foundational Text-to-Image Models: https://arxiv.org/pdf/2605.21573
Lens Demo: https://huggingface.co/spaces/multimodalart/lens
GitHub Lens: https://github.com/microsoft/Lens
GitHub mp3pintyo Lens: https://github.com/mp3pintyo/Lens
RunPod: https://runpod.io?ref=2pdhmpu1
ComfyUI: Microsoft Lens support: https://github.com/Comfy-Org/ComfyUI/pull/14077
HF Comfy Org Lens modellek: https://huggingface.co/Comfy-Org/Lens
AI Képgenerátor Aréna: https://leaderboard-image.onrender.com/

*Telepítés*
RunPod template ha kell: Pytorch 2.8.0
Miniconda telepitese:
mkdir -p ~/miniconda3
wget https://repo.anaconda.com/miniconda/Miniconda3-latest-Linux-x86_64.sh -O ~/miniconda3/miniconda.sh
bash ~/miniconda3/miniconda.sh -b -u -p ~/miniconda3
~/miniconda3/bin/conda init bash
source ~/.bashrc
conda --version

git clone https://github.com/mp3pintyo/Lens.git
cd Lens
conda create -n lens python=3.12
conda activate lens
uv pip install torch==2.11.0+cu126 torchvision==0.26.0+cu126 --index-url https://download.pytorch.org/whl/cu126
uv pip install -r requirements.txt --prerelease=allow

app.py fájl módosítása: share=True,