Granite Speech 3.3 8B: IBM Granite STT

A Granite Speech 3.3 8B az IBM Granite családjának új, beszédből szöveggé alakító (Speech-to-Text, STT) modellje, amely kiemelkedő teljesítményt nyújt az automatikus beszédfelismerésben (ASR) és az automatikus beszédfordításban (AST). Ez az IBM első hivatalos beszéd-szöveggé alakító modellje, és az audio képességek iránti kutatásaik kezdetét jelzi.

Főbb jellemzői és előnyei:
Kiemelkedő pontosság és teljesítmény:
A Granite Speech 3.3 a transzkripciós feladatokban következetesen nagyobb pontosságot biztosít, mint a vezető nyílt és zárt forráskódú versenytársak számos prominens nyilvános adatkészleten végzett tesztelés során.
Az automatikus beszédfordítás (AST) terén lépést tart az olyan vezető tulajdonosi modellekkel, mint az OpenAI GPT-4o és a Google Gemini 2.0 Flash.
Az angol ASR (automatikus beszédfelismerés) benchmarkjain a Granite-speech-3.3-8b modell a legalacsonyabb szószám-hibát (WER) érte el.

*Linkek*
IBM Granite 3.3: Speech recognition, refined reasoning, and RAG LoRAs: https://www.ibm.com/new/announcements/ibm-granite-3-3-speech-recognition-refined-reasoning-rag-loras
RunPod: https://runpod.io?ref=2pdhmpu1
OpenAI Whisper: https://github.com/openai/whisper
Kutatási anyag: https://arxiv.org/pdf/2505.08699
Hugging Face modell Granite-speech-3.3-8b (revision 3.3.2): https://huggingface.co/ibm-granite/granite-speech-3.3-8b
Hugging Face fullstop-punctuation-multilang-large: https://huggingface.co/oliverguhr/fullstop-punctuation-multilang-large
GitHub RunPod projects: https://github.com/mp3pintyo/runpod

*Előfeltételek*
Videókártya (34 GByte VRAM kell):
A40-es
RTX 6000 Ada
Template: Runpod Pytorch 2.4.0
Tárhely: 40/10

*Telepítés*
Telepítés:
apt-get update
apt-get install ffmpeg

pip install transformers torchaudio peft soundfile deepmultilingualpunctuation

*Futtatás*
python ibm-granite-speech-332.py

Kétlépcsős, moduláris architektúra:
A Granite Speech 3.3 egy kétlépcsős tervezést használ, ellentétben azokkal az integrált modellekkel, amelyek a beszédet és a szöveget egyetlen lépésben kombinálják.
Ez a megközelítés biztosítja, hogy a modell szöveges lekérdezéseken nyújtott teljesítménye megegyezzen az alapul szolgáló LLM (Granite 3.3 8B Instruct) teljesítményével, elkerülve a sok multimodális modellre jellemző szöveges teljesítmény romlást.
Az architektúra magában foglal egy beszédkódolót, egy beszédprojektort (Q-former), az alapul szolgáló Granite 3.3 8B Instruct LLM-et és LoRA adaptereket.