Hirdetés
- Visszavont videó árulkodik az új Steam Controllerről
- Google Chromecast topic
- Apple MacBook
- HiFi műszaki szemmel - sztereó hangrendszerek
- Intel Core i7-5xxx "Haswell-E/EP" és i7-6xxx "Broadwell-E/EP" (LGA2011-v3)
- Milyen billentyűzetet vegyek?
- OLED monitor topic
- Ne késd le a határidőt! (Secure Boot 2026)
- A Kindle-botrány röviden — a digitális tulajdon vége
- Dell notebook topic
-
PROHARDVER!

Új hozzászólás Aktív témák
-
dqdb
nagyúr
válasz
gordonfreemN
#17612
üzenetére
Rövid válasz: éppen az általad is bedobott a PDF to Excel szoftvereket akartam ajánlani, mint egyszerű megoldás, hátha akad belőlük olyan, ami tökéletesen kezeli ezek a táblázatokat.
Hosszú válasz: nem megoldhatatlan, de nem is egyszerű dolog, mert a PDF egy konzisztens megjelenítésre optimalizált formátum, és nem az adatok hordozására/módosítására.
Legextrémebb esetben a szövegek nem is szövegként vannak eltárolva, hanem maguk a betűk vektorosan görbékként kerülnek be a fájlba, és ilyenkor OCR kell a szöveg kinyeréséhez. Ez szerencsére ritka, általában szépen formázott kiadványok esetében fordul csak elő.
Leggyakrabban a szövegek szövegként kerülnek bele a dokumentumba (adatokból sablon segítségével generált dokumentumoknál más megoldást még nem láttam), de a helyzet ennél bonyolultabb, mert nem bekezdésenként vagy szavanként egyben, hanem betűnként külön-külön saját pozícióval. Azaz például az alma szó a, l, m és a betűként* szerepelnek, ahol mindegyik betűhöz tartozik egy koordináta. A PDF megjelenítők vagy az általad igényelt text extractor megoldások pedig valamilyen heurisztikát használva kitalálják, hogy ezek a betűk elég közel vannak egymáshoz a használt betűtípus metrikái alapján, függőlegesen sem nagyon lógnak ki, így valószínűleg egy szót alkotnak. Aztán a szavakat hasonló heurisztika mentén bekezdésekké lehet összefűzni,
A PDF libraryk közül szinte mindegyik kínál valamilyen fajta text extractor megoldást, jobban az iTextet ismerem, ott van egy általános implementáció, amelynek átadhatod paraméterként a helyzetnek megfelelő heurisztikát vagy használhatod a gyárilag beépítettek egyikét. A képen látható dokumentum formátuma eléggé szabályosnak tűnik ahhoz, hogy saját heurisztika nélkül, pusztán az alapértelmezett segítségével kinyert szöveget elég legyen feldolgozni, vagy ha ez mégsem jön össze, akkor ki tudod használni a táblázatjelleget, és pusztán a szövegek pozíciója alapján be tudod lőni, melyik cellában voltak.
* Láttam már olyan generált dokumentumot, ahol tényleges szavak voltak, de ez ritka és a szabvány oldaláról ellenjavallott.
Új hozzászólás Aktív témák
● olvasd el a téma összefoglalót!
- Visszavont videó árulkodik az új Steam Controllerről
- Futás, futópályák
- Diablo IV
- Tőzsde és gazdaság
- D1Rect: Nagy "hülyétkapokazapróktól" topik
- Google Chromecast topic
- Vivo V70 – a stílus érték?
- Folyószámla, bankszámla, bankváltás, külföldi kártyahasználat
- Milyen autót vegyek?
- Allegro vélemények - tapasztalatok
- További aktív témák...
- ÚJ Bontatlan Apple iPhone 17 Pro 256GB Silver ! 1 ÉV nemzetközi APPLE GARANCiA
- iPhone 12 PRO MAX 128GB grafit gyönyörű vadonatúj 100% os akkumlátor! KÁRTYAFÜGGETLEN!
- Apple MacBook M3 Pro 14, 18GB RAM 512GB SSD elado ujszeru Gyor
- Flydigi Vader 3 Pro wireless hall effect kontroller eladó
- 9440 2-in-1 14" QHD+ IPS érintő i7-1365U 32GB 512GB NVMe ujjlolv IR kam gar
- 261 - Lenovo LOQ (17IRX10) - Intel Core i7-14700HX, RTX 5070
- Samsung Galaxy Watch 4 LTE 6 hónap Garancia Beszámítás Házhozszállítás
- PEACH Laminálógép és vágógép (6 in 1 Laminator & Trimmer PBP350 A4)
- ÁRGARANCIA!Épített KomPhone i7 14700KF 32/64GB RAM RTX 5070 Ti 16GB GAMER PC termékbeszámítással
- Lenovo A285 12,5" FHD - Ryzen 5 pro 2500U, 8GB RAM, 256GB SSD, jó akku, számla, garancia
Állásajánlatok
Cég: Laptopműhely Bt.
Város: Budapest


