- Sokat megélt veterán CPU-t hoz vissza a piacra az Intel
- AMD Navi Radeon™ RX 9xxx sorozat
- Azonnali notebookos kérdések órája
- Apple MacBook
- NVIDIA GeForce RTX 5080 / 5090 (GB203 / 202)
- NVIDIA GeForce RTX 5070 / 5070 Ti (GB205 / 203)
- Milyen egeret válasszak?
- AMD K6-III, és minden ami RETRO - Oldschool tuning
- Hobby elektronika
- OLED TV topic
-
PROHARDVER!
Új hozzászólás Aktív témák
-
dqdb
nagyúr
válasz
gordonfreemN #17612 üzenetére
Rövid válasz: éppen az általad is bedobott a PDF to Excel szoftvereket akartam ajánlani, mint egyszerű megoldás, hátha akad belőlük olyan, ami tökéletesen kezeli ezek a táblázatokat.
Hosszú válasz: nem megoldhatatlan, de nem is egyszerű dolog, mert a PDF egy konzisztens megjelenítésre optimalizált formátum, és nem az adatok hordozására/módosítására.
Legextrémebb esetben a szövegek nem is szövegként vannak eltárolva, hanem maguk a betűk vektorosan görbékként kerülnek be a fájlba, és ilyenkor OCR kell a szöveg kinyeréséhez. Ez szerencsére ritka, általában szépen formázott kiadványok esetében fordul csak elő.
Leggyakrabban a szövegek szövegként kerülnek bele a dokumentumba (adatokból sablon segítségével generált dokumentumoknál más megoldást még nem láttam), de a helyzet ennél bonyolultabb, mert nem bekezdésenként vagy szavanként egyben, hanem betűnként külön-külön saját pozícióval. Azaz például az alma szó a, l, m és a betűként* szerepelnek, ahol mindegyik betűhöz tartozik egy koordináta. A PDF megjelenítők vagy az általad igényelt text extractor megoldások pedig valamilyen heurisztikát használva kitalálják, hogy ezek a betűk elég közel vannak egymáshoz a használt betűtípus metrikái alapján, függőlegesen sem nagyon lógnak ki, így valószínűleg egy szót alkotnak. Aztán a szavakat hasonló heurisztika mentén bekezdésekké lehet összefűzni,
A PDF libraryk közül szinte mindegyik kínál valamilyen fajta text extractor megoldást, jobban az iTextet ismerem, ott van egy általános implementáció, amelynek átadhatod paraméterként a helyzetnek megfelelő heurisztikát vagy használhatod a gyárilag beépítettek egyikét. A képen látható dokumentum formátuma eléggé szabályosnak tűnik ahhoz, hogy saját heurisztika nélkül, pusztán az alapértelmezett segítségével kinyert szöveget elég legyen feldolgozni, vagy ha ez mégsem jön össze, akkor ki tudod használni a táblázatjelleget, és pusztán a szövegek pozíciója alapján be tudod lőni, melyik cellában voltak.
* Láttam már olyan generált dokumentumot, ahol tényleges szavak voltak, de ez ritka és a szabvány oldaláról ellenjavallott.
Új hozzászólás Aktív témák
● olvasd el a téma összefoglalót!
- Sokat megélt veterán CPU-t hoz vissza a piacra az Intel
- sziku69: Fűzzük össze a szavakat :)
- iPhone topik
- Telekom otthoni szolgáltatások (TV, internet, telefon)
- Fel kell készülnünk a 2G kivezetésére
- AMD Navi Radeon™ RX 9xxx sorozat
- Mibe tegyem a megtakarításaimat?
- Azonnali notebookos kérdések órája
- Képregény topik
- Linux kezdőknek
- További aktív témák...
- Gamer PC-Számítógép! Csere-Beszámítás! R7 2700X / GTX 1080Ti / 16GB DDR4 / 512 SSD!
- EliteBook 640 G10 14" FHD IPS i5-1345U 16GB 256GB NVMe ujjlolv IR kam gar
- Legion Pro 5 16ADR10 16" QHD+ IPS Ryzen 9 8945HX RTX 5060 32GB 1TB NVMe magyar vbill gar
- Playstation Portal
- Kingston FURY Beast RGB 32GB DDR5 KF560C36BBEA-32
- HIBÁTLAN iPhone 12 Pro Max 256GB Gold -1 ÉV GARANCIA - Kártyafüggetlen, MS3106, 100% Akkumulátor
- Gamer PC-Számítógép! Csere-Beszámítás! I9 9900K / RTX 3070Ti / 64GB DDR4
- ÁRGARANCIA!Épített KomPhone i5 14400F 32/64GB RAM RX 9060 XT 16GB GAMER PC termékbeszámítással
- GYÖNYÖRŰ iPhone 13 128GB Starlight -1 ÉV GARANCIA - Kártyafüggetlen, MS3434
- AKCIÓ! Apple MacBook Pro 14 M4 Max 36GB RAM 1TB SSD macbook garanciával hibátlan működéssel
Állásajánlatok
Cég: CAMERA-PRO Hungary Kft.
Város: Budapest
Cég: PCMENTOR SZERVIZ KFT.
Város: Budapest