Hirdetés

Új hozzászólás Aktív témák

  • dqdb

    nagyúr

    válasz sztanozs #48317 üzenetére

    - nem szavanként/karakterenként van pozícionálva a szöveg
    - nem akarsz sortörést kezelni

    Erre lehet heurisztikát illeszteni, hogy ha két karakter megfelelően közel van egymáshoz és függőlegesen kicsi az eltérés közöttük, akkor azok egy szót alkotnak, ha kicsit távolabb, de még nem túl távol, akkor space van közöttük (a távolságra a betűméretből és típusból származtatott metrikát lehet használni). Hasonló szabályt lehet függőlegesen is alkotni az összefüggő sorok megtalálására. Persze tökéletes nem lesz, de eléggé jó közelítést ad.

    Kevés olyan PDF akad, amibe nem karakterenként kerül be a szöveg. hanem szavanként vagy nagyobb blokkokban (a vektorosan renderelt szöveg pedig már más kávéház feldolgozás terén, ahogyan említetted).

    [ Szerkesztve ]

    tAm6DAHNIbRMzSEARWxtZW50ZW0gdmFka5RydIJ6bmkuDQoNClOBc4Ek

Új hozzászólás Aktív témák