Új hozzászólás Aktív témák

  • dqdb
    nagyúr
    válasz sztanozs üzenetére #48317

    - nem szavanként/karakterenként van pozícionálva a szöveg
    - nem akarsz sortörést kezelni

    Erre lehet heurisztikát illeszteni, hogy ha két karakter megfelelően közel van egymáshoz és függőlegesen kicsi az eltérés közöttük, akkor azok egy szót alkotnak, ha kicsit távolabb, de még nem túl távol, akkor space van közöttük (a távolságra a betűméretből és típusból származtatott metrikát lehet használni). Hasonló szabályt lehet függőlegesen is alkotni az összefüggő sorok megtalálására. Persze tökéletes nem lesz, de eléggé jó közelítést ad.

    Kevés olyan PDF akad, amibe nem karakterenként kerül be a szöveg. hanem szavanként vagy nagyobb blokkokban (a vektorosan renderelt szöveg pedig már más kávéház feldolgozás terén, ahogyan említetted).

Új hozzászólás Aktív témák