Results 1 to 10 of 10

Thread: PDF vizuāli renderējas korekti, bet nolasot teksts pārvēršas "ķeburos"

  1. #1
    filozofologofīlfobs mrlobber's Avatar
    Join Date
    16-01-06
    Posts
    6,732
    Rep Power
    244

    Default PDF vizuāli renderējas korekti, bet nolasot teksts pārvēršas "ķeburos"

    Tātad, man ir kaudzīte ar PDFiem, kas browserī / PDF lasītājā renderējas korekti ar LV burtiem.

    Savukārt, nolasot to ar kādu no PDF lasītājbibliotēkām, lai dabūtu ārā tekstu, PDFa teksts pārvēršas nesalasāmos simbolos.

    Vai kāds ir saskāries ar ko līdzīgu un ko darīt? Googlējot problēmu, sanāk visu laiku lasīt par vizuālu gļuku situācijām, kas saistīts ar to, ka PDFā ir kreisi norādīti fonti. Āķis šajā gadījumā ir tas, ka vizuāli viss ģenerējas korekti.

    Diemžēl nevaru iemest piemēru, jo satur personas datus.

    50% kāju, 50% tehnikas.

  2. #2
    Pieredzējis lietpratējs seivs's Avatar
    Join Date
    18-08-10
    Posts
    1,026
    Rep Power
    170

    Default

    Kas tās par bibliotēkām, tur nav kāds utf8 konfigurācijas parametrs? Vai arī, varbūt jānorāda kāds latin-extended fonts.

  3. #3

    Default

    Pat ja taisi open with -> world?
    Pārdodu 4TB HDD 55€
    “To buy when others are despondently selling and to sell when others are avidly buying requires the greatest fortitude and pays the greatest ultimate rewards.” -Sir John Templeton

  4. #4
    Pieredzējis lietpratējs Devil_Inside's Avatar
    Join Date
    02-05-10
    Posts
    2,224
    Rep Power
    218

    Default

    Lieto kādu OCR softu ar latviešu valodas supportu.
    All good things in life are FREE*
    *plus shipping and handling

  5. #5

    Default

    Quote Originally Posted by mrlobber View Post
    Savukārt, nolasot to ar kādu no PDF lasītājbibliotēkām, lai dabūtu ārā tekstu, PDFa teksts pārvēršas nesalasāmos simbolos.... Āķis šajā gadījumā ir tas, ka vizuāli viss ģenerējas korekti
    Pats jau arī atbildēji - Tava client-lib netiek lietota korekti vai nesuportē to, ko māk GUI (šaj gadījumā standarta browsera plugins+lib)

    bet īsti nav skaidrs ko Tu dari.. vai ir kāds skripting kods ar libu, vai kompilēts softs ar libu, vai ir cli tūlis, kas pdf->html(email) vai pdf->bilde ģenerē...

    Vēl ir tāda fīča, ka embedded fonts.. kas ļauj "OS-am bez fontiem" rādīt PDF tā kā viņš bija paredzēts "dizainerim/gen-ocr-softam".
    gordo.lv - grāmatvedības pakalpojumi

  6. #6
    filozofologofīlfobs mrlobber's Avatar
    Join Date
    16-01-06
    Posts
    6,732
    Rep Power
    244

    Default

    Quote Originally Posted by seivs View Post
    Kas tās par bibliotēkām, tur nav kāds utf8 konfigurācijas parametrs? Vai arī, varbūt jānorāda kāds latin-extended fonts.
    Python PyDF2 un pdftools R. Nez, joks jau tāds, ka šis brīnums ir tikai vienas konkrētas organizācijas ģenerētajiem PDFiem, ar pārējiem viss ir kedā. Ja tikai diakritiskās zīmes feilotu, tad domātu par latin extended.

    OCR softs laikam būtu šaušana ar lielgabalu pa zvirbuļiem

    Edit: papētīju "labos" PDF pret "sliktajiem", izskatās, ka potenciāli varētu būt problēma, ka viens fonts, kas parādās visos "sliktajos", nav embedded uz manas sistēmas. Pieļauju, ka browseris varētu būt pietiekami gudrs, lai backtrackotu uz kādu defaulto fontu, savukārt opensource mašīntooļiem tāds failsafe variants varētu nepastāvēt.

    Edit #2: bobiksonam, yes, skripting kods ar libu

    50% kāju, 50% tehnikas.

  7. #7

    Default

    Nu vispār jau ir failsafe. Tikai tik cik nepareizais defaultais.
    Visu jau smuki var dabūt. https://gist.github.com/tiarno/8a2995e70cee42f01e79

    Browserim jau ir sava implementācija uz to visu.
    gordo.lv - grāmatvedības pakalpojumi

  8. #8

    Default

    pameegjini viewerii/browserii select tekstu un peisto notepadaa.

    pastaav variants ka embedots fonts ir kur chari neatbilst vizuaalajam. alja 'a' burta vietaa ziimeejaas 'S' un tekstaa fiziski 'S' vietaa ir 'a'.
    Attieciigi readeris redz 'a' bet uz ekraana drukaajaas 'S' jo fontaa taa uztaisiits
    ja taads variants tad tikai ocr tevi izglaabs

  9. #9
    filozofologofīlfobs mrlobber's Avatar
    Join Date
    16-01-06
    Posts
    6,732
    Rep Power
    244

    Default

    Quote Originally Posted by vdl View Post
    pameegjini viewerii/browserii select tekstu un peisto notepadaa.
    Šajā variantā notepadā arī pa taisno ķeburi, to jau sākumā izmēģināju

    50% kāju, 50% tehnikas.

  10. #10

    Default

    tad tas fontu gadiijums ir
    nekas tevi neglaabs jo man liekaas nav iisti veida kaa sho mappingu atrast
    ocrs var paliidzeet bet man liekaas ka mappings randomaa ir katram docam savs

Thread Information

Users Browsing this Thread

There are currently 1 users browsing this thread. (0 members and 1 guests)

Posting Permissions

  • You may not post new threads
  • You may not post replies
  • You may not post attachments
  • You may not edit your posts
  •