PDF bez textu obsahuje naskenované neořezané obrázky (s černým okrajem). Náhled na stranu 4. | ||
Strana 4 před ořezáním a po ořezání. | ||
Z JPG vytvořil Tesseract TXT. | ||
Složky pro zpracování PDF
| ||
Když nakopíruji textové soubory do souboru DOCX, jsou na konci řádků znaky konce odstavce. Řádů je hodně neměl jsem odvahu znaky hromadně odstavit. Na konci řádků jsou i rozdělená slova. |