Převod souboru PDF

		Tesseract-OCR

04	Převod souboru PDF

PDF bez textu obsahuje naskenované neořezané obrázky (s černým okrajem). Náhled na stranu 4.

Strana 4 před ořezáním a po ořezání.

Z JPG vytvořil Tesseract TXT.

Složky pro zpracování PDF konverze PDF do JPG ořezání černý okrajů v JPG TXT po OCR vytvoření jednoho souboru z 37 textových souborů

Když nakopíruji textové soubory do souboru DOCX, jsou na konci řádků znaky konce odstavce. Řádů je hodně neměl jsem odvahu znaky hromadně odstavit. Na konci řádků jsou i rozdělená slova.