Převod obrázků na text

		Tesseract-OCR

01	Převod obrázků na text

OCR program Tesseract		Kdo má koupenou licenci pro *FineReader* nebo jiný fungující OCR program, může jej nadále používat. Mně už licencované programy přestaly fungovat. Proto jsem hledal náhradu. Vyzkoušel jsem Google Dokumenty, které převádějí obrázky a "mrtvé PDF" na textový soubor. Výsledný text na napsán různým písmem a tak jsem text ukládal do prostého textu.

BasicCAT		Když jsem zpracoval 24.1.2021 BasicCAT - první dojmy http://www.condak.cz/nove/2021-01/24/cs/02.html Tak jsem na druhé stránce viděl položku PDF2TXT.

Pokud má soubor TXT velikost 3B, znamená to, že neobsahuje žádný text ale pouze obrázky.		Text z PDF hromadně extrahuji pomocí programu Balabolka nebo jednotlivě otevřu PDF v programu Sumatra a uložím jako TXT.

Jsem uživatel MS Windows		v minulých letech jsem viděl odkazy na Tesseract pro uživatele Linuxu. Příklady níže.

Tesseract-ocr-traineddata-czech Download for Linux (rpm)		https://pkgs.org/download/tesseract-ocr-traineddata-czech Download tesseract-ocr-traineddata-czech linux packages for openSUSE

Grafické rozhraní pro OCR Tesseract Graphical		https://dspace.tul.cz/bitstream/handle/15240/49192/V_03213_Mb.pdf?sequence=-1&isAllowed=y autor: J Beneš · 2013 — Tesseract OCR k vytváření tréninkových dat nebo k rozpoznávání textu.

Google a Wikipedia software je možno stáhnout z GitHubu data pro češtinu mají kód ces		https://en.wikipedia.org/wiki/Tesseract_(software)