OCR program Tesseract |
Kdo má koupenou licenci pro FineReader nebo jiný fungující OCR program, může jej nadále používat. Mně už licencované programy přestaly fungovat. Proto jsem hledal náhradu. Vyzkoušel jsem Google Dokumenty, které převádějí obrázky a "mrtvé PDF" na textový soubor. Výsledný text na napsán různým písmem a tak jsem text ukládal do prostého textu. |
|
BasicCAT | Když jsem zpracoval 24.1.2021 BasicCAT - první dojmy Tak jsem na druhé stránce viděl položku PDF2TXT. | |
Pokud má soubor TXT velikost 3B, znamená to, že neobsahuje žádný text ale pouze obrázky. |
Text z PDF hromadně extrahuji pomocí programu Balabolka nebo jednotlivě otevřu PDF v programu Sumatra a uložím jako TXT.
|
|
Jsem uživatel MS Windows | v minulých letech jsem viděl odkazy na Tesseract pro uživatele Linuxu. Příklady níže. | |
Tesseract-ocr-traineddata-czech
Download for Linux (rpm) |
https://pkgs.org/download/tesseract-ocr-traineddata-czech
Download tesseract-ocr-traineddata-czech linux packages for openSUSE |
|
Grafické rozhraní pro OCR Tesseract Graphical |
https://dspace.tul.cz/bitstream/handle/15240/49192/V_03213_Mb.pdf?sequence=-1&isAllowed=y
autor: J Beneš · 2013 — Tesseract OCR k vytváření tréninkových dat nebo k rozpoznávání textu. |
|
Google a Wikipedia |
https://en.wikipedia.org/wiki/Tesseract_(software) |
|