First/první Previous/předcházející Home Next/další Last/poslední

      Tesseract-OCR
 01  Převod obrázků na text





OCR program Tesseract   Kdo má koupenou licenci pro FineReader nebo jiný fungující OCR program, může jej nadále používat.
Mně už licencované programy přestaly fungovat. Proto jsem hledal náhradu.

Vyzkoušel jsem Google Dokumenty, které převádějí obrázky a "mrtvé PDF" na textový soubor. Výsledný text na napsán různým písmem a tak jsem text ukládal do prostého textu.



BasicCAT   Když jsem zpracoval 24.1.2021 BasicCAT - první dojmy

http://www.condak.cz/nove/2021-01/24/cs/02.html

Tak jsem na druhé stránce viděl položku PDF2TXT.




Pokud má soubor TXT velikost 3B, znamená to, že neobsahuje žádný text ale pouze obrázky.   Text z PDF hromadně extrahuji pomocí programu Balabolka nebo jednotlivě otevřu PDF v programu Sumatra a uložím jako TXT.




Jsem uživatel MS Windows   v minulých letech jsem viděl odkazy na Tesseract pro uživatele Linuxu. Příklady níže.



Tesseract-ocr-traineddata-czech

Download for Linux (rpm)
  https://pkgs.org/download/tesseract-ocr-traineddata-czech

Download tesseract-ocr-traineddata-czech linux packages for openSUSE



Grafické rozhraní
pro OCR Tesseract Graphical
  https://dspace.tul.cz/bitstream/handle/15240/49192/V_03213_Mb.pdf?sequence=-1&isAllowed=y

autor: J Beneš · 2013 — Tesseract OCR k vytváření tréninkových dat nebo k rozpoznávání textu.



Google a Wikipedia

  • software je možno stáhnout z GitHubu
  • data pro češtinu mají kód ces
  •  

    https://en.wikipedia.org/wiki/Tesseract_(software)






     



     

    First/první Previous/předcházející Články / Articles Next/další Last/poslední

    Copyright Ing. Milan Čondák 14.03.2021