sk-spell

podpora slovenčiny v Open Source programoch

OCR

posledná zmena: 13. júl 2009

Podpora slovenčiny v (niektorých) programoch na rozoznávanie znakov (Optical Character Recognition)

Tesseract

Systém Tesseract OCR na rozoznávanie textu bol vyvíjaný v HP Labs v období od 1985 do 1995. HP ho komerčne nikdy nenasadil a neskôr (v roku 2005 ?) ho uvoľnil ako Open Source. Aktuálne je vývoj sponzorovaný spoločnosťou Google. Tesseract je pravdepodobne najpresnejší dostupný Open Source systém na rozoznávanie textu.

Ako grafické rozhranie pre Tesseract je možné použiť program gscan2pdf, ktorý okrem naskenovania dokumentu, umožňuje aj úpravy (otočenie, vyčistenie stránky) pred rozoznávaním textu.

Obmedzenia

Kvalita rozoznávania textu výrazne klesá, ak veľkosť písma je menšia ako 10 bodov a ak obrázok s textom má menej ako 300 DPI.

Aktuálne Tesseract ako vstupný formát vie použiť len nekomprimovaný tiff bez alfa kanálu.

Tesseract nevie robiť analýzu dokumentu t.j. neporadí si so stránkou, kde je obrázok alebo ak text je v dvoch a viac stĺpcoch. Za účelom analýzy dokumentu vznikol projekt OCRopus, ktorého cieľom je urobiť automatickú analýzu dokumentu a Tesseract používa (ako zásuvný modul) na prevod jednotlivých častí dokumentu na text.

Analýzu dokumentu je aktuálne možné urobiť manuálne v programe lector, ktorý vie výsledok poskytnúť vo formáte rtf.

Pomocné programy pre trénovanie slovníkov

V prípade, že by ste sa chceli pustiť do vylepšovania slovníka, skúste sa so mnou skontaktovať, nech si dohodneme postup.

Zoznam ďalších Open Source OCR programov a informácií

Ak poznáte ďalšie Open Source programy, dajte mi prosím vedieť.

licencia dát

Dáta sú vydané pod licenciami GPLv2, LGPLv2.1, MPLv1.1 a Apache License 2.0. Anglické znenia licencií nájdete na http://www.opensource.org/licenses, a preklad na www.gnu.sk a www.gnu.cz

download

informácie/zmeny

13.07.2009 — Vydaná nová verzia (tesseract-2.00.slk-0.2.tar.gz) podpory slovenčiny v Tesseract (2.00-2.04). Označenie balíka bolo prispôsobené ostatným jazykovým balíkom, 3 miestny kód jazyka bol zmenený podľa iso kódu. Vylepšené bolo rozoznávanie textu vytvoreného za pomoci písma „Times“.

12.07.2009 — Doplnenie informácie o programe gscan2pdf.

23.08.2008 — Úvodné vydanie podpory pre slovenčinu v Tesseract OCR engine

kontakt

zdposter (zavináč) gmail.com

© projekt sk-spell

RSS [opensource] [w3c] [firefox] [textpattern]