sk-spell

podpora slovenčiny v Open Source programoch

OCR

posledná zmena: 3. October 2010

Podpora slovenčiny v (niektorých) programoch na rozoznávanie znakov (Optical Character Recognition)

Tesseract

Systém Tesseract OCR na rozoznávanie textu bol vyvíjaný v HP Labs v období od 1985 do 1995. HP ho komerčne nikdy nenasadil a neskôr (v roku 2005 ?) ho uvoľnil ako Open Source. Tesseract je pravdepodobne najpresnejší dostupný Open Source systém na rozoznávanie textu.

Spoločnosť Google aktívne software interne vyvíja a z času na čas urobí aktualizáciu kódu, ktorý je voľne dostupný pod licenciou Apache License, Version 2.0. Tá umožňuje, aby Tesseract bol použitý v komerčných projektoch bez nutnosti zverejnenia zmien/úprav/zdrojového kódu.

Tesseract je dostupný pre Linux, Windows a Mac OS X. Dostupné sú informácie o jeho používaní začlenení na platforme Android a iPhone.

tesseract 3.00 obsahuje aj jazykový modul pre slovenčinu (od Google) avšak nie sú k nemu dostupné dáta (box&tiff), na ktorých bol modul trénovaný (takéto dáta bolo zverejnené pre jazykové moduly vo verzii 2.0x), a preto nie je možné pokračovať v ich vylepšovaní (napr. slovníky, ktorý zvyšujú kvalitu OCR je bez problémov možné spraviť väčšie). Pokiaľ by ste mali záujem sa podieľať na vytvorení otvorených dát pre slovenčinu (napr. ako vznikli pre poľštinu ale indické jazyky), dajte mi vedieť na zdposter zavináč gmail.com.

Pokiaľ by niekto bol ochotný vylepšiť úroveň anglického jazyka na stránke sk-spell.sk.cx: tesseract-ocr-en, nech ozve na uvedený e-mail.

Obmedzenia

Kvalita rozoznávania textu výrazne klesá, ak veľkosť písma je menšia ako 10 bodov a ak obrázok s textom má menej ako 300 DPI.

Primárne Tesseract vstupný formát používal nekomprimovaný tiff bez alfa kanálu, ale s prechodom na knižnicu leptonica bola rozšírená podpora aj o ďalšie formáty (napr. png, jpeg, bmp, prípadne aj gif a ps)

Tesseract cez knižnicu leptonica vie robiť základnú analýzu dokumentu. Za účelom analýzy dokumentu je však asi vhodnejšie špecializovaný projekt OCRopus, ktorého cieľom je urobiť automatickú analýzu dokumentu (tesseract používa ako zásuvný modul na prevod jednotlivých častí dokumentu na text).

Analýzu dokumentu je aktuálne možné urobiť aj manuálne v programe lector, ktorý vie výsledok poskytnúť vo formáte rtf.

Tu je zoznam niektorých opensource programov, ktoré využívajú tesseract:

Pomocné programy pre trénovanie slovníkov

bbtesseract – boxeditor pre windows
tesseractTrainer.py – pythonovský skript s GUI v QT na tréning slovníkov, vhodný pre linux.

Zoznam ďalších Open Source OCR programov a informácií

CUNEIFORM V.12 (cuneiform-linux) – ruský konkurent pre ABBYY FineReader
gocr – GNU GPL systém pre rozoznávanie textu
GNU Ocrad – GNU GPL systém pre rozoznávanie textu
Clara OCR – GNU GPL systém pre rozoznávanie textu
kooka aplikácia pokrývajúca celý proces od skenovania po ukladanie a spracovanie obrázkov/textu

linux a OCR stránka v angličtine

Ak poznáte ďalšie Open Source programy, dajte mi prosím vedieť.

licencia dát

Pokiaľ nie je uvedené inak, tak dáta sú vydané pod licenciami GPLv2, LGPLv2.1, MPLv1.1 a Apache License 2.0. Anglické znenia licencií nájdete na http://www.opensource.org/licenses, a preklad na www.gnu.sk a www.gnu.cz

download

tesseract-3.00.slk-0.3.tar.gz [4006 kB] (stiahnuté: 2312x)
tesseract-2.00.slk-0.2.tar.gz [6347 kB] (stiahnuté: 1826x)
tesseract-slovak-0.1.tar.gz [6193 kB] (stiahnuté: 1429x)

Číslo za ‘tesseract’ označuje, pre ktorú verziu programu boli dáta vytvorené. Číslo za ‘slk’ označuje číslo verzie trénovaných dát.

tesseract-ocr-r319.tar.gz – (licencia Apache License 2.0) sú zdrojové kódy tesseract 3.00 stiahnuté zo svn, revízia 319 s jazykovými dátami iba pre anglický jazyk.
V súbore tesseract-3.00.slk-orig.tar.gz (licencia Apache License 2.0) sú originálne jazykové dáta pre Slovenčinu, ktoré boli v svn, revízia 319.
V súbore tesseract-3.00.slk-0.3.tar.gz sú jazykové dáta, ktoré vznikli konverziou z jazykových dát vytvorených pre tesseract.

informácie/zmeny

30.09.2010 — Oficiálne vydanie tesseract 3.00 s podporou slovenčiny.

07.05.2010 — doplnené informácie o tesseract 3.00

21.04.2010 — doplnené dáta pre tesseract 3.00

13.07.2009 — Vydaná nová verzia (tesseract-2.00.slk-0.2.tar.gz) podpory slovenčiny v Tesseract (2.00-2.04). Označenie balíka bolo prispôsobené ostatným jazykovým balíkom, 3 miestny kód jazyka bol zmenený podľa iso kódu. Vylepšené bolo rozoznávanie textu vytvoreného za pomoci písma „Times“.

12.07.2009 — Doplnenie informácie o programe gscan2pdf.

23.08.2008 — Úvodné vydanie podpory pre slovenčinu v Tesseract OCR engine

kontakt

zdposter (zavináč) gmail.com