Optika signorekono
El Vikipedio
Optika signorekono (OSR) aŭ tekstorekono aŭ optika karaktra rekono (angla, internacia mallongigo OCR post Optical Character Recognition) estas nocio el la IT-areo kaj kiu priskribas al aŭtomatan tekstorekonon de presita dokumento.
Originale ĝi estis evoluita al aŭtomata tekstorekono de diversaj skribotipoj, kiuj estis uzataj en ĉekoj. Tiuj skribotipoj estis tiel formitaj, ke la rekoniloj povis ilin - sen grava kalkula bezono – deĉifri, dividi inter ili. Tiel la skribotipo OSR-A estas uzata por tre diversaj signoj, OCR-B por pli similaj signotipoj, kaj OCR-H por manskriboj.
La kreskantaj povumoj de la moderna komputilo kaj la pliboniĝantaj algoritmoj permesas ankaŭ la rekonon de "normalaj" presitaj signoj ĝis la manskriboj (tiu lasta gravas ekz. ĉe leterodistribuo en la poŝto).
La moderna tekstorekono entenas la rekonon de la diversaj litertipoj kaj grandoj kaj tiel certigas la preskaŭ plej originalfidan reaperigon.
Enhavo |
[redaktu] Proceso
La elirpunkto estas bildo (rastruma bildo), kiu estas farita el dokumento per skanilo, cifereca fotilo aŭ videokamerao. La signorekono okazas en tri ŝtupoj:
- Paĝo kaj formata rekono: La bildaj datenoj estas dividitaj je grava areo (teksto, bildosubskriboj) kaj je negrava areo (figuraĵoj, blankaj partoj, linioj).
- modela rekono: La pikselmodelo de la teksta aero estas komparata kun modeloj en la datenbanko kaj okazas kruda ciferecigo.
- Erarokorekto: La kruda ciferecigo estas komparita kun vortoj de la programa vortaro kaj eble korektita laŭ lingvistikaj kaj statistikaj spertoj. Multaj programoj proponas propran korektadon.
Finfine okazas kodigo de la eldona aranĝo (ekz. ASCII) kiel tekstodateno, kaj aspekta aranĝo (ekz. kiel HTML aŭ PDF).
La kvalito de la signorekono dependas de multaj faktoroj kiaj:
- Kvalito de la aspektorekono
- Amplekso kaj kvalito de la model-datenbanko
- Amplekso kaj kvalito de la vortaro
- Kvalito de la algoritmoj por la erarkorekturo
- Koloreco, kontrasto, strukturo kaj litertipo de la originala dokumento
- Diserigo kaj kvalito de la bildaj datenoj
Dum la pura modelrekono estas atingita 80 % (ĉiu kvina signo estas fuŝe rekonita), la bonaj programoj celas danke al povumaj algoritmoj ĝis 99 % de senerareco. (ekz. OmniPage Pro 12 Office rekonas eĉ la Esperantajn literojn hu kaj en)
[redaktu] Uzo
- Reakiro de tekstoinformoj el bildaj datenoj, por pluprilabori la tekston aŭ igi ĝin traserĉebla.
- Rekono de gravaj signoj (ekz. poŝta kodo, kontrakta numero, faktura numero) al mekanika aŭ elektronika distribuo de la skribaĵoj.
- Rekono de signoj por registri aŭ spuri objektojn (ekz. aŭtonumeroj)
[redaktu] Tipoj
- Recognita plus (2.0-5.0)
- OmniPage
Legu: lingvorekono, irisrekono, ECM-komponentoj