Privacy Policy Cookie Policy Terms and Conditions Optical Character Recognition - Wikipedia

Optical Character Recognition

OCR staat voor Optical Character Recognition, of in goed Nederlands: optische tekenherkenning. Het is een transformatie waarbij uit een afbeelding van een tekst door middel van patroonherkenning een tekstbestand wordt gemaakt door een computer(programma).

Meestal wordt een scanner gebruikt om een afbeelding van papier naar de computer te sturen. De afbeelding wordt met een resolutie van 200-400 dpi (meestal in zwart-wit) geanalyseerd op herkenbare tekens, waarbij de taal en soms ook het font en de opmaak weer als digitale tekst terugkeert.

Door OCR'en neemt een A4-pagina met tekst nog maar een paar kilobyte aan geheugenopslag in en is dan weer bewerkbaar in een tekstverwerker.

Inhoud

[bewerk] Herkennen van gedrukte tekst

Er zijn verschillende fases die doorlopen worden om tekst te herkennen:

  • Controle van de oriëntatie, staat de tekst op z'n kant of op de kop, dan moet de afbeelding eerst geroteerd worden. Ook als de zaak scheef staat is er soms een mogelijkheid om dit min of meer recht te zetten. Deze functie heet vaak in het Engels skew of de-skew, rechte lijnen lopen dan weer recht in plaats van scheef naar boven of onder.
  • Controle van kolommen. Een normale brief bestaat over het algemeen uit één kolom of tekstblok. Een krant daarentegen heeft meerdere kolommen. Een OCR-programma kan dit vaak automatisch herkennen. De volgorde van de tekstblokken en/of kolommen is meestal ook te wijzigen door een soort rangorde met '123' op de bewerkingsknoppen.
  • Tekst en plaatjes scheiden. De tekst wordt afgezonderd van de rest, waarbij het formaat van de plaatjes veelal in .BMP of .JPG (vroeger .PCX) wordt weggezet.

Bij professioneel OCR'en kan de herkenning ook nog numeriek of alfa-numeriek gezet worden, zodat dus alleen cijfers of cijfers+letters worden herkend. Vooral numeriek is prettig als veel boekhoud-informatie in bepaalde velden ge-ocr-ed moet worden.

  • Karakterherkenning. De letters worden stuk voor stuk geanalyseerd op welk teken is het, welk lettertype, grootte, enz. en dan vergeleken met voorbeelden van letters waarover het programma beschikt. Soms kan een OCR-programma nieuwe voorbeelden toevoegen (de zogenaamde training-optie), zodat later dezelfde soort letter weer herkend wordt. Vaak worden er ook regels toegepast die beschrijven hoe de taal per lands-aard is opgebouwd.
  • Controle van de woorden met een bibliotheek (library) van alle bestaande woorden, de zogenoemde spellingcontrole. Helaas is bij OCR de beginletter vaak de discutabele letter (denk aan geef, beef, leef, zeef, teef, weef, heeft, enz.) Bij eenvoudige OCR-programma's wordt de woordenlijst (taalafhankelijk!) vaak weggelaten, wat aanzienlijk in tijd en opslagcapaciteit van de harde schijven kan schelen. Intelligente spellcheckers hebben de eigenschap om tijdens het werken ermee alsmaar te groeien in omvang, wat te beperken is door per categorie of onderwerp (medisch, technisch, historisch, e.d.) verschillende woordenlijsten aan te leggen.
  • Exporteren. Tot slot kan het resultaat opgeslagen worden. Daarbij kan vaak gekozen worden in welk formaat en in welke mate de oorspronkelijke opmaak gereconstrueerd moet worden. Zo zal een tekstbestand een andere uitvoer opleveren dan een spreadsheet of PDF-file.

[bewerk] Handschriftherkenning

Wordt met OCR het herkennen van gedrukte tekst bedoeld, handschriftherkenning wordt ook ICR genoemd. ICR staat voor Intelligent Character Recognition. Handschriftherkenning is vele malen ingewikkelder dan het herkennen van gedrukte tekst, vanwege de grote variatie in schrijfwijzen.

Toch wordt deze techniek veel en succesvol ingezet voor het herkennen van handgeschreven teksten op met name formulieren. Doordat de tekst daar op vaste plaatsen staat en ook vaak een specifieke betekenis heeft, b.v. postcode, registratienummer, adres, getal, etc. is er door de softwaresystemen toch een goede herkenbaarheid.

Sinds het einde van de 80'er jaren zijn de eerste commerciële toepassingen beschikbaar gekomen. In de loop der jaren zijn deze sterk verbeterd. Vanaf ongeveer 2000 zijn er ook bruikbare programma's die worden gebruikt in kleine computers (handheld computer of PDA) waar een toetsenbord ontbreekt. Sinds kort zijn er ook pennen op de markt, waarmee je kunt schrijven op papier en daarna op de pc de geschreven tekst omzetten naar getypte tekst.

Toepassingen van handschriftherkenning zijn bijvoorbeeld de sorteercentrales van de posterijen, formulierherkenning (bijvoorbeeld belastingformulieren), enquêteverwerking, schadeformulieren bij verzekeringen, etc.

[bewerk] OMR

Naast OCR en ICR bestaat er ook nog OMR (Optical Mark Recognition), dit is een vergelijkbare technologie welke echter gespecialiseerd is in de herkenning van aangevinkte vakjes en zwart gemaakte rondjes (voor toepassingen zoals de Citotoets). Typisch voor deze techniek is over het algemeen het gebruik van formulieren die gedrukt zijn in een bepaalde kleur die bij het scannen wegvalt. Alleen de markeringen blijven dan over waardoor ze nog gemakkelijker door de software herkend kunnen worden.

[bewerk] ITR

Naast OCR, OMR en ICR bestaat er ook nog ITR, Intelligent Textual Recognition. Dit is een programma dat op het internet op zoek gaat naar sites over een bepaald, vooraf ingegeven, onderwerp en hiervan dan een samenvatting maakt.

[bewerk] Digitaliseren

Er is op internet een groeiende club enthousiaste mensen, die middels scannen en OCR de zogenoemde e-books of digitale boeken voor het project Gutenberg maakt. Daarbij gaat het vaak om werken waar geen auteursrecht meer voor geldt, dus oudere literatuur. Ook genealogie- ofwel stamboomenthousiastelingen maken graag van deze techniek gebruik om oude gemeentelijke archieven te digitaliseren.

[bewerk] Zie ook

 
THIS WEB:

aa - ab - af - ak - als - am - an - ang - ar - arc - as - ast - av - ay - az - ba - bar - bat_smg - be - bg - bh - bi - bm - bn - bo - bpy - br - bs - bug - bxr - ca - cbk_zam - cdo - ce - ceb - ch - cho - chr - chy - closed_zh_tw - co - cr - cs - csb - cu - cv - cy - da - de - diq - dv - dz - ee - el - eml - en - eo - es - et - eu - fa - ff - fi - fiu_vro - fj - fo - fr - frp - fur - fy - ga - gd - gl - glk - gn - got - gu - gv - ha - haw - he - hi - ho - hr - hsb - ht - hu - hy - hz - ia - id - ie - ig - ii - ik - ilo - io - is - it - iu - ja - jbo - jv - ka - kg - ki - kj - kk - kl - km - kn - ko - kr - ks - ksh - ku - kv - kw - ky - la - lad - lb - lbe - lg - li - lij - lmo - ln - lo - lt - lv - map_bms - mg - mh - mi - mk - ml - mn - mo - mr - ms - mt - mus - my - mzn - na - nah - nap - nds - nds_nl - ne - new - ng - nl - nn - no - nov - nrm - nv - ny - oc - om - or - os - pa - pag - pam - pap - pdc - pi - pih - pl - pms - ps - pt - qu - rm - rmy - rn - ro - roa_rup - roa_tara - ru - ru_sib - rw - sa - sc - scn - sco - sd - se - searchcom - sg - sh - si - simple - sk - sl - sm - sn - so - sq - sr - ss - st - su - sv - sw - ta - te - test - tet - tg - th - ti - tk - tl - tlh - tn - to - tokipona - tpi - tr - ts - tt - tum - tw - ty - udm - ug - uk - ur - uz - ve - vec - vi - vls - vo - wa - war - wo - wuu - xal - xh - yi - yo - za - zea - zh - zh_classical - zh_min_nan - zh_yue - zu

Static Wikipedia 2008 (no images)

aa - ab - af - ak - als - am - an - ang - ar - arc - as - ast - av - ay - az - ba - bar - bat_smg - bcl - be - be_x_old - bg - bh - bi - bm - bn - bo - bpy - br - bs - bug - bxr - ca - cbk_zam - cdo - ce - ceb - ch - cho - chr - chy - co - cr - crh - cs - csb - cu - cv - cy - da - de - diq - dsb - dv - dz - ee - el - eml - en - eo - es - et - eu - ext - fa - ff - fi - fiu_vro - fj - fo - fr - frp - fur - fy - ga - gan - gd - gl - glk - gn - got - gu - gv - ha - hak - haw - he - hi - hif - ho - hr - hsb - ht - hu - hy - hz - ia - id - ie - ig - ii - ik - ilo - io - is - it - iu - ja - jbo - jv - ka - kaa - kab - kg - ki - kj - kk - kl - km - kn - ko - kr - ks - ksh - ku - kv - kw - ky - la - lad - lb - lbe - lg - li - lij - lmo - ln - lo - lt - lv - map_bms - mdf - mg - mh - mi - mk - ml - mn - mo - mr - mt - mus - my - myv - mzn - na - nah - nap - nds - nds_nl - ne - new - ng - nl - nn - no - nov - nrm - nv - ny - oc - om - or - os - pa - pag - pam - pap - pdc - pi - pih - pl - pms - ps - pt - qu - quality - rm - rmy - rn - ro - roa_rup - roa_tara - ru - rw - sa - sah - sc - scn - sco - sd - se - sg - sh - si - simple - sk - sl - sm - sn - so - sr - srn - ss - st - stq - su - sv - sw - szl - ta - te - tet - tg - th - ti - tk - tl - tlh - tn - to - tpi - tr - ts - tt - tum - tw - ty - udm - ug - uk - ur - uz - ve - vec - vi - vls - vo - wa - war - wo - wuu - xal - xh - yi - yo - za - zea - zh - zh_classical - zh_min_nan - zh_yue - zu -

Static Wikipedia 2007:

aa - ab - af - ak - als - am - an - ang - ar - arc - as - ast - av - ay - az - ba - bar - bat_smg - be - bg - bh - bi - bm - bn - bo - bpy - br - bs - bug - bxr - ca - cbk_zam - cdo - ce - ceb - ch - cho - chr - chy - closed_zh_tw - co - cr - cs - csb - cu - cv - cy - da - de - diq - dv - dz - ee - el - eml - en - eo - es - et - eu - fa - ff - fi - fiu_vro - fj - fo - fr - frp - fur - fy - ga - gd - gl - glk - gn - got - gu - gv - ha - haw - he - hi - ho - hr - hsb - ht - hu - hy - hz - ia - id - ie - ig - ii - ik - ilo - io - is - it - iu - ja - jbo - jv - ka - kg - ki - kj - kk - kl - km - kn - ko - kr - ks - ksh - ku - kv - kw - ky - la - lad - lb - lbe - lg - li - lij - lmo - ln - lo - lt - lv - map_bms - mg - mh - mi - mk - ml - mn - mo - mr - ms - mt - mus - my - mzn - na - nah - nap - nds - nds_nl - ne - new - ng - nl - nn - no - nov - nrm - nv - ny - oc - om - or - os - pa - pag - pam - pap - pdc - pi - pih - pl - pms - ps - pt - qu - rm - rmy - rn - ro - roa_rup - roa_tara - ru - ru_sib - rw - sa - sc - scn - sco - sd - se - searchcom - sg - sh - si - simple - sk - sl - sm - sn - so - sq - sr - ss - st - su - sv - sw - ta - te - test - tet - tg - th - ti - tk - tl - tlh - tn - to - tokipona - tpi - tr - ts - tt - tum - tw - ty - udm - ug - uk - ur - uz - ve - vec - vi - vls - vo - wa - war - wo - wuu - xal - xh - yi - yo - za - zea - zh - zh_classical - zh_min_nan - zh_yue - zu

Static Wikipedia 2006:

aa - ab - af - ak - als - am - an - ang - ar - arc - as - ast - av - ay - az - ba - bar - bat_smg - be - bg - bh - bi - bm - bn - bo - bpy - br - bs - bug - bxr - ca - cbk_zam - cdo - ce - ceb - ch - cho - chr - chy - closed_zh_tw - co - cr - cs - csb - cu - cv - cy - da - de - diq - dv - dz - ee - el - eml - en - eo - es - et - eu - fa - ff - fi - fiu_vro - fj - fo - fr - frp - fur - fy - ga - gd - gl - glk - gn - got - gu - gv - ha - haw - he - hi - ho - hr - hsb - ht - hu - hy - hz - ia - id - ie - ig - ii - ik - ilo - io - is - it - iu - ja - jbo - jv - ka - kg - ki - kj - kk - kl - km - kn - ko - kr - ks - ksh - ku - kv - kw - ky - la - lad - lb - lbe - lg - li - lij - lmo - ln - lo - lt - lv - map_bms - mg - mh - mi - mk - ml - mn - mo - mr - ms - mt - mus - my - mzn - na - nah - nap - nds - nds_nl - ne - new - ng - nl - nn - no - nov - nrm - nv - ny - oc - om - or - os - pa - pag - pam - pap - pdc - pi - pih - pl - pms - ps - pt - qu - rm - rmy - rn - ro - roa_rup - roa_tara - ru - ru_sib - rw - sa - sc - scn - sco - sd - se - searchcom - sg - sh - si - simple - sk - sl - sm - sn - so - sq - sr - ss - st - su - sv - sw - ta - te - test - tet - tg - th - ti - tk - tl - tlh - tn - to - tokipona - tpi - tr - ts - tt - tum - tw - ty - udm - ug - uk - ur - uz - ve - vec - vi - vls - vo - wa - war - wo - wuu - xal - xh - yi - yo - za - zea - zh - zh_classical - zh_min_nan - zh_yue - zu