Privacy Policy Cookie Policy Terms and Conditions Reconocimiento del texto - Wikipedia, la enciclopedia libre

Reconocimiento del texto

De Wikipedia, la enciclopedia libre

http://www.mundosciberneticos.com.ar/articuloOCR.php

Imagen:Merge-arrows.svg
Se ha sugerido que este artículo o sección sea fusionado con OCR. (Discusión).
Icono puzzle

Este artículo o sección necesita ser wikificado con un formato adecuado a las convenciones de estilo de Wikipedia.
Por favor, edítalo para cumplir con ellas. No elimines este aviso hasta que lo hayas hecho. ¡Colabora wikificando!


Algunas de las consideraciones a la hora de reconocer textos. Programas de reconocimiento de textos:

 -ventajas 
 -desventajas 

¿Para qué reconocer un texto?

La ventaja de reconocer un texto luego de escanear un archivo es la reducción del tamaño de éste, lo que nos permite contar con libros enteros con poco peso, los que guardados como archivos de imagen nos ocuparían un tamaño enorme en el disco rígido. Hacer el reconocimiento de un texto no es tan sencillo como debiera. Hay muchos programas disponibles, pero ninguno resulta aplicable en todos los casos, y, cuando los originales no son buenos, insume un trabajo laborioso. También es conveniente aclarar que la nota se refiere a la utilización de un escáner de calidad media y para tareas sencillas. Para quienes no han comenzado todavía a trabajar con reconocimiento de textos : en cualquier programa, el proceso de reconocimiento de un texto tiene varias etapas:

1. Escanéo del texto, para lo cual es conveniente predigitalizar la imagen y controlar las opciones de contraste e intensidad propias de cada escáner.

2. Reconocimiento del texto : en algunos programas se obtiene una pantalla por duplicado: un archivo de imagen y uno de texto, lo cual permite guardar independientemente uno u otro.

3. Corrección del texto reconocido y aplicación de formatos de estilo. Cuando los originales son textos con buena calidad de impresión, sin imágenes y escritos a una sola columna, algunos programas tienen una opción de reconocimiento instantáneo, muy rápida pues no hay que predigitalizar ya que el ajuste del escáner es automático. Una característica común a todos los programas, es que deben escanearse textos e imágenes con una resolución de 400 , ni mayor, pues aparecerá una ventana que nos indica que no puede ser reconocido con esa resolución, ni menor, pues corremos el riesgo de que el texto reconocido tenga muchos errores.

Programas que muestran ventajas y desventajas a la hora de reconocer textos:

A. OCR Recognita Standard: es un programa muy pequeño y simple. Su gran ventaja es que presenta dos opciones inmediatamente después del escaneo: reconocerlo de inmediato, o sólo guardar la imagen ( lo cual ahorra mucho tiempo si tenemos que devolver el original) como archivo de imaging, el cual permite después abrir este archivo de imagen para ser reconocido por cualquier otro programa de reconocimiento de texto. Su desventaja es que requiere una cierta calidad de impresión en el texto a reconocer.

B. OCR Text Bridge Classic : es un programa bastante bueno. Su ventaja es que permite seleccionar la calidad y tipología del texto a reconocer (revista, fax, periódico, texto en una o varias columnas). Otra ventaja es que permite el reconocimiento del texto en forma automática o manual, esto último es muy útil en el caso de títulos en columnas, o textos en columnas demasiado juntas, como las de los diarios, que el reconocimiento común detecta como una línea única, con la consiguiente mezcla del texto reconocido. Su desventaja es que no tiene la opción de guardar la imagen, sino que hay que reconocer el texto inmediatamente. Sin embargo, puede reconocer archivos de imagen guardados en imaging de windows (documento tiff), escaneados con otros programas de OCR que sí permitan guardar la imagen del texto. Este programa tiene una opción de reconocimiento rápido cuando los originales son de excelente calidad y preferiblemente escritos en una o dos columnas, sin gráficos.

C. Cuneiform 99 : Como el Recognita, luego del escaneo presenta una doble pantalla :el texto y la imagen del texto a reconocer, lo que nos da la posibilidad de guardar la imagen del texto sin necesidad de reconocerlo. También permite reconocer otros archivos de imagen que hemos guardado en imaging. Su mayor ventaja es que también puede reconocer archivos .jpg, que podemos haber escaneado previamente en cualquier programa de diseño como corel draw o adobe photoshop, siempre y cuando hayamos tenido la precaución de escanearlo con una resolución de 400 ppp, ( por ejemplo en le caso de imágenes con texto rodeando ésta, o entremezclado con la imagen). Otra de sus ventajas es que permite exportarlo a word manteniendo el formato de columnas del texto ( los textos quedarán insertados en cuadros de texto, lo cual nos permite después cambiar la diagramación en word).

Es conveniente utilizar este programa cuando se deben escanear tablas, pues las reconoce manteniendo su formato, lo que no hacen los dos programas anteriormente citados. También se puede potar por el reconocimiento rápido, para el caso en que sólo se haya guardado la imagen del texto para reconocerlo en otra oportunidad. Además puede bajarse gratis de internet. Podría decirse que su única desventaja es que el reconocimiento del texto no permite ser realizado manualmente indicándole el orden en que debe efectuarlo, lo cual es una dificultad cuando hay muchas tipologías de texto y columnas, con gráficos insertados, ya que no podemos indicarle el orden en que debe reconocer el texto escaneado.

En síntesis, antes de seleccionar el programa a utilizar, es conveniente analizar una serie de factores:§ La calidad de impresión del texto a reconocer. Reconocer una buena impresión, se hará con cualquier programa, pero la cosa cambia si el fondo es de color, si está manchado o rayado. § Si tiene gráficos insertados.§ Si tenemos que reconocer textos dentro de tablas.§ Si el fondo de la impresión está rayado, texturado o amarillento .§ Si hay columnas muy próximas ( el caso de revistas y periódicos) En la realidad, todos éstos se dan combinados, por lo cual nunca un programa es el que puede utilizarse en todos los casos.o Si la calidad es excelente o muy buena, sin gráficos y en una o dos columnas:se ahorrará tiempo utilizando la opción de reconocimiento rápido de OCR Text bridge classic ( Action manager) o Si la calidad es regular, con columnas muy cercanas ( el caso de periódicos), lo que más conviene es utilizar un programa que permita guardar la imagen del texto ( recognita standard o cuneiform), para posteriormente hacer el reconocimiento de texto con cuneiform o text bridge.

Si el texto impreso es de mala calidad, tendremos buenos resultados haciendo el reconocimiento con text bridge.o Si hay tablas insertadas lograremos los mejores resultados con Cuneiform. Si los originales son malos ( fotocopias muy borrosas, o textos escritos en papel de calco), es mejor no intentar el reconocimiento, pues sería inútil: s mejor transcribir el texto o conseguir un programa como el Vía Voice de IBM, que es realmente muy bueno y con el cual ustedes podrán dictarle a la computadora el texto.

THIS WEB:

aa - ab - af - ak - als - am - an - ang - ar - arc - as - ast - av - ay - az - ba - bar - bat_smg - be - bg - bh - bi - bm - bn - bo - bpy - br - bs - bug - bxr - ca - cbk_zam - cdo - ce - ceb - ch - cho - chr - chy - closed_zh_tw - co - cr - cs - csb - cu - cv - cy - da - de - diq - dv - dz - ee - el - eml - en - eo - es - et - eu - fa - ff - fi - fiu_vro - fj - fo - fr - frp - fur - fy - ga - gd - gl - glk - gn - got - gu - gv - ha - haw - he - hi - ho - hr - hsb - ht - hu - hy - hz - ia - id - ie - ig - ii - ik - ilo - io - is - it - iu - ja - jbo - jv - ka - kg - ki - kj - kk - kl - km - kn - ko - kr - ks - ksh - ku - kv - kw - ky - la - lad - lb - lbe - lg - li - lij - lmo - ln - lo - lt - lv - map_bms - mg - mh - mi - mk - ml - mn - mo - mr - ms - mt - mus - my - mzn - na - nah - nap - nds - nds_nl - ne - new - ng - nl - nn - no - nov - nrm - nv - ny - oc - om - or - os - pa - pag - pam - pap - pdc - pi - pih - pl - pms - ps - pt - qu - rm - rmy - rn - ro - roa_rup - roa_tara - ru - ru_sib - rw - sa - sc - scn - sco - sd - se - searchcom - sg - sh - si - simple - sk - sl - sm - sn - so - sq - sr - ss - st - su - sv - sw - ta - te - test - tet - tg - th - ti - tk - tl - tlh - tn - to - tokipona - tpi - tr - ts - tt - tum - tw - ty - udm - ug - uk - ur - uz - ve - vec - vi - vls - vo - wa - war - wo - wuu - xal - xh - yi - yo - za - zea - zh - zh_classical - zh_min_nan - zh_yue - zu

Static Wikipedia 2008 (no images)

aa - ab - af - ak - als - am - an - ang - ar - arc - as - ast - av - ay - az - ba - bar - bat_smg - bcl - be - be_x_old - bg - bh - bi - bm - bn - bo - bpy - br - bs - bug - bxr - ca - cbk_zam - cdo - ce - ceb - ch - cho - chr - chy - co - cr - crh - cs - csb - cu - cv - cy - da - de - diq - dsb - dv - dz - ee - el - eml - en - eo - es - et - eu - ext - fa - ff - fi - fiu_vro - fj - fo - fr - frp - fur - fy - ga - gan - gd - gl - glk - gn - got - gu - gv - ha - hak - haw - he - hi - hif - ho - hr - hsb - ht - hu - hy - hz - ia - id - ie - ig - ii - ik - ilo - io - is - it - iu - ja - jbo - jv - ka - kaa - kab - kg - ki - kj - kk - kl - km - kn - ko - kr - ks - ksh - ku - kv - kw - ky - la - lad - lb - lbe - lg - li - lij - lmo - ln - lo - lt - lv - map_bms - mdf - mg - mh - mi - mk - ml - mn - mo - mr - mt - mus - my - myv - mzn - na - nah - nap - nds - nds_nl - ne - new - ng - nl - nn - no - nov - nrm - nv - ny - oc - om - or - os - pa - pag - pam - pap - pdc - pi - pih - pl - pms - ps - pt - qu - quality - rm - rmy - rn - ro - roa_rup - roa_tara - ru - rw - sa - sah - sc - scn - sco - sd - se - sg - sh - si - simple - sk - sl - sm - sn - so - sr - srn - ss - st - stq - su - sv - sw - szl - ta - te - tet - tg - th - ti - tk - tl - tlh - tn - to - tpi - tr - ts - tt - tum - tw - ty - udm - ug - uk - ur - uz - ve - vec - vi - vls - vo - wa - war - wo - wuu - xal - xh - yi - yo - za - zea - zh - zh_classical - zh_min_nan - zh_yue - zu -

Static Wikipedia 2007:

aa - ab - af - ak - als - am - an - ang - ar - arc - as - ast - av - ay - az - ba - bar - bat_smg - be - bg - bh - bi - bm - bn - bo - bpy - br - bs - bug - bxr - ca - cbk_zam - cdo - ce - ceb - ch - cho - chr - chy - closed_zh_tw - co - cr - cs - csb - cu - cv - cy - da - de - diq - dv - dz - ee - el - eml - en - eo - es - et - eu - fa - ff - fi - fiu_vro - fj - fo - fr - frp - fur - fy - ga - gd - gl - glk - gn - got - gu - gv - ha - haw - he - hi - ho - hr - hsb - ht - hu - hy - hz - ia - id - ie - ig - ii - ik - ilo - io - is - it - iu - ja - jbo - jv - ka - kg - ki - kj - kk - kl - km - kn - ko - kr - ks - ksh - ku - kv - kw - ky - la - lad - lb - lbe - lg - li - lij - lmo - ln - lo - lt - lv - map_bms - mg - mh - mi - mk - ml - mn - mo - mr - ms - mt - mus - my - mzn - na - nah - nap - nds - nds_nl - ne - new - ng - nl - nn - no - nov - nrm - nv - ny - oc - om - or - os - pa - pag - pam - pap - pdc - pi - pih - pl - pms - ps - pt - qu - rm - rmy - rn - ro - roa_rup - roa_tara - ru - ru_sib - rw - sa - sc - scn - sco - sd - se - searchcom - sg - sh - si - simple - sk - sl - sm - sn - so - sq - sr - ss - st - su - sv - sw - ta - te - test - tet - tg - th - ti - tk - tl - tlh - tn - to - tokipona - tpi - tr - ts - tt - tum - tw - ty - udm - ug - uk - ur - uz - ve - vec - vi - vls - vo - wa - war - wo - wuu - xal - xh - yi - yo - za - zea - zh - zh_classical - zh_min_nan - zh_yue - zu

Static Wikipedia 2006:

aa - ab - af - ak - als - am - an - ang - ar - arc - as - ast - av - ay - az - ba - bar - bat_smg - be - bg - bh - bi - bm - bn - bo - bpy - br - bs - bug - bxr - ca - cbk_zam - cdo - ce - ceb - ch - cho - chr - chy - closed_zh_tw - co - cr - cs - csb - cu - cv - cy - da - de - diq - dv - dz - ee - el - eml - en - eo - es - et - eu - fa - ff - fi - fiu_vro - fj - fo - fr - frp - fur - fy - ga - gd - gl - glk - gn - got - gu - gv - ha - haw - he - hi - ho - hr - hsb - ht - hu - hy - hz - ia - id - ie - ig - ii - ik - ilo - io - is - it - iu - ja - jbo - jv - ka - kg - ki - kj - kk - kl - km - kn - ko - kr - ks - ksh - ku - kv - kw - ky - la - lad - lb - lbe - lg - li - lij - lmo - ln - lo - lt - lv - map_bms - mg - mh - mi - mk - ml - mn - mo - mr - ms - mt - mus - my - mzn - na - nah - nap - nds - nds_nl - ne - new - ng - nl - nn - no - nov - nrm - nv - ny - oc - om - or - os - pa - pag - pam - pap - pdc - pi - pih - pl - pms - ps - pt - qu - rm - rmy - rn - ro - roa_rup - roa_tara - ru - ru_sib - rw - sa - sc - scn - sco - sd - se - searchcom - sg - sh - si - simple - sk - sl - sm - sn - so - sq - sr - ss - st - su - sv - sw - ta - te - test - tet - tg - th - ti - tk - tl - tlh - tn - to - tokipona - tpi - tr - ts - tt - tum - tw - ty - udm - ug - uk - ur - uz - ve - vec - vi - vls - vo - wa - war - wo - wuu - xal - xh - yi - yo - za - zea - zh - zh_classical - zh_min_nan - zh_yue - zu