ocr

4
Que exactamente significa OCR? Reconocimiento Óptico de Caracteres, o OCR, es una tecnología que le permite convertir diferentes tipos de documentos, tales como documentos en papel escaneados, PDF archivos o imágenes captadas por una cámara digital en datos con opción de búsqueda y funcionalidad de editar. Imagina que Ud. tiene documento en papel – por ejemplo, un artículo de revista, un folleto, o un contrato en PDF cual su socio le envió a Ud. por email. Obviamente, un escáner no será suficiente para hacer así que Ud. pueda editar esa información, digamos, en Microsoft Word. Todo lo que puede hacer un escáner es crear una imagen o una instantánea de documento que es nada más que una colección de puntos negros y blancos o color, conocida como imagen de trama. Con fines de extraer y reusar los datos de los documentos escaneados, imágenes de cámara o de PDFs, necesita un software de OCR que va a separar las letras de la imagen, ponerlas en palabras y después las palabras en frases, lo que le permite tener acceso y editar el contenido de documento original. El Reconocimiento Óptico de Caracteres (ROC), o generalmente como reconocimiento de caracteres, es un proceso dirigido a la digitalización de textos, los cuales identifican automáticamente a partir de una imagen símbolos o caracteres que pertenecen a un determinado alfabeto, para luego almacenarlos en forma de datos, así podremos interactuar con estos mediante un programa de edición de texto o similar. Con frecuencia es abreviado en textos escritos en el idioma español, utilizando el acrónimo a partir del inglés OCR.

Upload: ely-condori

Post on 20-Nov-2015

3 views

Category:

Documents


0 download

DESCRIPTION

DFASDFASDFASDFASFASFACVBCVB

TRANSCRIPT

Que exactamente significa OCR? Reconocimiento ptico de Caracteres, o OCR, es una tecnologa que le permite convertir diferentes tipos de documentos, tales como documentos en papel escaneados, PDF archivos o imgenes captadas por una cmara digital en datos con opcin de bsqueda y funcionalidad de editar. Imagina que Ud. tiene documento en papel por ejemplo, un artculo de revista, un folleto, o un contrato en PDF cual su socio le envi a Ud. por email. Obviamente, un escner no ser suficiente para hacer as que Ud. pueda editar esa informacin, digamos, en Microsoft Word. Todo lo que puede hacer un escner es crear una imagen o una instantnea de documento que es nada ms que una coleccin de puntos negros y blancos o color, conocida como imagen de trama. Con fines de extraer y reusar los datos de los documentos escaneados, imgenes de cmara o de PDFs, necesita un software de OCR que va a separar las letras de la imagen, ponerlas en palabras y despus las palabras en frases, lo que le permite tener acceso y editar el contenido de documento original.

El Reconocimiento ptico de Caracteres (ROC), o generalmente como reconocimiento de caracteres, es un proceso dirigido a la digitalizacin de textos, los cuales identifican automticamente a partir de una imagen smbolos o caracteres que pertenecen a un determinado alfabeto, para luego almacenarlos en forma de datos, as podremos interactuar con estos mediante un programa de edicin de texto o similar. Con frecuencia es abreviado en textos escritos en el idioma espaol, utilizando el acrnimo a partir del ingls OCR.En los ltimos aos la digitalizacin de la informacin (textos, imgenes, sonido, etc ) ha devenido un punto de inters para la sociedad. En el caso concreto de los textos, existen y se generan continuamente grandes cantidades de informacin escrita, tipogrfica o manuscrita en todo tipo de soportes. En este contexto, poder automatizar la introduccin de caracteres evitando la entrada por teclado, implica un importante ahorro de recursos humanos y un aumento de la productividad, al mismo tiempo que se mantiene, o hasta se mejora, la calidad de muchos servicios.AplicacionesDesde la aparicin de los algoritmos de Reconocimiento ptico de Caracteres han sido muchos los servicios que han introducido estos procesos para aumentar su rendimiento y otros que se basan completamente en estas tecnologas. A continuacin se muestran algunas de las ms destacables aplicaciones que utilizan el ROC.Reconocimiento de texto manuscritoLas dificultades que podemos encontrar a la hora de reconocer un texto tipografiado, no se pueden comparar con las que aparecen cuando queremos reconocer un texto manuscrito.El reconocimiento de un texto manuscrito contina siendo un desafo. Aunque el texto se compone bsicamente de caracteres individuales, la mayora de algoritmos ROC no consiguen buenos resultados, ya que la segmentacin de texto continuo es un procedimiento complejo.En el caso de reconocimiento de escritura manuscrita a la hora de correccin de exmenes, existe la posibilidad, aadiendo un listado de lxico (nombres y apellidos) de acercarse al 100% de acierto. A travs de las casillas de respuesta ICR se pueden reconocer palabras, como nombres de pases, nombres de regiones, marcas comerciales, en resumen, todo aquello que pueda ser integrado en una lista de palabras Lexico- este puede ir aumentndose segn necesidades.Por otro lado, se puede llegar a comprender una frase cuando la hemos terminado de leer. Esto implica una operacin de niveles morfolgicos, lxico y sintctico que se consigue mediante el reconocimiento del habla continua. Para llevar a cabo esa metodologa, se utilizan algoritmos robustos que utilizan una segmentacin previa, debido a que se obtiene automticamente con la descodificacin.Reconocimiento de matrculasUna de las aplicaciones son los radares. Estos deben ser capaces de localizar una matrcula de un vehculo con condiciones de iluminacin, perspectiva y entorno variables.En la etapa de segmentacin, se buscan texturas similares a la de una matrcula y se asla el rea rectangular que forma la matrcula.Finalmente, se aplica un proceso de clasificacin mltiple sobre el conjunto de pxeles pertenecientes a la matrcula, proporcionando una cadena de caracteres que se tienen que ajustar a un modelo conocido: el formato de una matrcula. Si aparece algn error, es corregido.Indexacin en bases de datosCon el gran aumento de informacin publicada que ha tenido lugar en los ltimos aos, cada vez son ms los mtodos que se utilizan para organizar todo este material almacenado en bases de datos. Uno de estos contenidos son las imgenes. Una de las formas ms corrientes de buscar imgenes es a partir de metadato introducidos manualmente por los usuarios. Actualmente han aparecido buscadores que proporcionan la posibilidad de buscar imgenes mediante el texto que aparecen en ellas, como el buscador DIRS(Document Image Retrieval System) que, mediante un algoritmo de Reconocimiento ptico de Caracteres, extrae el texto que aparece en la imagen y lo utiliza como metadato que podr ser utilizado en las bsquedas. Esta tecnologa proporciona una posibilidad en la bsqueda de imgenes y demuestra que el ROC an puede dar mucho de s.Reconocimiento de datos estructurados con ROC ZonalSe usa para digitalizar de forma masiva grandes cantidades de documentos estructurados o semiestructurados (facturas, nminas, albaranes, plizas, justificantes bancarios, etc.), catalogando automticamente los documentos con los metadatos obtenidos y archivndolos en formato digital de forma indexada para facilitar su posterior bsqueda. Tiene el inconveniente de que es necesario disear previamente las plantillas, pero con una buena configuracin se ahorra mucho tiempo en el proceso de digitalizacin.