reconocimiento de caracteres manuscritos reconocimiento de caracteres kanji antonio blasco lópez...

27
Reconocimiento De Caracteres Manuscritos Reconocimiento de caracteres Kanji Antonio Blasco López Francisco Félez Esteban

Upload: estefania-cortes-martinez

Post on 24-Jan-2016

234 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Reconocimiento De Caracteres Manuscritos Reconocimiento de caracteres Kanji Antonio Blasco López Francisco Félez Esteban

Reconocimiento De Caracteres Manuscritos

Reconocimiento de caracteres Kanji

Antonio Blasco López

Francisco Félez Esteban

Page 2: Reconocimiento De Caracteres Manuscritos Reconocimiento de caracteres Kanji Antonio Blasco López Francisco Félez Esteban

Indice

1. Introducción al reconocimiento de caracteres manuscritos.

2. Reconocimiento de caracteres Kanji.

3. Aplicación experimental.

Page 3: Reconocimiento De Caracteres Manuscritos Reconocimiento de caracteres Kanji Antonio Blasco López Francisco Félez Esteban

Introducción al reconocimiento de caracteres manuscritos

Definición: Conjunto de técnicas informáticas cuyo objetivo es reconstituir los caracteres de un documento a partir de su propia imagen.

En la actualidad esta disciplina científica no sólo engloba la reconstrucción de caracteres, sino la estructuración de los documentos(títulos, subtítulos, bloques de texto, etc..)

Page 4: Reconocimiento De Caracteres Manuscritos Reconocimiento de caracteres Kanji Antonio Blasco López Francisco Félez Esteban

Introducción al reconocimiento de caracteres manuscritos

Comenzó aplicándose en documentos para los cuales ninguna forma electrónica estaba disponible.

A medida que evoluciona la tecnología, sus aplicaciones han ido en aumento.

Los resultados obtenidos hasta ahora distan mucho de ser perfectos. El reconocimiento de caracteres sigue siendo un problema complejo que tropieza con dificultades aún no resueltas y que son actualmente aún objeto de numerosas investigaciones.

Page 5: Reconocimiento De Caracteres Manuscritos Reconocimiento de caracteres Kanji Antonio Blasco López Francisco Félez Esteban

Introducción al reconocimiento de caracteres manuscritos

Varios factores son la causa de estas dificultades:

• Ausencia de un objetivo universal. Los resultados dependen mucho de la aplicación.

• Son técnicas por lo general costosas.

• Muchas son las causas que pueden provocar que los resultados no sean los correctos. Por ejemplo:

- resolución insuficiente de la imagen.

- introducción óptica de mala calidad.

- documento deteriorado.

Page 6: Reconocimiento De Caracteres Manuscritos Reconocimiento de caracteres Kanji Antonio Blasco López Francisco Félez Esteban

Introducción al reconocimiento de caracteres manuscritos

En general, los sistemas de reconocimiento de documentos y, por lo tanto, de caracteres comprende las siguientes etapas:

1- Adquisición de la imagen mediante escáneres y cámaras.

2- Pretratamiento (Binarización, Filtrado, Rectificación).

3- Segmentación: delimitar las regiones de interés de la imagen.

4- Reconocimiento de caracteres. La etapa sin duda de mayor dedicación.

Page 7: Reconocimiento De Caracteres Manuscritos Reconocimiento de caracteres Kanji Antonio Blasco López Francisco Félez Esteban

Introducción al reconocimiento de caracteres manuscritos

5- Reconocimiento de fuentes.

6- Vectorización: transformar las características de la imagen en una línea poligonal o curvilínea.

7- Reconocimiento de gráficos (si es que los hay).

8- Reconocimiento estructural: determinar la organización lógica de las entidades elementales o compuestas.

9- Clasificación de documentos: ser capaz de distinguir el tipo de documento reconocido.

Page 8: Reconocimiento De Caracteres Manuscritos Reconocimiento de caracteres Kanji Antonio Blasco López Francisco Félez Esteban

Introducción al reconocimiento de caracteres manuscritos

En particular, en la etapa de reconocimiento de caracteres se divide en dos sub-etapas:

1- Extracción de características:

- Permite conocer medidas (tamaño, perímetro, centro de gravedad, momentos..).

- Características topológicas(orientación de segmentos, número de agujeros, número de extremidades,etc..).

Page 9: Reconocimiento De Caracteres Manuscritos Reconocimiento de caracteres Kanji Antonio Blasco López Francisco Félez Esteban

Introducción al reconocimiento de caracteres manuscritos

2- Etapa de decisión: Tres técnicas destacan sobre las demás:

1- Redes neuronales (capacidad de aprendizaje).

2- Cadenas Ocultas de Markov. Estudios y algoritmos probabilísticos.

3- Voto mayoritario. Combinación de diferentes estrategias. Se escogerá la clase con mayor número de clasificaciones. Es la técnica que mejores resultados ofrece.

Page 10: Reconocimiento De Caracteres Manuscritos Reconocimiento de caracteres Kanji Antonio Blasco López Francisco Félez Esteban

Introducción al reconocimiento de caracteres manuscritos

La mayoría de los tratamientos requieren para su buen funcionamiento una contribución de información del contexto, dependiente del tipo del documento analizado. Esta información se proporciona por los llamados modelos de documentos.Varias etapas del reconocimiento requieren esta clase de conocimientos: un reconocedor de caracteres utilizará por ejemplo una base de datos de caracteres de referencia o diccionarios lingüísticos; el reconocimiento de fuentes necesitará una base de conocimiento de las características de las fuentes en cuestión.

Page 11: Reconocimiento De Caracteres Manuscritos Reconocimiento de caracteres Kanji Antonio Blasco López Francisco Félez Esteban

Indice

1. Introducción al reconocimiento de caracteres manuscritos.

2. Reconocimiento de caracteres Kanji.

3. Aplicación experimental.

Page 12: Reconocimiento De Caracteres Manuscritos Reconocimiento de caracteres Kanji Antonio Blasco López Francisco Félez Esteban

Reconocimiento de caracteres Kanji

Metodología para el reconocimiento de caracteres.

Propuesta por Toru Wakahara y Yoshimasa Kimura.

En principio está estudiada para el reconocimiento de caracteres Kanji, aunque puede ser aplicable a los caracteres occidentales.

Page 13: Reconocimiento De Caracteres Manuscritos Reconocimiento de caracteres Kanji Antonio Blasco López Francisco Félez Esteban

Reconocimiento de caracteres Kanji

Este reconocimiento ofrece un método de normalización adaptativo y basado en la normalización de los patrones de entrada mediante las transformaciones GAT y LAT.

Los patrones de entrada pueden estar escalados, rotados, desplazados, ruidosos, etc.. Es por esto por lo que la normalización adquiere tanta importancia.

El proceso de reconocimiento requiere de las siguientes fases:

Page 14: Reconocimiento De Caracteres Manuscritos Reconocimiento de caracteres Kanji Antonio Blasco López Francisco Félez Esteban

Caracteres manuscritos

Captura de los datos

Preprocesamiento

Extracción de características y clasificación

Normalización por GAT & LAT

Resultados del reconocimiento

Page 15: Reconocimiento De Caracteres Manuscritos Reconocimiento de caracteres Kanji Antonio Blasco López Francisco Félez Esteban

Reconocimiento de caracteres Kanji

Captura de los datos

Para la captura de los datos lo más común es usar un escáner óptico o una cámara digital.

Los datos resultantes son representados por píxeles.

Page 16: Reconocimiento De Caracteres Manuscritos Reconocimiento de caracteres Kanji Antonio Blasco López Francisco Félez Esteban

Reconocimiento de caracteres Kanji

Preprocesamiento

El preprocesamiento a realizar incluye los siguientes aspectos:

• Reducción de ruido

• Paso a escala de grises

• Binarización

Tras esto, los píxeles sólo podrán tener dos valores: 0- negro y 1- blanco. Los píxeles negros los llamaremos puntos.

Page 17: Reconocimiento De Caracteres Manuscritos Reconocimiento de caracteres Kanji Antonio Blasco López Francisco Félez Esteban

Reconocimiento de caracteres Kanji

Extracción de características y clasificación

• Guardaremos en un vector las coordenadas de los puntos de la imagen de entrada.

• Para cada uno de los patrones de referencia tendremos un vector que también contendrá las coordenadas de los píxeles negros.

Page 18: Reconocimiento De Caracteres Manuscritos Reconocimiento de caracteres Kanji Antonio Blasco López Francisco Félez Esteban

Reconocimiento de caracteres Kanji

Normalización por GAT & LAT

• En primer lugar, la transformación GAT(Global Affine Transformation) escala el patrón de entrada y lo compara con cada uno de los patrones de referencia.

• En segundo lugar, la transformación LAT(Local Affine Transformation) realiza una reforma local sobre cada punto del patrón de entrada.

Page 19: Reconocimiento De Caracteres Manuscritos Reconocimiento de caracteres Kanji Antonio Blasco López Francisco Félez Esteban

Reconocimiento de caracteres Kanji GAT (I)

• En primer lugar, recorreremos la imagen almacenando los puntos (pixeles negros) en un vector donde almacenamos las coordenadas X e Y.

S = {s1, s2, ..., si, ...,sm}

• Todos los patrones de referencia también tendrán su vector de puntos.

R = {r1, r2, ..., ri, ...,sn}

Page 20: Reconocimiento De Caracteres Manuscritos Reconocimiento de caracteres Kanji Antonio Blasco López Francisco Félez Esteban

Reconocimiento de caracteres Kanji GAT (II)

• Debemos normalizar el vector del patrón de entrada antes de compararlo con los patrones de referencia. Para cada punto se hará la siguiente transformación:

si * = Asi + b donde AA es una matriz 2X2 que representa la rotación y el

cambio de escala, y bb es un vector que representa a la traslación. Denotaremos el patrón normalizado como:

misS i 1,**

Page 21: Reconocimiento De Caracteres Manuscritos Reconocimiento de caracteres Kanji Antonio Blasco López Francisco Félez Esteban

Reconocimiento de caracteres Kanji GAT (III)

• Para el cálculo de la matriz AA y del vector bb necesitaremos del cálculo de tres coeficientes intermedios:

22 1121

jii j

iji

jrsmin

nrsmin

mD

DrsminrsD jk

kjiij /)(exp)(

22

DrsminrsD kik

jiij /)(exp)(22

Page 22: Reconocimiento De Caracteres Manuscritos Reconocimiento de caracteres Kanji Antonio Blasco López Francisco Félez Esteban

Reconocimiento de caracteres Kanji GAT (IV)

• Conocidos estos coeficientes aplicaremos el siguiente sistema de ecuaciones lineales:

donde ρi,j(D) µi,j(D)/m + νj,i(D)/n.

i j

Tjiiij rbAssD )()(

00

00

i j

jiij rbAsD ))((0,0

Page 23: Reconocimiento De Caracteres Manuscritos Reconocimiento de caracteres Kanji Antonio Blasco López Francisco Félez Esteban

Reconocimiento de caracteres Kanji GAT (V)

• Aplicamos los resultados del sistema de ecuaciones para hallar las coordenadas del vector S* (s*= AAsi+ bb). Ahora comparamos dicho vector con el patrón de referencia, extrayendo el valor DNN :

2*2* 1121

jii j

iji

jNN rsmin

nrsmin

mD

Page 24: Reconocimiento De Caracteres Manuscritos Reconocimiento de caracteres Kanji Antonio Blasco López Francisco Félez Esteban

Reconocimiento de caracteres Kanji GAT (VI)

• Compararemos el vector S* con cada uno de los patrones de entrada R y aquel patrón cuyo DNN sea el menor será el modelo elegido.

Patrón de entrada Patrones de referencia Resultado obtenido

Page 25: Reconocimiento De Caracteres Manuscritos Reconocimiento de caracteres Kanji Antonio Blasco López Francisco Félez Esteban

Reconocimiento de caracteres Kanji

Consideraciones

• Alto nivel computacional:

– Número elevado de píxeles negros

– Número elevado de patrones de referencia

• Gran importancia de los sistemas de ecuaciones lineales dentro del procesamiento de imágenes.

• No sólo válido para caracteres orientales sino para cualquier tipo de reconocimiento de caracteres.

Page 26: Reconocimiento De Caracteres Manuscritos Reconocimiento de caracteres Kanji Antonio Blasco López Francisco Félez Esteban

Reconocimiento de caracteres Kanji

Resultados experimentales

• Es más eficaz para caracteres japoneses(Kanji). Depende del grado de complejidad de los patrones de entrada, pero suele acertar en un 90%.

• En el caso de caracteres occidentales, los resultados son algo peores (80%-90%).

Page 27: Reconocimiento De Caracteres Manuscritos Reconocimiento de caracteres Kanji Antonio Blasco López Francisco Félez Esteban

Indice

1. Introducción al reconocimiento de caracteres manuscritos.

2. Reconocimiento de caracteres Kanji.

3. Aplicación experimental.