reconocimiento de patrones

Reconocimiento de Patrones

Autores:José Luis Alba - Universidad de Vigo

Jesús Cid - Universidad Carlos III de Madrid

Ultima revisión: mayo de 2006

José Luis Alba - Universidad de Vigo; Jesús Cid - Universidad Carlos III 2

ÍndiceIntroducción

Esquema general del análisis de imágenesElementos del reconocimiento de patrones

PatronesPatrones vectorialesPatrones estructurados

Reconocimiento de patrones mediante funciones discriminantes

ElementosMínima distancia y Adaptación (Pattern Matching)Clasificadores estadísticamente óptimosRedes Neuronales Artificiales

PREPROCESADO(MEJORA-

RESTAURACIÓN)

ADQUISICIÓN DE LA IMAGEN

SEGMENTACIÓN

EXTRACCIÓN DE CARACTERÍSTICAS

RECONOCIMIENTO CLASIFICACIÓN

INTERPRETACIÓN

BASE DE CONOCIMIENTO

imagen

IntroducciónIntroducciónEsquema general del análisis de imágenes

Técnicas de bajo nivel Técnicas de alto nivel

Técnicas de nivel intermedio

PatronesTras los procesos de segmentación, extracción de características y descripción, cada objeto queda representado por una colección (posiblemente ordenada y estructurada) de descriptores, denominada patrón.En los problemas de reconocimiento, cada patrón se supone perteneciente a una categoría o clase, ciEl sistema de reconocimiento debe asignar cada objeto (de interés) a su categoría.

Reconocimiento o clasificación: proceso por el que se asigna una “etiqueta”, que representauna clase, a un patrón concreto.Clase: conjunto de entidades que comparten alguna característica que las diferencia de otras.Clase de rechazo: conjunto de entidades que no se pueden etiquetar como ninguna de lasclases del problemaExtractor de características: subsistema que extrae información relevante para la clasificacióna partir de las entidades cuantificablesClasificador: subsistema que utiliza un vector de características de la entidad cuantificable y lo asigna a una de M clasesEvaluación del error de clasificación: “error de clasificación”, “tasa de error empírica”, “tasade rechazo empírica”, “conjunto de datos independientes”.Falso rechazo (falso negativo) y falsa aceptación (faso positivo): para problemas de 2 clases estas definiciones reflejan la importancia de una decisión contra la opuesta. El sistema de clasificación se puede “sintonizar” para que trabaje ponderando un tipo de error sobre el otro

Elementos del reconocimiento de patrones

PatronesPatrones

Segmentador

Extracción +Descripción

Patrón

Reconocedor

Clase 1

Clase 2

Clase 1

Para el reconocimiento automático, es importante quePatrones que describen objetos de una misma clase, presenten características similares.Patrones que describen objetos de diferentes clases presenten características diferenciadas.

Tipos de patrones:Vectores: x = (x1, x2,…, xn)T

CadenasÁrboles

Patrones vectorialesEjemplo: Clasificación de tipos de Iris (flores).

Tres categoríasPatrones bidimensionales

Longitud del pétaloAnchura del pétalo

Los descriptores utilizados sirven para discriminar iris setosa de las otras dos, pero no para discriminar entre iris virginica e iris versicolor

http://www.et.ethz.ch/eTutorials/evim/dateien/u3/irisbilder.htm

Iris Setosa Iris Versicolor Iris Virginica

Patrones estructuradosCodifican relaciones (espaciales o de otro tipo) entre componentes del objeto o descriptores.Ejemplo:

Reconocimiento de huellas dactilaresLos algoritmos de reconocimiento suelen basarse en la detección de las minucias (minutiae), las cadenas (ridges) que forman, y su relación entre ellas

Imágenes tomadas de http://perso.wanadoo.fr/fingerchip/index.htm

Ejemplo:Imagen de satéliteDescripción en árbol

Cada rama codifica una relación “compuesto de”

Washington D.C. (centro urbano y zonas residenciales)

Reconocimiento mediante Reconocimiento mediante funciones discriminantesfunciones discriminantes

Elementos:Función discriminante, di(x):

Mide la relevancia de la clase cipara el patrón x.

Región de decisión, Ri:El conjunto de todos los puntos del espacio que el reconocedor asigna a la clase ci

Frontera de decisión:Separa regiones de decisión.

Decisor:Típicamente (aunque no siempre), seleccionan la clase de mayor (o menor) valor de la función discriminante di(x).

Análisis discriminante

PatrónDecisorx d

Aprendizaje:Conjunto de entrenamiento:

{x(k),c(k), k=1,…,K}

Conjunto de patrones etiquetados (cuya clase es conocida)

Algoritmo de entrenamiento:Es un conjunto de reglas de ajuste de los parámetros de las funciones discriminantes

di(x,wi)Conjunto de prueba (test)

Conjunto de patrones etiquetados NO utilizados durante el entrenamiento.Sirven para evaluar el rendimiento del clasificador.Generalización: capacidad para clasificar correctamente patrones no utilizados durante el entrenamiento.

Análisis discriminante

PatrónDecisorx d

Métodos (lista no exahustiva):Adaptación (Pattern Matching)

Representan cada clase mediante un patrón prototipo.Clasificador de mínima distanciaAdaptación por correlación

Clasificadores estadísticamente óptimosSe fundamentan en la Teoría de la Decisión Estadística

Clasificador bayesiano para clases gausianas

Redes neuronalesSe fundamentan en la teoría del aprendizaje estadístico

Perceptrón para dos clasesPerceptrón multicapa

Reconocimiento mediante funciones discriminantes

Clasificador de mínima distancia

Se caracteriza por las funciones discriminantes

siendo mi un patrón prototipo de la clase i.Asignan la muestra a la clase “más próxima”

Dado que

se puede prescindir del primer término, que no depende de la clase, de modo que las funciones discriminantes

son equivalentes a las anteriores.Las fronteras de decisión del clasificador de mínima distancia son de la forma

es decir,

que son hiperplanos

( ) 2iid mxx −=

( ) iTi

Tiid mmxmx +−= 2

( ) ( )xx ji dd =

( ) 02 =−+−− jTji

Tij mmmmxmm

( ){ }xiidd minarg=

( ) ( ) ( ) iTi

Tiid mmxmxxmxmxx +−=−−= 2

PrototipoEl prototipo mi que caracteriza a cada clase puede obtenerse mediante extracción de características sobre una imagen previamente etiquetada.También puede obtenerse a partir de una colección de patrones etiquetados:

siendo {xi,j} los patrones de la clase i del conjunto de entrenamiento.

ii N 1

http://www.et.ethz.ch/eTutorials/evim/dateien/u3/irisbilder.htm

Iris Setosa Iris Versicolor

Ejemplo: Reconocimiento de caracteres.Clases: Ck:{A,B,…,a,b,…0,1,2,…a,b,…a,b,…a,b,..a,b,…a,b,…}Clase de rechazo: Cr:{!,”,$,%,&,/,(,),=,?,¿,~,×…}Extractor de características:

3)dimensión de(vector masas de centro

cerrados) (contornos huecos denºperímetro

)y eje saltos de (suma |:),1()(:,|

x)eje saltos de (suma |:)1,-(n:),(|

columnas) las de sumay ejen (proyecció )(:,

filas) las de suma x ejen (proyecció :),(

binario vector oimagen )1360( ó )1820(

≡⎪⎭

⎪⎬

⎪⎩

⎪⎨

⎪⎩

⎪⎨

−−=

⎪⎩

⎪⎨

××≡

∑∑∑∑

El reconocedor de caracteres asigna el vector “v” a la claseque más se “parece”.Medidas de similitud:

distancia euclideadistancia de Hamming, distancia de Mahalanobis, correlación cruzada, etc a

v d(v, vc)

d(v, v9)

d(v, vb)

d(v, va)

Mínim

Clase Ck=“h”

Ventajas del clasificador de mínima distancia

SimplicidadFacilidad de ajuste

Inconvenientes:Sólo funciona cuando las clases forman nubes poco dispersas y bien separadas

Ejemplo: fuente de caracteres E-13B de la American Bankers Association, especialmente diseñada para facilitar el reconocimiento automático.La signatura refleja la derivada de la cantidad de negro en dirección vertical, al mover un scanner de izquierda a derechaEl muestreo en los puntos de la cuadrícula proporciona información con suficiente capacidad discriminante

Extensiones del clasificador de mínima distancia:

Permiten obtener fronteras de clasificación más complejas, y modelar categorías que no quedan adecuadamente representadas por su media.k-NN (Nearest Neighbour):

Cada clase, Ci, se caracteriza por una colección de prototipos, mijCada patrón, x, se asigna a la clase mayoritaria de los k prototipos más próximosSelección de prototipos:

Cada muestra de entrenamiento, un prototipo.Prototipos obtenidos mediante un algoritmo de agrupamiento (como el k-means –ver presentación de Análisis de imágenes-). 1-NN, 2 prototipos por clase

Adaptación por correlación

Los métodos de adaptación por correlación también se basan en la comparación de la imagen a clasificar con una o varias imágenes patrón que caracterizan a cada clase. Es equivalente al de mínima distancia si los patrones están normalizados:

Utilizan medidas de similitud basadas en correlaciones:

Correlación:

( ) ( ) ( )∑∑ ++=s t

tysxwtsfyxc ,,,

( ) ( ) xmxmmxmx Tiii

Tii dd =′⇒+−= 2

Coeficiente de correlación:Proporciona una medida invariante frente a cambios en la amplitud.

donde los promedios de w se calculan sobre todo el patrón (habitualmente más pequeño que la imagen), mientras que los de f se calculan sobre la región en torno al píxel del tamaño del patrón.

Otras normalizaciones (para obtener invarianzas respecto a cambios de escala u orientación) son posibles, pero a mayor complejidad

( )( ) ( )( ) ( )( )

( ) ( )( ) ( )( )2/1

⎥⎦

⎤⎢⎣

⎡−++⎥

⎤⎢⎣

⎡−

−++−=

∑∑∑∑

∑∑

s ts t

wtysxwtsftsf

wtysxwtsftsfyxc

Introducción:El mecanismo de generación de patrones se puede representar de forma probabilística:

Datos no disponibles: Prob. a priori Datos disponibles: Prob. a posteriori

Procesofísico

Sistema

sensorialClasificador de patrones

Extracción de características

Clase generada:CkC={C1 , C2 , ...Cn}

Objetoo suceso“medible”

vector de medidas: z

vector de características: x

clase asignada: C( )xP C( )=( Ck | x)x x=

Experimento

Clasificadores estadísticamente óptimos

Caracterización estadísticaLa teoría de la decisión parte del supuesto de que los patrones son realizaciones independientes de un modelo probabilístico p (c,x)=P (c |x) p (x)

En general, en los problemas de reconocimiento de patrones tenemos clases mutuamente exclusivas y colectivamente exhaustivas, es decir:

siendo C el número de clases.Elementos:

Los costescostes, Lij : coste de asignar a cj un patrón de la clase ci .El riesgo medio condicionalriesgo medio condicional de asignar un patrón a clase j :

( ) ( )∑=

kkkjj cPLr

Clasificador de mínimo riesgoSerá aquél basado en las reglas de decisión

aplicando la regla de Bayes

se obtiene la expresión alternativa

Clasificador de mínima probabilidad de errorSe obtiene dando idéntico valor a todos los errores: Lij = 1-δij

(que es la probabilidad de error)

(decisión MAP (máximo a posteriori), que selecciona la categoría más probable, dada la observación)

( ) ( )∑=

kkkjjjj

cPLri1

|minargminarg xx

( ) ( ) ( ) ( )xxxx |1||11

kkj cPcPcPr −=−= ∑∑

( ){ } ( ){ }xx |maxarg|1minarg jjjjcPcPi =−=

)()|()(

kcxkk p

cpcPcP k=

( ) ( )∑=

kkkkjj

cPcpLi1

|minarg x

Ejemplo: Reconocimiento de caracteres mediante un decisor MAP

h x Máxim

Clase ck=“h”

p(x|ca) x

p(x|cb)

p(x|c9)

Pr(ca)

Pr(cb)

Pr(c9)

Diseño del clasificador BayesianoEn la mayoría de las aplicaciones prácticas, no se conocen P(ck), p(x|ck) ni P(ck|x).En tal caso, deben estimarse a partir de un conjunto de entrenamiento.Se presentan dos alternativas:

Estimar P(ck|x), o bien Estimar P(ck) y p(x|ck)

P(ck): puede suponerse constante (categorías equiprobables) o estimarse como la proporción de observaciones etiquetadas y no etiquetadas.p(x|ck): hay muchos métodos. Los más sencillos suponen que las distribuciones son gausianas. La estimación se reduce a los parámetros de media y covarianzas.

Clasificador bayesiano para clases gausianasSe caracteriza por

siendo

p(x|c0)P(c0)L10 p(x|c1)P(c1)L01

Umbral de decisión

( ) ( )⎥⎦⎤

⎢⎣⎡ −−−= −

cp mxVmxV

x 12/1N/2i 2

1exp)(2

1)|(π

( )( ){ } ( )( )∑

−−≈−−=

mxmxmxmxV

Función discriminante: suele utilizarse el logaritmo:

Es una forma cuadrática para cada clase, con lo que la frontera de decisión será una cuadrática también.

Ej: P(c1)=0.6; P(c2)=0.4; V1 =[0.77 0;0 0.77]; V2 =[0.77 0;0 1.26]

( ) ( ) ( )( ) ( ) ( ) ( ) ( )( )

( ) ( ) ( )( )iiiT

cPNcPcpd

ln21ln

+−−−−≡

+−−−−−==

mxVmxV

mxVmxVxx π

Cuando las matrices de covarianzas de todas las clases coinciden (Vi=V) , el discriminante se reduce a:

y, por tanto, es una función discriminante linealSi, finalmente, las matrices son proporcionales a la identidad, resulta

que coincide con la función discriminante del clasificador de mínima distancia.

( ) ( )( )iiTi

Tii cPd ln

21 11 +−≡ −− mVmxVmx

( ) iTi

Tiid mmxmx

−≡

Las Imágenes multiespectrales codifican información en varias bandas, sensibles a diferentes longitudes de onda del espectro electromagnético.

Los clasificadores bayesianos se han mostrado efectivos para clasificación de terrenos en muchos tipos de imágenes

Ejemplo: clasificación de terrenos en imágenes multiespectrales.

Inconvenientes del modelo gausiano:Con frecuencia, no es realista (los datos no tienen una distribución gausiana)

Ejemplo: Diagrama de dispersión de las bandas 1 (azul) y 5 (infrarrojo cercano) de un conjunto de datos pertenecientes a una imagen Landsat (7 bandas) de las Ría de Vigo.

* → Rocao → Frondosas+ → Eucalipto● → Terreno Agrícola

Clasificador bayesiano para mezclas de gausianasModelo más general: x ∈Ck se asume con fdp compuesta por una mezcla de gausianas de medias μkl , covarianza Vkly factores de mezcla wl es decir:

La estimación ML de los parámetros wl , μkl y Σkl para cada clase se realiza de forma iterativa mediante un algoritmo conocido como Esperanza-Maximización (EM).El clasificador MAP responde a la expresión:

Las fronteras de decisión son superficies hipercuádricas a tramos

[ ]∑∑ =

=−−−==

l klklT

l klk wclpwcp1

2/12/1)()(exp

||)2(1),|()|( μxVμx

{ })|()(maxarg)( kkk

CxpCPxC =

Ejemplo:Clasificación de piel/no piel en un espacio de color bi-dimensional (sin información de luminancia), modelando cada clase como una mezcla de gausianas y estimando parámetros con el algoritmo EM:

Reconocimiento mediante funciones discriminantes Métodos basados en Teoría de la Decisión

Redes Neuronales ArtificialesBackgroundPerceptrón para dos clases

Algoritmos de entrenamientoClases separables linealmenteClases no separables linealmente

Motivación:El análisis previo pone de manifiesto que, para diseñar un clasificador estadísticamente óptimo a partir de un conjunto de datos de entrenamiento, pueden adoptarse tres estrategias:

Estimar P(ck|x)Estimar P(x|ck) y P(ck)Determinar una función discriminante que proporcione la frontera de decisión óptima.

El término “redes neuronales” engloba a un conjunto de técnicas que proporcionan soluciones flexibles (adaptables a cada problema) para cada una de estas estrategias.

Perceptron para dos clases

Implementa la función discriminante lineal:

Para un conjunto finito de muestras podemos hallar un vector de pesos apropiado buscando una solución de estas inecuaciones (para dos clases):

¿Cómo determinar los pesos? Algoritmo de entrenamiento: procedimiento recursivo que modifica el vector de pesos hasta que se cumplen las desigualdades:Iniciar aleatoriamente los pesosPresentar cada muestra al sistema de inecuaciones

Si bien clasificada no alterar pesosSi mal clasificada alterar los pesos de forma conveniente

( ) eTe

iii xwwxdz xw=+== ∑

≤≤>−

≤≤>+

Algoritmos de entrenamiento Clases separables linealmente

Regla del Regla del PerceptrónPerceptrón:

Si no hay error, no hay cambioSi hay error, w(k+1)T x(k) cambia en el sentido de corregir el error.

Teorema de entrenamiento del perceptrón:

Si las clases son linealmente separables, la regla del perceptrón converge a una solución de cero errores en un número finito de pasos.

( ) [ ] ( ) }1;1{,;10 2

)()()()()()(1 −=<<−+=+ kkkkkkk odconod αα xww

t=1t=2

t=4t=10

Clases no separables linealmenteEn este caso, la regla del perceptrón no se detiene.Soluciones:

Discriminantes no lineales, pero lineales en los parámetros:

permiten obtener fronteras no lineales que obtengan soluciones de cero errores perceptrón multicapaVariantes heurísticas, como el algoritmo del lgoritmo del BolsilloBolsillo, que conserva en una memoria aparte (bolsillo) los pesos que han dado lugar a la secuencia de pasos de entrenamiento libre de errores más larga

Inconvenientes de la Regla del Perceptrón:Mala generalización:

aunque el problema sea intrínsecamente separable (para el clasificador usado), el algoritmo puede colocar la frontera en una posición inadecuada

x( ) ∑∑==

iii xwxwwxdz

El ADALINE (“ADAptive LInear NEuron”)Tiene la misma arquitectura del Perceptrón, pero se entrena mediante un algoritmo de gradiente:

siendo J(we) una función de coste. La más habitual es el error cuadrático:

En la versión estocástica (el algoritmo de Widrow-Hoff) se aplica el gradiente sobre una sola muestra, resultando

Puede demostrarse que, para α suficientemente pequeño, la regla del ADALINE converge (aunque no necesariamente a una solución de mínimo numero de errores).

[ ] ( )10 )()()()()1( <<−+=+ αα ke

ke zd xww

( ))()()1( ke

ke J www w∇−=+ α

( ) ( ) ( )⎭⎬⎫

⎩⎨⎧ −≈−= ∑

2)()()(

k dEdN

J xwxww

Perceptrón multicapaArquitectura básica

El perceptrón multicapa es un aproximador universal.

reconocimiento de patrones

Education

reconocimiento de patrones tema 3: estimación de...

reconocimiento de patrones tema 2: reconocimiento ... ·...

sistema digital de reconocimiento de patrones …

reconocimiento de patrones en imÁgenes fijas usando …

reconocimiento de patrones patrones reconocimiento de...

reconocimiento distribuido de patrones de actividades f...

comparación y reconocimiento de patrones (pattern … ·...

reconocimiento de patrones utilizando técnicas...

tema 7. introducción al reconocimiento de...

secuencia vrs presencia: el problema del reconocimiento de...

reconocimiento invariante de patrones con filtros no...

reconocimiento de tres patrones básicos de movimiento de

teorias del reconocimiento de patrones

reconocimiento de patrones somáticos - dfa-europa...

reconocimiento y clasificación de patrones en imágenes de

reconocimiento de patrones: reporte del trabajo nal

sistema de reconocimiento de patrones usando …

reconocimiento de patrones en simulaciÓn …

reconocimiento de patrones tema 5: clasificadores no ... ·...

unidad i. introducción al reconocimiento de patrones