reconocimiento de patrones
Post on 24-Jun-2015
634 Views
Preview:
DESCRIPTION
TRANSCRIPT
Reconocimiento de Patrones
Autores:José Luis Alba - Universidad de Vigo
Jesús Cid - Universidad Carlos III de Madrid
Ultima revisión: mayo de 2006
José Luis Alba - Universidad de Vigo; Jesús Cid - Universidad Carlos III 2
ÍndiceIntroducción
Esquema general del análisis de imágenesElementos del reconocimiento de patrones
PatronesPatrones vectorialesPatrones estructurados
Reconocimiento de patrones mediante funciones discriminantes
ElementosMínima distancia y Adaptación (Pattern Matching)Clasificadores estadísticamente óptimosRedes Neuronales Artificiales
José Luis Alba - Universidad de Vigo; Jesús Cid - Universidad Carlos III 3
PREPROCESADO(MEJORA-
RESTAURACIÓN)
ADQUISICIÓN DE LA IMAGEN
SEGMENTACIÓN
EXTRACCIÓN DE CARACTERÍSTICAS
RECONOCIMIENTO CLASIFICACIÓN
INTERPRETACIÓN
BASE DE CONOCIMIENTO
imagen
IntroducciónIntroducciónEsquema general del análisis de imágenes
Técnicas de bajo nivel Técnicas de alto nivel
Técnicas de nivel intermedio
José Luis Alba - Universidad de Vigo; Jesús Cid - Universidad Carlos III 4
PatronesTras los procesos de segmentación, extracción de características y descripción, cada objeto queda representado por una colección (posiblemente ordenada y estructurada) de descriptores, denominada patrón.En los problemas de reconocimiento, cada patrón se supone perteneciente a una categoría o clase, ciEl sistema de reconocimiento debe asignar cada objeto (de interés) a su categoría.
Reconocimiento o clasificación: proceso por el que se asigna una “etiqueta”, que representauna clase, a un patrón concreto.Clase: conjunto de entidades que comparten alguna característica que las diferencia de otras.Clase de rechazo: conjunto de entidades que no se pueden etiquetar como ninguna de lasclases del problemaExtractor de características: subsistema que extrae información relevante para la clasificacióna partir de las entidades cuantificablesClasificador: subsistema que utiliza un vector de características de la entidad cuantificable y lo asigna a una de M clasesEvaluación del error de clasificación: “error de clasificación”, “tasa de error empírica”, “tasade rechazo empírica”, “conjunto de datos independientes”.Falso rechazo (falso negativo) y falsa aceptación (faso positivo): para problemas de 2 clases estas definiciones reflejan la importancia de una decisión contra la opuesta. El sistema de clasificación se puede “sintonizar” para que trabaje ponderando un tipo de error sobre el otro
Elementos del reconocimiento de patrones
José Luis Alba - Universidad de Vigo; Jesús Cid - Universidad Carlos III 5
PatronesPatrones
Segmentador
Extracción +Descripción
Extracción +Descripción
Extracción +Descripción
Extracción +Descripción
Patrón
Patrón
Patrón
Patrón
Reconocedor
Reconocedor
Reconocedor
Reconocedor
Clase 1
Clase 2
Clase 2
Clase 1
Para el reconocimiento automático, es importante quePatrones que describen objetos de una misma clase, presenten características similares.Patrones que describen objetos de diferentes clases presenten características diferenciadas.
Tipos de patrones:Vectores: x = (x1, x2,…, xn)T
CadenasÁrboles
José Luis Alba - Universidad de Vigo; Jesús Cid - Universidad Carlos III 6
Patrones vectorialesEjemplo: Clasificación de tipos de Iris (flores).
Tres categoríasPatrones bidimensionales
Longitud del pétaloAnchura del pétalo
Los descriptores utilizados sirven para discriminar iris setosa de las otras dos, pero no para discriminar entre iris virginica e iris versicolor
http://www.et.ethz.ch/eTutorials/evim/dateien/u3/irisbilder.htm
Iris Setosa Iris Versicolor Iris Virginica
José Luis Alba - Universidad de Vigo; Jesús Cid - Universidad Carlos III 7
Patrones estructuradosCodifican relaciones (espaciales o de otro tipo) entre componentes del objeto o descriptores.Ejemplo:
Reconocimiento de huellas dactilaresLos algoritmos de reconocimiento suelen basarse en la detección de las minucias (minutiae), las cadenas (ridges) que forman, y su relación entre ellas
Imágenes tomadas de http://perso.wanadoo.fr/fingerchip/index.htm
José Luis Alba - Universidad de Vigo; Jesús Cid - Universidad Carlos III 8
Ejemplo:Imagen de satéliteDescripción en árbol
Cada rama codifica una relación “compuesto de”
Washington D.C. (centro urbano y zonas residenciales)
José Luis Alba - Universidad de Vigo; Jesús Cid - Universidad Carlos III 9
Reconocimiento mediante Reconocimiento mediante funciones discriminantesfunciones discriminantes
Elementos:Función discriminante, di(x):
Mide la relevancia de la clase cipara el patrón x.
Región de decisión, Ri:El conjunto de todos los puntos del espacio que el reconocedor asigna a la clase ci
Frontera de decisión:Separa regiones de decisión.
Decisor:Típicamente (aunque no siempre), seleccionan la clase de mayor (o menor) valor de la función discriminante di(x).
Análisis discriminante
PatrónDecisorx d
di(x)
José Luis Alba - Universidad de Vigo; Jesús Cid - Universidad Carlos III 10
Aprendizaje:Conjunto de entrenamiento:
{x(k),c(k), k=1,…,K}
Conjunto de patrones etiquetados (cuya clase es conocida)
Algoritmo de entrenamiento:Es un conjunto de reglas de ajuste de los parámetros de las funciones discriminantes
di(x,wi)Conjunto de prueba (test)
Conjunto de patrones etiquetados NO utilizados durante el entrenamiento.Sirven para evaluar el rendimiento del clasificador.Generalización: capacidad para clasificar correctamente patrones no utilizados durante el entrenamiento.
Análisis discriminante
PatrónDecisorx d
di(x)
José Luis Alba - Universidad de Vigo; Jesús Cid - Universidad Carlos III 11
Métodos (lista no exahustiva):Adaptación (Pattern Matching)
Representan cada clase mediante un patrón prototipo.Clasificador de mínima distanciaAdaptación por correlación
Clasificadores estadísticamente óptimosSe fundamentan en la Teoría de la Decisión Estadística
Clasificador bayesiano para clases gausianas
Redes neuronalesSe fundamentan en la teoría del aprendizaje estadístico
Perceptrón para dos clasesPerceptrón multicapa
José Luis Alba - Universidad de Vigo; Jesús Cid - Universidad Carlos III 12
Reconocimiento mediante funciones discriminantes
Clasificador de mínima distancia
Se caracteriza por las funciones discriminantes
siendo mi un patrón prototipo de la clase i.Asignan la muestra a la clase “más próxima”
Dado que
se puede prescindir del primer término, que no depende de la clase, de modo que las funciones discriminantes
son equivalentes a las anteriores.Las fronteras de decisión del clasificador de mínima distancia son de la forma
es decir,
que son hiperplanos
( ) 2iid mxx −=
( ) iTi
Tiid mmxmx +−= 2
( ) ( )xx ji dd =
( ) 02 =−+−− jTji
Ti
Tij mmmmxmm
( ){ }xiidd minarg=
( ) ( ) ( ) iTi
Ti
Ti
Tiid mmxmxxmxmxx +−=−−= 2
José Luis Alba - Universidad de Vigo; Jesús Cid - Universidad Carlos III 13
PrototipoEl prototipo mi que caracteriza a cada clase puede obtenerse mediante extracción de características sobre una imagen previamente etiquetada.También puede obtenerse a partir de una colección de patrones etiquetados:
siendo {xi,j} los patrones de la clase i del conjunto de entrenamiento.
∑=
=iN
jji
ii N 1
,1 xm
http://www.et.ethz.ch/eTutorials/evim/dateien/u3/irisbilder.htm
Iris Setosa Iris Versicolor
José Luis Alba - Universidad de Vigo; Jesús Cid - Universidad Carlos III 14
Ejemplo: Reconocimiento de caracteres.Clases: Ck:{A,B,…,a,b,…0,1,2,…a,b,…a,b,…a,b,..a,b,…a,b,…}Clase de rechazo: Cr:{!,”,$,%,&,/,(,),=,?,¿,~,×…}Extractor de características:
3)dimensión de(vector masas de centro
cerrados) (contornos huecos denºperímetro
)y eje saltos de (suma |:),1()(:,|
x)eje saltos de (suma |:)1,-(n:),(|
columnas) las de sumay ejen (proyecció )(:,
filas) las de suma x ejen (proyecció :),(
binario vector oimagen )1360( ó )1820(
18
2
20
2
18
1
20
1
v
nznzS
znzS
nzP
nzP
z
ny
nx
ny
nx
≡⎪⎭
⎪⎬
⎫
⎪⎩
⎪⎨
⎧
⎪⎩
⎪⎨
⎧
−−=
−=
⎪⎩
⎪⎨
⎧
→=
→=
××≡
∑∑∑∑
=
=
=
=
José Luis Alba - Universidad de Vigo; Jesús Cid - Universidad Carlos III 15
El reconocedor de caracteres asigna el vector “v” a la claseque más se “parece”.Medidas de similitud:
distancia euclideadistancia de Hamming, distancia de Mahalanobis, correlación cruzada, etc a
b
c
9
v d(v, vc)
d(v, v9)
d(v, vb)
d(v, va)
Mínim
o
Clase Ck=“h”
José Luis Alba - Universidad de Vigo; Jesús Cid - Universidad Carlos III 16
Ventajas del clasificador de mínima distancia
SimplicidadFacilidad de ajuste
Inconvenientes:Sólo funciona cuando las clases forman nubes poco dispersas y bien separadas
Ejemplo: fuente de caracteres E-13B de la American Bankers Association, especialmente diseñada para facilitar el reconocimiento automático.La signatura refleja la derivada de la cantidad de negro en dirección vertical, al mover un scanner de izquierda a derechaEl muestreo en los puntos de la cuadrícula proporciona información con suficiente capacidad discriminante
José Luis Alba - Universidad de Vigo; Jesús Cid - Universidad Carlos III 17
Extensiones del clasificador de mínima distancia:
Permiten obtener fronteras de clasificación más complejas, y modelar categorías que no quedan adecuadamente representadas por su media.k-NN (Nearest Neighbour):
Cada clase, Ci, se caracteriza por una colección de prototipos, mijCada patrón, x, se asigna a la clase mayoritaria de los k prototipos más próximosSelección de prototipos:
Cada muestra de entrenamiento, un prototipo.Prototipos obtenidos mediante un algoritmo de agrupamiento (como el k-means –ver presentación de Análisis de imágenes-). 1-NN, 2 prototipos por clase
José Luis Alba - Universidad de Vigo; Jesús Cid - Universidad Carlos III 18
Reconocimiento mediante funciones discriminantes
Adaptación por correlación
Los métodos de adaptación por correlación también se basan en la comparación de la imagen a clasificar con una o varias imágenes patrón que caracterizan a cada clase. Es equivalente al de mínima distancia si los patrones están normalizados:
Utilizan medidas de similitud basadas en correlaciones:
Correlación:
( ) ( ) ( )∑∑ ++=s t
tysxwtsfyxc ,,,
( ) ( ) xmxmmxmx Tiii
Ti
Tii dd =′⇒+−= 2
José Luis Alba - Universidad de Vigo; Jesús Cid - Universidad Carlos III 19
Coeficiente de correlación:Proporciona una medida invariante frente a cambios en la amplitud.
donde los promedios de w se calculan sobre todo el patrón (habitualmente más pequeño que la imagen), mientras que los de f se calculan sobre la región en torno al píxel del tamaño del patrón.
Otras normalizaciones (para obtener invarianzas respecto a cambios de escala u orientación) son posibles, pero a mayor complejidad
( )( ) ( )( ) ( )( )
( ) ( )( ) ( )( )2/1
22/1
2 ,,,
,,,,
⎥⎦
⎤⎢⎣
⎡−++⎥
⎦
⎤⎢⎣
⎡−
−++−=
∑∑∑∑
∑∑
s ts t
s t
wtysxwtsftsf
wtysxwtsftsfyxc
José Luis Alba - Universidad de Vigo; Jesús Cid - Universidad Carlos III 20
Introducción:El mecanismo de generación de patrones se puede representar de forma probabilística:
Datos no disponibles: Prob. a priori Datos disponibles: Prob. a posteriori
Procesofísico
Sistema
sensorialClasificador de patrones
Extracción de características
Clase generada:CkC={C1 , C2 , ...Cn}
(Ck)P
Objetoo suceso“medible”
vector de medidas: z
vector de características: x
clase asignada: C( )xP C( )=( Ck | x)x x=
Experimento
Reconocimiento mediante funciones discriminantes
Clasificadores estadísticamente óptimos
José Luis Alba - Universidad de Vigo; Jesús Cid - Universidad Carlos III 21
Reconocimiento mediante funciones discriminantes
Clasificadores estadísticamente óptimos
Caracterización estadísticaLa teoría de la decisión parte del supuesto de que los patrones son realizaciones independientes de un modelo probabilístico p (c,x)=P (c |x) p (x)
En general, en los problemas de reconocimiento de patrones tenemos clases mutuamente exclusivas y colectivamente exhaustivas, es decir:
siendo C el número de clases.Elementos:
Los costescostes, Lij : coste de asignar a cj un patrón de la clase ci .El riesgo medio condicionalriesgo medio condicional de asignar un patrón a clase j :
( ) ( )∑=
=C
kkkjj cPLr
1| xx
1)(1
=∑=
C
kkcP
José Luis Alba - Universidad de Vigo; Jesús Cid - Universidad Carlos III 22
Clasificador de mínimo riesgoSerá aquél basado en las reglas de decisión
aplicando la regla de Bayes
se obtiene la expresión alternativa
Clasificador de mínima probabilidad de errorSe obtiene dando idéntico valor a todos los errores: Lij = 1-δij
(que es la probabilidad de error)
(decisión MAP (máximo a posteriori), que selecciona la categoría más probable, dada la observación)
( ) ( )∑=
==C
kkkjjjj
cPLri1
|minargminarg xx
( ) ( ) ( ) ( )xxxx |1||11
j
C
kkkj
C
kkj cPcPcPr −=−= ∑∑
==
δ
( ){ } ( ){ }xx |maxarg|1minarg jjjjcPcPi =−=
)()|()(
)|( |
xx
xx
kcxkk p
cpcPcP k=
( ) ( )∑=
=C
kkkkjj
cPcpLi1
|minarg x
José Luis Alba - Universidad de Vigo; Jesús Cid - Universidad Carlos III 23
Ejemplo: Reconocimiento de caracteres mediante un decisor MAP
h x Máxim
o
Clase ck=“h”
p(x|ca) x
x
x
p(x|cb)
p(x|c9)
Pr(ca)
Pr(cb)
Pr(c9)
José Luis Alba - Universidad de Vigo; Jesús Cid - Universidad Carlos III 24
Diseño del clasificador BayesianoEn la mayoría de las aplicaciones prácticas, no se conocen P(ck), p(x|ck) ni P(ck|x).En tal caso, deben estimarse a partir de un conjunto de entrenamiento.Se presentan dos alternativas:
Estimar P(ck|x), o bien Estimar P(ck) y p(x|ck)
P(ck): puede suponerse constante (categorías equiprobables) o estimarse como la proporción de observaciones etiquetadas y no etiquetadas.p(x|ck): hay muchos métodos. Los más sencillos suponen que las distribuciones son gausianas. La estimación se reduce a los parámetros de media y covarianzas.
José Luis Alba - Universidad de Vigo; Jesús Cid - Universidad Carlos III 25
mi
Clasificador bayesiano para clases gausianasSe caracteriza por
siendo
x
p(x|c0)P(c0)L10 p(x|c1)P(c1)L01
Umbral de decisión
( ) ( )⎥⎦⎤
⎢⎣⎡ −−−= −
iiT
ii
cp mxVmxV
x 12/1N/2i 2
1exp)(2
1)|(π
{ }
( )( ){ } ( )( )∑
∑
=
=
−−≈−−=
≈=
ik
ik
cd
Ti
ki
k
i
Tiii
cd
k
ii
NcE
NcE
)(
)(
)()(i
)(i
1|
1|
mxmxmxmxV
xxm
José Luis Alba - Universidad de Vigo; Jesús Cid - Universidad Carlos III 26
Función discriminante: suele utilizarse el logaritmo:
Es una forma cuadrática para cada clase, con lo que la frontera de decisión será una cuadrática también.
Ej: P(c1)=0.6; P(c2)=0.4; V1 =[0.77 0;0 0.77]; V2 =[0.77 0;0 1.26]
( ) ( ) ( )( ) ( ) ( ) ( ) ( )( )
( ) ( ) ( )( )iiiT
ii
iiiT
iiiii
cP
cPNcPcpd
ln21ln
21
ln21ln
212ln
2|ln
12/1
12/1
+−−−−≡
+−−−−−==
−
−
mxVmxV
mxVmxVxx π
José Luis Alba - Universidad de Vigo; Jesús Cid - Universidad Carlos III 27
Cuando las matrices de covarianzas de todas las clases coinciden (Vi=V) , el discriminante se reduce a:
y, por tanto, es una función discriminante linealSi, finalmente, las matrices son proporcionales a la identidad, resulta
que coincide con la función discriminante del clasificador de mínima distancia.
( ) ( )( )iiTi
Tii cPd ln
21 11 +−≡ −− mVmxVmx
( ) iTi
Tiid mmxmx
21
−≡
José Luis Alba - Universidad de Vigo; Jesús Cid - Universidad Carlos III 28
Las Imágenes multiespectrales codifican información en varias bandas, sensibles a diferentes longitudes de onda del espectro electromagnético.
Los clasificadores bayesianos se han mostrado efectivos para clasificación de terrenos en muchos tipos de imágenes
Ejemplo: clasificación de terrenos en imágenes multiespectrales.
José Luis Alba - Universidad de Vigo; Jesús Cid - Universidad Carlos III 29
Inconvenientes del modelo gausiano:Con frecuencia, no es realista (los datos no tienen una distribución gausiana)
Ejemplo: Diagrama de dispersión de las bandas 1 (azul) y 5 (infrarrojo cercano) de un conjunto de datos pertenecientes a una imagen Landsat (7 bandas) de las Ría de Vigo.
* → Rocao → Frondosas+ → Eucalipto● → Terreno Agrícola
José Luis Alba - Universidad de Vigo; Jesús Cid - Universidad Carlos III 30
Clasificador bayesiano para mezclas de gausianasModelo más general: x ∈Ck se asume con fdp compuesta por una mezcla de gausianas de medias μkl , covarianza Vkly factores de mezcla wl es decir:
La estimación ML de los parámetros wl , μkl y Σkl para cada clase se realiza de forma iterativa mediante un algoritmo conocido como Esperanza-Maximización (EM).El clasificador MAP responde a la expresión:
Las fronteras de decisión son superficies hipercuádricas a tramos
[ ]∑∑ =
−
=−−−==
L
l klklT
klkl
pklkL
l klk wclpwcp1
121
2/12/1)()(exp
||)2(1),|()|( μxVμx
Vxx
π
{ })|()(maxarg)( kkk
CxpCPxC =
José Luis Alba - Universidad de Vigo; Jesús Cid - Universidad Carlos III 31
Ejemplo:Clasificación de piel/no piel en un espacio de color bi-dimensional (sin información de luminancia), modelando cada clase como una mezcla de gausianas y estimando parámetros con el algoritmo EM:
José Luis Alba - Universidad de Vigo; Jesús Cid - Universidad Carlos III 32
Reconocimiento mediante funciones discriminantes Métodos basados en Teoría de la Decisión
Redes Neuronales ArtificialesBackgroundPerceptrón para dos clases
Algoritmos de entrenamientoClases separables linealmenteClases no separables linealmente
José Luis Alba - Universidad de Vigo; Jesús Cid - Universidad Carlos III 33
Motivación:El análisis previo pone de manifiesto que, para diseñar un clasificador estadísticamente óptimo a partir de un conjunto de datos de entrenamiento, pueden adoptarse tres estrategias:
Estimar P(ck|x)Estimar P(x|ck) y P(ck)Determinar una función discriminante que proporcione la frontera de decisión óptima.
El término “redes neuronales” engloba a un conjunto de técnicas que proporcionan soluciones flexibles (adaptables a cada problema) para cada una de estas estrategias.
José Luis Alba - Universidad de Vigo; Jesús Cid - Universidad Carlos III 34
Perceptron para dos clases
Implementa la función discriminante lineal:
Para un conjunto finito de muestras podemos hallar un vector de pesos apropiado buscando una solución de estas inecuaciones (para dos clases):
¿Cómo determinar los pesos? Algoritmo de entrenamiento: procedimiento recursivo que modifica el vector de pesos hasta que se cumplen las desigualdades:Iniciar aleatoriamente los pesosPresentar cada muestra al sistema de inecuaciones
Si bien clasificada no alterar pesosSi mal clasificada alterar los pesos de forma conveniente
( ) eTe
n
iii xwwxdz xw=+== ∑
=10
w0
1x1
x2
xN
w1
w2
wN
z
...o
22
11
1,0
1,0
Mj
Mj
jt
e
jt
e
≤≤>−
≤≤>+
xw
xw
José Luis Alba - Universidad de Vigo; Jesús Cid - Universidad Carlos III 35
Algoritmos de entrenamiento Clases separables linealmente
Regla del Regla del PerceptrónPerceptrón:
Si no hay error, no hay cambioSi hay error, w(k+1)T x(k) cambia en el sentido de corregir el error.
Teorema de entrenamiento del perceptrón:
Si las clases son linealmente separables, la regla del perceptrón converge a una solución de cero errores en un número finito de pasos.
( ) [ ] ( ) }1;1{,;10 2
)()()()()()(1 −=<<−+=+ kkkkkkk odconod αα xww
xx
xx
xxx
x
xx
xxx x
x
xxx
x x
t=0
t=1t=2
t=4t=10
José Luis Alba - Universidad de Vigo; Jesús Cid - Universidad Carlos III 36
Clases no separables linealmenteEn este caso, la regla del perceptrón no se detiene.Soluciones:
Discriminantes no lineales, pero lineales en los parámetros:
permiten obtener fronteras no lineales que obtengan soluciones de cero errores perceptrón multicapaVariantes heurísticas, como el algoritmo del lgoritmo del BolsilloBolsillo, que conserva en una memoria aparte (bolsillo) los pesos que han dado lugar a la secuencia de pasos de entrenamiento libre de errores más larga
Inconvenientes de la Regla del Perceptrón:Mala generalización:
aunque el problema sea intrínsecamente separable (para el clasificador usado), el algoritmo puede colocar la frontera en una posición inadecuada
oo
oo
o o
o
××
×
××
××
×
××
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x( ) ∑∑==
++==n
iii
n
iii xwxwwxdz
1
2
10
José Luis Alba - Universidad de Vigo; Jesús Cid - Universidad Carlos III 37
El ADALINE (“ADAptive LInear NEuron”)Tiene la misma arquitectura del Perceptrón, pero se entrena mediante un algoritmo de gradiente:
siendo J(we) una función de coste. La más habitual es el error cuadrático:
En la versión estocástica (el algoritmo de Widrow-Hoff) se aplica el gradiente sobre una sola muestra, resultando
Puede demostrarse que, para α suficientemente pequeño, la regla del ADALINE converge (aunque no necesariamente a una solución de mínimo numero de errores).
[ ] ( )10 )()()()()1( <<−+=+ αα ke
kkTke
ke zd xww
( ))()()1( ke
ke
ke J www w∇−=+ α
( ) ( ) ( )⎭⎬⎫
⎩⎨⎧ −≈−= ∑
=
2)()()(
1
2)()()(
21
21 k
eTk
ek
N
k
ke
Tke
k dEdN
J xwxww
José Luis Alba - Universidad de Vigo; Jesús Cid - Universidad Carlos III 38
Perceptrón multicapaArquitectura básica
El perceptrón multicapa es un aproximador universal.
top related