reconocimiento de pautas -...

29
Quimiometría RECONOCIMIENTO DE PAUTAS ANÁLISIS DISCRIMINANTE (Discriminant analysis)

Upload: doankhanh

Post on 05-Oct-2018

240 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: RECONOCIMIENTO DE PAUTAS - Iniciofcn.unp.edu.ar/sitio/quimiometria/wp-content/uploads/discrimi... · probabilidad predefinida y se debe calcular la función de densidad de probabilidad

Quimiometría

RECONOCIMIENTO DE PAUTAS

ANÁLISIS DISCRIMINANTE

(Discriminant analysis)

Page 2: RECONOCIMIENTO DE PAUTAS - Iniciofcn.unp.edu.ar/sitio/quimiometria/wp-content/uploads/discrimi... · probabilidad predefinida y se debe calcular la función de densidad de probabilidad

Quimiometría

Reconocimiento de pautas supervisado

si se cuenta con objetos cuya pertenencia a un grupo es conocida

métodos:

análisis de discriminantes

máquina de aprendizaje lineal (linear learning machine)

vecino más próximo (k-nearest neighbor)

SIMCA (soft independent modeling of class analogies)

redes neuronales artificiales

Page 3: RECONOCIMIENTO DE PAUTAS - Iniciofcn.unp.edu.ar/sitio/quimiometria/wp-content/uploads/discrimi... · probabilidad predefinida y se debe calcular la función de densidad de probabilidad

Quimiometría

Máquina de aprendizaje lineal (LLM)

la primera aplicación en química analítica del reconocimiento de pautas supervisado en 1969

se empleó para clasificar un espectro de masas con respecto a las clases de ciertas masas moleculares

la base de la clasificación con la LLM es una función discriminante que divide el espacio n-dimensional en regiones que pueden emplearse para predecir la pertenencia de una muestra de prueba

Page 4: RECONOCIMIENTO DE PAUTAS - Iniciofcn.unp.edu.ar/sitio/quimiometria/wp-content/uploads/discrimi... · probabilidad predefinida y se debe calcular la función de densidad de probabilidad

Quimiometría

Máquina de aprendizaje lineal (LLM)

si se mide una variable, los datos se pueden representar en un espacio 1-dimensional

decisión: ¿cuál es el valor de corte entre los dos grupos?el límite se encuentra por iteración

Page 5: RECONOCIMIENTO DE PAUTAS - Iniciofcn.unp.edu.ar/sitio/quimiometria/wp-content/uploads/discrimi... · probabilidad predefinida y se debe calcular la función de densidad de probabilidad

Quimiometría

Reconocimiento de pautas supervisado

modelado de clase disjunta (hard modeling): se intenta encontrar un límite entre dos o más clases

un objeto pertenece a una clase discretase construye un modelo separado para cada clase

modelado suave (soft modeling): dos clases pueden supersonerse

un objeto puede pertenecer a dos clases

Page 6: RECONOCIMIENTO DE PAUTAS - Iniciofcn.unp.edu.ar/sitio/quimiometria/wp-content/uploads/discrimi... · probabilidad predefinida y se debe calcular la función de densidad de probabilidad

Quimiometría

Análisis discriminante

es un técnica de reconocimiento de pautas supervisado

se debe contar con objetos de entrenamiento o aprendizaje

objetivo:encontrar una regla de decisión que asigne un objeto nuevo, cuya pertenencia a un grupo se desconoce, a uno de los grupos prefijados (con un cierto grado de riesgo)

Page 7: RECONOCIMIENTO DE PAUTAS - Iniciofcn.unp.edu.ar/sitio/quimiometria/wp-content/uploads/discrimi... · probabilidad predefinida y se debe calcular la función de densidad de probabilidad

Quimiometría

Análisis discriminante

restricciones:

son necesarios al menos dos grupos y para cada grupo dos o más casos

el número de variables discriminantes debe ser menor que el número de objetos menos 2:

x1, ... ,xp

p < (n − 2) n es el número de objetos

Page 8: RECONOCIMIENTO DE PAUTAS - Iniciofcn.unp.edu.ar/sitio/quimiometria/wp-content/uploads/discrimi... · probabilidad predefinida y se debe calcular la función de densidad de probabilidad

Quimiometría

Análisis discriminante

restricciones:

el número máximo de funciones discriminantes es igual al mínimo entre el número de variables y el número de grupos menos 1

g grupos(g − 1) funciones discriminantes

ninguna variable discriminante puede ser combinación lineal de otras variables discriminantes

Page 9: RECONOCIMIENTO DE PAUTAS - Iniciofcn.unp.edu.ar/sitio/quimiometria/wp-content/uploads/discrimi... · probabilidad predefinida y se debe calcular la función de densidad de probabilidad

Quimiometría

Función discriminante lineal

suposiciones:

las variables continuas deben seguir una distribución normal multivariante

existen diferentes clases de centroides

las varianzas y covarianzas son similares dentro de un grupo

Page 10: RECONOCIMIENTO DE PAUTAS - Iniciofcn.unp.edu.ar/sitio/quimiometria/wp-content/uploads/discrimi... · probabilidad predefinida y se debe calcular la función de densidad de probabilidad

Quimiometría

Análisis discriminante

el límite entre grupos se toma a partir de una función discriminante lineal

el límite (hiperplano) se calcula de tal manera que:

la varianza entre clases es máxima

la varianza dentro de las clases individuales es mínima

Page 11: RECONOCIMIENTO DE PAUTAS - Iniciofcn.unp.edu.ar/sitio/quimiometria/wp-content/uploads/discrimi... · probabilidad predefinida y se debe calcular la función de densidad de probabilidad

Quimiometría

Análisis discriminante

a partir de:

g grupos

una serie de objetos y de p variables medidas sobre ellos

(x1, … , xp)

se trata de obtener para cada objeto una serie de puntuaciones

que indican el grupo al que pertenecen (y1, ... , yp) de modo

que sean funciones lineales de x1, …, xp

Page 12: RECONOCIMIENTO DE PAUTAS - Iniciofcn.unp.edu.ar/sitio/quimiometria/wp-content/uploads/discrimi... · probabilidad predefinida y se debe calcular la función de densidad de probabilidad

Quimiometría

Análisis discriminante

Situación más sencilla: 2 clases y 2 variables:

FDL Y = 0,91X1+ 0,42X2

no hay solapamiento en las distribuciones para los dos gruposY es mejor para discriminar entre los grupos

solapamiento en las distribuciones para los dos grupos

Page 13: RECONOCIMIENTO DE PAUTAS - Iniciofcn.unp.edu.ar/sitio/quimiometria/wp-content/uploads/discrimi... · probabilidad predefinida y se debe calcular la función de densidad de probabilidad

Quimiometría

Análisis discriminante

para generalizar:

se tiene una matriz X con:

n objetos

p variables

g grupos

x11 x12⋯x1p

x21 x22⋯x2p

x31 x32⋯x3p

x41 x42⋯x4p

⋮x j1 x j2⋯x jp

xn1 xn2⋯xnp

g1

g2

gnj

Page 14: RECONOCIMIENTO DE PAUTAS - Iniciofcn.unp.edu.ar/sitio/quimiometria/wp-content/uploads/discrimi... · probabilidad predefinida y se debe calcular la función de densidad de probabilidad

Quimiometría

Análisis discriminante

se obtienen los autovectores (a) de la matriz (G-1 H) asociados a los autovalores elegidos en orden decreciente:

G-1 H a = λ a

λ = autovalor

G = (n - g) C

C: matriz de covarianza

H: matriz de la dispersión de las medias del grupo (xj) con respecto al promedio (x)

Page 15: RECONOCIMIENTO DE PAUTAS - Iniciofcn.unp.edu.ar/sitio/quimiometria/wp-content/uploads/discrimi... · probabilidad predefinida y se debe calcular la función de densidad de probabilidad

Quimiometría

Función discriminante lineal

a partir del autovector a1 se obtiene la primera FDL (s1)

s1 = a11x1 + a12 x2 + … + a1p xp

con el residual del dato x se calcula la segunda FDL

s2 = a21x1 + a22 x2 + … + a2p xp

se continúa hasta encontrar todas las FDL necesarias

Page 16: RECONOCIMIENTO DE PAUTAS - Iniciofcn.unp.edu.ar/sitio/quimiometria/wp-content/uploads/discrimi... · probabilidad predefinida y se debe calcular la función de densidad de probabilidad

Quimiometría

Análisis discriminante

matriz de confusión:

contiene el número de objetos correctamente clasificados

en cada clase en la diagonal principal

no detecta si un objeto pertenece a más de una clase

asigna pertenencia a un grupo a los objetos atípicos que no

pertenecen a ninguno de los grupos (outliers)

Page 17: RECONOCIMIENTO DE PAUTAS - Iniciofcn.unp.edu.ar/sitio/quimiometria/wp-content/uploads/discrimi... · probabilidad predefinida y se debe calcular la función de densidad de probabilidad

Quimiometría

Análisis discriminante

matriz de correlaciones por grupo (pooled within-groups

correlation matrix):

se calcula como una matriz media de correlaciones

calculadas por separado en cada grupo

a menudo no se parece a la matriz de correlaciones total

Page 18: RECONOCIMIENTO DE PAUTAS - Iniciofcn.unp.edu.ar/sitio/quimiometria/wp-content/uploads/discrimi... · probabilidad predefinida y se debe calcular la función de densidad de probabilidad

Quimiometría

Análisis discriminante

toma de decisiones cuando hay más de dos grupos de objetos:

se supone una distribución normal multivariante

se encuentra una nueva FDL para cada grupo que incluye

un término constante

a partir de estas FDL se calula una puntuación (score) para

cada objeto nuevo (x)

x se asigna al grupo cuya puntuación sea más alta

Page 19: RECONOCIMIENTO DE PAUTAS - Iniciofcn.unp.edu.ar/sitio/quimiometria/wp-content/uploads/discrimi... · probabilidad predefinida y se debe calcular la función de densidad de probabilidad

Quimiometría

Otros métodos de clasificación

análisis discriminante cuadrático: supone que los dos grupos tienen distribuciones normales pero varianzas diferentes

clasificación bayesiana: la pertenencia a un grupo tiene una probabilidad predefinida y se debe calcular la función de densidad de probabilidad

validación cruzada: método de dejar uno fuera (leave-one-out method) empleada en el Minitab para validar el análisis discriminante

Page 20: RECONOCIMIENTO DE PAUTAS - Iniciofcn.unp.edu.ar/sitio/quimiometria/wp-content/uploads/discrimi... · probabilidad predefinida y se debe calcular la función de densidad de probabilidad

Quimiometría

Análisis discriminante

Un ejemplo

al investigar un crimen se recogió cabello humano

para intentar resolver el crimen se tomaron muestras de cabello de tres sospechosos

además de análisis morfológicos, se realizó un análisis elemental

Page 21: RECONOCIMIENTO DE PAUTAS - Iniciofcn.unp.edu.ar/sitio/quimiometria/wp-content/uploads/discrimi... · probabilidad predefinida y se debe calcular la función de densidad de probabilidad

Quimiometría

Cabello Cu (ppm) Mn (ppm) Cl (ppm) Br (ppm) I (ppm)

1 9,2 0,30 1730 12,0 3,6

2 12,4 0,39 930 50,0 2,3

3 7,2 0,32 2750 65,3 3,4

4 10,2 0,36 1500 3,4 5,3

5 10,1 0,50 1040 39,2 1,9

6 6,5 0,20 2490 90,0 4,6

7 5,6 0,29 2940 88,0 5,6

8 11,8 0,42 867 43,1 1,5

9 8,5 0,25 1620 5,2 6,2

Análisis discriminante

Page 22: RECONOCIMIENTO DE PAUTAS - Iniciofcn.unp.edu.ar/sitio/quimiometria/wp-content/uploads/discrimi... · probabilidad predefinida y se debe calcular la función de densidad de probabilidad

Quimiometría

Análisis discrimixante

Se encontraron tres grupos por PCA

Grupo A: 2, 8 y 5

Grupo B: 1, 4 y 9

Grupo C: 3, 6 y 7

Page 23: RECONOCIMIENTO DE PAUTAS - Iniciofcn.unp.edu.ar/sitio/quimiometria/wp-content/uploads/discrimi... · probabilidad predefinida y se debe calcular la función de densidad de probabilidad

Quimiometría

Cabello Grupo Cu (ppm) Mn (ppm) Cl (ppm) Br (ppm) I (ppm)

1 B 9,2 0,30 1730 12,0 3,6

2 A 12,4 0,39 930 50,0 2,3

3 C 7,2 0,32 2750 65,3 3,4

4 B 10,2 0,36 1500 3,4 5,3

5 A 10,1 0,50 1040 39,2 1,9

6 C 6,5 0,20 2490 90,0 4,6

7 C 5,6 0,29 2940 88,0 5,6

8 A 11,8 0,42 867 43,1 1,5

9 B 8,5 0,25 1620 5,2 6,2

Análisis discriminante

Page 24: RECONOCIMIENTO DE PAUTAS - Iniciofcn.unp.edu.ar/sitio/quimiometria/wp-content/uploads/discrimi... · probabilidad predefinida y se debe calcular la función de densidad de probabilidad

Quimiometría

Análisis discriminante

se realiza un análisis discriminante de los datos con Minitab

Summary of classification (matriz de confusión)

True GroupPut into Group A B C

A 3 0 0B 0 3 0C 0 0 3

Total N 3 3 3N correct 3 3 3

Proportion 1,000 1,000 1,000

N = 9 N Correct = 9 Proportion Correct = 1,000

Page 25: RECONOCIMIENTO DE PAUTAS - Iniciofcn.unp.edu.ar/sitio/quimiometria/wp-content/uploads/discrimi... · probabilidad predefinida y se debe calcular la función de densidad de probabilidad

Quimiometría

Análisis discriminante

se realiza un análisis discriminante de los datos con Minitab

Squared Distance Between Groups

A B C

A 0,000 141,541 212,893

B 141,541 0,000 149,928

C 212,893 149,928 0,000

Page 26: RECONOCIMIENTO DE PAUTAS - Iniciofcn.unp.edu.ar/sitio/quimiometria/wp-content/uploads/discrimi... · probabilidad predefinida y se debe calcular la función de densidad de probabilidad

Quimiometría

Análisis discriminante

se realiza un análisis discriminante de los datos con Minitab

Linear Discriminant Function for Groups

A B CConstant -307,68 -293,68 -475,75Cu (ppm) 26,52 28,00 29,93Mn (ppm) 298,67 60,81 115,35Cl (ppm) 0,08 0,15 0,20Br (ppm) 1,95 0,43 1,80I (ppm) 9,09 13,26 10,06

Page 27: RECONOCIMIENTO DE PAUTAS - Iniciofcn.unp.edu.ar/sitio/quimiometria/wp-content/uploads/discrimi... · probabilidad predefinida y se debe calcular la función de densidad de probabilidad

Quimiometría

Análisis discriminante

se realiza un análisis discriminante de los datos con Minitab

Puntuaciones discriminantes lineales para cada grupo

PDLA= -307,68+26,56xCu+298,67xMn+0,08xCl+1,95xBr+9,09xI

PDLB= -293,68+28,00xCu+60,81xMn+0,15xCl+0,43xBr+13,26xI

PDLC= -475,75+29,93xCu+115,35xMn+0,20xCl+1,80xBr+10,06xI

Page 28: RECONOCIMIENTO DE PAUTAS - Iniciofcn.unp.edu.ar/sitio/quimiometria/wp-content/uploads/discrimi... · probabilidad predefinida y se debe calcular la función de densidad de probabilidad

Quimiometría

Análisis discriminante

la muestra de cabello encontrada en la escena del crimen tiene los siguientes valores (en ppm)

Cu=9,2 Mn=0,27 Cl=2200 Br=9,8 I=4,7

A=-307,68+26,56x9,2+298,67x0,27+0,08x2200+1,95x9,8+9,09x4,7

B=-293,68+28,00x9,2+60,81x0,27+0,15x2200+0,43x9,8+13,26x4,7

C=-475,75+29,93x9,2+115,35x0,27+0,20x2200+1,80x9,8+10,06x4,7

PDLA= 255,15 PDLB= 376,87 PDLC= 335,67

Page 29: RECONOCIMIENTO DE PAUTAS - Iniciofcn.unp.edu.ar/sitio/quimiometria/wp-content/uploads/discrimi... · probabilidad predefinida y se debe calcular la función de densidad de probabilidad

Quimiometría

Análisis discriminante

se realiza un análisis discriminante incluyendo el nuevo dato con Minitab

Prediction for Test Observations

SquaredObservation Pred Group From Group Distance Probability 1 B A 249,045 0,000 B 28,162 1,000 C 114,734 0,000

El cabello pertenece al sospechoso B