análisis discriminante

STATGRAPHICS – Rev. 9/14/2006

© 2006 por StatPoint, Inc. Análisis Discriminante - 1

Análisis Discriminante Resumen El procedimiento de Análisis Discriminante es diseñado para ayudar a distinguir entre dos o más grupos de datos basados en un conjunto de p variables cuantitativas observadas. Esto se hace construyendo funciones discriminantes que son combinaciones lineales de las variables. El objetivo de tal análisis es generalmente uno o ambos de los que siguen:

1. La habilidad para describir los casos observados matemáticamente de una manera que los separa en grupos tan bien como sea posible.

2. La habilidad para clasificar nuevas observaciones como pertenencia a uno u algunos grupos.

En la construcción de las funciones discriminantes, el procedimiento permite incluir a todas las variables o usar un procedimiento de selección paso a paso que incluye solamente algunas variables que son estadísticamente significativas para discriminar sobre los grupos. Los resúmenes y pruebas estadísticas con significancia para el número de funciones discriminantes necesarias serán incluidos. Las funciones discriminantes derivadas pueden utilizarse para clasificar nuevos casos dentro de los grupos. Las probabilidades a priori de pertenencia para cada grupo serán ingresadas o derivadas de los datos observados. Ejemplo StatFolio: discriminant.sgp Datos del Ejemplo: El archivo iris.sf6 contiene un conjunto de datos famosos por Fisher (1936). Los datos consisten de un total de n = 150 diafragmas, 50 de cada una de g = 3 diferentes especies: setosa, versicolor, y virginica. Las mediciones fueron hechas sobre p = 4 variables, describiendo la longitud y anchura del sépalo y pétalo. La tabla muestra una lista parcial de los datos del archivo:

Sample (Muestra)

Sepal Length

(Longitud Sépalo)

Sepal Width

(Anchura Sépalo)

Petal Length

(Longitud Pétalo)

Petal Width

(Anchura Pétalo)

Species (Especie)

1 5.1 3.5 1.4 0.2 setosa 2 4.9 3 1.4 0.2 setosa 3 4.7 3.2 1.3 0.2 setosa 4 4.6 3.1 1.5 0.2 setosa 5 5 3.6 1.4 0.2 setosa 6 5.4 3.9 1.7 0.4 setosa 7 4.6 3.4 1.4 0.3 setosa 8 5 3.4 1.5 0.2 setosa 9 4.4 2.9 1.4 0.2 setosa 10 4.9 3.1 1.5 0.1 setosa … … … … … …



Un gráfico matriz de los datos observados se muestra en la grafica de abajo:

Species

setosa

versicolor

virginica

Sepal length

Sepal width

Petal length

Petal width

Observe como las especies son naturalmente divididas entre grupos. Existe, sin embargo, algún traslape entre los grupos, particularmente versicolor y virginica. Entrada de Datos La caja de dialogo para la entrada de datos requiere el nombre de una columna que identifique los grupos y los nombres de las variables p que serán utilizadas para discriminar sobre los grupos:



• Factor de Clasificación: Columna numérica o no numérica conteniendo un identificador de

que grupo pertenece a cada observación. Debe haber valores únicos de g en esta columna. • Datos: Los nombres de las variables p que serán usadas para discriminar acerca de los

grupos. • Etiquetas de Puntos: Etiquetas opcionales para cada observación. • Selección: Selección de un subconjunto de los datos.

Modelo Estadístico La meta del procedimiento de Análisis Discriminante es la construcción de combinaciones lineales de p variables de entrada que discriminen mejor acerca de los g grupos. El j-ésimo función discriminante toma la forma de:

pjpjjj ZdZdZdD +++= ...2211 (1) donde las Z’s son las variables de entrada X estandarizadas, creadas restando la media muestral y dividiendo entre la desviación estándar muestral. Las s funciones discriminantes son encontradas por la determinación de eigenvalores por:

BW 1− (2) donde W es la suma de cuadrados de la muestra dentro de grupos y la matriz de producto-cruzado y B es la suma de cuadrados de la muestra entre grupos y la matriz de producto-cruzado. Los coeficientes de las funciones discriminadoras son derivadas de los eigenvectores. Básicamente, las funciones discriminantes son derivadas para maximizar la separación de los grupos. Para clasificar nuevos casos dentro de grupos, las funciones de clasificación también son derivadas. Para clasificar una observación, una puntuación es derivada para cada grupo. La puntuación para el j-ésimo grupo es calculado por:

02211 ... jpjpjjj cXcXcXcC ++++= (3) Nuevos casos son clasificados como perteneciendo a cualquier grupo si tiene el valor más grande de Cj * a priorij. donde a priorij es la probabilidad a priori de pertenecer al j-ésimo grupo. Los a priori se pueden ingresar por el usuario, la estimación de los datos, o asumir que son iguales. Resumen del Análisis La tabla del Resumen del Análisis se muestra abajo:



Análisis Discriminante Variable de clasificación: Species (type of iris) Variables independientes: Sepal length (centimeters) Sepal width (centimeters) Petal length (centimeters) Petal width (centimeters) Número de casos completos: 150 Número de grupos: 3 Función Eigenvalor Porcentaje Correlación Discriminante Relativo Canónica 1 32.1919 99.12 0.98482 2 0.285391 0.88 0.47120

Funciones Lambda Derivadas de Wilks Chi-Cuadrada GL Valor-P 1 0.0234386 546.1153 8 0.0000 2 0.777973 36.5297 3 0.0000

Se despliega en la sección superior de la tabla: • Nombres de Variables: Los nombres de las p variables de entrada. • Número de Casos Completos: El número de casos n para los cuales no se cuenta con ningún

dato en blanco. • Número de Grupo: Número de diferentes grupos g dentro de los cuales los casos serán

divididos. • Función Discriminante: El índice de la función discriminante j. • Eigenvalor: λj, el j-ésimo eigenvalor de . BW 1−

• Porcentaje Relativo: El porcentaje de la suma de varianzas de las p variables independientes

considerado por el j-ésimo función discriminante, calculado dividiendo el j-ésimo eigenvalor por la suma de todos los eigenvalores.

• Correlación Canónica: La correlación canónica asociada con el j-ésimo eigenvalor,

calculado de

2*jρ

J

jj λ

λρ

+=

12* (4)

el cual representa la habilidad relativa para discriminar sobre los grupos.

• Lamda de Wilk: Un estadístico calculado de las correlaciones canónicas de acuerdo a

(∏=

−=Λq

jiij

2*1 ρ ) (5)



• Chi-Cuadrada: Una prueba estadística utilizada para probar la hipótesis de que todas las

correlaciones canónicas numeradas por j son iguales a 0. Esto se calcula por

( ) jgpn Λ⎟⎠⎞

⎜⎝⎛ +−−−=Χ ln

2112 (6)

• g.l.: Los grados de libertad (p-j+1)(g-j) asociados con el estadístico Chi-Cuadrada. • Valor-P: Un valor-p unilateral para lo observado en la prueba Chi-Cuadrada. Valores P

pequeños (menor que 0.05 si esta operando en un nivel de significancia del 5%) corresponde para las funciones discriminantes que son significativamente diferentes de cero.

En el ejemplo, ambas funciones discriminantes son estadísticamente significativas, aunque las primeras consideran la mayor parte de la varianza en los datos.

Opciones del Análisis La caja de dialogo de Opciones del Análisis determina si todas las variables p deberán incluirse en el análisis o si el procedimiento para la selección de variables paso a paso deberá utilizarse potencialmente para seleccionar solamente un subconjunto de las variables:

• Estimar – Especifica si todas las variables independientes especificadas sobre la caja de

dialogo de la entrada de datos deberán incluirse en el modelo final, o si una selección de la variables paso a paso será aplicada s. Un ejemplo de la regresión paso a paso se incluye abajo.

• F-para-Ingresar – En una regresión paso a paso, las variables que deberán ingresar dentro

del modelo en un paso calculado si sus valores F son mayor o igual al valor especificado en F-para-Ingresar.



• F-para-Remover - En una regresión paso a paso, las variables que deberán removerse del modelo en un paso calculado si sus valores F son menor que el valor especificado en F-para-Remover.

• Pasos Máximos – El número máximo de pasos permitidos cuando se realiza una regresión

paso a paso. • Desplegar – Si se presentan los resultados de cada paso cuando se realiza una regresión paso

a paso. Ejemplo – Regresión Paso a Paso Las Opciones del Análisis deberán usarse para desarrollar una elección de selección paso a paso hacia atrás o paso a paso hacia adelante.

• Selección Hacia Atrás – Comienza con un modelo que implica solamente al término constante e ingresa una variable a la vez basado sobre la significancia estadística si se agrega al modelo actual. En cada paso, el algoritmo trae al modelo la variable que podrá ser la de mayor significancia estadística si se ingresa. La selección de las variables esta basada en una prueba F-para-Ingresar. Mientras las variables más significativas tengan un valor F mayor o igual al especificado en la caja de dialogo Resumen del Análisis, será incluida al modelo. Cuando ninguna variable tiene un valor más grande que F, la selección de las variables para. Además, las variables incorporadas al modelo inicial con el procedimiento pueden ser removidas más adelante si sus valores F caen abajo del criterio F-para-Remover.

• Selección Hacia Adelante – Comienza con un modelo implicando todas las variables especificadas en la caja de dialogo entrada de datos y remueve una sola variable a la vez basando en la significancia estadística del modelo actual. En cada paso, el algoritmo remueve del modelo la variable que podrá ser la de menor significancia estadística. Las variables removidas están basadas sobre la prueba F-para-Remover. Si la variable de menor significancia tiene un valor menor que la F especificada sobre la caja en la caja de dialogo Resumen del Análisis, entonces se podrá remover del modelo. Cuando todas las variables removidas tengan un valor más grande que F, la selección de las variables para. Además, las variables removidas del modelo inicial con el procedimiento pueden ser reincorporadas más adelante si sus valores F cae debajo del criterio F-para-Ingresar.

La salida de abajo muestra los resultados de una Selección Hacia Atrás para los datos del ejemplo:

Regresión por pasos Método: selección hacia adelante F para introducir: 4.0 F para eliminar: 4.0 Paso 0: 0 variables en el modelo. Paso 1: Agregando variable Petal length con F para introducir = 1180.16 1 variables en el modelo. Lambda de Wilk = 0.0586283 F aproximada = 1180.16 con valor-P = 0.0000



Paso 2: Agregando variable Sepal width con F para introducir = 43.0355 2 variables en el modelo. Lambda de Wilk = 0.0368841 F aproximada = 307.105 con valor-P = 0.0000 Paso 3: Agregando variable Petal width con F para introducir = 34.5687 3 variables en el modelo. Lambda de Wilk = 0.0249755 F aproximada = 257.503 con valor-P = 0.0000 Paso 4: Agregando variable Sepal length con F para introducir = 4.72115 4 variables en el modelo. Lambda de Wilk = 0.0234386 F aproximada = 199.145 con valor-P = 0.0000 Modelo final seleccionado.

Todas las cuatros variables se adicionan significativamente al ajuste cuando son incorporadas.

Gráfico de Dispersión 2D El Gráfico de Dispersión 2D grafica los datos de cualquier par de variables X.

Diagrama de Dispersión

4.3 5.3 6.3 7.3 8.3Sepal length

2

2.4

2.8

3.2

3.6

4

4.4

Sepa

l wid

th

Speciessetosa versicolor virginica



Opciones del Panel

Seleccione las variables a definir en los ejes horizontal y vertical.

Gráfico de Dispersión 3D El Gráfico de Dispersión 3D grafica los datos de cualquier tercia de variables X.

Diagrama de Dispersión

4.3 5.3 6.3 7.3 8.3Sepal length

2 2.42.83.23.644.4

Sepal width

0

2

4

6

8

Peta

l len

gth

Speciessetosa versicolor virginica



Opciones del Panel

Seleccione las variables a definir en los tres ejes.

Estadísticas por Grupo Esta tabla despliega la media muestral y desviación estándar muestral para cada una de las p variables en cada uno de los g grupos.

Resumen Estadístico por Grupo Species setosa versicolor virginica TOTAL RECUENTO 50 50 50 150 MEDIAS Sepal length 5.006 5.936 6.588 5.84333 Sepal width 3.428 2.77 2.974 3.05733 Petal length 1.462 4.26 5.552 3.758 Petal width 0.246 1.326 2.026 1.19933 DESVIACIONES ESTD. Sepal length 0.35249 0.516171 0.63588 0.828066 Sepal width 0.379064 0.313798 0.322497 0.435866 Petal length 0.173664 0.469911 0.551895 1.7653 Petal width 0.105386 0.197753 0.27465 0.762238



Correlaciones por Grupos Esta tabla muestra la estimación combinada dentro-grupos de las matrices de covarianza y correlación.

Estadísticas agrupadas Dentro-de-Grupo para Species Matriz de Covarianza Dentro-de-Grupo Sepal length Sepal width Petal length Petal width Sepal length 0.265008 0.0927211 0.167514 0.0384014 Sepal width 0.0927211 0.115388 0.0552435 0.0327102 Petal length 0.167514 0.0552435 0.185188 0.0426653 Petal width 0.0384014 0.0327102 0.0426653 0.0418816

Matriz de Correlación Dentro-de-Grupo Sepal length Sepal width Petal length Petal width Sepal length 1.0 0.530236 0.756164 0.364506 Sepal width 0.530236 1.0 0.377916 0.470535 Petal length 0.756164 0.377916 1.0 0.484459 Petal width 0.364506 0.470535 0.484459 1.0

Funciones Discriminantes Las Funciones Discriminantes son combinaciones lineales de las variables de entrada usadas para separar los datos en diferentes grupos. Este panel muestra ambos los coeficientes estandarizados y sin estandarizar:

Coeficientes de la Función Discriminante para Species A 1 2 Sepal length 0.426955 0.0124075 Sepal width 0.521242 0.735261 Petal length -0.947257 -0.401038 Petal width -0.575161 0.58104

Coeficientes Sin Estandarizar 1 2 Sepal length 0.829378 0.0241021 Sepal width 1.53447 2.16452 Petal length -2.20121 -0.931921 Petal width -2.81046 2.83919 CONSTANTE 2.10511 -6.66147

La j-ésima función discriminante toma la forma

pjpjjj ZdZdZdD +++= ...2211 (7)

donde las Z son la forma estandarizada de las variables X de entrada, creadas por la resta de la media muestral dividida entre la desviación estándar muestral. La j-ésima función discriminante sin estandarizar toma la forma de

02211 ... jpjpjjj uXuXuXuU ++++= (8) Cuando las variables están en unidades diferentes o tiene distintas varianzas, más provecho se obtiene de los coeficientes estandarizados.



En los datos del ejemplo, note que la primer función discrimínate es básicamente un contraste entre el tamaño del sépalo. La segunda función discriminante es primariamente un contraste entre la combinación del ancho del sépalo y pétalo y el largo del pétalo. Grafica de Funciones Discriminantes Este panel despliega los valores de cualquier par de funciones discriminantes para cada uno de n casos.

Gráfica de Funciones Discriminantes

-10 -6 -2 2 6 10Función 1

-2.7

-1.7

-0.7

0.3

1.3

2.3

3.3

Func

ión

2

Speciessetosa versicolor virginica Centroides

Es de mucha ayuda en la visualización de que también las funciones separan los datos. Claramente, la primer función separa completamente setosa de las otras dos especies, dejando una cantidad pequeña de traslapes entre versicolor y virginica. La segunda función discriminante puede ayudar un poco a separar las últimas dos especies. Adicionalmente a las observaciones, la localización de las medias de los valores de las funciones discriminantes para cada grupo son mostradas con signos +.



Opciones del Panel

Introduce el número de las dos funciones discriminantes para graficar en el eje horizontal y en el eje vertical.

Centroides de Grupos El panel muestra el centroide o los valores medios para cada uno de los g grupos en cada una de las s funciones discriminantes

Centroides de Grupo para Species Grupo 1 2 setosa 7.6076 0.215133 versicolor -1.82505 -0.7279 virginica -5.78255 0.512767

Funciones de Clasificación Las funciones de clasificación son usadas para determinar a cual de los g grupos una muestra cualquiera parece pertenecer:

Coeficientes de la Función de Clasificación para Species setosa versicolor virginica Sepal length 23.5442 15.6982 12.4458 Sepal width 23.5879 7.07251 3.68528 Petal length -16.4306 5.21145 12.7665 Petal width -17.3984 6.43423 21.0791 CONSTANTE -86.3085 -72.8526 -104.368

Una puntuación será calculada para cada observación i y cada grupo j de acuerdo a

ipjpijijij XcXcXcC +++= ...2211 (9) Si los datos son asumidos que proviene de una distribución normal multivariada, entonces los scores son relacionados a las probabilidades de que una observación pertenezca a un grupo particular.



Tabla de Clasificación La Tabla de Clasificación muestra el resultado de usar la regla de clasificación para asigna casos observados y nuevos casos a grupos. Para un conjunto de valores X dado, un caso es asignado al grupo que corresponde el valor más grande, donde a priori rjij priorC * j es la probabilidad a priori de que un individuo provenga del grupo j. Ya que el tamaño de población de cada grupo no es el mismo, la probabilidad de que un individuo pertenezca a un grupo particular a priori puede variar de grupo a grupo. Por ejemplo, en investigación para una enfermedad, la proporción de individuos dada una prueba de diagnostico quienes actualmente han tenido un enfermedad puede ser muy pequeña, un hecho que necesitamos tomar en cuenta. Usando Opciones de Panel, el usuario especifica como manejar las probabilidades a priori. Puede asumir ser la misma para todos los grupos, ser proporcional a la fracción de datos dentro de cada grupo. O ser introducida por el usuario.

La tabla muestra una salida típica:

Tabla de Clasificación Actual Tamaño Predicho Species Species de Grupo setosa versicolor virginica setosa 50 50 0 0 (100.00%) ( 0.00%) ( 0.00%) versicolor 50 0 48 2 ( 0.00%) ( 96.00%) ( 4.00%) virginica 50 0 1 49 ( 0.00%) ( 2.00%) ( 98.00%)

Porcentaje de casos correctamente clasificados: 98.00% Probabilidad Grupo Previa 1 0.3333 2 0.3333 3 0.3333

Grupo Grupo Valor Distancia 2° Grupo 2° Valor Distancia Fila Actual Más Alto Más Alto Cuadrada Prob. Más Alto Más Alto Cuadrada Prob. 71 versicolor *virginica 80.0769 4.55382 0.7468 versicolor 78.9954 6.71675 0.2532 84 versicolor *virginica 79.093 3.59634 0.8566 versicolor 77.3056 7.17114 0.1434 134 virginica *versicolor 82.0789 4.0068 0.7294 virginica 81.0874 5.98984 0.2706 151 virginica 99.945 0.73244 0.9996 versicolor 91.9996 16.6234 0.0004

* = incorrectamente clasificado. La parte de arriba muestra que tan bien la regla de clasificación realizo la clasificación de los datos del ejemplo. Cada renglón tabula los resultados para los casos que actualmente pertenecen a un grupo en particular. Las columnas muestran que tan frecuente fueron clasificados como pertenecientes a cada grupo. En la parte de abajo se muestra el porcentaje de casos que fueron correctamente clasificados. La parte del centro de la tabla muestra las probabilidades a priori. Para los datos del ejemplo, las probabilidades a priori fueron asumidas ser las mismas para todos los grupos. La parte más baja de la tabla muestra los dos grupos que recibieron los scores más altos para los casos seleccionados. La tabla muestra:



1. El grupo mas grande y el segundo mas grande– Los dos grupos con las puntuaciones mas altas.

2. Valores – Los valores de los scores calculados para los dos grupos. 3. Distancias Cuadradas – La distancia cuadrada de Mahalanobis de las observaciones

de los centroides de los grupos, en el espacio de las funciones discriminantes. La lejanía de una observación al centroide del grupo, el que parece menos pertenecer al grupo.

4. Probabilidad – La probabilidad estimada de que el caso pertenezca a un grupo. La probabilidad es basada en la razón de la altura de la función de densidad normal en la distancia de la observación de cada centroide de grupo y en las probabilidades a priori.

Por ejemplo, suponga que un nuevo iris fue observado con las siguientes características:

sepal length = 6.6 inches sepal width = 2.9 inches petal length = 5.1 inches petal width = 2.2 inches

Estos valores estarían en el renglón #151 de la hoja de datos. La tabla muestra que el grupo con la puntuación más alta para estos valores es virginica, seguida por versicolor. La gran diferencia entre las distancias y así las probabilidades posteriores implican que la muestra parece pertenecer mas a el grupo virginica. Opciones del Panel

• Probabilidades a Priori: Método para determinar la probabilidad de pertenencia un grupo

antes de que los datos sean examinados. Selecciona Todos los Grupos Iguales para asumir a priori iguales para todos los grupos, Proporcional a lo Observado para fijar las a prioris igual



a la fracción de n representada por cada grupo, o Usar-Especificada para introducir una columna con g valores que sumen 1.

• Despliega: Todos los Datos desplegaran todas las observaciones en la hoja de datos,

clasificado equivocadamente y Nuevas Observaciones desplegaran cualquier caso que fue clasificado equivocadamente o que tiene un valor perdido para el indicador del grupo, mientras que Nuevas Observaciones solamente desplegaran los datos no usados para determinar las funciones discriminantes.

Guardar Resultados Los siguientes resultados pueden ser guardados en una hoja de datos:

1. Valores de la Función Discriminante - Los valores D de las funciones discriminantes para cada una de n observaciones.

2. Coeficientes de la Función de Clasificación – Los valores C de las funciones de clasificación para cada una de n observaciones.

3. Coeficientes Estandarizados - s columnas que contienen los valores de los p coeficientes dij de cada función discriminante estandarizada.

4. Coeficientes no Estandarizados - s columnas que contienen los valores de los p+1 coeficientes uij de cada función discriminante no estandarizada.

5. Probabilidades Previas – Las probabilidades a priori de pertenecer a cada uno de los g grupos.

6. Medias de Variables – Las medias de cada una de las p variables X. 7. Desviaciones Estándar de Variables – Las desviaciones estándar muéstrales de cada una

de las p variables X.

análisis discriminante

Documents