el principio de los “mínimos cuadrados” - polymtl.ca · el principio de los “mínimos ......
Post on 30-Jul-2018
223 Views
Preview:
TRANSCRIPT
NAMP Módulo 17: “Introducción al Análisis Multivariable” Tier 1, Part 1, Rev.: 0
El Principio de los “MínimosCuadrados”
• La regresión trata de generar la “ecuación de mejor ajuste” ---pero ¿qué es lo “mejor”?
• Criterio: minimizar la suma de las desviaciones cuadradas de los puntos de datos de la regresión lineal.
NAMP Módulo 17: “Introducción al Análisis Multivariable” Tier 1, Part 1, Rev.: 0
¿Qué tan Buena es la Regresión (Parte 1) ?
(Suma de los cuadrados de la media de Y)
(Suma de los cuadrados de la regresión lineal)
¿Qué tan bien representa nuestros datos originales la ecuación de regresión?
La proporción (porcentaje) de la varianza en y que es explicada por la ecuación de regresión es representada por el símbolo R2.
R2 =
NAMP Módulo 17: “Introducción al Análisis Multivariable” Tier 1, Part 1, Rev.: 0
Variabilidad Ajustada - ilustración
R2 Alto- buen ajuste R2 Bajo- poco ajuste
NAMP Módulo 17: “Introducción al Análisis Multivariable” Tier 1, Part 1, Rev.: 0
¿Qué tan Buena es la Regresión (Parte 2) ?
• Recuerde que empleó una muestra de la población de los puntos de datos potenciales para determinar la ecuación de regresión.– e.g. un valor cada 15 minutos, 1-2 semanas de operación de
datos
• Una muestra diferente dará una ecuación diferente con diferentes coeficientes de bi
• Como se muestra en la siguiente diapositiva, la muestra puede afectar enormemente la ecuación de regresión…
¿Qué tan bien predecirá esta ecuación de regresión los NUEVOS puntos de datos?
NAMP Módulo 17: “Introducción al Análisis Multivariable” Tier 1, Part 1, Rev.: 0
Muestreando variablidad de los Coeficientes de Regresión- ilustración
Sample 1: y = a'x + b' + Sample 2: y = a''x + b'' + Muestra 1: y = a’x + b’ + e Muestra 2: y = a’’x + b’’ + e
NAMP Módulo 17: “Introducción al Análisis Multivariable” Tier 1, Part 1, Rev.: 0
Límites de Confianza
• Los límites de confianza (x%) son las fronteras superior e inferior que tienen una probabilidad x% de encerrar el valor de población verdadero de una variable dada
• Generalmente mostradas como barras arriba y debajo de un punto de dato predicho:
NAMP Módulo 17: “Introducción al Análisis Multivariable” Tier 1, Part 1, Rev.: 0
Normalización de los Datos
• Los datos empleados para la regresión son usualmente normalizados para tener una media de cero y varianza de uno.
• De otra forma los cálculos estarían dominados (parcializados) por variables, presentándose:– valores numéricos muy grandes– varianza grande
• Esto significa que el software del AMV nunca ve los datos originales, sólo la versión normalizada
NAMP Módulo 17: “Introducción al Análisis Multivariable” Tier 1, Part 1, Rev.: 0
Normalización de los Datos -ilustración
Cada variable es representada por una barra de varianza y su media (centro).
Datos sinprocesar
Sólo Media-centrada
SóloVarianza-centrada Normalizada
NAMP Módulo 17: “Introducción al Análisis Multivariable” Tier 1, Part 1, Rev.: 0
Requisitos para la Regresión• Requerimientos de los Datos
– Datos normalizados– Errores normalmente distribuidos con media cero– Variables independientes no correlacionadas
• Implicaciones si los Requerimientos No se Logran– Mayores límites de confianza alrededor de los coeficientes de
regresión (bi)– Predicción más pobre de nuevos datos
NAMP Módulo 17: “Introducción al Análisis Multivariable” Tier 1, Part 1, Rev.: 0
Análisis Multivariable
1. Análisis del Componente Principal (ACP)• Sólo X’s
2. Proyecciones a las Estructuras Latentes (PEL)• a.k.a. “Mínimos Cuadrados Parciales”• X’s y Y’s X Y
Puede ser la misma base de datos, i.e., puedes hacer el ACP en sobre la totalidad de la muestra (X’s y Y’s juntos)
Puede ser la misma base de datos, i.e., puedes hacer el ACP en sobre la totalidad de la muestra (X’s y Y’s juntos)
Ahora estamos listos para empezar a hablar acerca del análisis multivariable (AMV). Existen dos tipos principales de AMV:
Empecemos con el ACP. Note que el ejemplo de la comida europea al principio fue ACP, debido a todos los tipos de comidafueron tratados como equivalentes.
Xx
NAMP Módulo 17: “Introducción al Análisis Multivariable” Tier 1, Part 1, Rev.: 0
Propósito del ACPEl propósito del ACP es el de proyectar un espacio de datos con un
gran número de dimensiones correlacionadas (variables) en un segundo espacio de datos con un número mucho menor de dimensiones independientes (ortogonal).
Esto es justificable científicamente gracias a la Navaja de Ockham. Muy en el fondo, la Naturaleza ES simple. Seguido, la dimensión espacial más baja corresponde más de cerca a lo que estásucediendo en un nivel físico.
El reto es interpretar los resultados del de una forma científicamente válida.
Recordatorio…“Navaja de Ockham”
NAMP Módulo 17: “Introducción al Análisis Multivariable” Tier 1, Part 1, Rev.: 0
Entre las ventajas del ACP están:
• Las variables no correlacionadas se prestan para el análisis estadístico tradicional
• Espacios de bajas dimensiones que son más fáciles para trabajar• Las nuevas dimensiones muy a menudo, representan más
claramente la base de la estructura de los grupos de variables (nuestro amigo Ockham)
Ventajas del ACP
+1 -1
Recordatorio…“Atributos Latentes”
NAMP Módulo 17: “Introducción al Análisis Multivariable” Tier 1, Part 1, Rev.: 0
Cómo funciona el ACP (Concepto)
• Encontrar un componente (vector de dimensión) que ajuste la mayor cantidad de variaciones de x como sea posible
• Encontrar un segundo componente que:– sea ortgonal al (no correlacionado con) primero– ajuste la mayor cantidad posible de los restos de la
variación de x• El proceso continua hasta que el investigador esté
satisfecho o el ajuste sea mínimo.
El ACP es un proceso paso a paso. Así es como funciona conceptualmente:
NAMP Módulo 17: “Introducción al Análisis Multivariable” Tier 1, Part 1, Rev.: 0
Cómo Trabaja el ACP (Matemáticas)
• Considerar una (n x k) matríz de datos X(n observaciones, k variables)
• Modelos PCS como (asumiendo datos normalizados):
X = T * P’ + E
• donde T son los valores de cada observación de los nuevos componentes
P son las cargas de las variables originales en los nuevos componentes
E matriz residual, conteniendo el ruido
ComoComo en la en la regresiregresióónnlinearlinear ssóólolo se se usanusanmatricesmatrices
Así es como trabaja el ACP matemáticamente:
NAMP Módulo 17: “Introducción al Análisis Multivariable” Tier 1, Part 1, Rev.: 0
3 variablesoriginales
X1
X3
X2La nube de datos (en rojo) es proyectada en un plano definido por los primeros 2 componentes
. .
. ...
. . .
.
. .
Cómo Trabaja el ACP (Visualmente)El ACP trabaja visualmente proyectando la nube de datos multidimensionales en un “hiperplano” definido por los primeros dos componentes. La imagen muestra esto en 3-D, para que sea sencillo de entender, pero en realidad puede haber una docena de o hasta cientos de dimensiones:
proyecciónplano
er
do
NAMP Módulo 17: “Introducción al Análisis Multivariable” Tier 1, Part 1, Rev.: 0
Número de ComponentesLos componentes son simplemente los nuevos ejes que son creados para ajustar la mayoría de la varianza con el menor número de dimensiones. La metodología del ACP asegura que los componentes sean extraídos en orden decreciente de la varianza. En otras palabras, el primer componente siempre ajusta la mayoría de la varianza, el segundo ajusta la mayoría restante de la varianza, y así sucesivamente:
1 2 3 4 5 6 . . .
Eventualmente, los componentes de mayor nivel representan principalmente ruido. Esto es algo bueno, y de hecho una de las razones por las cuales se usa el ACP. Debido a que el ruido es relegado a los componentes de alto nivel, éste está ausente en los primeros componentes. Esto se debe a que todos los componentes son ortogonales el uno del otro, lo que significa que son estadísticamente independientes o no correlacionados.
NAMP Módulo 17: “Introducción al Análisis Multivariable” Tier 1, Part 1, Rev.: 0
El Criterio de los Eigenvalores
• Eigenvalores de la matriz A :– Definida matemáticamente por (A - λI) = 0– Útil como “medida de importancia” para las
variables
Existen dos maneras de determinar cuándo dejar de crear nuevos componentes:
–Criterio Eigenvalor
–Scree test
La primera de éstas usa la siguiente definición matemática:
Usualmente, componentes con eigenvalores menores de uno son descartados, ya que presentan menos poder de definición que el que presentaban originalmente las variables originales.
NAMP Módulo 17: “Introducción al Análisis Multivariable” Tier 1, Part 1, Rev.: 0
El Criterio del Punto de Inflexión (Scree Test)
El segundo método es una simple técnica gráfica:
• Gráfica de los eigenvaloresvs. número de componentes
• Extraer componentes hasta el punto donde se estabiliza la “gráfica”
• La cola derecha de la curva es “rocosa” (como la parte inferior de una pendiente rocosa)
1 2 3 4 5 6Componente #
8
7
6
5
4
3
2
1
Eige
nval
ores
NAMP Módulo 17: “Introducción al Análisis Multivariable” Tier 1, Part 1, Rev.: 0
Interpretación de los Componentes del ACP
• Basar en la fuerza y dirección de las cargas• Identificar los conjuntos de variables que pudieran estar físicamente
relacionadas o que provienen de un origen común– e.g., En la producción de papel, las propiedades de fortaleza
tales como rasgado, ruptura, longitud de rompimiento en el papel están todas relacionadas a la longitud y enlaces de las fibras iniciales.
Como cualquier tipo de AMV, la parte más complicada del ACP es la interpretación de los componentes. El software es 100% matemático y da las mismas soluciones aún si los datos están relacionados al consumo de diesel o a los resultados de las carreras de caballos. El ingeniero es el que debe de dar sentido a las soluciones del software. En general, se debe de:
NAMP Módulo 17: “Introducción al Análisis Multivariable” Tier 1, Part 1, Rev.: 0
¿Cuál es la diferencia entre ACP y PEL?
Las PEL son una versión de regresión multivariables. Usa dos modelos diferentes de ACP, uno para las X’s y otro par alas Y’s, y encuentra el enlace entre las dos.
Matemáticamente, la diferencia es:
En el ACP, la varianza ajustada por el modelo es maximizada.
En las PEL, se maximiza la covarianza.
ACP vs. PEL
Xx
X Y
NAMP Módulo 17: “Introducción al Análisis Multivariable” Tier 1, Part 1, Rev.: 0
Cómo Trabaja el PEL (Concepto)
• PEL encuentra una serie de componentes ortogonales que:– maximizan el nivel de ajuste de la X e Y– provén de una ecuación predictora para Y en términos de las X’s
• Esto se logra mediante:– Ajuste de un grupo de componentes a X (como en ACP)– Similarmente ajustar un grupo de componentes a Y– Combinar los dos grupos de componentes de tal manera que se
maximice el ajuste de X e Y
El PEL también es un proceso paso-a-paso. Así es como funciona conceptualmente:
NAMP Módulo 17: “Introducción al Análisis Multivariable” Tier 1, Part 1, Rev.: 0
Cómo Traba el PEL (Matemáticas)
• X = TP’ + E relación externa para X (como ACP)
• Y = UQ’ + F relación externa para Y (como ACP)
• uh = bhth relación interna para los componentesh = 1,…,(# de componentes)
Los factores de peso w son usados para asegurarse que las dimensiones son ortogonales
Así es como trabaja el PEL matemáticamente:
NAMP Módulo 17: “Introducción al Análisis Multivariable” Tier 1, Part 1, Rev.: 0
PEL – la “Relación Interna”
Los 3 son resueltos simultáneamente vía métodos
numéricos
La forma como trabaja el PEL visualmente es “enrollando” los dos modelos del ACP (X e Y) hasta que su covarianza es optimizada. Es este “enrollado” lo que produce el nombre de mínimos cuadrados parciales.
NAMP Módulo 17: “Introducción al Análisis Multivariable” Tier 1, Part 1, Rev.: 0
Interpretación de los Componentes del PEL
La interpretación de los resultados del PEL presenta todas las dificultades del ACP, además de uno más: dar sentido a los componentes individuales del espacio X e Y.
En otras palabras, para que los resultados tengan sentido, el primer componente de X debe estar relacionado de alguna manera con el primer componente de Y.
Observe que a lo largo de este curso, la palabras “causa” y “efecto” están ausentes. El AMV determina SÓLO las correlaciones. La única excepción es cuando se ha empleado un adecuado diseño del experimento.
Este es un ejemplo de una falsa correlación: las semillas en un alimentador de aves permanece lleno todo el invierno, pero desaparece de repente en primavera. Usted concluye que el clima cálido hicieron desintegrase a las semillas…
NAMP Módulo 17: “Introducción al Análisis Multivariable” Tier 1, Part 1, Rev.: 0
• Resultados– Gráficas de Resultados– Gráficas de Entradas
• Diagnósticos– Gráficas de Residuos– Observado vs. Predicho– …(muchas más)
Tipo de Salidas del AMV
Ya estudiadas…
El software del AMV genera dos tipos de salidas: resultados y diagnósticos. Hemos visto la gráfica de Resultados y Entradas en el ejemplo de la comida. Algunos otros son mostrados en las siguientes diapositivas.
NAMP Módulo 17: “Introducción al Análisis Multivariable” Tier 1, Part 1, Rev.: 0
• También llamado “Modelo a Distancia” (DModX)– Contiene todo el ruido– Definición:
DModX = (Σ eik2 / D.F.)1/2
• Empleado para identificar salidas moderadas– Salidas extremas visibles en la Gráfica de Resultados
Residuales
1
2
3
4
5
1999
-11-
2319
99-1
1-24
1999
-11-
2519
99-1
1-26
1999
-11-
2719
99-1
1-28
1999
-11-
2919
99-1
1-30
1999
-12-
0119
99-1
2-02
1999
-12-
0319
99-1
2-04
1999
-12-
0519
99-1
2-06
1999
-12-
0719
99-1
2-08
1999
-12-
0919
99-1
2-10
1999
-12-
1119
99-1
2-12
1999
-12-
1319
99-1
2-14
1999
-12-
1519
99-1
2-16
1999
-12-
1719
99-1
2-18
1999
-12-
1919
99-1
2-20
1999
-12-
2119
99-1
2-22
1999
-12-
2319
99-1
2-24
1999
-12-
2519
99-1
2-26
1999
-12-
2719
99-1
2-28
1999
-12-
2919
99-1
2-30
2000
-01-
0020
00-0
1-01
2000
-01-
0220
00-0
1-03
2000
-01-
0420
00-0
1-05
2000
-01-
0620
00-0
1-07
2000
-01-
0820
00-0
1-09
2000
-01-
1020
00-0
1-11
2000
-01-
1220
00-0
1-13
2000
-01-
1420
00-0
1-15
2000
-01-
1620
00-0
1-17
2000
-01-
1820
00-0
1-19
2000
-01-
2020
00-0
1-21
2000
-01-
2220
00-0
1-23
2000
-01-
2420
00-0
1-25
2000
-01-
2620
00-0
1-27
2000
-01-
2820
00-0
1-29
2000
-01-
3020
00-0
1-31
2000
-02-
0120
00-0
2-02
2000
-02-
0320
00-0
2-04
2000
-02-
0520
00-0
2-06
2000
-02-
0720
00-0
2-08
2000
-02-
0920
00-0
2-10
2000
-02-
1120
00-0
2-12
2000
-02-
1320
00-0
2-14
2000
-02-
1520
00-0
2-16
2000
-02-
1720
00-0
2-18
2000
-02-
1920
00-0
2-20
2000
-02-
2120
00-0
2-22
2000
-02-
2320
00-0
2-24
2000
-02-
2520
00-0
2-26
2000
-02-
2720
00-0
2-28
2000
-02-
2920
00-0
3-01
2000
-03-
0220
00-0
3-03
2000
-03-
0420
00-0
3-05
2000
-03-
0620
00-0
3-07
2000
-03-
0820
00-0
3-09
2000
-03-
1020
00-0
3-11
2000
-03-
1220
00-0
3-13
2000
-03-
1420
00-0
3-15
2000
-03-
1620
00-0
3-17
2000
-03-
1820
00-0
3-19
2000
-03-
2020
00-0
3-21
2000
-03-
2220
00-0
3-23
2000
-03-
2420
00-0
3-25
2000
-03-
2620
00-0
3-27
2000
-03-
2820
00-0
3-29
2000
-03-
3020
00-0
3-31
2000
-04-
0120
00-0
4-02
2000
-04-
0320
00-0
4-04
2000
-04-
0520
00-0
4-06
2000
-04-
0720
00-0
4-08
2000
-04-
0920
00-0
4-10
2000
-04-
1120
00-0
4-12
2000
-04-
1320
00-0
4-14
2000
-04-
1520
00-0
4-16
2000
-04-
1720
00-0
4-18
2000
-04-
1920
00-0
4-20
2000
-04-
2120
00-0
4-22
2000
-04-
2320
00-0
4-24
2000
-04-
2520
00-0
4-26
2000
-04-
2720
00-0
4-28
2000
-04-
2920
00-0
4-30
2000
-05-
0120
00-0
5-02
2000
-05-
0320
00-0
5-04
2000
-05-
0520
00-0
5-06
2000
-05-
0720
00-0
5-08
2000
-05-
0920
00-0
5-10
2000
-05-
1120
00-0
5-12
2000
-05-
1320
00-0
5-14
2000
-05-
1520
00-0
5-16
2000
-05-
1720
00-0
5-18
2000
-05-
1920
00-0
5-20
2000
-05-
2120
00-0
5-22
2000
-05-
2320
00-0
5-24
2000
-05-
2520
00-0
5-26
2000
-05-
2720
00-0
5-28
2000
-05-
2920
00-0
5-30
2000
-05-
3120
00-0
6-01
2000
-06-
0220
00-0
6-03
2000
-06-
0420
00-0
6-05
2000
-06-
0620
00-0
6-07
2000
-06-
0820
00-0
6-09
2000
-06-
1020
00-0
6-11
2000
-06-
1220
00-0
6-13
2000
-06-
1420
00-0
6-15
2000
-06-
1620
00-0
6-17
2000
-06-
1820
00-0
6-19
2000
-06-
2020
00-0
6-21
2000
-06-
2220
00-0
6-23
2000
-06-
2420
00-0
6-25
2000
-06-
2620
00-0
6-27
2000
-06-
2820
00-0
6-29
2000
-06-
3020
00-0
7-01
2000
-07-
0220
00-0
7-03
2000
-07-
0420
00-0
7-05
2000
-07-
0620
00-0
7-07
2000
-07-
0820
00-0
7-09
2000
-07-
1020
00-0
7-11
2000
-07-
1220
00-0
7-13
2000
-07-
1420
00-0
7-15
2000
-07-
1620
00-0
7-17
2000
-07-
1820
00-0
7-19
2000
-07-
2020
00-0
7-21
2000
-07-
2220
00-0
7-23
2000
-07-
2420
00-0
7-25
2000
-07-
2620
00-0
7-27
2000
-07-
2820
00-0
7-29
2000
-07-
3020
00-0
7-31
2000
-08-
0120
00-0
8-02
2000
-08-
0320
00-0
8-04
2000
-08-
0520
00-0
8-06
2000
-08-
0720
00-0
8-08
2000
-08-
0920
00-0
8-10
2000
-08-
1120
00-0
8-12
2000
-08-
1320
00-0
8-14
2000
-08-
1520
00-0
8-16
2000
-08-
1720
00-0
8-18
2000
-08-
1920
00-0
8-20
2000
-08-
2120
00-0
8-22
2000
-08-
2320
00-0
8-24
2000
-08-
2520
00-0
8-26
2000
-08-
2720
00-0
8-28
2000
-08-
2920
00-0
8-30
2000
-08-
3120
00-0
9-01
2000
-09-
0220
00-0
9-03
2000
-09-
0420
00-0
9-05
2000
-09-
0620
00-0
9-07
2000
-09-
0820
00-0
9-09
2000
-09-
1020
00-0
9-11
2000
-09-
1220
00-0
9-13
2000
-09-
1420
00-0
9-15
2000
-09-
1620
00-0
9-17
2000
-09-
1820
00-0
9-19
2000
-09-
2020
00-0
9-21
2000
-09-
2220
00-0
9-23
2000
-09-
2420
00-0
9-25
2000
-09-
2620
00-0
9-27
2000
-09-
2820
00-0
9-29
2000
-09-
3020
00-1
0-01
2000
-10-
0220
00-1
0-03
2000
-10-
0420
00-1
0-05
2000
-10-
0620
00-1
0-07
2000
-10-
0820
00-1
0-09
2000
-10-
1020
00-1
0-11
2000
-10-
1220
00-1
0-13
2000
-10-
1420
00-1
0-15
2000
-10-
1620
00-1
0-17
2000
-10-
1820
00-1
0-19
2000
-10-
2020
00-1
0-21
2000
-10-
2220
00-1
0-23
2000
-10-
2420
00-1
0-25
2000
-10-
2620
00-1
0-27
2000
-10-
2820
00-1
0-29
2000
-10-
3020
00-1
0-31
2000
-11-
0120
00-1
1-02
2000
-11-
0320
00-1
1-04
2000
-11-
0520
00-1
1-06
2000
-11-
0720
00-1
1-08
2000
-11-
0920
00-1
1-10
2000
-11-
1120
00-1
1-12
2000
-11-
1320
00-1
1-14
2000
-11-
1520
00-1
1-16
2000
-11-
1720
00-1
1-18
2000
-11-
1920
00-1
1-20
2000
-11-
2120
00-1
1-22
2000
-11-
2320
00-1
1-24
2000
-11-
2520
00-1
1-26
2000
-11-
2720
00-1
1-28
2000
-11-
2920
00-1
1-30
2000
-12-
0120
00-1
2-02
2000
-12-
0320
00-1
2-04
2000
-12-
0520
00-1
2-06
2000
-12-
0720
00-1
2-08
2000
-12-
0920
00-1
2-10
2000
-12-
1120
00-1
2-12
2000
-12-
1320
00-1
2-14
2000
-12-
1520
00-1
2-16
2000
-12-
1720
00-1
2-18
2000
-12-
1920
00-1
2-20
2000
-12-
2120
00-1
2-22
2000
-12-
2320
00-1
2-24
2000
-12-
2520
00-1
2-26
2000
-12-
2720
00-1
2-28
2000
-12-
2920
00-1
2-30
2000
-12-
3120
01-0
1-01
2001
-01-
0220
01-0
1-03
2001
-01-
0420
01-0
1-05
2001
-01-
0620
01-0
1-07
2001
-01-
0820
01-0
1-09
2001
-01-
1020
01-0
1-11
2001
-01-
1220
01-0
1-13
2001
-01-
1420
01-0
1-15
2001
-01-
1620
01-0
1-17
2001
-01-
1820
01-0
1-19
2001
-01-
2020
01-0
1-21
2001
-01-
2220
01-0
1-23
2001
-01-
2420
01-0
1-25
2001
-01-
2620
01-0
1-27
2001
-01-
2820
01-0
1-29
2001
-01-
3020
01-0
1-31
2001
-02-
0120
01-0
2-02
2001
-02-
0320
01-0
2-04
2001
-02-
0520
01-0
2-06
2001
-02-
0720
01-0
2-08
2001
-02-
0920
01-0
2-10
2001
-02-
1120
01-0
2-12
2001
-02-
1320
01-0
2-14
2001
-02-
1520
01-0
2-16
2001
-02-
1720
01-0
2-18
2001
-02-
1920
01-0
2-20
2001
-02-
2120
01-0
2-22
2001
-02-
2320
01-0
2-24
2001
-02-
2520
01-0
2-26
2001
-02-
2720
01-0
2-28
2001
-03-
0120
01-0
3-02
2001
-03-
0320
01-0
3-04
2001
-03-
0520
01-0
3-06
2001
-03-
0720
01-0
3-08
2001
-03-
0920
01-0
3-10
2001
-03-
1120
01-0
3-12
2001
-03-
1320
01-0
3-14
2001
-03-
1520
01-0
3-16
2001
-03-
1720
01-0
3-18
2001
-03-
1920
01-0
3-20
2001
-03-
2120
01-0
3-22
2001
-03-
2320
01-0
3-24
2001
-03-
2520
01-0
3-26
2001
-03-
2720
01-0
3-28
2001
-03-
2920
01-0
3-30
2001
-03-
3120
01-0
4-01
2001
-04-
0220
01-0
4-03
2001
-04-
0420
01-0
4-05
2001
-04-
0620
01-0
4-07
2001
-04-
0820
01-0
4-09
2001
-04-
1020
01-0
4-11
2001
-04-
1220
01-0
4-13
2001
-04-
1420
01-0
4-15
2001
-04-
1620
01-0
4-17
2001
-04-
1820
01-0
4-19
2001
-04-
2020
01-0
4-21
2001
-04-
2220
01-0
4-23
2001
-04-
2420
01-0
4-25
2001
-04-
2620
01-0
4-27
2001
-04-
2820
01-0
4-29
2001
-04-
3020
01-0
5-01
2001
-05-
0220
01-0
5-03
2001
-05-
0420
01-0
5-05
2001
-05-
0620
01-0
5-07
2001
-05-
0820
01-0
5-09
2001
-05-
1020
01-0
5-11
2001
-05-
1220
01-0
5-13
2001
-05-
1420
01-0
5-15
2001
-05-
1620
01-0
5-17
2001
-05-
1820
01-0
5-19
2001
-05-
2020
01-0
5-21
2001
-05-
2220
01-0
5-23
2001
-05-
2420
01-0
5-25
2001
-05-
2620
01-0
5-27
2001
-05-
2820
01-0
5-29
2001
-05-
3020
01-0
5-31
2001
-06-
0120
01-0
6-02
2001
-06-
0320
01-0
6-04
2001
-06-
0520
01-0
6-06
2001
-06-
0720
01-0
6-08
2001
-06-
0920
01-0
6-10
2001
-06-
1120
01-0
6-12
2001
-06-
1320
01-0
6-14
2001
-06-
1520
01-0
6-16
2001
-06-
1720
01-0
6-18
2001
-06-
1920
01-0
6-20
2001
-06-
2120
01-0
6-22
2001
-06-
2320
01-0
6-24
2001
-06-
2520
01-0
6-26
2001
-06-
2720
01-0
6-28
2001
-06-
2920
01-0
6-30
2001
-07-
0120
01-0
7-02
2001
-07-
0320
01-0
7-04
2001
-07-
0520
01-0
7-06
2001
-07-
0720
01-0
7-08
2001
-07-
0920
01-0
7-10
2001
-07-
1120
01-0
7-12
2001
-07-
1320
01-0
7-14
2001
-07-
1520
01-0
7-16
2001
-07-
1720
01-0
7-18
2001
-07-
1920
01-0
7-20
2001
-07-
2120
01-0
7-22
2001
-07-
2320
01-0
7-24
2001
-07-
2520
01-0
7-26
2001
-07-
2720
01-0
7-28
2001
-07-
2920
01-0
7-30
2001
-07-
3120
01-0
8-01
2001
-08-
0220
01-0
8-03
2001
-08-
0420
01-0
8-05
2001
-08-
0620
01-0
8-07
2001
-08-
0820
01-0
8-09
2001
-08-
1020
01-0
8-11
2001
-08-
1220
01-0
8-13
2001
-08-
1420
01-0
8-15
2001
-08-
1620
01-0
8-17
2001
-08-
1820
01-0
8-19
2001
-08-
2020
01-0
8-21
2001
-08-
2220
01-0
8-23
2001
-08-
2420
01-0
8-25
2001
-08-
2620
01-0
8-27
2001
-08-
2820
01-0
8-29
2001
-08-
3020
01-0
8-31
2001
-09-
0120
01-0
9-02
2001
-09-
0320
01-0
9-04
2001
-09-
0520
01-0
9-06
2001
-09-
0720
01-0
9-08
2001
-09-
0920
01-0
9-10
2001
-09-
1120
01-0
9-12
2001
-09-
1320
01-0
9-14
2001
-09-
1520
01-0
9-16
2001
-09-
1720
01-0
9-18
2001
-09-
1920
01-0
9-20
2001
-09-
2120
01-0
9-22
2001
-09-
2320
01-0
9-24
2001
-09-
2520
01-0
9-26
2001
-09-
2720
01-0
9-28
2001
-09-
2920
01-0
9-30
2001
-10-
0120
01-1
0-02
2001
-10-
0320
01-1
0-04
2001
-10-
0520
01-1
0-06
2001
-10-
0720
01-1
0-08
2001
-10-
0920
01-1
0-10
2001
-10-
1120
01-1
0-12
2001
-10-
1320
01-1
0-14
2001
-10-
1520
01-1
0-16
2001
-10-
1720
01-1
0-18
2001
-10-
1920
01-1
0-20
2001
-10-
2120
01-1
0-22
2001
-10-
2320
01-1
0-24
2001
-10-
2520
01-1
0-26
2001
-10-
2720
01-1
0-28
2001
-10-
2920
01-1
0-30
2001
-10-
3120
01-1
1-01
2001
-11-
0220
01-1
1-03
2001
-11-
0420
01-1
1-05
2001
-11-
0620
01-1
1-07
2001
-11-
0820
01-1
1-09
2001
-11-
1020
01-1
1-11
2001
-11-
1220
01-1
1-13
2001
-11-
1420
01-1
1-15
2001
-11-
1620
01-1
1-17
2001
-11-
1820
01-1
1-19
2001
-11-
2020
01-1
1-21
2001
-11-
2220
01-1
1-23
2001
-11-
2420
01-1
1-25
2001
-11-
2620
01-1
1-27
2001
-11-
2820
01-1
1-29
2001
-11-
3020
01-1
2-01
2001
-12-
0220
01-1
2-03
2001
-12-
0420
01-1
2-05
2001
-12-
0620
01-1
2-07
2001
-12-
0820
01-1
2-09
2001
-12-
1020
01-1
2-11
2001
-12-
1220
01-1
2-13
2001
-12-
1420
01-1
2-15
2001
-12-
1620
01-1
2-17
2001
-12-
1820
01-1
2-19
2001
-12-
2020
01-1
2-21
2001
-12-
2220
01-1
2-23
2001
-12-
2420
01-1
2-25
2001
-12-
2620
01-1
2-27
2001
-12-
2820
01-1
2-29
2001
-12-
3020
01-1
2-31
2002
-01-
0120
02-0
1-02
2002
-01-
0320
02-0
1-04
2002
-01-
0520
02-0
1-06
2002
-01-
0720
02-0
1-08
2002
-01-
0920
02-0
1-10
2002
-01-
1120
02-0
1-12
2002
-01-
1320
02-0
1-14
2002
-01-
1520
02-0
1-16
2002
-01-
1720
02-0
1-18
2002
-01-
1920
02-0
1-20
2002
-01-
2120
02-0
1-22
2002
-01-
2320
02-0
1-24
2002
-01-
2520
02-0
1-26
2002
-01-
2720
02-0
1-28
2002
-01-
2920
02-0
1-30
2002
-01-
3120
02-0
2-01
2002
-02-
0220
02-0
2-03
2002
-02-
0420
02-0
2-05
2002
-02-
0620
02-0
2-07
2002
-02-
0820
02-0
2-09
2002
-02-
1020
02-0
2-11
2002
-02-
1220
02-0
2-13
2002
-02-
1420
02-0
2-15
2002
-02-
1620
02-0
2-17
2002
-02-
1820
02-0
2-19
2002
-02-
2020
02-0
2-21
2002
-02-
2220
02-0
2-23
2002
-02-
2420
02-0
2-25
2002
-02-
2620
02-0
2-27
2002
-02-
2820
02-0
3-01
2002
-03-
0220
02-0
3-03
2002
-03-
0420
02-0
3-05
2002
-03-
0620
02-0
3-07
2002
-03-
0820
02-0
3-09
2002
-03-
1020
02-0
3-11
2002
-03-
1220
02-0
3-13
2002
-03-
1420
02-0
3-15
2002
-03-
1620
02-0
3-17
2002
-03-
1820
02-0
3-19
2002
-03-
2020
02-0
3-21
2002
-03-
2220
02-0
3-23
2002
-03-
2420
02-0
3-25
2002
-03-
2620
02-0
3-27
2002
-03-
2820
02-0
3-29
2002
-03-
3020
02-0
3-31
2002
-04-
0120
02-0
4-02
2002
-04-
0320
02-0
4-04
2002
-04-
0520
02-0
4-06
2002
-04-
0720
02-0
4-08
2002
-04-
0920
02-0
4-10
2002
-04-
1120
02-0
4-12
2002
-04-
1320
02-0
4-14
2002
-04-
1520
02-0
4-16
2002
-04-
1720
02-0
4-18
2002
-04-
1920
02-0
4-20
2002
-04-
2120
02-0
4-22
2002
-04-
2320
02-0
4-24
2002
-04-
2520
02-0
4-26
2002
-04-
2720
02-0
4-28
2002
-04-
2920
02-0
4-30
2002
-05-
0120
02-0
5-02
2002
-05-
0320
02-0
5-04
2002
-05-
0520
02-0
5-06
2002
-05-
0720
02-0
5-08
2002
-05-
0920
02-0
5-10
2002
-05-
1120
02-0
5-12
2002
-05-
1320
02-0
5-14
2002
-05-
1520
02-0
5-16
2002
-05-
1720
02-0
5-18
2002
-05-
1920
02-0
5-20
2002
-05-
2120
02-0
5-22
2002
-05-
2320
02-0
5-24
2002
-05-
2520
02-0
5-26
2002
-05-
2720
02-0
5-28
2002
-05-
2920
02-0
5-30
2002
-05-
3120
02-0
6-01
2002
-06-
0220
02-0
6-03
2002
-06-
0420
02-0
6-05
2002
-06-
0620
02-0
6-07
2002
-06-
0820
02-0
6-09
2002
-06-
1020
02-0
6-11
2002
-06-
1220
02-0
6-13
2002
-06-
1420
02-0
6-15
2002
-06-
1620
02-0
6-17
2002
-06-
1820
02-0
6-19
2002
-06-
2020
02-0
6-21
2002
-06-
2220
02-0
6-23
2002
-06-
2420
02-0
6-25
2002
-06-
2620
02-0
6-27
2002
-06-
2820
02-0
6-29
2002
-06-
3020
02-0
7-01
2002
-07-
0220
02-0
7-03
2002
-07-
0420
02-0
7-05
2002
-07-
0620
02-0
7-07
2002
-07-
0820
02-0
7-09
2002
-07-
1020
02-0
7-11
2002
-07-
1220
02-0
7-13
2002
-07-
1420
02-0
7-15
2002
-07-
1620
02-0
7-17
2002
-07-
1820
02-0
7-19
2002
-07-
2020
02-0
7-21
2002
-07-
2220
02-0
7-23
2002
-07-
2420
02-0
7-25
2002
-07-
2620
02-0
7-27
2002
-07-
2820
02-0
7-29
2002
-07-
3020
02-0
7-31
2002
-08-
01
DM
odX[
1](N
orm
)
O b s I D ( T I M E )
3 2 - m o n t h s o f 1 d a y . M 2 ( P L S ) , U n t i t l e dD M o d X [ 1 ] ( N o r m )
M 2 - D - C r i t [ 4 ] = 1 . 1 5 7
D - C r i t ( 0 . 0 5 )
Original observations
(siguiente diapositiva)
NAMP Módulo 17: “Introducción al Análisis Multivariable” Tier 1, Part 1, Rev.: 0
“Modelo a Distancia”
eik
i=observaciónk=variable
proyecciónplano
er
do
NAMP Módulo 17: “Introducción al Análisis Multivariable” Tier 1, Part 1, Rev.: 0
160
180
200
220
240
150 160 170 180 190 200 210 220 230 240
YVar
(53A
I034
.AI)
YPred[14](53AI034.AI)
32-months of 1 day.M3 (PLS), UntitledYPred[14](53AI034.AI)/YVar(53AI034.AI)
RMSEE = 24.6664
Observado vs. Predicho
MODELO IDEALMODELO IDEAL
Esta gráfica presenta los valores de Y predichos por el modelo, contra los valores originales de Y. Un modelo perfecto tendría sólo puntos a lo largo de la línea.
32- meses de 1 día. M3 (PEL), Sin TítuloYpred[14](53ª1034.AI)/YVar(53A1034.AI)
NAMP Módulo 17: “Introducción al Análisis Multivariable” Tier 1, Part 1, Rev.: 0
Se presenta una lista de algunos de los principales retos a los que se enfrentará cuando trabaje con el AMV. ¡Usted ha sido advertido!
• Dificultad de interpretación de las graficas (“como leer hojas de té”)• Datos pre-procesados• Las curvas de control pueden disfrazar correlaciones reales• Datos discretos vs. promediado vs. interpolados• Determinar los retrasos para los tiempos de residencia en el
diagrama de flujo• Problemas con el incremento de tiempo
– e.g., ¿valores segundo-a-segundo o promedios diarios?
Algunas variables sensitivas típicas para la aplicación del AMV a un proceso con datos reales se muestran en la siguiente página…
Retos del AMV
NAMP Módulo 17: “Introducción al Análisis Multivariable” Tier 1, Part 1, Rev.: 0
Variables Sensitivas Típicas
-Conocidas pero no medidas-Desconocidas y no medidas
Variables no medibles
-¿Cuáles son las X’s e Y’s?-Sub-secciones del diagrama de flujo-Retrasos de time, mezclado & recirculación-Cambios proceso/equipo-Efectos temporales
Realidad física
-Lapso de tiempo / promedios-Qué variable es empleada-¿Cuántos componentes?-Datos pre-procesados-Tratamiento del ruido/fuera de rango-ACP vs. PEL
Cálculos con AMV
NAMP Módulo 17: “Introducción al Análisis Multivariable” Tier 1, Part 1, Rev.: 0
Fin del Tier 1
¡Felicidades!
Asumiendo que ha realizado toda la lectura, este es el fin del Tier 1. Sin duda mucha información parece confusa, pero las cosas se aclararán cuando se resuelvan ejemplos reales en el Tier 2.
Sólo falta completar un pequeño quiz…
NAMP Módulo 17: “Introducción al Análisis Multivariable” Tier 1, Part 1, Rev.: 0
Tier 1 Quiz
Pregunta 1:
Observar una o dos variables a la vez no es recomendable porque generalmente las variables están correlacionadas. ¿Quésignifica esto exactamente?
a) Estas variables tienden a incrementar y decrecer al unisono.b) Estas variables probablemente estén midiendo lo mismo,
indirectamente sin embargo.c) Estas variable revelan una variable común y profunda que
probablemente no esté medida. d) Estas variables no son estadísticamente independientes. e) Todas las anteriores.
NAMP Módulo 17: “Introducción al Análisis Multivariable” Tier 1, Part 1, Rev.: 0
Tier 1 Quiz
Pregunta 2:
¿Cuál es la diferencia entre “información” y “conocimiento”?
a) La información está en la computadora o en un pedazo de papel, mientras que el conocimiento está dentro de la cabeza de las personas.
b) Sólo los científicos poseen el “verdadero” conocimiento.c) La información es matemática, mientras que el conocimiento no
lo es.d) La información incluye relaciones entre variables, pero no
tiene respaldo de la base de las causas científicas.e) El conocimiento puede adquirirse sólo a través de la experiencia.
NAMP Módulo 17: “Introducción al Análisis Multivariable” Tier 1, Part 1, Rev.: 0
Tier 1 Quiz
Pregunta 3:
¿Por qué el AMV nunca revela la causa-y-efecto, al menos que se emplee un experimento diseñado?
a) Causa-y-efecto puede ser determinado sólo en el laboratorio.b) Los experimentos diseñados eliminan el error. c) El AMV sin experimentos diseñados sólo es inductivo,
mientras que la relación causa-y-efecto requiere de una deducción.
d) Sólo los efectos son medibles.e) Los científicos diseñan los experimentos para trabajar
perfectamente la primer vez.
NAMP Módulo 17: “Introducción al Análisis Multivariable” Tier 1, Part 1, Rev.: 0
Tier 1 Quiz
Pregunta 4:
¿Cuál es la desventaja más grande de usar el modelo de la “caja negra” en lugar de usar uno basado en los primeros principios?
a) No hay unidades de operación.b) El modelo es sólo tan bueno como los datos empleados
para crearlo. c) Datos de reacciones químicas y datos termodinámicos no son
usados.d) Un modelo de caja negra puede no tomar en cuenta el diagrama
de flujo completo.e) Los modelos de AMV son sólo lineares.
NAMP Módulo 17: “Introducción al Análisis Multivariable” Tier 1, Part 1, Rev.: 0
Tier 1 Quiz
Pregunta 5:
¿Qué nos dice un intervalo de confianza?
a) Qué tan dispersa está la información alrededor de la línea de regresión.
b) El rango dentro del cual cierto porcentaje de valores es esperado que se encuentre.
c) El área dentro de la cual la regresión lineal debe caer.d) El grado de credibilidad de los resultados de un análisis
específico.e) El número de veces que debe repetirse un análisis para estar
seguro de los resultados.
NAMP Módulo 17: “Introducción al Análisis Multivariable” Tier 1, Part 1, Rev.: 0
Tier 1 Quiz
Pregunta 6:
Cuando los datos fueron recopilados, algunos de los sensores de la planta no funcionaba correctamente y daba lecturas imprecisas. ¿Cuáles son las implicaciones a tomar en el análisis estadístico?
a) Se ajustan en el modelo más términos cuadráticos y productos cruzados a los datos.
b) Valores de la media más elevados de los esperados normalmente.
c) Valores de varianza más elevados para las variables asociadas con el mal funcionamiento del sensor.
d) Diferente selección de variables para incluir en el análisis.e) Término residual mayor en el modelo.
NAMP Módulo 17: “Introducción al Análisis Multivariable” Tier 1, Part 1, Rev.: 0
Tier 1 Quiz
Pregunta 7:
¿Por qué el reducir el número de dimensiones (más variables para menos componentes) tiene sentido desde un punto de vista científico?
a) Los nuevos componentes pueden corresponder a la base física del fenómeno que no puede ser medido directamente.
b) Menos dimensiones son más sencillas de observar en una gráfica o computadora.
c) La navaja de Ockham limita a los científicos a menos de cinco dimensiones.
d) El mundo real está limitado a sólo tres dimensiones.e) Todas las anteriores.
NAMP Módulo 17: “Introducción al Análisis Multivariable” Tier 1, Part 1, Rev.: 0
Tier 1 Quiz
Pregunta 8:
Si dos puntos en una gráfica de resultados están demasiado cerca, ¿significa esto que estas dos observaciones son casi idénticas?
a) Sí, porque están en la misma posición del cuadrante.b) No, porque se debe a un error experimental.c) Sí, porque presentan virtualmente el mismo efecto en el AMV.d) No, porque la gráfica de resultados es sólo una proyección.e) Respuestas (a) y (c).
NAMP Módulo 17: “Introducción al Análisis Multivariable” Tier 1, Part 1, Rev.: 0
Tier 1 Quiz
Pregunta 9:
Observando el ejemplo de la comida, ¿qué países aparentan estar correlacionados con un gran consumo de aceite de oliva?
a) Italia y España y en menor grado Portugal y Austria.b) Sólo Italia y España.c) Sólo Italia.d) Irlanda e Italia. e) Todos los países menos Suecia, Dinamarca e Inglaterra.
NAMP Módulo 17: “Introducción al Análisis Multivariable” Tier 1, Part 1, Rev.: 0
Tier 1 Quiz
Pregunta 10:
¿Por qué el error queda relegado cuando se tiene un mayor orden de componentes en el ACP?
a) Porque la Navaja de Ockham así lo establece.b) Porque el mundo real sólo tiene tres dimensiones.c) Porque el ruido es falsa información.d) Porque el AMV es capaz de corregir datos pobres.e) Porque el ruido no está correlacionado con otras variables.
top related