tema 5. relación entre variables ii -...
TRANSCRIPT
Tema 5. Relación entre
variables II
CORRELACIÓN ENTRE DOS VARIABLES
CUANTITATIVAS
Nos presentan una tabla de datos conjuntos Lo primero
que hacemos es elaborar el diagrama de dispersión o nube
de puntos
Una vez realizado el diagrama y tan sólo observándolo,
podemos decir que existe una relación lineal en las
variables X e Y. Es decir, a valores mayores de X
corresponderán valores mayores de Y y viceversa.
Una vez llegados a este punto calculamos 2 índices que nos
permiten ponerle números a todo esto que llevamos
analizado
El primero de estos índices es la covarianza y hace
referencia a la variación conjunta de dos variables.
Diagrama de dispersión
El diagrama de dispersión permite estudiar las relaciones entre dos conjuntos
asociados de datos que aparecen en pares (por ejemplo, (x,y), uno de cada
conjunto). El diagrama muestra estos pares como una nube de puntos.
Las relaciones entre los conjuntos asociados de datos se infieren a partir de la
forma de las nubes.
Una relación positiva entre x y y significa que los valores crecientes de x
están asociados con los valores crecientes de y.
Una relación negativa significa que los valores crecientes de x están asociados
con los valores decrecientes de y.
Ejemplos 5.1, 5.2 y 5.3
Una empresa de fabricación de jabón se plantea cambiar la composición de uno de sus productos utilizando una
nueva materia prima. Antes de tomar una decisión, la empresa decide realizar un ensayo para estudiar la posible
relación entre la utilización dicha materia prima y el número de no conformidades. Para ello analiza lotes con
diferentes porcentajes de la nueva materia prima y toma los siguientes datos:
En este caso, tendremos una correlación negativa (a medida que aumentamos el % de la
nueva materia prima, disminuye el número de productos no conformes). Con estos
resultados la empresa podría plantearse la introducción de la nueva materia prima,
aunque debería combinarlo con otras herramientas para una mejor toma de decisiones.
la covarianza
Si el signo de la covarianza es positivo, diremos que existe relación lineal directa.Si el signo de la covarianza es negativo, diremos que existe relación lineal inversa.Sin embargo la covarianza tiene un problema y es que no conocemos su rango (de la misma manera que con el estadístico X2 no sabíamos su límite superior y teníamos que calcular el coeficiente de contingencia) , por lo tanto para la covarianza calcularemos algo llamado Coeficiente de Correlación de Pearson (rxy)
Coeficiente de Correlación de Pearson (rxy)
- Toma valores comprendidos entre -1 y +1- Cuando vale 0 no existe relación lineal entre X e Y- Cuando vale exactamente +1 o -1 diremos que una variable es una transformaciónlineal de la otra- Cuanto mayor es el valor absoluto del coeficiente nos está indicando que la relaciónlineal entre las dos variables es más fuerte.- Cuando el signo es positivo, indica que a valores mayores de la variable X, tiendena corresponder valores mayores de la variable Y y a valores menores de la variableX tienden a corresponder valores menores de la variable Y. Es una relacióndirecta.- Cuando el signo es negativo, indica que a valores mayores de la variable X, tiendena corresponder valores menores de la variable Y, y a valores menores de lavariable X tienden a corresponder valores mayores de la variable Y. Es una
relación inversa. Ejemplo 5.5
Coeficiente de Correlación por Rangos
de Spearman
Este coeficiente se emplea cuando una o ambas escalas de medidas de las
variables son ordinales, es decir, cuando una o ambas escalas de medida
son posiciones. Ejemplo: Orden de llegada en una carrera y peso de los
atletas. Los datos hay que traducirlos u ordenarlos en rangos. A los
puntajes más bajos le asignamos el rango 1 al siguiente el rango 2 y así
sucesivamente. Si se repiten dos puntajes o más se calculan las medias
aritméticas. Se deriva del coeficiente de correlación de Pearson. No
coinciden cuando hay empates de rangos Ejemplo 5.6
Se calcula aplicando la siguiente ecuación:
Relación entre dicotómicas
El coeficiente phi se deriva del coeficiente de correlación
lineal de Pearson. El resultado de ambas fórmulas es el
mismo si codificamos las variables dicotómicas con ceros y
unos. Ejemplo 5.8
Relación entre una variable dicotómica y
otra cuantitativa. Ejemplo 5.9
Regresión lineal simple
En un modelo de regresión lineal simple tratamos de explicar la relación que existe
entre la variable respuesta Y y una única variable explicativa X.
El modelo de regresión lineal simple tiene la siguiente expresión: Y´= a+bXi
En donde a es la ordenada en el origen (el valor que toma Y cuando X vale 0), b es la
pendiente de la recta (e indica cómo cambia Y al incrementar X en una unidad). X e Y son
variables aleatorias, por lo que no se puede establecer una relación lineal exacta entre
ellas.
Tres fases:
1. identificación del modelo de regresión, que supone obtener los índices de regresión
que caracterizan
2. la valoración del modelo, que supone el estudio de la capacidad predictiva del
mismo
3. la aplicación del modelo para predecir variables.
Cálculo de los coeficientes de regresión
Para hacer una estimación del modelo de regresión lineal simple, trataremos de buscar una recta de la forma: Y´= a+bXi
de modo que se ajuste a la nube de puntos. Para esto utilizaremos el método de mínimos cuadrados. Este método consiste en minimizar la suma de los cuadrados de los errores:
Es decir, la suma de los cuadrados de las diferencias entre los valores reales observados (yi) y los valores estimados (Ŷi).
O lo que es lo mismo b = rxy .SY /SX
Ya que rxy = SXY / SX . SY ejemplo 5.10
Valoración del modelo
Además de la aproximación gráfica, se pueden utilizar dos índices: la
varianza error y el coeficiente de determinación.
La varianza error es la varianza de los errores cometidos al pronosticar
la variable Y a partir de la variables X, definiendo estos errores o
residuos como la diferencia entre la puntuación que realmente
obtendría el sujeto en esa variable Y, y la puntuación que se le ha
pronosticado con el modelo de regresión. Es conocida como error
cuadrático medio
𝑆𝐸2 = 𝑆𝑦
2. 𝑥 =σ 𝐸𝑖
2
𝑛− ത𝐸
2
Cuanto menor sea el valor de la varianza error, más similares serán las
puntuaciones pronosticadas por el modelo y las puntuaciones que
realmente obtendrían los sujetos en el criterio. Ejemplo 5.11
Coeficiente de determinación
El coeficiente de determinación es igual al
coeficiente de correlación de Pearson elevado al
cuadrado. Indica la proporción de varianza de la
variable pronosticada o criterio (Y) que es
explicada por el modelo lineal, esto es, por la
variable predictora X
𝑟𝑥𝑦2 = coeficiente de determinación
Toma valores entre 0 y 1. Cuanto mayor sea mejor
pronostico
Características del modelo de regresión La pendiente de la recta de regresión siempre será del mismo signo que el coeficiente de
correlación lineal de Pearson 𝑏 = 𝑟𝑥𝑌𝑠𝑌
𝑠𝑥
La media de los errores de predicción o residuos 𝐸 = 𝑌 − 𝑌′ es 0; ത𝐸 = 0
La media de las puntuaciones pronosticadas coincide con la media de las verdaderas puntuaciones 𝑌′ = ത𝑌
La varianza de las puntuaciones en Y, es igual a la suma de la varianza de los pronósticos,
más la varianza de los errores 𝑠𝑌2 = 𝑠𝑌′
2 + 𝑆𝑌⋅𝑥2
El coeficiente de determinación es igual al cociente entre la varianza de las puntuaciones pronosticadas y la varianza de las puntuaciones en Y
𝑟2𝑥𝑌=𝑠𝑦′2
𝑠𝑦2
El complemento del coeficiente de determinación es igual al cociente entre la varianza de los errores y la varianza de las puntuaciones en Y, e indica la proporción de varianza del criterio
que no queda explicada por el modelo de regresión. 1- 𝑟2𝑥𝑌=𝑠𝑦𝑥2
𝑠𝑦2
Regresión lineal múltiple
Más de una variable predictora