tema 5. relación entre variables ii -...

Tema 5. Relación entre

variables II

CORRELACIÓN ENTRE DOS VARIABLES

CUANTITATIVAS

Nos presentan una tabla de datos conjuntos Lo primero

que hacemos es elaborar el diagrama de dispersión o nube

de puntos

Una vez realizado el diagrama y tan sólo observándolo,

podemos decir que existe una relación lineal en las

variables X e Y. Es decir, a valores mayores de X

corresponderán valores mayores de Y y viceversa.

Una vez llegados a este punto calculamos 2 índices que nos

permiten ponerle números a todo esto que llevamos

analizado

El primero de estos índices es la covarianza y hace

referencia a la variación conjunta de dos variables.

Diagrama de dispersión

El diagrama de dispersión permite estudiar las relaciones entre dos conjuntos

asociados de datos que aparecen en pares (por ejemplo, (x,y), uno de cada

conjunto). El diagrama muestra estos pares como una nube de puntos.

Las relaciones entre los conjuntos asociados de datos se infieren a partir de la

forma de las nubes.

Una relación positiva entre x y y significa que los valores crecientes de x

están asociados con los valores crecientes de y.

Una relación negativa significa que los valores crecientes de x están asociados

con los valores decrecientes de y.

Ejemplos 5.1, 5.2 y 5.3

Una empresa de fabricación de jabón se plantea cambiar la composición de uno de sus productos utilizando una

nueva materia prima. Antes de tomar una decisión, la empresa decide realizar un ensayo para estudiar la posible

relación entre la utilización dicha materia prima y el número de no conformidades. Para ello analiza lotes con

diferentes porcentajes de la nueva materia prima y toma los siguientes datos:

En este caso, tendremos una correlación negativa (a medida que aumentamos el % de la

nueva materia prima, disminuye el número de productos no conformes). Con estos

resultados la empresa podría plantearse la introducción de la nueva materia prima,

aunque debería combinarlo con otras herramientas para una mejor toma de decisiones.

la covarianza

Si el signo de la covarianza es positivo, diremos que existe relación lineal directa.Si el signo de la covarianza es negativo, diremos que existe relación lineal inversa.Sin embargo la covarianza tiene un problema y es que no conocemos su rango (de la misma manera que con el estadístico X2 no sabíamos su límite superior y teníamos que calcular el coeficiente de contingencia) , por lo tanto para la covarianza calcularemos algo llamado Coeficiente de Correlación de Pearson (rxy)

Coeficiente de Correlación de Pearson (rxy)

- Toma valores comprendidos entre -1 y +1- Cuando vale 0 no existe relación lineal entre X e Y- Cuando vale exactamente +1 o -1 diremos que una variable es una transformaciónlineal de la otra- Cuanto mayor es el valor absoluto del coeficiente nos está indicando que la relaciónlineal entre las dos variables es más fuerte.- Cuando el signo es positivo, indica que a valores mayores de la variable X, tiendena corresponder valores mayores de la variable Y y a valores menores de la variableX tienden a corresponder valores menores de la variable Y. Es una relacióndirecta.- Cuando el signo es negativo, indica que a valores mayores de la variable X, tiendena corresponder valores menores de la variable Y, y a valores menores de lavariable X tienden a corresponder valores mayores de la variable Y. Es una

relación inversa. Ejemplo 5.5

Coeficiente de Correlación por Rangos

de Spearman

Este coeficiente se emplea cuando una o ambas escalas de medidas de las

variables son ordinales, es decir, cuando una o ambas escalas de medida

son posiciones. Ejemplo: Orden de llegada en una carrera y peso de los

atletas. Los datos hay que traducirlos u ordenarlos en rangos. A los

puntajes más bajos le asignamos el rango 1 al siguiente el rango 2 y así

sucesivamente. Si se repiten dos puntajes o más se calculan las medias

aritméticas. Se deriva del coeficiente de correlación de Pearson. No

coinciden cuando hay empates de rangos Ejemplo 5.6

Se calcula aplicando la siguiente ecuación:

Relación entre dicotómicas

El coeficiente phi se deriva del coeficiente de correlación

lineal de Pearson. El resultado de ambas fórmulas es el

mismo si codificamos las variables dicotómicas con ceros y

unos. Ejemplo 5.8

Relación entre una variable dicotómica y

otra cuantitativa. Ejemplo 5.9

Regresión lineal simple

En un modelo de regresión lineal simple tratamos de explicar la relación que existe

entre la variable respuesta Y y una única variable explicativa X.

El modelo de regresión lineal simple tiene la siguiente expresión: Y´= a+bXi

En donde a es la ordenada en el origen (el valor que toma Y cuando X vale 0), b es la

pendiente de la recta (e indica cómo cambia Y al incrementar X en una unidad). X e Y son

variables aleatorias, por lo que no se puede establecer una relación lineal exacta entre

ellas.

Tres fases:

1. identificación del modelo de regresión, que supone obtener los índices de regresión

que caracterizan

2. la valoración del modelo, que supone el estudio de la capacidad predictiva del

mismo

3. la aplicación del modelo para predecir variables.

Cálculo de los coeficientes de regresión

Para hacer una estimación del modelo de regresión lineal simple, trataremos de buscar una recta de la forma: Y´= a+bXi

de modo que se ajuste a la nube de puntos. Para esto utilizaremos el método de mínimos cuadrados. Este método consiste en minimizar la suma de los cuadrados de los errores:

Es decir, la suma de los cuadrados de las diferencias entre los valores reales observados (yi) y los valores estimados (Ŷi).

O lo que es lo mismo b = rxy .SY /SX

Ya que rxy = SXY / SX . SY ejemplo 5.10

Valoración del modelo

Además de la aproximación gráfica, se pueden utilizar dos índices: la

varianza error y el coeficiente de determinación.

La varianza error es la varianza de los errores cometidos al pronosticar

la variable Y a partir de la variables X, definiendo estos errores o

residuos como la diferencia entre la puntuación que realmente

obtendría el sujeto en esa variable Y, y la puntuación que se le ha

pronosticado con el modelo de regresión. Es conocida como error

cuadrático medio

𝑆𝐸2 = 𝑆𝑦

2. 𝑥 =σ 𝐸𝑖

2

𝑛− ത𝐸

2

Cuanto menor sea el valor de la varianza error, más similares serán las

puntuaciones pronosticadas por el modelo y las puntuaciones que

realmente obtendrían los sujetos en el criterio. Ejemplo 5.11

Coeficiente de determinación

El coeficiente de determinación es igual al

coeficiente de correlación de Pearson elevado al

cuadrado. Indica la proporción de varianza de la

variable pronosticada o criterio (Y) que es

explicada por el modelo lineal, esto es, por la

variable predictora X

𝑟𝑥𝑦2 = coeficiente de determinación

Toma valores entre 0 y 1. Cuanto mayor sea mejor

pronostico

Características del modelo de regresión La pendiente de la recta de regresión siempre será del mismo signo que el coeficiente de

correlación lineal de Pearson 𝑏 = 𝑟𝑥𝑌𝑠𝑌

𝑠𝑥

La media de los errores de predicción o residuos 𝐸 = 𝑌 − 𝑌′ es 0; ത𝐸 = 0

La media de las puntuaciones pronosticadas coincide con la media de las verdaderas puntuaciones 𝑌′ = ത𝑌

La varianza de las puntuaciones en Y, es igual a la suma de la varianza de los pronósticos,

más la varianza de los errores 𝑠𝑌2 = 𝑠𝑌′

2 + 𝑆𝑌⋅𝑥2

El coeficiente de determinación es igual al cociente entre la varianza de las puntuaciones pronosticadas y la varianza de las puntuaciones en Y

𝑟2𝑥𝑌=𝑠𝑦′2

𝑠𝑦2

El complemento del coeficiente de determinación es igual al cociente entre la varianza de los errores y la varianza de las puntuaciones en Y, e indica la proporción de varianza del criterio

que no queda explicada por el modelo de regresión. 1- 𝑟2𝑥𝑌=𝑠𝑦𝑥2

𝑠𝑦2

Regresión lineal múltiple

Más de una variable predictora

tema 5. relación entre variables ii -...

Documents