correlación decimos que dos variables, x e y, están correlacionadas cuando hay una relación...

20
Correlación Decimos que dos variables, X e Y, están correlacionadas cuando hay una relación cuantitativa entre ellas. X suele ser la variable independiente e Y la dependiente (Y “depende” de X). Altura y peso de niños. Peso = f(Altura) Velocidad máxima que alcanza un coche y potencia de su motor. Velocidad = f(Potencia) Presupuesto para adquisiciones y número de libros que puede adquirir una biblioteca. Libros = f(Presupuesto) La relación puede ser claramente causal o no. La potencia del motor de un coche es la causa de que alcance una mayor velocidad, así como un mayor presupuesto el que se puedan comprar más libros. (X es la “causa” de Y) La relación altura – peso tiene parte de causalidad, pero también existen otros factores. (X y otros factores son la causa de Y) Cuando se hacen correlaciones hay que analizar bien el fenómeno para no caer en errores (c) Rosario Ruiz Baños. Departamento de Biblioteconomía y Documentación. Universidad de Granada (España)

Upload: pilar-rojas-cruz

Post on 03-Feb-2016

232 views

Category:

Documents


2 download

TRANSCRIPT

Page 1: Correlación Decimos que dos variables, X e Y, están correlacionadas cuando hay una relación cuantitativa entre ellas. X suele ser la variable independiente

CorrelaciónDecimos que dos variables, X e Y, están correlacionadas cuando hay una relación cuantitativa entre ellas. X suele ser la variable independiente e Y la dependiente (Y “depende” de X).

• Altura y peso de niños. Peso = f(Altura)

• Velocidad máxima que alcanza un coche y potencia de su motor. Velocidad = f(Potencia)

• Presupuesto para adquisiciones y número de libros que puede adquirir una biblioteca. Libros = f(Presupuesto)

La relación puede ser claramente causal o no. • La potencia del motor de un coche es la causa de que alcance una mayor

velocidad, así como un mayor presupuesto el que se puedan comprar más libros. (X es la “causa” de Y)

• La relación altura – peso tiene parte de causalidad, pero también existen otros factores. (X y otros factores son la causa de Y)

Cuando se hacen correlaciones hay que analizar bien el fenómeno para no caer en errores

(c) Rosario Ruiz Baños. Departamento de Biblioteconomía y Documentación.

Universidad de Granada (España)

Page 2: Correlación Decimos que dos variables, X e Y, están correlacionadas cuando hay una relación cuantitativa entre ellas. X suele ser la variable independiente

Correlaciones espúreasHay que evitar las denominadas correlaciones espúreas o espurias, es decir, que llevan a conclusiones erróneas. Ocurren cuando dos variables, X e Y, son realmente independientes entre sí, pero dependientes ambas de una misma causa común, Z.

Ejemplo de correlación espúrea: Cierto biólogo inglés publicó un estudio en el que se comprueba que en los pueblos y ciudades con más cigüeñas en los campanarios, X, nacen más niños, Y. Llegó a la conclusión de que “los niños los trae la cigüeña”.

Lo cierto es que tanto el número de cigüeñas, X, como el de niños, Y, dependen de la causa común, Z, que es el tamaño del pueblo o ciudad. En las poblaciones grandes hay siempre más cigüeñas y más niños. Tanto cigüeñas como niños están correlacionados con el tamaño de la población, pero no entre ellos mismos.

X Y

Z

(c) Rosario Ruiz Baños. Departamento de Biblioteconomía y Documentación.

Universidad de Granada (España)

Page 3: Correlación Decimos que dos variables, X e Y, están correlacionadas cuando hay una relación cuantitativa entre ellas. X suele ser la variable independiente

Nubes de Puntos

Sea un conjunto de pares de valores de las variables X e Y. Si los representamos en un diagrama de dispersión obtendremos una “nube de puntos” que nos dará una idea gráfica de la posible correlación entre ambas variables.

No hay correlación Correlación positiva Correlación negativa

X X X

Y Y Y

(c) Rosario Ruiz Baños. Departamento de Biblioteconomía y Documentación.

Universidad de Granada (España)

Page 4: Correlación Decimos que dos variables, X e Y, están correlacionadas cuando hay una relación cuantitativa entre ellas. X suele ser la variable independiente

Algunos tipos de correlaciones

Correlación lineal positiva

Correlación lineal negativa• Potencial

• Logarítmica

• Otros tipos

• Potencial

• Exponencial positiva

• Otros tipos

• Potencial inversa

• Exponencial negativa

• Otros tipos

Modelo Lineal

(c) Rosario Ruiz Baños. Departamento de Biblioteconomía y Documentación.

Universidad de Granada (España)

Page 5: Correlación Decimos que dos variables, X e Y, están correlacionadas cuando hay una relación cuantitativa entre ellas. X suele ser la variable independiente

Covarianza

Media aritmética: Suma de los valores que toma una variable dividida entre el número total, n, de valores sumados.

n

xx i

Varianza: Es una medida de lo que se dispersan los valores de una muestra respecto de su media. Se determina con cualquiera de las formulas equivalentes siguientes:

22

2xx

2

2 SV mediantebien o xn

x

n

xxSV iixx

La varianza, V, es también el cuadrado de la desviación típica, S.

Recordemos que...

Cuando se trata de una distribución bidimensional...

Covarianza: Es una medida de lo que se dispersan los valores de una muestra bidimensional tanto del valor medio de la x como del valor medio de la y. Se determina mediante la expresión:

yx

n

yxS

n

yyxxSV ii

xyii

xyxy

xyV mediantebien o (c) Rosario Ruiz Baños. Departamento

de Biblioteconomía y Documentación. Universidad de Granada (España)

Page 6: Correlación Decimos que dos variables, X e Y, están correlacionadas cuando hay una relación cuantitativa entre ellas. X suele ser la variable independiente

Coeficiente de Correlación de Pearson, rBondad de los ajustes

• El coeficiente de correlación de Pearson, r, nos permite saber si el ajuste de la nube de puntos a la recta de regresión obtenida es satisfactorio.

• Se define como el cociente entre la covarianza y el producto de las desviaciones típicas (raiz cuadrada de las varianzas)

yx

xy

yx

xy

yx

xy

SS

S

SS

S

VV

Vr

22

• Teniendo en cuenta el valor de la covarianza y las varianzas, se puede evaluar mediante cualquiera de las dos expresiones siguientes:

22

22

yn

yx

n

x

yxn

yx

rii

ii

2222

iiii

iiii

yynxxn

yxyxnr

(c) Rosario Ruiz Baños. Departamento de Biblioteconomía y Documentación.

Universidad de Granada (España)

Page 7: Correlación Decimos que dos variables, X e Y, están correlacionadas cuando hay una relación cuantitativa entre ellas. X suele ser la variable independiente
Page 8: Correlación Decimos que dos variables, X e Y, están correlacionadas cuando hay una relación cuantitativa entre ellas. X suele ser la variable independiente

Grado de Correlación• El coeficiente de correlación, r, presenta valores entre –1 y +1.

• Cuando r es próximo a 0, no hay correlación lineal entre las variables. La nube de puntos está muy dispersa o bien no forma una línea recta. No se puede trazar una recta de regresión.

• Cuando r es cercano a +1, hay una buena correlación positiva entre las variables según un modelo lineal y la recta de regresión que se determine tendrá pendiente positiva, será creciente.

• Cuando r es cercano a -1, hay una buena correlación negativa entre las variables según un modelo lineal y la recta de regresión que se determine tendrá pendiente negativa: es decreciente.

No hay correlación

0r

Correlación lineal positiva

1r

Correlación lineal negativa

1r

Hay correlación no lineal0r

(c) Rosario Ruiz Baños. Departamento de Biblioteconomía y Documentación.

Universidad de Granada (España)

Page 9: Correlación Decimos que dos variables, X e Y, están correlacionadas cuando hay una relación cuantitativa entre ellas. X suele ser la variable independiente

Determinar si existe correlación entre las calificaciones de matemáticas y física de un alumno.

1 2 3 4 5 6 7 8 9 10 110

2

4

6

8

10

12

Matemáti cas

Fís

ica

Page 10: Correlación Decimos que dos variables, X e Y, están correlacionadas cuando hay una relación cuantitativa entre ellas. X suele ser la variable independiente

yxn

yx iixy

22

xn

xix 2

2

yn

yiy

Determinar si existe correlación entre las calificaciones de matemáticas y física de un alumno.

Page 11: Correlación Decimos que dos variables, X e Y, están correlacionadas cuando hay una relación cuantitativa entre ellas. X suele ser la variable independiente

1 2 3 4 5 6 7 8 9 10 110

2

4

6

8

10

12

Matemáti cas

Fís

ica

1 2 3 4 5 6 7 8 9 10 110

2

4

6

8

10

12

f(x) = 0.986111111111111 x − 0.916666666666667R² = 0.875173611111111

Matemáti cas

Fís

ica

Regresión lineal

Page 12: Correlación Decimos que dos variables, X e Y, están correlacionadas cuando hay una relación cuantitativa entre ellas. X suele ser la variable independiente

Modelos Lineales

a .- Ordenada en el orígen. Punto de corte con el eje de ordenadas o “eje y”. En este punto x está en el “origen” es decir x=0

b .- Pendiente. Grado de inclinación de la recta. Si es positiva, la recta es creciente. Si es negativa es decreciente. Es el cociente entre el incremento que se produce en la variable dependiente, Y, cuando se incrementa la variable independiente, X.

Los valores de “y” se calculan multiplicando

“x” por la pendiente, b, y sumándole la ordenada

en el origen, a

y

x

a

b

y = a + bx

Ecuación Explícita de la Recta

Y

XX

Y

(c) Rosario Ruiz Baños. Departamento de Biblioteconomía y Documentación.

Universidad de Granada (España)

Page 13: Correlación Decimos que dos variables, X e Y, están correlacionadas cuando hay una relación cuantitativa entre ellas. X suele ser la variable independiente

Ejemplos de Rectas

-4-3-2-10123456789

10

-3 -2 -1 0 1 2 3 4 5

x

y

-3-2-10123456789

-5 -4 -3 -2 -1 0 1 2 3 4 5 6 7

x

y

• Recta creciente, ya que la pendiente es positiva

• La recta crece dos unidades de y por cada unidad de x, es decir b=2

• Cuando x=0, y=1. La ordenada en el origen, a, vale 1

• Recta decreciente, ya que la pendiente es negativa

• La recta decrece una unidad de y por cada unidad de x, es decir b=-1

• Cuando x=0, y=4. La ordenada en el origen, a, vale 4

xy 21 xy 4

(c) Rosario Ruiz Baños. Departamento de Biblioteconomía y Documentación.

Universidad de Granada (España)

Page 14: Correlación Decimos que dos variables, X e Y, están correlacionadas cuando hay una relación cuantitativa entre ellas. X suele ser la variable independiente
Page 15: Correlación Decimos que dos variables, X e Y, están correlacionadas cuando hay una relación cuantitativa entre ellas. X suele ser la variable independiente
Page 16: Correlación Decimos que dos variables, X e Y, están correlacionadas cuando hay una relación cuantitativa entre ellas. X suele ser la variable independiente

Ejemplo 1. Regresión Lineal

y = x + 2

-2

-1

0

1

2

3

4

5

6

7

8

-4 -3 -2 -1 0 1 2 3 4 5 6

X

Y

x y0 21 32 43 5

22

ii

iiii

xxn

yxyxnb

n

xbya ii

(c) Rosario Ruiz Baños. Departamento de Biblioteconomía y Documentación.

Universidad de Granada (España)

Page 17: Correlación Decimos que dos variables, X e Y, están correlacionadas cuando hay una relación cuantitativa entre ellas. X suele ser la variable independiente

Coeficiente de Determinación, R2

• Para estimar la bondad de un ajuste frecuentemente se prefiere utilizar el Coeficiente de Determinación, R2, que es el Coeficiente de Correlación elevado al cuadrado.

• Se determina mediante cualquiera de las dos expresiones siguientes:

22

22

2

2

yn

yx

n

x

yxn

yx

Rii

ii

2222

2

2

iiii

iiii

yynxxn

yxyxnR

• Su valor oscila entre 0 y +1.

• Cuando hay una buena correlación lineal, R2 es muy cercano a +1. Normalmente se acepta para valores de R2 >= 0’99.

• Cuando no hay correlación o bien ésta no es lineal, R2 es bajo e incluso cercano a cero

(c) Rosario Ruiz Baños. Departamento de Biblioteconomía y Documentación.

Universidad de Granada (España)

Page 18: Correlación Decimos que dos variables, X e Y, están correlacionadas cuando hay una relación cuantitativa entre ellas. X suele ser la variable independiente

Ejemplo 2: Regresión lineal

y = 1,13x - 2,2R2 = 0,9902

-4

-3

-2

-1

0

1

2

3

4

5

-2 -1 0 1 2 3 4 5 6 7

X

Y

x y1 -1,12 0,23 14 2,1

22

ii

iiii

xxn

yxyxnb

n

xbya ii

2222

2

2

iiii

iiii

yynxxn

yxyxnR

(c) Rosario Ruiz Baños. Departamento de Biblioteconomía y Documentación.

Universidad de Granada (España)

Page 19: Correlación Decimos que dos variables, X e Y, están correlacionadas cuando hay una relación cuantitativa entre ellas. X suele ser la variable independiente

Ejemplo 4: Relación Profesores/Alumnosen las Universidades Españolas

Universidades Alumnos ProfesoresAragón 36154 2043Asturias 34441 1442Baleares 9519 385Cantabria 11962 737Castilla la Mancha 15123 787Castilla León 74272 4030Extremadura 17678 865Madrid 214402 10971Murcia 26407 1248

1. Trazar la gráfica de la distribución

2. Calcular parámetros de la distribución

3. ¿ Cuál es la Universidad con mejor proporción profesor/alumno?

4. ¿Qué Universidad tiene la peor ratio y cuántos profesores necesitaría para equilibrarla?

5. Calcular los valores teóricos de profesores de la Universidad de Granada si ésta tenía 55123 alumnos en el curso 1994-95.

6. Calcular los valores de la FBD si ésta tenía 1100 alumnos

R2=0.998 b=0.0515 a=-17 (c) Rosario Ruiz Baños. Departamento de Biblioteconomía y Documentación.

Universidad de Granada (España)

Page 20: Correlación Decimos que dos variables, X e Y, están correlacionadas cuando hay una relación cuantitativa entre ellas. X suele ser la variable independiente

Ejemplo 4: Gráfica de distribuciónRelación Profesores/Alumnos en

Universidades

0

2000

4000

6000

8000

10000

12000

14000

0 100000 200000 300000

Alumnos

Profesores

0

500

1000

1500

2000

2500

3000

0 10000 20000 30000 40000 50000

Alumnos

Profesores

(c) Rosario Ruiz Baños. Departamento de Biblioteconomía y Documentación.

Universidad de Granada (España)