60 3.2: medidas numéricas ños 40 80 20 0 0 2e+06...
TRANSCRIPT
Estadística Aplicada a las Ciencias Políticas
Hemos visto que había una relación aproximadamente lineal entre
población y escaños. Buscamos una medida de la fuerza de la relación
3.2: Medidas numéricas
0
20
40
60
80
0 2E+06 4E+06 6E+06 8E+06 1E+07
Población
Escañ
os
Estadística Aplicada a las Ciencias Políticas
• La covarianza mide la fuerza de la relación lineal entre dos
variables
• La covarianza muestral puede calcularse mediante:
– Una alta covarianza no implica efecto causal
La covarianza
Estadística Aplicada a las Ciencias Políticas
Una fórmula alternativa para la covarianza
Si tenemos que calcular la covarianza a mano, esta
fórmula es más fácil.
Estadística Aplicada a las Ciencias Políticas
Interpretación de la covarianza
La covarianza entre dos variables:
Cov(x,y) > 0: X e Y tienden a moverse en la misma
dirección
Cov(x,y) < 0: X e Y tienden a moverse en direcciones
opuestas.
Cov(x,y) = 0: X e Y no están relacionadas linealmente.
Estadística Aplicada a las Ciencias Políticas
Inconveniente de la covarianza
En nuestro ejemplo, la covarianza es aproximadamente
36043027,5. ¿Indica una relación fuerte o no?
¿Cuáles son las unidades de la covarianza?
¿Cómo podemos corregir el problema?
Estadística Aplicada a las Ciencias Políticas
La correlación
-1<= r <= 1
r = 1: hay una relación positiva perfecta
r = -1: hay una relación lineal negativa perfecta
r = 0: no existe relación lineal, datos incorreladas
En el ejemplo, r=0,967: una relación fuerte y
positiva
Estadística Aplicada a las Ciencias Políticas
Y
X
Y
X
Y
X
Y
X X
r = -1 r = -.6 r = 0
r = +.3 r = +1
Y
X r = 0
Estadística Aplicada a las Ciencias Políticas
Cálculo de la covarianza y correlación mediante la tabla de
frecuencias conjuntas
Cantidad de trabajo hecho
1 2 3 4 5 Total
Satisfacción
con el
profesor
1 2 2 0 1 2 7
2 5 3 1 2 3 14
3 2 2 8 1 3 16
4 1 2 4 6 2 15
5 0 1 4 7 8 20
Total 10 10 17 17 18 72
Los siguientes datos son resultados de una encuesta
de alumnos de políticas sobre la asignatura de
estadística.
Estadística Aplicada a las Ciencias Políticas
Correlación y relaciones no lineales
En ambos gráficos se ha usado la relación y=x2. ¡Una fuerte relación no lineal!
Estadística Aplicada a las Ciencias Políticas
Correlación y causalidad I
Estadística Aplicada a las Ciencias Políticas
Correlación y causalidad II
Homero: No hay siquiera un oso a la vista. ¡La "patrulla anti-osos" funciona de
maravilla!
Lisa: Eso es un razonamiento falaz, Papá.
Homero [sin comprender]: Gracias, hija.
Lisa: Usando tu lógica, yo puedo afirmar que esta roca aleja a los tigres.
Homero: Hmmm, ¿y cómo funciona?
Lisa: No funciona. (pausa) ¡Es sólo una roca estúpida!
Homero: Ajá.
Lisa: Pero no veo ningún tigre alrededor, ¿y tú?
Homero: ( . . . pausa . . . ) Lisa, quiero comprar tu roca.
Estadística Aplicada a las Ciencias Políticas
La recta de regresión
(x1, y1), (x2, y2),...,(xN, yN) : N pares de puntos observados
Hemos de encontrar una recta: y = α + β x que se ajuste “lo mejor
posible” a nuestros puntos:
Estadística Aplicada a las Ciencias Políticas
• Queremos predecir la variable y en función de la variable x.
• Si usamos una recta y = + x, entonces los residuos o errores de
predicción son ri = yi - - xi para i = 1,…,N.
• Intentamos minimizar el error.
• Usamos el criterio de mínimos cuadrados: elegimos la recta que
minimiza ri2
• La recta de mínimos cuadrados es y = a + bx
donde b es la pendiente de la recta y a es el intercepto:
¿Cómo ajustar la recta?
Estadística Aplicada a las Ciencias Políticas
Demostración
Estadística Aplicada a las Ciencias Políticas
0
20
40
60
80
0 2000000 4000000 6000000 8000000 10000000
Población
Escañ
os
Escaños y población:
La recta de regresión ajustada
Estadística Aplicada a las Ciencias Políticas
Estadísticas de la regresión
Coeficiente de correlación múltiple 0,96372808
Coeficiente de determinación R^2 0,928771813
R^2 ajustado 0,92458192
Error típico 4,544275594
Observaciones 19
Coeficientes
Intercepción 2,692069443
Variable X 1 6,68437E-06
La recta ajustada es y = 2,69+0,0000069x
Output de Excel
¿Cómo
predecimos el
número de
escaños en una
comunidad de
1000000 de
personas?
¿Y en una
comunidad sin
gente? ¿Tiene
sentido la
predicción?
Estadística Aplicada a las Ciencias Políticas
Análisis de los residuos I: la media y varianza residual
Se puede demostrar que la media de los residuos es 0.
Estadística Aplicada a las Ciencias Políticas
y se puede calcular la varianza residual
¿Cómo interpretamos esta expresión?
Estadística Aplicada a las Ciencias Políticas
Curva de regresión ajustada
0
10
20
30
40
50
60
70
0 2E+06 4E+06 6E+06 8E+06 1E+07
X
Y
Y
Pronóstico para Y
y
Estadística Aplicada a las Ciencias Políticas
Análisis de los residuos II: gráficos
Si la recta de regresión se ajusta bien, los residuos deben aparecer como
ruido aleatorio sin relación ninguna con x o y.
Gráfico de los residuos frente a x
-10
-5
0
5
10
15
0 2000000 4000000 6000000 8000000 10000000
X
Re
sid
uo
s
¿Parece bien
el ajuste?
Estadística Aplicada a las Ciencias Políticas
Ejercicio (Test 2: 2008-2009)
Se ha realizado una encuesta a 474 empleados de una compañía multinacional. Entre
los datos recogidos consta el salario anual (en miles) y los años de educación. Al
realizar el diagrama de dispersión asumiendo que el salario depende de los años de
educación se observa la siguiente nube de puntos:
Diagrama de dispersión
0.000
20.000
40.000
60.000
80.000
100.000
120.000
140.000
160.000
0 5 10 15 20 25
Años de educación
Sa
lari
o a
nu
al (e
n m
ile
s)
Señala cual de las siguientes opciones
es la correcta:
a) La covarianza debe ser positiva y la
correlación negativa.
b) La covarianza debe ser positiva y la
correlación positiva.
c) La covarianza debe ser negativa y la
correlación negativa.
d) La covarianza debe ser negativa y la
correlación positiva.
Estadística Aplicada a las Ciencias Políticas
Ejercicio (Test 2: 2008-2009)
Se ha realizado una encuesta a 474 empleados de una compañía multinacional. Entre
los datos recogidos consta el salario anual (en miles) y los años de educación.
Suponiendo Y=Salario, X=Años de educación
Señala cual es el valor correcto de la correlación:
a) -0,53
b) 0,066
c) -0,662
d) 0,662
Varianza X = 8,305 Varianza Y = 290,963 Covarianza = 32,471
Estadística Aplicada a las Ciencias Políticas
Ejercicio (Test 2: 2008-2009)
En una oficina se desea conocer el grado de satisfacción de los empleados. Para ello
se realiza un cuestionario de satisfacción a 10 de ellos y se les pide que valoren, en una
escala continúa de 0 a 10, el ambiente en su puesto de trabajo. El valor 0 identifica un
pésimo ambiente de trabajo y el 10 identifica un inmejorable ambiente de trabajo.
Además se recoge la edad de los empleados.
Asumiendo que la valoración depende de la edad se ha estimado la recta de regresión
obteniéndose:
Ahora se desearía conocer cual es la valoración media para un nuevo trabajador cuya
edad es 43 años. Di cual de las siguientes opciones es la correcta:
a) 2.19 puntos
b) 2.39 puntos
c) 4.69 puntos
d) -2.05 puntos
ii x087.013.6y
Estadística Aplicada a las Ciencias Políticas
Ejercicio (Test 2: 2010-2011)
Los siguientes gráficos muestran los niveles de satisfacción con el líder de la oposición
(lado izquierdo) y el primer ministro (lado derecho) como función del voto preferido.
¿Cuál de las siguientes frases es la correcta?
a) En ambos casos, la correlación entre satisfacción y voto preferido es negativa.
b) La correlación con el voto preferido es más alta para el líder de la oposición.
c) La correlación es más alta en el caso del primer ministro.
d) El pendiente es igual para ambas rectas de regresión.
Estadística Aplicada a las Ciencias Políticas
Ejercicio (Test 2: 2010-2011)
El diagrama muestra el nivel de la deuda Americana como función del precio de oro.
La fórmula para la recta de regresión es:
PRECIO DE ORO (nominal) = -522,86 +
(0,1334 * deuda en $ billones)
Si la deuda Americana es de $19000 billones,
calcular la predicción para el precio de oro.
a) 2011,74
b) 3057,46
c) 2933,14
d) -520,3254
Estadística Aplicada a las Ciencias Políticas
Ejercicio (Examen: 2010)
El siguiente gráfico muestra la relación ente el riesgo argentino (LPRI) y el PBI (LPBI).
¿Señala cuál de los siguientes es lo correcto?
a) La línea de regresión es LPRA = 3,15+2,5
LPBI.
b) La correlación entre LPRA y LPBI es igual a
cero.
c) La correlación entre LPRA y LPBI es
negativa.
d) Ninguno de los anteriores.
Estadística Aplicada a las Ciencias Políticas
Ejercicio (Examen: 2009)
El gráfico siguiente muestra los niveles de conocimiento de Griego y de Latín para 10
jueces. Llamamos Y al nivel de conocimiento de Griego y X al nivel de conocimiento de
Latín. Si utilizamos la nota de Latín para determinar la nota en Griego mediante una
recta de regresión, observando el diagrama de dispersión, ¿cuál de las opciones
mostradas abajo podría ser la recta correcta?
a) Y=1.97+0.64X
b) Y=1.97-0.64X
c) Y=-1.97+0.64X
d) Y=-1.97-0.64X