taller final metodos...
Post on 06-Feb-2018
224 Views
Preview:
TRANSCRIPT
15/06/2012
TALLER FINAL METODOS CUANTITATIVOS Manejo del software estadístico R
CRISTIAN CAMILO DURAN RAMIREZ
CRISTIAN CAMILO DURAN RAMIREZ
1
TALLER FINAL METODOS CUANTITATIVOS
Manejo del software estadístico R
OBJETIVO Utilizar los recursos informáticos, R, Stata, Excel, Spss, Gretl u otros, para afianzar las capacidades de utilizar los recursos presentados en
la asignatura.
CONTENIDO Conformar un grupo de dos estudiantes y contestar:
Cada pregunta ustedes deben incluir: Hipótesis de análisis, procedimiento estadístico, resultados y conclusiones. Por cada
punto deben escribir sólo una hoja.
Crear un archivo plano de los datos que pueda ser importado a un paquete estadístico. Anexo 1.
Realizar análisis exploratorio de dato y determinar cumplimiento de supuestos de normalidad, linealidad, homocedasticidad,
multicolinealidad utilizando gráficos y estadísticos. Anexo 1.
Crear una matriz Z~ (0,1) para los datos originales y realizar gráfica de caja y bigotes para identificar valores atípicos.
Anexo 1.
Medir la distancia en cada grupo de datos por casos (filas) según matriz de datos original y la matriz Z. Anexo 2.
Crear una clasificación cluster, con la matriz de datos original y la matriz Z. Anexo 2.
Explicar las diferencias obtenidas en la matriz de datos original y la matriz Z. Anexo 3.
CRISTIAN CAMILO DURAN RAMIREZ
2
Crear una tabla de contingencia y demostrar la hipótesis de independencia fila columna con la prueba chi. Anexo 3.
Realizar una regresión lineal cualitativa. Anexo 3.
Realizar una regresión logística. Anexo 4.
SOLUCION
Realizar análisis exploratorio de dato y determinar cumplimiento de supuestos de normalidad, linealidad, homocedasticidad,
multicolinealidad utilizando gráficos y estadísticos. Anexo 1.
TES DE NORMALIDAD
Para las variables Horas Internet, Años de estudios, Películas vistas y Horas trabajadas aplicamos el test de normalidad en R de
Shapiro Wilk
Para la variable Horas de Internet aplicamos la siguiente prueba de hipótesis para determinar la normalidad
Ho = p valor = 0.5
Ha= p valor > 0.5
W = 0.978, p-valor = 0.05967
Como observamos el p valor se encuentra en la zona de aceptación por lo tanto inferimos que esta variable se comporta de
manera normal.
CRISTIAN CAMILO DURAN RAMIREZ
3
Para la variable Años de estudio aplicamos la prueba de normalidad en R para determinar su normalidad
Ho = p valor = 0.5
Ha= p valor > 0.5
W = 0.9699, p-valor = 0.01185
Se observa que el p valor es inferior a 0.5 por lo tanto no se encuentra en la zona de aceptación y no describe una distribución
normal
Para la variable Películas Vistas aplicamos la prueba de normalidad en R para determinar su normalidad
Ho = p valor = 0.5
Ha= p valor > 0.5
W = 0.9083, p-valor = 1.019e-06
Encontramos que el p valor es mayor por lo que esta variable se comporta normalmente
Para la variable Horas Trabajadas aplicamos el test de normalidad para determinar su comportamiento
Ho = p valor = 0.5
Ha= p valor > 0.5
W = 0.9439, p-valor = 0.0001309
Según los resultados obtenidos esta variable no se encuentran en la zona de aceptación por lo tanto no posee distribución normal
DESCRIPCION DE LAS VARIABLES
CRISTIAN CAMILO DURAN RAMIREZ
4
Estadísticos descriptivos
N Mínim
o
Máxim
o
Media Desv.
típ.
Varian
za
Asimetría Curtosis
Estadí
stico
Estadí
stico
Estadí
stico
Estadíst
ico
Estadíst
ico
Estadí
stico
Estadís
tico
Error
típico
Esta
dístic
o
Error
típico
Horas
Internet
(HINT)
113 0 19 9,73 4,167 17,36
2
-,181 ,227 -,020 ,451
Años de
estudios
(ESTU)
113 6 18 11,07 1,994 3,977 ,169 ,227 ,846 ,451
Películas
vistas (NP)
113 1 7 3,76 2,050 4,201 ,177 ,227 -
1,201
,451
Horas
trabajadas
(HTRA)
113 36060
229
45877
01361
3,25E9 1,008E
9
1,016
E18
-1,637 ,227 3,031 ,451
N válido
(según lista)
113
En el cuadro anterior encontramos un análisis exploratorio de datos en donde encontramos los estadísticos descriptivos de las
variables las cuales dan una idea del comportamiento de los datos.
CRISTIAN CAMILO DURAN RAMIREZ
5
CRISTIAN CAMILO DURAN RAMIREZ
6
Para determinar la homocedasticidad aplicamos una prueba de hipótesis
Ho= las varianzas de ambos grupos no son diferentes
Ha= las varianzas de ambos grupos son diferentes
Para desarrollar este contraste de hipótesis aplicamos el estadístico de Levene
Prueba de homogeneidad de varianzas
Horas trabajadas (HTRA)
Estadístico de
Levene
gl1 gl2 Sig.
2,442 8 101 ,019
Por medio del estadístico de Levene determinamos que las varianzas de ambos grupos no son diferentes 0.019 < 0.5 que es el
nivel de significancia.
PRUEBA CHI CUADRADO
La siguiente es una tabla de contingencia que se aplicó a las variables experiencia laboral y salario arrojando el resultado que se
expone en la siguiente tabla.
CRISTIAN CAMILO DURAN RAMIREZ
7
Pruebas de chi-cuadrado
Valor gl Sig.
asintótic
a
(bilateral
)
Sig. de Monte Carlo (bilateral) Sig. de Monte Carlo (unilateral)
Sig. Intervalo de confianza
al 95%
Sig. Intervalo de confianza
al 95%
Límite
inferior
Límite
superior
Límite
inferior
Límite
superior
Chi-cuadrado de
Pearson
14154,
728a
1409
8
,366 ,500
b
,490 ,509
Razón de
verosimilitudes
2677,0
02
1409
8
1,000 ,261
b
,252 ,269
Estadístico
exacto de Fisher
35062,
496
,261
b
,252 ,270
Asociación lineal
por lineal
15,766c 1 ,000 ,000
b
,000 ,000 ,000
b
,000 ,000
N de casos
válidos
428
a. 14508 casillas (100,0%) tienen una frecuencia esperada inferior a 5. La frecuencia mínima esperada es ,00.
b. Basada en 10000 tablas muestreadas con la semilla de inicio 624387341.
c. El estadístico tipificado es 3,971.
REGRESION DEL ANEXO 3
Se aplicó una regresión a las variables años de estudio y salario siendo la variable años de estudio la variable independiente y el
salario la variable dependiente.
CRISTIAN CAMILO DURAN RAMIREZ
8
Resumen del modelob
Mo
del
o
R R
cuadra
do
R
cuadrad
o
corregid
a
Error típ.
de la
estimaci
ón
Estadísticos de cambio Durbin-
Watson Cambio
en R
cuadrad
o
Cambio
en F
gl1 gl2 Sig.
Cambio
en F
1 ,385
a
,148 ,146 817447,
362
,148 74,066 1 426 ,000 2,049
a. Variables predictores: (Constante), Años de estudio
b. Variable dependiente: Salario
Coeficientesa
Modelo Coeficientes no estandarizados Coeficiente
s
tipificados
t Sig. Correlaciones Estadísticos de
colinealidad
B Error típ. Beta Orden
cero
Parcial Semiparc
ial
Toleranci
a
FIV
1 (Const
ante)
-891579,024 222654,80
2
-4,004 ,000
Años
de
estudio
148969,159 17309,649 ,385 8,606 ,000 ,385 ,385 ,385 1,000 1,000
a. Variable dependiente: Salario
CRISTIAN CAMILO DURAN RAMIREZ
9
Estadísticos sobre los residuosa
Mínimo Máximo Media Desviación
típica
N
Valor pronosticado -146733,23 1640896,63 994203,46 340450,494 428
Residual -2960689,250 2322849,000 ,000 816489,602 428
Valor pronosticado tip. -3,351 1,900 ,000 1,000 428
Residuo típ. -3,622 2,842 ,000 ,999 428
a. Variable dependiente: Salario
CRISTIAN CAMILO DURAN RAMIREZ
10
CRISTIAN CAMILO DURAN RAMIREZ
11
REGRESION LOGISTICA
Para llevar acabo la regresión logística se tomaron en cuenta las variables genero, edad, horas de tv, educación y horas de
lecturas siendo la variable dependiente las horas de lectura y las demás variables parámetros para determinar la regresión.
Información del ajuste del modelo
Modelo Criterio de
ajuste del
modelo
Contrastes de la razón de
verosimilitud
-2 log
verosi
militud
Chi-
cuadrado
gl Sig.
Sólo la intersección 257,5
86
Final 160,1
92
97,394 52 ,000
Pseudo R-cuadrado
Cox y Snell ,390
Nagelkerke ,527
McFadden ,367
CRISTIAN CAMILO DURAN RAMIREZ
12
Contrastes de la razón de verosimilitud
Efecto Criterio
de
ajuste
del
modelo
Contrastes de la razón de
verosimilitud
-2 log
verosimi
litud del
modelo
reducid
o
Chi-
cuadrad
o
gl Sig.
Intersección 160,192
a
,000 0 .
GéneroG 160,330 ,139 1 ,710
EducaciónE 170,554 10,363 2 ,006
EdadX1 218,226 58,034 44 ,076
NúmeroTV.etc.X
2
185,379 25,187 5 ,000
El estadístico de chi-cuadrado es la diferencia en las -2 log
verosimilitudes entre el modelo final y el modelo reducido. El modelo
reducido se forma omitiendo un efecto del modelo final. La hipótesis
nula es que todos los parámetros de ese efecto son 0.
CRISTIAN CAMILO DURAN RAMIREZ
13
a. Este modelo reducido es equivalente al modelo final ya que la
omisión del efecto no incrementa los grados de libertad.
Estimaciones de los parámetros
Horas de lecturas semanala B Error típ. Wald gl Sig. Exp(B) Intervalo de confianza al 95%
para Exp(B)
Límite inferior Límite
superior
0 Intersección 17,158 4223,482 ,000 1 ,997
[GéneroG=1] ,157 ,421 ,138 1 ,710 1,170 ,512 2,671
[GéneroG=2] 0b . . 0 . . . .
[EducaciónE=1] -1,074 ,539 3,966 1 ,046 ,342 ,119 ,983
[EducaciónE=2] -1,673 ,552 9,193 1 ,002 ,188 ,064 ,554
[EducaciónE=3] 0b . . 0 . . . .
[EdadX1=19] -17,394 4223,482 ,000 1 ,997 2,790E-8 ,000 .c
[EdadX1=20] 1,264 ,000 . 1 . 3,540 3,540 3,540
[EdadX1=21] -,067 ,000 . 1 . ,935 ,935 ,935
[EdadX1=22] 1,970 ,000 . 1 . 7,167 7,167 7,167
[EdadX1=23] 2,103 ,000 . 1 . 8,187 8,187 8,187
[EdadX1=24] 1,952 ,000 . 1 . 7,045 7,045 7,045
[EdadX1=25] -17,182 4223,482 ,000 1 ,997 3,450E-8 ,000 .c
[EdadX1=27] -38,382 ,000 . 1 . 2,143E-
17
2,143E-17 2,143E-17
CRISTIAN CAMILO DURAN RAMIREZ
14
[EdadX1=28] 1,952 ,000 . 1 . 7,045 7,045 7,045
[EdadX1=29] -18,379 4223,482 ,000 1 ,997 1,042E-8 ,000 .c
[EdadX1=30] -16,946 4223,482 ,000 1 ,997 4,372E-8 ,000 .c
[EdadX1=31] -36,213 9318,576 ,000 1 ,997 1,875E-
16
,000 .c
[EdadX1=32] -15,890 4223,482 ,000 1 ,997 1,257E-7 ,000 .c
[EdadX1=33] 2,796 10132,052 ,000 1 1,000 16,372 ,000 .c
[EdadX1=34] -19,995 4223,482 ,000 1 ,996 2,072E-9 ,000 .c
[EdadX1=35] 2,338 ,000 . 1 . 10,363 10,363 10,363
[EdadX1=36] -37,062 10804,841 ,000 1 ,997 8,023E-
17
,000 .c
[EdadX1=37] -17,596 4223,482 ,000 1 ,997 2,280E-8 ,000 .c
[EdadX1=38] -17,765 4223,482 ,000 1 ,997 1,927E-8 ,000 .c
[EdadX1=39] -14,986 4223,482 ,000 1 ,997 3,103E-7 ,000 .c
[EdadX1=40] -16,781 4223,482 ,000 1 ,997 5,152E-8 ,000 .c
[EdadX1=41] -18,583 4223,482 ,000 1 ,996 8,498E-9 ,000 .c
[EdadX1=42] -17,032 4223,482 ,000 1 ,997 4,011E-8 ,000 .c
[EdadX1=43] -16,970 4223,482 ,000 1 ,997 4,268E-8 ,000 .c
[EdadX1=44] -16,753 4223,482 ,000 1 ,997 5,302E-8 ,000 .c
[EdadX1=45] -17,467 4223,482 ,000 1 ,997 2,596E-8 ,000 .c
[EdadX1=46] -18,337 4223,482 ,000 1 ,997 1,087E-8 ,000 .c
[EdadX1=47] -14,936 4223,482 ,000 1 ,997 3,261E-7 ,000 .c
[EdadX1=48] 1,762 8645,041 ,000 1 1,000 5,825 ,000 .c
[EdadX1=49] -16,070 4223,482 ,000 1 ,997 1,049E-7 ,000 .c
[EdadX1=50] -17,166 4223,482 ,000 1 ,997 3,507E-8 ,000 .c
[EdadX1=51] -18,174 4223,482 ,000 1 ,997 1,280E-8 ,000 .c
CRISTIAN CAMILO DURAN RAMIREZ
15
[EdadX1=52] -18,003 4223,482 ,000 1 ,997 1,518E-8 ,000 .c
[EdadX1=53] -17,061 4223,482 ,000 1 ,997 3,895E-8 ,000 .c
[EdadX1=54] -18,867 4223,482 ,000 1 ,996 6,399E-9 ,000 .c
[EdadX1=55] -16,509 4223,482 ,000 1 ,997 6,766E-8 ,000 .c
[EdadX1=56] -15,913 4223,482 ,000 1 ,997 1,227E-7 ,000 .c
[EdadX1=57] -17,620 4223,482 ,000 1 ,997 2,227E-8 ,000 .c
[EdadX1=58] -18,200 4223,482 ,000 1 ,997 1,246E-8 ,000 .c
[EdadX1=59] 3,020 ,000 . 1 . 20,489 20,489 20,489
[EdadX1=60] -16,487 4223,482 ,000 1 ,997 6,915E-8 ,000 .c
[EdadX1=62] 1,264 ,000 . 1 . 3,540 3,540 3,540
[EdadX1=64] 1,371 ,000 . 1 . 3,939 3,939 3,939
[EdadX1=66] ,000 ,000 . 1 . 1,000 1,000 1,000
[EdadX1=69] 0b . . 0 . . . .
[NúmeroTV.etc.X2=1
]
1,946 ,900 4,672 1 ,031 6,999 1,199 40,859
[NúmeroTV.etc.X2=2
]
3,087 ,888 12,097 1 ,001 21,909 3,847 124,764
[NúmeroTV.etc.X2=3
]
1,806 ,802 5,070 1 ,024 6,084 1,264 29,293
[NúmeroTV.etc.X2=4
]
,682 ,785 ,754 1 ,385 1,977 ,425 9,206
[NúmeroTV.etc.X2=5
]
,150 ,745 ,041 1 ,840 1,162 ,270 5,009
[NúmeroTV.etc.X2=6
]
0b . . 0 . . . .
a. La categoría de referencia es: 1.
CRISTIAN CAMILO DURAN RAMIREZ
16
b. Este parámetro se ha establecido a cero porque es redundante.
c. Se ha producido un desbordamiento de punto flotante al calcular este estadístico. Por lo tanto, el valor asignado ha sido el valor perdido del
sistema.
top related