1_regsimple_2012
Post on 27-Oct-2014
25 Views
Preview:
TRANSCRIPT
ANALISIS DE REGRESION APLICADO
REGRESION LINEAL SIMPLE
1. Modelo de Regresión Lineal Simple. 1. Objetivo de Análisis de Regresión2. Metodología. Gráficos de Dispersión.3. Características y Propiedades
2. Estimación de los Parámetros. 1. Mínimos Cuadrados Ordinarios (MCO)2. Propiedades de los Estimadores
3. Pruebas de Hipótesis. Análisis de Residuos.
1Giampaolo Orlandoni Merli, 2012. IEAC.
4. Predicción.
MODELOS DE REGRESION SEGÚN LA ESCALA DE LAS VARIABLES
Variables INDEPENDIENTES
Variable DEPENDIENTE
CATEGORICAINDEPENDIENTES (NOMINAL, ORDINAL) INTERVALO
CATEGORICAS Regresión Categórica ANALISIS DE
(NOMINAL,ORDINAL)
(Escalamiento Optimo)Regresión OrdinalRegresión Logística
VARIANZA (ANOVA)
INTERVALO Regresión Logística Regresión Lineal INTERVALO g gAnálisis Discriminante
gRegresión No Lineal
2
1.-REGRESION: RELACION ENTRE VARIABLES (Y,X)
Estudiar la relación entre las variables (Y,X) a partir de un conjunto de pares de datos (x1, y1), . . . , (xn, yn)
1 ANALISIS DESCRIPTIVO1. ANALISIS DESCRIPTIVO
1. Diagrama de Dispersión.
C fi i d C l ió2. Coeficiente de Correlación.
3. Recta de Regresión Lineal.
2 ANALISIS INFERENCIAL2. ANALISIS INFERENCIAL
1. Modelo Estadístico
E i ió d P á2. Estimación de Parámetros
3. Pruebas de Hipótesis
P di ió
3
4. Predicción
Analizar relación de dependencia entre una VARIABLE
OBJETIVO DEL ANALISIS DE REGRESION
Analizar relación de dependencia entre una VARIABLEDEPENDIENTE y una VARIABLE EXPLICATIVA , con el propósito deESTIMAR y PREDECIR el valor medio poblacional de la variable Y enfunción de los valores conocidos o fijos (en muestras repetidas) de lavariable X.
• Y: Variable Resp esta (Dependiente)• Y: Variable Respuesta (Dependiente)• X: Variable Explicativa (Independiente, Regresor)
Objetivos Específicos: Objetivos Específicos:1. Describir el comportamiento de un proceso:
1. Forma Funcional de la relación Y = f(X).2. Grado de Asociación entre las variables (X,Y).
2. Estimar Relación Funcional y Predecir Variable Respuesta:
4
1. Estimar la relación funcional entre Y y los valores conocidos de X2. Predecir valores de Y con base en nuevos valores de X
OBJETIVO DEL ANALISIS DE REGRESION
Y: Variable Respuesta (Dependiente)
X: Variable Explicativa (Independiente, Covariable)
1. Forma Funcional de la relación Y = f(X) = + X2. Grado de Asociación entre las variables: Corr(Y;X)3. Estimar la parámetros de la forma funcional: Y = + X4. Predecir Y = f(Xnuevos)
•Estimar la relación de dependencia entre una variable (dependiente•Estimar la relación de dependencia entre una variable (dependiente,respuesta) y una variable (explicativa, independiente, covariable)
•Predecir el valor promedio poblacional de la variable dependiente en
5
•Predecir el valor promedio poblacional de la variable dependiente enfunción de valores de la variable independiente.
1. Identificar las Variables: V. Respuesta (Y), V. Explicativa (X).
METODOLOGIA DEL ANALISIS DE REGRESION LINEAL
2. Verificar las hipótesis de Linealidad y Homocedasticidad
• Diagrama de dispersión de los datos
• Transformaciones de los datos si es necesario• Transformaciones de los datos si es necesario
3. Estimar los parámetros del modelo: Mínimos Cuadrados (MC)
4. Contrastar las Hipótesis del Modelo de Regresión:p g
• Ho: 1=0 (X no explica a Y) vs H1:1<> 0
• Ho: No existe relación lineal entre las variables (Y,X)
5. Diagnóstico del modelo con los Residuos (Verificación de supuestos):
• No Autocorrelación
• Homocedasticidad• Homocedasticidad
• Normalidad
6. Verificar si otras variables explicativas relevantes pueden medirse enlos individuos e incluirse en el modelo Regresión Múltiple.
7. Predecir y Concluir con el modelo de Regresión Lineal estimado
1-Relación Lineal Determinista: Modelo Matemático. Y= f(X) = A + B*X
GRAFICOS DE DISPERSION entre dos variables (X,Y)
i X (TS) Y (D)1 10 40
2 11 43
3 12 46
4 13 49
50
60
70
80
Y = f(X) = A + B*X
4 13 49
5 14 52
6 15 55
7 16 58
8 17 610
10
20
30
40Y
Relación Lineal, DirectaCorrelación Positiva, Perfecta
9 18 64
10 19 67
11 20 70
00 5 10 15 20 25
X
2 Relación Lineal Estocástica: Modelo Estadístico Y= f(X) = A + B*X + E2-Relación Lineal Estocástica: Modelo Estadístico. Y= f(X) = A + B*X + Ei X (TS) Y (D)1 10 4.5
2 11 4.23.54.04.55.0
3 12 3.8
4 13 3.6
5 14 3.4
6 15 3.0
7 16 2.9 0 51.01.52.02.53.03.5
Y
Relación Lineal, InversaCorrelación Negativa, Fuerte
7
7 16 2.9
8 17 2.4
9 18 2.2
10 19 2.1
11 20 1.8
0.00.5
0 5 10 15 20 25
X (Tiempo Solidificación)
Correlación Negativa, Fuerte
• Gráfico de Dispersión entre dos variables (X Y)
GRAFICOS DE DISPERSION
• Gráfico de Dispersión entre dos variables (X,Y)
• Objetivo: Visualizar Asociación entre dos variables
• Tipo relación
• Grado de asociación
Correlación entre Dos Variables Cor(X,Y)= rxy
G d d A i ióRelación
Grado de Asociación
Fuerte DébilNo Asociación
8
Directa (>0) rxy +1 rxy0 rxy = 0Inversa (<0) rxy -1 rxy0 rxy = 0
PATRONES DE CORRELACION
CORRELACIONCORRELACION NO LINEAL
9
Modelo de Regresión Lineal Simple:
2.-MODELO DE REGRESION LINEAL SIMPLETERMINO ALEATORIO:OMISIONES, ERRORES MEDIDA, VARIABLES NO OBSERVADAS,
Yi= + βXi + i i ~NID(0,σ2), (i=1,...,n)
V S O O S V S,VARIABLES NO DISPONIBLES
Interpretación de los parámetros:
:Representa el valor medio de la respuesta (Y), que no depende de lavariable explicativa (X) Interceptovariable explicativa (X). Intercepto.
:Representa el incremento de la respuesta media (Y) cuando la variableexplicativa (X) varía en una unidad (pendiente de la recta)
V i bl YVariableY:• Normalidad• Independencia • Igual Varianza para diferentes Xi
10
g p
Y = + X + TERMINO DE ERROR O PERTURBACION ALEATORIA εi
•ERRORES DE MEDIDA, VARIABLES NO OBSERVADAS O NO DISPONIBLES.•FACTORES NO OBSERVABLES DISTINTOS DE X, QUE AFECTAN A Y
bXaY ˆei = (Yi - )iYYi
iY iY
•Puntos: valores observados de Y•Línea de Regresión: predicción de Y para distintos valores de X•Líneas Verticales entre puntos y línea de regresión: residuo o error de predicción
>0 =0<0
11Relación Directa Relación Inversa No Relación
ModeloLineal Simple
Yi = + Xi + i i ~NID(0,σ2), (i=1,...,n)
Lineal Simple Y= X
•Modelo Lineal en Parámetros correctamente especificado
•Variable Explicativa X no estocástica
Supuestos
•Variable Explicativa X no estocástica
•Identificabilidad del Modelo: n>p
•E(i)=0
•V(i)=σ2 Homocedasticidad
•CV(i, j)=0, i≠j Errores no Autocorrelacionados
Estimación:
1)Estimación Parámetros:
Min SCE(β)= MinΣei2= MinΣ[yi – (a+bXi)]2
MínimosCuadrados
b=Sxy/Sxx =rxy(sy/sx)
a=Ŷ- b
12
2)Estimación de la Varianza del Modelo
s2=RSS/(n-2)
3.-SUPUESTOS DEL MCRL1-LINEALIDAD EN PARAMETROS: la variable respuesta depende linealmente de los regresores
E [Y/ X1] = y = 0 + 1x1
2-X NO ESTOCÁSTICA. Los valores de x son fijos en repetidas muestras, pero no constantes (V(X) > 0).
3 COV( X) 0 El l d d l b i i d di d l i bl li i L3-COV(, X) =0: El valor esperado de las perturbaciones es independiente de las variables explicativas. Los factores no incluidos explícitamente en el modelo no afectan el valor esperado de Y dado X.
E[] = 0 E[y] = X
4-VARIANZA() HOMOCEDÁSTICA. Variación alrededor de E[Y/X] es la misma para todo X
Var(/X) = E[2] = 2
5-RESIDUOS NO AUTOCORRELACIONADOS. Las observaciones son independientes: COV(t, t-1)=0
Supuestos 4 y 5 ~ Perturbaciones Esféricas
6-IDENTIFICABILIDAD (n > p): Número de Observaciones mayor que Número de Parámetros
7-CORRECTA ESPECIFICACION DEL MODELO
8-ESTABILIDAD DE PARAMETROS: Los parámetros del modelo no varían al considerar las distintas observaciones. Modelo permanece inalterado para todo el periodo muestral
4.-PROPIEDADES ESTADISTICAS DE LOS ESTIMADORES MCO
1.-LINEALES: Estimadores son función lineal de la variable aleatoria Y
b= (X’X)-1X’y = (X’X)-1X’(X + U) = + (X’X)-1X’U
2.- INSESGADOS: Los estimadores, en promedio estiman los parámetros desconocidos poblacionales
E(b) = ( )
3.- EFICIENTES: Los estimadores tienen Varianza mínima en la clase de t d l ti d li l i dtodos los estimadores lineales insesgados:
VAR[ b X] = 2(X’X)-1 MÍNIMAVAR[ b X] (X X) MÍNIMA
PROPIEDADES NUMÉRICAS DE LOS ESTIMADORES MCO
o Están expresados en términos de cantidades observables: Y, X.
o Son estimadores puntuales proporcionan un valor únicoo Son estimadores puntuales, proporcionan un valor único.
o La línea de regresión tiene las siguientes propiedades:
1. Pasa a través de las medias muestrales de (Y; X).
2. La media de ŷi es igual a la media de Yŷi g
3. La media de los residuos es cero, dado que ei= 0.
4. Los residuos no están correlacionados con los valores
estimados de Yi: ŷiei = 0.
5. Los residuos no están correlacionados con Xi: Xiei = 0
La línea de regresión pasa por el centroide del plano de regresión: punto formado por las medias muestrales de las variables (Y; X)
METODO MINIMOS CUADRADOS:METODO MINIMOS CUADRADOS:
•Procedimiento para obtener la ecuación de la línea que mejor se ajusta a los
datos de la muestra (estimación de los parámetros del modelo de regresión)( p g )
•La línea de mejor ajuste es aquella que minimiza la suma de cuadrados de los
residuos (distancia entre Yi: valor observado y valor estimado: ).iYi
2i
2ii emin)YY(min
5.1-Relación Lineal Determinista: Modelo Matemático: Y = f(X) = A + B*X
5- ESTIMACION MINIMOS CUADRADOS
i X (TS) Y (D) e=(Y-Ŷ)1 10 40 0
2 11 43 0
3 12 46 0 50
60
70
80
4 13 49 0
5 14 52 0
6 15 55 0
7 16 58 0
8 1 61 0
y = 3x + 10R² = 1
10
20
30
40
50
Y
8 17 61 0
9 18 64 0
10 19 67 0
11 20 70 0
0
10
0 5 10 15 20 25
X
Estimación de t pIntercepto 10 0 na na
X 3 0 na na
Relación Lineal Determinista:• Ajuste Perfecto de la línea recta a los datos• No hay Error de estimación No pueden hacerse pruebas estadísticas
17
• No hay Error de estimación No pueden hacerse pruebas estadísticas
5.2-ESTIMACION MINIMO CUADRATICA. Relación Estadística.
i
VariableIndependiente
VariableDependiente Estimación
ErrorEstimación
Ŷ
ErrorCuadrado Y = α + β X + E
X Y Ŷ e = (Y-Ŷ) e2
1 10 4.50 4.43 0.07 0.012 11 4.20 4.16 0.04 0.003 12 3.80 3.89 -0.09 0.014 13 3 60 3 62 -0.02 0 004 13 3.60 3.62 0.02 0.005 14 3.40 3.35 0.05 0.006 15 3.00 3.08 -0.08 0.017 16 2.90 2.81 0.09 0.018 17 2.40 2.54 -0.14 0.02
18 2 20 2 27 0 07 0 019 18 2.20 2.27 -0.07 0.0110 19 2.10 2.01 0.09 0.0111 20 1.80 1.74 0.06 0.00
Total 165 34 0.00 0.075.00
ANOVA
SC gl CM F R2
SCR=7.97 1 CMR =7.965 1005 0.99
y = -0.27x + 7.12R² = 0.99
2 50
3.00
3.50
4.00
4.50
Y
Y = α + β X + E
0.99SCE =0.07 9 CME =0.0079SCT =8.04 10
0.50
1.00
1.50
2.00
2.50Y
18
β0.00
0 5 10 15 20 25
X
Estimación de t p
Intercepto 7.12 0.13 54.73 0.00
X -0.27 0.01 -31.71 0.00
6.- CALIDAD (BONDAD) DE AJUSTE DEL MODELO • El coeficiente de determinación (R2) mide la bondad de ajuste del modelo:
0 R2 1• 0 R2 1 • Nunca decrece con el número de variables explicativas en el modelo.
• A menor distancia entre las observaciones (Y) y la línea de regresión (Ŷ), mejor ajusta el modelo a los datosmejor ajusta el modelo a los datos
• R2 representa el porcentaje de variabilidad de Y explicado por el modelo
ANALISIS DE VARIANZA (ANOVA)ANALISIS DE VARIANZA (ANOVA)SUMA DE CUADRADOS gl•SCT = Σyi
2
Suma TotalVariación Total de los valores observados de Y en torno a su n-1Suma Total
Cuadradosobservados de Y en torno a su media muestral
n 1
•SCR = ΣŷiSuma
•Variación de los valores estimados de Y en torno a su
Cuadrados Regresión
media•Variación de Y explicada por el modelo
k=p-1
•SCE = Σe 2•SCE = ΣeiSuma Errores Cuadrados
Variación de Y no explicada por el modelo n-k
PRUEBA DE HIPOTESIS: SIGNIFICACION ESTADISTICA de las ESTIMACIONES de los PARAMETROS del MODELO
1-Significación estadística de la variable independiente:•Calcular el cociente entre la estimación del coeficiente y su error estándar•Compararlo con el cuantil correspondiente de la distribución t(n-k), (k=p+1)( )
H0 : i = 0 (LA VARIABLE Xi NO TIENE EFECTO SIGNIFICATIVO SOBRE Y) H1 : i 0
tc= )ˆ(
ˆ
i
i
βDS β
tn_k
Estimación ds t p
Interc 7.12 0.13 54.73 0.00
X -0 27 0 01 -31 71 0 00
2-La bondad de ajuste del modelo se valora mediante el•Coeficiente de Determinación R2
X -0.27 0.01 -31.71 0.00
Coeficiente de Determinación R•Valor de la prueba F
Fuente Variación
ANOVA
SC gl CM F R2g CM F R2Modelo SCR=7.97 1 CMR =7.965 1005 0.99Error SCE =0.07 9 CME =0.0079Total SCT =8.04 10
7.- ANALISIS DE RESIDUOS
Residuos (ri)( i)
Modelo CORRECTO. PATRON ALEATORIO
YPi
No LINEALIDAD HETEROCEDASTICIDAD
Residuos (ri) Residuos (ri)
YPi YPi
ANALISIS DE RESIDUOS: Presencia de Datos OutliersDatos Outliers:•Datos que tienen influencia excesiva en la estimación de los parámetros del modelo deDatos que tienen influencia excesiva en la estimación de los parámetros del modelo de regresión•Ejemplo: Datos Forbes
22 24 26 28 30
Temp
22 24 26 28 30
020
521
019
520
0
2830
2224
26 Pressure
Forbes, J. (1857). Further experiments and remarks on the measurement of 14
014
5
Lpres
heights and boiling point of water. Transactions of the Royal Society of Edinburgh, 21, 235-243.
195 200 205 210 135 140 145
135
ANALISIS DE RESIDUOS: Presencia de Datos Outliers
150.00
140 00
145.00
Outlier
135.00
140.00
130.00190 195 200 205 210 215
Coef ES t pIntercepto -41.99 3.34 -12.58 0.00
LY = 0.89 X - 41.99; R² = 0.995
Intercepto 41.99 3.34 12.58 0.00X 0.89 0.02 54.45 0.00
Cuadro ANOVA
i X LY Ye e=Y‐ Ye1 194.50 131.79 132.05 ‐0.262 194.30 131.79 131.87 ‐0.08
11 203 60 140 04 140 19 0 15gl SC CM F
Regresión 1 425.76 425.76 2964.96Residuo 15 2.15 0.144 (p=0.000)Total 16 427.91
11 203.60 140.04 140.19 ‐0.1512 204.60 142.44 141.08 1.3613 209.50 145.47 145.47 0.00
17 212.20 147.80 147.88 ‐0.08
ANALISIS DE RESIDUOS: Eliminación de Datos Outliersi PE LgPEb Presion Estimacion Error Estima Error
X D 100 LY Y Ye e = (Y ‐ Ye) CuadradoX D 100 LY Y Ye e (Y Ye) Cuadrado1 194.5 0 131.79 20.79 132.00 -0.21 0.0462 194.3 0 131.79 20.79 131.82 -0.04 0.0013 197.8 0 135.02 22.40 134.94 0.09 0.0084 198.4 0 135.55 22.67 135.47 0.07 0.0065 199.4 0 136.46 23.15 136.36 0.09 0.0096 199.9 0 136.83 23.35 136.81 0.02 0.0017 200.9 0 137.82 23.89 137.70 0.13 0.0168 201.1 0 138.00 23.99 137.87 0.13 0.0179 201.4 0 138.06 24.02 138.14 -0.08 0.00710 201.3 0 138.04 24.01 138.05 -0.01 0.00011 203 6 0 140 04 25 14 140 10 0 06 0 00411 203.6 0 140.04 25.14 140.10 -0.06 0.00412 204.6 1 142.44 26.57 142.44 0.00 0.00013 209.5 0 145.47 28.49 145.35 0.12 0.01414 208.6 0 144.34 27.76 144.55 -0.21 0.04415 210.7 0 146.30 29.04 146.42 -0.12 0.01516 211.9 0 147.54 29.88 147.49 0.05 0.002
LY 0 89 X 41 16 R² 0 999
17 212.2 0 147.80 30.06 147.76 0.04 0.002Total 3450 2373 426 0.00 0.189
Medias 202.95 139.60 25.06
Coef ES t pIntercepto -41.16 1.026 -40.11 0.00X 0.89 0.005 176.07 0.00D 1 45 0 120 12 05 0 00
LY = 0.89 X - 41.16; R² = 0.999
•Incluir una variable artificial con valoruno en la posición del datos outlier.(Di 1 i 12)D 1.45 0.120 12.05 0.00
Anova gl SC CM FRegresión 2 427.72 213.86 15816.06Residuo 14 0.189 0.014 (p=0.000)Total 16 427.91
(Di=1, i=12)•Se confirma como outlier si la pruebat es significativa. (tc=12.05 (p=0.0)
ANALISIS DE RESIDUOS: Presencia de Datos Outliers
FORMAS FUNCIONALES
8.-EJEMPLOS MODELOS DE REGRESION LINEAL SIMPLE
1 EJEMPLO 1 DATOS MADERA1. EJEMPLO 1: DATOS MADERA
2. EJEMPLO 2: DATOS PESO CEREBRO_CUERPO
3 EJEMPLO 3: DATOS OXIGENO3. EJEMPLO 3: DATOS OXIGENO
4. EJEMPLO 4: DATOS NIÑOS
5. EJEMPLO 5: DATOS ULCERA5. J O 5: OS U C
6. EJEMPLO 6: VARIABLES CATEGORICAS EXPLICATIVAS
27
EJEMPLO 1: DATOS MADERA•OBJETIVO: DETERMINAR LA RELACION ENTRE LA DUREZA DE LA MADERA (X) y SURESISTENCIAA LA DEFORMACION (Y).( )
•VARIABLES:
•Y: RESISTENCIA DE LA MADERAA DEFORMACION (PSI)
•X: DUREZA DE LA MADERA (PSI)
i X Y lgX lgY1 2205 8612 7 698 9 061
X: DUREZA DE LA MADERA (PSI)
•MUESTRA: n=27 TIPOS DE MADERA
RELACION FUNCIONAL LINEAL: Y = F(X) + + X + 1 2205 8612 7.698 9.0612 1897 8914 7.548 9.0953 1932 9850 7.566 9.1954 1612 7627 7.385 8.9395 1598 6954 7.377 8.847
MODELO LINEALYE = 2169.8 + 3.5X; R2=61.49%
6 1804 8365 7.498 9.0327 1752 9469 7.469 9.1568 2067 8410 7.634 9.0379 2365 10327 7.769 9.243
10 1646 7320 7 406 8 898
MODELO LOG-LINEALlgYE = 3.29 + 0.77X; R2=61.05%
10 1646 7320 7.406 8.898
26 2540 12090 7.840 9.40027 2322 10072 7.750 9.218
Media 1893.9 8791.4 7.5 9.1
y = 0.7662x + 3.2969R2 = 0.6105
9 009.109.209.309.409.50
Media 1893.9 8791.4 7.5 9.1DE 303.5 1353.0 0.2 0.2CV 0.2 0.2 0.0 0.0r 0.78414 0.78137R2 61.49% 61.05%
8.708.808.909.00
7.2 7.3 7.4 7.5 7.6 7.7 7.8 7.9
EJEMPLO 2: Datos PESO CEREBRO_CUERPOPESO CEREBRO PESO CUERPO
LnPCr = a + b LnPCu+ e ANOVA
336.189 1 336.189 697.424 .000
28 923 60 482
Regression
Residual
Sum ofSquares df Mean Square F Sig.
28.923 60 .482
365.111 61
Residual
Total
The independent variable is LnPCu.Coefficients
.752 .028 .960 26.409 .000LnPCuB Std. Error
UnstandardizedCoefficients
Beta
StandardizedCoefficients
t Sig.
2.135 .096 22.227 .000(Constant)
Model Summary
Adjusted R Std Error of
.960 .921 .919 .694R R Square
Adjusted RSquare
Std. Error ofthe Estimate
The independent variable is LnPCu.
30Interpretación: Aumento del Peso Corporal en 1% Aumento en Peso Cerebro= 0.752%
EJEMPLO 3: Datos OXIGENO (Atletas Masculinos)
VARIABLES Significado
EDAD (años)
PESO (Kg)
OX (ml/Kg/min)TASA ENTRADA OXIGENO ( l/K / i )
( / g/ )TASA ENTRADA OXIGENO (ml/Kg/min)
TC (min) TIEMPO CARRERA (Tiempo para correr 1.5 millas)
PDPulso en descanso
PCPulso en Carrera
PCM Max Pulso en Carrera
Modelo Regresión Lineal Simple: OX= f(TC) + U
31
Modelo Regresión Lineal Simple: OX f(TC) + U
Datos OXIGENO (Atletas Masculinos): Matriz de Correlaciones Simples
Datos OXIGENO (Atletas Masculinos). LnOX = + TC +
Coefficients
-3.311 .361 -.862 -9.166 .000TC (TIEMPO CARRERA:min/1.5 millas)
B Std. Error
UnstandardizedCoefficients
Beta
StandardizedCoefficients
t Sig .
Model Summary
862 743 735 2 745R R Square
AdjustedR Square
Std. Error ofthe Estimate
82.422 3.855 21.379 .000(Constant)
.862 .743 .735 2.745The independent variable is TC (TIEMPO CARRERA:min/1.5 millas).
Coefficientsa
5.638 .180 31.357 .000(Constant)Model1
B Std. Error
UnstandardizedCoefficients
Beta
StandardizedCoefficients
t Sig .
-.759 .076 -.879 -9.947 .000LnTC
Dependent Variable: LnOXa.
33
EJEMPLO 4: Datos NIÑOS
VARIABLES
PESO (libras)
EDAD (meses)
ALTURA (pulgadas)
SEXO (F,M)
34
MODELO: PESO =f(ALTURA) + U
MODELO: LnPESO=A+B LnALT
Dependent Variable: LnP
.631 402.124 1 235 .000 -5.027 2.340R Square F df1 df2 Sig.
Model SummaryConstant b1Parameter Estimates
Th i d d t i bl i L AThe independent variable is LnA.Coefficients a
Model B Std Error
UnstandardizedCoefficients
Beta
StandardizedCoefficients
t Sig-5.027 .480 -10.469 .0002.340 .117 .794 20.053 .000
(Constant)LnA
Model1
B Std. Error Beta t Sig.
Dependent Variable: LnPa. Correlations
1 .649** .635**.000 .000
237 237 237.649** 1 .775**
Pearson CorrelationSig . (2-tailed)NPearson Correlation
Meses
Pulgadas
Meses Pulgadas Libras
.000 .000237 237 237.635** .775** 1.000 .000237 237 237
Sig . (2-tailed)NPearson CorrelationSig . (2-tailed)N
Libras
35
237 237 237N
Correlation is significant at the 0.01 level (2-tailed).**.
VARIABLE DEFINICION
EJEMPLO 5: DATOS ULCERA
REAPARICION TIEMPO REAPARICION SINTOMATOLOGIA ULCEROSA (MESES)
RESPUESTA TIEMPO RESPUESTA TRATAMIENTO SINTOMATOLOGIA ULCEROSA (SEMANAS)
TABACO PACIENTE HA DEJADO DE FUMAR DURANTE EL TRATAMIENTO (S1=1,NO=2)
ALCOHOL CONSUMO ALCOHOL (GRAMOS/DIA)
CAFE CONSUMO CAFÉ (0,1,…,9)
ANTIACIDO TOMA ANTIACIDOS (0,1,2,…,9)
36
DATOS ULCERAMODELO1: LOS RESULTADOS INDICAN QUE HAY HETEROCEDASTIDADMODELO1 REAP = 12.19 - 1.21 TR (R=0.77; s=1.89)
HETEROCEDASTICIDAD RESIDUOS: NORMALES(0,1)
( ; )
DATOS ULCERA: LnREAP = + LnTR+ •La Prueba de Levene sugiere transformar las variables, tomando el logaritmo de las valores originalesvalores originales. •Los resultados indican que luego de la transformación sugerida por la prueba de Levene, la varianza se estabiliza. El bl d H t d ti id d d li i d•El problema de Heterocedasticidad queda eliminado.
•MODELO_2: LnREAP = 2.55 - 0.50 LnTR (r=0.75; s=0.27; DW=1.93)•MODELO_3: LnREAP = 2.58 - 0.17 TR (r=0.78; s=0.26; DW=1.80)
GRAFICO
DE DISPERSIONRELACION ENTRE TIEMPO REAPARICION Y TIEMPO RESPUESTA
ESTIMACIONESTIMACION POR MINIMOS CUADRADOS ORDINARIOS
ESTIMACION
DE PARAMETROSANALISIS DE VARIANZA
COEFICIENTE DE DETERMINACION
ANALISIS DE RESIDUOS
DIAGNOSTICO*GRAFICO DE PROBABILIDAD NORMAL
*GRAFICO RESIDUOS
PRUEBA PARA ESTABILIZAR VARIANZA EN PRESENCIA DE HETEROCEDASTICIDAD (PRUEBA DE LEVENE)HETEROCEDASTICIDAD (PRUEBA DE LEVENE)
TRANSFORMACION
Y NUEVA ESTIMACIONLA RESULTADOS, LUEGO DE LA TRANSFORMACION SUGERIDA, INDICAN ELIMINACION DE LA HETEROCEDASTICIDAD
1. EJEMPLO: Datos NIÑOS
EJEMPLO 6: VARIABLES CATEGORICAS EXPLICATIVAS
1. EJEMPLO: Datos NIÑOS
VARIABLESPESO (lib )PESO (libras)ALTURA (pulgadas)SEXO (F,M)MODELO: LnPeso = f(LnAlt, Sexo)
2 EJEMPLO: Datos Ulcera2. EJEMPLO: Datos Ulcera
Modelo: LnReap = f(LnTR, Fumar)
3. INTERACCIONES ENTRE VARIABLE DICOTOMICA Y VARIABLES EXPLICATIVAS
39
Modelo: LnReap = f(LnRes, Fumar, LnRes_Fuma)
MODELO: LnPESO=A+B LnALT, por CSX
CSX r R2 s bo b11 0.809 0.654 0.11 -4.39 2.18
40
0 0.781 0.610 0.12 -6.34 2.66
TIPOS DE DATOS EN ANALISIS DE REGRESION
DATOS CARACTERISTCAS
Datos medidos sobre n individuos en unDatos Transversales (Cross-Section)
Datos medidos sobre n individuos en un momento del tiempo
Series Temporales(Time Series)
Datos medidos sobre una misma unidad de medida a lo largo del tiempo
Datos Conjuntos (Pooled Data)
Mezcla de datos transversales y series temporales
(Pooled Data)
Datos PanelDatos sobre una muestra de UO medidosen instantes diferentes de tiempo
top related