normalidad - cjardon.webs.uvigo.escjardon.webs.uvigo.es/transparencias/unidad2.pdf · se calculan...
TRANSCRIPT
Universidade
de Vigo
Normalidad
La no normalidad de las perturbacionesLa no normalidad de las perturbacionesLa no normalidad de las perturbacionesLa no normalidad de las perturbaciones
Normalidad
Area
Curva normal
Universidade
de Vigo
Curva normal
Cola de probabilidad
Area
Nivel de significación
Valor críticoValor muestral del estadístico
Introducción
Concepto, efectos del fallo y propiedades
Universidade
de Vigo
Universidade
de Vigo
Universidade
de Vigo
NormalidadNormalidadNormalidadNormalidad
� Nos dice si los datos con los que trabajamos siguen leyes de distribución normales o no. Su comprobación es necesaria, para realizar los test de hipótesis exactos y los intervalos de confianza en el MRLC.intervalos de confianza en el MRLC.
� El comportamiento normal se denomina así porque tiende a ponderar más los valores centrales y menos los extremos, además de ser simétrica.
� Caracterizada por media y varianza
Universidade
de Vigo
Curva normal
Comportamiento normalComportamiento normalComportamiento normalComportamiento normal
Varianza
Mucha ponderación en valores centrales
Simetría
Area
MediaPoca ponderación
en valores externos
Universidade
de Vigo
Universidade
de VigoEfectos de la no normalidadEfectos de la no normalidadEfectos de la no normalidadEfectos de la no normalidad
� Si no se verifica la normalidad del modelo, entonces los estimadores MCO dejan de ser MV y por tanto pierden la eficiencia dentro de los estimadores insesgados, sin embargo siguen siendo ELIO.embargo siguen siendo ELIO.
� Mantienen la consistencia y la normalidad asintótica, pero también pierden la eficiencia asintótica.
� Los estimadores MV en general, verificarán mejores propiedades.
Universidade
de Vigo
Universidade
de VigoCausas de la no NormalidadCausas de la no NormalidadCausas de la no NormalidadCausas de la no Normalidad
1. Existencia de valores atípicos2. Distribuciones no normales
� Formas no simétricas, no están centradas en la media: � Fallo de la simetría� Fallo de la simetría
� Mayor masa probabilística en el centro que la normal� Mayor masa en los extremos que la normal
� Fallo de la curtósis
Universidade
de Vigo
Universidade
de VigoIdentificación de la NormalidadIdentificación de la NormalidadIdentificación de la NormalidadIdentificación de la Normalidad
- Gráficos- Histogramas- Residuos- Gráfico de probabilidad
Test de hipótesis- Test de hipótesis� Pretenden comprobar la distribución normal de las perturbaciones a partir de alguna regla de decisión estadística.� Bondad de ajuste, compara la distribución teórica con la empírica, pero se aplica a intervalos.
� Jarque-Bera, que estudia la simetría y curtósis de la densidad empírica.
Histograma
Gráfico de residuos
Gráfico de probabilidad
Universidade
de Vigo
Gráficos
Gráfico de probabilidad
Universidade
de Vigo
Universidade
de VigoHistogramasHistogramasHistogramasHistogramas
� Representa el comportamiento de la función de densidad empírica, estimada a partir del porcentaje de valores por tamaño del intervalo.
� Teóricamente debería aproximarse a una distribución normal por lo que la forma que debería presentar sería normal por lo que la forma que debería presentar sería simétrica y sin exceso de curtósis, por ese motivo algunos programas representan el histograma superpuesto por una curva normal. Eso no ocurre en SHAZAM.
Universidade
de VigoHistograma de residuosHistograma de residuosHistograma de residuosHistograma de residuos
Universidade
de Vigo
Universidade
de VigoGrafico de residuosGrafico de residuosGrafico de residuosGrafico de residuos
� Representar los residuos respecto a alguna variable.� Para detectar la normalidad sirve cualquiera y por consiguiente, normalmente se utilizan los valores predichos.
� Debería encontrarse el grafico de forma simétrica y mas concentrado en los valores cercanos al 0, y algo disperso en los valores alejados.
� Los valores muy alejados seguramente son atípicos.
Universidade
de Vigo
Comportamiento de los residuos bajo Comportamiento de los residuos bajo Comportamiento de los residuos bajo Comportamiento de los residuos bajo
normalidadnormalidadnormalidadnormalidad
1.27
2.11
*
*
*
*
*
*
*
*
Re
Bandas al 95% de confianza
Valores extraños al 95% de confianza
Valores predichos
.30 1.35 2.40 3.45 4.50 5.56
-1.27
-.42
.42
*
*
**
*
*
**
*
*
*
**
*
*
***
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
**
*
*
*
*
*
*
*
*
*
*
*
*
*
esiduos
Valores mas concentrados Valores mas
dispersos
Universidade
de Vigo
Gráficos de ProbabilidadGráficos de ProbabilidadGráficos de ProbabilidadGráficos de Probabilidad
Consiste en representar los residuos observados respecto a lo que se esperaría si siguieran una ley normal.
El alejamiento de la 0
1
2
EXPECTED VALUE
El alejamiento de la diagonal, que seria cuando es una ley normal perfecta, indica las diferencias con la normalidad
-2 -1 0 1 2 3-2
-1
R E ST U DE N
EXPECTED VALUE
Universidade
de Vigo
Método de construcción (1)Método de construcción (1)Método de construcción (1)Método de construcción (1)
1. Se calculan los residuos estudentizados o estandarizados.
2. Se ordenan de menor a mayor. De esta forma cada valorcorresponderá al correspondiente cuantil de orden t/T.
3. Se calcula el valor crítico que corresponde en la N(0,1) a cadacuantil de orden t/T, se corrige tomando
+−
φ= −
4/1T
8/3ta 1
t
Universidade
de Vigo
Método de construcción (2)Método de construcción (2)Método de construcción (2)Método de construcción (2)
4. Se representan gráficamente los residuos estudentizados respecto a at. Si hay normalidad debe ser una diagonal.
5. A modo de comprobación se construye el coeficiente de correlación al cuadrado que nos da idea de la normalidad correlación al cuadrado que nos da idea de la normalidad aproximada del grado de ajuste a la normalidad.
Universidade
de VigoCalculo del grafico de normalidadCalculo del grafico de normalidadCalculo del grafico de normalidadCalculo del grafico de normalidad
OLS Y X1 X2/RESID=E PREDICT=YE RSTAT NOANOVA HATDIAG=HT
GEN1 N=$NGEN1 S2=$SIG2GEN1 S2=$SIG2GENR ESTAND=E/SQRT(S2*(1-HT))SORT ESTAND/ DESCGENR T=TIME(0)GENR CT=(T-3/8)/(N+1/4)DISTRIB CT/INVERSE CRITICAL=ATGRAPH ESTAND AT
Universidade
de Vigo
Grafico de normalidadGrafico de normalidadGrafico de normalidadGrafico de normalidad
Valor
atípico
Universidade
de Vigo
Ejemplos de Gráficos de probabilidad Ejemplos de Gráficos de probabilidad Ejemplos de Gráficos de probabilidad Ejemplos de Gráficos de probabilidad
e interpretación (1)e interpretación (1)e interpretación (1)e interpretación (1)
Gráfico deProbabilidadGráfico de densidad
Asimetría por la izquierda
⇒
Universidade
de Vigo
Ejemplos de Gráficos de probabilidad Ejemplos de Gráficos de probabilidad Ejemplos de Gráficos de probabilidad Ejemplos de Gráficos de probabilidad
e interpretación (2)e interpretación (2)e interpretación (2)e interpretación (2)
Gráfico de Probabilidad Gráfico de Densidad
⇒
Asimetría a la derecha
Universidade
de Vigo
Ejemplos de Gráficos de probabilidad e Ejemplos de Gráficos de probabilidad e Ejemplos de Gráficos de probabilidad e Ejemplos de Gráficos de probabilidad e
interpretación (3)interpretación (3)interpretación (3)interpretación (3)
Gráf ico de ProbabilidadGráficodedensidad
Las colas de probabilidad son más "pesadas"
de lo normal, curtósis baja
⇒
Universidade
de Vigo
Ejemplos de Gráficos de probabilidad e Ejemplos de Gráficos de probabilidad e Ejemplos de Gráficos de probabilidad e Ejemplos de Gráficos de probabilidad e
interpretación (4)interpretación (4)interpretación (4)interpretación (4)
G ráf i co de P robab i l i dad GráficodeDensidad
Las colas de probabilidad son menos
"pesadas" de lo normal, excesiva curtósis
⇒
Universidade
de Vigo
Universidade
de VigoGrafico de probabilidadGrafico de probabilidadGrafico de probabilidadGrafico de probabilidad
� Representa los valores estandarizados de la variable respecto a los valores teóricos de la normal.
� Debería mostrar una diagonal, es decir una línea recta de pendiente 1, puesto que indica que lo empírico coincide pendiente 1, puesto que indica que lo empírico coincide ocn lo esperado, o sea, la normal.
Universidade
de VigoGrafico de probabilidad en residuosGrafico de probabilidad en residuosGrafico de probabilidad en residuosGrafico de probabilidad en residuos
Valor esperado si fuera exactamente
normal
Test de hipótesis
Bondad de ajuste
Jarque-Bera
Universidade
de Vigo
Universidade
de Vigo
Universidade
de VigoGráficos y test de hipótesisGráficos y test de hipótesisGráficos y test de hipótesisGráficos y test de hipótesis
� Los gráficos nos dan una idea de los posibles fallos, pero para contrastarlos debemos utilizar los test de hipótesis.
� Vamos a recordar algunas ideas de los test de hipótesis para contrastar suposiciones.
� Haremos uso de dos test:� Haremos uso de dos test:� Paramétrico: test de Jarque-Bera
� No paramétrico: Test de Bondad de ajuste.
Universidade
de Vigo
Universidade
de VigoTest de significaciónTest de significaciónTest de significaciónTest de significación
� En todos los test de significación se tienen en cuenta los siguientes aspectos:1. Definir modelo de análisis e indicar suposiciones del test2. Definir hipótesis nula y alternativa 3. Fijar el nivel de significación4. Estadístico de la prueba4. Estadístico de la prueba5. Ley de distribución del estadístico6. Regla de decisión
Universidade
de Vigo
Universidade
de Vigo
Test de significación para contrastar Test de significación para contrastar Test de significación para contrastar Test de significación para contrastar
suposiciones del MRLNsuposiciones del MRLNsuposiciones del MRLNsuposiciones del MRLN
� Cuando se quieren contrastar las suposiciones del MRLN, siempre se parte del modelo, con alguna generalización, es decir se suponen validas todas las suposiciones excepto la que se quiere contrastar.
� En el caso de la normalidad se suponen todas menos la � En el caso de la normalidad se suponen todas menos la normalidad de las perturbaciones.
Universidade
de Vigo
Universidade
de VigoModelo de contraste de normalidadModelo de contraste de normalidadModelo de contraste de normalidadModelo de contraste de normalidad
Donde:
� ε son independientes e igualmente distribuidas y no dependen
0 1 11
( ) ( ... )...
tt t t t k kt
t kt
Yy E y X X
X Xε β β β= − = − + + +
� ε son independientes e igualmente distribuidas y no dependen de las X (Independencia, homocedasticidad y exogeneidad),
� β son estables y estimables (Estabilidad e identificabilidad)� X no están relacionadas entre sí y vienen dadas sin error (no colinealidad y mensurabilidad)
Universidade
de Vigo
Universidade
de VigoResultados del modeloResultados del modeloResultados del modeloResultados del modelo
Esas suposiciones nos permiten:� Estimar las perturbaciones a partir de los errores de MCO.� Suponer que los residuos son aproximadamente independientes e igualmente distribuidos con leyes de media 0 y varianza constante, lo que nos permite comparar la distribución empírica con una normal teórica. Eso es el test de distribución empírica con una normal teórica. Eso es el test de bondad de ajuste.
� Calcular el coeficiente de asimetría y curtósis de los residuos como si estos provinieran de la misma población. Eso en esencia es el test de Jarque-Bera.
Universidade
de Vigo
Universidade
de VigoTest de JarqueTest de JarqueTest de JarqueTest de Jarque----BeraBeraBeraBera
� Contrastamos la asimetría y el exceso de curtósis, que bajo normalidad deberían de ser ambos 0.
� Analiza por consiguiente si la distribución falla en alguna de las características básicas de la normal, si es simétrica o si tiene diferente peso los valores centrales respecto a los tiene diferente peso los valores centrales respecto a los extremos de la normal.
� Se suele hacer una comparación de cada uno de ellos independientemente y otro test conjunto.
Universidade
de VigoHipótesis del Test de simetríaHipótesis del Test de simetríaHipótesis del Test de simetríaHipótesis del Test de simetría
� El test de simetría se realiza para contrastar:� H0: γγγγ1111=0, lo que significa simetría exacta
� H1: γγγγ1111≠≠≠≠0, 0, 0, 0, lo que significa que existe asimetría
Donde
� La consecuencia es que si existe asimetría falla la normalidad
3
11 3
i
n
i
R
εγ
σ==∑
Universidade
de Vigo
Estadístico y decisión del Test de Estadístico y decisión del Test de Estadístico y decisión del Test de Estadístico y decisión del Test de
simetría.simetría.simetría.simetría.
� Contrastamos si existe simetría o no
� El estadístico
n
t6
ˆ1
1
γ=
sigue una ley AN(0,1) bajo la hipótesis nula, es decir cuando se supone normalidad, siendo
� Se rechaza si donde λα/2 es el valor crítico de la normal tipificada
3
11 3ˆ
i
n
i
R
e
Sγ ==
∑
1 / 2t αλ>
Universidade
de Vigo
Test de simetríaTest de simetríaTest de simetríaTest de simetría
COEFFICIENT OF SKEWNESS = 0.2031 WITH STANDARD DEVIATION OF 0.3738
Asimetría positiva casi nula: mediana menor que la media
Forma teórica de la normal
WITH STANDARD DEVIATION OF 0.3738
|_gen1 t1=0.2031/0.3738|_distrib t1
NORMAL DISTRIBUTION - MEAN= 0.0000 VARIANCE= 1.0000
DATA Z PDF CDF 1-CDF
T1 0.54334 0.34419 0.70655 0.29345
Forma teórica de la distribución empírica
Universidade
de VigoHipótesis del Test de Hipótesis del Test de Hipótesis del Test de Hipótesis del Test de curtósiscurtósiscurtósiscurtósis
� El test de curtósis se realiza para contrastar:� H0: γγγγ2222=0, lo que significa curtósis exacta
� H1: γγγγ2222≠≠≠≠0, 0, 0, 0, lo que significa que existe curtósisDonde
� La consecuencia es que si existe curtósis falla la normalidad
4
12 4
3i
n
i
R
εγ
σ== −∑
Universidade
de Vigo
Estadístico y decisión del Test de Estadístico y decisión del Test de Estadístico y decisión del Test de Estadístico y decisión del Test de
curtósiscurtósiscurtósiscurtósis....
� Contrastamos si existe exceso de curtósis o no� El estadístico
sigue una ley AN(0,1) bajo la hipótesis nula, es decir cuando se supone
22
ˆ
2 4t
n
γ=
sigue una ley AN(0,1) bajo la hipótesis nula, es decir cuando se supone normalidad, siendo
� Se rechaza si donde λα/2 es el valor crítico de la normal tipificada
4
12 4ˆ 3
i
n
i
R
e
Sγ == −
∑
2 / 2t αλ>
Universidade
de Vigo
Test de Test de Test de Test de curtósiscurtósiscurtósiscurtósis
COEFFICIENT OF EXCESS KURTOSIS = -0.8323 WITH STANDARD DEVIATION OF 0.7326
|_gen1 t2=-0.8323/0.7326
Forma teórica de la normal
|_gen1 t2=-0.8323/0.7326|_distrib t2
NORMAL DISTRIBUTION - MEAN= 0.0000 VARIANCE= 1.0000
DATA Z PDF CDF 1-CDF
T2 -1.1361 0.20924 0.12796 0.87204
Curtósis negativa casi nula : menos apuntamiento que
la normalForma teórica de la distribución empírica
Universidade
de VigoHipótesis del Test de Hipótesis del Test de Hipótesis del Test de Hipótesis del Test de JarqueJarqueJarqueJarque----BeraBeraBeraBera
� El test de Jarque-Bera se realiza para contrastar:� H0: γγγγ1111= γγγγ2222=0, lo que significa simetría y curtósis exactas
� H1: γγγγ1111≠≠≠≠0 ο 0 ο 0 ο 0 ο γγγγ2222≠≠≠≠0 0 0 0 lo que significa que existe curtósis o asimetríaDonde los coeficientes han sido calculados como en los test anteriores.anteriores.
� La consecuencia es que si existe asimetría o curtósis falla la normalidad.
� Al contrastarlo conjuntamente exige un fallo mayor de alguna de ellas o de ambas para rechazarse.
Universidade
de Vigo
Estadístico y decisión del Test de Estadístico y decisión del Test de Estadístico y decisión del Test de Estadístico y decisión del Test de
JarqueJarqueJarqueJarque----BeraBeraBeraBera
� Contrastamos conjuntamente la asimetría y el exceso de curtósis
� El estadístico
sigue una ley asintótica ji cuadrado con 2 grados de libertad bajo la
1 2
2 2
2 2
1 2
ˆ ˆ
6 24JB t t T
γ γ = + = +
sigue una ley asintótica ji cuadrado con 2 grados de libertad bajo la hipótesis nula, puesto que ambos estadísticos t eran normales tipificadas.
� Se rechaza si
donde χ2,α es el valor crítico de una chi cuadrado con 2 grados e libertad2,
JBα
χ>
6 24
Universidade
de Vigo
Test de Test de Test de Test de JarqueJarqueJarqueJarque BeraBeraBeraBera
� JARQUE-BERA
Asimetría negativa: mediana mayor que
la media
Forma teórica de la normalAsimetría positiva
casi nula: mediana menor que la media
NORMALITY TEST-CHI-SQUARE(2 DF)= 1.5400 P-VALUE= 0.463
Curtósis negativa : mas apuntamiento que la normal
Forma teórica de la distribución empírica
Universidade
de Vigo
Universidade
de VigoTest de Test de Test de Test de Bondad de ajusteBondad de ajusteBondad de ajusteBondad de ajuste
� Compara la distribución teórica con la empírica.
� Analiza las funciones de densidad, es decir hace uso de los histograma y la función de densidad gaussiana.
� Para ello hace uso de intervalos.
Universidade
de Vigo
Universidade
de VigoTest de bondad de ajuste (1)Test de bondad de ajuste (1)Test de bondad de ajuste (1)Test de bondad de ajuste (1)
1. Calcular los valores observados dentro de cada subconjunto Sj, j=1,...k., que denominaremos OBSj.
2. Calcular la probabilidad teórica de que la variable tome algún valor en el subconjunto Sj suponiendo una normal algún valor en el subconjunto Sj suponiendo una normal con los parámetros estimados por MV. Denominamos al valor esperado ESPj, que será igual al número total de valores por la probabilidad de que un valor pertenezca a ese subconjunto
Universidade
de Vigo
Universidade
de VigoTest de bondad de ajuste (2)Test de bondad de ajuste (2)Test de bondad de ajuste (2)Test de bondad de ajuste (2)
3. Calculamos una distancia de tipo ji cuadrado entre esos valores, que,como los observados siguen una B(n,pj), cada término es aproximadamente N(0,1), pero no son independientes, ya que existen dos tipos de relaciones, debido al número de intervalos y a existen dos tipos de relaciones, debido al número de intervalos y a las estimaciones, en total, 3 restricciones, seguirá una ji cuadrado con k-3 grados de libertad.
4. Comparar el estadístico con el valor de las tablas y se rechaza si dicho valor es mayor, porque indica que se ajusta poco a la distribución normal.
Universidade
de VigoHistograma teórico y empíricoHistograma teórico y empíricoHistograma teórico y empíricoHistograma teórico y empírico
Diferencias positivas Función de
distribución teórica
Diferencias negativas
teórica
Función de distribución empírica
Universidade
de Vigo
Universidade
de VigoTelasTelasTelasTelas----normalidadnormalidadnormalidadnormalidad
COEFFICIENT OF SKEWNESS = 0.2031 WITH STANDARD DEVIATION OF 0.3738
COEFFICIENT OF EXCESS KURTOSIS = -0.8323 WITH STANDARD DEVIATION OF 0.7326
JARQUE-BERA NORMALITY TEST- CHI-SQUARE(2 DF)= 1.5400 P-VALUE= 0.463DF)= 1.5400 P-VALUE= 0.463
GOODNESS OF FIT TEST FOR NORMALITY OF RESIDUALS - 6 GROUPS
OBSERVED 0.0 8.0 10.0 15.0 7.0 0.0
EXPECTED 0.9 5.4 13.7 13.7 5.4 0.9
CHI-SQUARE = 4.5934 WITH 1 DEGREES OF FREEDOM, P-VALUE= 0.032
Universidade
de Vigo
Visión gráfica del test de bondad de Visión gráfica del test de bondad de Visión gráfica del test de bondad de Visión gráfica del test de bondad de
ajusteajusteajusteajuste
Valor observado= 0
Función de distribución teórica
Función de distribución empírica
Valor esperado= 0,9
OBS-ESP= -0,9
(OBS-ESP)2/ESP= 1.11
(OBS-ESP)2/ESP= 2.27
(OBS-ESP)2/ESP= 1
(OBS-ESP)2/ESP= 0.47
(OBS-ESP)2/ESP=0.12
(OBS-ESP)2/ESP= 1.11
Estadístico X2=Suma=4,59
Universidade
de Vigo
Universidade
de VigoTratamiento de la normalidadTratamiento de la normalidadTratamiento de la normalidadTratamiento de la normalidad
1.Si la distribución es conocida, aunque no sea normal, se aplica estimación MV.
2.Si la distribución es desconocida, se puede utilizar:a. Transformaciones buscando normalidad.b. Regresión robusta.b. Regresión robusta.
3.Si la no normalidad es debida a valores atípicosa. Se utilizan variables ficticias.b. Se eliminan si hay suficientes datos.
Universidade
de Vigo
Universidade
de VigoEjemplo: Fabricación de telasEjemplo: Fabricación de telasEjemplo: Fabricación de telasEjemplo: Fabricación de telas
� El coste de fabricación de algodón en una empresa de hilaturas depende de la cantidad de tejido producido y del precio de la mano de obra que trabaja subcontratada. los datos de los últimos 40 meses se recoge en la tabla siguiente.siguiente.
� Interesa comprobar si el comportamiento de los costes de la fabricación entre unos años y otros es normal.
Universidade
de Vigo
Universidade
de VigoTelasTelasTelasTelas----normalidadnormalidadnormalidadnormalidad
COEFFICIENT OF SKEWNESS = 0.2031 WITH STANDARD DEVIATION OF 0.3738COEFFICIENT OF EXCESS KURTOSIS = -0.8323 WITH STANDARD DEVIATION OF 0.73260.7326JARQUE-BERA NORMALITY TEST- CHI-SQUARE(2 DF)= 1.5400 P-VALUE= 0.463
Variables ficticias
Definición
Binomiales
Universidade
de Vigo
Multinomiales
Regresión con variables ficticias
Aplicación para solucionar la normalidad
Universidade
de Vigo
Universidade
de VigoDefinición de Variables ficticiasDefinición de Variables ficticiasDefinición de Variables ficticiasDefinición de Variables ficticias
� Son variables que caracterizan comportamientos cualitativos de forma que indican si una determinada observación verifica o no una propiedad prefijada
� También se les denomina variables indicador de la propiedad o característica
� Generalmente se definen como variables dicotómicas, pero también pueden definirse para variables multinomiales
Universidade
de Vigo
Universidade
de VigoVariables ficticias dicotómicasVariables ficticias dicotómicasVariables ficticias dicotómicasVariables ficticias dicotómicas
� Supongamos que tenemos una variable cualitativa dicotómica C, es decir, que se verifica una determinada propiedad o no, que tienen una cualidad o no, etc..., por tanto únicamente puede tomar dos valores A y B.
17/12/2007
valores A y B.� Se define la variable ficticia dicotómica como
=
==
BC
ACI A
si 0
si 1De esta forma se
cuantifica el efecto de
la variable
dicotómica, vale 1 si
la cualidad se verifica
y 0 si no.
Universidade
de Vigo
Universidade
de VigoEjemplosEjemplosEjemplosEjemplos
� En una encuesta responder si o no
� Ser valor atípico o no serlo
� Saber informática o noSaber informática o no
� Tener un sexo u otro
� Ser conductor o no
� Ser directivo o no
� .........
Universidade
de Vigo
Universidade
de VigoVariables ficticias multinomialesVariables ficticias multinomialesVariables ficticias multinomialesVariables ficticias multinomiales
� Supongamos que tenemos una variable cualitativa multinomial C, es decir, que puede tomar mas de dos valores C1, ...., Cm
� Se define una variable ficticia dicotómica para cada uno de los posibles valores.de los posibles valores.
≠
==
jt
jt
jt cC
cCI
si 0
si 1J=1,...m
Universidade
de Vigo
Universidade
de VigoEjemploEjemploEjemploEjemplo
� Supongamos que queremos estudiar la estacionalidad de las ventas de un producto. La variable estación toma cuatro valores: Primavera, verano, otoño e invierno. Definimos dichas opciones como:� C1= Ventas de primavera� C2= Ventas de verano� C = Ventas de otoño � C3= Ventas de otoño � C4= Ventas de invierno
� Por lo tanto definiremos cuatro variables ficticias: � Una hace relación a la primavera� Otra al verano� Otra al otoño� Y la última, al invierno
Universidade
de VigoEjemplo (2)Ejemplo (2)Ejemplo (2)Ejemplo (2)
Primavera =1si ventas C
si no
1∈
0
Verano =1si ventas C
2∈
Verano =1si ventas C
si no
2∈
0
Otoño =1si ventas C
si no
3∈
0
Invierno =1si ventas C
si no
4∈
0
Universidade
de Vigo
Universidade
de VigoVariables ficticias multinomiales (2)Variables ficticias multinomiales (2)Variables ficticias multinomiales (2)Variables ficticias multinomiales (2)
� Por consiguiente tendremos m variables ficticias, pero todas ellas van a verificar una restricción: la suma de todas las variables siempre vale 1, ya que siempre ocurre uno de los posibles casos.posibles casos.
� Por consiguiente una se puede poner en función del resto, lo que implica que bastaría definir m-1 variables
Universidade
de Vigo
Universidade
de VigoVariables ficticias multinomales (3)Variables ficticias multinomales (3)Variables ficticias multinomales (3)Variables ficticias multinomales (3)
� Por consiguiente tendríamos
≠
==
jt
jt
jt cC
cCI
si 0
si 1J=1,...m-1
Universidade
de Vigo
Universidade
de VigoEjemplo (3)Ejemplo (3)Ejemplo (3)Ejemplo (3)
� En el caso de las estaciones tendríamos sólo tres, pues el invierno sería 1 menos la suma de las otras tres.
Primavera =1si ventas C
si no
1∈
0
1si ventas C∈
Verano =1si ventas C
si no
2∈
0
Otoño =1si ventas C
si no
3∈
0
Invierno= 1-Primavera-Verano-Otoño
Universidade
de Vigo
Universidade
de VigoVariables ficticias en la regresiónVariables ficticias en la regresiónVariables ficticias en la regresiónVariables ficticias en la regresión
� Al incluirlas en una regresión lo hacen como cualquier otra variable, con la diferencia de que el coeficiente nos mide el cambio que se produce por estar en esa categoría en vez de en otraen otra
� Ejemplo � considerar el coste de producir una pieza en dos sectores diferentes A y B
Universidade
de Vigo
Universidade
de VigoCoste de producción en dos sectoresCoste de producción en dos sectoresCoste de producción en dos sectoresCoste de producción en dos sectores
� El hecho de incluir o no la variable ficticia cambia los parámetros de la regresión
Regresión
para cada
Sector A Sector B
Conjunta sin
dividir en
sectores
para cada
sector
Vamos a intentar formalizarlo
Universidade
de Vigo
Universidade
de Vigo
Ejemplos de regresión con variables Ejemplos de regresión con variables Ejemplos de regresión con variables Ejemplos de regresión con variables
dicotómicasdicotómicasdicotómicasdicotómicas
� El caso más habitual es cuando se responde a preguntas sobre gustos, actitudes, etc., únicamente de la forma si o no, sin respuestas intermedias.
� También se usa para medir efectos de cambios en el tiempo por legislaciones o efectos puntuales debidos a un sólo valor o a un legislaciones o efectos puntuales debidos a un sólo valor o a un conjunto de valores.
� Este será el caso que nos interese para resolver los problemas que se plantean con los valores atípicos, pero previamente veamos como se introducen estas variables en las ecuaciones de regresión y que efectos pueden producir.
Universidade
de Vigo
Universidade
de Vigo
Planteamiento de la regresión con Planteamiento de la regresión con Planteamiento de la regresión con Planteamiento de la regresión con
variables dicotómicasvariables dicotómicasvariables dicotómicasvariables dicotómicas
� Supongamos que tenemos una variable cualquiera C que únicamente puede tomar dos valores A y B de forma que ambos son excluyentes y exhaustivos. Entones la variable ficticia se define comodefine como
IA =1 si C = A
0 si C = B
Universidade
de Vigo
Universidade
de VigoRegresión con variables dicotómicasRegresión con variables dicotómicasRegresión con variables dicotómicasRegresión con variables dicotómicas
� En el caso mas simple, se introduciría en el modelo de regresión como una variable cualquiera
� Modelo sin variable ficticia
� Modelo con variable ficticiay X Xk k= + + + +β β β ε0 1 1 L
y X X Ik k A= + + + + +β β β α ε0 1 1 L
Efecto de la variable
ficticia
Universidade
de Vigo
Universidade
de VigoInterpretaciónInterpretaciónInterpretaciónInterpretación
� Las pendientes se interpretan igual, pero ahora sería el efecto independientemente del sector
� La constante β0 sería el coste fijo en el sector B
� La suma de β0 y α sería el coste fijo en el sector A
� Por tanto α mide la diferencia entre los costes fijos.� Por tanto α mide la diferencia entre los costes fijos.
Universidade
de Vigo
Universidade
de Vigo
Efecto de las variables dicotómicas Efecto de las variables dicotómicas Efecto de las variables dicotómicas Efecto de las variables dicotómicas
en la regresiónen la regresiónen la regresiónen la regresión
� Partiendo del modelo sin variable ficticia se puede medir el impacto de esta sobre cada uno de los coeficientes de la regresión cuando se sospecha que cada uno de los grupos tiene una relación diferente totalmente. En ese caso se definen una serie de variables auxiliares que miden el impacto sobre la pendiente
1...jX si t A
IX j k∈
= =
� Con esas variable el modelo quedaría: Efecto de la variable
ficticia sobre la
pendiente de Xk
1...0
j
j
X si t AIX j k
si t A
∈= =
∉
0 1 1
0 1 1
k
A k k
y X X
I IX IX
β β β
α α α ε
= + + + +
+ + + + +
L
L
Universidade
de Vigo
Universidade
de VigoInterpretaciónInterpretaciónInterpretaciónInterpretación
� Las pendientes se interpretan igual, pero ahora sería el efecto independientemente del sector
� La constante β0 sería el efecto fijo en el sector B� La suma de β0 y α0 sería el efecto fijo en el sector A� Por tanto α0 mide la diferencia entre los efectos fijos� Por tanto α0 mide la diferencia entre los efectos fijos� Cada una de las pendientes βj sería el impacto de Xj sobre Y en el sector B
� La suma de βj y αj nos mediría el impacto de Xj sobre Y en el sector A
� Por tanto cada uno de los αj nos mide la diferencia entre los impactos en los sectores A y B.
Universidade
de Vigo
Universidade
de Vigo
Regresión en XUMA con variables Regresión en XUMA con variables Regresión en XUMA con variables Regresión en XUMA con variables
ficticiasficticiasficticiasficticias
|_GENR T=TIME(0)
|_GENR D12=(T.EQ.12)
|_OLS Y X1 X2 D12/RESID=E INFLUENCE HATDIAG=HT
REQUIRED MEMORY IS PAR= 3 CURRENT PAR= 2000
OLS ESTIMATION
20 OBSERVATIONS DEPENDENT VARIABLE= Y
...NOTE..SAMPLE RANGE SET TO: 1, 20
R-SQUARE = 0.9855 R-SQUARE ADJUSTED = 0.9828R-SQUARE = 0.9855 R-SQUARE ADJUSTED = 0.9828
VARIANCE OF THE ESTIMATE-SIGMA**2 = 0.30698E-01
STANDARD ERROR OF THE ESTIMATE-SIGMA = 0.17521
SUM OF SQUARED ERRORS-SSE= 0.49117
MEAN OF DEPENDENT VARIABLE = 13.708
LOG OF THE LIKELIHOOD FUNCTION = 8.68826
VARIABLE ESTIMATED STANDARD T-RATIO PARTIAL STANDARDIZED ELASTICITY
NAME COEFFICIENT ERROR 16 DF P-VALUE CORR. COEFFICIENT AT MEANS
X1 0.48369 0.1711E-01 28.27 0.000 0.990 0.9224 0.2085
X2 0.57535E-01 0.1477E-01 3.896 0.001 0.698 0.1183 0.0285
D12 0.88083 0.1956 4.504 0.000 0.748 0.1476 0.0032
CONSTANT 10.415 0.1499 69.47 0.000 0.998 0.0000 0.7598
Universidade
de Vigo
Universidade
de Vigo
Efecto en la regresión en XUMA de la Efecto en la regresión en XUMA de la Efecto en la regresión en XUMA de la Efecto en la regresión en XUMA de la
variable ficticiavariable ficticiavariable ficticiavariable ficticia
RESIDUAL RSTUDENT HT COVRAT DFFITS DFFIT
1 -0.31969 -2.0908 0.0779 0.5047 -0.6077 -0.27007E-01
2 -0.10402 -0.6500 0.1960 1.4407 -0.3209 -0.25351E-01
3 0.26206 1.7350 0.1635 0.7446 0.7671 0.51219E-01
4 -0.27322E-01 -0.1673 0.1835 1.5737 -0.0793 -0.61407E-02
5 0.26840 1.7640 0.1463 0.7134 0.7302 0.45991E-01
6 -0.94858E-01 -0.5485 0.0682 1.2832 -0.1483 -0.69375E-02
7 0.17410 1.0880 0.1563 1.1323 0.4683 0.32256E-01
8 0.88418E-01 0.5119 0.0729 1.3029 0.1435 0.69511E-028 0.88418E-01 0.5119 0.0729 1.3029 0.1435 0.69511E-02
9 -0.16736 -1.0261 0.1305 1.1350 -0.3975 -0.25115E-01
10 -0.85826E-01 -0.5376 0.2066 1.5117 -0.2743 -0.22345E-01
11 0.18209 1.1141 0.1167 1.0664 0.4050 0.24063E-01
12 0.64435E-14 0.0000 1.0000********* 106.9110 19.346
13 0.10515 0.7446 0.3683 1.7725 0.5686 0.61319E-01
14 -0.23246 -1.4430 0.0974 0.8528 -0.4741 -0.25090E-01
15 -0.17150 -1.0457 0.1187 1.1085 -0.3837 -0.23095E-01
16 0.12570 0.8123 0.2365 1.4273 0.4521 0.38932E-01
17 -0.30907E-01 -0.1989 0.2605 1.7322 -0.1180 -0.10887E-01
18 -0.19273E-01 -0.1146 0.1353 1.4918 -0.0453 -0.30148E-02
19 -0.40684E-01 -0.2437 0.1456 1.4915 -0.1006 -0.69358E-02
20 0.87971E-01 0.5228 0.1194 1.3676 0.1925 0.11927E-01
SUM-OF-SQUARED PREDICTION ERRORS SSPE,PRESS,CV= 374.93
SCHMIDT(1974) SUM OF SQUARES OF STANDARDIZED PREDICTION ERRORS= 0.56862
STONE(1974) CROSS-VALIDATION= 0.36193E-01
El valor atípico aparece
ahora como muy influyente,
pero no atípico
Universidade
de VigoGrafico de probabilidadGrafico de probabilidadGrafico de probabilidadGrafico de probabilidad
Ya no hay valores
atípicos, es
prácticamente
normal