normalidad - cjardon.webs.uvigo.escjardon.webs.uvigo.es/transparencias/unidad2.pdf · se calculan...

Universidade

de Vigo

Normalidad

La no normalidad de las perturbacionesLa no normalidad de las perturbacionesLa no normalidad de las perturbacionesLa no normalidad de las perturbaciones

Normalidad

Area

Curva normal

Universidade

de Vigo

Curva normal

Cola de probabilidad

Area

Nivel de significación

Valor críticoValor muestral del estadístico

Introducción

Concepto, efectos del fallo y propiedades

Universidade

de Vigo

Universidade

de Vigo

Universidade

de Vigo

NormalidadNormalidadNormalidadNormalidad

� Nos dice si los datos con los que trabajamos siguen leyes de distribución normales o no. Su comprobación es necesaria, para realizar los test de hipótesis exactos y los intervalos de confianza en el MRLC.intervalos de confianza en el MRLC.

� El comportamiento normal se denomina así porque tiende a ponderar más los valores centrales y menos los extremos, además de ser simétrica.

� Caracterizada por media y varianza

Universidade

de Vigo

Curva normal

Comportamiento normalComportamiento normalComportamiento normalComportamiento normal

Varianza

Mucha ponderación en valores centrales

Simetría

Area

MediaPoca ponderación

en valores externos

Universidade

de Vigo

Universidade

de VigoEfectos de la no normalidadEfectos de la no normalidadEfectos de la no normalidadEfectos de la no normalidad

� Si no se verifica la normalidad del modelo, entonces los estimadores MCO dejan de ser MV y por tanto pierden la eficiencia dentro de los estimadores insesgados, sin embargo siguen siendo ELIO.embargo siguen siendo ELIO.

� Mantienen la consistencia y la normalidad asintótica, pero también pierden la eficiencia asintótica.

� Los estimadores MV en general, verificarán mejores propiedades.

Universidade

de Vigo

Universidade

de VigoCausas de la no NormalidadCausas de la no NormalidadCausas de la no NormalidadCausas de la no Normalidad

1. Existencia de valores atípicos2. Distribuciones no normales

� Formas no simétricas, no están centradas en la media: � Fallo de la simetría� Fallo de la simetría

� Mayor masa probabilística en el centro que la normal� Mayor masa en los extremos que la normal

� Fallo de la curtósis

Universidade

de Vigo

Universidade

de VigoIdentificación de la NormalidadIdentificación de la NormalidadIdentificación de la NormalidadIdentificación de la Normalidad

- Gráficos- Histogramas- Residuos- Gráfico de probabilidad

Test de hipótesis- Test de hipótesis� Pretenden comprobar la distribución normal de las perturbaciones a partir de alguna regla de decisión estadística.� Bondad de ajuste, compara la distribución teórica con la empírica, pero se aplica a intervalos.

� Jarque-Bera, que estudia la simetría y curtósis de la densidad empírica.

Histograma

Gráfico de residuos

Gráfico de probabilidad

Universidade

de Vigo

Gráficos

Gráfico de probabilidad

Universidade

de Vigo

Universidade

de VigoHistogramasHistogramasHistogramasHistogramas

� Representa el comportamiento de la función de densidad empírica, estimada a partir del porcentaje de valores por tamaño del intervalo.

� Teóricamente debería aproximarse a una distribución normal por lo que la forma que debería presentar sería normal por lo que la forma que debería presentar sería simétrica y sin exceso de curtósis, por ese motivo algunos programas representan el histograma superpuesto por una curva normal. Eso no ocurre en SHAZAM.

Universidade

de VigoHistograma de residuosHistograma de residuosHistograma de residuosHistograma de residuos

Universidade

de Vigo

Universidade

de VigoGrafico de residuosGrafico de residuosGrafico de residuosGrafico de residuos

� Representar los residuos respecto a alguna variable.� Para detectar la normalidad sirve cualquiera y por consiguiente, normalmente se utilizan los valores predichos.

� Debería encontrarse el grafico de forma simétrica y mas concentrado en los valores cercanos al 0, y algo disperso en los valores alejados.

� Los valores muy alejados seguramente son atípicos.

Universidade

de Vigo

Comportamiento de los residuos bajo Comportamiento de los residuos bajo Comportamiento de los residuos bajo Comportamiento de los residuos bajo

normalidadnormalidadnormalidadnormalidad

1.27

2.11

*

*

*

*

*

*

*

*

Re

Bandas al 95% de confianza

Valores extraños al 95% de confianza

Valores predichos

.30 1.35 2.40 3.45 4.50 5.56

-1.27

-.42

.42

*

*

**

*

*

**

*

*

*

**

*

*

***

*

*

*

*

*

*

*

*

*

*

*

*

*

*

*

*

*

*

**

*

*

*

*

*

*

*

*

*

*

*

*

*

esiduos

Valores mas concentrados Valores mas

dispersos

Universidade

de Vigo

Gráficos de ProbabilidadGráficos de ProbabilidadGráficos de ProbabilidadGráficos de Probabilidad

Consiste en representar los residuos observados respecto a lo que se esperaría si siguieran una ley normal.

El alejamiento de la 0

1

2

EXPECTED VALUE

El alejamiento de la diagonal, que seria cuando es una ley normal perfecta, indica las diferencias con la normalidad

-2 -1 0 1 2 3-2

-1

R E ST U DE N

EXPECTED VALUE

Universidade

de Vigo

Método de construcción (1)Método de construcción (1)Método de construcción (1)Método de construcción (1)

1. Se calculan los residuos estudentizados o estandarizados.

2. Se ordenan de menor a mayor. De esta forma cada valorcorresponderá al correspondiente cuantil de orden t/T.

3. Se calcula el valor crítico que corresponde en la N(0,1) a cadacuantil de orden t/T, se corrige tomando

+−

φ= −

4/1T

8/3ta 1

t

Universidade

de Vigo

Método de construcción (2)Método de construcción (2)Método de construcción (2)Método de construcción (2)

4. Se representan gráficamente los residuos estudentizados respecto a at. Si hay normalidad debe ser una diagonal.

5. A modo de comprobación se construye el coeficiente de correlación al cuadrado que nos da idea de la normalidad correlación al cuadrado que nos da idea de la normalidad aproximada del grado de ajuste a la normalidad.

Universidade

de VigoCalculo del grafico de normalidadCalculo del grafico de normalidadCalculo del grafico de normalidadCalculo del grafico de normalidad

OLS Y X1 X2/RESID=E PREDICT=YE RSTAT NOANOVA HATDIAG=HT

GEN1 N=$NGEN1 S2=$SIG2GEN1 S2=$SIG2GENR ESTAND=E/SQRT(S2*(1-HT))SORT ESTAND/ DESCGENR T=TIME(0)GENR CT=(T-3/8)/(N+1/4)DISTRIB CT/INVERSE CRITICAL=ATGRAPH ESTAND AT

Universidade

de Vigo

Grafico de normalidadGrafico de normalidadGrafico de normalidadGrafico de normalidad

Valor

atípico

Universidade

de Vigo

Ejemplos de Gráficos de probabilidad Ejemplos de Gráficos de probabilidad Ejemplos de Gráficos de probabilidad Ejemplos de Gráficos de probabilidad

e interpretación (1)e interpretación (1)e interpretación (1)e interpretación (1)

Gráfico deProbabilidadGráfico de densidad

Asimetría por la izquierda

⇒

Universidade

de Vigo

Ejemplos de Gráficos de probabilidad Ejemplos de Gráficos de probabilidad Ejemplos de Gráficos de probabilidad Ejemplos de Gráficos de probabilidad

e interpretación (2)e interpretación (2)e interpretación (2)e interpretación (2)

Gráfico de Probabilidad Gráfico de Densidad

⇒

Asimetría a la derecha

Universidade

de Vigo

Ejemplos de Gráficos de probabilidad e Ejemplos de Gráficos de probabilidad e Ejemplos de Gráficos de probabilidad e Ejemplos de Gráficos de probabilidad e

interpretación (3)interpretación (3)interpretación (3)interpretación (3)

Gráf ico de ProbabilidadGráficodedensidad

Las colas de probabilidad son más "pesadas"

de lo normal, curtósis baja

⇒

Universidade

de Vigo

Ejemplos de Gráficos de probabilidad e Ejemplos de Gráficos de probabilidad e Ejemplos de Gráficos de probabilidad e Ejemplos de Gráficos de probabilidad e

interpretación (4)interpretación (4)interpretación (4)interpretación (4)

G ráf i co de P robab i l i dad GráficodeDensidad

Las colas de probabilidad son menos

"pesadas" de lo normal, excesiva curtósis

⇒

Universidade

de Vigo

Universidade

de VigoGrafico de probabilidadGrafico de probabilidadGrafico de probabilidadGrafico de probabilidad

� Representa los valores estandarizados de la variable respecto a los valores teóricos de la normal.

� Debería mostrar una diagonal, es decir una línea recta de pendiente 1, puesto que indica que lo empírico coincide pendiente 1, puesto que indica que lo empírico coincide ocn lo esperado, o sea, la normal.

Universidade

de VigoGrafico de probabilidad en residuosGrafico de probabilidad en residuosGrafico de probabilidad en residuosGrafico de probabilidad en residuos

Valor esperado si fuera exactamente

normal

Test de hipótesis

Bondad de ajuste

Jarque-Bera

Universidade

de Vigo

Universidade

de Vigo

Universidade

de VigoGráficos y test de hipótesisGráficos y test de hipótesisGráficos y test de hipótesisGráficos y test de hipótesis

� Los gráficos nos dan una idea de los posibles fallos, pero para contrastarlos debemos utilizar los test de hipótesis.

� Vamos a recordar algunas ideas de los test de hipótesis para contrastar suposiciones.

� Haremos uso de dos test:� Haremos uso de dos test:� Paramétrico: test de Jarque-Bera

� No paramétrico: Test de Bondad de ajuste.

Universidade

de Vigo

Universidade

de VigoTest de significaciónTest de significaciónTest de significaciónTest de significación

� En todos los test de significación se tienen en cuenta los siguientes aspectos:1. Definir modelo de análisis e indicar suposiciones del test2. Definir hipótesis nula y alternativa 3. Fijar el nivel de significación4. Estadístico de la prueba4. Estadístico de la prueba5. Ley de distribución del estadístico6. Regla de decisión

Universidade

de Vigo

Universidade

de Vigo

Test de significación para contrastar Test de significación para contrastar Test de significación para contrastar Test de significación para contrastar

suposiciones del MRLNsuposiciones del MRLNsuposiciones del MRLNsuposiciones del MRLN

� Cuando se quieren contrastar las suposiciones del MRLN, siempre se parte del modelo, con alguna generalización, es decir se suponen validas todas las suposiciones excepto la que se quiere contrastar.

� En el caso de la normalidad se suponen todas menos la � En el caso de la normalidad se suponen todas menos la normalidad de las perturbaciones.

Universidade

de Vigo

Universidade

de VigoModelo de contraste de normalidadModelo de contraste de normalidadModelo de contraste de normalidadModelo de contraste de normalidad

Donde:

� ε son independientes e igualmente distribuidas y no dependen

0 1 11

( ) ( ... )...

tt t t t k kt

t kt

Yy E y X X

X Xε β β β= − = − + + +

� ε son independientes e igualmente distribuidas y no dependen de las X (Independencia, homocedasticidad y exogeneidad),

� β son estables y estimables (Estabilidad e identificabilidad)� X no están relacionadas entre sí y vienen dadas sin error (no colinealidad y mensurabilidad)

Universidade

de Vigo

Universidade

de VigoResultados del modeloResultados del modeloResultados del modeloResultados del modelo

Esas suposiciones nos permiten:� Estimar las perturbaciones a partir de los errores de MCO.� Suponer que los residuos son aproximadamente independientes e igualmente distribuidos con leyes de media 0 y varianza constante, lo que nos permite comparar la distribución empírica con una normal teórica. Eso es el test de distribución empírica con una normal teórica. Eso es el test de bondad de ajuste.

� Calcular el coeficiente de asimetría y curtósis de los residuos como si estos provinieran de la misma población. Eso en esencia es el test de Jarque-Bera.

Universidade

de Vigo

Universidade

de VigoTest de JarqueTest de JarqueTest de JarqueTest de Jarque----BeraBeraBeraBera

� Contrastamos la asimetría y el exceso de curtósis, que bajo normalidad deberían de ser ambos 0.

� Analiza por consiguiente si la distribución falla en alguna de las características básicas de la normal, si es simétrica o si tiene diferente peso los valores centrales respecto a los tiene diferente peso los valores centrales respecto a los extremos de la normal.

� Se suele hacer una comparación de cada uno de ellos independientemente y otro test conjunto.

Universidade

de VigoHipótesis del Test de simetríaHipótesis del Test de simetríaHipótesis del Test de simetríaHipótesis del Test de simetría

� El test de simetría se realiza para contrastar:� H0: γγγγ1111=0, lo que significa simetría exacta

� H1: γγγγ1111≠≠≠≠0, 0, 0, 0, lo que significa que existe asimetría

Donde

� La consecuencia es que si existe asimetría falla la normalidad

3

11 3

i

n

i

R

εγ

σ==∑

Universidade

de Vigo

Estadístico y decisión del Test de Estadístico y decisión del Test de Estadístico y decisión del Test de Estadístico y decisión del Test de

simetría.simetría.simetría.simetría.

� Contrastamos si existe simetría o no

� El estadístico

n

t6

ˆ1

1

γ=

sigue una ley AN(0,1) bajo la hipótesis nula, es decir cuando se supone normalidad, siendo

� Se rechaza si donde λα/2 es el valor crítico de la normal tipificada

3

11 3ˆ

i

n

i

R

e

Sγ ==

∑

1 / 2t αλ>

Universidade

de Vigo

Test de simetríaTest de simetríaTest de simetríaTest de simetría

COEFFICIENT OF SKEWNESS = 0.2031 WITH STANDARD DEVIATION OF 0.3738

Asimetría positiva casi nula: mediana menor que la media

Forma teórica de la normal

WITH STANDARD DEVIATION OF 0.3738

|_gen1 t1=0.2031/0.3738|_distrib t1

NORMAL DISTRIBUTION - MEAN= 0.0000 VARIANCE= 1.0000

DATA Z PDF CDF 1-CDF

T1 0.54334 0.34419 0.70655 0.29345

Forma teórica de la distribución empírica

Universidade

de VigoHipótesis del Test de Hipótesis del Test de Hipótesis del Test de Hipótesis del Test de curtósiscurtósiscurtósiscurtósis

� El test de curtósis se realiza para contrastar:� H0: γγγγ2222=0, lo que significa curtósis exacta

� H1: γγγγ2222≠≠≠≠0, 0, 0, 0, lo que significa que existe curtósisDonde

� La consecuencia es que si existe curtósis falla la normalidad

4

12 4

3i

n

i

R

εγ

σ== −∑

Universidade

de Vigo


curtósiscurtósiscurtósiscurtósis....

� Contrastamos si existe exceso de curtósis o no� El estadístico

sigue una ley AN(0,1) bajo la hipótesis nula, es decir cuando se supone

22

ˆ

2 4t

n

γ=

sigue una ley AN(0,1) bajo la hipótesis nula, es decir cuando se supone normalidad, siendo

� Se rechaza si donde λα/2 es el valor crítico de la normal tipificada

4

12 4ˆ 3

i

n

i

R

e

Sγ == −

∑

2 / 2t αλ>

Universidade

de Vigo

Test de Test de Test de Test de curtósiscurtósiscurtósiscurtósis

COEFFICIENT OF EXCESS KURTOSIS = -0.8323 WITH STANDARD DEVIATION OF 0.7326

|_gen1 t2=-0.8323/0.7326

Forma teórica de la normal

|_gen1 t2=-0.8323/0.7326|_distrib t2

NORMAL DISTRIBUTION - MEAN= 0.0000 VARIANCE= 1.0000

DATA Z PDF CDF 1-CDF

T2 -1.1361 0.20924 0.12796 0.87204

Curtósis negativa casi nula : menos apuntamiento que

la normalForma teórica de la distribución empírica

Universidade

de VigoHipótesis del Test de Hipótesis del Test de Hipótesis del Test de Hipótesis del Test de JarqueJarqueJarqueJarque----BeraBeraBeraBera

� El test de Jarque-Bera se realiza para contrastar:� H0: γγγγ1111= γγγγ2222=0, lo que significa simetría y curtósis exactas

� H1: γγγγ1111≠≠≠≠0 ο 0 ο 0 ο 0 ο γγγγ2222≠≠≠≠0 0 0 0 lo que significa que existe curtósis o asimetríaDonde los coeficientes han sido calculados como en los test anteriores.anteriores.

� La consecuencia es que si existe asimetría o curtósis falla la normalidad.

� Al contrastarlo conjuntamente exige un fallo mayor de alguna de ellas o de ambas para rechazarse.

Universidade

de Vigo


JarqueJarqueJarqueJarque----BeraBeraBeraBera

� Contrastamos conjuntamente la asimetría y el exceso de curtósis

� El estadístico

sigue una ley asintótica ji cuadrado con 2 grados de libertad bajo la

1 2

2 2

2 2

1 2

ˆ ˆ

6 24JB t t T

γ γ = + = +

sigue una ley asintótica ji cuadrado con 2 grados de libertad bajo la hipótesis nula, puesto que ambos estadísticos t eran normales tipificadas.

� Se rechaza si

donde χ2,α es el valor crítico de una chi cuadrado con 2 grados e libertad2,

JBα

χ>

6 24

Universidade

de Vigo

Test de Test de Test de Test de JarqueJarqueJarqueJarque BeraBeraBeraBera

� JARQUE-BERA

Asimetría negativa: mediana mayor que

la media

Forma teórica de la normalAsimetría positiva

casi nula: mediana menor que la media

NORMALITY TEST-CHI-SQUARE(2 DF)= 1.5400 P-VALUE= 0.463

Curtósis negativa : mas apuntamiento que la normal

Forma teórica de la distribución empírica

Universidade

de Vigo

Universidade

de VigoTest de Test de Test de Test de Bondad de ajusteBondad de ajusteBondad de ajusteBondad de ajuste

� Compara la distribución teórica con la empírica.

� Analiza las funciones de densidad, es decir hace uso de los histograma y la función de densidad gaussiana.

� Para ello hace uso de intervalos.

Universidade

de Vigo

Universidade

de VigoTest de bondad de ajuste (1)Test de bondad de ajuste (1)Test de bondad de ajuste (1)Test de bondad de ajuste (1)

1. Calcular los valores observados dentro de cada subconjunto Sj, j=1,...k., que denominaremos OBSj.

2. Calcular la probabilidad teórica de que la variable tome algún valor en el subconjunto Sj suponiendo una normal algún valor en el subconjunto Sj suponiendo una normal con los parámetros estimados por MV. Denominamos al valor esperado ESPj, que será igual al número total de valores por la probabilidad de que un valor pertenezca a ese subconjunto

Universidade

de Vigo

Universidade

de VigoTest de bondad de ajuste (2)Test de bondad de ajuste (2)Test de bondad de ajuste (2)Test de bondad de ajuste (2)

3. Calculamos una distancia de tipo ji cuadrado entre esos valores, que,como los observados siguen una B(n,pj), cada término es aproximadamente N(0,1), pero no son independientes, ya que existen dos tipos de relaciones, debido al número de intervalos y a existen dos tipos de relaciones, debido al número de intervalos y a las estimaciones, en total, 3 restricciones, seguirá una ji cuadrado con k-3 grados de libertad.

4. Comparar el estadístico con el valor de las tablas y se rechaza si dicho valor es mayor, porque indica que se ajusta poco a la distribución normal.

Universidade

de VigoHistograma teórico y empíricoHistograma teórico y empíricoHistograma teórico y empíricoHistograma teórico y empírico

Diferencias positivas Función de

distribución teórica

Diferencias negativas

teórica

Función de distribución empírica

Universidade

de Vigo

Universidade

de VigoTelasTelasTelasTelas----normalidadnormalidadnormalidadnormalidad

COEFFICIENT OF SKEWNESS = 0.2031 WITH STANDARD DEVIATION OF 0.3738

COEFFICIENT OF EXCESS KURTOSIS = -0.8323 WITH STANDARD DEVIATION OF 0.7326

JARQUE-BERA NORMALITY TEST- CHI-SQUARE(2 DF)= 1.5400 P-VALUE= 0.463DF)= 1.5400 P-VALUE= 0.463

GOODNESS OF FIT TEST FOR NORMALITY OF RESIDUALS - 6 GROUPS

OBSERVED 0.0 8.0 10.0 15.0 7.0 0.0

EXPECTED 0.9 5.4 13.7 13.7 5.4 0.9

CHI-SQUARE = 4.5934 WITH 1 DEGREES OF FREEDOM, P-VALUE= 0.032

Universidade

de Vigo

Visión gráfica del test de bondad de Visión gráfica del test de bondad de Visión gráfica del test de bondad de Visión gráfica del test de bondad de

ajusteajusteajusteajuste

Valor observado= 0

Función de distribución teórica

Función de distribución empírica

Valor esperado= 0,9

OBS-ESP= -0,9

(OBS-ESP)2/ESP= 1.11


(OBS-ESP)2/ESP= 1


(OBS-ESP)2/ESP=0.12


Estadístico X2=Suma=4,59

Universidade

de Vigo

Universidade

de VigoTratamiento de la normalidadTratamiento de la normalidadTratamiento de la normalidadTratamiento de la normalidad

1.Si la distribución es conocida, aunque no sea normal, se aplica estimación MV.

2.Si la distribución es desconocida, se puede utilizar:a. Transformaciones buscando normalidad.b. Regresión robusta.b. Regresión robusta.

3.Si la no normalidad es debida a valores atípicosa. Se utilizan variables ficticias.b. Se eliminan si hay suficientes datos.

Universidade

de Vigo

Universidade

de VigoEjemplo: Fabricación de telasEjemplo: Fabricación de telasEjemplo: Fabricación de telasEjemplo: Fabricación de telas

� El coste de fabricación de algodón en una empresa de hilaturas depende de la cantidad de tejido producido y del precio de la mano de obra que trabaja subcontratada. los datos de los últimos 40 meses se recoge en la tabla siguiente.siguiente.

� Interesa comprobar si el comportamiento de los costes de la fabricación entre unos años y otros es normal.

Universidade

de Vigo

Universidade

de VigoTelasTelasTelasTelas----normalidadnormalidadnormalidadnormalidad

COEFFICIENT OF SKEWNESS = 0.2031 WITH STANDARD DEVIATION OF 0.3738COEFFICIENT OF EXCESS KURTOSIS = -0.8323 WITH STANDARD DEVIATION OF 0.73260.7326JARQUE-BERA NORMALITY TEST- CHI-SQUARE(2 DF)= 1.5400 P-VALUE= 0.463

Variables ficticias

Definición

Binomiales

Universidade

de Vigo

Multinomiales

Regresión con variables ficticias

Aplicación para solucionar la normalidad

Universidade

de Vigo

Universidade

de VigoDefinición de Variables ficticiasDefinición de Variables ficticiasDefinición de Variables ficticiasDefinición de Variables ficticias

� Son variables que caracterizan comportamientos cualitativos de forma que indican si una determinada observación verifica o no una propiedad prefijada

� También se les denomina variables indicador de la propiedad o característica

� Generalmente se definen como variables dicotómicas, pero también pueden definirse para variables multinomiales

Universidade

de Vigo

Universidade

de VigoVariables ficticias dicotómicasVariables ficticias dicotómicasVariables ficticias dicotómicasVariables ficticias dicotómicas

� Supongamos que tenemos una variable cualitativa dicotómica C, es decir, que se verifica una determinada propiedad o no, que tienen una cualidad o no, etc..., por tanto únicamente puede tomar dos valores A y B.

17/12/2007

valores A y B.� Se define la variable ficticia dicotómica como

=

==

BC

ACI A

si 0

si 1De esta forma se

cuantifica el efecto de

la variable

dicotómica, vale 1 si

la cualidad se verifica

y 0 si no.

Universidade

de Vigo

Universidade

de VigoEjemplosEjemplosEjemplosEjemplos

� En una encuesta responder si o no

� Ser valor atípico o no serlo

� Saber informática o noSaber informática o no

� Tener un sexo u otro

� Ser conductor o no

� Ser directivo o no

� .........

Universidade

de Vigo

Universidade

de VigoVariables ficticias multinomialesVariables ficticias multinomialesVariables ficticias multinomialesVariables ficticias multinomiales

� Supongamos que tenemos una variable cualitativa multinomial C, es decir, que puede tomar mas de dos valores C1, ...., Cm

� Se define una variable ficticia dicotómica para cada uno de los posibles valores.de los posibles valores.

≠

==

jt

jt

jt cC

cCI

si 0

si 1J=1,...m

Universidade

de Vigo

Universidade

de VigoEjemploEjemploEjemploEjemplo

� Supongamos que queremos estudiar la estacionalidad de las ventas de un producto. La variable estación toma cuatro valores: Primavera, verano, otoño e invierno. Definimos dichas opciones como:� C1= Ventas de primavera� C2= Ventas de verano� C = Ventas de otoño � C3= Ventas de otoño � C4= Ventas de invierno

� Por lo tanto definiremos cuatro variables ficticias: � Una hace relación a la primavera� Otra al verano� Otra al otoño� Y la última, al invierno

Universidade

de VigoEjemplo (2)Ejemplo (2)Ejemplo (2)Ejemplo (2)

Primavera =1si ventas C

si no

1∈

0

Verano =1si ventas C

2∈


si no

2∈

0

Otoño =1si ventas C

si no

3∈

0

Invierno =1si ventas C

si no

4∈

0

Universidade

de Vigo

Universidade

de VigoVariables ficticias multinomiales (2)Variables ficticias multinomiales (2)Variables ficticias multinomiales (2)Variables ficticias multinomiales (2)

� Por consiguiente tendremos m variables ficticias, pero todas ellas van a verificar una restricción: la suma de todas las variables siempre vale 1, ya que siempre ocurre uno de los posibles casos.posibles casos.

� Por consiguiente una se puede poner en función del resto, lo que implica que bastaría definir m-1 variables

Universidade

de Vigo

Universidade

de VigoVariables ficticias multinomales (3)Variables ficticias multinomales (3)Variables ficticias multinomales (3)Variables ficticias multinomales (3)

� Por consiguiente tendríamos

≠

==

jt

jt

jt cC

cCI

si 0

si 1J=1,...m-1

Universidade

de Vigo

Universidade

de VigoEjemplo (3)Ejemplo (3)Ejemplo (3)Ejemplo (3)

� En el caso de las estaciones tendríamos sólo tres, pues el invierno sería 1 menos la suma de las otras tres.

Primavera =1si ventas C

si no

1∈

0

1si ventas C∈


si no

2∈

0

Otoño =1si ventas C

si no

3∈

0

Invierno= 1-Primavera-Verano-Otoño

Universidade

de Vigo

Universidade

de VigoVariables ficticias en la regresiónVariables ficticias en la regresiónVariables ficticias en la regresiónVariables ficticias en la regresión

� Al incluirlas en una regresión lo hacen como cualquier otra variable, con la diferencia de que el coeficiente nos mide el cambio que se produce por estar en esa categoría en vez de en otraen otra

� Ejemplo � considerar el coste de producir una pieza en dos sectores diferentes A y B

Universidade

de Vigo

Universidade

de VigoCoste de producción en dos sectoresCoste de producción en dos sectoresCoste de producción en dos sectoresCoste de producción en dos sectores

� El hecho de incluir o no la variable ficticia cambia los parámetros de la regresión

Regresión

para cada

Sector A Sector B

Conjunta sin

dividir en

sectores

para cada

sector

Vamos a intentar formalizarlo

Universidade

de Vigo

Universidade

de Vigo

Ejemplos de regresión con variables Ejemplos de regresión con variables Ejemplos de regresión con variables Ejemplos de regresión con variables

dicotómicasdicotómicasdicotómicasdicotómicas

� El caso más habitual es cuando se responde a preguntas sobre gustos, actitudes, etc., únicamente de la forma si o no, sin respuestas intermedias.

� También se usa para medir efectos de cambios en el tiempo por legislaciones o efectos puntuales debidos a un sólo valor o a un legislaciones o efectos puntuales debidos a un sólo valor o a un conjunto de valores.

� Este será el caso que nos interese para resolver los problemas que se plantean con los valores atípicos, pero previamente veamos como se introducen estas variables en las ecuaciones de regresión y que efectos pueden producir.

Universidade

de Vigo

Universidade

de Vigo

Planteamiento de la regresión con Planteamiento de la regresión con Planteamiento de la regresión con Planteamiento de la regresión con

variables dicotómicasvariables dicotómicasvariables dicotómicasvariables dicotómicas

� Supongamos que tenemos una variable cualquiera C que únicamente puede tomar dos valores A y B de forma que ambos son excluyentes y exhaustivos. Entones la variable ficticia se define comodefine como

IA =1 si C = A

0 si C = B

Universidade

de Vigo

Universidade

de VigoRegresión con variables dicotómicasRegresión con variables dicotómicasRegresión con variables dicotómicasRegresión con variables dicotómicas

� En el caso mas simple, se introduciría en el modelo de regresión como una variable cualquiera

� Modelo sin variable ficticia

� Modelo con variable ficticiay X Xk k= + + + +β β β ε0 1 1 L

y X X Ik k A= + + + + +β β β α ε0 1 1 L

Efecto de la variable

ficticia

Universidade

de Vigo

Universidade

de VigoInterpretaciónInterpretaciónInterpretaciónInterpretación

� Las pendientes se interpretan igual, pero ahora sería el efecto independientemente del sector

� La constante β0 sería el coste fijo en el sector B

� La suma de β0 y α sería el coste fijo en el sector A

� Por tanto α mide la diferencia entre los costes fijos.� Por tanto α mide la diferencia entre los costes fijos.

Universidade

de Vigo

Universidade

de Vigo

Efecto de las variables dicotómicas Efecto de las variables dicotómicas Efecto de las variables dicotómicas Efecto de las variables dicotómicas

en la regresiónen la regresiónen la regresiónen la regresión

� Partiendo del modelo sin variable ficticia se puede medir el impacto de esta sobre cada uno de los coeficientes de la regresión cuando se sospecha que cada uno de los grupos tiene una relación diferente totalmente. En ese caso se definen una serie de variables auxiliares que miden el impacto sobre la pendiente

1...jX si t A

IX j k∈

= =

� Con esas variable el modelo quedaría: Efecto de la variable

ficticia sobre la

pendiente de Xk

1...0

j

j

X si t AIX j k

si t A

∈= =

∉

0 1 1

0 1 1

k

A k k

y X X

I IX IX

β β β

α α α ε

= + + + +

+ + + + +

L

L

Universidade

de Vigo

Universidade

de VigoInterpretaciónInterpretaciónInterpretaciónInterpretación

� Las pendientes se interpretan igual, pero ahora sería el efecto independientemente del sector

� La constante β0 sería el efecto fijo en el sector B� La suma de β0 y α0 sería el efecto fijo en el sector A� Por tanto α0 mide la diferencia entre los efectos fijos� Por tanto α0 mide la diferencia entre los efectos fijos� Cada una de las pendientes βj sería el impacto de Xj sobre Y en el sector B

� La suma de βj y αj nos mediría el impacto de Xj sobre Y en el sector A

� Por tanto cada uno de los αj nos mide la diferencia entre los impactos en los sectores A y B.

Universidade

de Vigo

Universidade

de Vigo

Regresión en XUMA con variables Regresión en XUMA con variables Regresión en XUMA con variables Regresión en XUMA con variables

ficticiasficticiasficticiasficticias

|_GENR T=TIME(0)

|_GENR D12=(T.EQ.12)

|_OLS Y X1 X2 D12/RESID=E INFLUENCE HATDIAG=HT

REQUIRED MEMORY IS PAR= 3 CURRENT PAR= 2000

OLS ESTIMATION

20 OBSERVATIONS DEPENDENT VARIABLE= Y

...NOTE..SAMPLE RANGE SET TO: 1, 20

R-SQUARE = 0.9855 R-SQUARE ADJUSTED = 0.9828R-SQUARE = 0.9855 R-SQUARE ADJUSTED = 0.9828

VARIANCE OF THE ESTIMATE-SIGMA**2 = 0.30698E-01

STANDARD ERROR OF THE ESTIMATE-SIGMA = 0.17521

SUM OF SQUARED ERRORS-SSE= 0.49117

MEAN OF DEPENDENT VARIABLE = 13.708

LOG OF THE LIKELIHOOD FUNCTION = 8.68826

VARIABLE ESTIMATED STANDARD T-RATIO PARTIAL STANDARDIZED ELASTICITY

NAME COEFFICIENT ERROR 16 DF P-VALUE CORR. COEFFICIENT AT MEANS

X1 0.48369 0.1711E-01 28.27 0.000 0.990 0.9224 0.2085

X2 0.57535E-01 0.1477E-01 3.896 0.001 0.698 0.1183 0.0285

D12 0.88083 0.1956 4.504 0.000 0.748 0.1476 0.0032

CONSTANT 10.415 0.1499 69.47 0.000 0.998 0.0000 0.7598

Universidade

de Vigo

Universidade

de Vigo

Efecto en la regresión en XUMA de la Efecto en la regresión en XUMA de la Efecto en la regresión en XUMA de la Efecto en la regresión en XUMA de la

variable ficticiavariable ficticiavariable ficticiavariable ficticia

RESIDUAL RSTUDENT HT COVRAT DFFITS DFFIT

1 -0.31969 -2.0908 0.0779 0.5047 -0.6077 -0.27007E-01

2 -0.10402 -0.6500 0.1960 1.4407 -0.3209 -0.25351E-01

3 0.26206 1.7350 0.1635 0.7446 0.7671 0.51219E-01

4 -0.27322E-01 -0.1673 0.1835 1.5737 -0.0793 -0.61407E-02

5 0.26840 1.7640 0.1463 0.7134 0.7302 0.45991E-01

6 -0.94858E-01 -0.5485 0.0682 1.2832 -0.1483 -0.69375E-02

7 0.17410 1.0880 0.1563 1.1323 0.4683 0.32256E-01

8 0.88418E-01 0.5119 0.0729 1.3029 0.1435 0.69511E-028 0.88418E-01 0.5119 0.0729 1.3029 0.1435 0.69511E-02

9 -0.16736 -1.0261 0.1305 1.1350 -0.3975 -0.25115E-01

10 -0.85826E-01 -0.5376 0.2066 1.5117 -0.2743 -0.22345E-01

11 0.18209 1.1141 0.1167 1.0664 0.4050 0.24063E-01

12 0.64435E-14 0.0000 1.0000********* 106.9110 19.346

13 0.10515 0.7446 0.3683 1.7725 0.5686 0.61319E-01

14 -0.23246 -1.4430 0.0974 0.8528 -0.4741 -0.25090E-01

15 -0.17150 -1.0457 0.1187 1.1085 -0.3837 -0.23095E-01

16 0.12570 0.8123 0.2365 1.4273 0.4521 0.38932E-01

17 -0.30907E-01 -0.1989 0.2605 1.7322 -0.1180 -0.10887E-01

18 -0.19273E-01 -0.1146 0.1353 1.4918 -0.0453 -0.30148E-02

19 -0.40684E-01 -0.2437 0.1456 1.4915 -0.1006 -0.69358E-02

20 0.87971E-01 0.5228 0.1194 1.3676 0.1925 0.11927E-01

SUM-OF-SQUARED PREDICTION ERRORS SSPE,PRESS,CV= 374.93

SCHMIDT(1974) SUM OF SQUARES OF STANDARDIZED PREDICTION ERRORS= 0.56862

STONE(1974) CROSS-VALIDATION= 0.36193E-01

El valor atípico aparece

ahora como muy influyente,

pero no atípico

Universidade

de VigoGrafico de probabilidadGrafico de probabilidadGrafico de probabilidadGrafico de probabilidad

Ya no hay valores

atípicos, es

prácticamente

normal

normalidad - cjardon.webs.uvigo.escjardon.webs.uvigo.es/transparencias/unidad2.pdf · se calculan...

Documents