capitulo iv desarrollo de la...
TRANSCRIPT
CAPITULO IV
DESARROLLO DE LA INVESTIGACIÓN
En este capítulo se expondrán los métodos utilizados para el pronóstico de los siniestros
del seguro de Gastos Médicos Mayores, con base en los datos proporcionados por la
Comisión Nacional de Seguros y Fianzas y una aseguradora del mercado mexicano. En
primera instancia, el problema se tratará de resolver por los métodos de regresión lineal y
regresión exponencial, siendo éstos los modelos más sencillos. Sin embargo, por las
características del problema se tratará de resolver por medio de los métodos de series de
tiempo, como el método de descomposición y el método Box-Jenkins, siendo éste uno de
los modelos más completos que existen para pronosticar variables aleatorias en el tiempo.
A lo largo de este capítulo se explicará el desarrollo e implementación de cada uno de
estos métodos.
IV.1 Pronósticos
Pronosticar es el “arte” de predecir el valor futuro de una variable aleatoria con más de un
posible resultado; dicha predicción se hace tratando de ser lo más exacto posible. Los
pronósticos se elaboran con información disponible y a la vez ocupando herramientas de
disciplinas como la estadística, la economía y la informática. Es por eso que son de gran
ayuda al predecir posibles cambios en el tiempo. Las decisiones críticas pueden ser
tomadas a partir del análisis de expectativas racionales de condiciones futuras.
77
Si las decisiones se pudieran ajustar a nuevas condiciones instantáneamente y sin incurrir
en costos, no habría necesidad de pronosticar.
IV.2 Regresión Lineal
Dentro de los métodos más sencillo para hacer un pronóstico, se encuentra el método de
regresión lineal. Este procedimiento consiste en encontrar una relación lineal entre dos
variables, una variable dependiente y otra independiente. Dicha relación se expresará con
la ecuación de una recta que mejor ajuste los datos. Sin embargo dicho método tiene
limitaciones, pues no considera cambios externos ni ciclos en el tiempo.
Aunque se utilizó este método para hombres y mujeres para todos y cada uno de los
rangos quinquenales en los que se divide el Seguro de Gastos Médicos, a manera de
ejemplo, sólo se muestra el resultado para mujeres en el rango de 0 a 4 años.
La regresión simple, puede ser escrita como
tt bXaY +=ˆ (4.1)
Donde:
=tY Es la variable proyectada
=tX Es la variable explicativa
=a Intercepción en el eje Y
=b Valor de la pendiente
78
El programa estadístico Minitab obtiene dichos cálculos, donde y
, quedando de la siguiente manera:
2801.91=a
8229.2=b
tYt 82292.22801.91 += (4.2)
Los valores del pronóstico bajo este esquema lineal se observan en la tabla 4.1 y
graficados en la figura 4.1. Analizando la serie de tiempo de los siniestros se puede
observar que muestra un patrón estacional anual. Sin embargo los valores del pronóstico
con regresión lineal no siguen ningún patrón más que el de una línea de regresión.
Es necesario considerar que los valores arrojados por este modelo son números reales,
por lo que se han redondeado los pronósticos al entero próximo superior pues los
siniestros se dan en números enteros.
Tabla 4.1 Periodo Pronóstico Ene-05 433 Feb-05 436 Mar-05 439 Abr-05 442 May-05 445 Jun-05 447 Jul-05 450 Ago-05 453 Sep-05 456 Oct-05 459 Nov-05 462 Dic-05 464 Fuente: Elaboración propia
79
Index
Muj
eres
(0-
4)
130117104917865523926131
500
400
300
200
100
Accuracy MeasuresMAPE 31.79MAD 62.82MSD 5880.27
Variable
Forecasts
ActualFits
Trend Analysis Plot for Mujeres (0-4)Linear Trend Model
Yt = 91.2801 + 2.82292*t
Figura 4.1 Pronóstico con el método de Regresión Lineal para edades 0-4 mujeres.
Fuente: Elaboración propia
IV.3 Regresión Exponencial
Pronosticar el número de siniestros con una regresión exponencial es un método
alternativo para prever el crecimiento de este ramo de los seguros. Esta regresión es
descrita en la sección III.1.2 y es posible escribirla como:
tXt baY *ˆ = (4.3)
Donde:
=tY Es la variable proyectada
=tX Es la variable explicativa
=a Intercepción en el eje Y
=b Valor de la pendiente
El pronóstico para el rango 0 a 4 de mujeres queda expresado por la ecuación de
regresión exponencial:
80
tYt 01107.1*536.119= (4.4)
Los valores del pronóstico se muestran en la tabla 4.2 y la serie de tiempo en la figura
4.2.
Tabla 4.2 Periodo Pronóstico Ene-05 453 Feb-05 458 Mar-05 463 Abr-05 469 May-05 474 Jun-05 479 Jul-05 484 Ago-05 490 Sep-05 495 Oct-05 500 Nov-05 506 Dic-05 512 Fuente: Elaboración propia
Index
Muj
eres
(0-
4)
130117104917865523926131
500
400
300
200
100
Accuracy MeasuresMAPE 28.13MAD 60.60MSD 5796.36
Variable
Forecasts
ActualFits
Trend Analysis Plot for Mujeres (0-4)Growth Curve Model
Yt = 119.536 * (1.01107**t)
Figura 4.2 Pronóstico con el Método de Regresión Exponencial para Edades 0-4
Mujeres. Fuente: Elaboración propia
Como se observa, los dos métodos arriba mencionados (regresión lineal y regresión
exponencial) son capaces de proporcionar un pronóstico. Sin embargo, las gráficas
81
conducen a pensar en un comportamiento estacional de la serie de tiempo; por lo que se
intentará resolver el problema con modelos que contemplen estacionalidad.
IV.4 Series de Tiempo
Dadas las características del problema, como la estacionalidad de los datos, se decidió
emplear métodos de series de tiempo. Los dos métodos que se contemplan en este trabajo
son el de descomposición y los modelos Integrados Autorregresivos con Promedios
Móviles (ARIMA, por sus siglas en inglés).
IV.4.1 Método de descomposición para pronósticos de series de tiempo
Este método ha demostrado ser excelente para la predicción a corto y mediano plazos. No
es un método explicativo ya que no se puede inferir estadísticamente sobre sus resultados,
lo cual es uno de los puntos débiles del método. Sin embargo, dicho método identifica los
componentes de una serie de tiempo y los proyecta hacia el futuro, excepto el
componente aleatorio. El método puede incluir una regresión lineal o una regresión
exponencial y logra contemplar la estacionalidad de la serie y proyectarla al futuro. Los
valores del método con regresión lineal se muestran en la tabla 4.3 junto con su gráfica en
la figura 4.3. Para el método de descomposición con regresión exponencial sus valores y
gráficas se muestran en la tabla y figura 4.4.
82
Tabla 4.3 Periodo Pronóstico Ene-05 245 Feb-05 227 Mar-05 290 Abr-05 337 May-05 576 Jun-05 643 Jul-05 658 Ago-05 673 Sep-05 644 Oct-05 615 Nov-05 495 Dic-05 346 Fuente: Elaboración propia
0
100
200
300
400
500
600
700
800
0 20 40 60 80 100 120 140
Meses
Núm
ero
de S
inie
stro
s
Datos Dados Pronósticos Figura 4.3 Pronóstico con el Método de Descomposición Regresión Lineal Mujeres 0-4
Fuente: Elaboración propia
Tabla 4.4 Periodo Pronóstico Ene-05 245 Feb-05 227 Mar-05 290 Abr-05 337 May-05 576 Jun-05 643 Jul-05 658 Ago-05 673 Sep-05 644 Oct-05 615 Nov-05 495 Dic-05 346 Fuente: Elaboración propia
83
0
100
200
300
400
500
600
0 20 40 60 80 100 120 140
Meses
Núm
ero
de S
inie
stro
s
Datos Dados Pronósticos
Figura 4.4 Pronóstico con el método de Descomposición Regresión Exponencial Mujeres 0-4
Fuente: Elaboración propia
Este trabajo intentará resolver el problema de pronósticos por medio de una metodología
más completa en la que se puedan analizar estadísticamente los resultados, como es el
caso de la metodología Box-Jenkins.
IV.4.2 Implementación del método Box-Jenkins
Por la complejidad de este método, se ha decidido desarrollarlo en varias fases:
identificación, estimación del modelo y aplicación.
IV.4.2.1 Fase 1: Identificación
La primera fase involucra graficar la serie de tiempo, transformar los datos para
estabilizar la varianza y media (si es necesario), calcular las diferencias de los datos para
obtener series estacionarias, examinar las funciones de autocorrelación (ACF) y
autocorrelación parcial (PACF) para identificar posibles modelos.
84
IV.4.2.1.1 Graficar la serie de tiempo
Para la aplicación de la metodología ARIMA o Box-Jenkins, el primer paso es graficar la
serie de tiempo de los datos. En este caso se muestra en la figura 4.5 la serie de tiempo
para el número de siniestros de mujeres entre 0 y 4 años durante los últimos 10 años.
Analizando dicha serie se puede concluir una tendencia de crecimiento con una
estacionalidad anual, incrementándose durante los meses de mayo a julio en la mayoría
de los años.
Número de Siniestros Mujeres 0-4
0
100
200
300
400
500
600
Ene
-95
Jun-
95
Nov
. 95
Abr
-96
Sep
-96
Feb-
97
Jul-9
7
Dic
-97
May
-98
Oct
-98
Mar
-99
Ago
-99
Ene
-00
Jun-
00
Nov
-00
Abr
-01
Sep
-01
Feb-
02
Jul-0
2
Dic
-02
May
-03
Oct
-03
Mar
-04
Ago
-04
Figura 4.5 Serie de Tiempo para Número de Siniestros Mujeres 0-4
Fuente: Elaboración propia
La metodología Box-Jenkins se caracteriza por ser aplicable solamente a series de tiempo
estables en varianza, por lo que una vez graficada la serie de tiempo, se dividen los datos
en grupos y se obtienen las medias y varianzas en cada uno de los grupos, esto permite
identificar si la serie es estable en varianza, es decir, que se mantenga constante a través
del tiempo. En este trabajo, los datos disponibles para cada rango de edad, se
85
concentraron en 10 grupos de 12 datos cada uno; es decir: 10 años de datos mensuales.
De estos 10 grupos se calculó la media y varianza grupal:
Tabla 4.5 Grupo Media Varianza
1 167.5000 1058.2727 2 178.5833 1226.9924 3 169.5833 1825.5379 4 99.0833 359.5379 5 217.5000 1963.9091 6 237.0000 2017.6364 7 345.2500 5173.1136 8 424.2500 7612.2045 9 413.2500 9815.8409
10 368.6667 5313.5152 Fuente: Elaboración propia
Graficando los valores de las medias y de las varianzas de los grupos, se observa que la
media es relativamente constante a través del tiempo; sin embargo la varianza presenta
cambios significativos, tomando valores desde 360 hasta 9800 aproximadamente.
Media y Varianza
12000 10000
8000 6000
Valores Media
4000 2000
0 1 2 3 4 5 6 7 8 9 10
Grupos
Figura 4.6 Media y Varianza de los Grupos de Mujeres 0-4
Varianza
Fuente: Elaboración propia
Si se grafica la media contra la varianza, se nota una relación que puede ser ajustada por
una línea:
86
Media vs. Varianza (Mujeres 0-4)
-2000
0
2000
4000
6000
8000
10000
12000
- 100.00 200.00 300.00 400.00 500.00
Media
Varia
nza
Figura 4.7 Serie de Tiempo para Número de Siniestros Mujeres 0-4
Fuente: Elaboración propia
IV.4.2.1.2 Transformación de los datos
La relación de tipo lineal entre la media y varianza infiere que la serie de tiempo de
siniestros de mujeres entre 0 y 4 años es una serie no estacionaria en varianza, por lo que
será necesario aplicarle alguna transformación que estabilice la varianza.
En este trabajo se utilizaron las transformaciones más comunes para estabilizar la
varianza: ttt
ZZZ
,1,1 y , donde es el valor de la serie en el tiempo t . Para el
rango entre 0 y 4 años de mujeres se consideró la transformación logarítmica como la
más adecuada, pues colabora también con la estabilización de la media, aunque este
supuesto no es indispensable para la metodología. Dada la semejanza entre la mayoría de
las series que se contemplaron en este trabajo, dicha transformación resulta ser eficiente
para estabilizar la mayoría de las series de tiempo de los siniestros. A partir de la
transformación logarítmica de los datos de este rango, se obtiene la tabla 4.6 y la figura
4.8:
( )tZln tZ
87
Tabla 4.6 Grupo Media Varianza
1 5.1025 0.0419 2 5.1666 0.0412 3 5.1004 0.0764 4 4.5784 0.0394 5 5.3615 0.0471 6 5.4501 0.0409 7 5.8228 0.0488 8 6.0290 0.0488 9 5.9936 0.0716
10 5.8907 0.0431 Fuente: Elaboración propia.
Media y Varianza
0
1
2
3
4
5
6
7
1 2 3 4 5 6 7 8 9 10
Grupos
Val
ores Media
Varianza
Figura 4.8 Varianza y Media de los Grupos de los Datos con Transformación
Logarítmica Mujeres 0-4 Fuente: Elaboración propia
Gracias a la transformación logarítmica, se puede apreciar que la varianza, al igual que la
media es estacionaria. Una vez hecha la transformación de la serie, se grafica la media
contra la varianza y se puede concluir que no existe relación alguna, pues los puntos se
encuentran dispersos, indicando la estacionariedad de la varianza.
88
Media vs. Varianza (Mujeres0-4) Transformada
00.010.020.030.040.050.060.070.080.09
0 1 2 3 4 5 6 7
Varianza
Med
ia
Figura 4.9 Varianza contra Media de los Grupos de los Datos con Transformación
Logarítmica Mujeres 0-4 Fuente: Elaboración propia
La estacionariedad de la varianza es sólo un requisito de la metodología Box-Jenkins,
pero ello no implica que la serie en sí, sea estacionaria.
Como se dijo en el capítulo 3, el método Box-Jenkins sólo es aplicable para series de
tiempo estacionarias. En la práctica, la mayoría de las series de tiempo son no
estacionarias y las series de este trabajo no son la excepción, por lo que fue necesario
identificar, para cada uno de los rangos, si la serie de tiempo de siniestros es estacionaria
o no. Para confirmar la hipótesis de la no estacionariedad de las series, se grafica la
función de autocorrelación muestral, que en este caso decae muy lentamente a cero, lo
que comprueba que la serie es no estacionaria.
89
Lag
Aut
ocor
rela
tion
30282624222018161412108642
1.0
0.8
0.6
0.4
0.2
0.0
-0.2
-0.4
-0.6
-0.8
-1.0
Autocorrelation Function for Mujeres 0-4(with 5% significance limits for the autocorrelations)
Figura 4.10 Función de Autocorrelación Simple Mujeres 0-4
Fuente: Elaboración propia
IV.4.2.1.3 Obtención de series estacionarias
Para obtener series estacionarias y así poder aplicar la metodología Box-Jenkins, fue
necesario realizar una diferenciación. Se definió . Es decir, el valor en
el tiempo es el resultado de la diferencia de los valores de la serie en los tiempos t y
. Este proceso asegura, en la mayoría de las veces, que la serie pierda tendencia y se
vuelva estacionaria. En caso de no lograr la estacionariedad, una segunda diferenciación
sería necesaria. En este trabajo sólo fue necesaria una diferenciación para lograr lo
deseado.
1*
−−= ttt yyy *ty
t
1−t
La serie de tiempo con una diferenciación se muestra en la figura 4.11, como se puede
apreciar carece de tendencia, por lo que se puede decir que se ha obtenido una serie
estacionaria.
90
Serie Diferenciada Mujeres 0-4
-1
-0.8
-0.6
-0.4
-0.2
0
0.2
0.4
0.6
0.8
1 9 17 25 33 41 49 57 65 73 81 89 97 105 113
Figura 4.11 Serie Diferenciada Mujeres 0-4
Fuente: Elaboración propia
Para comprobar la estacionariedad de la serie, se espera que las funciones de
autocorrelación simple y parcial caigan rápidamente a cero. Esto se observa en las figuras
4.12 y 4.13 respectivamente.
Lag
Aut
ocor
rela
tion
30282624222018161412108642
1.0
0.8
0.6
0.4
0.2
0.0
-0.2
-0.4
-0.6
-0.8
-1.0
Autocorrelation Function for Mujeres 0-4 Diferenciado(with 5% significance limits for the autocorrelations)
Figura 4.12 Función de Autocorrelación Simple de la Serie Diferenciada Mujeres 0-4
Fuente: Elaboración propia
91
Figura 4.13 Función de Autocorrelación Parcial de la Serie Diferenciada Mujeres 0-4
Lag
Part
ial A
utoc
orre
lati
on
30282624222018161412108642
1.0
0.8
0.6
0.4
0.2
0.0
-0.2
-0.4
-0.6
-0.8
-1.0
Partial Autocorrelation Function for Mujeres 0-4 Diferenciado(with 5% significance limits for the partial autocorrelations)
Fuente: Elaboración propia
IV.4.2.1.4 Examinación de las funciones ACF y PACF
El siguiente paso es examinar y analizar las figuras 4.12 y 4.13. Dichas figuras
representan las funciones de autocorrelación simple y parcial respectivamente. El análisis
de hace para poder determinar el orden del modelo. Se intentará definir si se trata de un
modelo AR(1), AR(2) o de un modelo MA(1), MA(2).
Incluso el modelo podría ser una combinación de los procesos AR y MA dando como
resultado un posible modelo ARMA con parámetros (p,q), en el que la regla empírica
señala que los valores deben cumplir con la desigualdad 2≤+ qp . Pero al haber hecho
una diferenciación para estacionalizar la serie, el modelo, en caso de resultar un ARMA,
será un modelo ARIMA con parámetros (p,1,q).
Si la función de autocorrelación decae suavemente de forma geométrica y las
autocorrelaciones parciales son casi cero después de k retrasos, entonces un modelo
autoregresivo de orden [AR(k)], es apropiado.
92
Para el rango de edad con el que se ha estado trabajando, la función de autocorrelación
parcial muestra el primer retraso significativamente diferente de cero; por lo que se puede
deducir un modelo autorregresivo de orden uno [AR(1)] como modelo tentativo; y
aunque el número de correlaciones parciales significativamente diferentes de cero es
usado como un indicador preliminar del orden del modelo, no se podrá afirmar esto hasta
aplicar las pruebas estadísticas necesarias.
IV.4.2.2 Fase 2: Estimación del modelo
La siguiente fase dentro de la metodología incluye varios procesos: estimar los
parámetros en modelos potenciales, seleccionar el mejor modelo usando diversos
criterios, calcular las ACF y PACF de los residuos, realizar pruebas de normalidad de los
residuales de ACF y finalmente verificar que los residuales sean “ruido blanco”.
IV.4.2.2.1 Estimación de los parámetros del modelo
La estimación de parámetros en la familia de los modelos ARIMA es un problema no
lineal, por lo que no existen expresiones de forma cerrada para los estimadores. Los
valores óptimos de los parámetros tienen que ser estimados numéricamente por
aproximaciones sucesivas. Se sabe que el error aleatorio es igual a , por lo que
se debe pronosticar . Para un AR(1) se tiene:
tA 1ˆ −− tt zz
1−tz ( )µφµ −+= −− 111 tt zz Por lo que:
( )µφµ −−−=− −− 111ˆ tttt zzzz (4.5)
93
Donde: 1
0
1 φθµ−
=
Las estimaciones preeliminares para comenzar la aproximación numérica se pueden
obtener de las ecuaciones que relacionan parámetros y autocorrelaciones. Por ejemplo,
para un modelo AR(2), como lo es el rango 10 a 14 de mujeres, se tienen las ecuaciones:
oρφρφρ 2112 += (4.6)
1211 ρφρφρ += o (4.7)
Si en esas ecuaciones se sustituye las autocorrelaciones de la serie, se pueden obtener las
estimaciones para los parámetros. Las dos primeras autocorrelaciones del rango
mencionado son 0.9296 y 0.8397 respectivamente, por lo que se puede escribir:
( ) 21ˆ.8397260ˆ 0.929694 φφ += (4.8)
( )0.839726ˆˆ0.839726 21 φφ += (4.9)
Despejando los parámetros se puede obtener la primera estimación de los mismos:
( ) ( ) 0.200222=1-0.839726*0.839726 /0.839726-0.839726*0.929694 =ˆ 1φ
0.761561 = 0.839726*0.200222-0.929694=ˆ2φ
94
Para encontrar mejores valores de las estimaciones, el algoritmo de Minitab hace
pequeños cambios sucesivos en los valores estimados, evaluando la suma de cuadrados
de los residuales en cada paso y se detiene cuando la reducción en la suma de cuadrados
de los residuales llega a ser poco significativa.
( )( )2
11 1ˆ∑
=−−
N
ttt zz (4.10)
Dicho valor depende del parámetro desconocido en el modelo, qp θθφφθ ,,,,,, 110 KK y de
las observaciones , por lo que la suma de cuadrados para un AR(1) es: nzzz ,,, 21 K
(( )2
111∑
=− −−−
N
ttt zz µφµ ) (4.11)
Este valor depende del parámetro desconocido 0θ y 1φ en el modelo. De acuerdo con el
principio de los mínimos cuadrados, se estiman los parámetros desconocidos
qp θθφφθ ,,,,,, 110 KK , para los cuales, la suma de los cuadrados es la más pequeña.
Después de haber identificado el modelo tentativo analizando las gráficas de
autocorrelación tanto simple como parcial y haber encontrado en todos los rangos un
patrón estacional de orden 12, es posible proponer un modelo.
95
En este momento se le llamará “Modelo Tentativo”, pues no se ha evaluado la
significancia de cada uno de los parámetros que Minitab plantea. Después de analizar los
autocorrelogramas del rango 0-4 de mujeres y siguiendo la metodología desarrollada en
las secciones III.2.5.7 y III.2.5.8, se llega al modelo ( ) ( 122,1,0*0,1,2 SARIMAARIMA ) . El
análisis de cada modelo se lleva a cabo en el Apéndice A.
Los parámetros propuestos por el programa para el modelo tentativo de siniestros para
mujeres entre 0 y 4 son:
Tabla 4.7
Type Coef SE Coef T P ¿Entra al modelo?
AR 1 -0.1030 0.0991 -1.04 0.301 NO AR 2 -0.1791 0.1000 -1.79 0.076 NO
SMA 12 1.0164 0.0904 11.24 0.000 SI SMA 24 -0.0678 0.0946 -0.72 0.475 NO
Fuente: Elaboración propia.
La columna “Coef” es el valor de los coeficientes, “SE Coef” es la desviación tipo de los
coeficientes y “T” es el estadístico de prueba ( CoefSECoefT _/= ).
IV.4.2.2.2 Selección de parámetros del modelo propuesto
Si el valor absoluto del estadístico T es menor a 2, hay evidencia para concluir que la
autocorrelación es muy cercana a cero, por lo que se obliga a no incluir dicho parámetro
en el modelo tentativo. Para este caso, los parámetros AR(1), AR(2) y SMA(24), quedan
fuera del modelo tentativo, por lo que el modelo modificado resulta de la siguiente
96
manera: ( ) ( )121,1,0*0,1,0 SARIMAARIMA . Con base en este modelo modificado, los
parámetros estimados finales son:
Tabla 4.8
Type Coef SE Coef T P ¿Entra al modelo?
SMA 12 0.6250 0.0930 6.72 0.000 SI Fuente: Elaboración propia.
IV.4.2.2.3 Cálculo de las funciones ACF y PACF
Del modelo modificado se obtienen las funciones ACF y PACF de los residuos para
mostrar que sus residuos están incorrelacionados, es decir, que las autocorrelaciones son
lo suficientemente pequeñas para suponer que se comportan como ruido blanco. Sin
embargo se aplicarán pruebas estadísticas para comprobar dicha hipótesis.
Lag
Aut
ocor
rela
tion
272421181512963
1.0
0.8
0.6
0.4
0.2
0.0
-0.2
-0.4
-0.6
-0.8
-1.0
ACF of Residuals for 0-4(with 5% significance limits for the autocorrelations)
Figura 4.14 Función de Autocorrelación Simple de los Residuos del Modelo Modificado
Mujeres 0-4 Fuente: Elaboración propia
97
Lag
Part
ial A
utoc
orre
lati
on
272421181512963
1.0
0.8
0.6
0.4
0.2
0.0
-0.2
-0.4
-0.6
-0.8
-1.0
PACF of Residuals for 0-4(with 5% significance limits for the partial autocorrelations)
Figura 4.15 Función de Autocorrelación Parcial de los Residuos del Modelo Modificado
Mujeres 0-4 Fuente: Elaboración propia
Las líneas punteadas en el autocorrelograma alrededor de los valores -0.2 y 0.2, son
intervalos de confianza calculados como n
kn
96.196.1≤≤− , donde 120=n y k representa
los retrasos de los residuales. Mientras las autocorrelaciones de los residuales
permanezcan dentro de los intervalos de confianza, el modelo puede tomarse como
válido.
Para este rango, el correlograma demuestra que los residuos para el rango son
suficientemente pequeños para resultar correlacionados.
IV.4.2.2.4 Cálculo del estadístico Q de Box-Ljung
Como se definió en el apartado III.2.5.9.3, calculando los valores, el estadístico de prueba
es:
( ) 07045.17120
212012027
1
2
=⎟⎟⎠
⎞⎜⎜⎝
⎛−
+= ∑=k
k
krQ
Los valores de se calculan en la tabla 4.9. 2kr
98
Tabla 4.9 k kr 2
kr 1 -0.06084 0.0037012 -0.15429 0.0238073 0.067511 0.0045584 -0.02714 0.0007375 -0.11629 0.0135236 0.006688 4.47E-057 -0.03251 0.0010578 0.002756 7.6E-06 9 -0.03364 0.00113210 -0.01803 0.00032511 -0.00218 4.76E-0612 -0.1019 0.01038413 0.177207 0.03140214 -0.06164 0.0038 15 -0.03655 0.00133616 0.003295 1.09E-0517 -0.07984 0.00637418 -0.02137 0.00045719 0.000334 1.12E-0720 0.08881 0.00788721 0.045404 0.00206222 -0.05883 0.00346123 0.038208 0.00146 24 0.079316 0.00629125 -0.04963 0.00246326 0.000077 5.93E-0927 -0.01 0.0001
Fuente: Elaboración propia
Este estadístico tiene una distribución Chi-cuadrada con k-r grados de libertad, de ahí se
pueden formular las siguientes hipótesis:
H0: Los errores no son ruido blanco
Ha: Los errores son ruido blanco
Se rechaza H0 si 2rkQ −< χ
99
Para este rango, el valor de la Chi-Cuadrada con 27 grados de libertad con un 05.0=α es
38.88512964. De este forma, con 120=n , la regla de decisión queda:
; por lo que se rechaza la hipótesis y se llega a la
conclusión que el modelo propuesto es adecuado.
2278851.380704.17 χ=<=Q 0H
IV.4.2.2.5 Prueba de normalidad de los residuos
Se procede entonces a verificar que los residuales cumplan con el supuesto de distribuirse
de forma normal. Para eso, se postulan las siguientes hipótesis:
:0H Los valores de los residuales provienen de una distribución normal.
:aH Los valores de los residuales no provienen de una distribución normal.
Es posible hacer la prueba de normalidad para los residuos como lo muestra la figura
4.16.
RESI1
Perc
ent
7.57.06.56.05.55.04.54.0
99.9
99
9590
80706050403020
10
5
1
0.1
Probability Plot of RESI1Normal
Figura 4.16 Prueba Gráfica de Normalidad de los Residuos del Modelo Modificado Mujeres 0-4
Fuente: Elaboración propia
100
El estadístico de Anderson-Darling es uno de los métodos matemáticos que ayudan a
identificar que los residuales provienen de una distribución normal. Para este rango, con
05.0=α no se rechaza por lo que se puede decir que existe evidencia suficiente para
concluir que los residuales se distribuyen de forma normal.
0H
IV.4.2.3 Fase 3: Aplicación
Para este rango de edad, los residuos pasaron la prueba de normalidad, por lo que se
puede concluir que los residuos cumplen con las características del ruido blanco. Una vez
que se obtuvo el modelo adecuado se pueden realizar pronósticos para uno o varios
periodos futuros y con el mismo modelo se pueden formular intervalos de confianza. Al
tener más datos disponibles, se puede utilizar el mismo modelo para revisar los
pronósticos, seleccionando otro periodo de origen. Si la serie parece cambiar a través del
tiempo, podría ser necesario recalcular los parámetros, o incluso desarrollar un modelo
nuevo por completo.
Habiendo identificado que los residuos se comportan como ruido blanco; el modelo
seleccionado que describe la serie de tiempo de los siniestros se puede desarrollar con la
ecuación:
( ) ( )( ) ( ) ( ) ( ) tt ABByBB
xSARIMAARIMA1211
111211
121,1,00,1,0θθϕϕ =∇∇
101
Aplicando procedimientos algebraicos definidos, se tiene:
( )( ) ( )( )
( ) ( )( )( ) ( )
( ) ( )( ) ( ) 121111121212
1311
12111121212
1312121213121
13121211312
1212
1312
1212
12
1ˆ1ˆ1ˆ1ˆ
1ˆ1ˆ
1ˆ1ˆ
1
111
−−−−
+++−−
−−−
−−−
−++−=⇒−++−=⇒
−++−=⇒
−−−=+−−⇒
−=+−−⇒
−=−−⇒
tttttt
tttttt
tttttt
tttttttt
ttt
tt
yyyyyyByByByyyy
ByByByyyy
yyyyByByByy
BAAyBBB
AByBB
θθθθ
θθ
θ
θ
θ
Hay que recordar que para hacer estacionaria la serie, se tuvo que aplicar la
transformación logarítmica, por lo que para obtener la ecuación final de la serie de
tiempo se tiene que aplicar el antilogaritmo a la ecuación así como incluir los parámetros
estimados, queda de la siguiente manera:
( ) ( ) 1211121ˆ 375.01ˆ625.0 −−− −++= tttt
y yyyye t
102