capitulo iv desarrollo de la...

26
CAPITULO IV DESARROLLO DE LA INVESTIGACIÓN En este capítulo se expondrán los métodos utilizados para el pronóstico de los siniestros del seguro de Gastos Médicos Mayores, con base en los datos proporcionados por la Comisión Nacional de Seguros y Fianzas y una aseguradora del mercado mexicano. En primera instancia, el problema se tratará de resolver por los métodos de regresión lineal y regresión exponencial, siendo éstos los modelos más sencillos. Sin embargo, por las características del problema se tratará de resolver por medio de los métodos de series de tiempo, como el método de descomposición y el método Box-Jenkins, siendo éste uno de los modelos más completos que existen para pronosticar variables aleatorias en el tiempo. A lo largo de este capítulo se explicará el desarrollo e implementación de cada uno de estos métodos. IV.1 Pronósticos Pronosticar es el “arte” de predecir el valor futuro de una variable aleatoria con más de un posible resultado; dicha predicción se hace tratando de ser lo más exacto posible. Los pronósticos se elaboran con información disponible y a la vez ocupando herramientas de disciplinas como la estadística, la economía y la informática. Es por eso que son de gran ayuda al predecir posibles cambios en el tiempo. Las decisiones críticas pueden ser tomadas a partir del análisis de expectativas racionales de condiciones futuras. 77

Upload: others

Post on 27-Mar-2020

0 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: CAPITULO IV DESARROLLO DE LA INVESTIGACIÓNcatarina.udlap.mx/u_dl_a/tales/documentos/lat/calderon_s_i/capitulo4.pdf · A lo largo de este capítulo se explicará el desarrollo e implementación

CAPITULO IV

DESARROLLO DE LA INVESTIGACIÓN

En este capítulo se expondrán los métodos utilizados para el pronóstico de los siniestros

del seguro de Gastos Médicos Mayores, con base en los datos proporcionados por la

Comisión Nacional de Seguros y Fianzas y una aseguradora del mercado mexicano. En

primera instancia, el problema se tratará de resolver por los métodos de regresión lineal y

regresión exponencial, siendo éstos los modelos más sencillos. Sin embargo, por las

características del problema se tratará de resolver por medio de los métodos de series de

tiempo, como el método de descomposición y el método Box-Jenkins, siendo éste uno de

los modelos más completos que existen para pronosticar variables aleatorias en el tiempo.

A lo largo de este capítulo se explicará el desarrollo e implementación de cada uno de

estos métodos.

IV.1 Pronósticos

Pronosticar es el “arte” de predecir el valor futuro de una variable aleatoria con más de un

posible resultado; dicha predicción se hace tratando de ser lo más exacto posible. Los

pronósticos se elaboran con información disponible y a la vez ocupando herramientas de

disciplinas como la estadística, la economía y la informática. Es por eso que son de gran

ayuda al predecir posibles cambios en el tiempo. Las decisiones críticas pueden ser

tomadas a partir del análisis de expectativas racionales de condiciones futuras.

77

Page 2: CAPITULO IV DESARROLLO DE LA INVESTIGACIÓNcatarina.udlap.mx/u_dl_a/tales/documentos/lat/calderon_s_i/capitulo4.pdf · A lo largo de este capítulo se explicará el desarrollo e implementación

Si las decisiones se pudieran ajustar a nuevas condiciones instantáneamente y sin incurrir

en costos, no habría necesidad de pronosticar.

IV.2 Regresión Lineal

Dentro de los métodos más sencillo para hacer un pronóstico, se encuentra el método de

regresión lineal. Este procedimiento consiste en encontrar una relación lineal entre dos

variables, una variable dependiente y otra independiente. Dicha relación se expresará con

la ecuación de una recta que mejor ajuste los datos. Sin embargo dicho método tiene

limitaciones, pues no considera cambios externos ni ciclos en el tiempo.

Aunque se utilizó este método para hombres y mujeres para todos y cada uno de los

rangos quinquenales en los que se divide el Seguro de Gastos Médicos, a manera de

ejemplo, sólo se muestra el resultado para mujeres en el rango de 0 a 4 años.

La regresión simple, puede ser escrita como

tt bXaY +=ˆ (4.1)

Donde:

=tY Es la variable proyectada

=tX Es la variable explicativa

=a Intercepción en el eje Y

=b Valor de la pendiente

78

Page 3: CAPITULO IV DESARROLLO DE LA INVESTIGACIÓNcatarina.udlap.mx/u_dl_a/tales/documentos/lat/calderon_s_i/capitulo4.pdf · A lo largo de este capítulo se explicará el desarrollo e implementación

El programa estadístico Minitab obtiene dichos cálculos, donde y

, quedando de la siguiente manera:

2801.91=a

8229.2=b

tYt 82292.22801.91 += (4.2)

Los valores del pronóstico bajo este esquema lineal se observan en la tabla 4.1 y

graficados en la figura 4.1. Analizando la serie de tiempo de los siniestros se puede

observar que muestra un patrón estacional anual. Sin embargo los valores del pronóstico

con regresión lineal no siguen ningún patrón más que el de una línea de regresión.

Es necesario considerar que los valores arrojados por este modelo son números reales,

por lo que se han redondeado los pronósticos al entero próximo superior pues los

siniestros se dan en números enteros.

Tabla 4.1 Periodo Pronóstico Ene-05 433 Feb-05 436 Mar-05 439 Abr-05 442 May-05 445 Jun-05 447 Jul-05 450 Ago-05 453 Sep-05 456 Oct-05 459 Nov-05 462 Dic-05 464 Fuente: Elaboración propia

79

Page 4: CAPITULO IV DESARROLLO DE LA INVESTIGACIÓNcatarina.udlap.mx/u_dl_a/tales/documentos/lat/calderon_s_i/capitulo4.pdf · A lo largo de este capítulo se explicará el desarrollo e implementación

Index

Muj

eres

(0-

4)

130117104917865523926131

500

400

300

200

100

Accuracy MeasuresMAPE 31.79MAD 62.82MSD 5880.27

Variable

Forecasts

ActualFits

Trend Analysis Plot for Mujeres (0-4)Linear Trend Model

Yt = 91.2801 + 2.82292*t

Figura 4.1 Pronóstico con el método de Regresión Lineal para edades 0-4 mujeres.

Fuente: Elaboración propia

IV.3 Regresión Exponencial

Pronosticar el número de siniestros con una regresión exponencial es un método

alternativo para prever el crecimiento de este ramo de los seguros. Esta regresión es

descrita en la sección III.1.2 y es posible escribirla como:

tXt baY *ˆ = (4.3)

Donde:

=tY Es la variable proyectada

=tX Es la variable explicativa

=a Intercepción en el eje Y

=b Valor de la pendiente

El pronóstico para el rango 0 a 4 de mujeres queda expresado por la ecuación de

regresión exponencial:

80

Page 5: CAPITULO IV DESARROLLO DE LA INVESTIGACIÓNcatarina.udlap.mx/u_dl_a/tales/documentos/lat/calderon_s_i/capitulo4.pdf · A lo largo de este capítulo se explicará el desarrollo e implementación

tYt 01107.1*536.119= (4.4)

Los valores del pronóstico se muestran en la tabla 4.2 y la serie de tiempo en la figura

4.2.

Tabla 4.2 Periodo Pronóstico Ene-05 453 Feb-05 458 Mar-05 463 Abr-05 469 May-05 474 Jun-05 479 Jul-05 484 Ago-05 490 Sep-05 495 Oct-05 500 Nov-05 506 Dic-05 512 Fuente: Elaboración propia

Index

Muj

eres

(0-

4)

130117104917865523926131

500

400

300

200

100

Accuracy MeasuresMAPE 28.13MAD 60.60MSD 5796.36

Variable

Forecasts

ActualFits

Trend Analysis Plot for Mujeres (0-4)Growth Curve Model

Yt = 119.536 * (1.01107**t)

Figura 4.2 Pronóstico con el Método de Regresión Exponencial para Edades 0-4

Mujeres. Fuente: Elaboración propia

Como se observa, los dos métodos arriba mencionados (regresión lineal y regresión

exponencial) son capaces de proporcionar un pronóstico. Sin embargo, las gráficas

81

Page 6: CAPITULO IV DESARROLLO DE LA INVESTIGACIÓNcatarina.udlap.mx/u_dl_a/tales/documentos/lat/calderon_s_i/capitulo4.pdf · A lo largo de este capítulo se explicará el desarrollo e implementación

conducen a pensar en un comportamiento estacional de la serie de tiempo; por lo que se

intentará resolver el problema con modelos que contemplen estacionalidad.

IV.4 Series de Tiempo

Dadas las características del problema, como la estacionalidad de los datos, se decidió

emplear métodos de series de tiempo. Los dos métodos que se contemplan en este trabajo

son el de descomposición y los modelos Integrados Autorregresivos con Promedios

Móviles (ARIMA, por sus siglas en inglés).

IV.4.1 Método de descomposición para pronósticos de series de tiempo

Este método ha demostrado ser excelente para la predicción a corto y mediano plazos. No

es un método explicativo ya que no se puede inferir estadísticamente sobre sus resultados,

lo cual es uno de los puntos débiles del método. Sin embargo, dicho método identifica los

componentes de una serie de tiempo y los proyecta hacia el futuro, excepto el

componente aleatorio. El método puede incluir una regresión lineal o una regresión

exponencial y logra contemplar la estacionalidad de la serie y proyectarla al futuro. Los

valores del método con regresión lineal se muestran en la tabla 4.3 junto con su gráfica en

la figura 4.3. Para el método de descomposición con regresión exponencial sus valores y

gráficas se muestran en la tabla y figura 4.4.

82

Page 7: CAPITULO IV DESARROLLO DE LA INVESTIGACIÓNcatarina.udlap.mx/u_dl_a/tales/documentos/lat/calderon_s_i/capitulo4.pdf · A lo largo de este capítulo se explicará el desarrollo e implementación

Tabla 4.3 Periodo Pronóstico Ene-05 245 Feb-05 227 Mar-05 290 Abr-05 337 May-05 576 Jun-05 643 Jul-05 658 Ago-05 673 Sep-05 644 Oct-05 615 Nov-05 495 Dic-05 346 Fuente: Elaboración propia

0

100

200

300

400

500

600

700

800

0 20 40 60 80 100 120 140

Meses

Núm

ero

de S

inie

stro

s

Datos Dados Pronósticos Figura 4.3 Pronóstico con el Método de Descomposición Regresión Lineal Mujeres 0-4

Fuente: Elaboración propia

Tabla 4.4 Periodo Pronóstico Ene-05 245 Feb-05 227 Mar-05 290 Abr-05 337 May-05 576 Jun-05 643 Jul-05 658 Ago-05 673 Sep-05 644 Oct-05 615 Nov-05 495 Dic-05 346 Fuente: Elaboración propia

83

Page 8: CAPITULO IV DESARROLLO DE LA INVESTIGACIÓNcatarina.udlap.mx/u_dl_a/tales/documentos/lat/calderon_s_i/capitulo4.pdf · A lo largo de este capítulo se explicará el desarrollo e implementación

0

100

200

300

400

500

600

0 20 40 60 80 100 120 140

Meses

Núm

ero

de S

inie

stro

s

Datos Dados Pronósticos

Figura 4.4 Pronóstico con el método de Descomposición Regresión Exponencial Mujeres 0-4

Fuente: Elaboración propia

Este trabajo intentará resolver el problema de pronósticos por medio de una metodología

más completa en la que se puedan analizar estadísticamente los resultados, como es el

caso de la metodología Box-Jenkins.

IV.4.2 Implementación del método Box-Jenkins

Por la complejidad de este método, se ha decidido desarrollarlo en varias fases:

identificación, estimación del modelo y aplicación.

IV.4.2.1 Fase 1: Identificación

La primera fase involucra graficar la serie de tiempo, transformar los datos para

estabilizar la varianza y media (si es necesario), calcular las diferencias de los datos para

obtener series estacionarias, examinar las funciones de autocorrelación (ACF) y

autocorrelación parcial (PACF) para identificar posibles modelos.

84

Page 9: CAPITULO IV DESARROLLO DE LA INVESTIGACIÓNcatarina.udlap.mx/u_dl_a/tales/documentos/lat/calderon_s_i/capitulo4.pdf · A lo largo de este capítulo se explicará el desarrollo e implementación

IV.4.2.1.1 Graficar la serie de tiempo

Para la aplicación de la metodología ARIMA o Box-Jenkins, el primer paso es graficar la

serie de tiempo de los datos. En este caso se muestra en la figura 4.5 la serie de tiempo

para el número de siniestros de mujeres entre 0 y 4 años durante los últimos 10 años.

Analizando dicha serie se puede concluir una tendencia de crecimiento con una

estacionalidad anual, incrementándose durante los meses de mayo a julio en la mayoría

de los años.

Número de Siniestros Mujeres 0-4

0

100

200

300

400

500

600

Ene

-95

Jun-

95

Nov

. 95

Abr

-96

Sep

-96

Feb-

97

Jul-9

7

Dic

-97

May

-98

Oct

-98

Mar

-99

Ago

-99

Ene

-00

Jun-

00

Nov

-00

Abr

-01

Sep

-01

Feb-

02

Jul-0

2

Dic

-02

May

-03

Oct

-03

Mar

-04

Ago

-04

Figura 4.5 Serie de Tiempo para Número de Siniestros Mujeres 0-4

Fuente: Elaboración propia

La metodología Box-Jenkins se caracteriza por ser aplicable solamente a series de tiempo

estables en varianza, por lo que una vez graficada la serie de tiempo, se dividen los datos

en grupos y se obtienen las medias y varianzas en cada uno de los grupos, esto permite

identificar si la serie es estable en varianza, es decir, que se mantenga constante a través

del tiempo. En este trabajo, los datos disponibles para cada rango de edad, se

85

Page 10: CAPITULO IV DESARROLLO DE LA INVESTIGACIÓNcatarina.udlap.mx/u_dl_a/tales/documentos/lat/calderon_s_i/capitulo4.pdf · A lo largo de este capítulo se explicará el desarrollo e implementación

concentraron en 10 grupos de 12 datos cada uno; es decir: 10 años de datos mensuales.

De estos 10 grupos se calculó la media y varianza grupal:

Tabla 4.5 Grupo Media Varianza

1 167.5000 1058.2727 2 178.5833 1226.9924 3 169.5833 1825.5379 4 99.0833 359.5379 5 217.5000 1963.9091 6 237.0000 2017.6364 7 345.2500 5173.1136 8 424.2500 7612.2045 9 413.2500 9815.8409

10 368.6667 5313.5152 Fuente: Elaboración propia

Graficando los valores de las medias y de las varianzas de los grupos, se observa que la

media es relativamente constante a través del tiempo; sin embargo la varianza presenta

cambios significativos, tomando valores desde 360 hasta 9800 aproximadamente.

Media y Varianza

12000 10000

8000 6000

Valores Media

4000 2000

0 1 2 3 4 5 6 7 8 9 10

Grupos

Figura 4.6 Media y Varianza de los Grupos de Mujeres 0-4

Varianza

Fuente: Elaboración propia

Si se grafica la media contra la varianza, se nota una relación que puede ser ajustada por

una línea:

86

Page 11: CAPITULO IV DESARROLLO DE LA INVESTIGACIÓNcatarina.udlap.mx/u_dl_a/tales/documentos/lat/calderon_s_i/capitulo4.pdf · A lo largo de este capítulo se explicará el desarrollo e implementación

Media vs. Varianza (Mujeres 0-4)

-2000

0

2000

4000

6000

8000

10000

12000

- 100.00 200.00 300.00 400.00 500.00

Media

Varia

nza

Figura 4.7 Serie de Tiempo para Número de Siniestros Mujeres 0-4

Fuente: Elaboración propia

IV.4.2.1.2 Transformación de los datos

La relación de tipo lineal entre la media y varianza infiere que la serie de tiempo de

siniestros de mujeres entre 0 y 4 años es una serie no estacionaria en varianza, por lo que

será necesario aplicarle alguna transformación que estabilice la varianza.

En este trabajo se utilizaron las transformaciones más comunes para estabilizar la

varianza: ttt

ZZZ

,1,1 y , donde es el valor de la serie en el tiempo t . Para el

rango entre 0 y 4 años de mujeres se consideró la transformación logarítmica como la

más adecuada, pues colabora también con la estabilización de la media, aunque este

supuesto no es indispensable para la metodología. Dada la semejanza entre la mayoría de

las series que se contemplaron en este trabajo, dicha transformación resulta ser eficiente

para estabilizar la mayoría de las series de tiempo de los siniestros. A partir de la

transformación logarítmica de los datos de este rango, se obtiene la tabla 4.6 y la figura

4.8:

( )tZln tZ

87

Page 12: CAPITULO IV DESARROLLO DE LA INVESTIGACIÓNcatarina.udlap.mx/u_dl_a/tales/documentos/lat/calderon_s_i/capitulo4.pdf · A lo largo de este capítulo se explicará el desarrollo e implementación

Tabla 4.6 Grupo Media Varianza

1 5.1025 0.0419 2 5.1666 0.0412 3 5.1004 0.0764 4 4.5784 0.0394 5 5.3615 0.0471 6 5.4501 0.0409 7 5.8228 0.0488 8 6.0290 0.0488 9 5.9936 0.0716

10 5.8907 0.0431 Fuente: Elaboración propia.

Media y Varianza

0

1

2

3

4

5

6

7

1 2 3 4 5 6 7 8 9 10

Grupos

Val

ores Media

Varianza

Figura 4.8 Varianza y Media de los Grupos de los Datos con Transformación

Logarítmica Mujeres 0-4 Fuente: Elaboración propia

Gracias a la transformación logarítmica, se puede apreciar que la varianza, al igual que la

media es estacionaria. Una vez hecha la transformación de la serie, se grafica la media

contra la varianza y se puede concluir que no existe relación alguna, pues los puntos se

encuentran dispersos, indicando la estacionariedad de la varianza.

88

Page 13: CAPITULO IV DESARROLLO DE LA INVESTIGACIÓNcatarina.udlap.mx/u_dl_a/tales/documentos/lat/calderon_s_i/capitulo4.pdf · A lo largo de este capítulo se explicará el desarrollo e implementación

Media vs. Varianza (Mujeres0-4) Transformada

00.010.020.030.040.050.060.070.080.09

0 1 2 3 4 5 6 7

Varianza

Med

ia

Figura 4.9 Varianza contra Media de los Grupos de los Datos con Transformación

Logarítmica Mujeres 0-4 Fuente: Elaboración propia

La estacionariedad de la varianza es sólo un requisito de la metodología Box-Jenkins,

pero ello no implica que la serie en sí, sea estacionaria.

Como se dijo en el capítulo 3, el método Box-Jenkins sólo es aplicable para series de

tiempo estacionarias. En la práctica, la mayoría de las series de tiempo son no

estacionarias y las series de este trabajo no son la excepción, por lo que fue necesario

identificar, para cada uno de los rangos, si la serie de tiempo de siniestros es estacionaria

o no. Para confirmar la hipótesis de la no estacionariedad de las series, se grafica la

función de autocorrelación muestral, que en este caso decae muy lentamente a cero, lo

que comprueba que la serie es no estacionaria.

89

Page 14: CAPITULO IV DESARROLLO DE LA INVESTIGACIÓNcatarina.udlap.mx/u_dl_a/tales/documentos/lat/calderon_s_i/capitulo4.pdf · A lo largo de este capítulo se explicará el desarrollo e implementación

Lag

Aut

ocor

rela

tion

30282624222018161412108642

1.0

0.8

0.6

0.4

0.2

0.0

-0.2

-0.4

-0.6

-0.8

-1.0

Autocorrelation Function for Mujeres 0-4(with 5% significance limits for the autocorrelations)

Figura 4.10 Función de Autocorrelación Simple Mujeres 0-4

Fuente: Elaboración propia

IV.4.2.1.3 Obtención de series estacionarias

Para obtener series estacionarias y así poder aplicar la metodología Box-Jenkins, fue

necesario realizar una diferenciación. Se definió . Es decir, el valor en

el tiempo es el resultado de la diferencia de los valores de la serie en los tiempos t y

. Este proceso asegura, en la mayoría de las veces, que la serie pierda tendencia y se

vuelva estacionaria. En caso de no lograr la estacionariedad, una segunda diferenciación

sería necesaria. En este trabajo sólo fue necesaria una diferenciación para lograr lo

deseado.

1*

−−= ttt yyy *ty

t

1−t

La serie de tiempo con una diferenciación se muestra en la figura 4.11, como se puede

apreciar carece de tendencia, por lo que se puede decir que se ha obtenido una serie

estacionaria.

90

Page 15: CAPITULO IV DESARROLLO DE LA INVESTIGACIÓNcatarina.udlap.mx/u_dl_a/tales/documentos/lat/calderon_s_i/capitulo4.pdf · A lo largo de este capítulo se explicará el desarrollo e implementación

Serie Diferenciada Mujeres 0-4

-1

-0.8

-0.6

-0.4

-0.2

0

0.2

0.4

0.6

0.8

1 9 17 25 33 41 49 57 65 73 81 89 97 105 113

Figura 4.11 Serie Diferenciada Mujeres 0-4

Fuente: Elaboración propia

Para comprobar la estacionariedad de la serie, se espera que las funciones de

autocorrelación simple y parcial caigan rápidamente a cero. Esto se observa en las figuras

4.12 y 4.13 respectivamente.

Lag

Aut

ocor

rela

tion

30282624222018161412108642

1.0

0.8

0.6

0.4

0.2

0.0

-0.2

-0.4

-0.6

-0.8

-1.0

Autocorrelation Function for Mujeres 0-4 Diferenciado(with 5% significance limits for the autocorrelations)

Figura 4.12 Función de Autocorrelación Simple de la Serie Diferenciada Mujeres 0-4

Fuente: Elaboración propia

91

Page 16: CAPITULO IV DESARROLLO DE LA INVESTIGACIÓNcatarina.udlap.mx/u_dl_a/tales/documentos/lat/calderon_s_i/capitulo4.pdf · A lo largo de este capítulo se explicará el desarrollo e implementación

Figura 4.13 Función de Autocorrelación Parcial de la Serie Diferenciada Mujeres 0-4

Lag

Part

ial A

utoc

orre

lati

on

30282624222018161412108642

1.0

0.8

0.6

0.4

0.2

0.0

-0.2

-0.4

-0.6

-0.8

-1.0

Partial Autocorrelation Function for Mujeres 0-4 Diferenciado(with 5% significance limits for the partial autocorrelations)

Fuente: Elaboración propia

IV.4.2.1.4 Examinación de las funciones ACF y PACF

El siguiente paso es examinar y analizar las figuras 4.12 y 4.13. Dichas figuras

representan las funciones de autocorrelación simple y parcial respectivamente. El análisis

de hace para poder determinar el orden del modelo. Se intentará definir si se trata de un

modelo AR(1), AR(2) o de un modelo MA(1), MA(2).

Incluso el modelo podría ser una combinación de los procesos AR y MA dando como

resultado un posible modelo ARMA con parámetros (p,q), en el que la regla empírica

señala que los valores deben cumplir con la desigualdad 2≤+ qp . Pero al haber hecho

una diferenciación para estacionalizar la serie, el modelo, en caso de resultar un ARMA,

será un modelo ARIMA con parámetros (p,1,q).

Si la función de autocorrelación decae suavemente de forma geométrica y las

autocorrelaciones parciales son casi cero después de k retrasos, entonces un modelo

autoregresivo de orden [AR(k)], es apropiado.

92

Page 17: CAPITULO IV DESARROLLO DE LA INVESTIGACIÓNcatarina.udlap.mx/u_dl_a/tales/documentos/lat/calderon_s_i/capitulo4.pdf · A lo largo de este capítulo se explicará el desarrollo e implementación

Para el rango de edad con el que se ha estado trabajando, la función de autocorrelación

parcial muestra el primer retraso significativamente diferente de cero; por lo que se puede

deducir un modelo autorregresivo de orden uno [AR(1)] como modelo tentativo; y

aunque el número de correlaciones parciales significativamente diferentes de cero es

usado como un indicador preliminar del orden del modelo, no se podrá afirmar esto hasta

aplicar las pruebas estadísticas necesarias.

IV.4.2.2 Fase 2: Estimación del modelo

La siguiente fase dentro de la metodología incluye varios procesos: estimar los

parámetros en modelos potenciales, seleccionar el mejor modelo usando diversos

criterios, calcular las ACF y PACF de los residuos, realizar pruebas de normalidad de los

residuales de ACF y finalmente verificar que los residuales sean “ruido blanco”.

IV.4.2.2.1 Estimación de los parámetros del modelo

La estimación de parámetros en la familia de los modelos ARIMA es un problema no

lineal, por lo que no existen expresiones de forma cerrada para los estimadores. Los

valores óptimos de los parámetros tienen que ser estimados numéricamente por

aproximaciones sucesivas. Se sabe que el error aleatorio es igual a , por lo que

se debe pronosticar . Para un AR(1) se tiene:

tA 1ˆ −− tt zz

1−tz ( )µφµ −+= −− 111 tt zz Por lo que:

( )µφµ −−−=− −− 111ˆ tttt zzzz (4.5)

93

Page 18: CAPITULO IV DESARROLLO DE LA INVESTIGACIÓNcatarina.udlap.mx/u_dl_a/tales/documentos/lat/calderon_s_i/capitulo4.pdf · A lo largo de este capítulo se explicará el desarrollo e implementación

Donde: 1

0

1 φθµ−

=

Las estimaciones preeliminares para comenzar la aproximación numérica se pueden

obtener de las ecuaciones que relacionan parámetros y autocorrelaciones. Por ejemplo,

para un modelo AR(2), como lo es el rango 10 a 14 de mujeres, se tienen las ecuaciones:

oρφρφρ 2112 += (4.6)

1211 ρφρφρ += o (4.7)

Si en esas ecuaciones se sustituye las autocorrelaciones de la serie, se pueden obtener las

estimaciones para los parámetros. Las dos primeras autocorrelaciones del rango

mencionado son 0.9296 y 0.8397 respectivamente, por lo que se puede escribir:

( ) 21ˆ.8397260ˆ 0.929694 φφ += (4.8)

( )0.839726ˆˆ0.839726 21 φφ += (4.9)

Despejando los parámetros se puede obtener la primera estimación de los mismos:

( ) ( ) 0.200222=1-0.839726*0.839726 /0.839726-0.839726*0.929694 =ˆ 1φ

0.761561 = 0.839726*0.200222-0.929694=ˆ2φ

94

Page 19: CAPITULO IV DESARROLLO DE LA INVESTIGACIÓNcatarina.udlap.mx/u_dl_a/tales/documentos/lat/calderon_s_i/capitulo4.pdf · A lo largo de este capítulo se explicará el desarrollo e implementación

Para encontrar mejores valores de las estimaciones, el algoritmo de Minitab hace

pequeños cambios sucesivos en los valores estimados, evaluando la suma de cuadrados

de los residuales en cada paso y se detiene cuando la reducción en la suma de cuadrados

de los residuales llega a ser poco significativa.

( )( )2

11 1ˆ∑

=−−

N

ttt zz (4.10)

Dicho valor depende del parámetro desconocido en el modelo, qp θθφφθ ,,,,,, 110 KK y de

las observaciones , por lo que la suma de cuadrados para un AR(1) es: nzzz ,,, 21 K

(( )2

111∑

=− −−−

N

ttt zz µφµ ) (4.11)

Este valor depende del parámetro desconocido 0θ y 1φ en el modelo. De acuerdo con el

principio de los mínimos cuadrados, se estiman los parámetros desconocidos

qp θθφφθ ,,,,,, 110 KK , para los cuales, la suma de los cuadrados es la más pequeña.

Después de haber identificado el modelo tentativo analizando las gráficas de

autocorrelación tanto simple como parcial y haber encontrado en todos los rangos un

patrón estacional de orden 12, es posible proponer un modelo.

95

Page 20: CAPITULO IV DESARROLLO DE LA INVESTIGACIÓNcatarina.udlap.mx/u_dl_a/tales/documentos/lat/calderon_s_i/capitulo4.pdf · A lo largo de este capítulo se explicará el desarrollo e implementación

En este momento se le llamará “Modelo Tentativo”, pues no se ha evaluado la

significancia de cada uno de los parámetros que Minitab plantea. Después de analizar los

autocorrelogramas del rango 0-4 de mujeres y siguiendo la metodología desarrollada en

las secciones III.2.5.7 y III.2.5.8, se llega al modelo ( ) ( 122,1,0*0,1,2 SARIMAARIMA ) . El

análisis de cada modelo se lleva a cabo en el Apéndice A.

Los parámetros propuestos por el programa para el modelo tentativo de siniestros para

mujeres entre 0 y 4 son:

Tabla 4.7

Type Coef SE Coef T P ¿Entra al modelo?

AR 1 -0.1030 0.0991 -1.04 0.301 NO AR 2 -0.1791 0.1000 -1.79 0.076 NO

SMA 12 1.0164 0.0904 11.24 0.000 SI SMA 24 -0.0678 0.0946 -0.72 0.475 NO

Fuente: Elaboración propia.

La columna “Coef” es el valor de los coeficientes, “SE Coef” es la desviación tipo de los

coeficientes y “T” es el estadístico de prueba ( CoefSECoefT _/= ).

IV.4.2.2.2 Selección de parámetros del modelo propuesto

Si el valor absoluto del estadístico T es menor a 2, hay evidencia para concluir que la

autocorrelación es muy cercana a cero, por lo que se obliga a no incluir dicho parámetro

en el modelo tentativo. Para este caso, los parámetros AR(1), AR(2) y SMA(24), quedan

fuera del modelo tentativo, por lo que el modelo modificado resulta de la siguiente

96

Page 21: CAPITULO IV DESARROLLO DE LA INVESTIGACIÓNcatarina.udlap.mx/u_dl_a/tales/documentos/lat/calderon_s_i/capitulo4.pdf · A lo largo de este capítulo se explicará el desarrollo e implementación

manera: ( ) ( )121,1,0*0,1,0 SARIMAARIMA . Con base en este modelo modificado, los

parámetros estimados finales son:

Tabla 4.8

Type Coef SE Coef T P ¿Entra al modelo?

SMA 12 0.6250 0.0930 6.72 0.000 SI Fuente: Elaboración propia.

IV.4.2.2.3 Cálculo de las funciones ACF y PACF

Del modelo modificado se obtienen las funciones ACF y PACF de los residuos para

mostrar que sus residuos están incorrelacionados, es decir, que las autocorrelaciones son

lo suficientemente pequeñas para suponer que se comportan como ruido blanco. Sin

embargo se aplicarán pruebas estadísticas para comprobar dicha hipótesis.

Lag

Aut

ocor

rela

tion

272421181512963

1.0

0.8

0.6

0.4

0.2

0.0

-0.2

-0.4

-0.6

-0.8

-1.0

ACF of Residuals for 0-4(with 5% significance limits for the autocorrelations)

Figura 4.14 Función de Autocorrelación Simple de los Residuos del Modelo Modificado

Mujeres 0-4 Fuente: Elaboración propia

97

Page 22: CAPITULO IV DESARROLLO DE LA INVESTIGACIÓNcatarina.udlap.mx/u_dl_a/tales/documentos/lat/calderon_s_i/capitulo4.pdf · A lo largo de este capítulo se explicará el desarrollo e implementación

Lag

Part

ial A

utoc

orre

lati

on

272421181512963

1.0

0.8

0.6

0.4

0.2

0.0

-0.2

-0.4

-0.6

-0.8

-1.0

PACF of Residuals for 0-4(with 5% significance limits for the partial autocorrelations)

Figura 4.15 Función de Autocorrelación Parcial de los Residuos del Modelo Modificado

Mujeres 0-4 Fuente: Elaboración propia

Las líneas punteadas en el autocorrelograma alrededor de los valores -0.2 y 0.2, son

intervalos de confianza calculados como n

kn

96.196.1≤≤− , donde 120=n y k representa

los retrasos de los residuales. Mientras las autocorrelaciones de los residuales

permanezcan dentro de los intervalos de confianza, el modelo puede tomarse como

válido.

Para este rango, el correlograma demuestra que los residuos para el rango son

suficientemente pequeños para resultar correlacionados.

IV.4.2.2.4 Cálculo del estadístico Q de Box-Ljung

Como se definió en el apartado III.2.5.9.3, calculando los valores, el estadístico de prueba

es:

( ) 07045.17120

212012027

1

2

=⎟⎟⎠

⎞⎜⎜⎝

⎛−

+= ∑=k

k

krQ

Los valores de se calculan en la tabla 4.9. 2kr

98

Page 23: CAPITULO IV DESARROLLO DE LA INVESTIGACIÓNcatarina.udlap.mx/u_dl_a/tales/documentos/lat/calderon_s_i/capitulo4.pdf · A lo largo de este capítulo se explicará el desarrollo e implementación

Tabla 4.9 k kr 2

kr 1 -0.06084 0.0037012 -0.15429 0.0238073 0.067511 0.0045584 -0.02714 0.0007375 -0.11629 0.0135236 0.006688 4.47E-057 -0.03251 0.0010578 0.002756 7.6E-06 9 -0.03364 0.00113210 -0.01803 0.00032511 -0.00218 4.76E-0612 -0.1019 0.01038413 0.177207 0.03140214 -0.06164 0.0038 15 -0.03655 0.00133616 0.003295 1.09E-0517 -0.07984 0.00637418 -0.02137 0.00045719 0.000334 1.12E-0720 0.08881 0.00788721 0.045404 0.00206222 -0.05883 0.00346123 0.038208 0.00146 24 0.079316 0.00629125 -0.04963 0.00246326 0.000077 5.93E-0927 -0.01 0.0001

Fuente: Elaboración propia

Este estadístico tiene una distribución Chi-cuadrada con k-r grados de libertad, de ahí se

pueden formular las siguientes hipótesis:

H0: Los errores no son ruido blanco

Ha: Los errores son ruido blanco

Se rechaza H0 si 2rkQ −< χ

99

Page 24: CAPITULO IV DESARROLLO DE LA INVESTIGACIÓNcatarina.udlap.mx/u_dl_a/tales/documentos/lat/calderon_s_i/capitulo4.pdf · A lo largo de este capítulo se explicará el desarrollo e implementación

Para este rango, el valor de la Chi-Cuadrada con 27 grados de libertad con un 05.0=α es

38.88512964. De este forma, con 120=n , la regla de decisión queda:

; por lo que se rechaza la hipótesis y se llega a la

conclusión que el modelo propuesto es adecuado.

2278851.380704.17 χ=<=Q 0H

IV.4.2.2.5 Prueba de normalidad de los residuos

Se procede entonces a verificar que los residuales cumplan con el supuesto de distribuirse

de forma normal. Para eso, se postulan las siguientes hipótesis:

:0H Los valores de los residuales provienen de una distribución normal.

:aH Los valores de los residuales no provienen de una distribución normal.

Es posible hacer la prueba de normalidad para los residuos como lo muestra la figura

4.16.

RESI1

Perc

ent

7.57.06.56.05.55.04.54.0

99.9

99

9590

80706050403020

10

5

1

0.1

Probability Plot of RESI1Normal

Figura 4.16 Prueba Gráfica de Normalidad de los Residuos del Modelo Modificado Mujeres 0-4

Fuente: Elaboración propia

100

Page 25: CAPITULO IV DESARROLLO DE LA INVESTIGACIÓNcatarina.udlap.mx/u_dl_a/tales/documentos/lat/calderon_s_i/capitulo4.pdf · A lo largo de este capítulo se explicará el desarrollo e implementación

El estadístico de Anderson-Darling es uno de los métodos matemáticos que ayudan a

identificar que los residuales provienen de una distribución normal. Para este rango, con

05.0=α no se rechaza por lo que se puede decir que existe evidencia suficiente para

concluir que los residuales se distribuyen de forma normal.

0H

IV.4.2.3 Fase 3: Aplicación

Para este rango de edad, los residuos pasaron la prueba de normalidad, por lo que se

puede concluir que los residuos cumplen con las características del ruido blanco. Una vez

que se obtuvo el modelo adecuado se pueden realizar pronósticos para uno o varios

periodos futuros y con el mismo modelo se pueden formular intervalos de confianza. Al

tener más datos disponibles, se puede utilizar el mismo modelo para revisar los

pronósticos, seleccionando otro periodo de origen. Si la serie parece cambiar a través del

tiempo, podría ser necesario recalcular los parámetros, o incluso desarrollar un modelo

nuevo por completo.

Habiendo identificado que los residuos se comportan como ruido blanco; el modelo

seleccionado que describe la serie de tiempo de los siniestros se puede desarrollar con la

ecuación:

( ) ( )( ) ( ) ( ) ( ) tt ABByBB

xSARIMAARIMA1211

111211

121,1,00,1,0θθϕϕ =∇∇

101

Page 26: CAPITULO IV DESARROLLO DE LA INVESTIGACIÓNcatarina.udlap.mx/u_dl_a/tales/documentos/lat/calderon_s_i/capitulo4.pdf · A lo largo de este capítulo se explicará el desarrollo e implementación

Aplicando procedimientos algebraicos definidos, se tiene:

( )( ) ( )( )

( ) ( )( )( ) ( )

( ) ( )( ) ( ) 121111121212

1311

12111121212

1312121213121

13121211312

1212

1312

1212

12

1ˆ1ˆ1ˆ1ˆ

1ˆ1ˆ

1ˆ1ˆ

1

111

−−−−

+++−−

−−−

−−−

−++−=⇒−++−=⇒

−++−=⇒

−−−=+−−⇒

−=+−−⇒

−=−−⇒

tttttt

tttttt

tttttt

tttttttt

ttt

tt

yyyyyyByByByyyy

ByByByyyy

yyyyByByByy

BAAyBBB

AByBB

θθθθ

θθ

θ

θ

θ

Hay que recordar que para hacer estacionaria la serie, se tuvo que aplicar la

transformación logarítmica, por lo que para obtener la ecuación final de la serie de

tiempo se tiene que aplicar el antilogaritmo a la ecuación así como incluir los parámetros

estimados, queda de la siguiente manera:

( ) ( ) 1211121ˆ 375.01ˆ625.0 −−− −++= tttt

y yyyye t

102