capítulo 1 universidad autonÓma de nuevo …terra.geociencias.unam.mx/~ramon/ernesto.pdfcapítulo...

Capítulo 1

UNIVERSIDAD AUTONÓMA DE NUEVO LEÓN FACULTAD DE CIENCIAS DE LA TIERRA

LA TESIS

ANÁLISIS DE REGRESIÓN LINEAL PARA CORRELACIONAR DATOS DEL VALOR b EN

CATÁLOGOS DE SISMICIDAD, OBTENIDOS CON DOS TÉCNICAS

QUE PRESENTA

ERNESTO GUADALUPE LÓPEZ BRICEÑO

HA SIDO ACEPTADA

COMO REQUISITO PARCIAL PARA OBTENER EL TÍTULO DE

INGENIERO GEOFÍSICO

Vo. Bo. Director de Titulación Vo. Bo. Asesor

______________________ ______________________

Dr. Juan Carlos Montalvo Dr. Fco. Ramón Zúñiga

Arrieta Dávila-Madrid

LINARES, NUEVO LEÓN FEBRERO 2011

Ernesto López

Capítulo 1

Ernesto López

RESUMEN

El interés de los investigadores sobre la posibilidad de pronosticar efectos de

eventos sísmicos ha ido aumentando debido a los graves daños que estos fenómenos

pueden causar, como lo evidencian los casos recientes en Haití y Chile (2010). Para la

Sismología Estadística son objetivos primordiales lo relacionado con el peligro y el riesgo

sísmico. Dentro de éste tema, un parámetro muy importante es el conocido como “valor

b”, que está definido por la relación Gutenberg‐Richter. Dicha relación representa el

número de eventos acumulados (N) con respecto a las magnitudes (M). Este es un

parámetro básico en cualquier cálculo de probabilidad de ocurrencia de un sismo de

cierta magnitud, pero su cálculo esta sujeto a incertidumbre ocasionada por varios

factores (estaciones sísmicas antiguas y falta de datos), por lo cual los cálculos para

diseñar estructuras sismorresistentes se pueden ver seriamente afectados. Un parámetro

crucial en el cálculo del valor b es la magnitud mínima de completitud (Mc). Existen

varios métodos para el cálculo de dicho parámetro, entre los más robustos se encuentran

el “Método de rango total de magnitudes (EMR)” y el “Método de mejor combinación

(BC)”, los que son abordados en el presente trabajo. En este estudio se muestran

resultados de un análisis de regresión lineal con el objeto de evaluar el comportamiento

de los métodos. Debido a que el método EMR requiere de un mayor tiempo de cómputo,

se espera encontrar una relación lineal que explique su variabilidad en función del

regresor aleatorio que en este caso será el resultado del método BC. Se pretende mostrar

las ventajas y posibles causas de error sistemático si se emplea el método BC en

sustitución del EMR. Como una investigación extra, se habla respecto a la sismicidad en el

noreste de México, con el propósito de motivar a estudiantes e investigadores a realizar

estudios detallados en ésta zona.

Capítulo 1

Ernesto López

ABSTRACT

The interest of researchers on the possibility of predicting effects of seismic events

has been increasing due to the damage that these events may cause, as evidenced by

recent cases in Haiti and Chile (2010). For Statistical Seismology first order objectives are

those related to seismic hazard and risk. Within this theme, a very important parameter

is the so‐called "b ‐ value", which is defined by the Gutenberg‐Richter relationship. This

relationship represents the accumulated number of events (N) with respect to the

magnitudes (M). This is a basic parameter in any calculation of probability of occurrence

of an earthquake of certain magnitude, but its calculation is subjected to uncertainty

caused by several factors (old seismic stations and lack of data), so calculations for

designing earthquake resistant structures can be seriously affected. A crucial parameter

in calculating the b value is the minimum magnitude of completeness (Mc). There are

several methods for calculating this parameter, the most robust are the "entire

magnitude range method (EMR) " and the "best combination method (BC)", which are

addressed in this paper. In this study we present results of a linear regression analysis to

evaluate the behavior of the methods. Because the EMR method requires more

computation time, we expect to find a linear relationship to explain its variability

depending on the random regressor, in this case, the result of the BC method. We intend

to show the advantages and possible causes of systematic error if BC method is used in

place of EMR. As an additional point of research, we talk about the seismicity in

northeastern Mexico, in order to motivate students and researchers to perform detailed

studies in this area.

Capítulo 1

Ernesto López

1.‐ INTRODUCCIÓN

1.1.‐ GENERALIDADES

La estadística asume un papel importante dentro del campo de ciencias de la Tierra,

debido a que en muchos casos los parámetros de interés no pueden o fue imposible

evaluarlos de forma determinista por la complejidad del planeta. Por consiguiente, ésta

herramienta es fundamental tanto para modelar datos, interpretar información y hasta

predecir fenómenos. Una técnica estadística utilizada frecuentemente es el análisis de

regresión lineal, se podría decir que hasta es la más utilizada, debido a que los modelos

lineales son una explicación simplificada de la realidad, mucho más ágil y con un soporte

teórico por parte de la matemática y la estadística mucho más extenso a los que se

puede recurrir para simular diferentes procesos, si cumplen con algunas condiciones.

El análisis de regresión es una técnica estadística para investigar y modelar la

relación entre variables. Las aplicaciones son múltiples, ya que existen en casi cualquier

campo, incluyendo ingeniería, ciencias físicas y químicas, economía, administración,

ciencias biológicas y en las ciencias sociales.

El término regresión fue utilizado por primera vez en un estudio realizado por

Francis Galton sobre variables antropométricas en 1889, al comparar la estatura de

padres e hijos, resultó que los hijos cuyos padres tenían una estatura superior al valor

medio tendían a igualarse a este; mientras que aquellos cuyos padres eran muy bajos,

tendían a reducir su diferencia respecto a la estatura media; es decir, “regresaban” al

promedio. El término lineal es utilizado para distinguir de las demás técnicas de

regresión, que emplean modelos basados en cualquier función matemática, como por

ejemplo cuadráticas, cúbicas, exponenciales, etc.

Capítulo 1

Ernesto López

Uno de los métodos más empleados para definir el modelo (ecuación lineal) de

regresión es el método de mínimos cuadrados, él cual fue propuesto por Legendre en

1805 y Gauss en 1809. El termino “mínimos cuadrados” proviene de la descripción dada

por Legendre “moindres carrés”. Como se mencionó, ésta técnica tiene múltiples usos

dentro del campo científico, y en sismología su uso es muy extenso.

El término sismología proviene del griego “seismos” (terremoto) y “logia” (estudio

de). El estudio de los terremotos se puede enfocar principalmente a tres aspectos: (a) la

fuente sísmica, (b) trayectoria de las ondas y (c) los efectos en la superficie, mejor

conocidos como la respuesta del sitio. De acuerdo con los efectos experimentados a lo

largo de tiempo, existen regiones o áreas donde se han realizado diversos estudios de

detalle para entender los tres aspectos mencionados anteriormente, ejemplos de esto

son: la Ciudad de México, Los Ángeles, San Francisco en los EE.UU., Kobe en Japón; así

como otras ciudades importantes ubicadas dentro del llamado Cinturón de Fuego que

corresponde a las fronteras de las placas tectónicas en donde es preponderante el

proceso de subducción y que se encuentran circundando el Océano Pacífico,

principalmente. Una de las características de estos estudios ha sido la de analizar y

cuantificar la respuesta sísmica y daños asociados a terremotos que se han presentado.

Sin embargo, es todavía poco el trabajo realizado en torno a las variaciones estadísticas e

incertidumbres en parámetros tales como la energía liberada, las distribuciones fractales

y el esfuerzo.

1.2.‐ ANTECEDENTES

En la Sismología, un tema central es la evaluación del impacto de los sismos en la

vida humana, por lo tanto, es preponderante tener una estimación del riesgo sísmico

para todas las regiones de un país. La estadística es una herramienta indispensable, tanto

para hacer un estimado de ocurrencia de eventos en el tiempo como para proponer

posibles periodos de recurrencia, y para efectuar modelaciones. Pero debido a la falta de

datos por carencia de estaciones sísmicas, estas predicciones están sujetas a grandes

Capítulo 1

Ernesto López

incertidumbres; sin embargo, dentro de cierto grado de confianza (acotados con

métodos estadísticos, e información de catálogos sísmicos y geológicos) pueden llegar a

ser aceptables. Por ejemplo, zonas consideradas asísmicas erróneamente, pueden

repercutir en los cálculos estadísticos sobre la posible ocurrencia de un evento, debido a

que no se cuenta con un control real de la actividad histórica, por ausencia de redes

sísmicas en la zona. Debido a estudios recientes, a partir de datos de catálogos de

sismicidad bastante completos (Servicio Sismológico Nacional, Nacional Earthquake

Information Center de los E.U., Internacional Seismological Centre en el R.U., etc.) se han

podido hacer observaciones sobre el comportamiento de los sismos, y con esto

desarrollar diferentes metodologías confiables para el cálculo de predicción y riesgo

sísmico.

La importancia del pronóstico de terremotos recae en la necesidad de reducir el

riesgo de estos eventos naturales vía la construcción de edificios más resistentes, a partir

de identificar regiones propensas a temblores y la estimación de la ocurrencia de estos y

los efectos podrían generar (Stein y Wysession, 2003). En general se considera una

predicción sísmica formal a aquélla en la que se indica el tiempo, sitio (con la

profundidad) y la dimensión (magnitud) del evento por ocurrir, incluyendo con todos

estos parámetros una indicación del error o la incertidumbre en cada valor dado. El

tiempo de ocurrencia se proporciona como un intervalo en el que exista la probabilidad

de que suceda un evento y se deben especificar los métodos empleados como la

justificación de los mismos (Zúñiga, 1991).

Es de gran importancia profundizar sobre el tema de predicción sísmica, debido a

que es sabido lo devastadores que pueden ser estos fenómenos y de todas las vidas que

puede costar no alertar a la población; casos recientes Haití y Chile en 2010. Por lo que es

una prioridad para los sismólogos realizar estimaciones adecuadas de la ocurrencia de

sismos para evaluar el peligro asociado en zonas susceptibles a estos eventos.

Capítulo 1

Ernesto López

Para hacer una estimación aceptable sobre predicción sísmica es necesario conocer

de manera detallada el entorno sismotectónico, la dinámica de deformación existente y a

partir de esto estimar el tiempo necesario en el cual la acumulación de esfuerzos

sobrepase el limite de fricción causando rompimientos en la corteza con magnitudes

significativas capaces de causar severos daños a centros urbanos. Esto se lleva a cabo a

través de estudios determinísticos, es decir, realizar un estudio concentrándose en el

mecanismo físico del evento, tratando de determinar todos y cada uno de los parámetros

involucrados en él, de manera que al conocer el fenómeno a fondo se pueda determinar

la ocurrencia futura. Pero debido a la complejidad de la estructura interna del planeta

puede no ser viable el predecir con una incertidumbre baja a los eventos sísmicos de

manera global (Zúñiga, 1991).

A causa de este problema, la herramienta más utilizada y aceptada es la estadística,

en particular el análisis probabilístico; es decir, la probabilidad de ocurrencia de un

evento. Ésta se establece tratando al fenómeno como una serie de ocurrencias de

eventos en el tiempo y sus características con una distribución a determinarse.

Se sabe que existen ciertos parámetros observables con un posible carácter

predictivo; en cuanto al proceso físico de un sismo, ciertos fenómenos relacionados con

el esfuerzo al que están sometidas las rocas pueden ser observados y algunos medidos

antes de la ocurrencia del terremoto, a éstos se les conocen como fenómenos

precursores. Ejemplos de éstos son: cambios en el campo eléctrico natural de las rocas,

variaciones en el nivel de agua de pozos, anormalidades en el comportamiento animal,

cambios en las emanaciones naturales de diversos gases tales como el radón,

deformación de la corteza (medida de distintas formas, incluyendo variaciones en la

aceleración de la gravedad en la zona), variaciones de temperatura en aguas

subterráneas, cambios en la coloración infrarroja, etc., (Zúñiga, 1991).

Otro tipo de fenómenos que han sido de gran utilidad para evaluar la posibilidad de

una predicción, son las variaciones en espacio y tiempo de algunos fenómenos

Capítulo 1

Ernesto López

relacionados con la sismicidad de una zona de interés. Entre éstos se encuentran los

llamados patrones de sismicidad, los cuales se refieren a los cambios que pueden tener

lugar en el número y características de los sismos que normalmente ocurren en una zona,

y que se pueden presentar con anticipación a la ocurrencia de un macrosismo. Sin

embargo, el problema en este caso es determinar cuál es el nivel "normal" de actividad

sísmica.

Como es de esperarse, a lo largo del tiempo ha habido avances, pero todavía se

siguen presentando problemas debido a falta de instrumentación como también

implementación de nuevas metodologías que proporcionen resultados distintos.

Actualmente se siguen realizando estudios de predicción debido a la gran

importancia que existe respecto a este tema, con el propósito de que en un futuro,

debido a que no es posible detener la naturaleza de estos eventos ni tampoco

contrarrestar sus efectos, deje como posibilidad el prevenir a la población en zonas de

peligro causado por éstos fenómenos.

1.2.1.‐ Relación Gutenberg‐Richter

Muchos estudios de sismicidad hacen énfasis al tema de predicción, debido a su

gran importancia por el peligro que podría representar un evento fuerte en una zona

donde no se tengan medidas de prevención para una catástrofe de tal magnitud (Stein y

Wysession, 2003). Los estudios de predicción y riesgo sísmico descansan en el concepto

de autosimilitud de los sismos. Un objeto auto‐similar o auto‐semejante es en el que

todo es exacta o aproximadamente similar a una parte de si mismo (el fenómeno es igual

a todas las escalas). Éste concepto es una propiedad de los fractales que se describe

como objeto semigeométrico cuya estructura básica, fragmentada o irregular, se repite a

diferentes escalas. El término fue propuesto por el matemático Benoît Mandelbrot en

1975 y deriva del latín “fractus”, que significa quebrado o fracturado. Muchas estructuras

naturales son de tipo fractal.

Capítulo 1

Ernesto López

Esta distribución auto‐similar se presenta en forma escalada en orden descendiente

respecto a sismos grandes; es decir que para un evento de cierta magnitud mayor, habrá

otros de menor magnitud en una escala de número de eventos definida. Por ejemplo,

para un sismo de magnitud 7 habrá 10 de magnitud 5, para uno de magnitud 5 habrá 100

de magnitud 4 (si se tiene un exponente de escalamiento igual a 1.0), y así sucesivamente

debido a que el escalamiento aumenta exponencialmente; es decir, una ley de

escalamiento o de potencias que de forma matemática es llamada “ZipF” (Per Bak, 1996).

1.2.1.1.‐ ¿Qué es el valor b?

El proceso auto‐similar de la distribución de los sismos queda definido en la relación

Gutenberg‐Richter (1944; G‐R) ó Ishimoto‐Ida (1939) dependiendo la región. Ésta

relación representa a un escalamiento de eventos con respecto a sus magnitudes. La

ecuación G‐R esta representada por:

bMaLogN −= (1)

Donde N es el número de eventos acumulados en una región para una ventana de

tiempo específica con magnitudes iguales o mayores a M . La constante b o “valor b ” es

la pendiente de la distribución de los sismos en escala logarítmica de la distribución G‐R,

(se puede considerar como el exponente de escalamiento en la ley de potencias), la cual

se ha demostrado que tiene una relación directa con el esfuerzo promedio para una

región en particular, o puede también verse como una forma de cuantificar el tamaño

promedio de las rupturas (Wiemer y Wyss, 2002). El valor b generalmente es cercano a 1

(Zúñiga y Wyss, 2001). Valores de b >1 se relacionan con una concentración de esfuerzos

menores (Zúñiga y Wyss, 2001; Wiemer y Wyss 1997) y viceversa. La constante a es una

medida del nivel de sismicidad o productividad sísmica de la región (Kossobokov et al,

2000), matemáticamente expresa el logaritmo del número de sismos con magnitudes

mayores a cero, es decir, el total esperado de eventos en la región si se extrapola la

relación hasta las magnitudes más pequeñas.

Capítulo 1

Ernesto López

En la figura 1, se observa gráficamente la relación G‐R con un valor b =1.

Teóricamente la distribución de los sismos debería verse de esta forma; es decir una

relación logarítmica lineal.

Figura 1: Relación G‐R ideal.

Pero debido a la falta de datos de sismos pequeños (por ausencia de redes) y por la

poca ocurrencia de sismos grandes, la distribución de los sismos pequeños tiende a

converger en un punto determinado y los grandes a desestabilizar la parte lineal. Esto es

presentado en la figura 2.

Figura 2: Relación G‐R como se presenta normalmente.

Capítulo 1

Ernesto López

En la cual se observa un nuevo parámetro; éste es conocido como la magnitud

mínima de completitud Mc debido a que es la magnitud a partir de la cual el catálogo se

puede considerar completo (incluye todos los eventos ocurridos para esa magnitud y

mayores) y a partir de ahí se corta éste para encontrar la parte lineal que satisfaga a la

relación G‐R. Los sismos que se encuentran encerrados con círculos rojos en la parte

inferior derecha y superior izquierda representan los sismos de magnitudes mayores y

menores respectivamente, en los cuales se observa que estos eventos desestabilizan la

parte lineal. Lo anterior se debe a que sismos de magnitudes grandes ocurren de forma

menos frecuente que los de magnitudes pequeñas y éstos no alcanzan a ser detectados.

Sin embargo, teóricamente considerando una ventana de tiempo grande y contando con

una gran red de estaciones sismológicas capaces de detectar eventos pequeños, estos

eventos deberían ajustarse de forma lineal, desafortunadamente en estas fechas no es

posible.

Existe otro problema que afecta la linealidad de los eventos, se refiere a ciertos

eventos poco estudiados llamados “sismos caracteristicos”. Estos eventos son sismos de

una magnitud preferencial que ocurren más frecuentemente de lo previsto por la

relación G‐R. En la figura 3 se muestran estos eventos encerrados con un circulo rojo.

Figura 3: Visualización de sismos característicos.

Capítulo 1

Ernesto López

Este tipo de eventos afectan el cálculo del valor b y se ha observado que aún y

cuando se toma en cuenta una ventana de tiempo grande, se siguen presentando.

Debido a esto, se han propuesto modelos en los cuales se tome en cuenta este tipo de

fenómenos, pero la validez de dichos modelos siguen siendo no aprobados (Zoller, 2008).

A nivel teórico el concepto de auto‐similitud conlleva a que el resultado del valor b

debería ser estable a nivel regional una vez que se considere un intervalo de tiempo que

incluya una muestra suficientemente completa de posibles ocurrencias de eventos de

todas las magnitudes. De otra forma, el valor b estimado a partir de un tiempo suficiente

(un catálogo completo), no debería cambiar al aumentar el tamaño del catálogo con el

tiempo. Pero el cálculo del valor b depende de muchos factores (falta de datos,

catálogos erróneos, etc.), lo que da lugar a que la incertidumbre sea difícil de evaluar.

1.2.1.2.‐ ¿Cómo se mide el valor b?

Existen dos formas para calcular este parámetro.

1.‐ Ajuste de mínimos cuadrados.

2.‐ Máxima verosimilitud.

Figura 4: Cálculo del valor b mediante mínimos cuadrados

Capítulo 1

Ernesto López

En la figura 4 se presenta el cálculo por mínimos cuadrados. Esta forma de calcular

el parámetro tiene como ventajas el control visual de la variación con pequeños ajustes,

pero presenta como principales desventajas la identificación del rango lineal y las

variaciones en la linealidad.

La otra forma de calcular este parámetro es mediante la relación propuesta por Aki

(1965) quien la determinó siguiendo el principio de Máxima Verosimilitud o Máxima

Posibilidad, que es expresada en la siguiente ecuación:

[ ])2/()(log10

binMMcMe

bΔ−−

= (1.1)

En donde se representa el número de Euler e , la magnitud promedio M , la

magnitud mínima de completitud o de corte Mc y binMΔ es la dimensión del intervalo

mínimo de magnitud (lo más común es que sea igual a 0.1).

Ahora bien, ésta forma de calcular el valor b es más confiable que la forma del

ajuste lineal y tiene como principal ventaja el cálculo sistemático y objetivo del valor,

pero sus desventajas consisten en que depende de la magnitud promedio M y de la

magnitud mínima de completitud Mc . Ésta última representa un parámetro crucial para

el cálculo del valor b .

Existen varios métodos para el cálculo de dicho parámetro, entre los más robustos

se encuentran el “Método de rango total de magnitudes (EMR)” y el “Método de mejor

combinación (BC)”, los cuales son abordados en el presente trabajo.

En la figura 5 se resume el método llamado EMR (Woessner y Wiemer, 2005), en el

cual por debajo de la magnitud Mc se usa la probabilidad de que una red detecte un

evento de cierta magnitud y por arriba de Mc se usa la ley de potencias con máxima

Capítulo 1

Ernesto López

verosimilitud. Es el método más confiable, pero su procesamiento podría tardar varias

horas para un catálogo extenso.

Figura 5: Cálculo de Mc con el método EMR.

Capítulo 1

Ernesto López

En la figura 6 se observa otra forma para el cálculo de Mc , que es mediante el

método de máxima curvatura MAXC o BC (Best Combination) (Wiemer y Wyss, 2000).

Este método se basa en encontrar la Mc como el valor máximo de la primera derivada

de la distribución. Es bastante rápido debido a que calcula este parámetro en cuestión

de minutos y confiable ya que posee %95+M de ajuste lineal, pero puede tener

problemas cuando se trata de distribuciones que muestran una curva suave.

Figura 6: Cálculo de Mc con el método BC

Capítulo 1

Ernesto López

Los métodos antes presentados son a los que se enfocará éste trabajo, aunque

existen otros métodos para el cálculo de éste parámetro. Entre ellos están el método de

Bondad de Ajuste a la Distribución Frecuencia‐Magnitud GFT (Wiemer y Wyss 2000;

Kagan 2003), y el método de Estabilidad del valor b contra Mc (Cao y Gao, 2002;

Marsan, 2003), que han mostrado ser menos confiables para todo tipo de datos

(Woessner y Wiemer, 2005).

Los métodos EMR y BC al parecer presentan una correlación en cuanto al cálculo

de la magnitud mínima de completitud Mc y por consiguiente el cálculo del valor b . Por

esta razón se abordan estos métodos en éste trabajo.

1.2.2.‐ Trabajos previos

En el pasado, se ha estudiado la sismicidad caracterizando zonas en particular.

Considerándolas de manera independiente se han descuidado otros argumentos, como

detalles de la fuente sísmica o características de la energía liberada por eventos mayores.

Los catálogos sísmicos utilizados para caracterizar éstas zonas sismogénicas carecen

de homogeneidad y distan mucho de ser catálogos completos en el intervalo de

magnitudes consideradas en ingeniería. Adicionalmente las diferentes consideraciones

para determinar las magnitudes pueden inducir sesgos en las estimaciones de riesgo

sísmico, por lo que es necesario realizar correcciones de magnitud.

En la figura 7 se observa el mapa sismotectónico de México propuesto por la

Comisión Federal de Electricidad (CFE), en el cual se divide el país en 4 secciones.

Capítulo 1

Ernesto López

Figura 7: Regionalización sísmica de México

Donde la zona A es aquella donde no se tienen registros históricos de sismos y

donde las aceleraciones del terreno se esperan menores al 10% de g. En la zona D

ocurren con frecuencia temblores de gran magnitud (M > 7) y las aceleraciones del

terreno pueden ser superiores al 70% de g. Los niveles de sismicidad y de aceleración

propios de las zonas B y C están acotados por los valores correspondientes de A y D, los

temblores grandes son poco frecuentes (Zúñiga y Guzmán, 1994).

En la mayoría de los trabajos de sismicidad relacionados a predicción se ha

discutido sobre la variabilidad del valor b tanto en escala local como regional; Zúñiga,

Figueroa y Suárez et al., (2009) discuten sobre esta variación y su relación para actualizar

la regionalización sismotectónica de México con fines de riesgo sísmico en México, ellos

discuten además que son pocos lo trabajos donde se ha enfocado el estudio de la

variabilidad del valor b con el tiempo.

La figura 8 presenta un estudio posterior teniendo como base el valor b , en el cual

se da una mejor perspectiva acerca de la sismicidad presente en nuestro país, debido a

que éste parámetro muestra las diferentes características de las regiones definidas,

Capítulo 1

Ernesto López

utilizando diferentes métodos para su determinación y comparando los resultados con

las observaciones de sismos grandes para cada región delimitada.

Figura 8: Mapa sismotectónico de México (Zúñiga, Figueroa y Suárez, 2009).

Donde:

SUB1.‐ Eventos de subducción someros (h < 40 km) relacionados a acoplamiento

intermedio. Zona de transición entre la convergencia placas Rivera ‐ Norte América y la

convergencia de las placas de Cocos y Norte América. SUB2.‐ Eventos de subducción

someros (h < 40 km) relacionados a un fuerte acoplamiento. Convergencia de las placas

de Cocos ‐ Norte América. SUB3.‐ Eventos de subducción someros (h < 40 km)

relacionados a un fuerte acoplamiento. Zona de transición en la convergencia de las

placas de Cocos ‐ Norte América. SUB4.‐ Eventos de subducción someros (h < 40 km)

relacionados a un fuerte acoplamiento. Convergencia de las placas de Cocos ‐ Caribe.

IN1.‐ Eventos intra‐placa de profundidad intermedia (40 km _ h < 180 km) para la zona de

la placa de Cocos. Extensión en profundidad de la zona SUB2. IN2.‐Eventos intra‐placa de

profundidad intermedia (40 km _ h < 255 km). Zona de transición de la Placa de Cocos.

IN3.‐ Eventos intra‐placa de profundidad intermedia (40 km _ h < 460 km) para la zona de

Capítulo 1

Ernesto López

la placa de Cocos. Extension en profundidad de la zona SUB4. MVB.‐ Eventos intra‐placa

someros (placa Norte América) (h < 15 km) en la zona de México Central. Provincia de la

Faja Volcánica Trans Mexicana. NAM.‐ Eventos intra‐placa someros (placa Norte América)

(h < 15 km) en la zona Sur este de México. No relacionada al régimen volcánico de la

provincia MVB. BC1.‐ Eventos intra‐placa someros (placa del Pacífico) (h < 20 km). Baja

California. BC2.‐ Eventos Intra‐placa (placas Pacifico‐Norte América) someros (h < 15 km)

. Golfo de baja California región de California. SMO.‐ Eventos intra‐placa (placa Norte

América) someros (h < 20 km). Provincia de la Sierra Madre. BAR.‐ Eventos intra‐placa

(placa Norte América) someros (h < 15 km). Posible extensión de la provincias de “Basin

and Range” del rift Río Grande. BB.‐ Eventos intra‐placa (Norte América) someros (h < 15

km). Provincia de la cuenca de Burgos. RIV1.‐ Eventos someros (h < 15 km) inter‐placa.

Interfaz de fallamiento normal Pacífico‐Rivera. RIV2.‐ Eventos someros (h < 15 km) inter‐

placa. Interfaz de fallamiento Strike‐slip Pacifico‐Rivera. RIV3.‐ Eventos someros (h < 15

km) inter‐placa. Acoplamiento débil en la convergencia de las placas Rivera‐Norte

América. GMX.‐ Eventos someros intra‐placa (Norte América) (h < 20 km). Provincia del

Golfo de México. NAL.‐ Sismicidad escasa, zona de fallamiento somero.

Con lo anterior es claramente observable que el valor b aporta mejor perspectiva a

la sismicidad en el territorio estudiado y puede ofrecer una confianza significativa

respecto a futuros pronósticos de eventos que podrían afectar las actividades y hasta la

vida de la población.

1.2.2.‐ El valor b en el noreste de México

El noreste de México durante mucho tiempo se consideró como una zona asísmica.

Sin embargo, existen provincias en las cuales los esfuerzos acumulados son capaces de

provocar eventos tanto pequeños como medianos e incluso algunos muy fuertes, si bien

poco frecuentes en comparación con las demás regiones de México.

Capítulo 1

Ernesto López

Las provincias que prevalecen al noreste de México son: la Cuenca de Burgos, el Rift

de Río Grande, La Sierra Madre Oriental y la Llanura Costera del Golfo, que abarcan los

estados de Nuevo León, Coahuila, Zacatecas, San Luis Potosí, Chihuahua, Durango,

Tamaulipas y el sur de Texas.

Se usó una compilación de eventos históricos para ésta zona (Galván y Montalvo,

2008) y datos del Servicio Sismológico nacional (SSN), con el propósito de armar un

catálogo lo más completo posible que arroje resultados confiables (estadísticamente)

sobre la sismicidad actual teniendo como base la sismicidad histórica.

En la figura 9 se presenta el catálogo del SSN, agregando los datos históricos. En la

cual se hace énfasis al noreste de México encerrado en un polígono de círculos rojos.

Todos los eventos dentro de él fueron utilizados para el cálculo.

Figura 9: Catálogo de México (SSM) con los datos agregados de la compilación histórica.

Capítulo 1

Ernesto López

En la figura 10 se observa de forma clara la sismicidad del noreste de México, que

abarca fechas desde 1922 hasta el 2008. El cálculo del valor b de todos los eventos sin

hacer restricciones en profundidad es de 0.84. En la figura 11 se presenta la relación G‐R

para esta zona.

Figura 10: Sismicidad en el noreste de México.

Capítulo 1

Ernesto López

Figura 11: Relación G‐R para el noreste de México sin restricciones (b=0.84).

Sin embargo, es necesario hacer un análisis de forma mas detallada para obtener

una mejor perspectiva de la sismicidad presente y pasada; es decir, de cómo se ha

comportado el valor b en el tiempo. En la figura 12 se muestra el análisis contra el

tiempo en sentido contrario con respecto al tiempo (esta metodología se explicará mas

adelante). Se observa en ésta figura que el resultado del valor b está en el limite entre lo

menos confiable y lo que a simple vista parece estable (1987). La estabilidad observada

no es confiable, debido a que este cálculo se hizo sin hacer restricciones de profundidad

y de tiempo, lo cual puede repercutir en los resultados. Aunque se puede observar un

gran período de estabilidad, el valor determinado para ese periodo es de 0.2 lo cual es

erróneo ya que esto indicaría que la sismicidad en esta zona es sumamente intensa y

esto se debe a los problemas instrumentales de detección en fechas antiguas.

Capítulo 1

Ernesto López

Figura 12: Relación G‐R para el noreste de México sin restricciones (b=0.84).

Entonces un recálculo es presentado en la figura 13, ahora haciendo restricciones

(fechas a partir de 1988 y profundidades menores a 15 km) para un mejor resultado.

Capítulo 1

Ernesto López

Figura 13: Relación G‐R para el noreste de México con restricciones (b=0.88).

En la figura 13 no se observa mucha variación ( 88.0=b ) con respecto al resultado

obtenido con la figura 11 para los tiempos modernos, sin embargo se considera que este

resultado es más confiable debido a que se hicieron restricciones que redujeron el grado

de error. Este valor b , se presenta en la figura 12 aproximadamente entre las fechas de

1988 y 1989.

Para calcular un estimado de recurrencia o retorno de eventos es de primordial

importancia conocer las constantes a y b de la relación G‐R, las cuales indicaran el

escalamiento de los eventos. Conociendo éste parámetro y la ventana de tiempo en la

cual se estimaron las constantes, es posible calcular el tiempo de retorno de eventos

mayores a la magnitud que seleccionemos.

Los eventos mayores son los más preocupantes y por lo tanto a los que se les da

más atención. Para esta zona, los sismos mayores tienen una magnitud alrededor de 4.

Por lo tanto, se estima el periodo de recurrencia de eventos mayores a esta magnitud. En

Capítulo 1

Ernesto López

la figura 14 se muestra una pequeña interfase creada en MATLAB para el software ZMAP

(desarrollado por Zúñiga y Figueroa, 2008), la cual calcula el periodo de recurrencia de

eventos.

Figura 14: Interfase para recurrencia sísmica.

La interfase sólo tiene como entrada el valor b , el valor a , la ventana de tiempo y

la magnitud de la cual se quiere calcular la recurrencia. Implícitamente el programa

encuentra el número de eventos con la relación G‐R y posteriormente evalúa el

resultado para hacer el cálculo. Para este caso se sustituyen las constantes en la ecuación

( )MbaN *10 −=

( ) 1623.310 4*89.006.4 == −N

lo cual proporciona el número de eventos para M≥4 estimados para ese intervalo de

tiempo, por lo que sólo se requiere su inverso para saber el tiempo esperado por evento:

Capítulo 1

Ernesto López

038.191623.3

0206.6=x

El resultado indica que eventos de magnitudes mayores a 4 ocurrirían en el noreste

de México cada 6 años aproximadamente (tasa de Poisson).

El noreste de México, asi como varias otras regiones, no es considerado a últimos

tiempos una zona asísmica debido a que las fallas en la región son activas y capaces de

provocar considerables daños si no se cuenta con las medidas necesarias. El valor b <1 es

una evidencia de lo anterior e indica una acumulación de esfuerzos lo suficientemente

grande para cambiar la perspectiva de lo que se pensaba de esta zona, a pesar de que la

frecuencia de ocurrencia de eventos mayores es mucho menor que lo que experimentan

otras zona del país, como la costa del Pacífico.

1.3.‐ OBJETIVOS

El objetivo principal de este trabajo es el de encontrar si existe la correlación entre

los métodos EMR y BC mediante un análisis de regresión lineal.

Se pretende mostrar las ventajas y posibles causas de error sistemático si se emplea el

método BC en sustitución del EMR.

1.4.‐ METAS

Profundizar en el análisis de regresión para de este modo llegar a un resultado

suficientemente confiable.

Capítulo 1

Ernesto López

Elaborar una función en MATLAB con la cual realizar los cálculos necesarios para

este estudio, y posteriormente aplicarla a futuros trabajos en que se requiera su

implementación.

2.‐ PROBLEMÁTICA

Si bien, el concepto de auto‐similitud a nivel teórico dice que el valor b debería ser

constante al considerar un intervalo de tiempo en el cual se incluyan eventos suficientes de

todas las magnitudes; es por esto que, al considerar un valor b constante y observando la

similitud de los resultados calculados por los métodos EMR y BC se podrá medir el grado de

correlación entre ambos dependiendo de la variación que tengan con respecto al valor b .

2.1.‐ ¿PORQUE ESTOS DOS METODOS?

Debido a que estos métodos son los más robustos y calculan Mc con mayor

precisión. El método EMR es el más confiable pero requiere mucho tiempo de cómputo y

el método BC es mas rápido, confiable para todo tamaño de muestra.

Comparando ambos métodos con datos de catálogos sintéticos con 1=Mc contra

el tamaño de muestra se aprecia que si existe esa correlación aparente. En la figura 12 se

observa dicha correlación, y se alcanza a percibir una subestimación sistemática de

aproximadamente 0.1.

Figura 15: Comparación de Metodologías contra el tamaño de la muestra.

Catálogo sintético con valor Mc = 1 (Woessner y Wiemer, 2005)

Capítulo 1

Ernesto López

3.‐ HIPÓTESIS

Podemos utilizar el método BC + una corrección para simular los resultados del

método EMR.

Corrección propuesta:

0.2EMR BCb b= +

Woessner y Wiemer (2005)

Sin embargo, quedan la preguntas: ¿la correlación funcionará para todo el catálogo

y para todos los catálogos?, ¿Cuáles son las ventajas y posibles causas de un error

sistemático si se usa el método BC en lugar del EMR?

4.‐ DATOS Y METODOLOGÍA

Para este trabajo se cuenta con catálogos sismológicos de México, Italia y Nueva

Zelanda compilados por el International Seismological Centre (ISC).

Los datos con los que se dispone son valores b calculados con el software ZMAP

(Zúñiga 1994 y Wiemer 2001). ZMAP es una serie de subrutinas programadas en MATLAB

para análisis sistemático de datos de sismicidad y catálogos sísmicos.

El catálogo sismológico de nuestro país tiene registrados datos de eventos desde

1964 al 2008 para mb y de 1978 al 2008 para Ms ; de igual manera se cuenta con el

catálogo de Italia con datos desde la fecha de 1964 al 2008 para mb y de 1978 al 2008

para Ms ; así como de Nueva Zelanda desde 1978 al 2007 para mb y de 1978 al 2006

para .Ms Donde, mb y Ms son magnitudes para ondas de cuerpo y superficiales,

respectivamente.

Con estos eventos se da inicio al cálculo del valor b con ZMAP, resaltando el uso de

los métodos EMR y BC debido a que estos son a los que aborda este trabajo.

Capítulo 1

Ernesto López

En la figura 16 se presenta la ventana de inicio de ZMAP, en la cual es posible

proporcionar parámetros para el análisis del catálogo.

Para el cálculo de los datos del valor b , el catálogo de sismicidad se revisa para

evitar cambios drásticos analizando las curvas de número acumulado de eventos contra

tiempo. Se escoge un tiempo inicial y después se estima Mc con EMR y BC, y sus

incertidumbres por medio de un procedimiento boot strap. El catálogo se corta en Mc y

se calcula el valor b con máxima verosimilitud.

Figura 16: Ventana inicial de control del catálogo. EQs in catalog (eventos en el catálogo), Plot Big Event with M> (grafica eventos grandes con un símbolo en particular), Bin Length in days (duración en días entre eventos), Beginning year (fecha de inicio de eventos), Ending year (fecha final de eventos), Minimum Magnitude (magnitud mínima considerada), Maximum Magnitude (magnitud máxima considerada), Min Depth (mínima profundidad considerada), Max Depth (máxima profundidad considerada).

Capítulo 1

Ernesto López

El catálogo se aumenta en un año a partir de la fecha más antigua confiable y el

proceso se repite (forward sense). Después se efectúa el mismo procedimiento pero en

sentido contrario, a partir de la fecha más reciente (reverse sense).

Pero debido a que la instrumentación en épocas antiguas era menos confiable, es

probable que se muestre más grado de incertidumbre con respecto a los datos recientes.

En la figura 17 se observa ejemplos del proceso hacia adelante (forward sense) y

hacia atrás (reverse sense), esto aporta una perspectiva clara respecto a la confiabilidad

de los cálculos.

Figura 17: Dirección de incremento del catálogo (forward sense, arriba) (reverse sense, abajo), Italia Ms.

Se ha propuesto que es mejor efectuar el análisis en tiempo de los datos más

recientes y no de la forma usual (de los más antiguos hacia los más recientes), porque de

esta forma siempre se incluye la mayor calidad de información, aunque el efectuar el

análisis de ambas formas podría dar un mayor sustento a las conclusiones.

Capítulo 1

Ernesto López

Entonces, por lo mencionado anteriormente para este trabajo se utilizó el sentido

hacia atrás (reverse sense), para mayor confiabilidad de los datos.

En la figura 18, se compara los datos del catálogo de México de EMR contra BC

haciendo el análisis de tiempo a partir de los datos más recientes. Se observa que existe

una correlación entre ambos métodos, aunque no es posible confiar en todo el catálogo

ya que no se preserva a lo largo de él, solamente en algunas secciones (parte plana),

debido a la incertidumbre de las fechas más antiguas.

Figura 18: Comparación del método BC (arriba) contra el método EMR (abajo).

La incertidumbre observada en la figura anterior da sustento a que el método EMR

es más confiable que el BC y debido a que tienen una tendencia similar de valores b

pueden ser correlacionados y así encontrar una relación lineal entre ambos.

Capítulo 1

Ernesto López

El periodo de mínima incertidumbre es fácil de observar, se esperaría que estuviese

en años recientes por la mejor calidad de información, sin embargo no siempre es así por

razones variadas que no pueden ser generalizadas, aunque en la mayoría de los catálogos

muestran su mejor correlación en la parte mas reciente.

La figura 19 muestra ésta zona de mínima incertidumbre de los métodos para el

catálogo de México, en la cual se observa que existe una correlación a simple vista.

Figura 19: Correlación de ambos métodos para mejor identificación de la parte plana.

Con lo anterior se da inicio al análisis de regresión, en el cual se intentará encontrar

la correlación entre los métodos y así poder llegar a la corrección esperada.

Capítulo 1

Ernesto López

4.1.‐ REGRESIÓN LINEAL SIMPLE

El modelo empleado es el de regresión lineal simple. Este modelo consiste en un

solo regresor x que tiene una relación con respuesta y , donde la relación es una línea

recta. Este modelo de regresión lineal simple es

+= 0βy 1β x ε+ (4)

donde la ordenada en el origen 0β y la pendiente 1β son constantes desconocidas, y ε

es un componente aleatorio de error. Se supone que los errores tienen promedio cero y

varianza 2σ desconocida. Además, se suele suponer que los errores no están

correlacionados. Esto quiere decir que el valor de un error no depende del valor de

cualquier otro error.

Aclarando desde luego que, se espera una respuesta y en función de x , esto es la

respuesta del método EMR en función del BC, lo cual se podría escribir de la siguiente

forma:

εββ ++= BCEMR 10 (4.1)

Se considera que el regresor x esta controlado por el analista de datos, y se puede

medir con un error despreciable, mientras que la respuesta y es una variable aleatoria.

Con lo que existe una distribución de probabilidades de y para cada valor posible de x .

La media de esta distribución es

E ( )0

| β=xy + 1β x (4.2)

como se muestra en la figura 20

Capítulo 1

Ernesto López

Figura 20: Distribuciones de y para valores dados de x . Modelo homocedastico (varianzas iguales).

y la varianza es

Var ( )xy | = Var ( ) 210 σεββ =++ x (4.3)

Como se observa en la figura 20, para cada valor dado de x hay una distribución

de probabilidades de y . En el análisis de regresión lineal simple, suponemos que los

valores de x son constantes, no valores de variables aleatorias, y que para cada valor de

x la variable que se debe pronosticar, y , presenta una distribución normal. Nótese que

las medias de todas las distribuciones de la figura 20 caen en la línea de regresión real

E ( )0

| β=xy + 1β x . Además, se suele considerar en el análisis de regresión lineal simple

que la varianza es constante, es decir que presenta homocedasticidad.

Así, la media de y es una función lineal de x , aunque la varianza de y no depende

del valor de x . Además, como los errores no están correlacionados, las respuestas

tampoco lo están.

Capítulo 1

Ernesto López

A los parámetros 0β y 1β se les suele llamar coeficientes de regresión. La

pendiente 1β es el cambio de la media de la distribución de y producido por un cambio

unitario en x . Si el intervalo de los datos incluye a 0=x , entonces la ordenada al origen

0β es la media de la distribución de la respuesta y cuando 0=x . Si no incluye al cero,

0β no tiene interpretación práctica.

4.1.1.‐ Estimación de 0β y 1β

Los parámetros 0β y 1β son desconocidos, y se deben estimar con los datos de la

muestra. Suponiendo que hay n pares de datos: ( 11 , xy ), ( 22 , xy ), . . . ( nn xy , ).

Para estimar 0β y 1β se usa el método de mínimos cuadrados (Legendre, 1805;

Gauss, 1809), donde al estimar dichos parámetros la suma de los cuadrados de las

diferencias (residuales) entre las observaciones iy y la recta sea mínima. Según la

ecuación (4), se puede escribir:

,10 iii xy εββ ++= i=1,2,….,n (4.4)

Se puede considerar que la ecuación (4) es un modelo poblacional de regresión,

mientas que la ecuación (4.4) es un modelo muestral de regresión. Así, el criterio de

mínimos cuadrados es:

( ) ( )∑=

−−=n

iii xyS

21010 , ββββ (4.5)

Capítulo 1

Ernesto López

Los estimadores, por mínimos cuadrados, de 0β y 1β , que se designaran por 0

β , deben satisfacer:

0)(2| 101,0 10

=−−−=∂∂ ∧∧

=∑∧∧ i

ii xyS ββ

β ββ

0)(2|1

10,1 10

=−−−=∂∂ ∑

∧∧

iiii xxyS ββ

β ββ

Se simplifican estas dos ecuaciones y se obtiene:

∑∑==

∧∧

ii yxn

1110 ββ

∑∑∑==

ii xyxx

10 ββ (4.6)

Las ecuaciones anteriores son llamadas ecuaciones normales de mínimos

cuadrados. Su solución es la siguiente:

0 xy∧∧

−= ββ (4.7)

⎟⎠

⎞⎜⎝

⎟⎠

⎞⎜⎝

⎛⎟⎠

⎞⎜⎝

∑∑

∑∑∑

β (4.8)

Donde _y y

_x son los promedios de iy y ix , respectivamente. Por consiguiente 0

β en las ecuaciones (4.7) y (4.8) son los estimadores por mínimos cuadrados. El

modelo ajustado de la regresión lineal simple es entonces:

∧∧∧

+= xy 10 ββ (4.9)

Capítulo 1

Ernesto López

Ahora bien, como la ecuación (4.8) es la suma corregida de los cuadrados de las ix

y el numerador es la suma corregida de los productos cruzados de ix y iy , estas

ecuaciones pueden escribirse de una forma mas compacta de esta forma:

∑∑

=⎟⎠⎞

⎜⎝⎛ −=

⎟⎠

⎞⎜⎝

iixx xx

2 (4.10)

∑∑∑

=⎟⎠⎞

⎜⎝⎛ −=

⎟⎠

⎞⎜⎝

⎛⎟⎠

⎞⎜⎝

iiixy xxy

1 (4.11)

Entonces, una forma cómoda de escribir la ecuación (4.8) es:

1β (4.12)

En la figura 21 se muestra el ajuste lineal de las observaciones ( ix , iy ).

Capítulo 1

Ernesto López

Figura 21: Regresión lineal simple.

La diferencia entre el valor observado iy y el valor ajustado correspondiente iy∧

llama residual; y como se mencionó anteriormente, la suma de los cuadrados de las

diferencias entre las observaciones iy y la línea recta debe ser mínima para que se

cumpla el criterio de mínimos cuadrados, o bien la suma de los cuadrados de los

residuales. Matemáticamente, el i‐ésimo residual es:

,10 ⎟⎠⎞

⎜⎝⎛ +−=−=

∧∧∧

iiii xyyye ββ i=1,2,…..,n (4.13)

Los residuales juegan un muy importante papel para investigar la adecuación del

modelo ajustado, y para detectar diferencias respecto a las hipótesis básicas.

4.1.2.‐ Estimación de 2σ

Capítulo 1

Ernesto López

Además de estimar 1β y 0β , se requiere un estimado de 2σ para probar hipótesis

y formar estimados de intervalo pertinentes al modelo de regresión. En el caso ideal este

estimado no debería depender de la adecuación del modelo ajustado, pero eso solo es

posible si tuviéramos varias observaciones de y para al menos un valor de x o cuando se

dispone de información acerca de 2σ . Cuando no se puede usar este método, el

estimado de 2σ se obtiene de la suma de cuadrados de los residuales, o suma de

cuadrados de error:

∑∑=

=⎟⎠⎞

⎜⎝⎛ −==

iis yyeSSr

2Re (4.14)

Se puede deducir una formula más cómoda para calcular sSSrRe sustituyendo

ii xy∧∧∧

+= 10 ββ en la ecuación anterior y simplificando

iis SnyySS

− −== ∑ 11

22Re β (4.15)

ii SSyynyy ≡⎟

⎠⎞

⎜⎝⎛ −=− ∑∑

2 (4.16)

Es justo la suma de cuadrados corregida de las observaciones de la respuesta, por lo

xyTs SSSSS∧

−= 1Re β (4.17)

Capítulo 1

Ernesto López

La suma de los cuadrados de los residuales tiene 2−n grados de libertad, porque

los dos grados de libertad se asocian con los estimados ∧

0β y ∧

1β que se usan para

obtener ∧

iy . Por lo que el estimador insesgado de 2σ es:

σ (4.18)

Debido a que ∧

2σ depende de la suma de los cuadrados de los residuales, cualquier

violación de las hipótesis sobre los errores del modelo, o cualquier especificación

equivocada de la forma del modelo pueden dañar gravemente la utilidad de ∧

2σ como un

estimado de 2σ . Como 2σ se calcula con los residuales del modelo de regresión, se dice

que es un estimado de 2σ es dependiente del modelo.

4.1.3.‐ Pruebas de hipótesis

Con frecuencia interesa probar hipótesis y establecer intervalos de confianza de los

parámetros del modelo. Estos procedimientos requieren hacer la hipótesis adicional de

que los errores iε del modelo estén distribuidos normalmente. Así las hipótesis

completas son: que los errores estén distribuidos de forma normal e independiente, con

media 0 y varianza 2σ , lo cual se abrevia “NID(0, 2σ ). NID viene de normally and

independiently distributed (distribuido normal e independientemente).

Un procedimiento que conduce a una decisión sobre una hipótesis en particular

recibe el nombre de prueba de hipótesis. Si ésta información es consistente con la

hipótesis, se concluye que ésta es verdadera, de lo contrario se llega a la conclusión de

que es falsa. Se debe resaltar la verdad o falsedad de una hipótesis, debido a que nunca

puede conocerse con certidumbre, a menos que se examine toda la población.

Capítulo 1

Ernesto López

La hipótesis nula 0H es “la creencia a priori”, es decir la afirmación de una

característica de una población que se supone es cierta al inicio. Mientras que la

hipótesis alternativa 1H es la afirmación contradictoria a 0H . La hipótesis nula se

rechaza a favor de la alternativa o no se rachaza dependiendo de los resultados de la

prueba. Entonces, las 2 conclusiones posibles de un análisis de prueba de hipótesis son:

Rechazar o No rechazar 0H .

Sin embargo, este procedimiento de decisión puede conducirnos a 2 conclusiones

erróneas:

• Error tipo 1: se define como el rechazo de la hipótesis nula 0H cuando ésta es

verdadera.

• Error tipo 2: se define como la aceptación de la hipótesis nula 0H cuando ésta es

falsa.

El nivel de significancia ayuda a determinar la probabilidad de cometer estos tipos

de errores. A ese nivel se le denomina con la letra α para el error tipo 1 y la letra β para

el tipo 2. Por ejemplo si se tuviera un nivel de confianza de 95% entonces el nivel de

significancia seria de 5%, de igual manera para un nivel de confianza de 90% su nivel de

significancia seria de 10%.

Hay 2 tipos de pruebas de hipótesis:

1.‐ Una cola o unilateral (puede ser izquierda o derecha)

Figura 22: Pruebas unilaterales izquierda y derecha.

Capítulo 1

Ernesto López

2.‐ Dos colas o bilateral

α /2 α /2

Figura 23: Prueba bilateral o de dos colas

4.1.4.‐ Uso de la prueba t‐student

Supongamos que se desea probar la hipótesis que la pendiente es igual a una

constante, por ejemplo 10β . Las hipótesis correspondientes son

1010 : ββ =H

1011 : ββ ≠H (4.19)

en donde se ha especificado una alternativa bilateral. La definición del estadístico t es

101 ββ −=

(4.20)

que sigue una distribución 2−nt si es cierta la hipótesis nula 0H . La cantidad de grados de

libertad asociados a 0t es igual a la cantidad de grados de libertad asociados con sMSRe .

Así, la razón 0t es el estadístico con que se prueba 1010 : ββ =H . El procedimiento de

prueba calcula 0t y compara su valor observado de acuerdo a la ecuación (4.20) con el

punto porcentual 2/α (debido a que se especifica una alternativa bilateral) superior de

2−nt de la distribución ( 2,2/ −ntα ). Este procedimiento rechaza la hipótesis nula si

Capítulo 1

Ernesto López

2,2/0 || −> ntt α (4.21)

El denominador del estadístico 0t en la ecuación (4.20) se le llama con frecuencia el

error estándar estimado, o mas sencillamente el error estándar de la pendiente. Esto

se Re1 =⎟⎠⎞

⎜⎝⎛ ∧

β (4.22)

entonces:

⎟⎠⎞

⎜⎝⎛−

set (4.23)

Pero debido a que en este trabajo se requiere encontrar la relación lineal entre 2

métodos, el motivo de la prueba sería estimar si la pendiente de la recta es igual a 0.

Entonces el estadístico t quedaría definido como

⎟⎠⎞

⎜⎝⎛−

set ∴

⎟⎠⎞

⎜⎝⎛

set (4.24)

También se puede hacer lo mismo para el error estándar de la ordenada al origen:

⎟⎠⎞

⎜⎝⎛

⎟⎟⎠

⎞⎜⎜⎝

(4.25)

Capítulo 1

Ernesto López

4.1.5.‐ Prueba de significancia de regresión

Un caso muy importante de la hipótesis en la ecuación del cálculo del estadístico 0t

es el siguiente:

(4.26)

Estas hipótesis se relacionan con la significancia de regresión. El no rechazar 0H

implica que no hay relación lineal entre x y y . En cambio si se rechaza 0H , eso implica

que x si tiene valor para explicar la variabilidad de y y por lo tanto si hay relación lineal

entre x y y , y podría equivaler a que el modelo de línea recta es adecuado, o que

aunque hay un efecto lineal de x se podrían obtener mejores resultados agregando

términos polinomiales en x .

El procedimiento de prueba para 0: 10 =βH consiste tan solo en calcular el

estadístico 0t y comparar su valor observado con el punto porcentual 2/α superior de

2−nt de la distribución ( 2,2/ −ntα ).

La hipótesis de significancia de regresión se rechazaría si 2,2/0 || −> ntt α .

4.1.6.‐ Análisis de varianza

También se puede usar el método de análisis de varianza para probar el significado

de la regresión. Este análisis se basa en una partición de la variabilidad total de la variable

y de respuesta. Para obtener esta partición se comienza con la identidad

Capítulo 1

Ernesto López

⎟⎠⎞

⎜⎝⎛ −−⎟

⎠⎞

⎜⎝⎛ −=−

∧∧

iiii yyyyyy__

(4.27)

Se elevan los términos al cuadrado y se suma para todas las n observaciones

∑ ∑ ∑= = =

∧∧

⎟⎠⎞

⎜⎝⎛ −+⎟

⎠⎞

⎜⎝⎛ −=⎟

⎠⎞

⎜⎝⎛ −

iiiiiii yyyyyy

(4.28)

El lado izquierdo de la ecuación (4.28) es la suma corregida de cuadrados de las

observaciones TSS , que mide la variabilidad total en las observaciones. Los dos

componentes de TSS miden, respectivamente la cantidad de variabilidad en las

observaciones iy explicada por la línea de regresión, y la variación residual queda sin

explicar por la línea de regresión.

Se observa que ∑=

iiis yySS

2Re )( es la suma de los cuadrados de los residuales

o suma de los cuadrados del error de la ecuación (4.14). Se acostumbra llamar a

iiR yySS

)( la suma de los cuadrados de regresión. Se acostumbra escribir

sRT SSSSSS Re+= (4.29)

y se sabe que xyTs SSSSS∧

−= 1Re β , por lo tanto la suma de cuadrados de regresión se

puede calcular de la siguiente forma:

xyR SSS∧

= 1β (4.30)

Capítulo 1

Ernesto López

Ahora bien se puede aplicar la prueba F normal del análisis de varianza para probar

la hipótesis 0: 10 =βH . De acuerdo a la definición del estadístico F:

0 )2/(1/

= (4.31)

donde RMS y sMSRe son los cuadrados medios de la regresión y de los residuales

respectivamente; también, sigue una distribución 2,1 −nF y los valores esperados de estos

cuadrados medios son:

Re )( σ=sMSE

xxR SMSE 21

2)( βσ +=

Estos cuadrados medios esperados indican que si es grande el valor observado de

0F , es probable que la pendiente 01 ≠β

Entonces para probar la hipótesis 0: 10 =βH , se calcula el estadístico 0F y se

rechaza 0H si:

2,1,0 −> nFF α (4.32)

Ahora bien, existe una relación entre los estadísticos F y t :

xxs SMSse

=⎟⎠⎞

⎜⎝⎛

β (4.33)

Nótese que al elevar al cuadrado ambos lados de la ecuación se obtiene:

Capítulo 1

Ernesto López

0 FMSMS

xx ====

∧∧

ββ (4.34)

por lo tanto

020 Ft = (4.35)

4.1.7.‐ Intervalos de confianza de 0β , 1β y 2σ

Es posible calcular los intervalos de confianza de 0β , 1β y 2σ , donde el ancho de

dichos intervalos es una medida de la calidad general de la recta de regresión. Si los

errores se distribuyen en forma normal e independiente, entonces la distribución de

muestreo tanto de

⎟⎠⎞

⎜⎝⎛−∧

⎟⎟⎠

⎞⎜⎜⎝

⎛−∧

es t , con 2−n grados de libertad. Así, un intervalo de confianza de 100(1‐α ) por ciento

para la pendiente 1β se determina con:

⎟⎠⎞

⎜⎝⎛+≤≤⎟

⎠⎞

⎜⎝⎛−

∧∧

12,2/1112,2/1 βββββ αα setset nn (4.36)

y un intervalo de confianza de 100(1‐α ) por ciento para la ordenada en el origen 0β es:

⎟⎠⎞

⎜⎝⎛+≤≤⎟

⎠⎞

⎜⎝⎛−

∧∧

02,2/01002,2/0 βββββ αα setset nn (4.37)

Capítulo 1

Ernesto López

Estos intervalos de confianza tienen la interpretación usual de frecuencia, por lo

tanto si hubiera que tomar muestras repetidas del mismo tamaño a los mismos valores

de x , y formar por ejemplo intervalos de confianza de 95% de la pendiente para cada

muestra, entonces el 95% de esos intervalos contendrán el verdadero valor de 1β .

Si los errores están distribuidos en forma normal e independiente, la distribución de

muestreo de

2Re /)2( σsMSn −

es ji cuadrada, con 2−n grados de libertad. Así,

αχσ

χ αα −=≤−

≤ −−− 1})2(

{ 22,2/2

Re22,2/1 n

y en consecuencia, un intervalo de confianza de 100(1 ‐ α ) por ciento para 2σ es

22,2/1

Re )2()2(

−−−

−≤≤

s MSnMSn

αα χσ

χ (4.38)

4.1.8.‐ Estimación de intervalos de respuesta media o limites de confianza

Una aplicación importante de un modelo de regresión es estimar la respuesta

media, )(yE para determinado valor de la variable regresora x . Sea 0x el valor, o

“nivel” de la variable regresora para el que se desea estimar la respuesta media, es decir,

( )0| xyE . Se supone que 0x es cualquier valor de la variable regresora dentro del

Capítulo 1

Ernesto López

intervalo de los datos originales de x que se usaron para ajustar el modelo. Un

estimador insesgado de ( )0| xyE se determina a partir del modelo ajustado como

sigue:

( ) 010|0 0| xxyE xy

∧∧∧

+== ββμ (4.39)

Para obtener un intervalo de confianza de 100(1‐α ) % para ( )0| xyE , se debe

notar primero que 0|xy

μ es una variable aleatoria normalmente distribuida, porque es

una combinación lineal de las observaciones iy . La varianza de 0|xy

xxxyxy S

xxyVarxVarVar2

010||)(

−+=⎥⎦

⎤⎢⎣⎡ −+=⎟

⎠⎞

⎜⎝⎛ +==⎟

⎠⎞

⎜⎝⎛ ∧∧∧∧∧ σσβββμμ (4.40)

y se sabe que la 0),( 1

βyCov . Así la distribución de muestreo de

)/)(/1(

SxxnMS

−∧

μ (4.41)

es t , con 2−n grados de libertad. Por lo que un intervalo de confianza de

)1(100 α− % para la respuesta media en el punto 0xx = es:

⎟⎟⎟

⎜⎜⎜

⎛ −++≤≤

⎟⎟⎟

⎜⎜⎜

⎛ −+− −

xxsnxy

xxsnxy S

MStxyES

0Re2,2/|0

0Re2,2/|

)(1)1()(1

00 αα μμ (4.42)

Capítulo 1

Ernesto López

Figura 24: Regresión lineal simple y límites de confianza o de respuesta media.

En la figura 24 se muestra una regresión lineal simple con sus respectivos límites de

confianza.

El ancho del intervalo de confianza para ( )0| xyE es una función de 0x . El ancho

del intervalo es un mínimo para _

0 xx = , y crece a medida que aumenta ||_

0 xx − . Esto es

razonable, porque cabria esperar que las mejores estimaciones de y se hacen con los

valores de x cerca del centro de los datos, y que la precisión de la estimación se

redujera al moverse hacia la frontera del espacio de x .

4.1.9.‐ Predicción de nuevas observaciones

Una aplicación importante de modelos de regresión es predecir nuevas

observaciones y que correspondan a un nivel especificado de la variable regresora .x Si

0x es el valor de interés de la variable regresora, entonces

Capítulo 1

Ernesto López

0100 xy∧∧∧

+= ββ (4.42)

es el estimado puntual del nuevo valor de la respuesta 0y .

Se desarrollara un intervalo de confianza para la observación futura 0y . Nótese

que la variable aleatoria

−= 00 yyψ

tiene una distribución normal, con media 0 y varianza

⎥⎥

⎢⎢

⎡ −++=−=

nyyVarVar

)(11)()( σψ

porque la observación futura 0y es independiente de ∧

0y . Si se usa ∧

0y para

predecir 0y , entonces el error estándar de ∧

−= 00 yyψ es el estadístico adecuado sobre

el cual basar un intervalo de predicción. Así, el intervalo de predicción de )%1(100 α− de

confianza para una observación futura en 0x es

⎟⎟⎟

⎜⎜⎜

⎛ −+++≤≤

⎟⎟⎟

⎜⎜⎜

⎛ −++− −

xxsn S

MStyyS

0Re2,2/00

0Re2,2/0

)(11)(11 αα

(4.43)

En la figura 23 se muestra una regresión lineal simple, sus limites de confianza y

posteriormente sus limites de predicción.

Capítulo 1

Ernesto López

Figura 25: Regresión lineal simple, limites de confianza (líneas punteadas centrales verdes) y de predicción

(líneas punteadas celestes de los extremos).

El intervalo de predicción de la ecuación (4.43) es de ancho mínimo en _

0 xx = y se

ensancha a medida que aumenta ||_

0 xx − .

Al comparar los intervalos de confianza de respuesta media y de predicción de

nuevas observaciones se observa que el intervalo de predicción en 0x siempre es mas

ancho que el intervalo de confianza en 0x , porque el intervalo de predicción depende

tanto del error del modelo ajustado como del error asociado con observaciones futuras.

4.1.10.‐ Coeficiente de determinación y coeficiente de correlación

La cantidad

R Re2 1−== (4.44)

Capítulo 1

Ernesto López

se le llama coeficiente de determinación. Como TSS es una medida de

variabilidad de y sin considerar el efecto de la variable regresora x y sSSRe es una

medida de variabilidad de y que queda después de haber tenido en consideración a x ,

2R se le llama con frecuencia a la proporción de la variación explicada por el regresor x .

Los valores de 2R cercanos a 1 implican que la mayor parte de la variabilidad de y esta

explicada por el modelo de regresión.

La magnitud de 2R también depende del intervalo de variabilidad de la variable

regresora. En general, 2R aumenta a medida que aumenta la dispersión de las x y

disminuye cuando disminuye la dispersión de las x , siempre y cuando sea correcta la

forma supuesta del modelo.

Algunas ideas erróneas sobre 2R es por ejemplo que no mide la magnitud de la

pendiente de la línea de regresión. Un valor grande de 2R no implica que la pendiente se

grande, además, 2R no mide la adecuación del modelo lineal, porque con frecuencia 2R

es grande aunque x y y no tengan relación lineal. También es importante saber que

aunque 2R sea grande, eso no necesariamente implica que el modelo de regresión sea

un predictor exacto.

Ahora bien, el coeficiente de correlación r es una mediad de asociación lineal entre

x y y . Es decir solo proporciona información acerca de que tanta relación tienen estas

dos variables, aunque no significa que los cambios de una variable causen los cambios de

la otra, por lo tanto la correlación por si sola no puede emplearse para evaluar la

causalidad entre las variables. El coeficiente de correlación es:

[ ] 2/1

Sr = (4.45)

Capítulo 1

Ernesto López

En el caso de una variable controlable x , el coeficiente r no tiene significado,

porque su magnitud depende de la elección de los espacios para x .

Existe una relación entre estos coeficientes:

2 RSSSS

xx ====

∧∧ ββ (4.46)

22 Rr = (4.47)

4.2.‐ COMPROBACIÓN DE LA ADECUACIÓN DEL MODELO

Las principales premisas que se han tomado en cuenta hasta este punto al utilizar el

análisis de regresión son las siguientes:

1. La relación entre la respuesta y y los regresores es lineal, al menos en forma

aproximada.

2. El término de error ε tiene media cero.

3. El término de error ε tiene varianza 2σ constante.

4. Los errores no están correlacionados.

5. Los errores tienen distribución normal.

Las premisas 4 y 5 en conjunto implican que los errores son variables aleatorias

independientes. Se requiere la premisa 5 para probar hipótesis y para estimar intervalos.

Siempre se debe tener en cuenta que la validez de estas premisas es dudosa, y se

deben hacer análisis para examinar la adecuación del modelo que se haya desarrollado

tentativamente. Grandes violaciones a las premisas pueden causar que el modelo sea

Capítulo 1

Ernesto López

inestable, en el sentido que una muestra distinta podría conducir a un modelo

totalmente diferente, y así obtener conclusiones opuestas. En general, no se pueden

detectar desviaciones a las premisas básicas examinando los estadísticos estándar, como

por ejemplo los estadísticos t , F y 2R . Éstas propiedades son “globales” del modelo, y

como tal no aseguran la adecuación del mismo.

Ahora se plantean otros métodos para comprobar la adecuación del modelo,

basados principalmente en el estudio de los residuales.

4.2.1 Análisis de Residuales

Los residuales se habían definido de la siguiente forma:

−= yye ii ni ,...,2,1= (4.48)

siendo iy una observación, y iy∧

su valor ajustado correspondiente. Como se puede

considerar que un residual es la desviación entre los datos y el ajuste también es una

medida de la variabilidad de la variable de respuesta que no explica el modelo de

regresión. Toda desviación de las premisas de los errores se reflejara en los residuales, ya

que éstos son valores observados o realizados de los errores del modelo.

El análisis de residuales es una forma eficaz de descubrir diversos tipos de

inadecuación del modelo. Una forma muy efectiva de investigar lo bien que se ajusta el

modelo a los datos y comprobar las premisas del análisis de regresión es graficando los

residuales.

Los residuales tienen media cero y su varianza promedio aproximada se estima con:

⎟⎠⎞

⎜⎝⎛ −∑

== (4.49)

Capítulo 1

Ernesto López

Sin embargo, los residuales no son independientes, ya que n residuales sólo tienen

pn − grados de libertad asociados a ellos.

En ocasiones es mejor trabajar con residuales escalados, ya que estos brindan una

mejor perspectiva para la detección de valores atípicos o valores extremos, esto es,

observaciones que en algún aspecto estén separados del resto de los datos.

4.2.1.1 Métodos para escalar residuales

En este trabajo se presentarán 2 tipos de residuales escalados, debido a que éstos

aportan gran información para detectar valores extremos.

Residuales estandarizados

Ya que la varianza aproximada de un residual se estima con sMSRe , el cuadrado

medio de los residuales, un escalamiento lógico de los residuales sería el de los

residuales estandarizados.

ed = ni ,...2,1= (4.50)

Esto es dividiendo el residual entre la desviación estándar del residual. Los

residuales estandarizados tienen media cero y varianza aproximadamente unitaria, por

consiguiente, un residual estandarizado grande (por ejemplo 3>id ) indica que se trata

de un valor atípico potencial.

Capítulo 1

Ernesto López

Residuales estudentizados

Si se usa sMSRe con la varianza del i ‐ésimo residual, ie sólo tendrá una

aproximación. Se puede mejorar el escalamiento de los residuales dividiendo ie entre la

desviación estándar exacta del i ‐ésimo residual.

Si se usa el cuadrado medio de los residuales, sMSRe , para estimar la varianza de

los residuales, en realidad se sobreestima la varianza real )( ieVar . Los residuales que

están en los lugares mas remotos, pueden ser difíciles de detectar con inspección de

residuales ordinarios o estandarizados, porque en general, sus residuales serán menores.

Cuando la forma del modelo es correcta estos residuales estudentizados tienen

varianza constante unitaria e independiente de las observaciones de x . En muchos

casos, la varianza de los residuales se estabiliza, en especial para conjuntos grandes de

datos. En esos casos podrá haber poca diferencia entre los residuales estandarizados y

estudentizados.

Así, los residuales estandarizados y estudentizados aportan con frecuencia

información equivalente. Sin embargo, ya que cualquier punto con un residual grande

tiene una influencia potencial muy grande sobre el ajuste de mínimos cuadrados, se

recomienda por lo general examinar los residuales estudentizados. Este análisis de

residuales escalados para un solo regresor se demuestra con

⎥⎥⎥⎥⎥

⎢⎢⎢⎢⎢

⎟⎟⎟⎟⎟

⎜⎜⎜⎜⎜

⎛⎟⎠⎞

⎜⎝⎛ −

, ni ,...,2,1= (4.51)

Capítulo 1

Ernesto López

Nótese que cuando la observación ix es cercana al punto medio de los datos de x ,

la diferencia de _xxi − será pequeña, y la desviación estándar estimada de ie (el

denominador de la ecuación 4.51) será grande. Al revés, cuando ix está cerca de los

extremos del intervalo de datos de x , la diferencia _xxi − será grande, y la desviación

estándar estimada de ie será pequeña. También, cuando el tamaño de n de la muestra

es relativamente grande, el efecto de 2_)( xxi − será relativamente pequeño, por lo que

en conjuntos grandes de datos los residuales estudentizados no serán muy diferentes de

los estandarizados.

En la figura 26 se muestran algunos patrones en las gráficas de residuales para

inferir alunas ideas sobre la varianza de los errores.

Figura 26: Patrones en las gráficas de los residuales: a) satisfactorio; b) en embudo; c) doble arco; d) no

lineal.

La distribuciones en las partes b y c indican que la varianza de los errores no es

constante. La figura de embudo abierto hacia afuera en la parte b implica que la varianza

Capítulo 1

Ernesto López

es función creciente de y . También es posible un embudo abierto hacia dentro, que

indica que la varianza aumenta a medida que y disminuye. La distribución en doble arco

en la parte c se presenta con frecuencia cuando y es una proporción entre 0 y 1. Cuando

se presenta este problema, el método común para manejar la no constancia de la

varianza es aplicar una transformación adecuada, ya sea a la variable regresora o a la de

respuesta, o bien usar el método de mínimos cuadrados ponderados. Aunque para éste

trabajo no es conveniente usar transformaciones debido a que se altera en cierto modo

el modelo y se pierden muchos grados de libertad. Una gráfica en curva como la parte d,

indica una no linealidad. Esto podría indicar que se necesitan otras variables regresoras

en el modelo, como por ejemplo un término al cuadrado o transformaciones.

La gráfica de los residuales en función de iy∧

puede revelar uno o más residuales

anómalamente grandes. Estos puntos son valores atípicos potenciales y también podrían

indicar que la varianza no es constante, o bien que la relación entre y y x no es lineal.

Estas posibilidades se deben investigar antes de considerar los puntos como atípicos.

4.3.‐ GRÁFICA DE PROBABILIDAD NORMAL

Cuando se presentan pequeñas desviaciones respecto a las hipótesis de

normalidad, éstas no afectan mucho al modelo, pero una no normalidad grande es

potencialmente más seria, porque los estadísticos t o F y los intervalos de confianza y

de predicción dependen de la suposición de la normalidad. Además, si los errores

provienen de una distribución con colas mas gruesas que la normal, el ajuste por

mínimos cuadrados será sensible a un subconjunto menor de datos. Las distribuciones de

error con colas gruesas generan con frecuencia valores atípicos que “jalan” demasiado en

su dirección el ajuste de mínimos cuadrados. En esos casos es necesario considerar otros

métodos de regresión, como el método de regresión lineal ponderada.

Capítulo 1

Ernesto López

Un método sencillo para comprobar la suposición de normalidad, es trazar una

gráfica de probabilidad normal de los residuales. Es una gráfica diseñada para que al

graficar la distribución normal acumulada parezca una línea recta. Sean

[ ] [ ] [ ]neee <<< ...21 los residuales ordenados en forma creciente. Si se grafican [ ]ie en

función de la probabilidad acumulada niPi /)21( −= , ni ,..,2,1= , en papel de

probabilidad normal. Los puntos que resulten deberán estar aproximadamente sobre una

línea recta. Esa recta se suele determinar en forma visual, con énfasis en los valores

centrales (por ejemplo los puntos de probabilidad acumulada 0.33 y 0.67), y no en los

extremos. Las diferencias apreciables respecto a la recta indican que la distribución no es

normal.

En la figura 27 se muestran los diferentes tipos de gráficas de probabilidad de los

residuales. Donde la parte a muestra una gráfica de probabilidad normal “idealizada” ya

que los puntos caen aproximadamente en una línea recta. Las parte b muestra una curva

que va bruscamente hacia arriba y hacia abajo en los dos extremos, lo que indica que las

colas de esta distribución son demasiado gruesas para poder considerarlas normal. La

parte c, muestra un aplanamiento en los extremos, que es un comportamiento

característico de las muestras tomadas de la distribución con colas mas delgadas que la

normal. Las gráficas d y e muestran patrones a asimetría positiva y negativa,

respectivamente.

En ocasiones se debe de tener cierta experiencia para interpretar gráficas de

probabilidad normal, ya que con frecuencia, los tamaños pequeños de muestras ( 16≤n )

producen graficas de probabilidad normal que se desvían bastante de la linealidad. Para

muestras mayores 32( ≥n ), las graficas se comportan mucho mejor. Por lo general se

requieren unos 20 puntos para generar graficas de probabilidad suficientemente

estables.

Capítulo 1

Ernesto López

Figura 27: Gráficas de probabilidad normal: a) ideal; b) distribución con colas gruesas; c) distribución con

colas delgadas; d) asimetría positiva; e) asimetría negativa. 4.4.‐ REGRESIÓN LINEAL PONDERADA

Para entrar en éste tema, es necesario mencionar algunos conceptos básicos sobre

el análisis de regresión lineal.

Para considerar que un modelo obtenido con de un análisis de regresión lineal

simple es valido, es porque éste cumple con las premisas sobre la regresión mencionadas

anteriormente.

Una de las premisas más importantes, es que la varianza de los errores estocásticos

de la regresión es la misma para cada ix observación. Esto queda definido como un

modelo homocedastico. Para entender mejor este concepto, se puede razonar del

siguiente modo: iguales varianzas de ε para los distintos valores de x implica

necesariamente igual dispersión (varianza) de y para distintos valores de x lo que

implica necesariamente que la “recta de regresión de ∧

y sobre x va a representar con

igual precisión la relación entre x y y independientemente de los valores de x ”. Esto

es no considerando errores en x .

Capítulo 1

Ernesto López

En cambio, existen modelos que no presentan esta propiedad y por consiguiente no

puede emplearse un análisis de regresión lineal simple. Cuando los modelos presentan

varianzas diferentes para cada ix observaciones se dice que se tiene un modelo

heterocedastico.

La figura 28 muestra el fenómeno de heterocedasticidad, donde se observan

gráficamente varianzas diferentes para cada observación ix

Figura 28: Distribuciones de y para valores dados de x . Modelo heterocedastico (varianzas diferentes).

De éste modo, se debe entender que varianzas diferentes de ε para los distintos

valores de x implica necesariamente diferente dispersión (varianza) de y para distintos

valores de x , entonces la “recta de regresión de ∧

y sobre x va a representar con

diferente precisión la relación entre x y y , y esto va a depender de los valores de x ”;

es decir, aquí ya se esta considerando que las observaciones ix presentan un error, el

cuál no puede ser despreciado al momento de hacer el ajuste.

Es por éste motivo que se emplea la regresión lineal ponderada. La cuál implica

considerar la varianza tanto de y como de x .

Capítulo 1

Ernesto López

En este método se multiplica la diferencia entre los valores observados y esperados

de iy por un peso iw , o factor de ponderación, que se escoge como inversamente

proporcional a la varianza de iy .

ii yVar

w = (4.52)

Se comienza con el criterio de mínimos cuadrados ponderados

( ) ( )∑=

−−=n

iiii xywS

21010 , ββββ (4.53)

Los estimadores, por mínimos cuadrados ponderados, de 0β y 1β , que se

designaran por 0

β y 1

β , deben satisfacer:

0)(2| 101,0 10

=−−−=∂∂ ∧∧

=∑∧∧ i

iii xywS ββ

β ββ

0)(2|1

10,1 10

=−−−=∂∂ ∑

∧∧

iiiii xxywS ββ

β ββ

Resolviendo lo anterior se obtiene

=−− ∑∑∑=

iii xwwyw ββ

1=−− ∑∑∑

iiii xwxwxyw ββ

y se llega a las ecuaciones normales de mínimos cuadrados ponderados

Capítulo 1

Ernesto López

∑∑∑==

ii ywxww

10 ββ

∑∑∑==

iii xywxwxw

10 ββ (4.54)

Al resolver las ecuaciones (4.54) se obtendrán los estimados ponderados, para

mínimos cuadrados, de oβ y 1β .

En la figura 29 se comparan una regresión lineal simple y una regresión lineal

ponderada, y se observa que la regresión lineal ponderada da menos peso a los datos

que pareciera que son valores atípicos, mientras que la regresión lineal simple los

considera como si no tuviesen un error asociado a x .

Figura 29: Regresión lineal simple (línea azul) vs Regresión línea ponderada (línea verde).

Capítulo 1

Ernesto López

Ya que para la estimación de las incógnitas oβ y 1β se utilizó un peso iw , es de

esperarse que este factor de ponderación se encuentre de forma implícita a la hora de

calcular los diferentes parámetros de la regresión, como lo son RSS , sSSRe , RMS ,

sMSRe , etc.

Sin embargo, no es posible estimar intervalos de confianza debido a que éstos solo

pueden ser considerados que son correctos cuando los errores son distribuidos

normalmente, y en el caso del análisis de regresión lineal ponderado ésta premisa no se

cumple.

Es necesario estimar la bondad del ajuste ponderado de forma diferente a la

regresión lineal simple, debido a que en éste tipo de análisis (regresión lineal simple), el

coeficiente de determinación 2R es el cuadrado del coeficiente de correlación r , y como

se mencionó, el coeficiente de correlación solo mide el grado de relación entre las

observaciones, éste no tiene significado en la regresión ponderada. Es por éste motivo

que se necesita utilizar una relación en la cuál involucre alguna constante del modelo

ponderado. Hahn (1973) observa que el valor esperado de 2R en una regresión rectilínea

es, aproximadamente:

12 )(σβ

SRE (4.55)

La justificación para la utilización de este tipo de análisis de regresión, es debido a

que las observaciones ix no están controladas por un analista de datos, es decir, se debe

tomar en cuenta que presentan errores, ya que estas observaciones son los resultados

del método BC .

Capítulo 1

Ernesto López

5.‐ RESULTADOS Y DISCUSIÓN

A continuación se presentan los resultados del cálculo de la estabilidad de valor b y

las regresiones para los casos de los catálogos de México, Italia y Nueva Zelanda,

discutiéndose las observaciones principales.

5.1.‐ México ( Ms )

Se da inicio observando la tendencia que siguen los valores b contra el tiempo con

ambos métodos. En la figura 30 se muestra ésta tendencia:

Figura 30: Tendencia de los métodos EMR y BC con respecto al tiempo por separado (arriba) y juntos (abajo), México Ms.

Capítulo 1

Ernesto López

En la figura 31 se presenta el análisis de regresión lineal simple del catálogo

completo de México Ms, así como las graficas de probabilidad y distribución de los

residuales.

Figura 31: Análisis de regresión lineal simple para todo el catálogo de México Ms (arriba), gráfica de probabilidad normal de los residuales (abajo a la izquierda) y gráfica de la distribución de los residuales (abajo a la derecha). Tabla 1: Ecuación lineal de todo el catálogo con sus respectivos coeficientes de correlación y determinación.

Ecuación Coeficiente de correlación Coeficiente de determinación

073878.01378.1 −=∧

xy 9332.0=r 8709.02 =R

Tabla 2: Pruebas de hipótesis t y F.

Prueba t Prueba F 05.0=α 01.0=α 0452.22,2/ =−ntα 60.72,1, =−nFα

9846.130 =t 5680.1950 =F

2,2/0 || −> ntt α se rechaza 0: 10 =βH 2,1,0 −> nFF α se rechaza 0: 10 =βH

HAY RELACIÓN LINEAL HAY RELACIÓN LINEAL

Capítulo 1

Ernesto López

Tabla 3: Análisis de varianza (ANOVA). Fuente de variación

Suma de cuadrados

Grados de libertad

Cuadrado medio

Regresión 0.000988 1 0.000988 66.0489 Residual 0.0000898 29 0.0000149 Total 0.0011 30

Tabla 4: Intervalos de confianza de )%1(100 α− .

Pendiente 0589.15688.0 1 ≤≤ β Ordenada 4214.00566.0 0 ≤≤− β

Varianza 0000725.000000621.0 2 ≤≤σ

En la figura 30 se observa que los resultados obtenidos con el método EMR a partir

del inicio del catálogo (1978) hasta 1991 siguen una tendencia similar a los obtenidos con

el método BC, y su variación del valor b es mínima (entre b=0.58 y b=0.63). Y como es de

esperarse, las líneas de incertidumbre de EMR quedan dentro de las líneas de BC. A partir

de 1992 hasta el final del catálogo, los valores b obtenidos con el EMR están por encima

de los de BC. En éste catálogo no se observa buena estabilidad del valor b a lo largo de él,

sin embargo existen zonas donde se puede apreciar una buena correlación entre los

métodos.

En la figura 31 se muestra el análisis de regresión lineal simple, el cual informa que

el modelo presenta una correlación del 93.33 % y bondad de ajuste del 87.09 %

(demostrado con el coeficiente de determinación). Sin embargo, es sabido que el

coeficiente de correlación solo mide el grado de correlación que existe entre las

variables, mientras que el de determinación muestra la proporción de la variable de

respuesta y que es explicada por la variable regresora x , siempre y cuando el modelo

sea adecuado. Es decir, que estos parámetros no miden la adecuación, simplemente

pueden servir en caso de que el modelo cumpla con las premisas fundamentales, NID(0,

2σ ). Por consiguiente, en esta misma figura se muestran las gráficas del

comportamiento de los residuales.

Los residuales no se distribuyen del todo normal, sin embargo no se presentan de

forma sesgada ni con otro tipo de distribución, es por esta razón que se procedió a

Capítulo 1

Ernesto López

realizar pruebas de hipótesis y análisis de varianza para pasar estimar intervalos de

confianza. Estos resultados son mostrados en las tablas 1, 2, 3 y 4.

De acuerdo con el análisis de éste catálogo, se observa que la normalidad de los

residuales no afecta significativamente al modelo de regresión lineal simple, pero para

aportar un mejor criterio a esta seudo conclusión se procede a realizar los análisis de

residuales.

En la figura 32 se muestran los análisis de residuales.

Figura 32: Gráfica de residuales simples (arriba), estandarizados (abajo a la izquierda) y estudentizados (abajo a la derecha), mostrando con claridad la presencia de 2 valores atípicos potenciales (dentro del círculo azul).

Se observa en la figura 32 que los residuales presentan valores atípicos. En la parte

superior en análisis de residuales simple detecta 3 valores extremos, sin embargo los

análisis de residuales escalados detecta 2. Por consiguiente se procede a realizar un

nuevo análisis de regresión lineal simple eliminando los valores atípicos potenciales

detectados por estos tipos de análisis.

Capítulo 1

Ernesto López

En la figura 33 se presenta el análisis de regresión lineal simple para México Ms

eliminando los valores extremos detectados, así como las graficas de probabilidad y

distribución de los residuales.

Figura 33: Análisis de regresión lineal simple México Ms eliminando valores atípicos (arriba), gráfica de probabilidad normal de los residuales (abajo a la izquierda) y gráfica de la distribución de los residuales (abajo a la derecha). Tabla 5: Ecuación lineal y sus respectivos coeficientes de correlación y determinación.

31518.067892.0 −=∧

xy 97775.0=r 9559.02 =R

Prueba t Prueba F 05.0=α 01.0=α

051.22,2/ =−ntα 6800.72,1, =−nFα

2175.240 =t 4885.5860 =F

Capítulo 1

Ernesto López

Tabla 7: Análisis de varianza (ANOVA). Fuente de variación

Suma de cuadrados

Grados de libertad

Cuadrado medio

Varianza 0000725.000000621.0 2 ≤≤σ

Los resultados indican que las variables presentan una mejor relación, la bondad

del ajuste es del 95% y el comportamiento de los residuales se asemeja más a una

distribución normal. Debido a esto se procedió a realizar pruebas de hipótesis y análisis

de varianza para pasar estimar intervalos de confianza. Estos resultados son mostrados

en las tablas 5, 6, 7 y 8. Sin embargo, siempre se debe explorar el comportamiento de la

varianza a lo largo del modelo. Entonces, se sigue con el análisis de residuales, con los

propósitos de observar su variación y detectar posibles valores atípicos. En la figura 34 se

presentan los análisis de residuales.

Figura 34: Gráfica de residuales simples (arriba), estandarizados (abajo a la izquierda) y estudentizados (abajo a la derecha), mostrando con claridad la presencia de 1 valore atípico (dentro del círculo azul).

Capítulo 1

Ernesto López

Eliminando el último valor atípico, se realiza de nuevo otro análisis de regresión

lineal simple, presentado en la figura 35 con sus respectivas graficas de probabilidad y distribución de residuales.

Figura 35: Análisis de regresión lineal simple México Ms eliminando el ultimo valor atípico (arriba), gráfica de probabilidad normal de los residuales (abajo a la izquierda) y gráfica de la distribución de los residuales (abajo a la derecha). Tabla 9: Ecuación lineal y sus respectivos coeficientes de correlación y determinación.

19715.03195.1 −=∧

xy 9846.0=r 9644.02 =R

0555.22,2/ =−ntα 7200.72,1, =−nFα

7201.280 =t 8461.8240 =F

Capítulo 1

Ernesto López

Tabla 11: Análisis de varianza (ANOVA).

Fuente de variación

Suma de cuadrados

Grados de libertad

Cuadrado medio

Tabla 12: Intervalos de confianza de )%1(100 α−

Pendiente 4140.12251.1 1 ≤≤ β Ordenada 1352.02591.0 0 −≤≤− β

Varianza 000158.00000523.0 2 ≤≤ σ .

Es apreciable en la figura 35 que las observaciones caen dentro de los intervalos de

predicción, por consiguiente se considera la ausencia de valores atípicos potenciales y

por la gráfica de normalidad se procedió a realizar pruebas de hipótesis y análisis de

varianza para pasar estimar intervalos de confianza. Los resultados obtenidos fueron

satisfactorios y se muestran en las tablas 9, 10, 11 y 12. Sin embargo, se procedió a

realizar los análisis de residuales, presentados en la figura 36.

Figura 36: Gráfica de residuales simples (arriba), estandarizados (abajo a la izquierda) y estudentizados (abajo a la derecha), sin valores atípicos potenciales.

Capítulo 1

Ernesto López

En la figura 36 no se observan valores atípicos y por consiguiente se concluye que el

modelo es adecuado para el catálogo de México Ms a partir del año de 1978 al 2005.

Sin embargo, como se mencionó no es posible creer en todo el catálogo, se busca

solamente la estabilidad del valor b, y ésta debería presentarse en segmentos (parte

plana). También, cabe mencionar que el modelo de regresión lineal simple tiene como

característica implícita la ausencia de error en el regresor x , lo cual para este trabajo no

se cumple, debido a que el regresor (método BC) no es controlado por el analista de

datos, sino que es el resultado del cálculo del valor b. Entonces se debe considerar una

regresión lineal ponderada.

Aunque en ocasiones, como el error en x es significativo, pareciera que el ajuste de

la regresión lineal simple es mejor que la ponderada, como se presenta en la figura 37.

Figura 37: Comparación del análisis de regresión lineal simple (línea azul) contra el análisis de regresión lineal ponderada (línea verde) para los datos de México Ms sin valores atípicos potenciales.

Como se observa el la figura 37, el ajuste simple pareciera explicar mejor las

observaciones que el ajuste ponderado. Esto es debido a que las observaciones parecen

tener una varianza similar en los extremos, lo cual ocasiona que los pesos sean similares

en las orillas y la recta tienda a ignorarlos (tanto hacia arriba como hacia abajo de la

recta), lo que causa que la recta ponderada pase en medio de estos.

Capítulo 1

Ernesto López

Esto no quiere decir que la regresión lineal ponderada sea inútil para este trabajo,

todo lo contrario, simplemente como éste es todo el catálogo, solo se removieron

algunos valores extremos, no se esperaba obtener muy buenos resultados.

Ahora como un análisis extra para buscar la estabilidad del valor b, lo que se hizo

fue realizar el análisis de regresión lineal simple pero observando la tendencia que siguen

las constantes 1

β y 0

β contra el tiempo. Se hizo un corrimiento de tipo “reversa”, es

decir comenzando el análisis de todo el catálogo y posteriormente reducir en uno los

datos desde los nuevos hasta los viejos, así como un análisis “normal” (comenzado con

todo el catálogo y reduciendo en un dato desde los datos viejos hasta los nuevos) y uno

de “ventana corrida” en el cual se toma una muestra de datos, que en este caso fue de

n= 10 y se fue corriendo la ventana al año.

En la figura 38 se muestran dos tipos de gráficas, al lado izquierdo se presenta la

variación de las constantes con respecto al tiempo, mientras que al lado derecho se

observan las gráficas de las ecuaciones lineales resultantes. En la parte superior se

presenta el análisis tipo reversa, la estabilidad de las constantes parece comenzar a partir

de 1984 y se mantienen hacia el final del catálogo, donde los picos observados son

debido al cálculo de la regresión lineal con solo tres datos, en el lado superior derecho las

líneas azules representan la estabilidad de las constantes a partir de 1984 y las líneas

verdes representan las ecuaciones con pocos datos. En la parte central se presenta el

análisis tipo normal el cual como es de esperarse, debería tener una mejor estabilidad de

las constantes, debido a que al ir eliminando un valor desde los datos viejos hasta los

nuevos, se cuenta con la mejor calidad de información; en la parte central derecha se

observa que las gráficas de las ecuaciones son bastante similares al ir reduciendo los

valores viejos, esto se debe a que se incluye la mejor calidad de información. Por ultimo

en la parte inferior se presenta el análisis de ventana corrida, con el propósito de tener

mejor sustento al tomar la decisión sobre la o las zonas donde el valor b se estabiliza; la

percepción parece indicar que existe mucha variación, pero en realidad no, debido que la

variación es apenas de 0.4 como máximo y como el catálogo es muy homogéneo,

Capítulo 1

Ernesto López

presenta varias partes planas, es por este motivo que las gráficas de las ecuaciones

lineales tiendan a cruzarse entre si, lo cual es mostrado en la parte inferior derecha.

Figura 38: (Parte superior) Análisis de tipo reversa, variación de las constantes contra el tiempo (izquierda), gráfica de las ecuaciones resultantes (derecha). (Parte central) Análisis de tipo normal, variación de las constantes contra el tiempo (izquierda), gráfica de las ecuaciones resultantes (derecha). (Parte inferior) Análisis de tipo ventana corrida, variación de las constantes contra el tiempo (izquierda), gráfica de las ecuaciones resultantes (derecha).

Capítulo 1

Ernesto López

Con todos los análisis anteriores y el apoyo de la figura 30, pareciera que la

estabilidad del valor b comienza a partir de 1990 ya que la variación de sus constantes

oscila alrededor de 0.4 hasta el final del catálogo.

Entonces, se procede a realizar el análisis de regresión lineal simple para éste

segmento del catálogo (1990‐2008) presentado en la figura 39, con el propósito de

encontrar el mejor modelo que describa el grado de correlación de los métodos.

Figura 39: Regresión lineal simple contra regresión lineal ponderada desde el inicio de la parte plana hasta el final del catálogo.

Como se observa en la figura 39, la bondad del ajuste por parte de la regresión

ponderada es de más del 92% mientras que la simple es apenas del 88%.

Se utilizará el análisis de regresión lineal simple para detectar valores extremos y al

final se usará la regresión ponderada para obtener mejores resultados.

En la figura 40 se muestra el análisis de regresión lineal simple, en el cual pareciera

que no se cuenta con valores atípicos, sin embargo, existe la posibilidad de que las

observaciones que están cerca de los intervalos de predicción afecten en algún sentido el

modelo. Posteriormente, en la misma figura se presentan las gráficas de probabilidad

Capítulo 1

Ernesto López

normal y distribución de los residuales, las cuales indican que se trata de una distribución

de colas delgadas y por lo tanto no es pertinente pasar a calcular intervalos de confianza

de las constantes.

Figura 40: Análisis de regresión lineal simple del inicio de la parte plana al final del catálogo (1990‐2008) México Ms (arriba), gráfica de probabilidad normal de los residuales (abajo a la izquierda) y gráfica de la distribución de los residuales (abajo a la derecha). Tabla 13: Ecuación lineal de una parte plana con sus respectivos coeficientes de determinación y correlación.

10036.088965.0 +=∧

xy 9381.0=r 8801.02 =R

A pesar de que el modelo indica que existe una correlación del 93.81 % y una

bondad de ajuste del 88.01 % presentados en la tabla 13, estos resultados no son

confiables debido a que no se cumplieron las premisas básicas.

Capítulo 1

Ernesto López

Entonces, se pasa a realizar los análisis de residuales presentados en la figura 41,

con el propósito de detectar valores atípicos y observar la varianza de los errores.

Figura 41: Gráfica de residuales simples (arriba), estandarizados (abajo a la izquierda) y estudentizados (abajo a la derecha). Todos detectando 4 valores atípicos.

Eliminando los valores atípicos detectados, se procede a realizar el último análisis

de regresión lineal simple para este catálogo, presentado en la figura 42.

Figura 42: Regresión lineal simple sin valores atípicos de la parte plana.

Capítulo 1

Ernesto López

Tabla 14: Ecuación lineal de la mejor parte plana con sus respectivos coeficientes de determinación y correlación.

0088.00247.1 +=∧

xy 98226.0=r 96483.02 =R

1604.22,2/ =−ntα 0700.92,1, =−nFα

8838.180 =t 5985.3560 =F

HAY RELACIÓN LINEAL HAY RELACIÓN LINEAL Tabla 16: Análisis de varianza (ANOVA).

Suma de cuadrados

Grados de libertad

Cuadrado medio

Varianza 0001269.00000256.0 2 ≤≤ σ

Las tablas 14, 15, 16 y 17 presentan los resultados obtenidos con el análisis de

regresión lineal simple de la parte plana sin valores atípicos, los cuales indican que la

pendiente de la recta es casi 1 y la ordenada en el origen es menos de 0.1; es decir,

menos de la corrección deseada, además la variabilidad de la respuesta explicada por el

regresor aleatorio es mas del 96%. Por consiguiente se concluye que esta es la mejor

parte plana, donde se encuentra la estabilidad del valor b.

Ahora que se cuenta con la parte plana, se procede a utilizar la regresión

ponderada para considerar peso en los resultados del método BC, este análisis se

presenta en la figura 43.

Capítulo 1

Ernesto López

Figura 43: Regresión lineal ponderada para la parte plana.

Como se observa en la figura 43, la ecuación indica que la pendiente es muy

cercana a 1 y la ordenada es menor a 0.1. En este caso se consideró que el modelo

presentaba heterocedasticidad. Entonces se concluye que éste ajuste es el mas adecuado

para éste catálogo. Cabe mencionar que la mejor parte plana de éste catálogo se

presento a partir de las fechas de 1992 al 2006 de forma continua.

03.00814.1 −= BCEMR

Capítulo 1

Ernesto López

5.2.‐ Italia ( Ms )

Nuevamente iniciamos el análisis observando la tendencia de ambos métodos en la

figura 44.

Figura 44: Tendencia de los métodos EMR y BC con respecto al tiempo por separado (arriba) y juntos (abajo), Italia Ms.

Capítulo 1

Ernesto López

Como se observa en la figura 44, a simple vista parece que existe una buena

correlación para este catálogo, a excepción de los últimos años (2007‐2008) en los cuales

parece que la variación es significativa con respecto a los otros valores.

En la figura 45 se presenta el análisis de regresión lineal simple del catálogo

completo de Italia Ms, así como las graficas de probabilidad y distribución de los

residuales.

Figura 45: Análisis de regresión lineal simple para todo el catálogo de Italia Ms (arriba), gráfica de probabilidad normal de los residuales (abajo a la izquierda) y gráfica de la distribución de los residuales (abajo a la derecha).

Para éste modelo presentado en la figura 45 (arriba) se cuenta con una bondad del

ajuste de 88.57 %. Sin embargo, es evidente que la distribución de los errores no se

comporta normalmente, por consiguiente las pruebas estadísticas t, F y el cálculo de

intervalos no tendrán validez.

Capítulo 1

Ernesto López

Asumiendo lo anterior, se procede a examinar los residuales con el propósito de

encontrar los valores atípicos que se perciben en la figura 45 (en la zona del ajuste lineal,

arriba). El análisis se presenta en la figura 46.

Figura 46: Gráfica de residuales simples (arriba), estandarizados (abajo a la izquierda) y estudentizados (abajo a la derecha). Todos detectando 4 valores atípicos.

El análisis de residuales detecta al menos 2 valores atípicos potenciales. Sin

embargo, debido a que el catálogo presenta datos muy homogéneos; es decir, muestra una estabilidad del valor b en casi todo el catálogo a diferencia de los datos de México, se procede a realizar el análisis ponderado de todo el catálogo, éste se presenta en la figura 47.

Capítulo 1

Ernesto López

Figura 47: Análisis de regresión lineal ponderado para todo el catálogo de Italia Ms.

En la figura 47 se observa que el ajuste ponderado de todo el catálogo presenta una bondad de ajuste del 96.41%, lo cuál indica un muy buen modelo. Se podría concluir que éste es el resultado que describe la relación entre los métodos EMR y BC para éste catálogo. Sin embargo, utilizando el análisis de residuales presentado en la figura 46, se procede a eliminar los valores atípicos potenciales, con el propósito de obtener una mejor relación.

La figura 48 muestra el análisis de regresión lineal simple sin valores extremos.

Figura 48: Análisis de regresión lineal simple sin valores extremos, Italia Ms.

Capítulo 1

Ernesto López

En las tablas 18, 19, 20 y 21 se presentan los resultados del análisis de regresión lineal simple.

Tabla 18: Ecuación lineal con sus respectivos coeficientes de correlación y determinación.

05465100785.1 −−=∧

xy 99413.0=r 9883.02 =R

0518.22,2/ =−ntα 6800.72,1, =−nFα

7553.470 =t 6.22800 =F

Suma de cuadrados

Grados de libertad

Cuadrado medio

Varianza 00076697.00002587.0 2 ≤≤ σ Se procede a hacer el análisis ponderado con el propósito de obtener la mejor

relación para éste catálogo.

Capítulo 1

Ernesto López

Figura 49: Análisis de regresión lineal ponderado final.

Se observa en la figura 49 que el modelo presenta una bondad de ajuste del 96.46%

y que la ecuación que describe la relación entre los métodos es:

03515.098764.0 += BCEMR También se realizaron los análisis de las constantes de la regresión contra el tiempo

para dar sustento a la conclusión, éste aparece en el anexo digital.

5.3.‐ Nueva Zelanda ( Ms )

Se inicia observando la tendencia de ambos métodos en la figura 50.

Capítulo 1

Ernesto López

Figura 50: Tendencia de los métodos EMR y BC con respecto al tiempo por separado (arriba) y juntos (abajo), Nueva Zelanda Ms.

Se observa en la figura 50 que la correlación de los métodos comienza a partir de la

fecha de 1986, debido a que siguen una tendencia similar. Se procede a hacer el análisis

de regresión lineal simple para todo el catálogo, éste se muestra en la figura 51.

Capítulo 1

Ernesto López

Figura 51: Análisis de regresión lineal simple para todo el catálogo de Nueva Zelanda Ms.

Es evidente en la figura 51 que el modelo no es bueno, debido a valores atípicos

que se observan a simple vista en la parte inferior, que corresponden a las fechas

antiguas (1978‐1985). Sin embargo, se procede a utilizar la regresión lineal ponderada

(presentado en la figura 52) para observar si éste análisis es sensible a estos datos

atípicos.

Figura 52: Análisis de regresión lineal ponderado para todo el catálogo de Nueva Zelanda Ms.

Capítulo 1

Ernesto López

Se podría concluir que éste es el resultado que describe la relación entre los métodos para éste catálogo, sin embargo se procede a analizar los residuales (presentados en la figura 53) con el propósito de obtener el mejor modelo en el cual se encuentre la estabilidad del valor b.

Figura 53: Gráfica de residuales estandarizados ( izquierda) y estudentizados (derecha).

Entonces se procede a realizar el análisis de regresión lineal simple sin valores atípicos, éste se presenta en la figura 54.

Figura 54: Análisis de regresión lineal simple sin valores atípicos

Capítulo 1

Ernesto López

En las tablas 22, 23, 24 y 25 se presentan los resultados obtenidos a través del

análisis de regresión lineal simple mostrado en la figura 54.

Tabla 42: Ecuación lineal con sus respectivos coeficientes de determinación y correlación. Ecuación Coeficiente de correlación Coeficiente de determinación

0873.02234.1 −=∧

xy 98967.0=r 97945.02 =R

Prueba t Prueba F 05.0=α 01.0=α 0930.22,2/ =−ntα 1800.82,1, =−nFα

0918.300 =t 5186.9050 =F

Suma de cuadrados

Grados de libertad

Cuadrado medio

Varianza 00013091.00000352.0 2 ≤≤ σ

Los resultados son satisfactorios debido a que el modelo indica una bondad de

ajuste del 97.94 % y las pruebas estadísticas concluyen que existe relación lineal entre los métodos. Sin embargo se procede a realizar el análisis ponderado para concluir en éste catálogo.

Éste análisis se presenta en la figura 55.

Capítulo 1

Ernesto López

Figura 55: Análisis de regresión ponderado final.

Como se muestra en la figura 55, la bondad del ajuste es de 96.25 %, menor que la

bondad del ajuste estimado con el análisis de regresión lineal simple, sin embargo este es

mas confiable debido a que se consideró un modelo heterocedastico.

Por lo tanto se concluye que el mejor modelo que describe la relación entre los métodos

036896.01333.1 −= BCEMR

De igual manera se hizo el análisis de la variación de las constantes de la regresión

en el tiempo. Éste se encuentra en el anexo digital.

Además, se realizaron todos estos análisis para los catálogos de México mb, Italia

mb y Nueva Zelanda mb, los resultados se encuentran en el anexo digital.

Capítulo 1

Ernesto López

CONCLUSIONES

Se logró encontrar una relación lineal entre los resultados del método EMR a partir

del BC y se han podido conocer sus alcances y limitaciones.

En todos los casos, no fue posible confiar en todo el catálogo, debido a que existen

intervalos en las cuales no se presenta relación alguna entre los métodos. Esto no

significa que no exista correlación en esas fechas (antiguas generalmente), sino que la

instrumentación presente no era confiable.

Existe una buena correlación entre los métodos para las magnitudes Ms. Sin

embargo para mb se tuvo que explorar más en el tema de regresión, con el propósito de

obtener un buen resultado. Esto se debe a que la forma de calcular la magnitud mb ha

variado a través del tiempo, lo cual ha provocado que los resultados del valor b

presenten demasiada incertidumbre y por consiguiente no se aprecie una buena

correlación de los métodos, pero gracias a ésta técnica estadística fue posible obtener un

resultado satisfactorio.

El análisis de regresión lineal puede ayudar (en algunos casos) a encontrar la teoría

de la estabilidad del valor b. Esto es debido a que las zonas donde existe una mejor

correlación de los métodos, es porque existe una incertidumbre menor de uno con

respecto al otro y cuando se realiza el análisis de regresión lineal de los valores b para un

catálogo completo, al examinar sus residuales e ir eliminando valores atípicos, las

observaciones que se van preservando se deben a que están mejor correlacionadas y se

acercan mas a la línea de regresión, mientras que los observaciones eliminadas se

refieren a los valores b menos correlacionados y generalmente corresponden a las

fechas antiguas en la cual no se presenta estabilidad.

Capítulo 1

Ernesto López

Se obtuvo una perspectiva distinta a lo que se pensaba sobre la sismicidad en el

noreste de México. El valor b <1 indica que la zona presenta una sismicidad significativa

como para darle mas atención a este tipo de estudios.

Se logró el objetivo de programar algoritmos capaces de efectuar el análisis de

regresión lineal simple y ponderada, los cuales funcionan para n datos y son fáciles de

utilizar.

Capítulo 1

Ernesto López

BIBLIOGRAFÍA

SE TIENEN QUE PONER EN ORDEN ALFABÉTICO

S. Stein & M. Wysession, (2003). An introduction to seismology, earthquakes, and earth

structure. Blackwell Publishing. 217‐221.

S. Wiemer & M. Wyss, (2002). Mapping spatial variability of the frequency‐magnitude

distribution of earthquakes. Advanced in Geophysics. 45, 259–302.

P. Bak, (1996). How nature works: the science of self‐organized criticality. Springer‐

Verlag. Pag. 212.

F. R. Zúñiga & M. Wyss, (2001). Most and least likely locations of large to great

earthquakes along the pacific coast of Mexico, estimated from local recurrence times

based on b‐values. Bulletin of the Seismological Society of America. 91(6), 1717‐1728.

2nd ed. (Cambridge University Press, 2002).

S. Wiemer & M. Wyss, (1997). Mapping the frequency‐magnitude distribution in

asperities: An improved technique to calculate recurrence times? Journal of Geophysical

Research B: Solid Earth, 102(B7), 15115‐15128.

V. G. Kossobokov, V. I. Keilis‐Borok, D.L. Turcotte & B.D. Malamud, (2000). Implications of

statistical physics approach for earthquake hazard assessment and forecasting. Journal of

Geophysical Research B: Solid Earth, 102(B7), 15115‐15128.

G. Zöller, S. Hainzl, & M. Holschneider, (2008). Recurrent Large Earthquakes in a Fault

Region: What Can Be Inferred from Small and Intermediate Events? Bulletin of the

Seismological Society of America, Vol. 98, No. 6, pp. 2641–2651.

Capítulo 1

Ernesto López

F. R. Zúñiga & M. Guzmán, (1994). Main seismogenic sources in Mexico. Informe Técnico.

Seismic Hazard Project, IPGH.

F. R. Zúñiga, G. Suárez & A. Figueroa, (2009). A Seismotectonic Regionalization

of Mexico for Engineering Purposes. In process.

J. Woessner & S. Wiemer, (2005). Assessin the quality of earthquake catalogues:

estimating the magnitude of completeness and its uncertaitinty. Bulletin of the

Seismological Society of America, Vol. 95, No. 2, pp. 684–698.

S. Wiemer & M. Wyss, (2000). Minimum magnitude of completeness in earthquakes

catalogs: examples from Alaska, the Westerm United States, and Japan. Bulletin of the

Seismological Society of America, 90, 4, pp. 859–869, August 2000.

Y. Y. Kagan, (2003). Accuracy of modern global earthquake catalogs. Bulletin of the

Seismological Society of America. Vol. 92, No. 2. 641‐655.

D. Marsan, (2003). Triggering of seismicity at short timescales following Californian

earthquakes. Journal of geophysical research, Vol. 108, No. B5, 2266.

S. Wiemer & F. R. Zúñiga, (1994). ZMAP, EOS Transactions, 75. American Geophysical

Union.

F.R Zúñiga, (1991). Predicción sísmica. (Tomado del Servicio Sismológico Nacional).

Fuente: El Planeta vol.I Núm.32 Abril, 1991.

D.C. Montgomery, E. A. Peck & G.G. Vining. Introducción al análisis de regresión lineal.

Por V. González P. Compañía Editorial Continental. Primera reimpresión. México. D. F.

México. 588 p.

Capítulo 1

Ernesto López

K. Aki, (1965). Maximum likelihood estimate of b in the formula log N = a – bM and its

confidence limits. Bulletin or the earthquake research institute. Vol. 43 (1965), pp. 237‐

Aimin Cao & Stephen S. Gao, (2002). Temporal variation of seismic b‐values beneath

northeastern Japan island arc. Geophysical research letters, Vol. 29, N. 9, 1334,

10.1029/2001GL013775, 2002.

B. Gutenberg & C. F. Richter, (1944). Frequency of earthquakes in California. Bull.

Seism. Soc. Am. 34, 185–188.

G. J., Hahn, (1973). The coefficient of determination exposed!. Chem. Technol., 3, pp. 609‐

capítulo 1 universidad autonÓma de nuevo …terra.geociencias.unam.mx/~ramon/ernesto.pdfcapítulo...

Documents

universidad nacional autonÓma de honduras …

universidad regional autonÓma de los...

universidad autonÓma del estado de mÉxico programa …

universidad autonÓma de nuevo leÓn facultad de...

universidad autonÓma de baja california facultad de

universidad autonÓma del estado de mÉxico facultad …

universidad autonÓma agraria

universidad nacional autonóma de...

universidad autonÓma del estado de mÉxico centro

universidad autonÓma de nuevo leÓn subdirecciÓn de

universidad autonÓma de nuevo leÓn facultad ciencias de...

universidad autonÓma de madrid ... - repositorio.uam.es

universidad autonÓma del estado de mÉxico …

universidad nacional autonÓma de nicaragua, managua unan -...

universidad autonÓma de nuevo leÓn facultad de...

universidad nacional autonÓma de nicaragua, leÓn …

universidad autonÓma de nuevo leÓn facultad de …

universidad autonÓma de nuevo leÓn facultad de...

universidad nacional autonÓma de nicaragua, managua

universidad autonÓma de chihuahua