capítulo 1 universidad autonÓma de nuevo …terra.geociencias.unam.mx/~ramon/ernesto.pdfcapítulo...
Post on 12-Jul-2020
7 Views
Preview:
TRANSCRIPT
Capítulo 1
UNIVERSIDAD AUTONÓMA DE NUEVO LEÓN FACULTAD DE CIENCIAS DE LA TIERRA
LA TESIS
ANÁLISIS DE REGRESIÓN LINEAL PARA CORRELACIONAR DATOS DEL VALOR b EN
CATÁLOGOS DE SISMICIDAD, OBTENIDOS CON DOS TÉCNICAS
QUE PRESENTA
ERNESTO GUADALUPE LÓPEZ BRICEÑO
HA SIDO ACEPTADA
COMO REQUISITO PARCIAL PARA OBTENER EL TÍTULO DE
INGENIERO GEOFÍSICO
Vo. Bo. Director de Titulación Vo. Bo. Asesor
______________________ ______________________
Dr. Juan Carlos Montalvo Dr. Fco. Ramón Zúñiga
Arrieta Dávila-Madrid
LINARES, NUEVO LEÓN FEBRERO 2011
Ernesto López
Capítulo 1
Ernesto López
RESUMEN
El interés de los investigadores sobre la posibilidad de pronosticar efectos de
eventos sísmicos ha ido aumentando debido a los graves daños que estos fenómenos
pueden causar, como lo evidencian los casos recientes en Haití y Chile (2010). Para la
Sismología Estadística son objetivos primordiales lo relacionado con el peligro y el riesgo
sísmico. Dentro de éste tema, un parámetro muy importante es el conocido como “valor
b”, que está definido por la relación Gutenberg‐Richter. Dicha relación representa el
número de eventos acumulados (N) con respecto a las magnitudes (M). Este es un
parámetro básico en cualquier cálculo de probabilidad de ocurrencia de un sismo de
cierta magnitud, pero su cálculo esta sujeto a incertidumbre ocasionada por varios
factores (estaciones sísmicas antiguas y falta de datos), por lo cual los cálculos para
diseñar estructuras sismorresistentes se pueden ver seriamente afectados. Un parámetro
crucial en el cálculo del valor b es la magnitud mínima de completitud (Mc). Existen
varios métodos para el cálculo de dicho parámetro, entre los más robustos se encuentran
el “Método de rango total de magnitudes (EMR)” y el “Método de mejor combinación
(BC)”, los que son abordados en el presente trabajo. En este estudio se muestran
resultados de un análisis de regresión lineal con el objeto de evaluar el comportamiento
de los métodos. Debido a que el método EMR requiere de un mayor tiempo de cómputo,
se espera encontrar una relación lineal que explique su variabilidad en función del
regresor aleatorio que en este caso será el resultado del método BC. Se pretende mostrar
las ventajas y posibles causas de error sistemático si se emplea el método BC en
sustitución del EMR. Como una investigación extra, se habla respecto a la sismicidad en el
noreste de México, con el propósito de motivar a estudiantes e investigadores a realizar
estudios detallados en ésta zona.
Capítulo 1
Ernesto López
ABSTRACT
The interest of researchers on the possibility of predicting effects of seismic events
has been increasing due to the damage that these events may cause, as evidenced by
recent cases in Haiti and Chile (2010). For Statistical Seismology first order objectives are
those related to seismic hazard and risk. Within this theme, a very important parameter
is the so‐called "b ‐ value", which is defined by the Gutenberg‐Richter relationship. This
relationship represents the accumulated number of events (N) with respect to the
magnitudes (M). This is a basic parameter in any calculation of probability of occurrence
of an earthquake of certain magnitude, but its calculation is subjected to uncertainty
caused by several factors (old seismic stations and lack of data), so calculations for
designing earthquake resistant structures can be seriously affected. A crucial parameter
in calculating the b value is the minimum magnitude of completeness (Mc). There are
several methods for calculating this parameter, the most robust are the "entire
magnitude range method (EMR) " and the "best combination method (BC)", which are
addressed in this paper. In this study we present results of a linear regression analysis to
evaluate the behavior of the methods. Because the EMR method requires more
computation time, we expect to find a linear relationship to explain its variability
depending on the random regressor, in this case, the result of the BC method. We intend
to show the advantages and possible causes of systematic error if BC method is used in
place of EMR. As an additional point of research, we talk about the seismicity in
northeastern Mexico, in order to motivate students and researchers to perform detailed
studies in this area.
Capítulo 1
Ernesto López
1.‐ INTRODUCCIÓN
1.1.‐ GENERALIDADES
La estadística asume un papel importante dentro del campo de ciencias de la Tierra,
debido a que en muchos casos los parámetros de interés no pueden o fue imposible
evaluarlos de forma determinista por la complejidad del planeta. Por consiguiente, ésta
herramienta es fundamental tanto para modelar datos, interpretar información y hasta
predecir fenómenos. Una técnica estadística utilizada frecuentemente es el análisis de
regresión lineal, se podría decir que hasta es la más utilizada, debido a que los modelos
lineales son una explicación simplificada de la realidad, mucho más ágil y con un soporte
teórico por parte de la matemática y la estadística mucho más extenso a los que se
puede recurrir para simular diferentes procesos, si cumplen con algunas condiciones.
El análisis de regresión es una técnica estadística para investigar y modelar la
relación entre variables. Las aplicaciones son múltiples, ya que existen en casi cualquier
campo, incluyendo ingeniería, ciencias físicas y químicas, economía, administración,
ciencias biológicas y en las ciencias sociales.
El término regresión fue utilizado por primera vez en un estudio realizado por
Francis Galton sobre variables antropométricas en 1889, al comparar la estatura de
padres e hijos, resultó que los hijos cuyos padres tenían una estatura superior al valor
medio tendían a igualarse a este; mientras que aquellos cuyos padres eran muy bajos,
tendían a reducir su diferencia respecto a la estatura media; es decir, “regresaban” al
promedio. El término lineal es utilizado para distinguir de las demás técnicas de
regresión, que emplean modelos basados en cualquier función matemática, como por
ejemplo cuadráticas, cúbicas, exponenciales, etc.
Capítulo 1
Ernesto López
Uno de los métodos más empleados para definir el modelo (ecuación lineal) de
regresión es el método de mínimos cuadrados, él cual fue propuesto por Legendre en
1805 y Gauss en 1809. El termino “mínimos cuadrados” proviene de la descripción dada
por Legendre “moindres carrés”. Como se mencionó, ésta técnica tiene múltiples usos
dentro del campo científico, y en sismología su uso es muy extenso.
El término sismología proviene del griego “seismos” (terremoto) y “logia” (estudio
de). El estudio de los terremotos se puede enfocar principalmente a tres aspectos: (a) la
fuente sísmica, (b) trayectoria de las ondas y (c) los efectos en la superficie, mejor
conocidos como la respuesta del sitio. De acuerdo con los efectos experimentados a lo
largo de tiempo, existen regiones o áreas donde se han realizado diversos estudios de
detalle para entender los tres aspectos mencionados anteriormente, ejemplos de esto
son: la Ciudad de México, Los Ángeles, San Francisco en los EE.UU., Kobe en Japón; así
como otras ciudades importantes ubicadas dentro del llamado Cinturón de Fuego que
corresponde a las fronteras de las placas tectónicas en donde es preponderante el
proceso de subducción y que se encuentran circundando el Océano Pacífico,
principalmente. Una de las características de estos estudios ha sido la de analizar y
cuantificar la respuesta sísmica y daños asociados a terremotos que se han presentado.
Sin embargo, es todavía poco el trabajo realizado en torno a las variaciones estadísticas e
incertidumbres en parámetros tales como la energía liberada, las distribuciones fractales
y el esfuerzo.
1.2.‐ ANTECEDENTES
En la Sismología, un tema central es la evaluación del impacto de los sismos en la
vida humana, por lo tanto, es preponderante tener una estimación del riesgo sísmico
para todas las regiones de un país. La estadística es una herramienta indispensable, tanto
para hacer un estimado de ocurrencia de eventos en el tiempo como para proponer
posibles periodos de recurrencia, y para efectuar modelaciones. Pero debido a la falta de
datos por carencia de estaciones sísmicas, estas predicciones están sujetas a grandes
Capítulo 1
Ernesto López
incertidumbres; sin embargo, dentro de cierto grado de confianza (acotados con
métodos estadísticos, e información de catálogos sísmicos y geológicos) pueden llegar a
ser aceptables. Por ejemplo, zonas consideradas asísmicas erróneamente, pueden
repercutir en los cálculos estadísticos sobre la posible ocurrencia de un evento, debido a
que no se cuenta con un control real de la actividad histórica, por ausencia de redes
sísmicas en la zona. Debido a estudios recientes, a partir de datos de catálogos de
sismicidad bastante completos (Servicio Sismológico Nacional, Nacional Earthquake
Information Center de los E.U., Internacional Seismological Centre en el R.U., etc.) se han
podido hacer observaciones sobre el comportamiento de los sismos, y con esto
desarrollar diferentes metodologías confiables para el cálculo de predicción y riesgo
sísmico.
La importancia del pronóstico de terremotos recae en la necesidad de reducir el
riesgo de estos eventos naturales vía la construcción de edificios más resistentes, a partir
de identificar regiones propensas a temblores y la estimación de la ocurrencia de estos y
los efectos podrían generar (Stein y Wysession, 2003). En general se considera una
predicción sísmica formal a aquélla en la que se indica el tiempo, sitio (con la
profundidad) y la dimensión (magnitud) del evento por ocurrir, incluyendo con todos
estos parámetros una indicación del error o la incertidumbre en cada valor dado. El
tiempo de ocurrencia se proporciona como un intervalo en el que exista la probabilidad
de que suceda un evento y se deben especificar los métodos empleados como la
justificación de los mismos (Zúñiga, 1991).
Es de gran importancia profundizar sobre el tema de predicción sísmica, debido a
que es sabido lo devastadores que pueden ser estos fenómenos y de todas las vidas que
puede costar no alertar a la población; casos recientes Haití y Chile en 2010. Por lo que es
una prioridad para los sismólogos realizar estimaciones adecuadas de la ocurrencia de
sismos para evaluar el peligro asociado en zonas susceptibles a estos eventos.
Capítulo 1
Ernesto López
Para hacer una estimación aceptable sobre predicción sísmica es necesario conocer
de manera detallada el entorno sismotectónico, la dinámica de deformación existente y a
partir de esto estimar el tiempo necesario en el cual la acumulación de esfuerzos
sobrepase el limite de fricción causando rompimientos en la corteza con magnitudes
significativas capaces de causar severos daños a centros urbanos. Esto se lleva a cabo a
través de estudios determinísticos, es decir, realizar un estudio concentrándose en el
mecanismo físico del evento, tratando de determinar todos y cada uno de los parámetros
involucrados en él, de manera que al conocer el fenómeno a fondo se pueda determinar
la ocurrencia futura. Pero debido a la complejidad de la estructura interna del planeta
puede no ser viable el predecir con una incertidumbre baja a los eventos sísmicos de
manera global (Zúñiga, 1991).
A causa de este problema, la herramienta más utilizada y aceptada es la estadística,
en particular el análisis probabilístico; es decir, la probabilidad de ocurrencia de un
evento. Ésta se establece tratando al fenómeno como una serie de ocurrencias de
eventos en el tiempo y sus características con una distribución a determinarse.
Se sabe que existen ciertos parámetros observables con un posible carácter
predictivo; en cuanto al proceso físico de un sismo, ciertos fenómenos relacionados con
el esfuerzo al que están sometidas las rocas pueden ser observados y algunos medidos
antes de la ocurrencia del terremoto, a éstos se les conocen como fenómenos
precursores. Ejemplos de éstos son: cambios en el campo eléctrico natural de las rocas,
variaciones en el nivel de agua de pozos, anormalidades en el comportamiento animal,
cambios en las emanaciones naturales de diversos gases tales como el radón,
deformación de la corteza (medida de distintas formas, incluyendo variaciones en la
aceleración de la gravedad en la zona), variaciones de temperatura en aguas
subterráneas, cambios en la coloración infrarroja, etc., (Zúñiga, 1991).
Otro tipo de fenómenos que han sido de gran utilidad para evaluar la posibilidad de
una predicción, son las variaciones en espacio y tiempo de algunos fenómenos
Capítulo 1
Ernesto López
relacionados con la sismicidad de una zona de interés. Entre éstos se encuentran los
llamados patrones de sismicidad, los cuales se refieren a los cambios que pueden tener
lugar en el número y características de los sismos que normalmente ocurren en una zona,
y que se pueden presentar con anticipación a la ocurrencia de un macrosismo. Sin
embargo, el problema en este caso es determinar cuál es el nivel "normal" de actividad
sísmica.
Como es de esperarse, a lo largo del tiempo ha habido avances, pero todavía se
siguen presentando problemas debido a falta de instrumentación como también
implementación de nuevas metodologías que proporcionen resultados distintos.
Actualmente se siguen realizando estudios de predicción debido a la gran
importancia que existe respecto a este tema, con el propósito de que en un futuro,
debido a que no es posible detener la naturaleza de estos eventos ni tampoco
contrarrestar sus efectos, deje como posibilidad el prevenir a la población en zonas de
peligro causado por éstos fenómenos.
1.2.1.‐ Relación Gutenberg‐Richter
Muchos estudios de sismicidad hacen énfasis al tema de predicción, debido a su
gran importancia por el peligro que podría representar un evento fuerte en una zona
donde no se tengan medidas de prevención para una catástrofe de tal magnitud (Stein y
Wysession, 2003). Los estudios de predicción y riesgo sísmico descansan en el concepto
de autosimilitud de los sismos. Un objeto auto‐similar o auto‐semejante es en el que
todo es exacta o aproximadamente similar a una parte de si mismo (el fenómeno es igual
a todas las escalas). Éste concepto es una propiedad de los fractales que se describe
como objeto semigeométrico cuya estructura básica, fragmentada o irregular, se repite a
diferentes escalas. El término fue propuesto por el matemático Benoît Mandelbrot en
1975 y deriva del latín “fractus”, que significa quebrado o fracturado. Muchas estructuras
naturales son de tipo fractal.
Capítulo 1
Ernesto López
Esta distribución auto‐similar se presenta en forma escalada en orden descendiente
respecto a sismos grandes; es decir que para un evento de cierta magnitud mayor, habrá
otros de menor magnitud en una escala de número de eventos definida. Por ejemplo,
para un sismo de magnitud 7 habrá 10 de magnitud 5, para uno de magnitud 5 habrá 100
de magnitud 4 (si se tiene un exponente de escalamiento igual a 1.0), y así sucesivamente
debido a que el escalamiento aumenta exponencialmente; es decir, una ley de
escalamiento o de potencias que de forma matemática es llamada “ZipF” (Per Bak, 1996).
1.2.1.1.‐ ¿Qué es el valor b?
El proceso auto‐similar de la distribución de los sismos queda definido en la relación
Gutenberg‐Richter (1944; G‐R) ó Ishimoto‐Ida (1939) dependiendo la región. Ésta
relación representa a un escalamiento de eventos con respecto a sus magnitudes. La
ecuación G‐R esta representada por:
bMaLogN −= (1)
Donde N es el número de eventos acumulados en una región para una ventana de
tiempo específica con magnitudes iguales o mayores a M . La constante b o “valor b ” es
la pendiente de la distribución de los sismos en escala logarítmica de la distribución G‐R,
(se puede considerar como el exponente de escalamiento en la ley de potencias), la cual
se ha demostrado que tiene una relación directa con el esfuerzo promedio para una
región en particular, o puede también verse como una forma de cuantificar el tamaño
promedio de las rupturas (Wiemer y Wyss, 2002). El valor b generalmente es cercano a 1
(Zúñiga y Wyss, 2001). Valores de b >1 se relacionan con una concentración de esfuerzos
menores (Zúñiga y Wyss, 2001; Wiemer y Wyss 1997) y viceversa. La constante a es una
medida del nivel de sismicidad o productividad sísmica de la región (Kossobokov et al,
2000), matemáticamente expresa el logaritmo del número de sismos con magnitudes
mayores a cero, es decir, el total esperado de eventos en la región si se extrapola la
relación hasta las magnitudes más pequeñas.
Capítulo 1
Ernesto López
En la figura 1, se observa gráficamente la relación G‐R con un valor b =1.
Teóricamente la distribución de los sismos debería verse de esta forma; es decir una
relación logarítmica lineal.
Figura 1: Relación G‐R ideal.
Pero debido a la falta de datos de sismos pequeños (por ausencia de redes) y por la
poca ocurrencia de sismos grandes, la distribución de los sismos pequeños tiende a
converger en un punto determinado y los grandes a desestabilizar la parte lineal. Esto es
presentado en la figura 2.
Figura 2: Relación G‐R como se presenta normalmente.
Capítulo 1
Ernesto López
En la cual se observa un nuevo parámetro; éste es conocido como la magnitud
mínima de completitud Mc debido a que es la magnitud a partir de la cual el catálogo se
puede considerar completo (incluye todos los eventos ocurridos para esa magnitud y
mayores) y a partir de ahí se corta éste para encontrar la parte lineal que satisfaga a la
relación G‐R. Los sismos que se encuentran encerrados con círculos rojos en la parte
inferior derecha y superior izquierda representan los sismos de magnitudes mayores y
menores respectivamente, en los cuales se observa que estos eventos desestabilizan la
parte lineal. Lo anterior se debe a que sismos de magnitudes grandes ocurren de forma
menos frecuente que los de magnitudes pequeñas y éstos no alcanzan a ser detectados.
Sin embargo, teóricamente considerando una ventana de tiempo grande y contando con
una gran red de estaciones sismológicas capaces de detectar eventos pequeños, estos
eventos deberían ajustarse de forma lineal, desafortunadamente en estas fechas no es
posible.
Existe otro problema que afecta la linealidad de los eventos, se refiere a ciertos
eventos poco estudiados llamados “sismos caracteristicos”. Estos eventos son sismos de
una magnitud preferencial que ocurren más frecuentemente de lo previsto por la
relación G‐R. En la figura 3 se muestran estos eventos encerrados con un circulo rojo.
Figura 3: Visualización de sismos característicos.
Capítulo 1
Ernesto López
Este tipo de eventos afectan el cálculo del valor b y se ha observado que aún y
cuando se toma en cuenta una ventana de tiempo grande, se siguen presentando.
Debido a esto, se han propuesto modelos en los cuales se tome en cuenta este tipo de
fenómenos, pero la validez de dichos modelos siguen siendo no aprobados (Zoller, 2008).
A nivel teórico el concepto de auto‐similitud conlleva a que el resultado del valor b
debería ser estable a nivel regional una vez que se considere un intervalo de tiempo que
incluya una muestra suficientemente completa de posibles ocurrencias de eventos de
todas las magnitudes. De otra forma, el valor b estimado a partir de un tiempo suficiente
(un catálogo completo), no debería cambiar al aumentar el tamaño del catálogo con el
tiempo. Pero el cálculo del valor b depende de muchos factores (falta de datos,
catálogos erróneos, etc.), lo que da lugar a que la incertidumbre sea difícil de evaluar.
1.2.1.2.‐ ¿Cómo se mide el valor b?
Existen dos formas para calcular este parámetro.
1.‐ Ajuste de mínimos cuadrados.
2.‐ Máxima verosimilitud.
Figura 4: Cálculo del valor b mediante mínimos cuadrados
Capítulo 1
Ernesto López
En la figura 4 se presenta el cálculo por mínimos cuadrados. Esta forma de calcular
el parámetro tiene como ventajas el control visual de la variación con pequeños ajustes,
pero presenta como principales desventajas la identificación del rango lineal y las
variaciones en la linealidad.
La otra forma de calcular este parámetro es mediante la relación propuesta por Aki
(1965) quien la determinó siguiendo el principio de Máxima Verosimilitud o Máxima
Posibilidad, que es expresada en la siguiente ecuación:
[ ])2/()(log10
binMMcMe
bΔ−−
= (1.1)
En donde se representa el número de Euler e , la magnitud promedio M , la
magnitud mínima de completitud o de corte Mc y binMΔ es la dimensión del intervalo
mínimo de magnitud (lo más común es que sea igual a 0.1).
Ahora bien, ésta forma de calcular el valor b es más confiable que la forma del
ajuste lineal y tiene como principal ventaja el cálculo sistemático y objetivo del valor,
pero sus desventajas consisten en que depende de la magnitud promedio M y de la
magnitud mínima de completitud Mc . Ésta última representa un parámetro crucial para
el cálculo del valor b .
Existen varios métodos para el cálculo de dicho parámetro, entre los más robustos
se encuentran el “Método de rango total de magnitudes (EMR)” y el “Método de mejor
combinación (BC)”, los cuales son abordados en el presente trabajo.
En la figura 5 se resume el método llamado EMR (Woessner y Wiemer, 2005), en el
cual por debajo de la magnitud Mc se usa la probabilidad de que una red detecte un
evento de cierta magnitud y por arriba de Mc se usa la ley de potencias con máxima
Capítulo 1
Ernesto López
verosimilitud. Es el método más confiable, pero su procesamiento podría tardar varias
horas para un catálogo extenso.
Figura 5: Cálculo de Mc con el método EMR.
Capítulo 1
Ernesto López
En la figura 6 se observa otra forma para el cálculo de Mc , que es mediante el
método de máxima curvatura MAXC o BC (Best Combination) (Wiemer y Wyss, 2000).
Este método se basa en encontrar la Mc como el valor máximo de la primera derivada
de la distribución. Es bastante rápido debido a que calcula este parámetro en cuestión
de minutos y confiable ya que posee %95+M de ajuste lineal, pero puede tener
problemas cuando se trata de distribuciones que muestran una curva suave.
Figura 6: Cálculo de Mc con el método BC
Capítulo 1
Ernesto López
Los métodos antes presentados son a los que se enfocará éste trabajo, aunque
existen otros métodos para el cálculo de éste parámetro. Entre ellos están el método de
Bondad de Ajuste a la Distribución Frecuencia‐Magnitud GFT (Wiemer y Wyss 2000;
Kagan 2003), y el método de Estabilidad del valor b contra Mc (Cao y Gao, 2002;
Marsan, 2003), que han mostrado ser menos confiables para todo tipo de datos
(Woessner y Wiemer, 2005).
Los métodos EMR y BC al parecer presentan una correlación en cuanto al cálculo
de la magnitud mínima de completitud Mc y por consiguiente el cálculo del valor b . Por
esta razón se abordan estos métodos en éste trabajo.
1.2.2.‐ Trabajos previos
En el pasado, se ha estudiado la sismicidad caracterizando zonas en particular.
Considerándolas de manera independiente se han descuidado otros argumentos, como
detalles de la fuente sísmica o características de la energía liberada por eventos mayores.
Los catálogos sísmicos utilizados para caracterizar éstas zonas sismogénicas carecen
de homogeneidad y distan mucho de ser catálogos completos en el intervalo de
magnitudes consideradas en ingeniería. Adicionalmente las diferentes consideraciones
para determinar las magnitudes pueden inducir sesgos en las estimaciones de riesgo
sísmico, por lo que es necesario realizar correcciones de magnitud.
En la figura 7 se observa el mapa sismotectónico de México propuesto por la
Comisión Federal de Electricidad (CFE), en el cual se divide el país en 4 secciones.
Capítulo 1
Ernesto López
Figura 7: Regionalización sísmica de México
Donde la zona A es aquella donde no se tienen registros históricos de sismos y
donde las aceleraciones del terreno se esperan menores al 10% de g. En la zona D
ocurren con frecuencia temblores de gran magnitud (M > 7) y las aceleraciones del
terreno pueden ser superiores al 70% de g. Los niveles de sismicidad y de aceleración
propios de las zonas B y C están acotados por los valores correspondientes de A y D, los
temblores grandes son poco frecuentes (Zúñiga y Guzmán, 1994).
En la mayoría de los trabajos de sismicidad relacionados a predicción se ha
discutido sobre la variabilidad del valor b tanto en escala local como regional; Zúñiga,
Figueroa y Suárez et al., (2009) discuten sobre esta variación y su relación para actualizar
la regionalización sismotectónica de México con fines de riesgo sísmico en México, ellos
discuten además que son pocos lo trabajos donde se ha enfocado el estudio de la
variabilidad del valor b con el tiempo.
La figura 8 presenta un estudio posterior teniendo como base el valor b , en el cual
se da una mejor perspectiva acerca de la sismicidad presente en nuestro país, debido a
que éste parámetro muestra las diferentes características de las regiones definidas,
Capítulo 1
Ernesto López
utilizando diferentes métodos para su determinación y comparando los resultados con
las observaciones de sismos grandes para cada región delimitada.
Figura 8: Mapa sismotectónico de México (Zúñiga, Figueroa y Suárez, 2009).
Donde:
SUB1.‐ Eventos de subducción someros (h < 40 km) relacionados a acoplamiento
intermedio. Zona de transición entre la convergencia placas Rivera ‐ Norte América y la
convergencia de las placas de Cocos y Norte América. SUB2.‐ Eventos de subducción
someros (h < 40 km) relacionados a un fuerte acoplamiento. Convergencia de las placas
de Cocos ‐ Norte América. SUB3.‐ Eventos de subducción someros (h < 40 km)
relacionados a un fuerte acoplamiento. Zona de transición en la convergencia de las
placas de Cocos ‐ Norte América. SUB4.‐ Eventos de subducción someros (h < 40 km)
relacionados a un fuerte acoplamiento. Convergencia de las placas de Cocos ‐ Caribe.
IN1.‐ Eventos intra‐placa de profundidad intermedia (40 km _ h < 180 km) para la zona de
la placa de Cocos. Extensión en profundidad de la zona SUB2. IN2.‐Eventos intra‐placa de
profundidad intermedia (40 km _ h < 255 km). Zona de transición de la Placa de Cocos.
IN3.‐ Eventos intra‐placa de profundidad intermedia (40 km _ h < 460 km) para la zona de
Capítulo 1
Ernesto López
la placa de Cocos. Extension en profundidad de la zona SUB4. MVB.‐ Eventos intra‐placa
someros (placa Norte América) (h < 15 km) en la zona de México Central. Provincia de la
Faja Volcánica Trans Mexicana. NAM.‐ Eventos intra‐placa someros (placa Norte América)
(h < 15 km) en la zona Sur este de México. No relacionada al régimen volcánico de la
provincia MVB. BC1.‐ Eventos intra‐placa someros (placa del Pacífico) (h < 20 km). Baja
California. BC2.‐ Eventos Intra‐placa (placas Pacifico‐Norte América) someros (h < 15 km)
. Golfo de baja California región de California. SMO.‐ Eventos intra‐placa (placa Norte
América) someros (h < 20 km). Provincia de la Sierra Madre. BAR.‐ Eventos intra‐placa
(placa Norte América) someros (h < 15 km). Posible extensión de la provincias de “Basin
and Range” del rift Río Grande. BB.‐ Eventos intra‐placa (Norte América) someros (h < 15
km). Provincia de la cuenca de Burgos. RIV1.‐ Eventos someros (h < 15 km) inter‐placa.
Interfaz de fallamiento normal Pacífico‐Rivera. RIV2.‐ Eventos someros (h < 15 km) inter‐
placa. Interfaz de fallamiento Strike‐slip Pacifico‐Rivera. RIV3.‐ Eventos someros (h < 15
km) inter‐placa. Acoplamiento débil en la convergencia de las placas Rivera‐Norte
América. GMX.‐ Eventos someros intra‐placa (Norte América) (h < 20 km). Provincia del
Golfo de México. NAL.‐ Sismicidad escasa, zona de fallamiento somero.
Con lo anterior es claramente observable que el valor b aporta mejor perspectiva a
la sismicidad en el territorio estudiado y puede ofrecer una confianza significativa
respecto a futuros pronósticos de eventos que podrían afectar las actividades y hasta la
vida de la población.
1.2.2.‐ El valor b en el noreste de México
El noreste de México durante mucho tiempo se consideró como una zona asísmica.
Sin embargo, existen provincias en las cuales los esfuerzos acumulados son capaces de
provocar eventos tanto pequeños como medianos e incluso algunos muy fuertes, si bien
poco frecuentes en comparación con las demás regiones de México.
Capítulo 1
Ernesto López
Las provincias que prevalecen al noreste de México son: la Cuenca de Burgos, el Rift
de Río Grande, La Sierra Madre Oriental y la Llanura Costera del Golfo, que abarcan los
estados de Nuevo León, Coahuila, Zacatecas, San Luis Potosí, Chihuahua, Durango,
Tamaulipas y el sur de Texas.
Se usó una compilación de eventos históricos para ésta zona (Galván y Montalvo,
2008) y datos del Servicio Sismológico nacional (SSN), con el propósito de armar un
catálogo lo más completo posible que arroje resultados confiables (estadísticamente)
sobre la sismicidad actual teniendo como base la sismicidad histórica.
En la figura 9 se presenta el catálogo del SSN, agregando los datos históricos. En la
cual se hace énfasis al noreste de México encerrado en un polígono de círculos rojos.
Todos los eventos dentro de él fueron utilizados para el cálculo.
Figura 9: Catálogo de México (SSM) con los datos agregados de la compilación histórica.
Capítulo 1
Ernesto López
En la figura 10 se observa de forma clara la sismicidad del noreste de México, que
abarca fechas desde 1922 hasta el 2008. El cálculo del valor b de todos los eventos sin
hacer restricciones en profundidad es de 0.84. En la figura 11 se presenta la relación G‐R
para esta zona.
Figura 10: Sismicidad en el noreste de México.
Capítulo 1
Ernesto López
Figura 11: Relación G‐R para el noreste de México sin restricciones (b=0.84).
Sin embargo, es necesario hacer un análisis de forma mas detallada para obtener
una mejor perspectiva de la sismicidad presente y pasada; es decir, de cómo se ha
comportado el valor b en el tiempo. En la figura 12 se muestra el análisis contra el
tiempo en sentido contrario con respecto al tiempo (esta metodología se explicará mas
adelante). Se observa en ésta figura que el resultado del valor b está en el limite entre lo
menos confiable y lo que a simple vista parece estable (1987). La estabilidad observada
no es confiable, debido a que este cálculo se hizo sin hacer restricciones de profundidad
y de tiempo, lo cual puede repercutir en los resultados. Aunque se puede observar un
gran período de estabilidad, el valor determinado para ese periodo es de 0.2 lo cual es
erróneo ya que esto indicaría que la sismicidad en esta zona es sumamente intensa y
esto se debe a los problemas instrumentales de detección en fechas antiguas.
Capítulo 1
Ernesto López
Figura 12: Relación G‐R para el noreste de México sin restricciones (b=0.84).
Entonces un recálculo es presentado en la figura 13, ahora haciendo restricciones
(fechas a partir de 1988 y profundidades menores a 15 km) para un mejor resultado.
Capítulo 1
Ernesto López
Figura 13: Relación G‐R para el noreste de México con restricciones (b=0.88).
En la figura 13 no se observa mucha variación ( 88.0=b ) con respecto al resultado
obtenido con la figura 11 para los tiempos modernos, sin embargo se considera que este
resultado es más confiable debido a que se hicieron restricciones que redujeron el grado
de error. Este valor b , se presenta en la figura 12 aproximadamente entre las fechas de
1988 y 1989.
Para calcular un estimado de recurrencia o retorno de eventos es de primordial
importancia conocer las constantes a y b de la relación G‐R, las cuales indicaran el
escalamiento de los eventos. Conociendo éste parámetro y la ventana de tiempo en la
cual se estimaron las constantes, es posible calcular el tiempo de retorno de eventos
mayores a la magnitud que seleccionemos.
Los eventos mayores son los más preocupantes y por lo tanto a los que se les da
más atención. Para esta zona, los sismos mayores tienen una magnitud alrededor de 4.
Por lo tanto, se estima el periodo de recurrencia de eventos mayores a esta magnitud. En
Capítulo 1
Ernesto López
la figura 14 se muestra una pequeña interfase creada en MATLAB para el software ZMAP
(desarrollado por Zúñiga y Figueroa, 2008), la cual calcula el periodo de recurrencia de
eventos.
Figura 14: Interfase para recurrencia sísmica.
La interfase sólo tiene como entrada el valor b , el valor a , la ventana de tiempo y
la magnitud de la cual se quiere calcular la recurrencia. Implícitamente el programa
encuentra el número de eventos con la relación G‐R y posteriormente evalúa el
resultado para hacer el cálculo. Para este caso se sustituyen las constantes en la ecuación
( )MbaN *10 −=
( ) 1623.310 4*89.006.4 == −N
lo cual proporciona el número de eventos para M≥4 estimados para ese intervalo de
tiempo, por lo que sólo se requiere su inverso para saber el tiempo esperado por evento:
Capítulo 1
Ernesto López
x1
038.191623.3
=
0206.6=x
El resultado indica que eventos de magnitudes mayores a 4 ocurrirían en el noreste
de México cada 6 años aproximadamente (tasa de Poisson).
El noreste de México, asi como varias otras regiones, no es considerado a últimos
tiempos una zona asísmica debido a que las fallas en la región son activas y capaces de
provocar considerables daños si no se cuenta con las medidas necesarias. El valor b <1 es
una evidencia de lo anterior e indica una acumulación de esfuerzos lo suficientemente
grande para cambiar la perspectiva de lo que se pensaba de esta zona, a pesar de que la
frecuencia de ocurrencia de eventos mayores es mucho menor que lo que experimentan
otras zona del país, como la costa del Pacífico.
1.3.‐ OBJETIVOS
El objetivo principal de este trabajo es el de encontrar si existe la correlación entre
los métodos EMR y BC mediante un análisis de regresión lineal.
Se pretende mostrar las ventajas y posibles causas de error sistemático si se emplea el
método BC en sustitución del EMR.
1.4.‐ METAS
Profundizar en el análisis de regresión para de este modo llegar a un resultado
suficientemente confiable.
Capítulo 1
Ernesto López
Elaborar una función en MATLAB con la cual realizar los cálculos necesarios para
este estudio, y posteriormente aplicarla a futuros trabajos en que se requiera su
implementación.
2.‐ PROBLEMÁTICA
Si bien, el concepto de auto‐similitud a nivel teórico dice que el valor b debería ser
constante al considerar un intervalo de tiempo en el cual se incluyan eventos suficientes de
todas las magnitudes; es por esto que, al considerar un valor b constante y observando la
similitud de los resultados calculados por los métodos EMR y BC se podrá medir el grado de
correlación entre ambos dependiendo de la variación que tengan con respecto al valor b .
2.1.‐ ¿PORQUE ESTOS DOS METODOS?
Debido a que estos métodos son los más robustos y calculan Mc con mayor
precisión. El método EMR es el más confiable pero requiere mucho tiempo de cómputo y
el método BC es mas rápido, confiable para todo tamaño de muestra.
Comparando ambos métodos con datos de catálogos sintéticos con 1=Mc contra
el tamaño de muestra se aprecia que si existe esa correlación aparente. En la figura 12 se
observa dicha correlación, y se alcanza a percibir una subestimación sistemática de
aproximadamente 0.1.
Figura 15: Comparación de Metodologías contra el tamaño de la muestra.
Catálogo sintético con valor Mc = 1 (Woessner y Wiemer, 2005)
Capítulo 1
Ernesto López
3.‐ HIPÓTESIS
Podemos utilizar el método BC + una corrección para simular los resultados del
método EMR.
Corrección propuesta:
0.2EMR BCb b= +
Woessner y Wiemer (2005)
Sin embargo, quedan la preguntas: ¿la correlación funcionará para todo el catálogo
y para todos los catálogos?, ¿Cuáles son las ventajas y posibles causas de un error
sistemático si se usa el método BC en lugar del EMR?
4.‐ DATOS Y METODOLOGÍA
Para este trabajo se cuenta con catálogos sismológicos de México, Italia y Nueva
Zelanda compilados por el International Seismological Centre (ISC).
Los datos con los que se dispone son valores b calculados con el software ZMAP
(Zúñiga 1994 y Wiemer 2001). ZMAP es una serie de subrutinas programadas en MATLAB
para análisis sistemático de datos de sismicidad y catálogos sísmicos.
El catálogo sismológico de nuestro país tiene registrados datos de eventos desde
1964 al 2008 para mb y de 1978 al 2008 para Ms ; de igual manera se cuenta con el
catálogo de Italia con datos desde la fecha de 1964 al 2008 para mb y de 1978 al 2008
para Ms ; así como de Nueva Zelanda desde 1978 al 2007 para mb y de 1978 al 2006
para .Ms Donde, mb y Ms son magnitudes para ondas de cuerpo y superficiales,
respectivamente.
Con estos eventos se da inicio al cálculo del valor b con ZMAP, resaltando el uso de
los métodos EMR y BC debido a que estos son a los que aborda este trabajo.
Capítulo 1
Ernesto López
En la figura 16 se presenta la ventana de inicio de ZMAP, en la cual es posible
proporcionar parámetros para el análisis del catálogo.
Para el cálculo de los datos del valor b , el catálogo de sismicidad se revisa para
evitar cambios drásticos analizando las curvas de número acumulado de eventos contra
tiempo. Se escoge un tiempo inicial y después se estima Mc con EMR y BC, y sus
incertidumbres por medio de un procedimiento boot strap. El catálogo se corta en Mc y
se calcula el valor b con máxima verosimilitud.
Figura 16: Ventana inicial de control del catálogo. EQs in catalog (eventos en el catálogo), Plot Big Event with M> (grafica eventos grandes con un símbolo en particular), Bin Length in days (duración en días entre eventos), Beginning year (fecha de inicio de eventos), Ending year (fecha final de eventos), Minimum Magnitude (magnitud mínima considerada), Maximum Magnitude (magnitud máxima considerada), Min Depth (mínima profundidad considerada), Max Depth (máxima profundidad considerada).
Capítulo 1
Ernesto López
El catálogo se aumenta en un año a partir de la fecha más antigua confiable y el
proceso se repite (forward sense). Después se efectúa el mismo procedimiento pero en
sentido contrario, a partir de la fecha más reciente (reverse sense).
Pero debido a que la instrumentación en épocas antiguas era menos confiable, es
probable que se muestre más grado de incertidumbre con respecto a los datos recientes.
En la figura 17 se observa ejemplos del proceso hacia adelante (forward sense) y
hacia atrás (reverse sense), esto aporta una perspectiva clara respecto a la confiabilidad
de los cálculos.
Figura 17: Dirección de incremento del catálogo (forward sense, arriba) (reverse sense, abajo), Italia Ms.
Se ha propuesto que es mejor efectuar el análisis en tiempo de los datos más
recientes y no de la forma usual (de los más antiguos hacia los más recientes), porque de
esta forma siempre se incluye la mayor calidad de información, aunque el efectuar el
análisis de ambas formas podría dar un mayor sustento a las conclusiones.
Capítulo 1
Ernesto López
Entonces, por lo mencionado anteriormente para este trabajo se utilizó el sentido
hacia atrás (reverse sense), para mayor confiabilidad de los datos.
En la figura 18, se compara los datos del catálogo de México de EMR contra BC
haciendo el análisis de tiempo a partir de los datos más recientes. Se observa que existe
una correlación entre ambos métodos, aunque no es posible confiar en todo el catálogo
ya que no se preserva a lo largo de él, solamente en algunas secciones (parte plana),
debido a la incertidumbre de las fechas más antiguas.
Figura 18: Comparación del método BC (arriba) contra el método EMR (abajo).
La incertidumbre observada en la figura anterior da sustento a que el método EMR
es más confiable que el BC y debido a que tienen una tendencia similar de valores b
pueden ser correlacionados y así encontrar una relación lineal entre ambos.
Capítulo 1
Ernesto López
El periodo de mínima incertidumbre es fácil de observar, se esperaría que estuviese
en años recientes por la mejor calidad de información, sin embargo no siempre es así por
razones variadas que no pueden ser generalizadas, aunque en la mayoría de los catálogos
muestran su mejor correlación en la parte mas reciente.
La figura 19 muestra ésta zona de mínima incertidumbre de los métodos para el
catálogo de México, en la cual se observa que existe una correlación a simple vista.
Figura 19: Correlación de ambos métodos para mejor identificación de la parte plana.
Con lo anterior se da inicio al análisis de regresión, en el cual se intentará encontrar
la correlación entre los métodos y así poder llegar a la corrección esperada.
Capítulo 1
Ernesto López
4.1.‐ REGRESIÓN LINEAL SIMPLE
El modelo empleado es el de regresión lineal simple. Este modelo consiste en un
solo regresor x que tiene una relación con respuesta y , donde la relación es una línea
recta. Este modelo de regresión lineal simple es
+= 0βy 1β x ε+ (4)
donde la ordenada en el origen 0β y la pendiente 1β son constantes desconocidas, y ε
es un componente aleatorio de error. Se supone que los errores tienen promedio cero y
varianza 2σ desconocida. Además, se suele suponer que los errores no están
correlacionados. Esto quiere decir que el valor de un error no depende del valor de
cualquier otro error.
Aclarando desde luego que, se espera una respuesta y en función de x , esto es la
respuesta del método EMR en función del BC, lo cual se podría escribir de la siguiente
forma:
εββ ++= BCEMR 10 (4.1)
Se considera que el regresor x esta controlado por el analista de datos, y se puede
medir con un error despreciable, mientras que la respuesta y es una variable aleatoria.
Con lo que existe una distribución de probabilidades de y para cada valor posible de x .
La media de esta distribución es
E ( )0
| β=xy + 1β x (4.2)
como se muestra en la figura 20
Capítulo 1
Ernesto López
Figura 20: Distribuciones de y para valores dados de x . Modelo homocedastico (varianzas iguales).
y la varianza es
Var ( )xy | = Var ( ) 210 σεββ =++ x (4.3)
Como se observa en la figura 20, para cada valor dado de x hay una distribución
de probabilidades de y . En el análisis de regresión lineal simple, suponemos que los
valores de x son constantes, no valores de variables aleatorias, y que para cada valor de
x la variable que se debe pronosticar, y , presenta una distribución normal. Nótese que
las medias de todas las distribuciones de la figura 20 caen en la línea de regresión real
E ( )0
| β=xy + 1β x . Además, se suele considerar en el análisis de regresión lineal simple
que la varianza es constante, es decir que presenta homocedasticidad.
Así, la media de y es una función lineal de x , aunque la varianza de y no depende
del valor de x . Además, como los errores no están correlacionados, las respuestas
tampoco lo están.
Capítulo 1
Ernesto López
A los parámetros 0β y 1β se les suele llamar coeficientes de regresión. La
pendiente 1β es el cambio de la media de la distribución de y producido por un cambio
unitario en x . Si el intervalo de los datos incluye a 0=x , entonces la ordenada al origen
0β es la media de la distribución de la respuesta y cuando 0=x . Si no incluye al cero,
0β no tiene interpretación práctica.
4.1.1.‐ Estimación de 0β y 1β
Los parámetros 0β y 1β son desconocidos, y se deben estimar con los datos de la
muestra. Suponiendo que hay n pares de datos: ( 11 , xy ), ( 22 , xy ), . . . ( nn xy , ).
Para estimar 0β y 1β se usa el método de mínimos cuadrados (Legendre, 1805;
Gauss, 1809), donde al estimar dichos parámetros la suma de los cuadrados de las
diferencias (residuales) entre las observaciones iy y la recta sea mínima. Según la
ecuación (4), se puede escribir:
,10 iii xy εββ ++= i=1,2,….,n (4.4)
Se puede considerar que la ecuación (4) es un modelo poblacional de regresión,
mientas que la ecuación (4.4) es un modelo muestral de regresión. Así, el criterio de
mínimos cuadrados es:
( ) ( )∑=
−−=n
iii xyS
1
21010 , ββββ (4.5)
Capítulo 1
Ernesto López
Los estimadores, por mínimos cuadrados, de 0β y 1β , que se designaran por 0
∧
β
y 1
∧
β , deben satisfacer:
0)(2| 101,0 10
=−−−=∂∂ ∧∧
=∑∧∧ i
n
ii xyS ββ
β ββ
0)(2|1
10,1 10
=−−−=∂∂ ∑
=
∧∧
∧∧
n
iiii xxyS ββ
β ββ
Se simplifican estas dos ecuaciones y se obtiene:
∑∑==
∧∧
=+n
ii
n
ii yxn
1110 ββ
∑∑∑==
∧
=
∧
=+n
iii
n
ii
n
ii xyxx
11
21
10 ββ (4.6)
Las ecuaciones anteriores son llamadas ecuaciones normales de mínimos
cuadrados. Su solución es la siguiente:
_
1
_
0 xy∧∧
−= ββ (4.7)
n
xx
n
xyxy
n
iin
ii
n
ii
n
iin
iii
2
1
1
2
11
11
⎟⎠
⎞⎜⎝
⎛
−
⎟⎠
⎞⎜⎝
⎛⎟⎠
⎞⎜⎝
⎛
−=
∑∑
∑∑∑
=
=
==
=∧
β (4.8)
Donde _y y
_x son los promedios de iy y ix , respectivamente. Por consiguiente 0
∧
β
y 1
∧
β en las ecuaciones (4.7) y (4.8) son los estimadores por mínimos cuadrados. El
modelo ajustado de la regresión lineal simple es entonces:
∧∧∧
+= xy 10 ββ (4.9)
Capítulo 1
Ernesto López
Ahora bien, como la ecuación (4.8) es la suma corregida de los cuadrados de las ix
y el numerador es la suma corregida de los productos cruzados de ix y iy , estas
ecuaciones pueden escribirse de una forma mas compacta de esta forma:
∑∑
∑=
=
=⎟⎠⎞
⎜⎝⎛ −=
⎟⎠
⎞⎜⎝
⎛
−=n
ii
n
iin
iixx xx
n
xxS
1
2_
2
1
1
2 (4.10)
∑∑∑
∑=
==
=⎟⎠⎞
⎜⎝⎛ −=
⎟⎠
⎞⎜⎝
⎛⎟⎠
⎞⎜⎝
⎛
−=n
iii
n
ii
n
iin
iiixy xxy
n
xyxyS
1
_11
1 (4.11)
Entonces, una forma cómoda de escribir la ecuación (4.8) es:
xx
xy
SS
=∧
1β (4.12)
En la figura 21 se muestra el ajuste lineal de las observaciones ( ix , iy ).
Capítulo 1
Ernesto López
Figura 21: Regresión lineal simple.
La diferencia entre el valor observado iy y el valor ajustado correspondiente iy∧
se
llama residual; y como se mencionó anteriormente, la suma de los cuadrados de las
diferencias entre las observaciones iy y la línea recta debe ser mínima para que se
cumpla el criterio de mínimos cuadrados, o bien la suma de los cuadrados de los
residuales. Matemáticamente, el i‐ésimo residual es:
,10 ⎟⎠⎞
⎜⎝⎛ +−=−=
∧∧∧
iiii xyyye ββ i=1,2,…..,n (4.13)
Los residuales juegan un muy importante papel para investigar la adecuación del
modelo ajustado, y para detectar diferencias respecto a las hipótesis básicas.
4.1.2.‐ Estimación de 2σ
Capítulo 1
Ernesto López
Además de estimar 1β y 0β , se requiere un estimado de 2σ para probar hipótesis
y formar estimados de intervalo pertinentes al modelo de regresión. En el caso ideal este
estimado no debería depender de la adecuación del modelo ajustado, pero eso solo es
posible si tuviéramos varias observaciones de y para al menos un valor de x o cuando se
dispone de información acerca de 2σ . Cuando no se puede usar este método, el
estimado de 2σ se obtiene de la suma de cuadrados de los residuales, o suma de
cuadrados de error:
∑∑=
∧
=⎟⎠⎞
⎜⎝⎛ −==
n
iii
n
iis yyeSSr
1
2
1
2Re (4.14)
Se puede deducir una formula más cómoda para calcular sSSrRe sustituyendo
ii xy∧∧∧
+= 10 ββ en la ecuación anterior y simplificando
xy
n
iis SnyySS
∧
=
− −== ∑ 11
22Re β (4.15)
pero
T
n
ii
n
ii SSyynyy ≡⎟
⎠⎞
⎜⎝⎛ −=− ∑∑
=
−
= 1
2_2
1
2 (4.16)
Es justo la suma de cuadrados corregida de las observaciones de la respuesta, por lo
que:
xyTs SSSSS∧
−= 1Re β (4.17)
Capítulo 1
Ernesto López
La suma de los cuadrados de los residuales tiene 2−n grados de libertad, porque
los dos grados de libertad se asocian con los estimados ∧
0β y ∧
1β que se usan para
obtener ∧
iy . Por lo que el estimador insesgado de 2σ es:
ss MS
nSS
ReRe2
2=
−=
∧
σ (4.18)
Debido a que ∧
2σ depende de la suma de los cuadrados de los residuales, cualquier
violación de las hipótesis sobre los errores del modelo, o cualquier especificación
equivocada de la forma del modelo pueden dañar gravemente la utilidad de ∧
2σ como un
estimado de 2σ . Como 2σ se calcula con los residuales del modelo de regresión, se dice
que es un estimado de 2σ es dependiente del modelo.
4.1.3.‐ Pruebas de hipótesis
Con frecuencia interesa probar hipótesis y establecer intervalos de confianza de los
parámetros del modelo. Estos procedimientos requieren hacer la hipótesis adicional de
que los errores iε del modelo estén distribuidos normalmente. Así las hipótesis
completas son: que los errores estén distribuidos de forma normal e independiente, con
media 0 y varianza 2σ , lo cual se abrevia “NID(0, 2σ ). NID viene de normally and
independiently distributed (distribuido normal e independientemente).
Un procedimiento que conduce a una decisión sobre una hipótesis en particular
recibe el nombre de prueba de hipótesis. Si ésta información es consistente con la
hipótesis, se concluye que ésta es verdadera, de lo contrario se llega a la conclusión de
que es falsa. Se debe resaltar la verdad o falsedad de una hipótesis, debido a que nunca
puede conocerse con certidumbre, a menos que se examine toda la población.
Capítulo 1
Ernesto López
La hipótesis nula 0H es “la creencia a priori”, es decir la afirmación de una
característica de una población que se supone es cierta al inicio. Mientras que la
hipótesis alternativa 1H es la afirmación contradictoria a 0H . La hipótesis nula se
rechaza a favor de la alternativa o no se rachaza dependiendo de los resultados de la
prueba. Entonces, las 2 conclusiones posibles de un análisis de prueba de hipótesis son:
Rechazar o No rechazar 0H .
Sin embargo, este procedimiento de decisión puede conducirnos a 2 conclusiones
erróneas:
• Error tipo 1: se define como el rechazo de la hipótesis nula 0H cuando ésta es
verdadera.
• Error tipo 2: se define como la aceptación de la hipótesis nula 0H cuando ésta es
falsa.
El nivel de significancia ayuda a determinar la probabilidad de cometer estos tipos
de errores. A ese nivel se le denomina con la letra α para el error tipo 1 y la letra β para
el tipo 2. Por ejemplo si se tuviera un nivel de confianza de 95% entonces el nivel de
significancia seria de 5%, de igual manera para un nivel de confianza de 90% su nivel de
significancia seria de 10%.
Hay 2 tipos de pruebas de hipótesis:
1.‐ Una cola o unilateral (puede ser izquierda o derecha)
α
Figura 22: Pruebas unilaterales izquierda y derecha.
Capítulo 1
Ernesto López
2.‐ Dos colas o bilateral
α /2 α /2
Figura 23: Prueba bilateral o de dos colas
4.1.4.‐ Uso de la prueba t‐student
Supongamos que se desea probar la hipótesis que la pendiente es igual a una
constante, por ejemplo 10β . Las hipótesis correspondientes son
1010 : ββ =H
1011 : ββ ≠H (4.19)
en donde se ha especificado una alternativa bilateral. La definición del estadístico t es
xx
so
SMS
tRe
101 ββ −=
∧
(4.20)
que sigue una distribución 2−nt si es cierta la hipótesis nula 0H . La cantidad de grados de
libertad asociados a 0t es igual a la cantidad de grados de libertad asociados con sMSRe .
Así, la razón 0t es el estadístico con que se prueba 1010 : ββ =H . El procedimiento de
prueba calcula 0t y compara su valor observado de acuerdo a la ecuación (4.20) con el
punto porcentual 2/α (debido a que se especifica una alternativa bilateral) superior de
2−nt de la distribución ( 2,2/ −ntα ). Este procedimiento rechaza la hipótesis nula si
Capítulo 1
Ernesto López
2,2/0 || −> ntt α (4.21)
El denominador del estadístico 0t en la ecuación (4.20) se le llama con frecuencia el
error estándar estimado, o mas sencillamente el error estándar de la pendiente. Esto
es:
xx
s
SMS
se Re1 =⎟⎠⎞
⎜⎝⎛ ∧
β (4.22)
entonces:
⎟⎠⎞
⎜⎝⎛−
=∧
∧
1
1010
β
ββ
set (4.23)
Pero debido a que en este trabajo se requiere encontrar la relación lineal entre 2
métodos, el motivo de la prueba sería estimar si la pendiente de la recta es igual a 0.
Entonces el estadístico t quedaría definido como
⎟⎠⎞
⎜⎝⎛−
=∧
∧
1
10
0
β
β
set ∴
⎟⎠⎞
⎜⎝⎛
=∧
∧
1
10
β
β
set (4.24)
También se puede hacer lo mismo para el error estándar de la ordenada al origen:
⎟⎠⎞
⎜⎝⎛
=
⎟⎟⎠
⎞⎜⎜⎝
⎛+
=∧
∧
−
∧
0
0
2
Re
00
1 β
ββ
seSx
nMS
t
xxs
(4.25)
Capítulo 1
Ernesto López
4.1.5.‐ Prueba de significancia de regresión
Un caso muy importante de la hipótesis en la ecuación del cálculo del estadístico 0t
es el siguiente:
0:0:
11
10
≠=
ββ
HH
(4.26)
Estas hipótesis se relacionan con la significancia de regresión. El no rechazar 0H
implica que no hay relación lineal entre x y y . En cambio si se rechaza 0H , eso implica
que x si tiene valor para explicar la variabilidad de y y por lo tanto si hay relación lineal
entre x y y , y podría equivaler a que el modelo de línea recta es adecuado, o que
aunque hay un efecto lineal de x se podrían obtener mejores resultados agregando
términos polinomiales en x .
El procedimiento de prueba para 0: 10 =βH consiste tan solo en calcular el
estadístico 0t y comparar su valor observado con el punto porcentual 2/α superior de
2−nt de la distribución ( 2,2/ −ntα ).
La hipótesis de significancia de regresión se rechazaría si 2,2/0 || −> ntt α .
4.1.6.‐ Análisis de varianza
También se puede usar el método de análisis de varianza para probar el significado
de la regresión. Este análisis se basa en una partición de la variabilidad total de la variable
y de respuesta. Para obtener esta partición se comienza con la identidad
Capítulo 1
Ernesto López
⎟⎠⎞
⎜⎝⎛ −−⎟
⎠⎞
⎜⎝⎛ −=−
∧∧
iiii yyyyyy__
(4.27)
Se elevan los términos al cuadrado y se suma para todas las n observaciones
∑ ∑ ∑= = =
∧∧
⎟⎠⎞
⎜⎝⎛ −+⎟
⎠⎞
⎜⎝⎛ −=⎟
⎠⎞
⎜⎝⎛ −
n
i
n
i
n
iiiiiii yyyyyy
1 1 1
22_2_
(4.28)
El lado izquierdo de la ecuación (4.28) es la suma corregida de cuadrados de las
observaciones TSS , que mide la variabilidad total en las observaciones. Los dos
componentes de TSS miden, respectivamente la cantidad de variabilidad en las
observaciones iy explicada por la línea de regresión, y la variación residual queda sin
explicar por la línea de regresión.
Se observa que ∑=
∧
−=n
iiis yySS
1
2Re )( es la suma de los cuadrados de los residuales
o suma de los cuadrados del error de la ecuación (4.14). Se acostumbra llamar a
∑=
∧
−=n
iiR yySS
1
2_
)( la suma de los cuadrados de regresión. Se acostumbra escribir
sRT SSSSSS Re+= (4.29)
y se sabe que xyTs SSSSS∧
−= 1Re β , por lo tanto la suma de cuadrados de regresión se
puede calcular de la siguiente forma:
xyR SSS∧
= 1β (4.30)
Capítulo 1
Ernesto López
Ahora bien se puede aplicar la prueba F normal del análisis de varianza para probar
la hipótesis 0: 10 =βH . De acuerdo a la definición del estadístico F:
s
R
s
R
MSMS
nSSSS
FReRe
0 )2/(1/
=−
= (4.31)
donde RMS y sMSRe son los cuadrados medios de la regresión y de los residuales
respectivamente; también, sigue una distribución 2,1 −nF y los valores esperados de estos
cuadrados medios son:
2
Re )( σ=sMSE
xxR SMSE 21
2)( βσ +=
Estos cuadrados medios esperados indican que si es grande el valor observado de
0F , es probable que la pendiente 01 ≠β
Entonces para probar la hipótesis 0: 10 =βH , se calcula el estadístico 0F y se
rechaza 0H si:
2,1,0 −> nFF α (4.32)
Ahora bien, existe una relación entre los estadísticos F y t :
xxs SMSse
t/Re
1
1
10
∧
∧
∧
=⎟⎠⎞
⎜⎝⎛
=β
β
β (4.33)
Nótese que al elevar al cuadrado ambos lados de la ecuación se obtiene:
Capítulo 1
Ernesto López
0ReRe
1
Re
212
0 FMSMS
MSS
MSS
ts
R
s
xy
s
xx ====
∧∧
ββ (4.34)
por lo tanto
020 Ft = (4.35)
4.1.7.‐ Intervalos de confianza de 0β , 1β y 2σ
Es posible calcular los intervalos de confianza de 0β , 1β y 2σ , donde el ancho de
dichos intervalos es una medida de la calidad general de la recta de regresión. Si los
errores se distribuyen en forma normal e independiente, entonces la distribución de
muestreo tanto de
⎟⎠⎞
⎜⎝⎛−∧
∧
1
11
β
ββ
se y
⎟⎟⎠
⎞⎜⎜⎝
⎛−∧
∧
0
00
β
ββ
se
es t , con 2−n grados de libertad. Así, un intervalo de confianza de 100(1‐α ) por ciento
para la pendiente 1β se determina con:
⎟⎠⎞
⎜⎝⎛+≤≤⎟
⎠⎞
⎜⎝⎛−
∧
−
∧∧
−
∧
12,2/1112,2/1 βββββ αα setset nn (4.36)
y un intervalo de confianza de 100(1‐α ) por ciento para la ordenada en el origen 0β es:
⎟⎠⎞
⎜⎝⎛+≤≤⎟
⎠⎞
⎜⎝⎛−
∧
−
∧∧
−
∧
02,2/01002,2/0 βββββ αα setset nn (4.37)
Capítulo 1
Ernesto López
Estos intervalos de confianza tienen la interpretación usual de frecuencia, por lo
tanto si hubiera que tomar muestras repetidas del mismo tamaño a los mismos valores
de x , y formar por ejemplo intervalos de confianza de 95% de la pendiente para cada
muestra, entonces el 95% de esos intervalos contendrán el verdadero valor de 1β .
Si los errores están distribuidos en forma normal e independiente, la distribución de
muestreo de
2Re /)2( σsMSn −
es ji cuadrada, con 2−n grados de libertad. Así,
αχσ
χ αα −=≤−
≤ −−− 1})2(
{ 22,2/2
Re22,2/1 n
sn
MSnP
y en consecuencia, un intervalo de confianza de 100(1 ‐ α ) por ciento para 2σ es
22,2/1
Re22
2,2/
Re )2()2(
−−−
−≤≤
−
n
s
n
s MSnMSn
αα χσ
χ (4.38)
4.1.8.‐ Estimación de intervalos de respuesta media o limites de confianza
Una aplicación importante de un modelo de regresión es estimar la respuesta
media, )(yE para determinado valor de la variable regresora x . Sea 0x el valor, o
“nivel” de la variable regresora para el que se desea estimar la respuesta media, es decir,
( )0| xyE . Se supone que 0x es cualquier valor de la variable regresora dentro del
Capítulo 1
Ernesto López
intervalo de los datos originales de x que se usaron para ajustar el modelo. Un
estimador insesgado de ( )0| xyE se determina a partir del modelo ajustado como
sigue:
( ) 010|0 0| xxyE xy
∧∧∧
+== ββμ (4.39)
Para obtener un intervalo de confianza de 100(1‐α ) % para ( )0| xyE , se debe
notar primero que 0|xy
∧
μ es una variable aleatoria normalmente distribuida, porque es
una combinación lineal de las observaciones iy . La varianza de 0|xy
∧
μ es
xxxyxy S
xxn
xxyVarxVarVar2
_
022
01
_
010||)(
)(00
−+=⎥⎦
⎤⎢⎣⎡ −+=⎟
⎠⎞
⎜⎝⎛ +==⎟
⎠⎞
⎜⎝⎛ ∧∧∧∧∧ σσβββμμ (4.40)
y se sabe que la 0),( 1
_=
∧
βyCov . Así la distribución de muestreo de
)/)(/1(
)|(
2_
0Re
0| 0
xxs
xy
SxxnMS
xyE
−+
−∧
μ (4.41)
es t , con 2−n grados de libertad. Por lo que un intervalo de confianza de
)1(100 α− % para la respuesta media en el punto 0xx = es:
⎟⎟⎟
⎠
⎞
⎜⎜⎜
⎝
⎛ −++≤≤
⎟⎟⎟
⎠
⎞
⎜⎜⎜
⎝
⎛ −+− −
∧
−
∧
xxsnxy
xxsnxy S
xxn
MStxyES
xxn
MSt2
_
0Re2,2/|0
2_
0Re2,2/|
)(1)1()(1
00 αα μμ (4.42)
Capítulo 1
Ernesto López
Figura 24: Regresión lineal simple y límites de confianza o de respuesta media.
En la figura 24 se muestra una regresión lineal simple con sus respectivos límites de
confianza.
El ancho del intervalo de confianza para ( )0| xyE es una función de 0x . El ancho
del intervalo es un mínimo para _
0 xx = , y crece a medida que aumenta ||_
0 xx − . Esto es
razonable, porque cabria esperar que las mejores estimaciones de y se hacen con los
valores de x cerca del centro de los datos, y que la precisión de la estimación se
redujera al moverse hacia la frontera del espacio de x .
4.1.9.‐ Predicción de nuevas observaciones
Una aplicación importante de modelos de regresión es predecir nuevas
observaciones y que correspondan a un nivel especificado de la variable regresora .x Si
0x es el valor de interés de la variable regresora, entonces
Capítulo 1
Ernesto López
0100 xy∧∧∧
+= ββ (4.42)
es el estimado puntual del nuevo valor de la respuesta 0y .
Se desarrollara un intervalo de confianza para la observación futura 0y . Nótese
que la variable aleatoria
∧
−= 00 yyψ
tiene una distribución normal, con media 0 y varianza
⎥⎥
⎦
⎤
⎢⎢
⎣
⎡ −++=−=
∧
xxSxx
nyyVarVar
2_
0200
)(11)()( σψ
porque la observación futura 0y es independiente de ∧
0y . Si se usa ∧
0y para
predecir 0y , entonces el error estándar de ∧
−= 00 yyψ es el estadístico adecuado sobre
el cual basar un intervalo de predicción. Así, el intervalo de predicción de )%1(100 α− de
confianza para una observación futura en 0x es
⎟⎟⎟
⎠
⎞
⎜⎜⎜
⎝
⎛ −+++≤≤
⎟⎟⎟
⎠
⎞
⎜⎜⎜
⎝
⎛ −++− −
∧
−
∧
xxsn
xxsn S
xxn
MStyyS
xxn
MSty2
_
0Re2,2/00
2_
0Re2,2/0
)(11)(11 αα
(4.43)
En la figura 23 se muestra una regresión lineal simple, sus limites de confianza y
posteriormente sus limites de predicción.
Capítulo 1
Ernesto López
Figura 25: Regresión lineal simple, limites de confianza (líneas punteadas centrales verdes) y de predicción
(líneas punteadas celestes de los extremos).
El intervalo de predicción de la ecuación (4.43) es de ancho mínimo en _
0 xx = y se
ensancha a medida que aumenta ||_
0 xx − .
Al comparar los intervalos de confianza de respuesta media y de predicción de
nuevas observaciones se observa que el intervalo de predicción en 0x siempre es mas
ancho que el intervalo de confianza en 0x , porque el intervalo de predicción depende
tanto del error del modelo ajustado como del error asociado con observaciones futuras.
4.1.10.‐ Coeficiente de determinación y coeficiente de correlación
La cantidad
T
s
T
R
SSSS
SSSS
R Re2 1−== (4.44)
Capítulo 1
Ernesto López
se le llama coeficiente de determinación. Como TSS es una medida de
variabilidad de y sin considerar el efecto de la variable regresora x y sSSRe es una
medida de variabilidad de y que queda después de haber tenido en consideración a x ,
2R se le llama con frecuencia a la proporción de la variación explicada por el regresor x .
Los valores de 2R cercanos a 1 implican que la mayor parte de la variabilidad de y esta
explicada por el modelo de regresión.
La magnitud de 2R también depende del intervalo de variabilidad de la variable
regresora. En general, 2R aumenta a medida que aumenta la dispersión de las x y
disminuye cuando disminuye la dispersión de las x , siempre y cuando sea correcta la
forma supuesta del modelo.
Algunas ideas erróneas sobre 2R es por ejemplo que no mide la magnitud de la
pendiente de la línea de regresión. Un valor grande de 2R no implica que la pendiente se
grande, además, 2R no mide la adecuación del modelo lineal, porque con frecuencia 2R
es grande aunque x y y no tengan relación lineal. También es importante saber que
aunque 2R sea grande, eso no necesariamente implica que el modelo de regresión sea
un predictor exacto.
Ahora bien, el coeficiente de correlación r es una mediad de asociación lineal entre
x y y . Es decir solo proporciona información acerca de que tanta relación tienen estas
dos variables, aunque no significa que los cambios de una variable causen los cambios de
la otra, por lo tanto la correlación por si sola no puede emplearse para evaluar la
causalidad entre las variables. El coeficiente de correlación es:
[ ] 2/1
Txx
xy
SSS
Sr = (4.45)
Capítulo 1
Ernesto López
En el caso de una variable controlable x , el coeficiente r no tiene significado,
porque su magnitud depende de la elección de los espacios para x .
Existe una relación entre estos coeficientes:
2121
2 RSSSS
SSS
SSS
rT
R
T
xy
T
xx ====
∧∧ ββ (4.46)
22 Rr = (4.47)
4.2.‐ COMPROBACIÓN DE LA ADECUACIÓN DEL MODELO
Las principales premisas que se han tomado en cuenta hasta este punto al utilizar el
análisis de regresión son las siguientes:
1. La relación entre la respuesta y y los regresores es lineal, al menos en forma
aproximada.
2. El término de error ε tiene media cero.
3. El término de error ε tiene varianza 2σ constante.
4. Los errores no están correlacionados.
5. Los errores tienen distribución normal.
Las premisas 4 y 5 en conjunto implican que los errores son variables aleatorias
independientes. Se requiere la premisa 5 para probar hipótesis y para estimar intervalos.
Siempre se debe tener en cuenta que la validez de estas premisas es dudosa, y se
deben hacer análisis para examinar la adecuación del modelo que se haya desarrollado
tentativamente. Grandes violaciones a las premisas pueden causar que el modelo sea
Capítulo 1
Ernesto López
inestable, en el sentido que una muestra distinta podría conducir a un modelo
totalmente diferente, y así obtener conclusiones opuestas. En general, no se pueden
detectar desviaciones a las premisas básicas examinando los estadísticos estándar, como
por ejemplo los estadísticos t , F y 2R . Éstas propiedades son “globales” del modelo, y
como tal no aseguran la adecuación del mismo.
Ahora se plantean otros métodos para comprobar la adecuación del modelo,
basados principalmente en el estudio de los residuales.
4.2.1 Análisis de Residuales
Los residuales se habían definido de la siguiente forma:
,∧
−= yye ii ni ,...,2,1= (4.48)
siendo iy una observación, y iy∧
su valor ajustado correspondiente. Como se puede
considerar que un residual es la desviación entre los datos y el ajuste también es una
medida de la variabilidad de la variable de respuesta que no explica el modelo de
regresión. Toda desviación de las premisas de los errores se reflejara en los residuales, ya
que éstos son valores observados o realizados de los errores del modelo.
El análisis de residuales es una forma eficaz de descubrir diversos tipos de
inadecuación del modelo. Una forma muy efectiva de investigar lo bien que se ajusta el
modelo a los datos y comprobar las premisas del análisis de regresión es graficando los
residuales.
Los residuales tienen media cero y su varianza promedio aproximada se estima con:
ss
i
n
ii
n
iMS
pnSS
pn
e
pn
ee
ReRe
2
1
2_
1=
−=
−
∑=
−
⎟⎠⎞
⎜⎝⎛ −∑
== (4.49)
Capítulo 1
Ernesto López
Sin embargo, los residuales no son independientes, ya que n residuales sólo tienen
pn − grados de libertad asociados a ellos.
En ocasiones es mejor trabajar con residuales escalados, ya que estos brindan una
mejor perspectiva para la detección de valores atípicos o valores extremos, esto es,
observaciones que en algún aspecto estén separados del resto de los datos.
4.2.1.1 Métodos para escalar residuales
En este trabajo se presentarán 2 tipos de residuales escalados, debido a que éstos
aportan gran información para detectar valores extremos.
Residuales estandarizados
Ya que la varianza aproximada de un residual se estima con sMSRe , el cuadrado
medio de los residuales, un escalamiento lógico de los residuales sería el de los
residuales estandarizados.
,Re s
ii MS
ed = ni ,...2,1= (4.50)
Esto es dividiendo el residual entre la desviación estándar del residual. Los
residuales estandarizados tienen media cero y varianza aproximadamente unitaria, por
consiguiente, un residual estandarizado grande (por ejemplo 3>id ) indica que se trata
de un valor atípico potencial.
Capítulo 1
Ernesto López
Residuales estudentizados
Si se usa sMSRe con la varianza del i ‐ésimo residual, ie sólo tendrá una
aproximación. Se puede mejorar el escalamiento de los residuales dividiendo ie entre la
desviación estándar exacta del i ‐ésimo residual.
Si se usa el cuadrado medio de los residuales, sMSRe , para estimar la varianza de
los residuales, en realidad se sobreestima la varianza real )( ieVar . Los residuales que
están en los lugares mas remotos, pueden ser difíciles de detectar con inspección de
residuales ordinarios o estandarizados, porque en general, sus residuales serán menores.
Cuando la forma del modelo es correcta estos residuales estudentizados tienen
varianza constante unitaria e independiente de las observaciones de x . En muchos
casos, la varianza de los residuales se estabiliza, en especial para conjuntos grandes de
datos. En esos casos podrá haber poca diferencia entre los residuales estandarizados y
estudentizados.
Así, los residuales estandarizados y estudentizados aportan con frecuencia
información equivalente. Sin embargo, ya que cualquier punto con un residual grande
tiene una influencia potencial muy grande sobre el ajuste de mínimos cuadrados, se
recomienda por lo general examinar los residuales estudentizados. Este análisis de
residuales escalados para un solo regresor se demuestra con
⎥⎥⎥⎥⎥
⎦
⎤
⎢⎢⎢⎢⎢
⎣
⎡
⎟⎟⎟⎟⎟
⎠
⎞
⎜⎜⎜⎜⎜
⎝
⎛⎟⎠⎞
⎜⎝⎛ −
+−
=
xx
i
s
ii
S
xx
nMS
er
2_
Re11
, ni ,...,2,1= (4.51)
Capítulo 1
Ernesto López
Nótese que cuando la observación ix es cercana al punto medio de los datos de x ,
la diferencia de _xxi − será pequeña, y la desviación estándar estimada de ie (el
denominador de la ecuación 4.51) será grande. Al revés, cuando ix está cerca de los
extremos del intervalo de datos de x , la diferencia _xxi − será grande, y la desviación
estándar estimada de ie será pequeña. También, cuando el tamaño de n de la muestra
es relativamente grande, el efecto de 2_)( xxi − será relativamente pequeño, por lo que
en conjuntos grandes de datos los residuales estudentizados no serán muy diferentes de
los estandarizados.
En la figura 26 se muestran algunos patrones en las gráficas de residuales para
inferir alunas ideas sobre la varianza de los errores.
Figura 26: Patrones en las gráficas de los residuales: a) satisfactorio; b) en embudo; c) doble arco; d) no
lineal.
La distribuciones en las partes b y c indican que la varianza de los errores no es
constante. La figura de embudo abierto hacia afuera en la parte b implica que la varianza
Capítulo 1
Ernesto López
es función creciente de y . También es posible un embudo abierto hacia dentro, que
indica que la varianza aumenta a medida que y disminuye. La distribución en doble arco
en la parte c se presenta con frecuencia cuando y es una proporción entre 0 y 1. Cuando
se presenta este problema, el método común para manejar la no constancia de la
varianza es aplicar una transformación adecuada, ya sea a la variable regresora o a la de
respuesta, o bien usar el método de mínimos cuadrados ponderados. Aunque para éste
trabajo no es conveniente usar transformaciones debido a que se altera en cierto modo
el modelo y se pierden muchos grados de libertad. Una gráfica en curva como la parte d,
indica una no linealidad. Esto podría indicar que se necesitan otras variables regresoras
en el modelo, como por ejemplo un término al cuadrado o transformaciones.
La gráfica de los residuales en función de iy∧
puede revelar uno o más residuales
anómalamente grandes. Estos puntos son valores atípicos potenciales y también podrían
indicar que la varianza no es constante, o bien que la relación entre y y x no es lineal.
Estas posibilidades se deben investigar antes de considerar los puntos como atípicos.
4.3.‐ GRÁFICA DE PROBABILIDAD NORMAL
Cuando se presentan pequeñas desviaciones respecto a las hipótesis de
normalidad, éstas no afectan mucho al modelo, pero una no normalidad grande es
potencialmente más seria, porque los estadísticos t o F y los intervalos de confianza y
de predicción dependen de la suposición de la normalidad. Además, si los errores
provienen de una distribución con colas mas gruesas que la normal, el ajuste por
mínimos cuadrados será sensible a un subconjunto menor de datos. Las distribuciones de
error con colas gruesas generan con frecuencia valores atípicos que “jalan” demasiado en
su dirección el ajuste de mínimos cuadrados. En esos casos es necesario considerar otros
métodos de regresión, como el método de regresión lineal ponderada.
Capítulo 1
Ernesto López
Un método sencillo para comprobar la suposición de normalidad, es trazar una
gráfica de probabilidad normal de los residuales. Es una gráfica diseñada para que al
graficar la distribución normal acumulada parezca una línea recta. Sean
[ ] [ ] [ ]neee <<< ...21 los residuales ordenados en forma creciente. Si se grafican [ ]ie en
función de la probabilidad acumulada niPi /)21( −= , ni ,..,2,1= , en papel de
probabilidad normal. Los puntos que resulten deberán estar aproximadamente sobre una
línea recta. Esa recta se suele determinar en forma visual, con énfasis en los valores
centrales (por ejemplo los puntos de probabilidad acumulada 0.33 y 0.67), y no en los
extremos. Las diferencias apreciables respecto a la recta indican que la distribución no es
normal.
En la figura 27 se muestran los diferentes tipos de gráficas de probabilidad de los
residuales. Donde la parte a muestra una gráfica de probabilidad normal “idealizada” ya
que los puntos caen aproximadamente en una línea recta. Las parte b muestra una curva
que va bruscamente hacia arriba y hacia abajo en los dos extremos, lo que indica que las
colas de esta distribución son demasiado gruesas para poder considerarlas normal. La
parte c, muestra un aplanamiento en los extremos, que es un comportamiento
característico de las muestras tomadas de la distribución con colas mas delgadas que la
normal. Las gráficas d y e muestran patrones a asimetría positiva y negativa,
respectivamente.
En ocasiones se debe de tener cierta experiencia para interpretar gráficas de
probabilidad normal, ya que con frecuencia, los tamaños pequeños de muestras ( 16≤n )
producen graficas de probabilidad normal que se desvían bastante de la linealidad. Para
muestras mayores 32( ≥n ), las graficas se comportan mucho mejor. Por lo general se
requieren unos 20 puntos para generar graficas de probabilidad suficientemente
estables.
Capítulo 1
Ernesto López
Figura 27: Gráficas de probabilidad normal: a) ideal; b) distribución con colas gruesas; c) distribución con
colas delgadas; d) asimetría positiva; e) asimetría negativa. 4.4.‐ REGRESIÓN LINEAL PONDERADA
Para entrar en éste tema, es necesario mencionar algunos conceptos básicos sobre
el análisis de regresión lineal.
Para considerar que un modelo obtenido con de un análisis de regresión lineal
simple es valido, es porque éste cumple con las premisas sobre la regresión mencionadas
anteriormente.
Una de las premisas más importantes, es que la varianza de los errores estocásticos
de la regresión es la misma para cada ix observación. Esto queda definido como un
modelo homocedastico. Para entender mejor este concepto, se puede razonar del
siguiente modo: iguales varianzas de ε para los distintos valores de x implica
necesariamente igual dispersión (varianza) de y para distintos valores de x lo que
implica necesariamente que la “recta de regresión de ∧
y sobre x va a representar con
igual precisión la relación entre x y y independientemente de los valores de x ”. Esto
es no considerando errores en x .
Capítulo 1
Ernesto López
En cambio, existen modelos que no presentan esta propiedad y por consiguiente no
puede emplearse un análisis de regresión lineal simple. Cuando los modelos presentan
varianzas diferentes para cada ix observaciones se dice que se tiene un modelo
heterocedastico.
La figura 28 muestra el fenómeno de heterocedasticidad, donde se observan
gráficamente varianzas diferentes para cada observación ix
Figura 28: Distribuciones de y para valores dados de x . Modelo heterocedastico (varianzas diferentes).
De éste modo, se debe entender que varianzas diferentes de ε para los distintos
valores de x implica necesariamente diferente dispersión (varianza) de y para distintos
valores de x , entonces la “recta de regresión de ∧
y sobre x va a representar con
diferente precisión la relación entre x y y , y esto va a depender de los valores de x ”;
es decir, aquí ya se esta considerando que las observaciones ix presentan un error, el
cuál no puede ser despreciado al momento de hacer el ajuste.
Es por éste motivo que se emplea la regresión lineal ponderada. La cuál implica
considerar la varianza tanto de y como de x .
Capítulo 1
Ernesto López
En este método se multiplica la diferencia entre los valores observados y esperados
de iy por un peso iw , o factor de ponderación, que se escoge como inversamente
proporcional a la varianza de iy .
)(
1
ii yVar
w = (4.52)
Se comienza con el criterio de mínimos cuadrados ponderados
( ) ( )∑=
−−=n
iiii xywS
1
21010 , ββββ (4.53)
Los estimadores, por mínimos cuadrados ponderados, de 0β y 1β , que se
designaran por 0
∧
β y 1
∧
β , deben satisfacer:
0)(2| 101,0 10
=−−−=∂∂ ∧∧
=∑∧∧ i
n
iii xywS ββ
β ββ
0)(2|1
10,1 10
=−−−=∂∂ ∑
=
∧∧
∧∧
n
iiiii xxywS ββ
β ββ
Resolviendo lo anterior se obtiene
01
11
01
=−− ∑∑∑=
∧
=
∧
=
n
iii
n
ii
n
iii xwwyw ββ
01
21
10
1=−− ∑∑∑
=
∧
=
∧
=
n
iii
n
iii
n
iiii xwxwxyw ββ
y se llega a las ecuaciones normales de mínimos cuadrados ponderados
Capítulo 1
Ernesto López
∑∑∑==
∧
=
∧
=+n
iii
n
iii
n
ii ywxww
111
10 ββ
∑∑∑==
∧
=
∧
=+n
iiii
n
iii
n
iii xywxwxw
11
21
10 ββ (4.54)
Al resolver las ecuaciones (4.54) se obtendrán los estimados ponderados, para
mínimos cuadrados, de oβ y 1β .
En la figura 29 se comparan una regresión lineal simple y una regresión lineal
ponderada, y se observa que la regresión lineal ponderada da menos peso a los datos
que pareciera que son valores atípicos, mientras que la regresión lineal simple los
considera como si no tuviesen un error asociado a x .
Figura 29: Regresión lineal simple (línea azul) vs Regresión línea ponderada (línea verde).
Capítulo 1
Ernesto López
Ya que para la estimación de las incógnitas oβ y 1β se utilizó un peso iw , es de
esperarse que este factor de ponderación se encuentre de forma implícita a la hora de
calcular los diferentes parámetros de la regresión, como lo son RSS , sSSRe , RMS ,
sMSRe , etc.
Sin embargo, no es posible estimar intervalos de confianza debido a que éstos solo
pueden ser considerados que son correctos cuando los errores son distribuidos
normalmente, y en el caso del análisis de regresión lineal ponderado ésta premisa no se
cumple.
Es necesario estimar la bondad del ajuste ponderado de forma diferente a la
regresión lineal simple, debido a que en éste tipo de análisis (regresión lineal simple), el
coeficiente de determinación 2R es el cuadrado del coeficiente de correlación r , y como
se mencionó, el coeficiente de correlación solo mide el grado de relación entre las
observaciones, éste no tiene significado en la regresión ponderada. Es por éste motivo
que se necesita utilizar una relación en la cuál involucre alguna constante del modelo
ponderado. Hahn (1973) observa que el valor esperado de 2R en una regresión rectilínea
es, aproximadamente:
2
2
1
2
12 )(σβ
β
+=
∧
∧
xx
XX
S
SRE (4.55)
La justificación para la utilización de este tipo de análisis de regresión, es debido a
que las observaciones ix no están controladas por un analista de datos, es decir, se debe
tomar en cuenta que presentan errores, ya que estas observaciones son los resultados
del método BC .
Capítulo 1
Ernesto López
5.‐ RESULTADOS Y DISCUSIÓN
A continuación se presentan los resultados del cálculo de la estabilidad de valor b y
las regresiones para los casos de los catálogos de México, Italia y Nueva Zelanda,
discutiéndose las observaciones principales.
5.1.‐ México ( Ms )
Se da inicio observando la tendencia que siguen los valores b contra el tiempo con
ambos métodos. En la figura 30 se muestra ésta tendencia:
Figura 30: Tendencia de los métodos EMR y BC con respecto al tiempo por separado (arriba) y juntos (abajo), México Ms.
Capítulo 1
Ernesto López
En la figura 31 se presenta el análisis de regresión lineal simple del catálogo
completo de México Ms, así como las graficas de probabilidad y distribución de los
residuales.
Figura 31: Análisis de regresión lineal simple para todo el catálogo de México Ms (arriba), gráfica de probabilidad normal de los residuales (abajo a la izquierda) y gráfica de la distribución de los residuales (abajo a la derecha). Tabla 1: Ecuación lineal de todo el catálogo con sus respectivos coeficientes de correlación y determinación.
Ecuación Coeficiente de correlación Coeficiente de determinación
073878.01378.1 −=∧
xy 9332.0=r 8709.02 =R
Tabla 2: Pruebas de hipótesis t y F.
Prueba t Prueba F 05.0=α 01.0=α 0452.22,2/ =−ntα 60.72,1, =−nFα
9846.130 =t 5680.1950 =F
2,2/0 || −> ntt α se rechaza 0: 10 =βH 2,1,0 −> nFF α se rechaza 0: 10 =βH
HAY RELACIÓN LINEAL HAY RELACIÓN LINEAL
Capítulo 1
Ernesto López
Tabla 3: Análisis de varianza (ANOVA). Fuente de variación
Suma de cuadrados
Grados de libertad
Cuadrado medio
0F
Regresión 0.000988 1 0.000988 66.0489 Residual 0.0000898 29 0.0000149 Total 0.0011 30
Tabla 4: Intervalos de confianza de )%1(100 α− .
Pendiente 0589.15688.0 1 ≤≤ β Ordenada 4214.00566.0 0 ≤≤− β
Varianza 0000725.000000621.0 2 ≤≤σ
En la figura 30 se observa que los resultados obtenidos con el método EMR a partir
del inicio del catálogo (1978) hasta 1991 siguen una tendencia similar a los obtenidos con
el método BC, y su variación del valor b es mínima (entre b=0.58 y b=0.63). Y como es de
esperarse, las líneas de incertidumbre de EMR quedan dentro de las líneas de BC. A partir
de 1992 hasta el final del catálogo, los valores b obtenidos con el EMR están por encima
de los de BC. En éste catálogo no se observa buena estabilidad del valor b a lo largo de él,
sin embargo existen zonas donde se puede apreciar una buena correlación entre los
métodos.
En la figura 31 se muestra el análisis de regresión lineal simple, el cual informa que
el modelo presenta una correlación del 93.33 % y bondad de ajuste del 87.09 %
(demostrado con el coeficiente de determinación). Sin embargo, es sabido que el
coeficiente de correlación solo mide el grado de correlación que existe entre las
variables, mientras que el de determinación muestra la proporción de la variable de
respuesta y que es explicada por la variable regresora x , siempre y cuando el modelo
sea adecuado. Es decir, que estos parámetros no miden la adecuación, simplemente
pueden servir en caso de que el modelo cumpla con las premisas fundamentales, NID(0,
2σ ). Por consiguiente, en esta misma figura se muestran las gráficas del
comportamiento de los residuales.
Los residuales no se distribuyen del todo normal, sin embargo no se presentan de
forma sesgada ni con otro tipo de distribución, es por esta razón que se procedió a
Capítulo 1
Ernesto López
realizar pruebas de hipótesis y análisis de varianza para pasar estimar intervalos de
confianza. Estos resultados son mostrados en las tablas 1, 2, 3 y 4.
De acuerdo con el análisis de éste catálogo, se observa que la normalidad de los
residuales no afecta significativamente al modelo de regresión lineal simple, pero para
aportar un mejor criterio a esta seudo conclusión se procede a realizar los análisis de
residuales.
En la figura 32 se muestran los análisis de residuales.
Figura 32: Gráfica de residuales simples (arriba), estandarizados (abajo a la izquierda) y estudentizados (abajo a la derecha), mostrando con claridad la presencia de 2 valores atípicos potenciales (dentro del círculo azul).
Se observa en la figura 32 que los residuales presentan valores atípicos. En la parte
superior en análisis de residuales simple detecta 3 valores extremos, sin embargo los
análisis de residuales escalados detecta 2. Por consiguiente se procede a realizar un
nuevo análisis de regresión lineal simple eliminando los valores atípicos potenciales
detectados por estos tipos de análisis.
Capítulo 1
Ernesto López
En la figura 33 se presenta el análisis de regresión lineal simple para México Ms
eliminando los valores extremos detectados, así como las graficas de probabilidad y
distribución de los residuales.
Figura 33: Análisis de regresión lineal simple México Ms eliminando valores atípicos (arriba), gráfica de probabilidad normal de los residuales (abajo a la izquierda) y gráfica de la distribución de los residuales (abajo a la derecha). Tabla 5: Ecuación lineal y sus respectivos coeficientes de correlación y determinación.
Ecuación Coeficiente de correlación Coeficiente de determinación
31518.067892.0 −=∧
xy 97775.0=r 9559.02 =R
Tabla 6: Pruebas de hipótesis t y F.
Prueba t Prueba F 05.0=α 01.0=α
051.22,2/ =−ntα 6800.72,1, =−nFα
2175.240 =t 4885.5860 =F
2,2/0 || −> ntt α se rechaza 0: 10 =βH 2,1,0 −> nFF α se rechaza 0: 10 =βH
HAY RELACIÓN LINEAL HAY RELACIÓN LINEAL
Capítulo 1
Ernesto López
Tabla 7: Análisis de varianza (ANOVA). Fuente de variación
Suma de cuadrados
Grados de libertad
Cuadrado medio
0F
Regresión 0.0697 1 0.0697 586.4885 Residual 0.0032 27 0.000118 Total 0.0729 28
Tabla 8: Intervalos de confianza de )%1(100 α− .
Pendiente 0589.15688.0 1 ≤≤ β Ordenada 4214.00566.0 0 ≤≤− β
Varianza 0000725.000000621.0 2 ≤≤σ
Los resultados indican que las variables presentan una mejor relación, la bondad
del ajuste es del 95% y el comportamiento de los residuales se asemeja más a una
distribución normal. Debido a esto se procedió a realizar pruebas de hipótesis y análisis
de varianza para pasar estimar intervalos de confianza. Estos resultados son mostrados
en las tablas 5, 6, 7 y 8. Sin embargo, siempre se debe explorar el comportamiento de la
varianza a lo largo del modelo. Entonces, se sigue con el análisis de residuales, con los
propósitos de observar su variación y detectar posibles valores atípicos. En la figura 34 se
presentan los análisis de residuales.
Figura 34: Gráfica de residuales simples (arriba), estandarizados (abajo a la izquierda) y estudentizados (abajo a la derecha), mostrando con claridad la presencia de 1 valore atípico (dentro del círculo azul).
Capítulo 1
Ernesto López
Eliminando el último valor atípico, se realiza de nuevo otro análisis de regresión
lineal simple, presentado en la figura 35 con sus respectivas graficas de probabilidad y distribución de residuales.
Figura 35: Análisis de regresión lineal simple México Ms eliminando el ultimo valor atípico (arriba), gráfica de probabilidad normal de los residuales (abajo a la izquierda) y gráfica de la distribución de los residuales (abajo a la derecha). Tabla 9: Ecuación lineal y sus respectivos coeficientes de correlación y determinación.
Ecuación Coeficiente de correlación Coeficiente de determinación
19715.03195.1 −=∧
xy 9846.0=r 9644.02 =R
Tabla 10: Pruebas de hipótesis t y F.
Prueba t Prueba F 05.0=α 01.0=α
0555.22,2/ =−ntα 7200.72,1, =−nFα
7201.280 =t 8461.8240 =F
2,2/0 || −> ntt α se rechaza 0: 10 =βH 2,1,0 −> nFF α se rechaza 0: 10 =βH
HAY RELACIÓN LINEAL HAY RELACIÓN LINEAL
Capítulo 1
Ernesto López
Tabla 11: Análisis de varianza (ANOVA).
Fuente de variación
Suma de cuadrados
Grados de libertad
Cuadrado medio
0F
Regresión 0.0696 1 0.0696 824.8461 Residual 0.0022 26 0.0000843 Total 0.0718 27
Tabla 12: Intervalos de confianza de )%1(100 α−
Pendiente 4140.12251.1 1 ≤≤ β Ordenada 1352.02591.0 0 −≤≤− β
Varianza 000158.00000523.0 2 ≤≤ σ .
Es apreciable en la figura 35 que las observaciones caen dentro de los intervalos de
predicción, por consiguiente se considera la ausencia de valores atípicos potenciales y
por la gráfica de normalidad se procedió a realizar pruebas de hipótesis y análisis de
varianza para pasar estimar intervalos de confianza. Los resultados obtenidos fueron
satisfactorios y se muestran en las tablas 9, 10, 11 y 12. Sin embargo, se procedió a
realizar los análisis de residuales, presentados en la figura 36.
Figura 36: Gráfica de residuales simples (arriba), estandarizados (abajo a la izquierda) y estudentizados (abajo a la derecha), sin valores atípicos potenciales.
Capítulo 1
Ernesto López
En la figura 36 no se observan valores atípicos y por consiguiente se concluye que el
modelo es adecuado para el catálogo de México Ms a partir del año de 1978 al 2005.
Sin embargo, como se mencionó no es posible creer en todo el catálogo, se busca
solamente la estabilidad del valor b, y ésta debería presentarse en segmentos (parte
plana). También, cabe mencionar que el modelo de regresión lineal simple tiene como
característica implícita la ausencia de error en el regresor x , lo cual para este trabajo no
se cumple, debido a que el regresor (método BC) no es controlado por el analista de
datos, sino que es el resultado del cálculo del valor b. Entonces se debe considerar una
regresión lineal ponderada.
Aunque en ocasiones, como el error en x es significativo, pareciera que el ajuste de
la regresión lineal simple es mejor que la ponderada, como se presenta en la figura 37.
Figura 37: Comparación del análisis de regresión lineal simple (línea azul) contra el análisis de regresión lineal ponderada (línea verde) para los datos de México Ms sin valores atípicos potenciales.
Como se observa el la figura 37, el ajuste simple pareciera explicar mejor las
observaciones que el ajuste ponderado. Esto es debido a que las observaciones parecen
tener una varianza similar en los extremos, lo cual ocasiona que los pesos sean similares
en las orillas y la recta tienda a ignorarlos (tanto hacia arriba como hacia abajo de la
recta), lo que causa que la recta ponderada pase en medio de estos.
Capítulo 1
Ernesto López
Esto no quiere decir que la regresión lineal ponderada sea inútil para este trabajo,
todo lo contrario, simplemente como éste es todo el catálogo, solo se removieron
algunos valores extremos, no se esperaba obtener muy buenos resultados.
Ahora como un análisis extra para buscar la estabilidad del valor b, lo que se hizo
fue realizar el análisis de regresión lineal simple pero observando la tendencia que siguen
las constantes 1
∧
β y 0
∧
β contra el tiempo. Se hizo un corrimiento de tipo “reversa”, es
decir comenzando el análisis de todo el catálogo y posteriormente reducir en uno los
datos desde los nuevos hasta los viejos, así como un análisis “normal” (comenzado con
todo el catálogo y reduciendo en un dato desde los datos viejos hasta los nuevos) y uno
de “ventana corrida” en el cual se toma una muestra de datos, que en este caso fue de
n= 10 y se fue corriendo la ventana al año.
En la figura 38 se muestran dos tipos de gráficas, al lado izquierdo se presenta la
variación de las constantes con respecto al tiempo, mientras que al lado derecho se
observan las gráficas de las ecuaciones lineales resultantes. En la parte superior se
presenta el análisis tipo reversa, la estabilidad de las constantes parece comenzar a partir
de 1984 y se mantienen hacia el final del catálogo, donde los picos observados son
debido al cálculo de la regresión lineal con solo tres datos, en el lado superior derecho las
líneas azules representan la estabilidad de las constantes a partir de 1984 y las líneas
verdes representan las ecuaciones con pocos datos. En la parte central se presenta el
análisis tipo normal el cual como es de esperarse, debería tener una mejor estabilidad de
las constantes, debido a que al ir eliminando un valor desde los datos viejos hasta los
nuevos, se cuenta con la mejor calidad de información; en la parte central derecha se
observa que las gráficas de las ecuaciones son bastante similares al ir reduciendo los
valores viejos, esto se debe a que se incluye la mejor calidad de información. Por ultimo
en la parte inferior se presenta el análisis de ventana corrida, con el propósito de tener
mejor sustento al tomar la decisión sobre la o las zonas donde el valor b se estabiliza; la
percepción parece indicar que existe mucha variación, pero en realidad no, debido que la
variación es apenas de 0.4 como máximo y como el catálogo es muy homogéneo,
Capítulo 1
Ernesto López
presenta varias partes planas, es por este motivo que las gráficas de las ecuaciones
lineales tiendan a cruzarse entre si, lo cual es mostrado en la parte inferior derecha.
Figura 38: (Parte superior) Análisis de tipo reversa, variación de las constantes contra el tiempo (izquierda), gráfica de las ecuaciones resultantes (derecha). (Parte central) Análisis de tipo normal, variación de las constantes contra el tiempo (izquierda), gráfica de las ecuaciones resultantes (derecha). (Parte inferior) Análisis de tipo ventana corrida, variación de las constantes contra el tiempo (izquierda), gráfica de las ecuaciones resultantes (derecha).
Capítulo 1
Ernesto López
Con todos los análisis anteriores y el apoyo de la figura 30, pareciera que la
estabilidad del valor b comienza a partir de 1990 ya que la variación de sus constantes
oscila alrededor de 0.4 hasta el final del catálogo.
Entonces, se procede a realizar el análisis de regresión lineal simple para éste
segmento del catálogo (1990‐2008) presentado en la figura 39, con el propósito de
encontrar el mejor modelo que describa el grado de correlación de los métodos.
Figura 39: Regresión lineal simple contra regresión lineal ponderada desde el inicio de la parte plana hasta el final del catálogo.
Como se observa en la figura 39, la bondad del ajuste por parte de la regresión
ponderada es de más del 92% mientras que la simple es apenas del 88%.
Se utilizará el análisis de regresión lineal simple para detectar valores extremos y al
final se usará la regresión ponderada para obtener mejores resultados.
En la figura 40 se muestra el análisis de regresión lineal simple, en el cual pareciera
que no se cuenta con valores atípicos, sin embargo, existe la posibilidad de que las
observaciones que están cerca de los intervalos de predicción afecten en algún sentido el
modelo. Posteriormente, en la misma figura se presentan las gráficas de probabilidad
Capítulo 1
Ernesto López
normal y distribución de los residuales, las cuales indican que se trata de una distribución
de colas delgadas y por lo tanto no es pertinente pasar a calcular intervalos de confianza
de las constantes.
Figura 40: Análisis de regresión lineal simple del inicio de la parte plana al final del catálogo (1990‐2008) México Ms (arriba), gráfica de probabilidad normal de los residuales (abajo a la izquierda) y gráfica de la distribución de los residuales (abajo a la derecha). Tabla 13: Ecuación lineal de una parte plana con sus respectivos coeficientes de determinación y correlación.
Ecuación Coeficiente de correlación Coeficiente de determinación
10036.088965.0 +=∧
xy 9381.0=r 8801.02 =R
A pesar de que el modelo indica que existe una correlación del 93.81 % y una
bondad de ajuste del 88.01 % presentados en la tabla 13, estos resultados no son
confiables debido a que no se cumplieron las premisas básicas.
Capítulo 1
Ernesto López
Entonces, se pasa a realizar los análisis de residuales presentados en la figura 41,
con el propósito de detectar valores atípicos y observar la varianza de los errores.
Figura 41: Gráfica de residuales simples (arriba), estandarizados (abajo a la izquierda) y estudentizados (abajo a la derecha). Todos detectando 4 valores atípicos.
Eliminando los valores atípicos detectados, se procede a realizar el último análisis
de regresión lineal simple para este catálogo, presentado en la figura 42.
Figura 42: Regresión lineal simple sin valores atípicos de la parte plana.
Capítulo 1
Ernesto López
Tabla 14: Ecuación lineal de la mejor parte plana con sus respectivos coeficientes de determinación y correlación.
Ecuación Coeficiente de correlación Coeficiente de determinación
0088.00247.1 +=∧
xy 98226.0=r 96483.02 =R
Tabla 15: Pruebas de hipótesis t y F.
Prueba t Prueba F 05.0=α 01.0=α
1604.22,2/ =−ntα 0700.92,1, =−nFα
8838.180 =t 5985.3560 =F
2,2/0 || −> ntt α se rechaza 0: 10 =βH 2,1,0 −> nFF α se rechaza 0: 10 =βH
HAY RELACIÓN LINEAL HAY RELACIÓN LINEAL Tabla 16: Análisis de varianza (ANOVA).
Fuente de variación
Suma de cuadrados
Grados de libertad
Cuadrado medio
0F
Regresión 0.0174 1 0.0174 336.5985 Residual 0.0006356 13 0.00004889 Total 0.0181 14
Tabla 17: Intervalos de confianza de )%1(100 α− .
Pendiente 1420.19075.0 1 ≤≤ β Ordenada 0886.00710.0 0 ≤≤− β
Varianza 0001269.00000256.0 2 ≤≤ σ
Las tablas 14, 15, 16 y 17 presentan los resultados obtenidos con el análisis de
regresión lineal simple de la parte plana sin valores atípicos, los cuales indican que la
pendiente de la recta es casi 1 y la ordenada en el origen es menos de 0.1; es decir,
menos de la corrección deseada, además la variabilidad de la respuesta explicada por el
regresor aleatorio es mas del 96%. Por consiguiente se concluye que esta es la mejor
parte plana, donde se encuentra la estabilidad del valor b.
Ahora que se cuenta con la parte plana, se procede a utilizar la regresión
ponderada para considerar peso en los resultados del método BC, este análisis se
presenta en la figura 43.
Capítulo 1
Ernesto López
Figura 43: Regresión lineal ponderada para la parte plana.
Como se observa en la figura 43, la ecuación indica que la pendiente es muy
cercana a 1 y la ordenada es menor a 0.1. En este caso se consideró que el modelo
presentaba heterocedasticidad. Entonces se concluye que éste ajuste es el mas adecuado
para éste catálogo. Cabe mencionar que la mejor parte plana de éste catálogo se
presento a partir de las fechas de 1992 al 2006 de forma continua.
03.00814.1 −= BCEMR
Capítulo 1
Ernesto López
5.2.‐ Italia ( Ms )
Nuevamente iniciamos el análisis observando la tendencia de ambos métodos en la
figura 44.
Figura 44: Tendencia de los métodos EMR y BC con respecto al tiempo por separado (arriba) y juntos (abajo), Italia Ms.
Capítulo 1
Ernesto López
Como se observa en la figura 44, a simple vista parece que existe una buena
correlación para este catálogo, a excepción de los últimos años (2007‐2008) en los cuales
parece que la variación es significativa con respecto a los otros valores.
En la figura 45 se presenta el análisis de regresión lineal simple del catálogo
completo de Italia Ms, así como las graficas de probabilidad y distribución de los
residuales.
Figura 45: Análisis de regresión lineal simple para todo el catálogo de Italia Ms (arriba), gráfica de probabilidad normal de los residuales (abajo a la izquierda) y gráfica de la distribución de los residuales (abajo a la derecha).
Para éste modelo presentado en la figura 45 (arriba) se cuenta con una bondad del
ajuste de 88.57 %. Sin embargo, es evidente que la distribución de los errores no se
comporta normalmente, por consiguiente las pruebas estadísticas t, F y el cálculo de
intervalos no tendrán validez.
Capítulo 1
Ernesto López
Asumiendo lo anterior, se procede a examinar los residuales con el propósito de
encontrar los valores atípicos que se perciben en la figura 45 (en la zona del ajuste lineal,
arriba). El análisis se presenta en la figura 46.
Figura 46: Gráfica de residuales simples (arriba), estandarizados (abajo a la izquierda) y estudentizados (abajo a la derecha). Todos detectando 4 valores atípicos.
El análisis de residuales detecta al menos 2 valores atípicos potenciales. Sin
embargo, debido a que el catálogo presenta datos muy homogéneos; es decir, muestra una estabilidad del valor b en casi todo el catálogo a diferencia de los datos de México, se procede a realizar el análisis ponderado de todo el catálogo, éste se presenta en la figura 47.
Capítulo 1
Ernesto López
Figura 47: Análisis de regresión lineal ponderado para todo el catálogo de Italia Ms.
En la figura 47 se observa que el ajuste ponderado de todo el catálogo presenta una bondad de ajuste del 96.41%, lo cuál indica un muy buen modelo. Se podría concluir que éste es el resultado que describe la relación entre los métodos EMR y BC para éste catálogo. Sin embargo, utilizando el análisis de residuales presentado en la figura 46, se procede a eliminar los valores atípicos potenciales, con el propósito de obtener una mejor relación.
La figura 48 muestra el análisis de regresión lineal simple sin valores extremos.
Figura 48: Análisis de regresión lineal simple sin valores extremos, Italia Ms.
Capítulo 1
Ernesto López
En las tablas 18, 19, 20 y 21 se presentan los resultados del análisis de regresión lineal simple.
Tabla 18: Ecuación lineal con sus respectivos coeficientes de correlación y determinación.
Ecuación Coeficiente de correlación Coeficiente de determinación
05465100785.1 −−=∧
xy 99413.0=r 9883.02 =R
Tabla 19: Pruebas de hipótesis t y F.
Prueba t Prueba F 05.0=α 01.0=α
0518.22,2/ =−ntα 6800.72,1, =−nFα
7553.470 =t 6.22800 =F
2,2/0 || −> ntt α se rechaza 0: 10 =βH 2,1,0 −> nFF α se rechaza 0: 10 =βH
HAY RELACIÓN LINEAL HAY RELACIÓN LINEAL Tabla 20: Análisis de varianza (ANOVA).
Fuente de variación
Suma de cuadrados
Grados de libertad
Cuadrado medio
0F
Regresión 0.9441 1 0.9441 2280.6 Residual 0.0112 27 0.00041398 Total 0.9553 28
Tabla 21: Intervalos de confianza de )%1(100 α− .
Pendiente 1248.10322.1 1 ≤≤ β Ordenada 0175.00918.0 0 −≤≤− β
Varianza 00076697.00002587.0 2 ≤≤ σ Se procede a hacer el análisis ponderado con el propósito de obtener la mejor
relación para éste catálogo.
Capítulo 1
Ernesto López
Figura 49: Análisis de regresión lineal ponderado final.
Se observa en la figura 49 que el modelo presenta una bondad de ajuste del 96.46%
y que la ecuación que describe la relación entre los métodos es:
03515.098764.0 += BCEMR También se realizaron los análisis de las constantes de la regresión contra el tiempo
para dar sustento a la conclusión, éste aparece en el anexo digital.
5.3.‐ Nueva Zelanda ( Ms )
Se inicia observando la tendencia de ambos métodos en la figura 50.
Capítulo 1
Ernesto López
Figura 50: Tendencia de los métodos EMR y BC con respecto al tiempo por separado (arriba) y juntos (abajo), Nueva Zelanda Ms.
Se observa en la figura 50 que la correlación de los métodos comienza a partir de la
fecha de 1986, debido a que siguen una tendencia similar. Se procede a hacer el análisis
de regresión lineal simple para todo el catálogo, éste se muestra en la figura 51.
Capítulo 1
Ernesto López
Figura 51: Análisis de regresión lineal simple para todo el catálogo de Nueva Zelanda Ms.
Es evidente en la figura 51 que el modelo no es bueno, debido a valores atípicos
que se observan a simple vista en la parte inferior, que corresponden a las fechas
antiguas (1978‐1985). Sin embargo, se procede a utilizar la regresión lineal ponderada
(presentado en la figura 52) para observar si éste análisis es sensible a estos datos
atípicos.
Figura 52: Análisis de regresión lineal ponderado para todo el catálogo de Nueva Zelanda Ms.
Capítulo 1
Ernesto López
Se podría concluir que éste es el resultado que describe la relación entre los métodos para éste catálogo, sin embargo se procede a analizar los residuales (presentados en la figura 53) con el propósito de obtener el mejor modelo en el cual se encuentre la estabilidad del valor b.
Figura 53: Gráfica de residuales estandarizados ( izquierda) y estudentizados (derecha).
Entonces se procede a realizar el análisis de regresión lineal simple sin valores atípicos, éste se presenta en la figura 54.
Figura 54: Análisis de regresión lineal simple sin valores atípicos
Capítulo 1
Ernesto López
En las tablas 22, 23, 24 y 25 se presentan los resultados obtenidos a través del
análisis de regresión lineal simple mostrado en la figura 54.
Tabla 42: Ecuación lineal con sus respectivos coeficientes de determinación y correlación. Ecuación Coeficiente de correlación Coeficiente de determinación
0873.02234.1 −=∧
xy 98967.0=r 97945.02 =R
Tabla 43: Pruebas de hipótesis t y F.
Prueba t Prueba F 05.0=α 01.0=α 0930.22,2/ =−ntα 1800.82,1, =−nFα
0918.300 =t 5186.9050 =F
2,2/0 || −> ntt α se rechaza 0: 10 =βH 2,1,0 −> nFF α se rechaza 0: 10 =βH
HAY RELACIÓN LINEAL HAY RELACIÓN LINEAL Tabla 44: Análisis de varianza (ANOVA).
Fuente de variación
Suma de cuadrados
Grados de libertad
Cuadrado medio
0F
Regresión 0.0553 1 0.0553 905.5186 Residual 0.0012 19 0.00061028 Total 0.0564 20
Tabla 45: Intervalos de confianza de )%1(100 α− .
Pendiente 3084.11383.1 1 ≤≤ β Ordenada 0391.01355.0 0 −≤≤− β
Varianza 00013091.00000352.0 2 ≤≤ σ
Los resultados son satisfactorios debido a que el modelo indica una bondad de
ajuste del 97.94 % y las pruebas estadísticas concluyen que existe relación lineal entre los métodos. Sin embargo se procede a realizar el análisis ponderado para concluir en éste catálogo.
Éste análisis se presenta en la figura 55.
Capítulo 1
Ernesto López
Figura 55: Análisis de regresión ponderado final.
Como se muestra en la figura 55, la bondad del ajuste es de 96.25 %, menor que la
bondad del ajuste estimado con el análisis de regresión lineal simple, sin embargo este es
mas confiable debido a que se consideró un modelo heterocedastico.
Por lo tanto se concluye que el mejor modelo que describe la relación entre los métodos
es:
036896.01333.1 −= BCEMR
De igual manera se hizo el análisis de la variación de las constantes de la regresión
en el tiempo. Éste se encuentra en el anexo digital.
Además, se realizaron todos estos análisis para los catálogos de México mb, Italia
mb y Nueva Zelanda mb, los resultados se encuentran en el anexo digital.
Capítulo 1
Ernesto López
CONCLUSIONES
Se logró encontrar una relación lineal entre los resultados del método EMR a partir
del BC y se han podido conocer sus alcances y limitaciones.
En todos los casos, no fue posible confiar en todo el catálogo, debido a que existen
intervalos en las cuales no se presenta relación alguna entre los métodos. Esto no
significa que no exista correlación en esas fechas (antiguas generalmente), sino que la
instrumentación presente no era confiable.
Existe una buena correlación entre los métodos para las magnitudes Ms. Sin
embargo para mb se tuvo que explorar más en el tema de regresión, con el propósito de
obtener un buen resultado. Esto se debe a que la forma de calcular la magnitud mb ha
variado a través del tiempo, lo cual ha provocado que los resultados del valor b
presenten demasiada incertidumbre y por consiguiente no se aprecie una buena
correlación de los métodos, pero gracias a ésta técnica estadística fue posible obtener un
resultado satisfactorio.
El análisis de regresión lineal puede ayudar (en algunos casos) a encontrar la teoría
de la estabilidad del valor b. Esto es debido a que las zonas donde existe una mejor
correlación de los métodos, es porque existe una incertidumbre menor de uno con
respecto al otro y cuando se realiza el análisis de regresión lineal de los valores b para un
catálogo completo, al examinar sus residuales e ir eliminando valores atípicos, las
observaciones que se van preservando se deben a que están mejor correlacionadas y se
acercan mas a la línea de regresión, mientras que los observaciones eliminadas se
refieren a los valores b menos correlacionados y generalmente corresponden a las
fechas antiguas en la cual no se presenta estabilidad.
Capítulo 1
Ernesto López
Se obtuvo una perspectiva distinta a lo que se pensaba sobre la sismicidad en el
noreste de México. El valor b <1 indica que la zona presenta una sismicidad significativa
como para darle mas atención a este tipo de estudios.
Se logró el objetivo de programar algoritmos capaces de efectuar el análisis de
regresión lineal simple y ponderada, los cuales funcionan para n datos y son fáciles de
utilizar.
Capítulo 1
Ernesto López
BIBLIOGRAFÍA
SE TIENEN QUE PONER EN ORDEN ALFABÉTICO
S. Stein & M. Wysession, (2003). An introduction to seismology, earthquakes, and earth
structure. Blackwell Publishing. 217‐221.
S. Wiemer & M. Wyss, (2002). Mapping spatial variability of the frequency‐magnitude
distribution of earthquakes. Advanced in Geophysics. 45, 259–302.
P. Bak, (1996). How nature works: the science of self‐organized criticality. Springer‐
Verlag. Pag. 212.
F. R. Zúñiga & M. Wyss, (2001). Most and least likely locations of large to great
earthquakes along the pacific coast of Mexico, estimated from local recurrence times
based on b‐values. Bulletin of the Seismological Society of America. 91(6), 1717‐1728.
2nd ed. (Cambridge University Press, 2002).
S. Wiemer & M. Wyss, (1997). Mapping the frequency‐magnitude distribution in
asperities: An improved technique to calculate recurrence times? Journal of Geophysical
Research B: Solid Earth, 102(B7), 15115‐15128.
V. G. Kossobokov, V. I. Keilis‐Borok, D.L. Turcotte & B.D. Malamud, (2000). Implications of
statistical physics approach for earthquake hazard assessment and forecasting. Journal of
Geophysical Research B: Solid Earth, 102(B7), 15115‐15128.
G. Zöller, S. Hainzl, & M. Holschneider, (2008). Recurrent Large Earthquakes in a Fault
Region: What Can Be Inferred from Small and Intermediate Events? Bulletin of the
Seismological Society of America, Vol. 98, No. 6, pp. 2641–2651.
Capítulo 1
Ernesto López
F. R. Zúñiga & M. Guzmán, (1994). Main seismogenic sources in Mexico. Informe Técnico.
Seismic Hazard Project, IPGH.
F. R. Zúñiga, G. Suárez & A. Figueroa, (2009). A Seismotectonic Regionalization
of Mexico for Engineering Purposes. In process.
J. Woessner & S. Wiemer, (2005). Assessin the quality of earthquake catalogues:
estimating the magnitude of completeness and its uncertaitinty. Bulletin of the
Seismological Society of America, Vol. 95, No. 2, pp. 684–698.
S. Wiemer & M. Wyss, (2000). Minimum magnitude of completeness in earthquakes
catalogs: examples from Alaska, the Westerm United States, and Japan. Bulletin of the
Seismological Society of America, 90, 4, pp. 859–869, August 2000.
Y. Y. Kagan, (2003). Accuracy of modern global earthquake catalogs. Bulletin of the
Seismological Society of America. Vol. 92, No. 2. 641‐655.
D. Marsan, (2003). Triggering of seismicity at short timescales following Californian
earthquakes. Journal of geophysical research, Vol. 108, No. B5, 2266.
S. Wiemer & F. R. Zúñiga, (1994). ZMAP, EOS Transactions, 75. American Geophysical
Union.
F.R Zúñiga, (1991). Predicción sísmica. (Tomado del Servicio Sismológico Nacional).
Fuente: El Planeta vol.I Núm.32 Abril, 1991.
D.C. Montgomery, E. A. Peck & G.G. Vining. Introducción al análisis de regresión lineal.
Por V. González P. Compañía Editorial Continental. Primera reimpresión. México. D. F.
México. 588 p.
Capítulo 1
Ernesto López
K. Aki, (1965). Maximum likelihood estimate of b in the formula log N = a – bM and its
confidence limits. Bulletin or the earthquake research institute. Vol. 43 (1965), pp. 237‐
239.
Aimin Cao & Stephen S. Gao, (2002). Temporal variation of seismic b‐values beneath
northeastern Japan island arc. Geophysical research letters, Vol. 29, N. 9, 1334,
10.1029/2001GL013775, 2002.
B. Gutenberg & C. F. Richter, (1944). Frequency of earthquakes in California. Bull.
Seism. Soc. Am. 34, 185–188.
G. J., Hahn, (1973). The coefficient of determination exposed!. Chem. Technol., 3, pp. 609‐
614.
top related