trabajo fin de mÁster desarrollo y aplicación de técnicas
TRANSCRIPT
TRABAJO FIN DE MÁSTER
Desarrollo y aplicación de técnicas de
Meta-análisis en estudios de asociación
genética
Raquel López Alcaraz
Departamento de Estadística e Investigación Operativa
Universidad de Granada
TUTOR GENYO: Pedro Carmona Sáez
TUTORA UGR: Yolanda Román Montoya
Declaro explícitamente que el trabajo presentado es original, entendido
en el sentido de que no he utilizado fuentes sin citarlas debidamente.
Fdo.: Raquel López Alcaraz
Granada, septiembre de 2015
RESUMEN
Hoy en día son llevados a cabo numerosos estudios de asociación genética en las
investigaciones científicas, por ello, los investigadores se interesan cada vez más por las
nuevas publicaciones que se generan en este campo con el fin de mantenerse totalmente
informados hacia toma de decisiones.
En muchas ocasiones aunque los investigadores de estudios de asociación genética
estén convencidos de que las decisiones que tomaron se basaron en la mejor evidencia
disponible, puede surgir la duda de si últimamente se han publicado estudios que ponga
en cuestión esas decisiones. Es posible que el investigador lleve sin ponerse al día de las
nuevas publicaciones desde hace tiempo, y se dé cuenta de que necesita despejar sus
dudas mediante una síntesis concisa, actualizada y rigurosa sobre las decisiones
evidentes que tuviese que tomar, es decir, necesita una revisión sistemática.
Para la realización de las revisiones sistemáticas se deben de seguir una serie de
pautas que son de suma importancia, ya que si nos saltamos alguna de ellas es muy
posible que los resultados obtenidos no sean fiables. La mayoría de las revisiones
sistemáticas no suelen estar realizadas solamente por el investigador, también están
formadas por una serie de especialistas que se encargan de algunas de las pautas a
seguir en esta. Pero es posible que el investigador quiera los resultados en un corto
plazo de tiempo, y es por ello que quiera utilizar herramientas fáciles de manejar y
rápidas.
Uno de los puntos importantes de muchas revisiones sistemáticas es el meta-análisis.
Para realizar un meta-análisis en estudios de asociación genética, es importante tener
conocimientos estadísticos avanzados, y esto supone un gran calentamiento de cabeza
para los investigadores, ya que la mayoría tienen unas nociones básicas de estadística.
Por esta razón buscan un software en el que tan solo tengan que introducir los datos, y
este les devuelva todos los resultados de un meta-análisis de forma rápida, y sin
necesidad de tener muchos conocimientos de estadística ni del programa.
Pero no es fácil encontrar programas que realicen este tipo de meta-análisis, y mucho
menos que den todos los resultados de forma rápida. Esta es la razón de este trabajo,
realizar mediante el software estadístico R, una función que realice todos los pasos de
un meta-análisis en estudios de asociación genética, con tan solo unos conocimientos
muy básicos del programa. Para llevar a cabo esta función se tienen que desarrollar y
aplicar las técnicas de un meta-análisis en estudios de asociación. Para el desarrollo de
estas técnicas se han seguido las indicaciones que vienen en Takkinstian et al.
La primera técnica a realizar en este tipo de meta-análisis es estudiar el Equilibrio de
Hardy-Weinberg para ver si la población de cada uno de los estudios de la revisión
sistemática se encuentra en equilibrio genético. Este paso es importante ya que es lo que
le da al meta-análisis el grado de fiabilidad que necesita. El siguiente paso es detectar la
no heterogeneidad entre los estudios mediante el test de Cochran (Q test) que está
basado en el método de la inversa de la varianza, o mediante el índice 2I que describe el
porcentaje de variación total entre los estudios que es debido a la heterogeneidad, para
este índice además se ve cómo se calculan sus intervalos de confianza. Una forma
gráfica de ver la heterogeneidad va a ser mediante el diagrama de bosque, más bien
conocido como forest plot. Seguidamente se realizará un análisis de regresión logística
binaria mediante el método parcial, en ella se verá primero cómo se ajusta un modelo
logit mediante el procedimiento stepwise, a continuación, cuáles son los estimadores de
los parámetros del modelo, seguiremos con la inferencia en los resultados obtenidos
donde se va a estudiar la bondad de ajuste del modelo logit mediante el test de la chi-
cuadrado de razón de verosimilitudes, el contraste de Wald sobre los parámetros del
modelo, y los intervalos de confianza de cada uno de los estimadores del modelo. Por
último se van a interpretar los parámetros, se va a determinar el mejor modelo genético
y se va a realizar una agrupación de los resultados (opcional). Todas las técnicas
llevadas a cabo en este trabajo para la realización del meta-análisis, han sido
considerando un modelo de efectos fijos y la variable respuesta categórica binaria.
Se ha programado una función en R la cual hace todo el estudio completo de meta-
análisis con las técnicas aquí vistas, y se ha aplicado a datos reales.
Agradecimientos
Quisiera dedicar este apartado a agradecer la labor de todas aquellas personas que
han colaborado para hacer posible este trabajo fin de Máster. Gracias especialmente a
mis tutores Pedro Carmona Sáez y Yolanda Román Montoya, cuyo esfuerzo y
dedicación en el asesoramiento del trabajo ha sido fundamental para el desarrollo del
mismo. Finalmente quisiera agradecerle especialmente a mi familia y a mi novio el
apoyo que me han dado. Sin vuestra ayuda este trabajo no hubiera podido realizarse.
Índice: 1. Introducción ........................................................................................................... 11
2. Revisión sistemática y meta-análisis ..................................................................... 13
2.1. Etapas de una revisión sistemática .................................................................. 15
2.1.1. Definición de la pregunta clínica de interés: ........................................... 15
2.1.2. Localización y selección de los estudios relevantes en relación con la
pregunta de interés .................................................................................................. 16
2.1.2.1. Identificación de artículos potenciales .............................................. 17
2.1.2.2. Selección de artículos potenciales .................................................... 20
2.1.3. Extracción de datos de los estudios primarios ......................................... 20
2.1.4. Análisis y representación de los resultados (Meta-análisis) .................... 22
2.1.5. Interpretación de los resultados ............................................................... 22
3. Conceptos previos de genética ............................................................................... 23
3.1. Cromosomas y genes ...................................................................................... 24
3.2. Genotipo y fenotipo ........................................................................................ 25
3.3. Modelos genéticos .......................................................................................... 26
3.4. Polimorfismos de nucleótido simple (SNPs) .................................................. 28
4. Estudios de asociación genética ............................................................................. 29
5. Meta-análisis en estudios de asociación genética .................................................. 31
5.1. Ley de Hardy-Weinberg ................................................................................. 32
5.2. Heterogeneidad ............................................................................................... 35
5.3. Análisis de regresión ....................................................................................... 39
5.3.1. Ajuste del modelo logit ........................................................................... 42
5.3.2. Estimación directa de los parámetros del modelo ................................... 45
5.3.3. Inferencia en los resultados ...................................................................... 46
5.3.3.1. Contrastes de bondad de ajuste del modelo logit. ............................. 46
5.3.3.2. Contraste de Wald sobre los parámetros del modelo ........................ 48
5.3.3.3. Intervalos de confianza ..................................................................... 50
5.3.4. Interpretación de los parámetros .............................................................. 50
5.4. Determinación del mejor modelo genético ..................................................... 52
5.5. Agrupación de resultados ................................................................................ 54
6. Programa “meta_analysis” ..................................................................................... 54
7. Ejemplo de un meta-análisis para datos dicotómicos ............................................ 56
7.1. Equilibrio de HardyWeinberg. ........................................................................ 57
7.2. Estudio de la heterogeneidad .......................................................................... 57
7.3. Análisis de regresión logística ........................................................................ 60
7.4. Determinación del mejor modelo genético ..................................................... 61
7.5. Agrupación de resultados ................................................................................ 62
8. Conclusiones .......................................................................................................... 64
APÉNDICES ............................................................................................................. 65
Apéndice A: modelo de efectos fijos/aleatorio ...................................................... 65
Apéndice B: Libros de R ....................................................................................... 66
Libro HardyWeinberg ........................................................................................ 66
Libro ‘meta’ ....................................................................................................... 68
Función ‘meta’ ............................................................................................... 68
Función ‘forest.meta’ ..................................................................................... 70
Otros libros ........................................................................................................ 73
Apéndice C: Script del programa “meta_analysis” ............................................... 73
BIBLIOGRAFÍA: ...................................................................................................... 83
11
1. Introducción
Durante muchos años, los investigadores aplicaron su intuición y su experiencia para
contrarrestar el alto grado de incertidumbre respecto a la toma de decisiones. Pero a
partir de la década de los 90 se han producido numerosas publicaciones científicas, que
han hecho sobrepasar las posibilidades de mantenerse informados, para la toma de
decisiones. Esto ha hecho que en la actualidad se necesite contar con información
sistemática recolectada, que sea válida y útil a las necesidades del investigador frente.
Por ello se ha generado la necesidad de una nueva forma de investigación denominada
“investigación por revisión” o “revisión sistemática” (Ortiz, 1997).
Una revisión sistemática (RS) tiene como objetivo reunir toda la evidencia empírica
que cumple unos criterios de elegibilidad previamente establecidos, con el fin de
responder una pregunte específica de investigación. Utiliza métodos sistemáticos y
explícitos, que se eligen con el fin de minimizar sesgos, aportando así resultados más
fiables a partir de los cuales se pueden extraer conclusiones y tomar decisiones (Allen &
Clarke, 2007). Es por ello que las RS son consideradas como investigaciones
secundarias, ya que son una investigación sobre lo investigado. Muchas revisiones
sistemáticas contienen meta-análisis, que es la parte de la RS que se encarga del análisis
de los datos.
En ocasiones las revisiones sistemáticas son llamadas meta-análisis pero esto es un
error, ya que un meta-análisis es una técnica estadística que se encarga de combinar los
resultados de diversos estudios individuales para lograr sintetizar sus resultados y dar
una estimación global de ellos.
Los estudios de asociación molecular basados en la población son cada vez más
populares y las técnicas para realizar un meta-análisis pueden ser complicadas de llevar
a cabo o pueden ocuparles a los clínicos mucho tiempo, ya que la mayoría tiene unas
nociones básicas de estadística, es por ello que tendrán que pedir a bioestadísticos que
se encarguen del análisis de los datos. Otra opción sería trabajar con un software en el
que tan solo se introdujesen los datos y este devolviese todos los resultados de un meta-
12
análisis de estudios de asociación genética. Pero apenas si existen hoy en día un
programa o página en internet que tenga estas características.
Hay programas estadísticos como R, SPSS o STATA que realizan meta-análisis, pero
para poder trabajar con ellos, antes se tiene que estudiar un poco sobre estos programas,
y además la mayoría realizan meta-análisis de ensayos clínicos. Todo esto llevó a que se
pensase realizar una función en R que fuese fácil de manejar sin saber mucho sobre este
programa, en donde los investigadores pudieran obtener todos los resultados necesarios
de un meta-análisis de estudios de asociación molecular que ellos mismos hayan
seleccionado e introducido en dicho programa, desde el equilibrio de Hardy-Weimberg
hasta la determinación del mejor modelo genético. Se ha elegido R por tratarse de un
software libre, el cual “permite hacer análisis muy complejos a estadísticos sin que
conozcan en profundidad los sistemas de computación” (científico investigador de
Google Daryl Pregibon). Aunque empezar a utilizar R es más complejo que comenzar
a utilizar algunos programas manejados mediante menú, no es excesivamente difícil y
sin embargo tiene muchas ventajas sobre ellos. R también puede ser usado como
cualquier otro programa ya que tiene una interface gráfica (R Commander), pero tiene la
enorme ventaja de que nos permite saber cómo vamos realizando el trabajo, ya que es
necesario involucrarse con el código que genera los resultados. Esto permite tener
completo control sobre el procedimiento de análisis y tiene el beneficio asociado de
familiarizarnos mejor con los procedimientos estadísticos realizados.
A lo largo de este trabajo se desarrollará la implementación de dicha función. En
primer lugar se analizarán los conceptos de Revisión Sistemática y Meta-análisis. Se
presentarán también una serie de nociones sobre genética y estudios asociación
genética. A continuación se desarrollará la realización de un meta-análisis para estudios
de asociación genética de datos dicotómicos para el caso de un modelo de efectos fijos
con variable respuesta categórica binaria, y por último se verá un ejemplo de este tipo
de meta-análisis.
13
2. Revisión sistemática y meta-análisis
Se van a seguir las pautas de (Guaita, 2007) y (Gonzalez, Urrútia, & Alonso-Coello,
2011). A menudo en la práctica clínica se generan frecuentes dudas en la toma de
decisiones sobre una pregunta concreta que plantean los investigadores. La falta de
tiempo, la cantidad de estudios publicados, la falta de conocimientos básicos de
epidemiología y de estadística, han hecho que la Medicina Basada en Evidencia, como
estrategia metodológica, haya desarrollado aspectos prácticos para la búsqueda de la
evidencia y solución a las preguntas planteadas.
Cuando los clínicos o investigadores quieren conocer la respuesta acerca de una
pregunta concreta, por experiencia saben que no pueden sacarla de la lectura de un
artículo, ya que a menudo los hallazgos reportados por un autor son a veces
cuestionados y no aceptados por otros investigadores, o confirmados por repetidas
investigaciones. Pero pocas veces, los estudios de investigación, aún los más rigurosos,
es seguro que den respuestas definitivas a las preguntas que se platean, ya que en
muchos casos se ha demostrado que eran incorrectos por los sesgos producidos y en
otras ocasiones la selección de la muestra no era la adecuada. Por ello, para que un
investigador o clínico pueda llegar a concluir una respuesta definitiva y segura, va a
llevar a cabo una revisión sistemática. Las RS se consideran las fuentes más fiables para
informar de la toma de decisiones médicas, quizás es por ello por lo que se están
haciendo cada vez más populares.
Una revisión sistemática es un artículo de investigación, sobre una pregunta concreta,
que identifica estudios relevantes, valorando su calidad y sintetizando sus resultados
utilizando una metodología científica. Su singular valor y utilidad está en reunir un
número de estudios, realizados de manera independiente, a veces con resultados
opuestos y sintetizar sus resultados (Guaita, 2007). Pero no siempre es posible
presentar resumidamente los resultados de los estudios primarios. Cuando estos estudios
no se combinan estadísticamente, la revisión es conocida como RS cualitativa o
overview (Ortiz, 1997). Cuando se aplican unos métodos matemáticos y estadísticos
apropiados a los datos que hemos obtenido en una revisión, para clarificar la
14
información encontrada, obtenemos los meta-análisis, que también son denominados
como análisis cuantitativos.
Meta-análisis (MA) no es sinónimo de revisión sistemática como muchos creen, sino
una parte de la revisión, de hecho un meta-análisis no es siempre posible, pero una
revisión sistemática sí. Sin embargo, cuando se cumplen las condiciones para realizarlo,
el MA aporta información muy útil y manejable parar facilitar la comprensión acerca
del efecto de un tratamiento o intervención, tanto en general como en grupos específicos
de pacientes. Además, permite aumentar la precisión en la estimación del efecto
detectando efectos de magnitud moderada pero clínicamente importantes que podrían
haber pasado inadvertidos en los estudios primarios. Habitualmente, el MA combina
datos agregados procedentes de los estudios publicados, pero en ocasiones puede
combinar datos individualizados de los pacientes que han participado en varios estudios.
Es el llamado MA con datos individuales de pacientes (individual patient data meta-
analysis), considerado patrón de referencia de las RS. Es muy importante tener claros
los conceptos de Revisión Sistemática y meta-análisis en la literatura científica, ya que
algunos autores utilizan el término “meta-análisis” como sinónimo de “revisión
sistemática con tratamiento estadístico de los datos” y otros se refieren a las “revisiones
sistemáticas” como “meta-análisis sin tratamiento estadístico”. En este trabajo se va a
utilizar los términos tales y como son, es decir, el término “Revisión Sistemática” para
el proceso entero, y el de “meta-análisis” como la parte de la RS que se encarga del
análisis estadístico de los datos.
A diferencia de las revisiones narrativas, en las RS se emplean métodos sistemáticos
para la búsqueda de todos los estudios potencialmente relevantes junto con unos
criterios explícitos y reproducibles, fijados de antemano en la selección. Eso es lo que
hace que se les confiere el carácter científico a diferencia de las revisiones narrativas.
Los primeros meta-análisis fueron reportados en 1955, pero el término en sí fue
utilizado e impuesto por Glass en 1976 a través de la literatura psicológica y, ya en
1980, se encontraron libros de texto con este concepto (Ortiz, 1997).Este campo de
15
investigación se ha ido desarrollando con rapidez. En el plano internacional, el estímulo
para las revisiones sistemáticas ha venido de la mano de la Colaboración Cochrane.
Es necesario contar con un protocolo previo a la realización de una RS. Esto ayudará
a reflexionar y aplicar los métodos más adecuados que luego se aplicarán a la RS, y
además, evitará tomar malas decisiones a posteriori en función de los resultados.
2.1. Etapas de una revisión sistemática
Según (Guaita, 2007) y (Gonzalez, Urrútia, & Alonso-Coello, 2011) una Revisión
Sistemática sigue las siguientes etapas:
• Definición de la pregunta clínica de interés y los criterios de inclusión y
exclusión de los estudios.
• Localización y revisión de los estudios relevantes.
• Extracción de datos de los estudios primarios.
• Análisis y representación de los resultados.
• Interpretación de los resultados.
2.1.1. Definición de la pregunta clínica de interés:
El primer paso es formular bien la pregunta que se quiere interpretar, ya que el
corazón de toda revisión sistemática de alta calidad es la formulación clara de la
pregunta primaria. Una pregunta confusa conlleva a una respuesta confusa o ninguna
respuesta. Una pregunta poco específica puede servir poco de ayuda al clínico para
tomar una decisión en un paciente concreto. Una vez definida una pregunta clara es fácil
establecer los criterios de inclusión y exclusión de los estudios primarios.
Para que una pregunta esté bien formulada tiene que tener unos criterios de inclusión
y exclusión. Estos criterios se definirán en los siguientes términos:
- Población específica y el contexto: descripción de los sujetos que van a formar
parte del estudio y problema clínico que se investigará.
16
- Exposición de interés: podría ser un factor de riesgo, un factor pronóstico, una
intervención o tratamiento, o un test diagnóstico. En el caso de una intervención,
tratamiento o test diagnóstico, es habitual definir al mismo tiempo una
exposición control.
- Resultados medidos: por ejemplo, descripción del dolor, mortalidad total,
nuevas revascularizaciones, etc.
- Diseño: características de los estudios que se seleccionarán en el escrutinio.
En el protocolo del estudio se deben precisar las tareas que se seguirán en la RS. Se
necesitará clarificar y explicar los métodos que se van a llevar a cabo para reducir al
mínimo el sesgo y para asegurarse de que los resultados sean reproducibles.
Pero hay que tener cuidado, ya que unos criterios de inclusión excesivamente
específicos pueden llevar a limitar la aplicabilidad de los resultados, y a no tener sentido
clínico ni biológico.
2.1.2. Localización y selección de los estudios relevantes en relación con la
pregunta de interés
En (Gonzalez, Urrútia, & Alonso-Coello, 2011) las etapas para este punto constan de
los siguientes componentes:
a) Identificación de artículos potenciales
• Decidir sobre restricciones en relación con el idioma de publicación.
• Decidir sobre las fuentes de obtención de los estudios primarios.
• Obtención de los títulos y resúmenes de los potenciales estudios primarios.
b) Selección de artículos potenciales
• Aplicar los criterios de inclusión y exclusión a los títulos y resúmenes obtenidos.
• Obtención de los artículos potenciales a partir de los títulos y resúmenes
elegibles y aplicar los criterios de inclusión y exclusión.
• Evaluar la concordancia en la selección de los estudios.
17
2.1.2.1. Identificación de artículos potenciales
En una revisión sistemática son muy importantes los artículos primarios que se
seleccionan, ya que la presencia de errores en la extracción de datos puede invalidar los
resultados de una RS. Por ello también es muy importante seleccionar tantos estudios
como se puedan, con el fin de minimizar el error aleatorio y el sesgo. Omitir estudios
por la restricción que se imponga sobre el idioma de publicación o, por haber sido
publicados o no en una revista médica, hace que se puedan producir sesgos.
Poner restricciones sobre el idioma de los estudios, que en tal caso sería el inglés,
conlleva a que estudios que son fiables pero que están escritos en otro idioma se queden
fuera generando sesgos.
Por razones de fiabilidad parece más razonable incluir sólo estudios que estén
publicados en revistas médicas, ya que estos son más fiables por haber superado un
proceso de revisión, pero en muchas ocasiones hay artículos que no son publicados en
dichas revistas por haber dado resultados negativos, por lo que su exclusión puede
sesgar los resultados de la RS. Esto es el llamado sesgo de publicación, que da lugar a
que es más probable que las RS que excluyen estudios no publicados sobreestimen la
relación entre la exposición y el evento de interés.
Una vez que se conocen los criterios de inclusión de las dos cuestiones anteriores, la
pregunta planteada es, ¿dónde se buscan los estudios primarios?.
Existen varias estrategias:
• Bases de datos electrónicas: Medline, Embase, Central (conocido antiguamente
como Cochrane Controlled Trials Register).
• Bases de datos no indexadas: Amed, Cinahl, Biosis.
• Búsqueda manual en sumarios de revistas, actas y sumarios de reuniones
científicas y libros.
• Listas de referencia y citaciones: Science Citation Index y similares.
18
• Registro de estudios en curso.
• Contacto con compañías farmacéuticas u hospitales.
• Contacto con colegas expertos en el tema de interés.
Hoy en día la estrategia más utilizada es, evidentemente, las bases de datos
electrónicas. Sin embargo no es una tarea fácil, dado que, aunque hay solapamiento
entre las bases de datos, muchas revistas incluidas en una base de datos específica no se
consideran en otras.
La identificación de potenciales artículos elegibles se suele realizar, por operatividad,
identificando títulos y resúmenes. Sin embargo, cada base de datos tiene su estructura
particular y utiliza unos criterios de indexación y palabras clave más o menos
específicas. La ayuda de un documentalista experto en RS en esta fase es crucial.
Además, hay que tener en cuenta que la estrategia de búsqueda finalmente utilizada
tiene que aparecer en la publicación de la RS, con objeto de comprobar su
reproducibilidad.
La búsqueda de estudios exclusivamente en bases de datos electrónicas podría no ser
óptima según el tema de interés. Hay ocasiones en las que resulta conveniente incluir
también una estrategia complementaria con objeto de identificar estudios no publicados.
Llegados a este punto hay que tener en cuenta que esta fase es una de las más
laboriosas, ya que suele requerir la búsqueda manual en sumarios de revistas o actas de
congresos, contactos con expertos en el tema, con compañías farmacéuticas, hospitales,
etc. Puede comprenderse que todo esto conlleva una inversión importante en tiempo y
recursos económicos. Consciente de ello la colaboración de Cochrane ha impulsado una
iniciativa internacional para desarrollar un registro de ensayos clínicos controlados, hoy
en día es conocida como CENTRAL y antiguamente como Cochrane Controlled Trials
Register.
La colaboración Cochrane ha nacido, se ha desarrollado y crecido como respuesta a
este reto. Existen en la actualidad colaboradores desinteresados de muchos países y
especialistas que están realizando, y actualizando numerosas revisiones sistemáticas de
19
ensayos controlados y aleatorizados (ECA). Dichas revisiones se analizan de manera
exhaustiva y se seleccionan aquellas de calidad más relevante para extraer de ellas
conclusiones acerca de cómo estos resultados se pueden aplicar a los cuidados de la
salud. La colaboración de Cochrane también se encarga de preparar informes
estructurados cuya difusión pueda mejorar el ejercicio de la práctica clínica y planificar
una medicina preventiva más eficaz. Dichas revisiones están clasificadas por
especialidades. Cuando no existen ECA relevantes en un área concreta de interés, la
revisión se lleva a cabo con la evidencia más fiable que se pueda encontrar. Para evitar
esfuerzos innecesarios y duplicaciones, los revisores registran su trabajo en la
CENTRAL y a su vez son informados de si ya existe alguna revisión del tema concreto.
Estas revisiones son preparadas, puestas al día y difundidas mediante medios
electrónicos a través de la "Cochrane Library".
En Octubre de 2006 se encontraban registrados en La Base de Datos Cochrane de
Revisiones Sistemáticas (CDSR) 2.668 revisiones sistemáticas, y en The Cochrane
Central Register of Controlled Trials (CCTR), 47.7942 referencias bibliográficas.
La Colaboración Cochrane está presente en 15 países entre los que se encuentran
España, Australia, Brasil, China y África del Sur.
Se puede contactar con la página de colaboración Cochrane a través de Internet en
cada uno de los distintos países donde está presente, así como a través de su página Web
internacional http://www.updatesoftware.com/clibhome/clib.htm. Actualmente España
tiene un acuerdo con la colaboración de Cochrane y existe una clave de acceso gratuita
a todas sus bases de datos “La Cochrane Library Plus en español”
http://www.updatesoftware.com/clibplus/clibplus.htm.
La búsqueda en diversas bases de datos electrónicas hará que se tenga un número
elevado de referencias bibliográficas, que en muchas ocasiones estén duplicadas entre
las bases de datos. Por ello resultará útil utilizar en esta fase software para gestionar de
forma automática las citas bibliográficas. En este sentido podemos citar ProCite o
Reference Manager. ProCite es un programa de gestión bibliográfica, útil para crear,
20
mantener, organizar y dar forma a referencias bibliográficas o citas de artículos de
revista o libros, obtenidas de una o varias bases de datos y catálogos. Nos ayuda a
buscar, descargar, organizar y presentar esas referencias bibliográficas en el estilo
deseado (Thomson Reuters). Reference Manager es más comúnmente utilizado por
personas que quieren compartir una base de datos central de referencia y la necesidad de
tener múltiples usuarios que añadan y editen registros al mismo tiempo, y se puede
especificar si los usuarios pueden hacer cambios en las bases de datos (Thomson
Reuters).
2.1.2.2. Selección de artículos potenciales
Es a partir de los títulos y resúmenes identificados cuando se hace el primer cribado
de los artículos potenciales que se ya se han elegido con anterioridad. Para ello es
conveniente diseñar una hoja de selección de estudios que sea operativa incluyendo
criterios explícitos y comprensibles. Se comenzará el proceso de selección mediante los
títulos y resúmenes, pero en el caso de que haya dudas se revisará el artículo completo.
La selección de estudios es conveniente que la realicen dos revisores de forma
independiente, con la finalidad de aumentar la fiabilidad y la seguridad del proceso. El
grado de acuerdo de los revisores será estudiado con el estadístico kappa. En el caso de
que los dos revisores no se pongan de acuerdo con la inclusión o no de un artículo, se
nombrará a un tercer revisor senior que será el que tome la decisión de si incluir o no
ese artículo.
En este punto hay que dejar bien explicado qué artículos entran a formar parte de la
RS, y cuáles se quedan fuera incluyendo sus causas. Generalmente esto se suele
expresar mediante un diagrama de flujo.
2.1.3. Extracción de datos de los estudios primarios
21
Esta parte es muy importante ya que requiere la máxima fiabilidad de la información
que se recoge en cada estudio seleccionado, por lo que es de nuevo importante que la
extracción de los estudios se haga en duplicado.
Durante la fase de diseño del estudio, se consensua cuál será la información a extraer
de los estudios primarios. La hoja de extracción de datos suele incluir:
a) Información sobre los pacientes, intervención de interés, intervención control y
diseño de estudio.
b) Información sobre los resultados.
c) Información sobre la calidad metodológica del estudio.
El primer apartado corresponde a toda aquella información que puede ser relevante
por su potencial impacto en el resultado y su variación entre estudios. Las diferencias
que existan entre las características de los pacientes, por ejemplo la edad, ya que hay
enfermedades que se desarrollan de forma distinta a una edad joven que a una edad
adulta, podrían explicar que la magnitud del efecto de la intervención varía de un
estudio a otro. Es decir, podría explicar la heterogeneidad.
Lo que se quiere es que haya un equilibrio de exhaustividad de la información a
recoger, evitando, como no, el exceso de información innecesaria.
El punto (b) corresponde a la extracción de los resultados. El formato elegido
dependerá de cómo estén definidos los eventos de interés, como variable dicotómica o
como variable continua. En el primer caso unas veces será sencillo obtener el porcentaje
y el número de pacientes en los que sucedió el evento de interés. Otras veces los
resultados vendrán expresados en forma de alguna medida de asociación, como por
ejemplo, riesgo relativo, reducción del riesgo relativo, o razón de ventajas. Existen
varias plantillas para ello.
El punto (c) se refiere a la valoración de la calidad de los estudios. Una vez obtenidos
los artículos relevantes de la RS, se determina sistemáticamente la calidad de los
22
estudios. Este punto es muy importante, ya que es fundamental para minimizar los
sesgos.
Se desea por tanto, dar mayor énfasis a los estudios que sean “mejores” con el fin de
alcanzar conclusiones robustas y veraces. Para ello existen escalas de calidad que nos
permiten valorar de forma sencilla, la calidad de un trabajo, como por ejemplo la escala
de Jadad para el caso de ensayos clínicos, que puntúa en un rango de 0 a 5 puntos. Hay
muchas escalas para medir la calidad de los estudios que asignan a cada uno de ellos
distintas puntuaciones. A pesar de que este proceso puede complicarse todo lo que se
quiere, hay unos aspectos básicos que tiene que controlar a partir de la información de
los estudios, como son el diseño del estudio, la posibilidad de combinar los distintos
trabajos, controlar los sesgos y que el análisis estadístico de los estudios se haya
realizado correctamente, revisando el valor de odds ratios, riesgo relativo e intervalos
de confianza.
En este proceso, la recolección de forma ordenada de los datos, constituye una etapa
muy importante. Todos los datos que serán sometidos al análisis quedan registrados en
una base de datos junto con las características específicas del estudio del que proceden.
2.1.4. Análisis y representación de los resultados (Meta-análisis)
Este paso consiste en la combinación mediante métodos estadísticos de los resultados
de los estudios primarios para dar una estimación global de los mismos, es decir, Meta-
análisis.
La razón principal dada por Mulrow, para realizar este paso es “aumentar el poder y
la precisión a la hora de valorar los efectos de un tratamiento y los riesgos a su
exposición”.
Este paso se verá con más detalle en el apartado 5.
2.1.5. Interpretación de los resultados
23
Finalmente, la revisión sistemática concluye con la interpretación de los resultados.
Esto conlleva a una discusión del estudio entero realizado, comentando todo lo que se
ha hecho en el, incluso los estudios que habiendo sido seleccionados en principio,
posteriormente tuvieron que eliminarse del estudio por los sesgos que producían.
A pesar de que los hallazgos de una revisión sistemática sean consistentes y
convincentes, hay que discutir sobre los resultados obtenidos, siendo el investigador el
que tome la última decisión sobre las conclusiones obtenidas tras el estudio realizado.
3. Conceptos previos de genética
El ADN es el acido desoxirribonucleico responsable de contener toda la información
genética de un individuo o ser vivo, información que es única e irrepetible en cada ser
ya que la combinación de elementos se construye de manera única. Este ácido contiene,
además, los datos genéticos que serán hereditarios, por lo que su análisis y comprensión
resulta ser de gran interés para realizar cualquier tipo de investigación científica o
aventurar una hipótesis para ver sobre la identidad o sobre las características de un
individuo.
El ADN está formado por una doble cadena helicoidal (dos cadenas que se enrollan
una sobre la otra) de nucleótidos. Cada ácido está formado por 3 elementos, de los
cuales 2 siempre son comunes al resto. Estos dos grupos son el grupo fosfato (H3PO4)
y una pentosa como es, en nuestro caso, la desoxirribosa. Existen cuatro tipos distintos
de nucleótidos con las siguientes bases nitrogenadas: adenina (A), citosina (C), guanina
(G) y timina (T). Cada una de las cadenas está formada por miles de nucleótidos, y
cada nucleótido de una cadena está unido al de enfrente de la otra cadena. Las bases de
una cadena siempre están enfrentadas a las de la otra del siguiente modo: Adenina frente
timina y citosina frente guanina. Las uniones entre estas dos cadenas solo se mantienen
por los enlaces moleculares de puentes de hidrógeno que se establecen entre cada par de
bases.
24
El ADN se encuentra en el núcleo de la célula disperso mientras esta no se está
dividiendo, pero cuando la célula entra en división el ADN se organiza formando los
cromosomas. Gracias a la capacidad de replicación del ADN, este hace copias de si
mismo mientras se divide la célula donde está inmerso. Estas copias van a las células
hijas y así estas heredan todas las propiedades y características de la célula original.
3.1. Cromosomas y genes
Como se acaba de decir los cromosomas son estructuras formadas por ADN que se
crean en la división celular.
El ADN contenido en los cromosomas se agrupa en fracciones (locus) una a
continuación de la otra, cada una de ellas tiene la información necesaria para llevar a
cabo un determinado proceso y es conocida como gen, luego un gen es un segmento de
ADN que lleva información para un carácter, por ejemplo color de pelo. De esta manera
encontramos que un solo cromosoma está formado por muchos genes.
En la especie humana se tienen 22 cromosomas homólogos y un par de cromosomas
sexuales. Cada uno de los miembros de un par es heredado de uno de los progenitores.
Dado que nuestras células son diploides, hay dos posibles secuencias de ADN
heredadas independientemente para un locus determinado y un individuo, que son los
denominados alelos.
25
Figura I. Imagen de un cromosoma desglosado.
El conjunto de todos los genes constituye el genoma de un organismo, que también
es característico para cada especie. Los seres humanos disponemos de 35.000 genes.
Cada gen dispone de dos alelos para el mismo carácter, uno con la información de la
madre y otro con la información del padre. Un alelo resulta ser cada una de las formas
alternativas que presenta un gen, que ocupa la misma posición en cada par de
cromosomas homólogos, se diferencia en su secuencia y se puede manifestar en
modificaciones concretas de la función de ese gen.
Si denominamos los dos posibles alelos como “A” siendo este el dominante, puesto
que si está presente, este alelo siempre se expresará, y “a” recesivo, ya que solo se podrá
expresar cuando su otro alelo sea homólogo. En el caso de que los dos alelos de un gen
contengan la misma información genética (“AA” o “aa”), se va a decir que el individuo
es homocigoto para ese carácter, pero si contienen distinta información (“Aa” o “aA”)
para el mismo carácter se dirá que es heterocigoto.
3.2. Genotipo y fenotipo
De los genes dependen nuestras características como ya se comentado antes. Sin
embargo no actúan solos, sino que lo hacen en colaboración con los factores
26
ambientales. En consecuencia hay que diferenciar entre los caracteres heredados y su
manifestación, es decir, entre el genotipo y fenotipo.
• El genotipo es el conjunto complejo de genes heredados por un organismo.
• El fenotipo son todas las características observables de un organismo
(morfológicas, fisiológicas, etc), es decir, es el resultado de la interacción del
genotipo y el ambiente.
3.3. Modelos genéticos
El conocimiento que tenemos hoy en día sobre la genética es gracias al monje
austriaco Gregor Mendel. Su estudio se basó en la observación de plantas de guisante.
Inicialmente tomó dos líneas puras de guisantes verdes y guisantes amarillos. Al
cruzarlos obtuvo una generación que era uniforme en cuanto a su aspecto (fenotipo),
todos los descendientes eran amarillos, sin embargo, genéticamente no podían ser
iguales ya que había mezclado dos variedades puras. De ahí concluyó que los guisantes
amarillos se podrían expresar como AA, por ser este el carácter que siempre se
mostraba. Los verdes por tanto debían ser aa, puesto que sí se manifestaban, pero no en
presencia de un alelo dominante (A). La primera generación filial Aa, mostraría el color
amarillo por la dominancia pero contendría un alelo recesivo.
Figura II. Imagen de la primera Ley de Mendel
Tomando esta generación filial, esperó a que crecieran las nuevas plantas de
guisantes y las dejó que se autofecundasen de nuevo. Vio que las plantas obtenidas eran
27
tanto amarillas como verdes, aunque las amarillas estaban 3 veces más presentes en
proporción que las verdes. Por ello concluyó que los distintos alelos de la primera
generación (Aa) se habían separado y mezclado de forma aleatoria, dando lugar a un
75% de plantas amarillas y un 25% de verdes.
Imagen III. Imagen de la segunda Ley de Mendel
A partir de experimentos posteriores se vio además que esta separación y
apareamiento era completamente aleatorio, sin verse influido por otros genes.
Por ello, de la separación y mezcla de los alelos podrían ocurrir 4 eventos.
• Que se mezclasen dos alelos dominantes (modelo codominante): Por ejemplo, si
el gen A determina color de flores blancas y el gen B color de flores rojas, la
mezcla según la primera Ley de Mendel daría hijos heterocigoticos AB. Al ser
ambos dominantes, los dos se expresarían dándoles a las flores un color rosado
mezcla de la expresión del rojo y del blanco
• Que se uniese un alelo dominante con un recesivo (modelo dominante). Este es
el caso del primer experimento de Mendel. La generación primera tiene el
fenotipo propio del gen dominante (Aa).
• Que se uniesen dos alelos recesivos (modelo recesivo): Aquí, al estar los dos
alelos recesivos si tendrían oportunidad de expresarse (aa), cosa que en
presencia de un dominante no podría ser ya que quedarían suprimidos.
• Que el fenotipo variase según un cromosoma homocigótico o heterocigótico
(modelo overdominant). En este caso la heterocigosis supone una ventaja
añadida en la expresión de un gen frente a la homocigosis para el mismo
28
carácter. Por ejemplo, en pacientes con anemia falciforme, los individuos
homocigóticos (sean dominantes o recesivos) tienen menor esperanza de vida y
menos resistencia a la malaria, los heterocigoticos poseen una mayor esperanza
de vida y algo de resistencia a esta infección.
3.4. Polimorfismos de nucleótido simple (SNPs)
Un polimorfismo de nucleótido simple o SNP es una variación de un solo nucleótido
en el material genético. El conjunto de 23 cromosomas humanos denominado genoma,
está compuesto por 3000 millones de pares de bases. El cambio de una única base con
respecto a la secuencia estándar se llama SNP.
Figura IV. Imagen de un polimorfismo
Cuando el cuerpo humano produce nuevas células, generalmente no comete muchos
errores, pero en ocasiones, cuando un fragmento del genoma se copia para crear una
célula nueva, un par de bases cambia. Ésta es la menor alteración que puede sufrir la
secuencia de ADN de un individuo, originándose por el intercambio recíproco de los
nucleótidos: adenina, citosina, guanina y timina, lo cual sucede aproximadamente cada
100 a 1000 bases, en cantidad variable y distribución aleatoria a lo largo del genoma
humano (Wang, Siao, & Fran, 1998). Para que una de estas variaciones sea considerada
un SNP debe ocurrir en al menos el 1% de la población. Por otro lado, el 90% de la
diversidad fenotípica humana proviene de las variaciones heredadas en un solo SNP.
29
Los polimorfismos son la base de la evolución y los que se consolidan. Aunque
muchos SNPs no tienen efecto sobre la función de la célula, estos pueden estar silentes
o proporcionar ventajas a los individuos, aunque una minoría podría influir en la
predisposición a determinadas enfermedades, en la respuesta a bacterias, virus o toxinas
e incluso en la respuesta a diferentes drogas y tratamientos. La estabilidad de los SNPs a
lo largo de las generaciones los convierte en óptimos para hacer estudios de
poblaciones.
Por ejemplo, en el gen de la apolipoproteína E (ApoE) se han descrito varios
polimorfismos frecuentes que consisten en cambios de una única base. Uno de ellos,
denominado ApoE ε-4, resulta en un cambio en el aminoácido cisteína de la posición
112 por una arginina. Esta variante se asocia con la enfermedad de Alzheimer (Iniesta,
Guinóa, & Moreno, 2005).
Recordemos que cada tres bases se sintetiza un aminoácido, un grupo de
aminoácidos dará una proteína, que son la base estructural del ser humano. Hay tripletes
que codifican el fin del gen, si en estos, por ejemplo hay un polimorfismo, en vez de
traducirse como fin del gen, quedaría como otro aminoácido, produciéndose una
proteína anormal, la cual puede producir enfermedades.
4. Estudios de asociación genética
Los estudios de asociación genética buscan estudiar el genoma completo y ver la
asociación que hay entre los polimorfismos (SNPs) y las distintas enfermedades. Para
ello se pueden emplear dos estrategias para buscar la mutación asociada a la
enfermedad: desde la hipótesis o sin hipótesis previa. La estrategia desde la hipótesis
previa comienza con la formulación de la hipótesis de que un determinado gen puede
estar asociado con una determinada enfermedad, y trata de buscar esa asociación. La
estrategia sin hipótesis previa emplea métodos de "fuerza bruta" para escanear todo el
genoma y posteriormente comprobar si algunos genes muestran esa asociación. Los
estudios de asociación del genoma completo emplean generalmente la estrategia sin
30
hipótesis previa (Hunter, Altshuler, & Rader, 2008). Pero en el caso de todas las
estrategias, lo primero será tener evidencias de que al menos hay una fracción de la
enfermedad que está determinada genéticamente.
La base de los estudios de asociación genética es la misma que la de los estudios de
epidemiología de casos y controles. En el estudio de una enfermedad, se denominan
casos al grupo de individuos que presentan dicha enfermedad y controles a aquellos
individuos que no estando afectados por la enfermedad, participan en el análisis.
A partir de aquí se estudian los genomas de cada uno de los dos grupos y se
comparan entre sí para ver la variabilidad genética y la presencia de SNPs, y medir la
asociación entre la presencia de los mismos y la existencia o no de cierta enfermedad
sobre la que se esté estudiando. Esto se determina mediante un análisis estadístico, el
cual se realiza con ayuda de un software bioinformático, pudiendo aplicarse también
para diversas variaciones del enfoque anterior, como es el análisis de rasgos fenotípicos
cuantitativos, por ejemplo la altura (Purcell, Neale, Todd-Brown, Thomas, & Ferreira,
2007). Sin embargo, descubrir esta asociación no resulta tan sencilla ya que existen
sesgos y modificadores externos que alteran la validez de la pruebas.
Otro tipo de estudios se realizan a partir de los estudios de cohortes. En ellos se toma
una población y se realiza un seguimiento a lo largo del tiempo para ver si los
individuos que participan en el estudio desarrollan o no la enfermedad, y estudiar las
alteraciones que haya sufrido su genoma.
Finalmente se pueden realizar a partir de estudios de tríos. Estos estudios toman a un
padre y a un hijo que estén afectados por la enfermedad y se buscan alelos que se
hereden en más de un 50% de la descendencia. Así, se reduce la necesidad de controlar
ciertos factores poblaciones, volviéndose por tanto más sencillo el análisis estadístico.
La desventaja de este método es que puede resultar difícil encontrar progenitores
afectados por la enfermedad que no la hayan fallecido.
31
5. Meta-análisis en estudios de asociación genética
Un meta-análisis es una técnica estadística que se encarga de combinar los resultados
de diversos estudios individuales para lograr sintetizar sus resultados y dar una
estimación global de ellos. La realización de un meta-análisis presenta ciertas
limitaciones como se ha visto en el apartado 2. En ocasiones, los resultados pueden
estar distorsionados debido a posibles sesgos de selección y de publicación de los
estudios. Si no se lleva a cabo un buen proceso depurativo de los datos y se valoran
adecuadamente las consecuencias de estos huecos, el meta-análisis realizado puede ser
invalidado. Para la realización correcta de un meta-análisis se disponen de distintas
técnicas estadísticas que permiten evaluar la heterogeneidad de los estudios
seleccionados así como el grado de asociación entre el SNP y la enfermedad bajo
estudio.
En esta sección se expondrán las diferentes técnicas estadísticas para la realización
de un meta-análisis y sus interpretaciones, considerando un modelo de efectos fijos y
una variable respuesta categórica binaria, donde los datos vendrán recogidos en una
tabla de contingencia como la tabla I.
Tabla I. Tabla de contingencia 3 2J× ×
Estudios Enfermedad Genotipos Est.1 … Est. j … Est. J
Casos
1Y =
AA 111n …
1 1jn … 1 1Jn
Aa 211n …
2 1jn … 2 1Jn
aa 311n …
3 1jn … 3 1Jn
Controles
0Y =
AA 110n …
1 0jn … 1 0Jn
Aa 210n …
2 0jn … 2 0Jn
aa 310n …
3 0jn … 3 0Jn
En el Apéndice A se resumen las características principales de los modelos de
efectos fijos y efectos aleatorios.
32
5.1. Ley de Hardy-Weinberg
En muchos meta-análisis de estudios de asociación molecular no ha se introducido
hasta el momento la prueba de Hardy Weinberg, lo que hace que esos meta-análisis no
tengan un alto grado de fiabilidad. Esto posiblemente esté relacionado con la falta de
compresión de los conceptos genéticos de los epidemiólogos y bioestadísticos.
En un principio la Ley de Hardy-Wewinberg era conocida en el mundo angloparlante
como Ley de Hardy por el matemático inglés Godfrey Harold Hardy, hasta que en el
año 1943 el genetista Curt Stern señaló que ya había sido formulada independiente en
1908 por el físico y gineco-obstetra Wilhelm Weinberg.
En genética de poblaciones, el principio de Hardy-Weinberg establece que la
composición genética de una población se encuentre en equilibrio a menos que se
introduzcan influencias perturbadoras., en otras palabras, se consigue en una generación
de apareamiento al azar.
Este equilibrio genético ofrece una línea para medir el cambio entre generaciones, ya
que la herencia mendeliana, por si misma, no engendra cambio evolutivo. Es por ello,
que establece un papel importante en la genética de poblaciones, por varias razones: el
desequilibrio puede ser el resultado de un error de genotipificación, más típicamente la
confusión de los heterocigotos y homocigotos; las pruebas de HWE pueden ayudar a
detectar errores de genotipado. Por otro lado, el desequilibrio entre casos en estudios de
caso-control podría indicar asociación con la enfermedad.
Esta regla establece, bajo ciertas condiciones, que tras una generación de
apareamiento al azar, las frecuencias genotípicas de un locus (fracciones en las que se
agrupa el ADN contenido en los cromosomas) se pueden expresar en términos de sus
frecuencias alélicas en una población de individuos diploides y poliploides. En forma
más general, se establece que en ausencia de la mutación, la selección, la migración y
otras posibilidades, las frecuencias genotípicas en un locus autosómico de una
población grande, alcanzarán el equilibrio en una sola generación y seguirán estando en
33
las proporciones dadas. Luego el equilibrio de Hardy-Weinberg se alcanza en una
generación de apareamiento aleatorio. El caso al que nos vamos a enfrentar en este
trabajo es el caso diploide.
En el caso diploide tendremos un locus con dos alelos, a los cuales vamos a
denominar a uno con A y a otro con a, cuyas frecuencias van a ser ( 1)p y q p q+ =
respectivamente. Bajo esta condición, las frecuencias relativas de los genotipos AAf ,
Aaf y aaf , vendrán dadas por 2 2, 2p pq y q respectivamente.
El equilibrio de HW es fácilmente extensible a sistemas con múltiples alelos
1 2, ,..., kA A A , con frecuencias 1 2 ... kp p p+ + + , siendo sus frecuencias genotípicas 2ip
para los homocigotos y 2 i ip q para heterocigotos. Una fórmula alternativa para el caso
dialélico es elevar al cuadrado las frecuencias heterocigóticas:
2 4Aa AA aaf f f= .
El test clásico de la chi-cuadrado de bondad de ajuste, ha sido utilizado durante
décadas para estudiar el equilibrio de Hardy-Weinberg. Aunque hoy en día se están
utilizando procedimientos más exactos. La prueba de razón de verosimilitud también es
posible utilizarla para este estudio aunque no va a ser abordada en este trabajo.
El test de la chi-cuadrado es el test clásico para este estudio, y es el que se encuentra
por norma general en los libros de genética. Definimos AAn , Aan y aan (ver tabla I) las
frecuencias observadas de los genotipos para el grupo de controles, y AAe , Aae y aae sus
frecuencias esperadas respectivamente bajo el HWE.
Para calcular las frecuencias esperadas se multiplica el total de frecuencias
observadas de la fila y la columna perteneciente a la frecuencia genotípica que se quiere
obtener, y esto se divide por el total de la población, es decir, para A AAA
n ne
n= .
34
Tabla II . Frecuencias observadas y frecuencias relativas de los genotipos.
, ,( )i j i jO f ( )A p ( )a q Total
( )A p 2( )AAn p ( )Aan pq 2( pq)An p + ( )a q ( )Aan pq
2(q )aan 2(pq )an q+
Total 2( pq)An p + 2(pq )an q+ 2 2( 2pq q )n p + +
El estadístico de 2X viene dado por la siguiente expresión
2 222 ( ) ( )( ) Aa Aa aa aaAA AA
AA Aa aa
n e n en eX
e e e
− −−= + +
en la que se compran las frecuencias esperadas con las observadas.
Habrá equilibrio de Hardy -Weinberg cuando el estadístico sea menor que una 2χ
con un grado de libertad, a un nivel de significación de 0.05α = , ya que la hipótesis
nula dice que la población se mantiene en equilibrio de Hardy-Weinberg. Antes de
realizar cualquier estudio de asociación se debe comprobar si se cumple el principio de
equilibrio de Hardy-Weinberg en la muestra de controles (como representantes de la
población general) (Iniesta, Guinóa, & Moreno, 2005). En la muestra de casos es
posible que no se cumpla el equilibrio de Hardy-Weinberg; ello puede ser indicativo de
que el polimorfismo pueda estar asociado con la enfermedad.
Actualmente no existe un consenso en el que se diga si hay que dejar en un meta-
análisis los estudios que no están en equilibrio de Hardy-Weinberg.
En el estudio primario, en el caso de que se observara una desviación del equilibrio
se debería revisar el método de genotipificación, pues en ocasiones se producen sesgos
al interpretar los resultados por ser más fácil de detectar un genotipo que otro. Otras
posibilidades son que los individuos no sean independientes (p. ej., por consanguinidad)
o que se dé una selección de un alelo (p. ej., por estar asociado con la longevidad).
Tampoco se debe de dejar de tener en cuenta que si empleamos un nivel de
significación del 5%, por azar puede observarse falta de ajuste al nivel esperado, aunque
35
la condición de transmisión de alelos con independencia sea correcta en la población del
estudio.
Teóricamente si la razón por la que se produjese desequilibrio pudiese ser
identificada, podría ser posible realizar una corrección para llegar al equilibrio. Aunque
el desequilibrio de HW no necesariamente podría invalidar los resultados de un estudio
de asociación, la incapacidad para determinar la razón del desequilibrio requiere un
enfoque cauteloso a estos estudios (Takkinstian, McElduff, D'Este, & al, 2005).
5.2. Heterogeneidad
Uno de los aspectos más problemáticos de un meta-análisis es abordar la
heterogeneidad estadística. A partir de este momento va a ser simplemente denominada
como heterogeneidad en este estudio. Es importante ser capaz de cuantificar el grado de
heterogeneidad entre los estudios de un meta-análisis, ya que los problemas de
interpretación dependen de cómo de sustancial es la heterogeneidad y esto determina el
grado en que podría influir en las conclusiones de un meta-análisis (Higgins &
Thompson, 2002).
Una medida para determinar la heterogeneidad es mediante la estimación de la
varianza entre los estudios, a partir de la cual se obtiene el nivel de relación existente
entre los polimorfismos y el estado de la enfermedad para los distintos estudios en base
a los cocientes de ventajas (Odds Ratios). Para los resultados dicotómicos, los datos de
cada estudio se extraen como el número de sujetos con cada genotipo (AA, Aa y aa) en
los grupos de casos y controles, como se puede ver en la tabla I. Las Odds Ratio (OR )
van a definirse como 1 2,OR OR y 3OR para AAvs aa, Aa vs aa y AAvs Aa, aunque el
grado de heterogeneidad se cuantifica en la escala de las log-odds ratio (Takkinstian,
McElduff, D'Este, & al, 2005).
Una de las formas más comunes de indicar el grado de heterogeneidad es mediante la
prueba estadística denominada test de Cochran o Q test (Cochran, 1937). Este test de
36
heterogeneidad está basado en el método de la inversa de la varianza, y viene dado por
la siguiente ecuación:
( )2
1
ˆ ˆ ; 1,...,JJ
j jj
Q jω θ θ=
= − =∑
representando jω el peso del j-ésimo estudio, ˆjθ es el estimador del �ln jOR de cada
una de las J tablas parciales 2 2× para el genotipo y el estado del individuo en cada
estudio y θ̂ es el estimador del cociente de ventajas de los estudios agrupados.
Estos valores son obtenidos mediante las siguientes ecuaciones:
�
�
1
1
lnˆ ln
J
jjj
J
jj
OR
OR
ωθ
ω
=
=
= =∑
∑
� 1 1 2 0
1 0 2 1
ˆ ln ln j jjj
j j
n nOR
n nθ
= =
�( )1
var lnj
jORω =
�( )1 1 1 0 2 1 2 0
1 1 1 1var ln j
j j j j
ORn n n n
= + + +
siendo 1 1jn y 1 0jn el número de individuos con el genotipo AA en el grupo de casos y
controles respectivamente y 2 1jn y 2 0jn para el genotipo Aa.
Se satisface la hipótesis nula de homogeneidad si el estadístico Q se distribuye como
una Chi-cuadrado con 1J − grados de libertad. Por norma general para estudiar la
heterogeneidad se toma como nivel de significación 0.10α = , para aminorar el
problema de que no se acepte la hipótesis nula de homogeneidad (Higgins, Thompson,
Deeks, & Altman, 2003).
Pero es conocido que cuando el meta-análisis incluye pocos estudios, la potencia
estadística de este test es muy baja, e inversamente se podría decir, que tiene una
potencia excesiva cuando hay muchos estudios, especialmente cuando estos estudios
37
tienen un tamaño grande. Es por ello que para estudiar la heterogeneidad se utilizan
otros estadísticos.
Se desean medidas que sean fácilmente interpretables tanto por estadísticos como por
no estadísticos, y que no dependan de la cantidad de estudios o el tipo de datos
resultantes. Unas medidas cuyos estadísticos permitan la cuantificación de la cantidad
de heterogeneidad que pueda explicarse por covariables a nivel de estudios, o
particularmente por estudios influyentes (Higgins & Thompson, Quantifying
heterogeneity in a meta-analysis, 2002).
Una medida desarrollada y muy utilizada para este tipo de estudios es el índice I�.
Este índice describe el porcentaje de variación total entre los estudios que es debido a la
heterogeneidad
( )2 1100
Q JI
Q
− − = ×
donde Q representa al test de Cochran antes comentado y 1J − sus grados de libertad.
Cuando los valores del índice 2I son negativos estos se igualan a cero, ya que los
valores de 2I tienen que estar entre el 0% y el 100%. El valor de 0% indica que no hay
nada de heterogeneidad observada entre los estudios, y cuanto más alto sea este valor
mayor será la heterogeneidad. Algunos autores han indicado arbitrariamente, los valores
de 2I de 25%, 50% y 75% como baja, moderada y alta heterogeneidad respectivamente.
La ventaja que tiene este índice es que puede ser calculado y comparado a través de
meta-análisis de diferentes tamaños, de diferentes tipos de estudios y usando diferentes
tipos de resultados (Higgins, Thompson, Deeks, & Altman, 2003). 2I también es usada
en la investigación de las causas y el tipo de heterogeneidad.
Otro parámetro que nos permite cuantificar la heterogeneidad es 2H . Este parámetro
describe el exceso relativo de Q sobre sus grados de libertad. La relación que existe
entre Q y sus grados de libertad, hace que haya ausencia de heterogeneidad cuando Q
38
es mucho mayor que su valor esperado, [ ] 1E Q J= − . Lo que indica que si 2 1H = no
existe heterogeneidad, y que esta es mayor cuanto mayor sea el valor de 2H
2
1
QH
k=
−.
Haciendo algunas operaciones elementales se puede comprobar que
22
2
1HI
H
−= .
Este parámetro nos va a permitir también calcular el intervalo de confianza de 2I .
Para ello hay que obtener el intervalo de confianza de 2H y una vez que se tenga hay
que operar en la fórmula anterior para obtener el intervalo de 2I a partir de la fórmula
anterior.
Mediante el intervalo clásico de Wald, el intervalo de 2H es
[ ]( )1 /2exp ln lnH z Hα σ−±
siendo 1 /2z α− el percentil ( )100 1 / 2 %α− de la distribución normal estándar y
[ ] ( ) ( )ln ln 11ln
2 2 2 3
Q JH si Q J
Q Qσ
− −= >
− −
o
[ ] ( ) ( )2
1 1ln 1
2 2 3 2H si Q J
J Jσ
= − ≤
− − .
Hay que tener presente que la falta de heterogeneidad estadística no se puede
considerar como evidencia de homogeneidad, ya que pudieran no detectarse diferencias
estadísticamente significativas incluso en meta-análisis con niveles moderados de
heterogeneidad.
39
Como se ha visto, existen varios métodos estadísticos para evaluar el grado de
heterogeneidad, que permiten valorar hasta qué punto los resultados que provienen de
diferentes estudios pueden ser resumidos en una única medida.
En general como se acaba de ver, todas las pruebas estadísticas diseñadas para
comprobar la existencia de heterogeneidad se basan en la hipótesis de que la
variabilidad entre estudios es nula.
Una forma sencilla de ver la heterogeneidad a simple vista es mediante un diagrama
de bosque, o más bien conocido como forest plot. Este se ve en detalle cuando se
describa la librería necesaria que lo muestra, en el Software R, que se encuentra en el
apéndice B.
5.3. Análisis de regresión
Una vez que se ha detectado la no heterogeneidad entre los estudios, se realiza un
análisis de regresión logística para detectar el efecto de la variable Genotipo.
Desde el punto de vista estadístico, un polimorfismo constituye una variable
categórica con varios genotipos posibles y se suele considerar como categoría de
referencia al grupo de individuos homocigotos para el alelo más frecuente. Para evaluar
la asociación de un polimorfismo con la enfermedad es necesario tener una tabla de
contingencia como la tabla I, y se hacen contrastes de asociación de razones de
verosimilitudes. Además se puede estudiar si el modelo resultante se ajusta globalmente
bien a los datos observados, y estudiar la magnitud de asociación entre los genotipos a
través de odds ratios (OR), para obtener por último el mejor modelo genético que se
ajusta a los datos.
Como muestra A.M.Aguilera (2006) el modelo de regresión logística (logit) tiene
como objetivo describir el efecto de una o varias variables explicativas (independientes
de naturaleza cuantitativa y/o cualitativa) sobre una variable respuesta (dependiente
binaria o con más de dos categorías). En el meta-análisis de datos dicotómicos la
40
variable respuesta es una variable categórica con dos niveles de clasificación, luego,
vamos a trabajar con un modelo de regresión logística binaria. La razón fundamental de
por qué se realiza un análisis de regresión logística en vez de una análisis de regresión
lineal, es por el mero hecho de que en el primero la variable respuesta es categórica
binaria o politómica, y en el segundo es una variable cuantitativa.
El modelo logit que se considera en este tipo de meta-análisis es un modelo con dos
variables explicativas categóricas, la variable Genotipo que la denotaremos con la letra
G con tres categorías { }, ,AA Aa aa denotadas por ( )1G AA , 2( )G Aa y ( )3G aa , y la
variable Estudio que la denotaremos con le letra E con tantas categorías como estudios
haya { }1 2, ,...,EJE E denotadas por ( )1E primer estudio, ( )2E segundoestudio,…,
( )JE estudio J . La variable respuesta Y es el estado de la enfermedad con dos
categorías{ },Caso Control , siendo Caso cuando la presenta y Control cuando no, y
dándole los valores 1Y = e 0Y = respectivamente.
El estudio de este modelo se puede realizar mediante un método parcial y un método
marginal. En este trabajo, y como se verá en el procedimiento utilizado en R, se ha
optado por el método parcial.
En el método parcial se elige una categoría de referencia en todas las variables del
diseño, a la cual se le va a asignar el valor 0. Se define una variable del diseño binaria
asociada a cada una de las restantes categorías, que toma el valor 1 para su categoría
asociada y el valor 0 para todas las demás. En el meta-análisis de estudios de asociación
genética se suele considerar como categoría de referencia al grupo de individuos
homocigotos para el alelo más frecuente (Iniesta, Guinóa, & Moreno, 2005), y para la
variable Estudios la que se prefiera, en este caso y como se verá en el ejemplo, se va a
dejar que R tome por defecto como categoría de referencia la primera, siendo esta la
primera en orden alfabético.
41
A pesar de que la categoría de referencia de la variable Genotipo es la que tiene
mayor número de frecuencias, para las siguientes explicaciones se ha tomado la primera
categoría.
Teniendo en cuenta el procedimiento que se acaba de exponer, la m-ésima variable
de diseño de la variable Genotipo va asociada con la categoría mG , definiéndose de la
siguiente manera:
( ) 12,3; 1,2,3
0G Gim m i
i mX X G G m i
i m
== = = ∀ = = ≠
realizándolo de la misma forma para la variable Estudios:
( ) 12,3,..., ; 1,2,...,J
0E Ejm m j
j mX X E E m J j
j m
== = = ∀ = = ≠
Esto significa que hay un total de ( )1I − parámetros de la variable Genotipo y
( )1J − parámetros de la variable Estudios.
Si la probabilidad de respuesta de 1Y = en cada combinación de niveles de las dos
variables cualitativas es
1/ ,i j ijP Y G G E E p = = = = ,
que se modeliza como
02 2
02 2
exp
1 exp
I JG G E Em im m jm
m mij I J
G G E Em im m jm
m m
X X
p
X X
β τ τ
β τ τ
= =
= =
+ + = + + +
∑ ∑
∑ ∑ ,
el modelo de regresión logística se construye en la siguiente forma tomando como
variables explicativas las ( )2I J+ − variables de diseño
1/0
2 21/
ln1
I Jij G G E E
ij m im m jmm mij
pL X X
pβ τ τ
= =
= = + + −
∑ ∑ ,
42
donde 1/
1/
ln1
ij
ij
p
p
−
es el resultado del i-ésimo genotipo en el j-ésimo estudio, los Gmτ son
parámetros de asociación parcial entre G e Y, representando la medida en que G explica
a Y. Lo efectos Emτ corresponden a la asociación parcial entre E e Y.
Con las definiciones antes expuestas el modelo de regresión logística se puede
expresar como:
11 0L β=
1 0 1,2,3Gi iL iβ τ= + =
1 0 1,2,...,JEj jL jβ τ= + =
de modo que su forma global es:
0 1,2,3; 1,2,...,G Eij i jL i j Jβ τ τ= + + = =
con 1 1 0G Eτ τ= = .
Cada uno de estos modelos sigue una distribución Chi-cuadrado con m grados de
libertad, y con un nivel de significación de 0.05α = , siendo m el número de parámetros
que tiene la variable que en ese momento entra a formar parte del modelo. Esto se ve en
el punto siguiente de cómo ajustar un modelo logit.
5.3.1. Ajuste del modelo logit
Ajustar un modelo logit consiste en seleccionar las variables que mejor explican a la
variable de respuesta binaria. Unos de los procedimientos para la inclusión o
eliminación de variables es el de selección paso a paso, más comúnmente conocido
como procedimiento stepwise tanto hacia delante (forward) como hacia atrás
(backward). Este procedimiento adopta el principio de parsimonia que consiste en
43
seleccionar el modelo que con menor número de parámetros se ajuste bien a los datos y
lleve a una interpretación sencilla en términos de cocientes de ventajas.
En este procedimiento se parte de un modelo inicial en el que sólo se encuentra el
término constante0β , y en cada paso que se haga, se ajustarán todos los modelos logit
que resultan de la inclusión en el modelo seleccionado en el proceso anterior de cada
una de las variables explicativas que no están en dicho modelo. Para llevarlo a cabo se
hacen contrastes condicionales de razón de verosimilitudes, que tienen en la hipótesis
nula el modelo seleccionado del proceso anterior y en la hipótesis alternativa el modelo
resultante de la inclusión de cada variable. De este modelo se seleccionaran aquellas
variables para las que este contraste es significativo (p-valor menor o igual que el nivel
de significación 1α fijado para la inclusión de variables), y se incluirá en el modelo la
variable que tenga menor p-valor de todas las variables que tienen p-valores menores o
iguales a 1α .
Por otro lado, mediante el procedimiento backward, se considerará en cada paso la
posibilidad de eliminar alguno de los parámetros del modelo seleccionado en el paso
anterior. Para evitar eliminar en un paso la variable que acaba de entrar en el anterior, se
fijará para la eliminación de la variable un nivel de significación 2α mayor que el nivel
de significación 1α fijado para la inclusión de las variables. Por lo tanto, en un primer
paso solo podría ser eliminada la constante del modelo pero por defecto suelen
considerarse siempre modelos con término constante, lo que hace que no pueda ser
eliminada. Para la eliminación de las variables se realizarán contrastes condicionales de
razón de verosimilitudes que tienen en la hipótesis nula el modelo que resulta de la
eliminación de cada una de las variables y en la hipótesis alternativa el modelo
seleccionado en el paso anterior. De este modo se considerarán para la eliminación
aquellas variables cuyo p-valor es mayor que 2α y se eliminará la asociada al máximo
de estos p-valores. La inclusión de las variables y la eliminación continúa hasta que
todos estos contrastes condicionales resulten significativos.
44
Adaptando esto a nuestros datos, se parte de modelo inicial 0β y se ajustará aquel
modelo logit que resulte de la inclusión de la variable G o de la variable E. Los
contrastes de razón de verosimilitudes para ver que variable entra primero son
0 0 0 0
1 0 1 02 2
: :
: :I J
G Em m
m m
H H
oH H
β β
β τ β τ= =
+ +
∑ ∑
Si un solo contraste da significativo, se incluye en el modelo la variable para la que
ese contraste a dado significativo. En el caso de que los dos contrastes den significativo,
en el modelo se va a incluir aquella variable del contraste que menor p-valor tenga, el
cual va a ser comparado con 1 0.05α = . Supongamos que la variable que entra a formar
parte del modelo es la variable Estudios.
Siguiendo con la selección del modelo, nos saltamos el paso backward ya que el
término constante está fijo y no puede ser eliminado. Entonces el siguiente paso es
realizar el contraste de RV para estudiar si la variable Genotipo entra a formar parte del
modelo que se ha obtenido en el contraste anterior
0 02
1 02 2
:
:
JEm
J IE Gm m
H
H
β τ
β τ τ
+ + +
∑
∑ ∑
Si el contraste es significativo, entonces el modelo también va a estar formado por la
variable Genotipo.
Por último se realiza el paso backward para estudiar si la variable Estudios sale del
modelo, mediante este mismo contraste que se acaba de realizar.
45
Si el contraste es significativo, con un nivel de significación 2 10.1 0.05α α= > = ,
entonces la variable Estudios no sale del modelo, y por lo tanto se concluye que el
modelo de regresión logística que se obtiene es
0 1,2,3; 1,2,...,G Eij i jL i j Jβ τ τ= + + = = .
5.3.2. Estimación directa de los parámetros del modelo
En esta sección se va a explicar sin entrar en detalles la estimación de los parámetros
de los modelos logit. En el caso de que se quiera profundizar más sobre esto ir a
(A.M.Aguilera, 2006).
Para la estimación del modelo de regresión logística para las dos variables
explicativas categóricas G y E, mediante máxima verosimilitud, los datos se van a
recoger en una tabla de contingencia 2I J× × como la de la Tabla I, asumiendo que las
frecuencias observadas { }ijn de la tabla marginal G-E están fijas y que las frecuencias
observadas para la respuesta 1Y = , denotadas por 1ijn son binomiales independientes
( )1 1/,ij ijB n p , verificando que
1/ , 0 / , 1i j i jP Y G G E E P Y G G E E = = = + = = = = .
En cada combinación de niveles (ij) de G y E, la probabilidad condicional de hacer la
respuesta 1Y = en lugar de 0Y = , es decir, la ventaja a favor de 1Y = , es
1/ 1
1/ 1
ˆ ˆ
ˆ ˆ1 1ij ij
ij ij
p m
p m=
− −
siendo 1 1 1ˆ ˆij ij ijm n p= × , donde 1ˆ ijm es el estimador MV de las frecuencias esperadas 1ijm
bajo el modelo.
46
Se puede demostrar que las ecuaciones de verosimilitud tienen solución exacta. Lo
estimadores MV son de la forma
1/0
1/
ˆˆ lnˆ1ij
ij
p
pβ
= −
1/
1/
1/1
1/1
ˆ
ˆ1ˆ ln 2,3; 1,...,
ˆ
ˆ1
ij
ijGi
j
j
p
pi j J
p
p
τ
− = ∀ = = −
1/
1/
1/ 1
1/ 1
ˆ
ˆ1ˆ ln 2,..., ; 1,2,3
ˆˆ1
ij
ijEj
i
i
p
pj J i
p
p
τ
− = ∀ = = −
5.3.3. Inferencia en los resultados
Una vez estimados lo parámetros del modelo de regresión logística nos proponemos
hacer inferencia para extrapolar los resultados muestrales de la población. Esto se va a
dividir en tres pasos:
1. Contrastes de bondad de ajuste del modelo logit.
2. Contrastes sobre los parámetros del modelo.
3. Intervalos de confianza.
5.3.3.1. Contrastes de bondad de ajuste del modelo logit.
Dependiendo del número de observaciones { }ijn en cada combinación de valores de
las variables explicativas se va a disponer de distintos estadísticos. En este trabajo se ha
estudiado la bondad de ajuste mediante el test chi-cuadrado de razón de verosimilitudes.
47
En líneas futuras de investigación se procederá también con el test de Hosmer y
Lemeshow que se usa cuando las { }ijn no son suficientemente grandes.
El test global de bondad de ajuste de este modelo de regresión logística contrasta la
hipótesis nula (el modelo se ajusta globalmente bien a los datos observados)
02 2
0
02 2
exp:
1 exp
I JG G E Em im m jm
m mij I J
G G E Em im m jm
m m
X X
H p
X X
β τ τ
β τ τ
= =
= =
+ + = + + +
∑ ∑
∑ ∑
frente a la hipótesis alternativa:
02 2
1
02 2
exp:
1 exp
I JG G E Em im m jm
m mij I J
G G E Em im m jm
m m
X X
H p
X X
β τ τ
β τ τ
= =
= =
+ + ≠ + + +
∑ ∑
∑ ∑ .
El estadístico de Wilks de razón de verosimilitudes, también conocido como test chi-
cuadrado de razón de verosimilitudes, para el contraste de bondad de ajuste de un
modelo log-lineal viene dado por:
( ) ( )2 ˆ2 2 lnˆ
ii
i i
nG L m L n n
m
= − − =
∑
Donde ( )ˆL m es el máximo de la log-verosimilitud bajo la suposición de que el
modelo se verifica y ( )L n es el máximo de la log-verosimilitud bajo el modelo no
saturado.
Dado que hay ( ) ( )1 1 1 1I J I J+ − + − = + − parámetros independientes y 2I J+ −
parámetros de asociación tipo tau independientes, el modelo es no saturado, dado que
tiene tantos parámetros independientes como observaciones binomiales independientes.
48
Bajo la hipótesis nula de que el modelo de regresión logística se verifique, el
estadístico 2G tiene distribución asintótica chi-cuadrado, cuyos grados de libertad son
los grados de libertad residuales del modelo, ( ) ( )( )1 1 1IJ I J I J− + − = − − .
Una vez obtenido el valor del estadístico 2G , se fija el nivel de significación
0.05α = y se rechaza el modelo considerado cuando 2 2;dfG αχ≥ , siendo 2
;df αχ el cuantil
( )1 α− de la distribución chi-cuadrado con grados de libertad df, los del modelo. En
caso contrario, se concluye que el modelo se ajusta bien a los datos.
5.3.3.2. Contraste de Wald sobre los parámetros del modelo
(Tan solo para este punto se va a cambiar la notación de los parámetros del modelo a
rβ , siendo r el número de parámetros que se tienen, para una mejor interpretación).
El contraste de Wald está basado en la normalidad asintótica de los estimadores de
máxima verosimilitud.
La distribución asintótica de rβ es ( )( )2 ˆˆ,r rN β σ β , y su estimación máxima
verosímil es ( )2
ˆ
ˆˆr r
r
β βσ β
− la cual sigue una distribución ( )0,1N .
Se contrasta la igualdad a cero de cada uno de los parámetros del modelo
0
1
: 01,2,3
: 0r
r
Hr
H
ββ
=∀ = ≠
El estadístico de contraste de Wald es
( )2ˆ
ˆˆr
r
Wβ
σ β=
49
que bajo la hipótesis nula tiene distribución chi-cuadrado asintótica con un grado de
libertad, por ser el cuadrado de una normal estándar.
Se rechazará la hipótesis nula al nivel de significación 0.05α = cuando se verifique
que 21;W αχ≥ siendo 2
1;αχ el cuantil (1 )α− de una 21χ . En caso contrario, hay
independencia entre el parámetro estimado y el modelo.
Programas como R o SPSS toman como estadístico el parámetro estandarizado en
lugar de su cuadrado. En este caso el estadístico de contraste es (z-value)
( )ˆ
ˆˆr
r
Zβ
σ β=
que bajo la hipótesis nula tiene distribución normal estándar ( )0,1N .
Por lo tanto se rechazará la hipótesis nula al nivel de significación 0.05α = cuando
se verifique que /2Z zα≥ . Siendo /2zα el cuantil de orden ( )1 / 2α− de la N(0,1).
Para contrastar los parámetros del modelo, a parte del test de Wald, hay otros
contrastes como el de razón de verosimilitudes o el test Score.
El test de razón de verosimilitudes es más potente que el test de Wald cuando se trata
de seleccionar las variables que entran a formar parte del modelo, pero en este punto ese
no es nuestro fin.
El test Score presenta la ventaja de que reduce los cálculos con respecto al test de
Wald y al test de razón de vesosimilitudes. El problema que presenta es que su uso está
muy limitado, ya que la mayoría de los paquetes estadísticos no lo proporcionan. Es
SPSS el único paquete que utiliza este contraste, pero es para seleccionar las variables
que entren en el modelo.
Equivalentemente, el contraste de los parámetros también se puede estudiar a partir
de los intervalos de confianza de las exponenciales de los parámetros, como se ve en el
siguiente punto.
50
5.3.3.3. Intervalos de confianza
Se van a estudiar los intervalos de confianza aproximados basados en la distribución
normal asintótica de los estimadores MV.
Recordando del punto anterior que la distribución asintótica de rβ es ( )( )2 ˆˆ,r rN β σ β ,
se tiene que
( )/2 /22
ˆ1
ˆˆr r
r
P z zα αβ β ασ β
− − ≤ ≤ = − ,
de donde se obtiene el siguiente intervalo de confianza aproximado para rβ al nivel
( )1 α− :
( )2/2
ˆ ˆˆr rzαβ σ β± .
5.3.4. Interpretación de los parámetros
La exponencial de 0β es la ventaja de respuesta 1Y = para un individuo que
pertenece a las categorías de referencia de ambas variables 1 0G = y 1 0E = .
La exponencial de Giτ es de la forma:
1/
1/1/
1/1
1/1
1exp 2,3; 1,...,
1
ij
ijG Gi i E
j
j
p
pi j J
p
p
τ θ−
= = ∀ = =
−
donde 1/Gi Eθ representa el cociente de ventajas de respuesta 1Y = u odds ratio (OR) de
la categoría iG respecto a la categoría de referencia1G , controlando fija la categoría jE
de E.
Estos cocientes de ventajas tienen la siguiente interpretación:
51
� 1/ 1/ 1/11Gi E ij jsii p pθ = = . Padecer cierta enfermedad es independiente de {iG vs
1G }.
� 1/ 1/ 1/11Gi E ij jsii p pθ > > . En este caso la ventaja a favor de padecer cierta
enfermedad es aproximadamente 1/Gi Eθ veces mayor para iG que para 1G , sea
cual sea el estudio.
� 1/ 1/ 1/11Gi E ij jsii p pθ < < . En este caso la ventaja a favor de padecer cierta
enfermedad es aproximadamente 1/1/ Gi Eθ veces mayor para 1G que para iG , sea
cual sea el estudio.
Como en el caso de la heterogeneidad, estos cocientes de ventajas van a ser más
conocidos como 1OR para AA vs aa equivalente a 31/G
Eθ , 2OR para aa versus Aa
equivalente a 23/G
Eθ y 3OR para AA vs Aa equivalente a 21/G
Eθ , pero hay que tener
cuidado con no confundirlos con los otros de la heterogeneidad, ya que no son los
mismos, si recordamos, en el estudio de la heterogeneidad el estimador del cociente de
ventajas de los estudios agrupados era �ˆ lnORθ = .
Si nos fijamos con todo lo explicado anteriormente, tan solo tenemos dos cocientes
de ventajas y se quieren tres. Para esto se fija como referencia que 3 1 2/OR OR OR= , y
despejando se tendrá el valor de 2OR ( 23/G
Eθ ).
El inconveniente de esto es que se puede obtener el valor de las sOR pero sus
intervalos de confianza no. Entonces para poder obtener los intervalos de confianza
habría que volver a hacer todo el proceso de ajuste del modelo de regresión logística,
pero en este caso fijando como categoría de referencia de la variable Genotipo la
perteneciente a aa, que es 3G .
De la misma manera se tiene para Ejτ
52
1/
1/1 /
1/ 1
1/ 1
1exp 2,..., ; 1,2,3
1
ij
ijE Ej j G
i
i
p
pj J i
p
p
τ θ−
= = ∀ = =
−
donde 1 /Ej Gθ representa el cociente de ventajas de respuesta 1Y = u odds ratio (OR) de
la categoría jE respecto a la categoría de referencia 1E controlando fija la categoríaiG
de G. En este caso no será necesario representar los valores de las ORs, ya que estas no
nos van a hacer falta para el meta-análisis de estudios de asociación genética.
Si observamos, los cocientes de ventajas anteriores no dependen de la variable que se
controla, de modo que la asociación entre cada variable respuesta y la variable
explicativa es la misma en todos los niveles de la otra variable explicativa. Esta
propiedad es conocida como ausencia de interacción entre las dos variables explicativas.
Para la obtención de los intervalos de confianza de estos cocientes de ventajas tan
solo tendremos que calcular las exponenciales de los intervalos de confianza de los
parámetros del modelo
( )( )2/2
ˆ ˆˆexp r rzαβ σ β± .
Este paso es otra forma de calcular los valores de las ORs a partir del modelo de
regresión logística. Como se verá en el ejemplo, los valores de las ORs obtenidos
mediante este procedimiento, es el mismo que los valores de las ORs de los estudios
agrupados que se calcularon en el contraste de heterogeneidad.
5.4. Determinación del mejor modelo genético
Con los valores de las ORs obtenidas en el modelo de regresión logística, se va a
determinar el mejor modelo genético. Asumiendo que el alelo de riesgo es A se van a
tener los siguientes modelos para las siguientes comparaciones:
53
(a) 1 3 21 1OR OR y OR= ≠ = . El modelo sugerido es recesivo.
(b) 1 2 31 1OR OR y OR= ≠ = . El modelo sugerido es dominante.
(c) 2 13
11 1OR y OR
OR= ≠ = . El modelo sugerido es overdominant.
(d) ( )1 2 1 3 1 2 1 31 1 1 1OR OR y OR OR oOR OR y OR OR> > > > < < < < . El
modelo sugerido es codominante.
La elección del modelo genético a menudo no es justificada, pero a menos que
existan fuertes indicaciones biológicas, se sugiere que este modelo que nos ha salido es
el que se debe usar.
En el caso en el que no está clara la elección del modelo de trabajo, es una buena
oportunidad para que los datos dicten el modelo.
La heterogeneidad y la elección del modelo, dependen en parte de las frecuencias
observadas de cada grupo de genotipos que a la vez dependen de las frecuencias de los
alelos. Si las frecuencias observadas en los determinados grupos de genotipos son
pequeñas, esto disminuirá el poder de detectar un modelo particular. Por ello el modelo
estadístico debe ser revisado.
También observamos que la formulación para el modelo codominante cubre tanto los
efectos aditivos como los efectos genéticos multiplicativos. Además los tres grupos de
genotipos deben ser preservados y no podemos cambiarlos.
En el caso de que no se cumpla ninguna de las cuatro opciones anteriores para
decidir cuál es el mejor modelo genético, se puede concluir que hay un efecto genético
sin ser capaz de especificar qué modelo genético es responsable (Takkinstian,
McElduff, D'Este, & al, 2005).
54
5.5. Agrupación de resultados
Antes de seguir con la lectura de este punto decir que esta parte es opcional.
Una vez que ha sido identificado el modelo genético, si se desea, se puede dar un
paso más allá en el modelo mediante la puesta en común del modelo genético indicado
en el paso anterior. La ventaja que va a tener este paso, es que va expresar los resultados
en términos del efecto del genotipo en vez del efecto de los alelos. Expresar los
resultados como efectos de los genotipos es más relevante a nivel clínico y se puede
llevar a cabo en la práctica actual de la epidemiología moderna. Es decir en este paso se
agrupan por ejemplo el gen AA con Aa, y se compara con aa, (AA + Aa vs aa).
Sin embargo a pesar de que los estudios que se han utilizado en el meta-análisis para
el modelo final eran homogéneos, hay que hacer otra comprobación nueva de la
heterogeneidad. Esto es porque se han combinado los grupos, y esto puede llevar a la
heterogeneidad de los estudios por el hecho del aumento del tamaño de la muestra de
cada estudio combinado, que conlleva a un aumento de la potencia para detectar dicha
heterogeneidad. Ahora por lo tanto, se va a estimar el efecto de los genes agrupados.
6. Programa “meta_analysis”
El programa “meta_analysis”, es un programa escrito en R que permite realizar un
meta-análisis completo en estudios de asociación genética, considerando un modelo de
efectos fijos y la variable respuesta categórica binaria. En este programa no se ha
introducido el contraste de bondad de ajuste, por no haber visto el test de Hosmer y
Lemeshow, por lo que se incluirá en líneas futuras de investigación.
Este programa devuelve los resultados del meta-análisis en formato .pdf y .txt, y nos
indica cual es la elección del mejor modelo genético, mostrando también los gráficos de
bosque (“forest plot”). Además, da la opción de fijar como categoría de referencia
55
alguna de las dos categorías de homocigotos de la variable Genotipo para el análisis de
regresión.
El programa se ejecuta con la orden
_ (table,F)meta analysis
siendo “table” la tabla de contingencia de las variables Genotipos y Estudios, y de la
variable explicada Enfermedad (tabla I), visualizada en R con el siguiente formato
donde en la primera columna se muestran los nombres de los estudios primarios, la
segunda, tercera y cuarta columna pertenecen al grupo de casos de cada uno de los
genotipos, y las tres últimas columnas pertenecen al grupo de controles. Las columnas
de la variable Genotipo vienen escritas en este formato para que no surjan problemas
con funciones que se utilizarán para el desarrollo de “meta_analysis”.
F es la orden que indica el genotipo homocigótico que se haya fijado para el análisis de
regresión. En el caso de que no se indique nada, y se deje F, el programa fijará el grupo
de individuos homocigóticos para el alelo más frecuente. La categoría de Genotipo que
se indique se pondrá entre comillas, por ejemplo “AA”.
En el apéndice C se muestra el script del programa. Este programa siempre
comprobará al principio si los valores introducidos son válidos para poder llevar a cabo
todo el análisis deseado.
56
7. Ejemplo de un meta-análisis para datos dicotómicos
Los distintos métodos del meta-análisis se han aplicado al estudio que hizo (Sharma,
1998) sobre la asociación entre el polimorfismo I/D del gen ACE y el accidente cerebro
vascular. Para ello hizo una revisión sistemática, quedándose al final con cinco estudios.
Este gen radica en el cromosoma humano 17q con dos alelos, insertado en I, el cual
codifica un extra de 250∼ pares de bases de ADN, y suprimida en D, que carece de
esta secuencia de ADN extra. Las frecuencias genotípicas del polimorfismo del gen
ACE frente a los casos del accidente cerebro vascular y los controles, son mostradas en
la Tabla (IV).
En la tabla (III) se muestran los resultados obtenidos de los estudios que seleccionó
Sharma P., donde en la primera columna van los nombres de los estudios, en las tres
siguientes los genotipos ACE: DD, DI, II, donde se encontró información sobre el
accidente cerebro vascular representada con 1Y = , y las tres últimas formadas por los
genotipos ACE donde no se halló tal enfermedad, representado como 0Y = .
Tabla (III). Datos del estudio de asociación entre el polimorfismo I/D del gen ACE
y el accidente cerebro vascular
Y=1 Y=0 Estudios DD DI II Total DD DI II Total
1 33 47 20 100 17 36 20 73 2 127 271 90 488 41 105 42 188 3 36 47 18 101 30 71 36 137 4 54 37 10 101 43 49 17 109 5 34 63 41 138 8 55 41 104
La tabla de datos es introducida en la función meta_analysis mediante la orden
“table”, y se indica qué categoría de la variable Genotipo va a ser tomada como
referencia, en este hemos dejado que el programa la fije. Los resultados obtenidos son
los siguientes.
57
7.1. Equilibrio de HardyWeinberg.
Viendo los resultados obtenidos en la tabla de HWE, los estudios están en equilibrio
de Hardy Weinberg por ser todos los valores del estadístico chi-cuadrado menores que
el valor de la chi-cuadrado con un grado de libertad (3.841) o equivalentemente los p-
valores mayores que el nivel de significación 0.05α = . Luego todos los estudios están
en equilibrio de Hardy Weinberg.
7.2. Estudio de la heterogeneidad
En la tabla se muestran los valores del estadístico Q junto a sus grados de libertad y
su p-valor, para cada una de las odds ratio, 1OR , 2OR y 3OR siendo estas los cocientes
de ventajas del accidente cerebro vascular para los genotipos DD vs II , DI vs II y
DD vs DI respectivamente. Además del índice 2I y la raíz cuadrada del índice 2H .
58
El valor del estadístico de contraste Q para el test de hipótesis global de la
heterogeneidad para 1OR , 2OR y 3OR es 4.619 (df=4), 0.15 (df=4) y 5.781 (df=4)
respectivamente. A cada uno de estos valores de Q le corresponden un p-valor, los
cuales son 0.329, 0.997 y 0.216, por lo que se concluye que al nivel de significación de
0.10α = no hay heterogeneidad entre los estudios para cada una de las odds ratio.
Los valores del índice 2I para 1OR , 2OR y 3OR son 13.39%, 0% y 30.81%
respectivamente. 13.39% indica que hay una pequeña variabilidad entre los estudios que
no puede ser explicada por casualidad para 1OR , 0% indica que no hay nada de
variabilidad entre los estudios para la 2OR , y 30.81% indica que aunque la
heterogeneidad entre los estudios es significativamente moderada esta tiene muy poco
efecto sobre 3OR .
El valor del índice 2H para cada una de las odds ratio son 1.15, 1 y 1.44, lo cual se
sacan las mismas conclusiones que se sacaron para 2I . Para 1OR la heterogeneidad que
existe entre estudios es muy pequeña, para 2OR no existe heterogeneidad entre estudios,
y para 3OR aunque haya una mayor variabilidad entre los estudios esto no afecta al
genotipo DD vs DI .
Si visualizamos los gráficos de bosque para cada una de las distintas comparaciones
entre genotipos, se obtienen las mismas conclusiones:
59
Como se describe en el apéndice B, los valores de las odds ratios junto a sus
intervalos de confianza al 95% son mostrados para cada uno de los distintos estudios.
Sus valores estimados están representados con un cuadrado de color rojo, y los límites
de confianza son los extremos de cada línea horizontal. El tamaño del cuadrado indica
la muestra utilizada y, viendo cualquiera de los tres gráficos, se percibe como el estudio
2 es el que tiene mayor número de muestra.
Muestra también los pesos para cada uno de los estudios teniendo en cuenta un
modelo de efectos fijos. Cuanto mayor sea el tamaño muestral del estudio, mayor será el
peso.
60
Estos gráficos además muestran los valores de las ORs de los estudios agrupados,
junto a sus intervalos de confianza. Estas ORs están representadas por un rombo azul
que se muestra a su izquierda, dependiendo la expansión del rombo de los intervalos de
confianza de cada una de las odds ratio.
El primer gráfico perteneciente al genotipo DD vs II muestra el valor de 1OR y su
intervalo de confianza. Al no ser el intervalo de confianza muy grande este rombo no se
expande demasiado, sin embargo para 2OR como el intervalo de confianza es mayor, el
rombo se expande más, cortando además por el 1 como muestra el IC. El hecho de que
entre el valor 1 en el intervalo de confianza se representará cuando se vaya a determinar
el modelo genético. De todas formas, viendo ya estos rombos, nos podemos hacer una
idea de que el modelo que saldrá será un modelo recesivo.
También se muestran el estadístico Q junto a sus grados de libertad y su p-valor, y el
índice 2I .
7.3. Análisis de regresión logística
Para realizar el análisis de regresión hemos fijado como categoría de referencia de la
variable Genotipo la primera, ( )1G DD , por ser el grupo homocigoto que tiene más
frecuencias en sus alelos. En el caso de que no se fije ninguna categoría, el programa
fija por defecto aquella cuyo grupo de individuos homocigotos tiene el alelo más
frecuente.
Este paso se realiza para ver el efecto de los distintos genotipos sobre el accidente
cerebro vascular.
61
Para ver si la variable que realmente nos interesa que entre a formar parte del
modelo, es decir la variable Genotipo, ha entrado, el programa nos muestra el valor del
estadístico chi-cuadrado del contraste de razón de verosimilitudes del procedimiento
stepwise. Su valor es 2 21.429χ = con 2df = y 0p valor− = , luego el contraste de
razón de verosimilitudes es significativo y por lo tanto la variable Genotipo entra a
formar parte del modelo. Dicho de otro modo, la accidente cerebro vascular está
relacionado con los distintos genotipos.
A pesar de que la variable Estudios se tiene que tener en cuenta a la hora de realizar
el análisis de regresión, no se va a prestar atención a si esta entra a formar parte del
modelo o no, ya que los efectos que tenga esta sobre la variable respuesta no son de
interés.
7.4. Determinación del mejor modelo genético
Para determinar cuál es el mejor modelo genético, el programa muestra los valores
de las odds ratios que se han obtenido del análisis de regresión logística, así como sus
intervalos de confianza, y sugiere un modelo genético.
Las estimaciones de 1OR , 2OR y 3OR son 1/0.498=2.008 (IC al 95% de (1.47;
2.74)), 1.246 (IC al 95% de (0.953; 1.627)) y 1/0.62=1.61 (IC al 95% de (1.24; 2.09)).
62
De estos intervalos de confianza se puede inferir que a un 95% de confianza todos
los parámetros son significativamente distintos de cero por no contener el valor 1 dentro
del intervalo, excepto el parámetro perteneciente a 2OR , para el cual sí se encuentra el
valor 1 en su intervalo de confianza, como se podía observar en el gráfico forest plot a
través del rombo. Luego el modelo sugerido es el recesivo.
Interpretación de las odds ratios:
� 1OR=1/0.498= 2.008; esto significa que la ventaja a favor de que dé un
accidente cerebro vascular es 2.008 veces mayor para las personas que tienen el
genotipo {DD} que para las que tienen el genotipo {II}.
� 2OR ; como se acaba de comentar, este valor tiene en su intervalo de confianza
el valor 1, por lo que el parámetro perteneciente a esta odds ratio es igual a cero,
y por lo tanto el accidente cerebro vascular es independiente de {DI vs II}.
� 3OR =1/0.62= 1.61; esto significa que la ventaja a favor de que dé un accidente
cerebro vascular es 1.61 veces mayor para las personas que tienen el genotipo
{DD} que para las que tienen el genotipo {DI}.
7.5. Agrupación de resultados
El modelo recesivo que se ha obtenido tiene que ser comparado con el genotipo DD.
Los resultados solo son mostrados en el gráfico de bosque siguiente
63
El p-valor del estadístico Q vale 0.1692 luego no hay evidencias de heterogeneidad a
pesar de que esté muy cerca de ella.
El valor estimado de la odds ratio es 1.69 (IC al 95% de (1.32; 2.16)). Si se
interpreta este resultado se dirá, que la ventaja a favor de que se produzca un accidente
cerebro vascular es 1.69 veces mayor en las personas que tienen el genotipo {DD} que
las personas que tienen los genotipos {DI} o {II}. Recordar que la variable de
referencia que se fija en estos gráficos es la que va en la columna de los eventos, en este
caso {DD}.
Conclusiones: Se ha estudiado la asociación que tiene el polimorfismo I/D del gen
ACE y el accidente cerebro vascular. Para ello primero se realizó el estudio de
equilibrio de Hardy Weinberg para ver si todos los estudios incluidos en el meta-análisis
estaban en equilibrio y se vio que sí. A continuación se estudió la heterogeneidad entre
los estudios para cada una de las comparaciones de los distintos genotipos, y para las
tres comparaciones salió que no había heterogeneidad entre los estudios. El siguiente
paso fue realizar un análisis de regresión logística para ver si la presencia del accidente
cerebro vascular estaba relacionado con los genotipos {DD}, {DI} y {II}, y se demostró
que sí, mediante el estadístico chi-cuadrado del contraste de razón de verosimilitudes
del procedimiento stepwise del ajuste del modelo. Seguidamente se determinó cuál era
el mejor modelo genético que definía los datos y se obtuvo un modelo recesivo. Y por
último se comparó los genotipos del modelo recesivo {DI/II} con el genotipo {DD}, y
se obtuvo que las personas que tenían el genotipo {DD} tienen una probabilidad mayor
de tener un accidente cerebro vascular que las que tienen los genotipos {DI} o {II}.
64
8. Conclusiones
Para llevar a cabo un perfecto meta-análisis, los primeros pasos de una revisión
sistemática son cruciales. Los estudios seleccionados tienen que estar bajo los criterios
de inclusión y exclusión que se expongan, y deben ser seleccionados los artículos más
potenciales. Una de las mejores bases de datos para buscar estudios primarios es la
conocida como CENTRAL, y para gestionar de forma automática las citas
bibliográficas los software más utilizados son ProCite y Reference Manager. Una vez
que se tienen los estudios seleccionados, se extraen los datos de estos y se pasa al
análisis y representación de los resultados (Meta-análisis).
En Meta-análisis de estudios de asociación genética es recomendable introducir la
prueba de Equilibrio de Hardy-Weinberg para darle fiabilidad al meta-análisis. Se ha
visto que para el estudio de la heterogeneidad es más recomendable utilizar el índice 2I
, ya que el Q test tiene la desventaja de que cuando se incluyen pocos estudios su
potencia estadística es muy baja. El análisis de regresión que se realiza es un análisis de
regresión logística en vez de lineal, por ser la variable respuesta categórica binaria. En
el ajuste del modelo logit se ha seguido el procedimiento stepwise. Para la estimación de
los parámetros se ha optado por el método de máxima verosimilitud, dejando para
estudios futuros otros como el de MV iterativa con Newton-Raphson. Para contrastar la
bondad de ajuste se ha usado el test de chi-cuadrado de razón de verosimilitud, pero este
test tiene la desventaja de que cuando el número de observaciones ijn no son
suficientemente grandes, esta distribución no se puede asumir como buena para realizar
este estudio, y habrá que recurrir al test de Hosmer y Lemeshow, el cual se desarrollará
en líneas futuras de investigación. Para el contraste sobre los parámetros del modelo el
test de Wald es potente y además lo proporciona R, hay otros tests como el de Score que
reduce los cálculos con respecto al test de Wald pero este no aparece en muchos
paquetes estadísticos, y además cuando aparece es para la introducción de las variables
en el modelo.
65
En líneas futuras de investigación se seguirán estudiando distintos métodos para
realizar un meta-análisis en estudios de asociación genética con variable respuesta
categórica, y también se hará para cuando la variable respuesta sea cuantitativa.
APÉNDICES
Apéndice A: modelo de efectos fijos/aleatorio
En un modelo de efectos fijos se asume que existe un único efecto en la población y
la variabilidad de los resultados entre los distintos estudios no es tenida en cuenta. Por
ello, los únicos determinantes de su peso en el meta-análisis van a ser el tamaño del
estudio y su propia varianza (variabilidad intra-estudio). Por el contrario, el modelo de
efectos aleatorios, tiene en cuenta la posible heterogeneidad al considerar que los
efectos de la exposición/intervención en la población son diversos y, que los estudios
incluidos en la revisión son sólo una muestra aleatoria de todos los posibles efectos.
Así, la ponderación de los estudios bajo este tipo de modelos considera no sólo su
propia varianza (variabilidad intra-estudio), sino también la que pueda existir entre los
estudios (variabilidad entre-estudios).
Al comparar ambos modelos, en general se puede decir que:
� Los modelos de efectos aleatorios deben utilizarse siempre que se determine la
no homogeneidad entre los estudios mediante el análisis de heterogeneidad, y no
puedan identificarse claramente las causas, lo que suele ser habitual,
especialmente en estudios epidemiológicos.
� Los resultados bajo la suposición de un modelo de efectos aleatorios tienden a
ser más conservadores que los obtenidos asumiendo el modelo de efectos fijos,
lo que da lugar a intervalos de confianza mayores para el efecto combinado.
66
� Una limitación de los modelos de efectos aleatorios es que se asume que los
estudios incluidos son representativos de una población hipotética de estudios, y
que la heterogeneidad entre los estudios puede ser representada por una sola
varianza. Otra desventaja es que conceden un peso excesivo a los estudios con
pequeño tamaño muestral.
Se concluye que, en el modelo de efectos fijos la generalización se limita a la
población de estudios de características similares a los incluidos en el meta-análisis. En
el modelo de efectos aleatorios, por el contrario, los resultados pueden generalizarse a
una población mayor de posibles resultados.
Apéndice B: Libros de R
Para la realización del trabajo aquí presentado, básicamente se ha recurrido a dos
libros de R: HardyWeinberg y meta, que pasamos a describir a continuación.
Libro HardyWeinberg
( )library HardyWeinberg
El libro de HardyWeinberg ofrece las herramientas necesarias para la exploración de
datos de genética dialélica. Ofrece todos los test clásicos para el estudio del equilibrio
de HardyWeinberg, funciones para calcular su potencia y para la simulación de datos
bajo equilibrio y desequilibrio.
Entre otras muchas funciones se encuentra la función HWChisq, con la que se va a
trabajar.
Antes de cargar este libro es necesario cargar otros tres más requeridos para la
correcta ejecución de los análisis:
67
( )library Rcpp
( )library lattice
( )library mice
La función HWChisq realiza el clásico test de equilibrio de Hardy-Weinberg con o
sin corrección por continuidad, y viene dada como
( ), 0.5, 0.05, HWChisq X cc alpha verbose FALSE= = =
Sus argumentos son los siguientes:
X Vector que contiene las frecuencias genotípicas (AA, Aa, aa).
cc Parámetro de corrección por continuidad, que por defecto es 0.5.
alpha Nivel de significación, por defecto es 0.05.
verbose Si verbose=1 entonces nos mostrará los resultados, si es igual a 0 no nos mostrará nada.
Devuelve una lista de valores con las siguientes componentes:
chisq Valor del estadístico chi-cuadrado. Devuelve NA si se registra monomorfismo en vez de polimorfismo.
pval p-valor del estadístico chi-cuadrado del equilibrio de Hardy.Weinberg.
D Desviación media de HWE.
P Frecuencia alélica de A.
68
Esta función se va a aplicar de forma individual a cada uno de los estudios para ver si
estos están en equilibrio.
Libro ‘meta’
( )library meta
El libro meta de R se encarga de realizar un análisis estadístico del meta-análisis.
Tiene varias funciones de métodos estándar, de uso fácil, para el estudio del meta-
análisis.
Las funciones con las que se trabaja para crear la función final de meta-análisis son
‘metabin’ y ‘forest.meta’.
Función ‘meta’
Calcula los efectos fijos y aleatorios estimados (razón de riesgo, odds ratio,
diferencia de riego o la diferencia del arcoseno) para un estudio de meta-análisis de
datos binarios. El método de Mantel-Haenszel, el de la inversa de la varianza o el de
Peto están disponibles dentro de esta función. Vine dada por:
( )( )( )
. , . , . , . , , , ,
, . , " ",. $ ,
! . , " ", " " ,
"
( )
( ,
(metabin event e n e event c n c studlab data NULL subset NULL
data NULL method ifelse tau common Inverse settings method
sm ifelse is na charmatch method c Peto peto nomatch NA
OR
= == =
= =
", . $ , . . $ . ,
. . $ . , . ,
.
)
). $ . ,
settings smbin comb fixed settings comb fixed
comb random settings comb random comb random
print CMH settings print CMH
==
= …
Sus argumentos son las siguientes:
event.e Número de eventos en el grupo experimental.
69
n.e Número de total de observaciones en el grupo experimental.
event.c Número de eventos en el grupo control
n.c Número de total de observaciones en el grupo control
studlab Es un vector opcional con los niveles del estudio.
subset Es un vector opcional que especifica un subconjunto de estudios
para ser utilizado. data Es opcional. Se pone la matriz de datos inicial que contiene la
información del estudio.
method Es una cadena de caracteres en la que se indica qué método es usado en el estudio. Los métodos que ofrece son: “Inverse”, “MH” o “Peto”.
sm Es una cadena de caracteres en la que se indica la medida de resumen (“RR”, “OR”, “RD” o “ASD”).
comb.fixed Carácter lógico que indica si se debe realizar un estudio de efectos fijos.
comb.random Carácter lógico que indica si se debe realizar un estudio de efectos aleatorios.
print.cmh Carácter lógico en el que se indica si los resultado del test de Cochran-Mantel-Haenszel deben ser mostrados.
Esta función devuelve una lista de valores con las siguientes componentes:
El primer objeto que devuelve es una tabla que contiene una primera columna con el
valor de la medida de resumen utilizada (“RR”, “OR”, “RD” o “ASD”) para cada uno
de los estudios, una segunda columna en la que se muestra los intervalos de confianza
de la medida elegida, y una tercera y cuarta columna con los pesos de los modelos de
efectos fijos y/o aleatorios.
Debajo de esto se muestra el valor conjunto de la medida resumen, junto a sus
intervalos de confianza, el valor de z y el p-valor.
70
Por último se muestran las medidas de los estadísticos e índices que estudian la
heterogeneidad, mostrándose además para el estadístico Q de Cochran sus grados de
libertad y su p-valor.
Función ‘forest.meta’
Con esta función es dibujado un gráfico de bosque, y viene dada por:
( ),...forest x
Sus argumentos son:
x Un objeto de la clase meta
text.fixed Cadena de caracteres utilizado en el gráfico para etiquetar la estimación de los efectos fijos, que se encuentra agrupada.
pooled.totals Indica si el número total de observaciones debe mostrarse en la figura.
pooled.events Indica si el número total de eventos debe ser mostrado en la
figura.
x.lab Etiqueta para nombrar el eje de la x.
leftcols Un vector de columnas específicas en el que aparecen los estudios, los eventos y los números totales de observaciones del objeto de clase meta, es mostrado en el lado izquierdo de la figura.
leftlabs Un vector que especifica el nombre de las columnas de la tabla de los eventos y de las observaciones, así como de los estudios.
rightcols Vector que especifica las columnas que van a ser mostradas en el lado derecho del gráfico.
rightlabs Vector que le da nombre a las columnas que se muestran a la derecha del gráfico.
lab.e Etiqueta que se le da a la tabla del grupo experimental.
lab.c Etiqueta que se le da a la tabla del grupo control.
71
hetlab Etiqueta que se le da a los resultados de las medidas de heterogeneidad
addspace Valor lógico que indica si se imprime un espacio adicional (es decir, una fila en blanco), por encima y por debajo de los resultados del estudio.
col.square Se define el color de los símbolos (cuadrados) de cada estudio que muestran el tamaño de la muestra y su valor de OR.
col.diamond Se define el color de los símbolos (rombos) que indican el valor de la OR total.
fs.xlab Es el tamaño del texto en el eje de la x del gráfico.
ff.lab Es el tipo de fuente del texto del eje de la x de gráfico.
La representación gráfica de los resultados de la heterogeneidad en un meta-análisis
contribuye a una fácil y rápida interpretación. Para ello se construye una gráfica en la
que en el eje de abscisas se representa la medida de efecto considerada (odds ratio,
riesgo relativo, etc.) y a lo largo del eje de coordenadas se sitúan los diferentes estudios,
generalmente ordenados por el año de publicación o cualquier otro criterio de
ordenación. Para cada estudio y para la estimación global del efecto, se representa su
estimación puntual y también el intervalo de confianza que le corresponde, asumiendo
un modelo de efectos fijos y/o efectos aleatorios. En nuestro trabajo la categoría de
referencia que se fijaba para la variable Genotipo es la que se mostraba en las columnas
de los eventos. Un ejemplo de este gráfico es el que se muestra en la Imagen [III].
72
Imagen III . Gráfico de bosque para el estudio de la heterogeneidad.
En el diagrama de bosque se muestran las ORs e intervalos de confianza de los
distintos estudios. El valor estimado de las ORs se representa mediante un cuadrado, y
los límites de confianza son los extremos de cada línea horizontal. El tamaño del
cuadrado indica la muestra utilizada: cuanto más grande es el cuadrado más
representativo es el estudio y, por tanto, más fiables sus conclusiones.
W es el peso o ponderación que corresponde a cada estudio en la obtención de la OR
de cada estudio. Su valor depende del método de agregación utilizado, de los tamaños
de muestra y del número de eventos de cada estudio. La OR conjunta para el estudio de
la heterogeneidad, se representa mediante un rombo en la parte inferior, siendo los
extremos del rombo los límites de confianza correspondientes.
También se muestran las medidas conjuntas de heterogeneidad, como la Q de
Cochran, el índice 2I , el valor
2H u otra que no se ha explicado en esta sección que es
2τ . En este gráfico de ejemplo no se muestra la Q de Cochran, pero no es problema
porque si se verá más adelante con el ejemplo del estudio de Meta-análisis.
El gráfico permite, por lo tanto, apreciar los resultados y conclusiones de cada uno de
los estudios individuales y el resultado conjunto para el estudio de la heterogeneidad.
73
Otros libros
Otros libros importantes y que se han utilizado en el análisis expuesto son las
librerías ‘grid’, ’gridExtra’ necesarias para crear las tablas con los resultados del meta-
análisis, que serán mostradas mediante pdf al investigador.
Apéndice C: Script del programa “meta_analysis”
meta_analysis<-function(table,F) {
if(ncol(D)>6) { stop("There are more columns than genotypes by cases and controls.\n") }
if(is.numeric(D[,1])== FALSE | is.numeric(D[,2])== FALSE | is.numeric(D[,3])== FALSE | is.numeric(D[,4])== FALSE | is.numeric(D[,5])== FALSE | is.numeric(D[,6])== FALSE )
{ stop(" There are a value not numeric in some column of cases or controls .\n") }
for(i in 1:nrow(D)) { if (abs(D[,1][i]-trunc(D[,1][i]))>0 | abs(D[,2][i]-trunc(D[,2][i]))>0 | abs(D[,3][i]- trunc(D[,3][i]))>0 | abs(D[,4][i]-trunc(D[,4][i]))>0 | abs(D[,5][i]-trunc(D[,5][i]))>0 | abs(D[,6][i]-trunc(D[,6][i]))>0)
{ stop(" The observed frequencies have to be values positives entire.\n") }}
#### Libraries ####
library(Rcpp) library(lattice) library(mice) library(HardyWeinberg) library(grid) library(gridExtra) library(meta)
## The data are passed to array because the next function HWChisq works with a
74
vector of three elements L = nrow(D) X = vector("numeric",length=L) U = as.matrix(D) estudios <- c(t(U)[c(1:6) , ]) X = array ( estudios , c(3,2,L) , dimnames = list(c("AA","AB","BB") , c("Case","Control") , c(rownames(D)))) # The names of genotypes are changed to work better in the next step
### HWE ### # HardyWeinberg is a method used to remove the genotypes frequencies from #allelics frequencies. # If p-value is less than the required significance level, then we say the null # hypothesis is rejected at the given level of significance. # Test of HWE is made only with controls. # To work with Hardy Weinberg it is necessary to load the library Hardy Weinberg. # The function used to calculate Chi-square from Hardy-Weinberg is HWChisq, # which works with a vector of three elements (genotypes). Xi = vector("list",length=L) HW.test = vector("list") for(i in 1:L)
{ Xi[[i]] = X[,2,i] HW.test[[i]] = HWChisq(Xi[[i]] , verbose = FALSE)#The continuity correction parameter is by default 0.05 }
df <- data.frame( t(matrix(unlist(HW.test) , nrow=5 , dimnames = list(c("Chisq" , "pval" , "D" , "p" , "f") , c(rownames(D)))))) HWE <- cbind( D , df[ , c(-3 , -4 , -5 )]) ### STUDY OF HETEROGENEITY AND THE BETTER GENETIC MODEL###
# Heterogeneity is going to study with the metabin function from 'meta' package. # We're going to considerer fixed effects. The pooled ORs are calculated by the # inverse variance method. # The investigator has that set a category of genotype variable, if the investigator # hasn't set a category then the category to be set is which has higher the sum of its # frequencies. meta1 <- metabin (event.e = D[,1], n.e = (D[,1] + D[,3] ), event.c = D[,4], n.c =
75
(D[,4] + D[,6] ), sm = "OR", method = "Inverse", data = D, studlab = row.names(D), comb.fixed = TRUE, comb.random = FALSE, print.CMH = FALSE ) meta2 <- metabin (event.e = D[,2], n.e = (D[,2] + D[,3] ), event.c = D[,5], n.c = (D[,5] + D[,6] ), sm = "OR", method = "Inverse", data = D, studlab = row.names(D), comb.fixed = TRUE, comb.random = FALSE, print.CMH = FALSE ) meta3 <- metabin (event.e = D[,1], n.e = (D[,1] + D[,2] ), event.c = D[,4], n.c = (D[,4] + D[,5] ), sm = "OR", method = "Inverse", data = D, studlab = row.names(D), comb.fixed = TRUE, comb.random = FALSE, print.CMH = FALSE ) # We're going to make a data.frame with the Q statistic followed of the p-value and # the degrees of freedom. Heterogeneity <- data.frame (matrix (c (meta1$Q, meta2$Q, meta3$Q, meta1$df.Q, meta2$df.Q, meta3$df.Q, 1-pchisq (meta1$Q, meta1$df.Q ), 1-pchisq (meta2$Q, meta2$df.Q ), 1-pchisq (meta3$Q, meta3$df.Q ), meta1$I2 * 100, meta2$I2 * 100, meta3$I2 * 100, meta1$H, meta2$H, meta3$H ), 3, 5, dimnames = list (c (paste ("OR1 =", names(D)[1], "vs", names(D)[3] ), paste("OR2 =", names(D)[2], "vs", names(D)[3] ), paste("OR3 =", names(D)[1] , "vs", names(D)[2] ) ), c("Q", "df", "p-value", "I2", "H" ) ) ) )
#### FOREST.PLOT #### # Forest.plot by meta1, meta2 and meta3. pdf(file = paste (c("1.Forest.plot." ), names(D)[1], c("vs"), names(D)[3], c(".pdf") ), width=12, height=30 ) forest.plot.meta1 <- forest.meta (meta1, text.fixed = "Fixed effects model", pooled.totals = TRUE, pooled.events = TRUE, xlab = paste (names(D)[1], "vs.", names(D)[3] ), leftcols = c("studlab", "event.e", "n.e", "event.c", "n.c" ), leftlabs = c("Studies", names(D)[1], paste (names(D)[3], "+", names(D)[1] ), names(D)[1], paste (names(D)[3], "+", names(D)[1] ) ), rightcols = c("effect", "ci", "w.fixed" ), rightlabs = c("OR", "95%-CI", "W(fixed)" ), lab.e = "Experimental", lab.c = "Control", hetlab = "Heterogeneity:", print.I2 = TRUE, print.tau2 = FALSE, print.Q = TRUE, print.pval.Q = TRUE, addspace = TRUE, col.square = "red", col.diamond = "blue", fs.xlab = 14, ff.xlab = 2 ) dev.off() pdf(file = paste (c("2.Forest.plot."), names(D)[2], c("vs"), names(D)[3], c(".pdf") ), width = 12, height = 30 )
76
forest.plot.meta2 <- forest.meta (meta2, text.fixed = "Fixed effects model", pooled.totals = TRUE, pooled.events = TRUE, xlab = paste (names(D)[2], "vs.", names(D)[3] ), leftcols = c("studlab", "event.e", "n.e", "event.c", "n.c"), leftlabs = c("Studies", names(D)[2], paste (names(D)[3], "+", names(D)[2] ), names(D)[2], paste (names(D)[3], "+", names(D)[2] ) ), rightcols = c("effect", "ci", "w.fixed"), rightlabs = c("OR", "95%-CI", "W(fixed)" ), lab.e = "Experimental", lab.c = "Control", hetlab = "Heterogeneity:", print.I2 = TRUE, print.tau2 = FALSE, print.Q = TRUE, print.pval.Q = TRUE, addspace = TRUE, col.square = "red", col.diamond = "blue", fs.xlab = 14, ff.xlab = 2 ) dev.off() pdf(file = paste (c("3.Forest.plot."), names(D)[1], c("vs"), names(D)[2], c(".pdf")), width = 12, height = 30 ) forest.plot.meta3 <- forest.meta (meta3, text.fixed = "Fixed effects model", pooled.totals = TRUE, pooled.events = TRUE, xlab = paste (names(D)[1], "vs.", names(D)[2] ), leftcols = c("studlab", "event.e", "n.e", "event.c", "n.c"), leftlabs = c("Studies", names(D)[1], paste (names(D)[2], "+", names(D)[1] ), names(D)[1], paste (names(D)[2], "+", names(D)[1] ) ), rightcols = c("effect", "ci", "w.fixed" ), rightlabs = c("OR", "95%-CI", "W(fixed)" ), lab.e = "Experimental", lab.c = "Control", hetlab = "Heterogeneity:", print.I2 = TRUE, print.tau2 = FALSE, print.Q = TRUE, print.pval.Q = TRUE, addspace= TRUE, col.square = "red", col.diamond = "blue", fs.xlab = 14, ff.xlab = 2 ) dev.off()
#### REGRESION ANALYSIS### # With a category fixed we're going to make a data.frame with a genotipes column, # others with the studies, the Cases and Controls. # With the function relevel is fixed the category, and it is created a new column in # the data.frame. # To compare the categories no fixed, we're going to fix the category has higher the # sum of its frequencies, and we return to make a regression analysis, but only is # necessary the comparacion about this two categories. # It is necessary to make a logit regression analysis with the sentence glm. # We have chosen stepwise selection. G1 <- rep("G1", times = nrow(D) ) G2 <- rep("G2", times = nrow(D) ) G3 <- rep("G3", times = nrow(D) ) Est <- rep(rownames(D), times=3) C1 <- c(D[,1],D[,2],D[,3]) C0 <- c(D[,4],D[,5],D[,6]) Ge <-c ("G1","G2","G3")
77
G <- c(G1,G2,G3) datos.agrupados <- data.frame(G,Est,C1,C0) if(is.null(F) )
{ n.1 <- sum(D[,c(1,4)]) n.2<- 0 n.3 <- sum(D[,c(3,6)]) n. <- c(n.1,n.2,n.3) Fixed.G. <- Ge[which(n. == max(n.) ) ] Fixed.G.. <- Ge[which(n. != max(n.)& n. !=0 ) ] } else
{ Fixed.G. <- Ge[which(colnames(D) == F)] Fixed.G.. <- Ge[which(colnames(D) != F & colnames(D) != colnames(D)[2]) ][1] }
datos.agrupados$G. <- relevel(datos.agrupados$G, ref = Fixed.G.) Ajuste.datos.0 <- glm(cbind(C1,C0)~1, family = binomial, data = datos.agrupados) Ajuste.datos.step <- step(Ajuste.datos.0, scope = list(lower = cbind(C1,C0)~1, upper = cbind(C1,C0)~G. + Est), direction = "both", trace = FALSE) # ORs's value OR <- exp(Ajuste.datos.step$coefficients) # ORs's confidence intervals int <- exp(confint.default(Ajuste.datos.step)) # level 95% # New data.frame with the other categories datos.agrupados$G.. <- relevel(datos.agrupados$G,ref=Fixed.G..) Ajuste.datos.0. <- glm(cbind(C1,C0)~1, family = binomial, data = datos.agrupados) Ajuste.datos.step. <- step(Ajuste.datos.0, scope = list(lower = cbind(C1,C0)~1, upper = cbind(C1,C0)~G.. + Est), direction = "both", trace = FALSE) OR. <- exp(Ajuste.datos.step.$coefficients) int. <- exp(confint.default(Ajuste.datos.step.)) # level 95%
78
##### Regression analysis #####
Regression.analysis <- matrix (c (anova (Ajuste.datos.step)["G.",2], anova (Ajuste.datos.step)["G.",1], 1-pchisq (anova (Ajuste.datos.step)["G.", 2], anova (Ajuste.datos.step)["G.",1]) ), 1, 3, dimnames = list(c(""), c("chi-square", "df", "p-value") ) ) #If p-value is < 0.1 the genotypes are associated with disease. #ORs are going to be grouped in two matrices to link it better with its values. M <- matrix(c(OR, int), length(OR), 3, dim = list(c(names(OR) ), c("OR", "2.5%", "97.5%") ) ) M2 <- matrix(c(OR., int.), length(OR), 3, dim = list(c(names(OR.) ), c("OR.", "2.5%", "97.5%") ) ) if(Fixed.G. == "G1")
{ OR1 = M["G.G3",] OR2 = M2["G..G2",] OR3 = M["G.G2",] }
if(Fixed.G. == "G3")
{ OR1 = M["G.G1",] OR2 = M["G.G2",] OR3 = M2["G..G2",] }
#ORs's comparisons are: #OR1 = (colnames(D)[1] vs colnames(D)[3]) #OR2 = (colnames(D)[2] vs colnames(D)[3]) #OR3 = (colnames(D)[1] vs colnames(D)[2]) ## OR's table answer.OR <- data.frame(t(matrix(c(OR1, OR2, OR3), 3, 3, dimnames = list(c("Value_OR", "Int_1", "Int_2"), c("OR1", "OR2", "OR3") ) ) ) )
##### The best model genetic ##### # The independence is refused if the OR's confidence interval not includes the value # 1.
79
# If the OR's confidence interval includes the value 1 then there are independence # about the genotypes which are compared in this OR. if( ( (answer.OR[1,2]>1) | (answer.OR[1,3]<1) ) & ( (answer.OR[2,2]<1) & (answer.OR[2,3]>1) ) & ( (answer.OR[3,2]>1) | (answer.OR[3,3]<1) ) )
{ R<-c("OR1=OR3=!1 and OR2 = 1") C<-c("then a recessive model is suggested") } else
{ if( ( (answer.OR[1,2]>1) | (answer.OR[1,3]<1) ) & ((answer.OR[2,2]>1) | (answer.OR[2,3]<1) ) & ( (answer.OR[3,2]<1) & (answer.OR[3,3]>1) ) )
{ R<-c("OR1=OR2=!1 and OR3 = 1") C<-c("Then a dominant model is suggested.") } else
{ if( ( (answer.OR[1,2]<1) & (answer.OR[1,3]>1) ) & ( (answer.OR[2,2]>1) | (answer.OR[2,3]<1) ) & ( ( (1/answer.OR[3,3])>1) | ( (1/answer.OR[3,2])<1) ) )
{ R<-c("OR2=1/OR3=!1 and OR1 = 1") C<-c("Then a complete overdominant model is suggested.") } else
{ if( ( ( (answer.OR[1,2]) > (answer.OR[2,2]) ) & ( (answer.OR[2,2])>1) ) & ( ( (answer.OR[1,2]) > (answer.OR[3,2])) & ( (answer.OR[3,2])>1) ) )
{ R<-c("OR1>OR2>1 and OR1>OR3>1") C<-c("Then a codominant model is suggested.") } else
{ if( ( ( (answer.OR[1,3]) < (answer.OR[2,3]) ) & ( (answer.OR[2,3]) < 1) ) & ( ( (answer.OR[1,3]) < (answer.OR[3,3]) ) & ( (answer.OR[3,3])< 1) ) )
{ R<-c("OR1<OR2<1 and OR1<OR3<1") C<-c("Then a codominant model is suggested.") } else
{ R<-c() C<-c("There is a genetic effect without be able to specify what genetic model is reponsible.") }}}}}
80
#### Pooling data #### meta4 <- metabin(event.e = D[,1], n.e = (D[,1]+ D[,2]+ D[,3]), event.c = D[,4], n.c = (D[,4]+ D[,5]+ D[,6]), sm = "OR", method = "Inverse", data = D, studlab = row.names(D), comb.fixed = TRUE, comb.random = FALSE, print.CMH = FALSE) meta5 <- metabin(event.e = D[,3], n.e = (D[,1]+ D[,2]+ D[,3]), event.c = D[,6], n.c = (D[,4]+ D[,5]+ D[,6]), sm = "OR", method = "Inverse", data = D, studlab = row.names(D), comb.fixed = TRUE, comb.random = FALSE, print.CMH = FALSE) meta6 <- metabin(event.e = D[,2], n.e = (D[,1]+ D[,2]+ D[,3]), event.c = D[,3], n.c = (D[,4]+ D[,5]+ D[,6]), sm = "OR", method = "Inverse", data = D, studlab = row.names(D), comb.fixed = TRUE, comb.random = FALSE, print.CMH = FALSE) pdf(file = paste(c("4.Forest.plot."), names(D)[1], c("vs"), names(D)[2], c("and"), names(D)[3], c(".pdf") ), width = 12, height = 30 ) Pooling.data.forest.plot <- forest.meta(meta4, text.fixed = "Fixed effects model", pooled.totals = TRUE, pooled.events = TRUE, xlab = paste(names(D)[1], "vs.", names(D)[3], "/", names(D)[2]), leftcols = c("studlab", "event.e", "n.e", "event.c", "n.c"), leftlabs = c("Studies", names(D)[1], paste("Total"), names(D)[1], paste("Total") ), rightcols = c("effect", "ci", "w.fixed"), rightlabs = c("OR", "95%-CI", "W(fijo)"), lab.e = "Case", lab.c = "Control", hetlab = "Heterogeneity:", print.I2 = TRUE, print.tau2 = FALSE, print.Q = TRUE, print.pval.Q = TRUE, addspace = TRUE, col.square = "red", col.diamond = "blue", fs.xlab = 14, ff.xlab = 2 ) dev.off() pdf(file = paste(c("5.Forest.plot." ), names(D)[3], c("vs"), names(D)[1], c("and"), names(D)[2], c(".pdf") ), width = 12, height = 30 ) Pooling.data.forest.plot <- forest.meta(meta5, text.fixed = "Fixed effects model", pooled.totals = TRUE, pooled.events = TRUE, xlab = paste(names(D)[3], "vs.", names(D)[1], "/", names(D)[2]), leftcols = c("studlab", "event.e", "n.e", "event.c", "n.c"), leftlabs = c("Studies", names(D)[3], paste("Total"), names(D)[3], paste("Total") ), rightcols = c("effect", "ci", "w.fixed"), rightlabs = c("OR", "95%-CI", "W(fijo)"), lab.e = "Case", lab.c = "Control", hetlab = "Heterogeneity:", print.I2 = TRUE, print.tau2 = FALSE, print.Q = TRUE, print.pval.Q = TRUE, addspace = TRUE, col.square = "red", col.diamond = "blue", fs.xlab = 14, ff.xlab = 2 ) dev.off() pdf(file = paste(c("6.Forest.plot."), names(D)[2], c("vs"), names(D)[1], c("and"), names(D)[3], c(".pdf") ), width = 12, height = 30 )
81
Pooling.data.forest.plot <- forest.meta(meta6, text.fixed = "Fixed effects model", pooled.totals = TRUE, pooled.events = TRUE, xlab = paste(names(D)[2], "vs.", names(D)[1], "/", names(D)[3]), leftcols = c("studlab", "event.e", "n.e", "event.c", "n.c"), leftlabs = c("Studies", names(D)[2], paste("Total"), names(D)[2], paste("Total") ), rightcols = c("effect", "ci", "w.fixed"), rightlabs = c("OR", "95%-CI", "W(fijo)"), lab.e = "Case", lab.c = "Control", hetlab = "Heterogeneity:", print.I2 = TRUE, print.tau2 = FALSE, print.Q = TRUE, print.pval.Q = TRUE, addspace= TRUE, col.square = "red", col.diamond = "blue", fs.xlab = 14, ff.xlab = 2 ) dev.off()
### PDF ## # The results are gotten in pdfs and txt. # It is necessary open the gridEsxtra library to create the next tables. # The values are rounded with three decimals. method = list (HWE = round(HWE, 3 ), Heterogeneity = round(Heterogeneity, 3), Regression.analysis=round(Regression.analysis,3), Determining.the.best.genetic.model = round(answer.OR, 3) ) table = vector("list") title = vector("list") footnote = vector("list") gt = vector("list") for(i in 1:(length(method) ) )
{ pdf = pdf(file = paste(names(method)[i], c(".pdf") ) ) table[[i]] <- tableGrob(method[[i]]) grid.newpage() h <- grobHeight(table[[i]]) w <- grobWidth(table[[i]]) title[[i]] <- textGrob(names(method[i]), y = unit(0.5,"npc") + 0.5*h,vjust = 0, gp= gpar(fontsize = 20) )
if(i == length(method)) { footnote <- textGrob(paste( R ,"\n" , C ), x = unit(0.5,"npc") - 0.5*w, y = unit(0.4,"npc") - 0.4*h, vjust = 1, hjust = 0, gp = gpar( fontface = "italic") ) }else
{ footnote = NULL
82
} gt[[i]] <- gTree(children = gList(table[[i]], title[[i]], footnote) ) grid.draw(gt[[i]]) dev.off() }
### .txt ##
for(i in 1:length(method))
{ write.table(method[[i]], file = paste(names(method)[i], c(".txt") ), sep = "\t", col.names = TRUE ) }
}
83
BIBLIOGRAFÍA:
A.M.Aguilera. (2006). Modelización de tablas de contingencia multidimensionales.
Madrid: La Muralla, S.A.
Allen, C., & Clarke, M. (2007). International activity in Cochrane Review Groups
with particular reference to India. The National Medical Journal of India , 20; 250-255.
Cochran, W. (1937). Problems arising the analysis of a series of experiments.
Journal of Royal Statistical Society , 4(suppl.):102-118.
Gonzalez, F., Urrútia, G., & Alonso-Coello, P. (2011). Revisiones sistemáticas y
metaanálisis: bases conceptuales e interpretación. Rev Esp Cardiol , 64(8):688–696.
Guaita, M. F. (2007). Lectura crítica de un metaanálisis y de una revisión
sistemática. En Atención sanitaria basada en la evidencia: su aplicación a la práctica
clínica (págs. 297-328). Murcia: Cosejería de Sanidad de la Región de Murcia.
Higgins, J., & Thompson, S. (2002). Quantifying heterogeneity in a meta-analysis.
Stat Med , 21:1539-1558.
Higgins, J., Thompson, S., Deeks, J., & Altman, D. (2003). Measuring inconsistency
in meta-analyses. BMJ , 327:557-560.
Hunter, D., Altshuler, D., & Rader, D. (2008). From Darwin's Finches to Canaries in
the Coal Mine- Mining the Genome for New Biology. N Engl J Med , 358: 2760-2763.
Iniesta, R., Guinóa, E., & Moreno, V. (2005). Análisis estadístico de polimorfismos
genéticos en estudios epidemiológicos. Gac Sanit , 19, 333-41.
Ortiz, Z. (1997). Metaanálisis como Método Básico en la investigación Científica de
la Práctica Diaria. Boletín Academia Nacional de Medicina , 16(4):424-26.
84
Purcell, S., Neale, B., Todd-Brown, K., Thomas, L., & Ferreira, M. A. (2007). A
Tool Set for Whole-Genome Association and Population-Based Linkage Analyses. Am
J Hum Genet , 559-575.
Sharma, P. (1998). Meta-analysis of the ACE gene in ischaemic stroke. Journal of
Neurology Neurosurgery and Psychiatry , 64; 227-230.
Takkinstian, A., McElduff, P., D'Este, C., & al, e. (2005). A method for meta-
analysis of molecular association studies. Stat Med , 24:1291-1306.
Thomson Reuters. (s.f.). Obtenido de http://www.procite.com/
Thomson Reuters. (s.f.). Obtenido de http://www.refman.com/
Wang, D., Siao, C., & Fran, J. (1998). “Large-scale identification, mapping
andgenotyping of single nucleotide polymorphisms in the human genome”. Science ,
280:1077-82.