estudio de 41 marcadores genéticos de riesgo para la ...€¦ · ccg del gen clu (snps rs2279590,...
TRANSCRIPT
Informe de pasantía de grado Melanie Nuesch
1
Estudio de 41 marcadores
genéticos de riesgo para la
enfermedad de Alzheimer de
inicio tardío en 2
poblaciones uruguayas y 26
mundiales.
Melanie Nuesch Germano
Licenciatura en Biología Humana
Informe de pasantía de grado
2017
Informe de pasantía de grado Melanie Nuesch
2
ÍNDICE
RESUMEN ...................................................................................................................... 3
INTRODUCCIÓN .......................................................................................................... 4
ENFERMEDAD DE ALZHEIMER: UN PROBLEMA GLOBAL ....................................................... 4
PATOLOGÍA .......................................................................................................................................... 6
La hipótesis amiloide ........................................................................................................................... 7
SUBTIPOS y FACTORES DE RIESGO .............................................................................................. 10
Alzheimer De inicio temprano (EOAD) ............................................................................................... 10
Alzheimer De inicio tardío (LOAD) ..................................................................................................... 11
CONTEXTO ESPECÍFICO .................................................................................................................. 13
OBJETIVOS ................................................................................................................. 14
MATERIALES Y MÉTODOS ...................................................................................... 15
LOS DATOS ......................................................................................................................................... 15
EL PANEL ............................................................................................................................................ 18
ESTUDIO DE ESTRUCTURA POBLACIONAL ............................................................................... 22
Análisis de componente principal ...................................................................................................... 22
Procedimiento ................................................................................................................................... 23
ANÁLISIS DE EQUILIBRIO DE HARDY-WEINBERG .................................................................. 23
Procedimiento ................................................................................................................................... 24
CÁLCULO DE FRECUENCIAS ALÉLICAS EN SUPERPOBLACIONES ...................................... 25
RESULTADOS ............................................................................................................. 27
RESULTADOS DEL ESTUDIO DE ESTRUCTURA POBLACIONAL ........................................... 27
Utilizando 342359 marcadores ......................................................................................................... 27
Utilizando los 41 marcadores de Alzheimer de inicio tardío ............................................................. 29
RESULTADOS DEL ESTUDIO DE EQUILIBRIO DE HARDY-WEINBERG ................................ 31
RESULTADOS DEL ESTUDIO DE FRECUENCIA ALÉLICA ....................................................... 34
DISCUSIÓN .................................................................................................................. 37
CONCLUSIONES ......................................................................................................... 41
BIBLIOGRAFÍA........................................................................................................... 41
ANEXO ......................................................................................................................... 48
CÓDIGO DE ESTUDIO DE ESTRUCTURA POBLACIONAL ........................................................ 49
CÓDIGO DE ANÁLISIS DE EQUILIBRIO DE HARDY-WEINBERG............................................ 53
CÓDIGO DE CÁLCULO DE LAS FRECUENCIAS ALÉLICAS ..................................................... 57
Tablas complementarias ................................................................................................................... 60
Informe de pasantía de grado Melanie Nuesch
3
RESUMEN
Las enfermedades neurológicas demuestran cada vez más ser multifactoriales,
donde la genética juega un papel importante. Por ejemplo, la enfermedad de Alzheimer de
inicio tardío (LOAD), la causa de demencia más frecuente, está asociada a la presencia de
haplotipos del gen APOE, junto con la de polimorfismos nucleotídicos en varios genes
participantes en complejas redes de regulación de la expresión génica, capaces de
condicionar procesos fisiológicos del cerebro. Pueden ser protectores, si se asocian a un
menor riesgo de inicio de la enfermedad, o factores de riesgo, si lo aumentan. En este
contexto, las herramientas de la genómica evolutiva y la bioinformática actúan como fuentes
generadoras de hipótesis de trabajo en la neurociencia y genética médica, sobre todo en
patologías cuyos mecanismos fisiopatológicos requieren revisión (como LOAD).
En Uruguay no hay antecedentes de estudios de epidemiología genética de LOAD.
Debido a que su clínica puede solaparse con la de otras demencias, es de suma
importancia avanzar en su caracterización, así como también generar métodos modernos
de diagnóstico.
En este proyecto se construyó un panel genético que reune 62 polimorfismos
asociados a LOAD, y 41 de ellos se analizaron en 28 muestras del mundo. Se utilizaron
2504 genomas de individuos pertenecientes a 26 poblaciones de la base de datos de los
1000 genomas (1000genomes.org) y 20 genomas del proyecto URUGENOMES fase 1
(10 de individuos de ascendencia africana y 10 de ascendencia nativa uruguaya). Se
calcularon frecuencias alélicas en todas las poblaciones y se compararon entre cinco
“superpoblaciones” mediante el estadístico FST; también se exploró la estructura
poblacional mediante análisis de componentes principales, y se testeó si las frecuencias se
ajustaban a lo esperado por el modelo de equilibrio de Hardy-Weinberg.
Más allá de algunas consideraciones formales y/o técnicas, se lograron realizar
ampliamente los objetivos propuestos. En relación a algunos resultados concretos, se
encontró que las frecuencias del SNP rs670139 (locus MS4A) no se ajustan a lo esperado en
situación de equilibrio de Hardy-Weinberg en la población uruguaya descendiente de nativos.
Esto, junto con los antecedentes bibliográficos del SNP, sugiere una interesante línea de
investigación en los efectos neuroinflamatorios de la epístasis entre el locus MS4A (en
particular, el gen MS4A4E) y el gen CLU en LOAD en uruguayos, la cual a largo plazo
podría resultar en aplicaciones diagnósticas o terapéuticas para el país. Para esto, sin
embargo, primero se requiere reproducir los análisis con ciertas consideraciones, como
aumentar el tamaño de la muestra uruguaya utilizada, muestrear de forma más representativa
respecto a la etnia de los individuos y calcular valores de FST no sobreestimados, entre otras.
Como segunda perspectiva, se sugiere seguir estudiando la posible asociación del haplotipo
CCG del gen CLU (SNPs rs2279590, rs11136000 y rs9331888) con LOAD, ya que parece
haber una correlación entre la prevalencia de demencia y las frecuencias alélicas de SNPs, al
compararlas entre japoneses y africanos al Suroeste del Sahara.
Informe de pasantía de grado Melanie Nuesch
4
INTRODUCCIÓN
Debido al aumento de la expectativa de vida y al decremento de la fertilidad, la
cantidad de adultos mayores a 64 años aumentó rápidamente, y mantendrá esta tendencia
durante el resto del siglo (Prince et al., 2015). Por esta razón, se están realizando esfuerzos
globales para investigar, entender e intentar combatir enfermedades asociadas al
envejecimiento.
Cierto grado de atrofia cerebral concomitante al envejecimiento es inevitable, pero
estos cambios por sí solos son de poca significancia clínica y carecen de un mecanismo
definido. En contraste, una atrofia severa que evoluciona en unos pocos años, acompañada
con deterioro cognitivo, es identificada como una enfermedad neurodegenerativa: demencia
(Ropper, Samuels & Klein 2014), y el mecanismo subyacente muchas veces es la enfermedad
de Alzheimer, la causa de demencia más frecuente. Como la incidencia y prevalencia de la
demencia aumentan marcadamente con la edad, y ésta genera una problemática
socioeconómica, atenderla es urgente.
De las diversas causas de demencia, en este trabajo se estudiará solamente al Alzheimer.
ENFERMEDAD DE ALZHEIMER: UN PROBLEMA GLOBAL
El Alzheimer es una enfermedad neurodegenerativa crónica, que empieza con una
fase subclínica, seguido por un deterioro cognitivo leve y un grave deterioro ulterior. Su
síntoma más notorio es la pérdida de memoria episódica, donde el paciente no es capaz de
recordar tiempos, lugares y características contextuales de su autobiografía (Bennett et al.,
2014). Desde que el psiquiatra alemán Alois Alzheimer diagnosticó al primer paciente en
1907, la enfermedad está entre las primeras 10 de causas de muerte a nivel mundial, y de
ellas es la única que, por el momento, no podemos prevenir, curar, ni enlentecer
significativamente (Cohen, 2015).
En 2015 se estimó que 46.8 millones de personas en el mundo padecen Alzheimer u
otra demencia relacionada (Prince et al., 2015), y se estima la duplicación de la cifra cada 20
años. Su prevalencia estimada en distintas regiones del mundo se muestra en la Figura 1. Los
valores de prevalencia en ciertas regiones claves para este trabajo, debido a que las muestras
pertenecen a poblaciones de dichas regiones, son: 3.1% en África Sub-Sahara del oeste y
3.5% en la del este, 6.9% en Europa del oeste, 6.5% en el Caribe, 5.8% en Latinoamérica
central, 6.1% en Latinoamérica andina, 7.0% en Asia del Pacífico “De Altos Ingresos”, 4.5%
en Asia del Este, 5.8% en Asia del Sureste, y 3.7% en Asia del Sur. Para ver estas regiones
ubicadas en el mapa mundial, ver Figura 20 en la sección Anexo de este trabajo.
En Uruguay, en el 2010 se estimó un total aproximado de 54.036 personas con
demencia (Alzheimer’s Disease International & BUPA UK, 2013), y en el 2014 se estimó
una esperanza de vida de 77 años, la cual creció marcadamente en los últimos 27 años y es
una de las más altas de la región, luego de la de Chile (The World Bank Group, 2014).
Informe de pasantía de grado Melanie Nuesch
5
Figura 1. Tabla extraída de Prince et al. 2015, con estimaciones acerca de la demencia en el
mundo. De izquierda a derecha, se muestran estimaciones de la cantidad de personas de edad
mayor a 60, prevalencia, número de personas que padecen demencia y predicciones para los años
2030 y 2050. Es importante resaltar que hay una importante carencia de datos de Asia Central,
Sudamérica, Europa del Este y África del Sur y del Este, y que se consideraron personas cuyos
diagnósticos estaban basados en los criterios utilizados en DSM-IV, ICD-10, o similarles, pero ciertos
criterios no fueron rigurosamente respetados (como descartar otras causas de deterioro cognitivo,
como lo pueden ser la depresión, delirio y psicosis funcional, por lo cual se puede estar sub o
sobreestimando la prevalencia. De todos modos, en este trabajo se utilizarán como valores de
referencia. El mapa con las regiones utilizadas en esta tabla (GBD world regions, Figura) está en el
Anexo. El asterisco verde (*) marca las regiones importantes para este trabajo.
*
*
*
*
*
*
*
*
*
*
Informe de pasantía de grado Melanie Nuesch
6
PATOLOGÍA
Cada enfermedad neurodegenerativa tiene, a nivel molecular, su proteína (o péptido)
problemática y lugar de inicio característicos, como la alfa-sinucleína formando cuerpos de
Lewy en la sustancia nigra en la enfermedad de Parkinson (Stefanis, 2012), cuerpos de Lewy
ampliamente distribuídos en la corteza cerebral en demencia con cuerpos de Lewy (Beyer,
Domingo-Sàbat & Ariza, 2009), TDP-43 en demencia frontotemporal (Sieben et al. 2012) y
en esclerosis lateral amiotrófica (Scotter, Chen, and Shaw, 2015).
En el caso de la enfermedad de Alzheimer, la patología se define por la agregación
anormal de determinadas moléculas, la cual está fuertemente correlacionada con las
disfunciones observadas. Dentro de la célula se forman ovillos neurofibrilares, compuestos de
proteína tau (tubulin associated unit, asociada a microtúbulos), y fuera de las células se
forman inclusiones del péptido beta-amiloide, llamadas placas de amiloide. La presencia de
placas de amiloide, gracias a estudios genéticos, bioquímicos y neuropatológicos, ha tomado
un lugar central en el mecanismo de inicio de la enfermedad (Hardy & Selkoe 2002), con la
creación de la hipótesis amiloide, mientras que la patología neurofibrilar ha mostrado una
fuerte correlación con la disfunción neuronal y progresión de las fases clínicas (Holtzman,
Morris & Goate, 2011).
Figura 2. A la izquierda, una ilustración de tejido nervioso sano. A la derecha, tejido nervioso
con la patología de Alzheimer, en particular los ovillos neurofibrilares y las placas de beta amiloide.
La patología comienza en regiones del lóbulo temporal, en particular en la corteza
temporal inferior e hipocampo, y posteriormente se extiende a otras zonas corticales
(parietales, frontales). Además, ocurre degeneración de núcleos colinérgicos de la base del
cerebro, junto con otros núcleos subcorticales y del tronco encefálico, neuroinflamación y
estrés oxidativo (Whitehouse et al. 1981; Rasool, Svendsen & Selkoe, 1986; Wilson et al.
2013; Aluise et al., 2011; Butterfield, Reed & Perluigi, 2007; Lue et al., 1996; Blalock et al.,
2004; Heneka et al., 2015). La degeneración de núcleos genera déficit de neurotransmisores.
En particular, existe déficit de acetilcolina debido a la degeneración del núcleo basal de
Meynert, localizado en la sustancia innominada de la sustancia perforada anterior. Los
agregados de proteínas (oligómeros solubles de beta amiloide) se unen a receptores de
Informe de pasantía de grado Melanie Nuesch
7
reconocimiento de patrones en microglía y astroglía, desatando una respuesta inmune innata
caracterizada por la liberación de mediadiores químicos de la inflamación, lo cual contribuye
a la progresión y severidad de la enfermedad (Heneka et al., 2015). Hay evidencia, además,
en modelos murinos, de reclutamiento de monocitos periféricos a través de la barrera
hematoencefálica (Heneka et al., 2015).
Todos estos cambios patológicos ocurren una vez iniciada la enfermedad. Respecto al
inicio de la misma, se han propuesto varias hipótesis mecanísticas como intento de unificar
todos estos diversos fenómenos en una sola explicación teoríca (Karran & De Strooper,
2016): la de la cascada mitocondrial, la de la vía dual, la del metabolismo, la del retorno al
ciclo celular, la vascular, la de los oligómeros de beta amiloide, y la hipótesis de la cascada
amiloide, siendo esta última la más comprensiva y apoyada hasta el momento.
LA HIPÓTESIS AMILOIDE
Los orígenes de la hipótesis de la cascada amiloide se remontan a la década de los
ochenta, con la secuenciación de la cadena aminoacídica de la proteína precursora de
amiloide (APP, amyloid precursor protein) extraída de tejido cerebrovascular y parénquima
cerebral postmortem de pacientes con Alzheimer (Glenner & Wong 1984; Masters et al.
1985). Esto causó que se secuenciara e identificara el gen APP, que codifica para la
holoproteína de la cual se escinde el beta amiloide por acción secuencial de la enzima
cortadora de beta amiloide (-amyloid cleaving enzime), la cual lo libera de su extremo N, y
-secretasa, que corta el extremo C (Karran & De Strooper, 2016). -secretasa es un complejo
proteico que comprende a las presenilinas 1 o 2, aph1a o aph1b, pen2 y nicastrina, donde las
presenilinas aportan los residuos aspartil del sitio activo (De Strooper, Iwatsubo & Wolfe,
2012).
Figura 3. Ilustración del complejo -secretasa y su relación con la proteína APP.
Durante el metabolismo celular normal, APP puede ser cortada por las enzimas ,, y
secretasas, y es un producto de secreción regular de algunas células. Normalmente, APP es
cortada por -secretasa y, posteriormente, por -secretasa, originando fragmentos pequeños
no neurotóxicos (Ropper, Samuels & Klein, 2014). Sin embargo, si APP es cortada por -
secretasa y luego por -secretasa, se generan fragmentos de A más largos de 40 y 42
Informe de pasantía de grado Melanie Nuesch
8
aminoácidos. A42 es neurotóxico, y se ha planteado que el radio A42/A40 es crítico para
la toxicidad del amiloide; abundante evidencia favorece la idea de que un aumento de A42
produce toxicidad antes y después de su agregación (M. P. Lambert et al., 1998; Hartley et
al., 1999; Hsia et al., 1999; Mucke et al., 2000). Parecería también que una deposición difusa
de A42 precede a la formación de placas y ovillos neurofibrilares más definidos, sugiriendo
que es el mecanismo inicial.
Figura 4. Esquema de los eventos proteolíticos y de escición que son generados durante el
procesamiento de APP. APP salvaje es normalmente procesado por la vía --secretasa, mientras
que algunas mutaciones, como la sueca (APP Swedish mutation) favorece la reacción de APP con -
secretasa. Las mutaciones en PSEN1 y PSEN2 alteran la acción de -secretasa y promueve la
sobreproducción de A42. Del mismo modo, las mutaciones en el dominio transmembrana (TM mutations) de APP también favorecen la sobreproducción. Otras mutaciones, como las
Flamencas/Holandesas y Árticas parecen altrar la predisposición de A a formar fibrillas. La
apolipoproteína 4 puede tener varios efectos, incluyendo competir por el clearance con A mediante el receptor de LRP1 (low-density-lipoprotein-related protein 1), favoreciendo la
aglomeración y la fibrilogénesis de A extracelular. Tomado de Sisodia & St George-Hyslop, 2002.
Entre 1991 y 1992, una serie de trabajos publicados articularon distintas evidencias,
fisiopatológicas y genéticas, al consolidar la hipótesis (Beyreuther & Masters, 1991; Hardy &
Allsop, 1991; Selkoe, 1991; Hardy & Higgins, 1992). En 1992, Hardy y Higgins publicaron
un breve pero robusto artículo sobre la hipótesis amiloide (Hardy & Higgins, 1992), donde se
posicionaba a la deposición de placas A como evento clave inicial en la patología que
resulta en muerte celular y/o desarrollo de ovillos neurofibrilares (formados por agregados
insolubles de proteína tau hiperfosforilada) mediante la elevación de los niveles de calcio
intracelular. A la vez, estudios de genética demostraron la existencia de mutaciones en genes
de proteínas relacionadas al metabolismo del beta amiloide en individuos con la patología de
Informe de pasantía de grado Melanie Nuesch
9
Alzheimer, apoyando la idea de que la enfermedad se da a partir de una desregulación del
metabolismo normal de este péptido(Goate, 2006; Karch & Goate, 2015).
Figura 5. Secuencia de eventos patogénicos propuestos por la hipótesis de cascada amiloide. La flecha curva indica que los oligómeros son capaces de lesionar directamente, y no solamente a través de la activación glial. Modificado a partir de Hardy 2002 (Hardy & Selkoe, 2002). El hallazgo de mutaciones en el gen APP y el posterior reconocimiento de la acción γ-secretasa de las presenilinas derivaron en la consolidación de esta hipótesis.
Si bien hay mucha evidencia a favor de la hipótesis amiloide (Hardy & Selkoe, 2002),
también hay evidencia que desafía la relación entre la deposición de amiloide y la pérdida
neuronal y atrofia cerebral, por lo cual está en tela de juicio y los investigadores están
repasando otras hipótesis y generando líneas de investigación alternativas (Karran & De
Informe de pasantía de grado Melanie Nuesch
10
Strooper, 2016). En particular, la de los oligómeros de beta amiloide ha ganado popularidad,
sugiriendo que quizás los fragmentos pequeños solubles son los tóxicos, mientras que el foco
todos estos años ha estado en estudiar los efectos del amiloide insoluble, largo y fibrilar
formador de placas(Ropper, Samuels & Klein, 2014; Karran & De Strooper, 2016).
Otros directamente han cuestionado las hipótesis amiloidocéntricas en general como
patogénicas, y hasta se ha sugerido que quizás sea un mecanismo de defensa de las células
(Ropper, Samuels & Klein, 2014).
DeKosky y Scheff encontraron un número reducido y ensanchamiento de sinapsis en
las áreas cerebrales afectadas en etapas tempranas (DeKosky & Scheff, 1990), lo cual se
puede interpretar como el primer signo de muerte neuronal o como el resultado de la pérdida
neuronal. En el primer caso, se plantea que quizás la deposición de amiloide sea un fenómeno
secundario. La formación de ovillos también está siendo debatida si es principal o secundaria
a la patología.
SUBTIPOS Y FACTORES DE RIESGO
Si bien su patología es idéntica, hoy en día la enfermedad de Alzheimer se divide en
dos tipos: de inicio temprano (antes de los 60 años) y de inicio tardío (después de los 60), los
cuales tienen distinta base etiológica. Más allá del debate de si realmente existen o no dos
subtipos, esta distinción es especialmente útil en un encare de neurogenética, por la cual la
utilizaré en este trabajo.
ALZHEIMER DE INICIO TEMPRANO (EOAD)
Se conoce la disfunción genética que subyace al Alzheimer de inicio temprano (early
onset Alzheimer’s Disease, EOAD) hace ya más de tres décadas. En 1984, Glenner y Wong
observaron que el péptido beta amiloide que se encontraba depositado en cerebros de
pacientes con síndrome de Down era idéntico al encontrado en muestras de pacientes con
Alzheimer esporádico, sugiriendo la posibilidad de que algún defecto en el cromosoma 21
fuese responsable también de esta patología(Glenner & Wong, 1984). Gracias a estudios
familiares y análisis de ligamiento, en 1991 se reveló una mutación que genera el cambio
aminoacídico V717I en la secuencia del gen de APP (cromosoma 21)(Goate, 2006), en la
región C-terminal, la cual resultaba en una patología exactamente igual a la del Alzheimer
esporádico de inicio tardío, pero ésta se iniciaba más temprano. Cuanto más temprano el
inicio, mayor la penetrancia observada.
Hoy en día se conocen centenares de mutaciones codificantes (http://www.alzfo-
rum.org/mutations) en tres genes: APP, PSEN1 (presenilina 1, cromosoma 14) y PSEN2
(presenilina 2, cromosoma 1) que causan Alzheimer de inicio temprano (Wood, 2012; Karch
& Goate, 2015); APP, gen de la molécula precursora, y PSEN1 y PSEN2, genes de enzimas
de su metabolismo. En su mayoría, las mutaciones de APP se encuentran en los exones 16 y
17 que codifican para la región beta amiloide de la proteína. Todas estas mutaciones tienen
efecto desregulando la vía metabólica del beta amiloide en algún punto, como aumento del
radio A42/A40 y/o cambio de las propiedades de agregación del péptido en general
(Karran & De Strooper, 2016), haciendo más propenso al péptido a agregarse en placas.
Informe de pasantía de grado Melanie Nuesch
11
ALZHEIMER DE INICIO TARDÍO (LOAD)
El Alzheimer de inicio tardío (LOAD, late onset Alzheimer´s disease) tiene un
componente genético (Gatz et al., 2006), el cual es, en parte, explicado mayoritariamente por
el gen de la apolipoproteína E (APOE)(Corder et al., 1993) y otra gran cantidad de genes que
fueron identificados por mapeo posicional, análisis dirigido de genes y estudios de asociación
de genoma completo (GWAS, genome wide association studies)(Farrer et al., 1997; Sherva &
Farrer, 2012; Lambert & Al, 2013).
Los humanos presentan tres variantes mayores de apoE – apoE2, apoE3 y apoE4
(Nickerson et al., 2000), entre otras, compuestas por combinaciones alélicas no sinónimas en
dos SNPs en exones del gen APOE: rs429358 y rs7412 (Schellenberg, D’Souza & Poorkaj,
2000). Por ejemplo, si en ambos sitios se tiene el alelo C (C/C), entonces el individuo
produce la apolipopriteína E4 (apoE4) y se dice que es APOE 4+ (y así para cada uno: C/T
para , T/T para , y T/C para , siendo esta última la más común)(Cariaso & Lennon,
2011).
La consecuencia estructural de producir lipoproteína apoE4 parece ser que la misma se une
preferentemente a lipoproteínas de muy baja densidad (VLDLs) en el plasma sanguíneo,
mientras que apoE2 y 3 se unen a lipoproteínas de alta densidad (HDLs) (Huang et al., 2003).
Las isoformas de apoE también parecen influenciar los niveles de colesterol en
plasma, el crecimiento neuronal y su aglomeración en placas (Bekris et al., 2008).
Portar una copia del alelo APOE4, o 4, aumenta cuatro veces el riesgo de tener LOAD,
comparado con el genotipo APOE3/APOE3; dos copias del alelo APOE4 aumenta el riesgo
aproximadamente doce veces, y el alelo APOE2 reduce el riesgo comparado con APOE3 (es
protector)(Verghese, Castellano & Holtzman, 2011).
Posteriormente, se reprodujeron los análisis de asociación de genoma completo en
individuos APOE 4+ y APOE 4-, bajo la hipótesis de que éste alelo podría estar
apantallando polimorfismos de efecto pequeño, y varios nuevos fueron descubiertos, muchos
en regiones no codificantes. Actualmente en la literatura se encuentran 39 polimorfismos de
un sólo nucleótido (single nucleotide polymorphisms, o SNPs), identificados en diferentes
trabajos pero excelentemente resumidos en (Karch & Goate, 2015), y otros 22 hallados en
2016 (Jun et al., 2016).
Todos los genes asociados al riesgo de LOAD, según las vías metabólicas donde
participen, se han podido clasificar en cuatro categorías (Figura 6): aquellos que participan en
el metabolismo lipídico, los que participan en la inflamación, aquellos que se encargan de
fenómenos de endocitosis (como el tráfico intracelular del péptido beta amiloide, y la sinapsis
química), y los que su mecanismo es, por ahora, desconocido (Karch & Goate, 2015). Nótese
que todas estas vías tienen en común la posibilidad de influir sobre al menos uno de los
eventos clave de esta enfermedad, como la deposición de placas de amiloide extracelulares,
formación de ovillos neurofibrilares intracelulares de proteína tau, pérdida neuronal selectiva,
disfunción sináptica, déficit de neurotransmisores (como la acetilcolina), y neuroinflamación
(Holtzman, Morris & Goate, 2011).
Juntos, estos loci logran explicar menos de la mitad del componente hereditario de la
susceptibilidad a la enfermedad, y un 20-25% se le es atribuido a APOE por sí solo(Lambert
& Al, 2013; Jun et al., 2012), por lo cual se está estimulando el estudio neurogenético en
diferentes poblaciones humanas del mundo y en modelos experimentales.
Además del componente genético, el LOAD tiene un componente ambiental, bastante
menos nítido que el genético. Esto, sumado al hecho de que la muchas de las variantes estén
situadas en regiones no codificantes del genoma, contribuye a justificar el moderno auge de
Informe de pasantía de grado Melanie Nuesch
12
la neuroepigenética (Iriarte & Fontes, 2014; Landgrave-Gómez, Mercado-Gómez & Guevara-
Guzmán, 2015; Klein & De Jager, 2016; Schuebel, 2016).
Figura 6. Representación de los genes y loci genéticos que fueron asociados con el desarrollo de la enfermedad de Alzheimer. Imagen extraída de Karch & Goate, 2015.
Mediante análisis de ligamiento genético se han identificado mutaciones causativas en tres genes: APP, PSEN1 y PSEN2, así como también se identificó un factor de alto riesgo: el alelo 4 de APOE.
Más recientemente el desarrollo de tecnologías que permitieron realizar GWAS permitieron el análisis de variantes comunes de riesgo pero bajo (es decir, son variantes de riesgo, pero menos fuertes que APOE 4; en la gráfica, abajo a la derecha). Esto derivó en la identificación de varios nuevos loci: CLU, PICALM, CR1, BIN1, CD33, ABCA7, MS4A6A, MS4AE4, CD2AP, EPHA1, HLA-DRB5/DRB1, SORL1, PTK2B, SLC24A4, ZCWPW1, CELF1, FERMT2, CASS4, INPP5D, MEF2C, DSG2, PLD3 y NME8. La integración de resultados de secuenciado y genotipado permitieron la identificación de TREM2, la primera variante rara de riesgo medio para LOAD. Debido a la forma en la que estos estudios están diseñados, solamente pueden identificar regiones genéticas asociadas a una enfermedad, en lugar de variantes o genes específicas. Por lo tanto, si el SNP es intergénico o está en una región poligénica, usualmente lleva el nombre del gen más cercano, pero no se puede asegurar, sin otros estudios, que dicho gen sea patogénico. Se requieren más estudios para identificar el verdadero gen/variante patogénico y estudiar cómo lleva a cabo su efecto.
Estos hallazgos sugirieron nuevas vías metabólicas como candidatas a responsables de la etiología de LOAD, ya que los loci descubiertos se agrupan en algunas categorías discretas y parecerían estar relacionados (representadas con distintos colores en la imagen), y con una clara sobrerepresentación en las vías relacionadas al metabolismo del colesterol y a la respuesta inmune. Además, algunos genes pueden participar de más de una vía, por lo cual se generaron modelos pleomórficos del riesgo (Guerreiro, Bras & Hardy, 2013).
Informe de pasantía de grado Melanie Nuesch
13
CONTEXTO ESPECÍFICO
En cuanto a la neurogenética, importantes consorcios internacionales se han formado
para juntar esfuerzos, tanto para el estudio del Alzheimer como de otras patologías humanas.
En la base de datos pública de los 1000 genomas (1000genomes.org) se puede acceder a una
gran cantidad de información genómica de 5 “superpoblaciones” (África, América, Europa,
Asia del Este y Asia del Sur, es decir, poblaciones definidas por regiones continentales) y 26
poblaciones (ver Tabla 2 en Materiales y Métodos), así como también a los datos de origen
para reproducción de resultados u otros análisis.
Figura 7. Mapa que muestra la ubicación de las poblaciones de los datos del proyecto de los 1000 genomas (tomado de http://www.1000genomes.org). Las poblaciones continentales se denominan “superpoblaciones” y, si bien no es un término técnico oficial, será usada en este trabajo.
Dichas bases de datos y estudios no incluyen a Uruguay, y aquellos pocos uruguayos
que sí han sido secuenciados lo han hecho en privado con fines clínicos o personales. Sin
embargo, el Institut Pasteur de Montevideo, en conjunto con la Universidad Nacional de Seúl
y Macrogen, en 2014 anunciaron el lanzamiento del proyecto URUGENOMES, donde a lo
largo de los siguientes años se secuenciarán 80 genomas para estudiar la variabilidad de la
población uruguaya (Business Wire, 2014; URUGENOMES, 2017). En este momento, se
encuentran disponibles para este trabajo 20 genomas de individuos de ascendencia africana
(10) e indígena del territorio uruguayo (que se presume puede ser Charrúa, pero ante la falta
de certeza se denominarán como ¨descendientes de indígenas orientales¨ en este trabajo) (10)
(las muestras de URUGENOMES fase 1).
En Uruguay no hay antecedentes de estudios de epidemiología genética del
Alzheimer. Ya que sus síntomas clínicos pueden solaparse con los de otras demencias, es
posible obtener diagnósticos erróneos o baja efectividad en los tratamientos brindados. Por
esto y porque es la causa de demencia más frecuente, no solamente es urgente avanzar en la
caracterización de esta enfermedad, tanto en Uruguay como en el resto del mundo, sino que
Informe de pasantía de grado Melanie Nuesch
14
también generar métodos de diagnóstico modernos que nos permitan diferenciarla con mayor
precisión y en etapas más tempranas. En este contexto, los análisis genéticos son una opción
interesante para explorar.
A medida que surjan más proyectos genomas en diferentes poblaciones, más se
logrará captar la variabilidad que existe entre ellas, lo que ayudará a determinar
predisposiciones a enfermedades que pueden diferir de una población a otra, aportará a la
medicina preventiva y a la farmacogenómica. Con mayor caracterización del genoma
uruguayo, más cerca estaremos de poder utilizar medicina de precisión, es decir, la
generación de terapias y fármacos dirigidos a nuestra población, respecto a nuestras
características y necesidades únicas. Con esto, se reducen los porcentajes de inefectividad de
fármacos y tratamientos utilizados hoy en nuestra población, ya que se éstos son
desarrollados en base a estudios de otras poblaciones (como de Estados Unidos o Europa).
OBJETIVOS
Objetivo General:
Aportar al conocimiento de epidemiología y diversidad genética de las variantes
relacionadas al riesgo de padecer enfermedad de Alzheimer de inicio tardío (LOAD) en
muestras de distintas poblaciones humanas.
Objetivos Específicos:
Realizar un panel genético actualizado de polimorfismos de un solo nucleótido
(SNPs) de riesgo para LOAD, muchas halladas en sitios no codificantes del ADN.
Calcular las frecuencias alélicas de dichas variantes en las secuencias de genoma
completo extraídas de las bases de datos de los 1000 genomas y URUGENOMES fase
1.
Comparar “superpoblaciones” y uruguayos mediante test estadísticos acordes.
Estudiar estructura poblacional y equilibrio de Hardy-Weinberg en ambas muestras.
Objetivos Académicos:
Aprender el manejo de datos genómicos de gran tamaño y la confección de paneles
genéticos, tanto en contexto de investigación como en diagnóstico clínico. Además,
desenvolverse con el sistema operativo UNIX, las bases de datos genómicas públicas,
y software libre como Plink, R, entre otros.
Aprender a interpretar datos genéticos y epigenéticos de enfermedades humanas, y
conocer el alcance y limitaciones que éstos tienen en los estudios epidemiológicos.
Aprender herramientas computacionales y análisis estadísticos del área de la
bioinformática/genómica que puedan ser de utilidad en la neurociencia, a modo de
expandir y complementar el repertorio técnico.
Informe de pasantía de grado Melanie Nuesch
15
MATERIALES Y MÉTODOS
En esta pasantía de grado en la Unidad de Bioinformática del Institut Pasteur de
Montevideo se confeccionó un panel genético actualizado a partir de la literatura existente
sobre variantes nucleotídicas de riesgo para LOAD, y en función de él se realizaron
posteriores estudios poblacionales en los datos de URUGENOMES fase 1 y los 1000
genomas: análisis de componentes principales para estudiar la estructura poblacional, análisis
del equilibrio de Hardy-Weinberg en las diferentes poblaciones, y cálculos de las frecuencias
alélicas para cada SNP en las diferentes superpoblaciones, siendo comparadas mediante el
estadístico FST.
Los componentes principales, las frecuencias y FST de las variantes en las diferentes
poblaciones fueron calculadas utilizando el software Plink (www.cog-
genomics.org/plink/1.9/(Chang et al. 2015)). La visualización de resultados se realizó en R
(https://www.r-project.org/).
Se observó el contexto genómico de algunas variantes (marcas epigenéticas asociadas, sitios
de unión de factores de transcripción, etc) utilizando el UCSC browser
(https://genome.ucsc.edu/), para obtener información más detallada acerca de los distintos
mecanismos moleculares regulatorios que puedan estar asociados a ellas.
LOS DATOS
Figura 8. Ejemplo de archivo VCF, a modo de ilustración. Fuente: Variant Call Format,
Wikipedia.
Se trabajó con dos sets de datos: los del proyecto 1000 genomas, y los de
URUGENOMES fase 1, los cuales consisten en archivos de texto de formato VCF (Variant
Informe de pasantía de grado Melanie Nuesch
16
Call Format), el cual es uno de los formatos que se usa para almacenar información respecto
a las variantes de un genoma secuenciado (Figuras 8 y 9). Un archivo en formato VCF puede
incluir más de un individuo (el de los 1000genomas incluye 2504 y el de URUGENOMES
fase 1 incluye 20), y contiene información acerca de la posición de cada variante en el
genoma, el código de la variante (rsID), información respecto a la calidad de la secuenciación
en dicha base, cromosoma, base de referencia y alternativa, entre otra. Esto permite analizar a
varios individuos de una misma muestra a la vez, manipulando un solo archivo.
A
Informe de pasantía de grado Melanie Nuesch
17
Figura 9. A: Distintas etapas al utilizar tecnologías de secuenciado de nueva generación (next generation sequencing, NGS), con sus distintos formatos de archivo asociados. Imagen extraída de Blanca et al., 2017. El producto crudo de la secuenciación son archivos con secuencias cortas llamadas reads, y el formato de dicho archivo es FASTQ. Dichos reads son numerosos y algunos se solapan y encajan como, piezas de un puzzle, y utilizando un genoma de referencia se procede a alinear los reads utilizando ciertos programas, produciendo así un archivo que ensambla la secuencia que acaba de ser secuenciada (BAM). Mediante otro proceso llamado Variant Calling se analiza qué alelo está presente en cada posición nucleotídica, y se genera otro archivo (VCF) que posee esa información adicional. Además de estos, hay otros formatos que no aparecen en el esquema, como FASTA para representar genomas y GFF/BED para anotaciones de genoma, y según el análisis que se quiera hacer se debe trabajar con uno u otro. B: Resumen visual del proceso.
Respecto a los datos de los 1000 genomas fue descargado, de la página web oficial
(http://www.internationalgenome.org/data/), el archivo VCF separado por cromosoma que
contiene la información de 2504 individuos. Es decir, fueron descargados un archivo por
cromosoma, y posteriormente fueron unificados. Dichos genomas pertenecen a las 26
poblaciones y 5 superpoblaciones ilustradas en la siguiente tabla (Tabla 2).
Superpoblación Población Nombre de la población N Individuos
AFR ACB Afrocaribeños en Barbados 96
AFR ASW Afroamericanos en el suroeste de EEUU 61
SAS BEB Bengalis en Bangladesh 86
EAS CDX Chinos Dai en Xishuangbanna, China 93
EUR CEU Residentes de Utah (CEPH) con ancestría del
norte u oeste de Europa 99
EAS CHB Chinos Han en Beijing, China 103
EAS CHS Chinos Han del sur 105
AMR CLM Colombianos en Medellín, Colombia 94
AFR ESN Esanos en Nigeria 99
EUR FIN Finlandeses en Finlandia 99
EUR GBR Británicos en Inglaterra y Escocia 91
SAS GIH Gujaratianos (India) en Houston, Texas 103
AFR GWD Gambianos en la división oeste de Gambia 113
EUR IBS Ibéricos en España 107
SAS ITU Telugus (India) en Reino Unido 102
EAS JPT Japoneses en Tokyo, Japón 104
EAS KHV Kinhs en la ciudad de Ho Chi Minh, Vietnam 99
AFR LWK Luhyas en Webuye, Kenya 99
AFR MSL Mendes en Sierra Leona 85
PEQUEÑAS SECUENCIAS
"READS" (FASTQ)
ARCHIVO CON
ALINEAMIENTO
(BAM)
ARCHIVO CON VARIANTES
(VCF)
B
Informe de pasantía de grado Melanie Nuesch
18
AMR MXL Americanos-Mejicanos en Los Ángeles,
California 64
AMR PEL Peruanos en Lima, Perú 85
SAS PJL Punjabis en Lahore, Pakistán 96
AMR PUR Portorriqueños 104
SAS STU Tamil de Sri Lanka en el Reino Unido 102
EUR TSI Toscanos en Italia 107
AFR YRI Yorubas en Ibadan, Nigeria 108
Tabla 2. Las 26 pobalaciones de los datos de los 1000 genomas, sus superpoblaciones y
número de individuos de cada población. AFR=Africanos, AMR=Amerindios, EUR=Europeos, EAS=Asiáticos del Este, SAS=Asiáticos del Sur. En total hay 661 AFR, 347 AMR, 503 EUR, 504 EAS y 489 SAS.
Los 20 individuos de URUGENOMES fase 1 fueron seleccionados en función de su
ascendencia con un objetivo antropológico, 10 descendientes de indígenas orientales y 10
afrodescendientes, por lo cual las muestras presentan deliberadamente sesgo étnico. La
mayoría de los individuos de la muestra son menores a 60 años, por lo cual se asume que no
padecen Alzheimer de inicio tardío, pero pueden no haber desarrollado la enfermedad aún.
De acá en más, en este documento se denominará ¨afrouruguayos¨ a los uruguayos
afrodescendientes, y ¨nativos uruguayos¨ a los descendientes de indígenas orientales, para
facilitar la lectura. Además, no serán clasificados dentro de ninguna “superpoblación”
existente, sino que ambas muestras serán tratadas como una superpoblación aparte, ¨URU¨.
EL PANEL
Para determinar los SNPs de interés biológico se realizó una extensa revisión
bibliográfica a partir de publicaciones científicas de los consorcios internacionales
previamente mencionados (Karch & Goate 2015; Lambert & Al 2013; Jun et al. 2016), y
diferentes bases de datos genómicas como Ensembl, OMIM, dbSNP, 1000 genomes, etc.
Se elaboró un panel genético lo más completo posible, que reuniera a todas las variantes
nucleotídicas que alguna vez fueron publicadas por asociación a riesgo de LOAD (Tabla 1).
El panel no incluye a las variantes del gen APOE. Si bien las variantes de APOE tienen
mayor efecto que las de otros genes, no es capaz de explicar la totalidad del componente
genético del riesgo de LOAD. Siguiendo la tendencia mundial de la búsqueda de loci
alternativos (y/o complementarios, no necesariamente descartando a APOE), en este trabajo
se quiso dar protagonismo a variantes en otros genes que están empezando a ser más
estudiadas y usadas para generar modelos poligénicos y epistáticos (tanto con y sin APOE),
los cuales eventual e hipotéticamente podrían llegar a tener en conjunto un impacto mayor
que las variantes de APOE.
De los 61 SNPs de mi panel original solo 41 estaban presentes en los tres VCFs a la
vez, por lo que se realizaron los análisis con un subpanel que contiene solamente 41. En la
Tabla 1 aparecen resaltados en negrita aquellos SNPs que no fueron incluidos en el subpanel.
Esto puede deberse a distintas razones, entre ellas que no haya variante en la muestra (que
todos los 10 uruguayos tengan el mismo alelo en esa posición), o que la secuenciación no
haya tenido tanta profundidad en esa posición (lo cual se puede chequear observando la
cantidad de reads con el visualizador IGV en esa posición si se tuviese el archivo BAM).
Informe de pasantía de grado Melanie Nuesch
19
SNP ID Gen/Región Cromosoma Posición Hebra Significancia Clínica y Observaciones Fuente
rs3818361 CR1 1 207784968 + Potencia riesgo en individuos APOE ε4 + Karch & Goate 2015
rs6656401 CR1 1 207692049 + Potencia riesgo. En Afrouruguayos es una deleción. Karch & Goate 2015
rs35349669 INPP5D 2 234068476 + Desconocido Karch & Goate 2015
rs6733839 BIN1 2 127892810 + Potencia riesgo Karch & Goate 2015
rs744373 BIN1 2 127894615 + Potencia riesgo Karch & Goate 2015
rs7561528 BIN1 2 127889637 + Potencia riesgo Karch & Goate 2015
rs16847609 SOX14-CLDN18 3 137650736 + Asociado Jun et al 2016
rs11168036 PFDN1-HBEGF 5 139707439 + Asociado Jun et al 2016
rs190982 MEF2C 5 88223420 + Desconocido Karch & Goate 2015
rs382216 CDC42SE2-ACSL6 5 130687137 + Asociado Jun et al 2016
rs10948363 CD2AP 6 47487762 + Potencia riesgo Jun et al 2016
rs75932628 TREM2 6 41129252 + Potencia riesgo x2 Karch & Goate 2015
rs9271192 HLA-DRB5-DRB1 6 32578530 + Desconocido Karch & Goate 2015
rs9296559 CD2AP 6 47452270 + Potencia riesgo Karch & Goate 2015
rs9349407 CD2AP 6 47453378 + Potencia riesgo Karch & Goate 2015
rs11767557 EPHA1 7 143109139 + Disminuye riesgo Karch & Goate 2015
rs11771145 EPHA1 7 143110762 + Disminuye riesgo Karch & Goate 2015
rs1476679 ZCWPW1 7 100004446 + Desconocido Karch & Goate 2015
rs1595014 TMEM106B 7 12188529 + Se observó interacción del genotipo con APOE. Jun et al 2016
rs2718058 NME8 7 37841534 + Desconocido Karch & Goate 2015
rs11136000 CLU 8 27464519 + Disminuye riesgo Karch & Goate 2015, Liu et al. 2013
rs2279590 CLU 8 27456253 + Disminuye riesgo Karch & Goate 2015
rs28834970 PTK2B 8 27195121 + Desconocido Karch & Goate 2015
rs7012010 CLU 8 27448729 + Disminuye riesgo Karch & Goate 2015
rs7982 CLU 8 27462481 + Disminuye riesgo Karch & Goate 2015
Informe de pasantía de grado Melanie Nuesch
20
rs9331888 CLU 8 27468862 + Potencia riesgo en caucásicos, pero no en asiáticos Shuai et al. 2015
rs9331896 CLU 8 27467686 + Asociado Karch & Goate 2015
rs10792832 PICALM 11 85867875 + Desconocido Karch & Goate 2015
rs10838725 CELF1 11 47557871 + Desconocido Karch & Goate 2015
rs11218343 SORL1 11 121435587 + Disminuye riesgo Karch & Goate 2015
rs3851179 PICALM 11 85868640 + Disminuye riesgo Karch & Goate 2015
rs541458 PICALM 11 85788351 + Disminuye riesgo Karch & Goate 2015
rs670139 MS4A 11 59971795 + Potencia riesgo en individuos APOE ε4 - Karch & Goate 2015
rs983392 MS4A 11 59923508 + Disminuye riesgo en individuos APOE ε4- Karch & Goate 2015
rs10498633 SLC24A4-RIN3 14 92926952 + Desconocido Karch & Goate 2015
rs17125944 FERMT2 14 53400629 + Desconocido Karch & Goate 2015
rs112665297 KANSL1-LRRC37A 17 44348634 + GWS de asociación con LOAD en individuos APOE ε4 - Jun et al 2016
rs113986870 ARL17B-LRRC37A 17 44355683 + Alelo menor (A) protector, pero el experimento necesita ser replicado. eQTL para la elevada expresión de los exones 3 de MAPT y 1 de KANSL1.
Jun et al 2016
rs2532331 KANSL1-LRRC37A 17 44348326 + Asociación con LOAD en individuos APOE ε4 -. eQTL, sitio de union de FT y pico de sensibilidad a DNAsa
Jun et al 2016
rs2532332 KANSL1-LRRC37A 17 44347727 - GWS de asociación con LOAD en individuos APOE ε4 -. Sitio de union de FT y pico de sensibilidad a DNAsa
Jun et al 2016
rs2532333 KANSL1-LRRC37A 17 44347557 - GWS de asociación con LOAD en individuos APOE ε4 - Jun et al 2016
rs2668626 KANSL1-LRRC37A 17 44353175 + GWS de asociación con LOAD en individuos APOE ε4 -. eQTL, sitio de union de FT y pico de sensibilidad a DNAsa
Jun et al 2016
rs2696556 KANSL1-LRRC37A 17 44347561 - GWS de asociación con LOAD en individuos APOE ε4 - Jun et al 2016
rs2696562 KANSL1-LRRC37A 17 44345434 + GWS de asociación con LOAD en individuos APOE ε4 - Jun et al 2016
rs2732656 KANSL1-LRRC37A 17 44347165 + GWS de asociación con LOAD en individuos APOE ε4 - Jun et al 2016
Informe de pasantía de grado Melanie Nuesch
21
rs2732703 KANSL1-LRRC37A 17 44353222 + Asociado, pero necesita replicación. Mecanismo desconocido. Asociado a un sitio de union de FT y pico de sensibilidad a DNAsa. Imputado, pero con muy buena calidad de imputación.
Jun et al 2016
rs2942175 KANSL1-LRRC37A 17 44348825 + GWS de asociación con LOAD en individuos APOE ε4 - Jun et al 2016
rs2942177 KANSL1-LRRC37A 17 44348987 + GWS de asociación con LOAD en individuos APOE ε4 - Jun et al 2016
rs55705096 KANSL1-LRRC37A 17 44353343 + GWS de asociación con LOAD en individuos APOE ε4 - Jun et al 2016
rs55843305 KANSL1-LRRC37A 17 44353318 + GWS de asociación con LOAD en individuos APOE ε4 - Jun et al 2016
rs55964807 KANSL1-LRRC37A 17 44353505 + GWS de asociación con LOAD en individuos APOE ε4 - Jun et al 2016
rs56026531 KANSL1-LRRC37A 17 44353344 + GWS de asociación con LOAD en individuos APOE ε4 - Jun et al 2016
rs56284313 KANSL1-LRRC37A 17 44353320 + GWS de asociación con LOAD en individuos APOE ε4 - Jun et al 2016
rs71380849 CDR2L 17 72975748 + Asociado, pero necesita replicación. Mecanismo desconocido. Karch & Goate 2015
rs8093731 DSG2 18 29088958 + Dsconocido Karch & Goate 2015
rs12459419 CD33 19 51728477 + Disminuye riesgo Karch & Goate 2015
rs145999145 PLD3 19 40877595 + Potencia riesgo Karch & Goate 2015
rs3764650 ABCA7 19 1046520 + Potencia riesgo Karch & Goate 2015
rs3865444 CD33 19 51727962 + Disminuye riesgo, pero en Lambert 2013 no alcanzó GWS Karch & Goate 2015
rs4147929 ABCA7 19 1063443 + Potencia riesgo Karch & Goate 2015
rs7274581 CASS4 20 55018260 + Desconocido Karch & Goate 2015
Tabla 1. Mi panel actualizado de variantes nucleotídicas asociadas a riesgo de LOAD, realizado en 2016, ordenadas por cromosoma. Las 20 variantes que aparecen en negrita son las que integran el panel original pero no fueron usadas en los análisis (no integran el subpanel, fueron excluídas). Los SNPs utilizados, entonces, en los análisis son 41. El panel original en total tiene 61 variantes. Algunas son codificantes y otras no codificantes. En la tabla se incluye el código del SNP (rs), el gen o región génica asociada o más cercana (en el caso de aquellos cuya exacta ubicación sea más difícil de mapear), el cromosoma al cual pertenecen, la posición en el genoma, la hebra donde está (+ si es forward y – si es reverse), significancia clínica (si disminuye o aumenta el riesgo de padecer LOAD) y notas potencialmente importantes destacadas en los trabajos citados, y los trabajos de origen (“fuente”). Significado de las siglas: GWS = “Genome Wide Significance”, eQTL = “expression quantitative trait loci”, FT= factor de transcripción. Es importante aclarar que muchos de estos SNPs se localizan en regiones multigénicas, y de muchos no está claro todavía a qué gen corresponden. Los SNPs de la region KANSL1-LRRC37A son particularmente interesantes, a su vez, porque su señal de asociación se solapa con la región del gen MAPT.
Informe de pasantía de grado Melanie Nuesch
ESTUDIO DE ESTRUCTURA POBLACIONAL
ANÁLISIS DE COMPONENTE PRINCIPAL
Al analizar cualquier set de datos genómicos es importante explorar si su población de
origen está estratificada; es decir, si la población es homogénea o si contiene subgrupos
genéticamente diferenciados. En investigaciones de genética médica esto es especialmente
importante, ya que en algunos estudios el desconocimiento de la estructura puede ocasionar
falsos positivos.
El análisis de componente principal (principal component analysis, PCA) es una
herramienta estadística que nos permite estudiar esto a partir de datos; maximiza la variación
existente en los datos y permite detectar patrones significativos que los subdivida en grupos.
Puede aplicarse a datos genómicos, como es el caso de este trabajo.
La matemática que subyace al análisis básico con marcadores bialélicos está
prolijamente explicada en Patterson et al 2006 (Patterson, Price, & Reich 2006). A grandes
rasgos, el PCA realiza una transformación ortogonal que genera un nuevo sistema de
coordenadas, donde cada eje se denomina componente principal y representa el grado de
variación según un determinado marcador. Los ejes de la gráfica representan los
componentes principales, y hay una cantidad menor o igual al número de marcadores, por lo
cual se genera una figura multidimensional ( dimensiones, siendo el número de
marcadores) que posteriormente es reducida a un gráfico de dos dimensiones utilizando el
primer y segundo componente (o 3D, usando los primeros tres) permitiendo así su sencilla
visualización. Como los primeros componentes principales son los que captan la mayor
variación de los datos, se puede reducir el número de dimensiones sin perder demasiada
información.
Figura 10. Análisis de componente principal de la población de Italia (Parolo et al. 2015).
Informe de Pasantía de Grado – Licenciatura en Biología Humana Melanie Nuesch
23
El PCA con datos genómicos resulta en una gráfica donde cómodamente se puede
visualizar si existen subgrupos de individuos o no, donde cada individuo es un punto y cada
grupo es una agrupación discreta de puntos. Si se observa que los individuos forman un gran
conjunto de puntos homogéneos, entonces no habría estructura poblacional aparente
(considerando que la PCA se realizó correctamente, teniendo en cuenta las asunciones que
este procedimiento conlleva); si se ven subconjuntos homogéneos y separados se podría
asumir cierta estructuración poblacional (se puede pensar que existen subgrupos de
individuos distintos genéticamente; ver Figura 10 a modo de ejemplo de gráfico de PCA).
Con respecto a los datos genómicos se puede aplicar a SNPs, microsatélites,
frecuencias de haplotipos y distribución de inserciones de secuencias Alu, los cuales se
utilizan como marcadores; los grupos se clasifican en función de ellos, y en este trabajo los
marcadores usados fueron SNPs.
PROCEDIMIENTO
Se realizaron dos análisis de componente principal. El primero fue hecho utilizando
77249819 marcadores, para reproducir los PCA observados en la literatura que ilustran la
estructura poblacional observada en las poblaciones humanas de los 1000 genomas. Tal
número se eligió porque es el número total de marcadores disponibles en el archivo VCF de
los 1000 genomas (o sea, se utilizó cada posición secuenciada como marcador, para tener el
mayor poder de resolución posible), el cual es significativo para visualizar estructuración
poblacional.
El segundo PCA fue hecho con 41 marcadores (los SNPs del subpanel de riesgo para
LOAD), para estudiar puntualmente si hay subgrupos que presenten determinadas variantes
específicas o si se distribuyen de forma homogénea en la población mundial.
Hay que tener en cuenta, sin embargo, que 41 no es un número de marcadores que arroje un
poder de resolución significativo para sacar conclusiones significativas acerca de esto último.
Se descargaron los archivos VCF (separados por cromosoma) de la página de los
1000 genomas, los cuales se concatenaron con VCFtools. Con Plink se extrajo la información
respecto a los marcadores utilizados (generó un archivo VCF más pequeño solamente con la
información de los 41 SNPs de LOAD interés, para el segundo análisis, y para el primero se
utilizó el archivo original con todos sus marcadores). Estos pasos a su vez facilitaron el poder
unir posteriormente estos archivos con los de los uruguayos, necesario para los análisis
subsiguientes.
Se realizó el análisis de componente principal en Plink, el cual resultó en una tabla
con los 20 primeros componentes principales, de los cuales el primero, segundo y tercero
fueron graficados en R para la visualización del análisis.
Para ver el código referirse a la sección ¨Código del Estudio de Estructura Poblacional¨ en el
Anexo.
ANÁLISIS DE EQUILIBRIO DE HARDY-WEINBERG
En ausencia de migración, mutación, selección natural y apareamientos selectivos, las
frecuencias genotípicas en cualquier locus es una función simple de las frecuencias alélicas.
Informe de Pasantía de Grado – Licenciatura en Biología Humana Melanie Nuesch
24
Este fenómeno fue descrito por primera vez por Hardy y Weinberg como “equilibrio de
Hardy-Weinberg” (Hardy, 1908; Weinberg, 1908) y, hoy en día, explorar si los genotipos
observados se ajustan a las expectaciones de dicho modelo se ha vuelto un procedimiento de
rutina en estudios de asociación genética. A pesar de la falta de realismo en sus asunciones,
las expectativas del modelo parecen cumplirse para las poblaciones humanas, y una
desviación de éstas proporciones puede darse como producto de errores de genotipado
(Hosking et al., 2004; Attia et al., 2010), evidencia de estructuración poblacional o asociación
entre algún marcador genético y alguna enfermedad.
Recordemos brevemente las asunciones del susodicho modelo (Lessa, 2004):
La población está formada por organismos diploides.
La reproducción es sexuada.
Las generaciones no se solapan.
El gen considerado es autosómico.
No hay diferencia de frecuencias alélicas entre los sexos.
Los apareamientos ocurren al azar.
La población es de tamaño infinito.
No existe migración desde otras poblaciones.
No hay mutación.
La selección natural no opera sobre el gen considerado.
Por el momento hay tres clases de procedimientos estadísticos que se utilizan para
estudiar si un genotipo observado se ajusta a las proporciones HW (Graffelman & Moreno,
2013). La primera clase comprende el clásico test de chi-cuadrado ( ) para bondad de
ajuste, el cual testea si el conteo de genotipos es compatible con una distribución multinomial
teniendo en cuenta las frecuencias alélicas observadas, y del cual se generaron variaciones y
correcciones para tener en cuenta casos particulares, como alelos menores de frecuencias
muy pequeñas (Elston & Forthofer, 1997; Emigh, 1980; Smith, 1986; Graffelman & Morales-
Camarena, 2008). La segunda clase comprende a la familia de test exactos, como el test
exacto de Fisher, los cuales se caracterizan por poder calcular de forma exacta el nivel de
desviación respecto a una hipótesis nula (ej. p-valor), en lugar de aproximarlo cuando el
límite del tamaño poblacional tiende a infinito, como lo hacen varios otros tests (llamados de
aproximación, u asintóticos; Graffelman & Moreno, 2013), y es la que se utilizará en este
trabajo. Esto es debido a que se vio que este método reduce los errores de tipo I respecto a chi
cuadrado, en particular en muestras de características semejantes a las utilizadas en este
trabajo (Wigginton, Cutler & Abecasis, 2005). La tercera clase comprende métodos
bayesianos (Wakefield, 2010).
PROCEDIMIENTO
Para este análisis se utilizó la opción --hardy en Plink, el cual produce una lista de las
variantes y sus p-valores (el p valor del test exacto de si el genotipo de esa variante se ajusta a
lo esperado por HW en esa población en particular). La hipótesis nula del test es que la
población posee un genotipo cuyas proporciones se ajustan al modelo de equilibrio de Hardy-
Weinberg, y la alternativa es que no.
Informe de Pasantía de Grado – Licenciatura en Biología Humana Melanie Nuesch
25
El modificador midp fue añadido en la línea de comando, por recomendación en la literatura
de Plink (Chang et al., 2017; Purcell, 2010, Graffelman & Moreno, 2013), ya que se ha vio
que al usarlo se disminuye la probabilidad de cometer errores de tipo I (falsos positivos) en el
análisis y se aumenta la potencia (“power”, capacidad de resolución para identificar un
evento biológico significativo), por lo cual ayuda a filtrar errores de genotipado y variables
con valores perdidos, sobre todo en casos donde la frecuencia alélica menor es pequeña.
El detalle matemático del procedimiento genérico del test exacto para equilibrio HW,
para entender la lógica detrás de los programas que se utilizaron, se encuentra prolijamente
explicado también en Graffelman et al 2013. El detalle del procedimiento exacto que está por
detrás del programa específico (--hardy en Plink) utilizado en este trabajo se encuentra en
(Wigginton, Cutler & Abecasis, 2005), el cual es más preciso al estudiar genotipos raros que
otras versiones y por eso se implementó en Plink (Purcell, 2010).
Se analizaron los SNP del subpanel en cada población por separado, y luego se
filtraron aquellos cuyo p-valor es menor a 0.05. Para aquellas variantes cuyos p-valores sean
menores a 0.05, se rechaza la hipótesis nula y se consideran que no están en equilibrio HW en
esa población en particular. El código utilizado se encuentra en el Anexo.
CÁLCULO DE FRECUENCIAS ALÉLICAS EN SUPERPOBLACIONES
Para estudiar la riqueza del acervo genético de una población, o simplemente como
paso previo a un gran número de análisis, calcular las frecuencias alélicas es de gran
importancia en este tipo de estudios. Asimismo, para comparar frecuencias entre poblaciones
a modo de poder discutir diferencias fenotípicas, como podría ser una diferencia en la
predisposición a determinada enfermedad, es útil calcularlas (las observadas, a partir de datos
experimentales, y las esperadas, a partir de modelos como el de Hardy-Weinberg) y
compararlas mediante estadísticos que evidencien si hay una diferencia significativa.
Una medida de la variación en la frecuencia alélica entre diferentes poblaciones, para
un locus con dos alelos, es el índice de fijación, FST, el cual se utilizará en este trabajo y fue
definido por Wright de la siguiente forma:
Donde es la frecuencia promedio para uno de los alelos, y Vq es la varianza de
dicha frecuencia en las poblaciones estudiadas (Futuyma, 2013; Holsinger & Weir, 2009).
Para un locus con más alelos se utiliza otra medida comparable, GST. Ambos, FST y GST, van
del 0 (no hay variación entre las poblaciones) al 1 (las poblaciones tienen distintos alelos
fijados).
El ritmo al cual dos poblaciones cambian el sentido de la deriva genética, de la
fijación de un alelo a otro, es inversamente proporcional al tamaño efectivo de la población,
Ne. Sin embargo, la deriva hacia la fijación es contrarrestada por el flujo génico desde otras
poblaciones, a un ritmo m. Estos factores llegan a un punto de equilibrio, donde FST es
aproximadamente:
Informe de Pasantía de Grado – Licenciatura en Biología Humana Melanie Nuesch
26
La cantidad Nem es la cantidad de inmigrantes por generación. Si m=1/N, o sea, un
solo individuo por generación es inmigrante, entonces Nem=1 y FST=0.20. Es decir, incluso
un escaso flujo génico acerca a ambas poblaciones en cuanto a sus frecuencias alélicas, y la
heterocigosidad permanece alta. Si las frecuencias alélicas de dos poblaciones varían en gran
medida, podemos pensar que el flujo génico entre ellas es bajo.
Para los alelos a los cuales calculemos su FST, debemos asumir que son neutrales
respecto a la selección (para que el efecto de la selección no se confunda con las diferencias
en el flujo génico). La deriva genética y el flujo génico afectan a todos los loci por igual,
mientras que la selección natural afecta de forma diferencial. Por ende, si nosotros
calculamos FST para distintos locus (por ejemplo, entre neutrales y candidatos a selección) y
nos dan valores similares, podemos pensar que la acción de la selección natural no fue muy
fuerte. Si la variación alélica en la mayoría de los loci es selectivamente neutral y su taza de
mutación es la misma (o similar), se puede considerar que los loci que se designen como
outliers están sujetos a presión selectiva divergente.
El valor de FST entre “razas” humanas es aproximadamente 0.088 (Elhaik, 2012), y el
umbral de equilibrio para establecer los valores atípicos en este trabajo se fijó en FST=0.1 (o
sea, los valores atípicos serán aquellos con FST>0.1), siguiendo las simulaciones realizadas en
el trabajo de Guo, Dey & Holsinger, 2009. Lo ideal sería calcular el valor de equilibrio
específico para estos datos utilizando datos de migración y tamaños efectivos de poblaciones,
pero para los propósitos de este trabajo se decidió utilizar lo nombrado anteriormente. Las
poblaciones humanas están fijadas para diferentes alelos en muy pocos loci, y algunos de
esos casos particulares comprenden loci desencadenantes de patologías. En general, las
frecuencias alélicas de SNPs pueden variar un poco entre poblaciones, pero se espera que a
grandes rasgos sean muy similares.
En particular, los SNPs rs2279590, rs11136000 y rs9331888 (locus CLU) forman
parte de un haplotipo cuya interacción fue asociada con mayor riesgo para LOAD (haplotipo
CCG; Harold et al., 2009; Yu et al., 2010), y presentan una moderna y robusta literatura en
poblaciones de distintas etnias comparadas con japoneses; Shuai et al., 2015. Al tener los
japoneses mayor incidencia de demencia respecto a las demás muestras (7.0%), una hipótesis
interesante que se exploró fue que los alelos de estos SNPs de CLU tengan mayor frecuencia
en dicha población. Con este fin, se compararon los conteos genotípicos de estos SNPs en
japoneses, por test de chi-cuadrado (para saber si la diferencia es significativa), con los de
africanos Sub-Sahara del oeste (elegidos por ser la muestra con menor valor de prevalencia,
3.1%). Los conteos se calcularon con --frqx en Plink.
Las frecuencias alélicas fueron calculadas con la opción --freq en Plink, la cual da
como resultado una tabla con los valores para los alelos de cada variante. Se hizo para las 5
superpoblaciones, 2 muestras uruguayas, africanos Sub-Sahara del oeste (ESN, GWD, MSL y
YRI) y japoneses (JPT). Las superpoblaciones se eligieron para comparar las grandes
regiones del mundo; los uruguayos, para caracterizar las frecuencias de SNPs de LOAD en
nuestro país; los africanos Sub-Sahara del oeste y los japoneses fueron seleccionados por lo
explicado anteriormente. Con la frecuencia del alelo menor calculada se realizó un heatmap
para poder visualizar de forma más cómoda las diferencias entre poblaciones y SNPs.
Con --fst en Plink se calculó FST para cada SNP entre las 5 superpoblaciones de los
1000genomas y 2 muestras uruguayas (Tabla 4), con el método propuesto en Weir &
Cockerham, 1984. El código está en el anexo.
Informe de Pasantía de Grado – Licenciatura en Biología Humana Melanie Nuesch
27
RESULTADOS
RESULTADOS DEL ESTUDIO DE ESTRUCTURA POBLACIONAL
Respecto a los análisis realizados con 77249819 marcadores, se logró exitosamente
obtener la estructura esperada de acuerdo a trabajos anteriores con los datos de los 1000
genomas (Lu & Xu, 2013; Duforet-frebourg et al., 2015). En la Figura 11 se observa la
agrupación coloreada por poblaciones, mientras que en las figuras 11 y 13 se colorearon
principalmente por superpoblación. Básicamente, se observa un subgrupo diferenciado por
cada superpoblación (Figuras 12 y 13). Los europeos y asiáticos parecerían formar grupos
más compactos, con menor dispersión de puntos, mientras que la de africanos y amerindios
parece ser mayor (Figura 12).
Respecto a los análisis realizados con los 41 marcadores de riesgo de LOAD, no
observamos una agrupación significativa a nivel de poblaciones (y muestras uruguayas) para
esas variantes, lo cual es esperable por el bajo número de marcadores utilizado (Figura 14).
Sin embargo, a nivel de superpoblaciones vemos que los africanos parecen mostrar cierto
grado mayor de agrupación respecto a los otros (Figuras 15a y 16).
En las muestras de uruguayos tampoco se ve patrón de agrupación significativa
(Figura 15b), y su dispersión es similar a la vista en otras muestras, sobre todo comparado
con europeos, amerindios y asiáticos del sur (Figura 15a).
UTILIZANDO 342359 MARCADORES
Informe de Pasantía de Grado – Licenciatura en Biología Humana Melanie Nuesch
28
Figura 11. Gráfico del primer componente principal versus el segundo de los datos de los 1000 genomas; 2504 individuos y 77249819 marcadores (no se incluyeron las dos muestras uruguayas). Coloreado según las poblaciones de la Tabla 2; cada punto representa un individuo.
Figura 12. Gráfico del primer componente principal versus el segundo de los datos de los 1000 genomas. 2504 individuos y 77249819 marcadores (no se incluyeron uruguayos). Cada punto representa un individuo. Coloreado según las superpoblaciones (AFR=africanos, AMR=amerindios, EAS=asiáticos del este, EUR=europeos, SAS=asiáticos del sur). Se pueden visualizar cuatro grandes agrupaciones: europeos, africanos, asiáticos del este, y amerindios-asiáticos del sur.
Figura 13. Gráfico del primer componente principal versus el segundo y el tercero de los
datos de los 1000 genomas. 2504 individuos y 77249819 marcadores (no se incluyeron uruguayos). Mismas referncias que la figura 12. En 3D se destaca la separación de los asiáticos del sur (rosados) en otro plano, lo cual en 2D no puede contemplarse y puede dar la falsa impresión de mezclarse con los amerindios (verdes). La perspectiva parecería mostrar que los europeos (azules) están junto con los amerindios, pero si se girase la gráfica se vería que están separados. Los amarillos son los asiáticos del este, y los rojos los africanos.
Informe de Pasantía de Grado – Licenciatura en Biología Humana Melanie Nuesch
29
UTILIZANDO LOS 41 MARCADORES DE ALZHEIMER DE INICIO TARDÍO
Figura 14. Gráfico del primer componente principal versus el segundo, coloreado según las
28 muestras (1000 genomas (poblaciones de la Tabla 2) y uruguayos; AFROURU = afrouruguayos e IND = nativos). Se observa una dispersión bastante homogenea entre las poblaciones, lo que se interpreta como ausencia de estructuración poblacional. Esto es consistente con el bajo número de marcadores utilizado.
Figura 15a. Gráfico del primer componente principal versus el segundo, coloreado según las 5 superpoblaciones y los uruguayos en negro. A grandes rasgos, se podría pensar que los africanos presentan cierto grado de agrupamiento con respecto a los otros.
Informe de Pasantía de Grado – Licenciatura en Biología Humana Melanie Nuesch
30
Figura 15b. Mismo gráfico de la figura 15 coloreado distinto para resaltar a los uruguayos.
Figura 16. Gráfico del primer componente principal versus el segundo y el tercero (3D). El código de colores es el mismo que el del gráfico anterior.
Informe de Pasantía de Grado – Licenciatura en Biología Humana Melanie Nuesch
31
RESULTADOS DEL ESTUDIO DE EQUILIBRIO DE HARDY-WEINBERG
Tras analizar cada población por separado con el subpanel, se encontró que se rechazó
la hipótesis nula con un nivel de significancia del 0.05 en 32 SNPs en distintas poblaciones,
considerando entonces que los mismos no están en equilibrio de Hardy-Weinberg en la
población en cuestión. En la Tabla 3 a continuación se muestran los 61 resultados con sus
respectivos p-valores y población (son 61 porque un mismo SNP puede estar en desequilibrio
en más de una población a la vez, el cual fue el caso para varios).
Cromosoma SNP ID Significancia
Clínica Población Superpoblación
14 rs10498633 - PEL, PJL AMR, SAS
11 rs10792832 - AFROURU URU
11 rs10838725 - CLM, GBR AMR, EUR
6 rs10948363 Aumenta ACB AFR
8 rs11136000 Disminuye MSL AFR
5 rs11168036 Ver Tabla 1 LWK AFR
17 rs112665297
Ver Tabla 1 CEU, CLM, GBR, IBS, PUR EUR, AMR
7 rs11767557 Disminuye GIH SAS
7 rs11771145 Disminuye IBS EUR
19 rs12459419 Disminuye TSI EUR
7 rs1476679 - FIN EUR
7 rs1595014 - GIH, ITU, MXL SAS, AMR
17 rs2668626 Ver Tabla 1 CEU, CLM, GBR, IBS, PUR EUR, AMR
8 rs28834970 - CDX, ITU EAS, SAS
17 rs2942175 Ver Tabla 1 CEU, CLM, GBR, IBS, PUR EUR, AMR
17 rs2942177 Ver Tabla 1 CEU, CLM, GBR, IBS, PUR EUR, AMR
2 rs35349669 - CEU EUR
19 rs3764650 Aumenta GIH, MSL, STU SAS, AFR
1 rs3818361 Aumenta CEU, LWK EUR, AFR
11 rs3851179 Disminuye AFROURU URU
19 rs3865444 Disminuye TSI EUR
19 rs4147929 Aumenta ASW, ITU, STU AFR, SAS
11 rs541458 Disminuye PUR AMR
11 rs670139 Aumenta IND, TSI URU, EUR
2 rs6733839 Aumenta GIH, PUR SAS, AMR
8 rs7012010 Disminuye GBR EUR
2 rs7561528 Aumenta ACB, MXL AFR, AMR
6 rs9296559 Aumenta ACB AFR
Informe de Pasantía de Grado – Licenciatura en Biología Humana Melanie Nuesch
32
8 rs9331888 Ver Tabla 1 FIN EUR
8 rs9331896 Ver Tabla 1 YRI AFR
6 rs9349407 Aumenta ACB AFR
11 rs983392 Disminuye FIN EUR
Tabla 3. Con Plink –hardy se analizaron los SNPs del subpanel en cada población por
separado (28 análisis, uno por población, de 41 SNPs cada uno, lo que da un total de 1148 resultados en total). Se concatenó una tabla con los 1148 resultados y se filtraron aquellos resultados con p-valor menor a 0.05 (los significativos, que resultaron ser 61; 31 SNPs del subpanel, algunos en desequilibrio en más de una población a la vez). Con esos 61 resultados se generó esta tabla, listando los 31 SNPs e indicando en qué población(es) se detectó el desequilibrio. Para estos SNPs cuyos p-valores resultaron ser menores a 0.05, se rechazó la hipótesis nula (que el genotipo se ajusta al equilibrio de HW) y por tanto se considera que no están en equilibrio en esa población en particular. La tabla completa con los p valores obtenidos en los análisis se encuentra en el anexo (Tabla 5). En verde se resaltan tres resultados uruguayos que serán discutidos en mayor detalle más adelante (ver Discusión). Las siglas son aquellas de las poblaciones de la Tabla 2, mas IND = nativos uruguayos y AFROURU = afrouruguayos. La columna de ¨Significancia Clínica¨ indica a grandes rasgos si el SNP aumenta o disminuye el riesgo de desarrollar LOAD, ¨-¨ si es desconocido, o ¨Ver Tabla 1¨ si su estatus no se puede resumir tan fácilmente.
De los 61 resultados de estos 31 SNPs, 10 son de poblaciones africanas, 14 de
amerindias, 3 de uruguayas, 23 de europeas, 1 de asiáticos del este y 10 de asiáticos del sur.
Los SNPs cuyos genotipos no se ajustan a lo esperado por HW en la población
africana son 10: rs10948363, rs11136000, rs11168036, rs3764650, rs3818361, rs4147929,
rs7561528, rs9296559, rs9331896 y rs9349407.
Los SNPs que no ajustaron en amerindios son 10: rs10498633, rs10838725,
rs112665297 (en dos poblaciones, colombianos y portorriqueños), rs1595014, rs2668626
(ídem), rs2942175 (ídem), rs2942177 (ídem), rs541458, rs6733839 y rs7561528.
En los uruguayos fueron 3: rs10792832 y rs3851179 en la población
afrodescendiente, y rs670139 en los nativos uruguayos. Los primeros dos solo se encontraron
en desequilibrio en uruguayos afrodescendientes y en ninguna otra población, por lo cual
parecería ser un comportamiento específico de ella.
En europeos, lo que no se ajustaron a las expectativas HW fueron 14: rs10838725,
rs112665297 (en tres poblaciones: CEU, GBR y IBS), rs11771145, rs12459419, rs1476679,
rs2668626 (ídem), rs2942175 (ídem), rs2942177 (ídem), rs35349669, rs3818361, rs3865444,
rs670139, rs7012010, rs9331888 y rs983392.
En asiáticos, el único SNP fue rs28834970 en CDX (chinos Dai en Xishuangbanna,
China). Interesantemente, el mismo SNP tampoco está en equilibrio en una población de
asiáticos del sur, ITU (Telugus (India) en Reino Unido), pero está en equilibrio en todas las
demás, por lo cual parecería que este comportamiento sería propio de los asiáticos.
En asiáticos del sur, los SNPs que no ajustaron fueron 7: rs10498633, rs11767557, rs1595014
(en dos poblaciones: GIH e ITU), rs28834970, rs3764650 (en GIH y STU), rs4147929 (en
ITU y STU) y rs6733839.
Informe de Pasantía de Grado – Licenciatura en Biología Humana Melanie Nuesch
33
Figura 17. SNPs que no están en equilibrio de Hardy-Weinberg en más de una superpoblación a la vez. Los SNPs en los recuadros grises no están en equilibrio en las dos poblaciones indicadas en los círculos localizados inmediatamente arriba de cada recuadro. Los asteriscos marcan a aquellos SNPs que, dentro de esas superpoblaciones, a su vez no están en equilibrio en tres o más poblaciones (las cuales se pueden ver en la Tabla 3).
Algunos SNPs se vio que están en desequilibrio en dos superpoblaciones a la vez
(Figura 17) y, dentro de esas superpoblaciones, a veces hasta en tres o más poblaciones a la
vez (en la Tabla 3 se puede ver cuáles son).
Cabe destacar que los SNPs rs112665297, rs2668626, rs2942175 y rs2942177 están
en desequilibrio en tres poblaciones europeas y dos amerindias (específicamente, en CEU,
CLM, PUR, IBS y GBR).
También, que el SNP rs670139 se encuentra en desequilibrio en dos poblaciones a la
vez: nativos uruguayos y europeos italianos de Toscana.
Informe de Pasantía de Grado – Licenciatura en Biología Humana Melanie Nuesch
34
RESULTADOS DEL ESTUDIO DE FRECUENCIA ALÉLICA
Figura 18. Heatmap que muestra, de forma comparativa, las frecuencias alélicas calculadas
de los 41 SNPs de riesgo para LOAD en las distintas superpoblaciones, dos poblaciones uruguayas (IND y AFROURU), japoneses (JPT) y africanos Sub-Sahara del oeste (WSSA).
En la Figura 18 se tiene un pantallazo visual y comparativo de las frecuencias alélicas
entre las distintas poblaciones (se graficó la frecuencia del alelo menor). Las tablas completas
de las frecuencias en las dos poblaciones de uruguayos se encuentran en el anexo (Tablas 7 y
8).
Recuérdese que las frecuencias alélicas de tres SNPs en japoneses y africanos
subsaharianos del oeste fueron calculadas y comparadas, para ver si una diferencia
significativa entre dichos valores acompañaba sus diferencias observadas en prevalencia de
demencia. En japoneses, las frecuencias alélicas para los tres SNPs del gen CLU, vinculados
al haplotipo CCG asociado con riesgo para LOAD, fueron las siguientes: 0.8 para el alelo
mayor C de rs2279590, 0.8 para el alelo mayor C de rs11136000 y 0.5 para el alelo menor G
de rs9331888. En africanos Sub-Sahara del oeste, las frecuencias fueron las siguientes: 0.8
para el alelo mayor C de rs2279590, 0.6 para el alelo mayor C de rs11136000 y 0.3 para el
alelo menor G de rs9331888. El test de chi-cuadrado entre ambas poblaciones indicó que la
diferencia en las frecuencias alélicas de dichos SNPs es significativa (los p-valores dieron
menores a 2.2-16
). Al calcular los conteos genotípicos, se vio que el conteo de homocigotas
para el alelo T es igual a cero en los africanos Sub-Sahara del oeste.
Informe de Pasantía de Grado – Licenciatura en Biología Humana Melanie Nuesch
35
Figura 19. Valores promedio de FST para los distintos SNPs en las 5 superpoblaciones de los 1000genomas y 2 poblaciones Uruguayas, en función de la posición genómica (en pares de bases) por cromosoma. Los valores en verde son mayores al valor de equilibrio establecido (FST>0.1) y en negro los menores (FST < 0.1). Cada punto representa un SNP.
Se buscó visualizar la ubicación general en el genoma de aquellos SNPs con Fst grandes, para ver si están sobrerepresentados en alguna región particular. Se ve mayor cantidad de SNPs con FST>0.1 en los cromosomas 7, 11, 17 y 19.
El FST total promedio estimado entre las poblaciones considerando todos los sitios es 0.086 (el cual da una medida aproximada de qué tan distintas son las poblaciones entre sí considerando todos los marcadores). En la Tabla 6 en el Anexo se encuentran los valores promedio de FST para cada SNP en las diferentes poblaciones.
Con respecto a los resultados de los cálculos de FST, 17 SNPs obtuvieron valores de
FST por encima del valor de equilibrio 0.1 (Figura 19). Esto sugiere que estos SNPs pueden
estar asociados a regiones genómicas las cuales fueron sujetas a selección diversificadora
entre poblaciones (Guo, Dey & Holsinger, 2009). Los SNPs con FST mayor a 0.1 fueron:
rs10838725, rs112665297, rs12459419, rs1476679, rs16847609, rs190982, rs2279590,
rs2668626, rs2718058, rs2942175, rs2942177, rs35349669, rs3818361, rs3865444,
rs4147929, rs8093731 y rs983392 (Tabla 4), y a su vez fueron calculados los FST entre pares
de poblaciones, para ver cuál (o cuáles) era la responsable de la diferencia. Si se observan las
frecuencias de cada SNP en la figura 18 se verá una clara concordancia con estos datos
(aquellos cuyas frecuencias alélicas difieren más entre poblaciones tendrán mayores valores
de FST).
Cabe destacar que no se consideraron, en la Tabla 4, los FST de las comparaciones
hechas con alguna población uruguaya, debido a que el pequeño tamaño de la muestra
uruguaya tiende a sobreestimar el valor de FST. Por ejemplo, para el primer SNP (rs4147929,
ABC7), la mayor diferencia de frecuencias está entre los africanos y los asiáticos del este,
Informe de Pasantía de Grado – Licenciatura en Biología Humana Melanie Nuesch
36
con un FST de 0.36. Si se calcula el FST entre africanos y nativos uruguayos da un valor de
0.43, lo cual es un artefacto por el pequeño tamaño de muestra nativa uruguaya (N=10).
Los cálculos de FST no necesariamente necesitarían un tamaño de muestra grande para
ser representativos; si se usan suficientes marcadores se puede lograr (Willing, Dreyer &
Oosterhout, 2012). Sin embargo, como en este trabajo se utilizaron solamente 41 (los SNPs
de LOAD), y las muestras de los uruguayos son de 10 individuos, ya se puede predecir que el
FST calculado para ellos estará sobreestimado.
La figura 19 da un pantallazo general, exploratorio; si se observa algún SNP que
tenga un Fst mayor al umbral definido (como vemos en la gráfica en color verde), éste se
vuelve un candidato interesante a estudiar más a fondo. ¿Hay alguna población en particular
que sea responsable de esta diferencia en frecuencias alélicas? Para responder esta
interrogante se observan las comparaciones entre pares de poblaciones para cada SNP, para
ver en qué población el Fst se diferenció significativamente de las demás (Tabla 4).
Patología SNP ID Gen Cercano CHR Posición Mayor FST
COLM/INM rs4147929 ABCA7 19 1063443 0.36 (AFR-EAS)
COLM rs2279590 CLU 8 27456253 0.31 (AFR-EUR)
DES rs8093731 DSG2 18 29088958 0.24 (AFR-todas)
DES rs2718058 NME8 7 37841534 0.35 (AFR-SAS)
DES rs112665297 KANSL1-LRRC37A 17 44348634 0.19 (EUR-EAS)
DES rs2942175 KANSL1-LRRC37A 17 44348825 0.20 (EUR-EAS)
DES rs2942177 KANSL1-LRRC37A 17 44348987 0.20 (EUR-EAS)
DES rs2668626 KANSL1-LRRC37A 17 44353175 0.20 (EUR-EAS)
DES rs10838725 CELF1 11 47557871 0.50 (AFR-SAS)
INM rs3865444 CD33 19 51727962 0.44 (AFR-AMR)
INM rs12459419 CD33 19 51728477 0.44 (AFR-AMR)
INM rs983392 MS4A 11 59923508 0.47 (AFR-SAS)
DES rs190982 MEF2C 5 88223420 0.27 (AFR-SAS)
DES rs1476679 ZCWPW1 7 100004446 0.34 (AFR-EAS)
DES rs16847609 SOX14-CLDN18 3 137650736 0.19 (AFR-SAS)
INM rs3818361 CR1 1 207784968 0.29 (AFR-SAS)
DES rs35349669 INPP5D 2 234068476 0.43 (EUR-EAS)
Tabla 4. Los 17 SNPs que tienen FST > 0.1, indicando código de SNP, gen/región cercana a la
cual está asociado, cromosoma (CHR) y posición en el genoma. La primera columna indica a qué categoría patofisiológica del Alzheimer pertenecen (COLM= metabolismo del colesterol, INM= respuesta inmune, DES = desconocido, como descritas en Karch & Goate, 2015). La última columna indica el mayor valor obtenido de FST al comparar pares de poblaciones, y también se indica en qué par de poblaciones se encontró, el cual refleja cuáles tienen mayor diferencia de frecuencias alélicas para el SNP en cuestión. Cuanto mayor es el FST, mayor es la divergencia entre dichas poblaciones.
Informe de Pasantía de Grado – Licenciatura en Biología Humana Melanie Nuesch
37
DISCUSIÓN
En este trabajo se realizaron estudios genético-poblacionales para 41 polimorfismos
de riesgo de LOAD, utilizando 2504 secuencias de 28 poblaciones del mundo, entre ellas dos
uruguayas. Se analizó estructura poblacional mediante análisis de componente principal, se
calcularon las frecuencias alélicas y se vio si encajaban con una distribución de equilibrio de
Hardy-Weinberg, y se compararon las frecuencias en las diferentes superpoblaciones
mediante el estadístico FST.
El propósito ulterior que subyace a este trabajo es utilizar las herramientas de la genómica
evolutiva y la bioinformática como fuente generadora de hipótesis de trabajo interesantes a
futuro que guíen investigaciones y avances en la neurociencia y genética médica, sobre todo
en patologías cuyos mecanismos fisiopatológicos requieren revisión (como LOAD) y,
siempre que sea posible, contemplando el caso particular de nuestro país. Éste es un punto
fuerte a destacar, ya que en marco de este propósito se seleccionaron algunos resultados a
discutir por sobre otros, no por ser los otros menos interesantes sino porque los seleccionados
aportan a dirigirnos hacia esa dirección.
Respecto a los análisis de estructura poblacional, se logró exitosamente reproducir
trabajos anteriores y visualizar la presencia de la estructura poblacional existente entre las
superpoblaciones humanas, utilizando un gran número de marcadores. Al utilizar solamente
los 41 marcadores de LOAD, no se vio que las poblaciones presentaran alguna agrupación
relevante, como era esperado. Sin embargo, se puede visualizar que los africanos esbozan
cierto grado de agrupación, lo cual llamó la atención. Sin embargo, cabe destacar que existe
cierto grado de separación genética entre africanos y el resto. Como los humanos se
dispersaron desde África al resto del mundo hace relativamente poco tiempo, la mayor parte
de la variación en poblaciones no-africanas es un subconjunto de la africana (Futuyma,
2013). Como el PCA es exploratorio, habría que confirmar si los africanos efectivamente
forman un grupo significativamente aparte, en este contexto; un posible paso a seguir sería
realizar un análisis de grupos (cluster analysis). Además, hay métodos matemáticos para
descomponer los componentes principales y averiguar qué genes son los responsables de esa
separación (como en Parolo et al. 2015, ver Figura 10, que se realizó para los habitantes de
regiones italianas y, correlacionando a su vez con datos clínicos, históricos y geográficos, se
encontraron diferencias a nivel de genes de respuesta inmune y se le dio un correlato
ambiental).
Con respecto a la interpretación de los resultados de equilibrio de Hardy-Weinberg hay
que tener ciertas consideraciones. Para los SNPs en desequilibrio no podemos concluir más
allá que alguna de las asunciones del modelo no se está cumpliendo (como que el
apareamiento no es al azar, o que hay fuerzas no neutrales actuando sobre el locus). También
puede pasar que haya algún artefacto, como el causado por la presencia de estructura
poblacional (el cual se podría eventualmente discutir teniendo los resultados del análisis de
grupos propuesto más arriba). A su vez, hay efectos genéticos (como dominancia, y otros)
que cambian la eficiencia de la estimación de las frecuencias alélicas, lo cual requiere utilizar
varias generaciones para compensarlo (Spiess, 1989). En este trabajo, se utilizó solo una
generación, lo cual nos da una instantánea de un momento histórico dado donde cada muestra
fue tomada, sin tener en consideración muchos factores de la compleja dinámica (y más aun
teniendo en cuenta tantos SNPs y tan diversos). Para poder concluir algo más robusto debería
afinarse más el modelo utilizado para cada variante, teniendo en cuenta todos estos asuntos.
Informe de Pasantía de Grado – Licenciatura en Biología Humana Melanie Nuesch
38
Respecto a los SNPs que no ajustan a los valores esperados de equilibrio en más de una
población a la vez, este análisis por sí solo no aclara cuál(es) de las asunciones de Hardy-
Weinberg no se está cumpliendo, por lo cual de momento no se puede afirmar más que esto,
aunque la estructura poblacional que se demostró que existe entre las superpoblaciones
podría estar contribuyendo.
A pesar de lo anterior, uno de los SNPs en desequilibrio de Hardy-Weinberg
interesantes a discutir es rs670139, el cual está en desequilibrio en nativos uruguayos y
europeos italianos de Toscana. Cabe comentar que encontrar este tipo de coincidencias entre
italianos y uruguayos tiene sentido debido a la gran migración italiana que ocurrió entre los
años 40 y 60 hacia el territorio uruguayo (Pi Hugarte, 2001). Este SNP pertenece a MS4A, un
locus multigénico asociado a la respuesta inmune, que no solo ha sido asociado a un aumento
de riesgo para LOAD en individuos APOE ε4 -, sino que recientemente también se observó
que está involucrado en interacciones epistáticas, que influyen aún más en el riesgo para
LOAD (Ebbert et al., 2016). En particular, la interacción de MS4A4E con el SNP
rs11136000 del locus CLU en sujetos APOE4-, la cual no existe en APOE4+. Además,
luego de APOE y TREM2, son las variantes de riesgo para LOAD con la mayor razón de
probabilidades (odds ratio), sugiriendo que puede tener un rol importante en la etiología de la
enfermedad, en particular si se interesa expandir el abanico de mecanismos posibles. Como
Uruguay a su vez es uno de los países de la región con mayor envejecimiento, sería
interesante ahondar en la dinámica evolutiva de esta variante, su interacción con CLU en
uruguayos y comparar esto con datos clínicos del país y ver si hay una correlación, ya que
podría eventualmente abrir una nueva línea de investigación hacia potenciales diagnósticos y
terapéuticos en el país. Según Ebbert et al. 2016, el modelo vigente sugiere que
aproximadamente un 8% de la incidencia de LOAD disminuiría si se eliminan ambos alelos
mayores de CLU y MS4A4E. Otro análisis que habría que hacer, al tener una muestra más
representativa de los uruguayos, sería ver si este SNP tampoco está en equilibrio en el resto
de la población o es exclusivo de los nativos uruguayos (por ejemplo, en los afrouruguayos
no se vio).
Otro resultado de la muestra uruguaya que llamó la atención fue el de los SNPs en
desequilibrio de Hardy-Weinberg en el locus PICALM (rs10792832 y rs3851179). Estos
SNPs solo se encontraron en desequilibrio en la muestra uruguaya afrodescendiente, y son
dos variantes que se han asociado con un menor riesgo para LOAD (protectoras;(Harold et
al., 2009; Lambert et al., 2009; Lambert et al., 2013). PICALM codifica para una proteína
involucrada en el ensamblaje de las vesículas de clatrina, la proteína de ensamblaje de
clatrina de unión a fosfatidilinositol (phosphatidylinositol binding clathrin assembly protein),
la cual se expresa predominantemente en neuronas y colocaliza in vivo e in vitro con APP
(Xiao et al., 2012). La misma a su vez juega un rol esencial en la fusión de vesículas
sinápticas (Harel et al., 2008), se cree que puede tener un rol también en el clearance del beta
amiloide por autofagia (Tian et al., 2013). También se ha visto que modula toxicidad mediada
por beta amiloide (Treusch et al., 2011) y su disrupción altera el tráfico de APP in vitro y
genera formación de placas de amiloide en modelos transgénicos de ratones con enfermedad
de Alzheimer (Xiao et al., 2012). Si se confirmase posteriormente que la población
afrodescendiente uruguaya presenta frecuencias alélicas para dichos SNPs significativamente
diferentes a las demás poblaciones, sería bueno caracterizar el cambio (si disminuyen o
aumentan), comparar con datos clínicos y buscar el mecanismo subyacente. Lo curioso es que
en poblaciones africanas esto no se observa; es particular de aquellos afrodescendientes que
viven en Uruguay, y en las muestras africanas parecen estar en equilibrio. En el caso
Informe de Pasantía de Grado – Licenciatura en Biología Humana Melanie Nuesch
39
hipotético de que las frecuencias aumentaran en afrodescendientes, y los datos clínicos
indicaran que ellos padecen significativamente menos Alzheimer, habría que estudiar qué
factores biológicos o culturales pueden estar siendo responsables de esa protección.
Debe aclararse que de todos los SNPs en desequilibrio se eligió discutir esos dos
porque están enmarcado en un mecanismo patológico que en el presente año ha estado siendo
estudiado exhaustivamente por investigadores de todo el mundo, y porque mostraron un
comportamiento singular y llamativo en una población uruguaya. Respecto al SNP de MS4A,
hay una creciente tendencia a dejar de buscar mecanismos de SNPs aislados en particular y
buscar efectos epistáticos entre ellos que logren explicar un mayor porcentaje de la
enfermedad, de los cuales el efecto CLU-MS4A es de los más caracterizados. Para los
objetivos de este informe de pasantía de grado se decidió profundizar y discutir solamente en
esos; sin embargo, todos los SNPs que demostraron estar en desequilibrio tienen el potencial
de plantear hipótesis interesantes para estudiar LOAD en sus poblaciones de origen.
Respecto a los resultados de la tercera parte, las poblaciones parecen ser bastante
genéticamente similares entre sí (al menos a grandes rasgos) y, respecto a los SNPs de
LOAD, algunos siguen ese patrón y otros no (es decir, en algunos sí se observa diferencia).
Debido a la historia evolutiva ya mencionada más arriba, las poblaciones del mundo son muy
similares genéticamente (el valor hallado en la literatura fue de FST=0.088, y el calculado en
este trabajo fue de 0.086, lo cual es consistente con decir que las poblaciones no están tan
alejadas genéticamente). Se estima que 89.9% de la variación genética es entre individuos,
2.1% entre poblaciones, y 9.0% es entre grandes regiones geográficas del mundo, por lo tanto
ver poca diferencia entre superpoblaciones es concordante también con la literatura (Li et al.,
2008). A su vez, el humano no presenta aislamiento reproductivo biológico entre razas, e
incluso las barreras culturales son usualmente superadas, por lo que hay entrecruzamiento
(admixture) entre grupos genéticamente diferenciados, lo que aporta a que haya una
diferencia gradual en lugar de tajante en la mayoría de los loci (si bien hay algunos donde se
pueden observar diferencias no graduales). Tanto en la figura 18 como en la Tabla 4 se puede
ver que las frecuencias de los SNPs en africanos se diferencian un poco más, en comparación
con las demás superpoblaciones, y tienen valores más extremos (en la Figura 18,
representados como celdas más azules o más blancas, en lugar de matices intermedios como
tienen, por ejemplo, los europeos), lo cual también es esperable según la literatura (Kittles &
Weiss, 2003), por ejemplo debido a su alta heterocigocidad y a su historia biogeográfica.
Respecto a los 17 SNPs con FST > 0.1 Tabla 4, se realizó una búsqueda bibliográfica y
se encontró que varios SNPs están asociados a otras enfermedades además de LOAD. Una
posible hipótesis que explique la diferencia de frecuencias (alto FST) entre las poblaciones en
cuestión podría ser que alguna de esas enfermedades estuviera bajo efecto de algún tipo de
selección en alguna de ellas, de forma diferencial, y así causar divergencia. En tal caso, sería
interesante y necesario acompañar con datos clínicos de dichas enfermedades en las
poblaciones en cuestión. Además, habría que realizar estudios complementarios de genómica
evolutiva que ahonden aún más en la dinámica del SNP, para asegurarnos de diferenciarlo de
efectos debido a la patología de LOAD. Se vio que hay más de un SNP con FST significativo
en los cromosomas 7, 11, 17 y 19 (Figura 19). Los cromosomas 7, 11 y 17 presenta una
cantidad inusualmente alta de segmentos duplicados de secuencia (segmental duplications), y
el cromosoma 19 presenta una densidad inusualmente alta de secuencias repetidas (repeats;
en el 19 en particular, gran cantidad de secuencias Alu) respecto a otras áreas del genoma
(Pevsner, 2015). Hay antecedentes que muestran que, al estudiar enfermedades humanas, hay
Informe de Pasantía de Grado – Licenciatura en Biología Humana Melanie Nuesch
40
que tener en cuenta si la variante en cuestión está dentro de este tipo de regiones que poseen
una arquitectura genómica con una dinámica de recombinación y reorganización particular,
ya que la variación observada o ciertos efectos pueden deberse a la biología molecular
inherente de la región (en particular, Sharp et al. 2005 trata el tema de los segmentos
duplicados). Además, las zonas de secuencias repetidas han mostrado ser inestables y
responsables de generar una dinámica mutacional particular que ha sido asociadas a
enfermedades, entre ellos numerosos desórdenes neurológicos, neuromusculares y
neurodegenerativos (Pearson, Edamura & Cleary 2005). La mutabilidad en regiones
hipervariables requiere consideraciones especiales en estudios de dinámica poblacional o
variación geográfica como éste, ya que su efecto no es despreciable y en éste trabajo no se ha
tenido en cuenta, y hay modelos más complejos que podrían utilizarse para un análisis más
adecuado, como el modelo de mutación por pasos o “stepwise” (Lessa, 2004). Todo esto
podría estar influenciando los valores de FST y se podría asegurar una mayor robustez de
resultados asegurándose el uso de modelos más comprensivos en análisis futuros.
Sería pertinente a nuestros objetivos analizar y descartar las posibilidades anteriores y
descubrir que cierto SNP de riesgo para LOAD está siendo seleccionado por algún otro
factor; por ejemplo, que un factor (tanto protector como de riesgo) en cierta población esté
siendo seleccionado positiva o negativamente, por algún motivo (biológico, cultural, etc.), y
que eso se vea reflejado en un aumento o disminución de casos de LOAD. Esto podría abrir
puertas a nuevos métodos de prevención, quizás hasta conductuales, que idealmente es
incluso mejor que padecer la enfermedad y trabajar en un tratamiento.
Las dos muestras uruguayas manejadas fueron tan pequeñas que su valor de FST
tiende a sobreestimarse, por lo tanto, no se consideraron. Se necesitaría agrandar ambas
muestras uruguayas y volver a calcular FST. Además, como ya se explicó en Materiales y
Métodos, esta muestra no es representativa de la población uruguaya total, por lo que para
trasladar exitosamente cualquier resultado a la población general se debería diseñar una
nueva muestra acorde con los requisitos que un estudio de este estilo requiere y realizar estos
análisis en ella. Asimismo, en Uruguay se debería formar una base de datos clínica de LOAD
para poder acompañar esos estudios, ya que la validación clínica de los mismos es crucial.
Respecto a los resultados de frecuencias alélicas de los SNPs que conforman el
haplotipo de CLU, se vio que las mismas son significativamente mayores en japoneses
comparado con africanos SS del oeste. Al integrar esto con las estimaciones de prevalencia
de demencia en el mundo y los antecedentes del haplotipo, se plantea como hipótesis posible
que una mayor frecuencia de este haplotipo en la población japonesa pueda explicar, al
menos en cierto grado, el hecho de que dicha población tenga una prevalencia tan grande
(7.0%, y recordemos que la de africanos SS del oeste es de 3.1%, y que las demás
poblaciones poseen frecuencias intermedias). Sin embargo, debe aclararse que en este trabajo
no se estudiaron haplotipos sino SNPs, por lo cual este trabajo sirve como indicio para
justificar un futuro estudio de haplotipos, pero no sería correcto transpolar estos resultados de
frecuencias alélicas de SNP a haplotipos. Otra consideración a tener en cuenta es que las
estimaciones de prevalencia poseen varios puntos a pulir (Prince et al., 2015), por lo cual en
este trabajo se usaron como punto de referencia pero hay críticas fuertes para hacer. Una de
ellas es que la prevalencia fue calculada para un diagnóstico de demencia y no de Alzheimer,
por lo cual muy probablemente se esté sobreestimando. De todos modos, no desacredita este
resultado, ya que el Alzheimer es la causa de demencia más frecuente, por lo tanto, se
Informe de Pasantía de Grado – Licenciatura en Biología Humana Melanie Nuesch
41
propone, como perspectiva, continuar estudiar al haplotipo mencionado en japoneses para ver
si la correlación se mantiene.
Un punto fuerte a tener en cuenta a lo largo de todo este trabajo es que la bibliografía
de LOAD carece, por el momento, de variantes causales conocidas detrás de los SNPs
asociados a riesgo (excepto por APOE). Los numerosos SNPs obtenidos en GWAS son
etiquetas que evidencian una asociación entre la región genómica y la enfermedad, pero el
SNP en sí es poco probable que sea el responsable directo. Es más probable que el SNP esté
en desequilibrio de ligamiento con una o más variantes causales que aún no están
identificadas, las cuales sí se relacionan directamente con el mecanismo etiológico, y esto es
algo que se debe resolver para poder seguir hilando más fino y llegar a resultados realmente
aplicables a la terapéutica. Eso, a su vez, debe ir en consonancia con resultados
experimentales de otras áreas como la biología molecular, celular, y ensayos clínicos.
CONCLUSIONES
Un panel genético actualizado de factores de riesgo de LOAD fue generado en el
marco de este trabajo, el cual puede ser utilizado para un sin fin de análisis posteriores o ser
utilizado como referencia bibliográfica para planificar investigaciones.
Las muestras uruguayas se pusieron a punto y unificaron junto con las de los
1000genomas generando una base de datos de genoma completo útil para realizar estudios
comparativos entre uruguayos y otras poblaciones, ya sea de LOAD o cualquier enfermedad.
Más allá de algunas consideraciones formales y/o técnicas, se lograron realizar
ampliamente los objetivos propuestos, algunos de ellos obteniendo resultados similares a la
literatura.
Como perspectiva, el resultado del SNP rs670139 (locus MS4A) sugiere una
interesante línea de investigación acerca de los efectos de la epístasis entre los loci MS4A (en
particular, MS4A4E) y CLU, en la dimensión inmunológica de LOAD en uruguayos, la cual
eventualmente podría resultar en aplicaciones diagnósticas o terapéuticas. Lo mismo para los
SNPs del locus PICALM rs10792832 y rs3851179. Para esto se requiere determinar estos
SNPs en la población uruguaya de forma representativa, y volver a realizar estos análisis.
Como segunda perspectiva, se sugiere estudiar la posible asociación del haplotipo
CCG del locus CLU (SNPs rs2279590, rs11136000 y rs9331888) con LOAD comparando
japoneses y africanos, ya que los datos de prevalencia de demencia y frecuencias alélicas de
SNPs parecerían indicar una posible correlación.
BIBLIOGRAFÍA
Aluise, Christopher D., Ren A S Robinson, Jian Cai, William M. Pierce, William R. Markesbery,
and D. Allan Butterfield. 2011. “Redox Proteomics Analysis of Brains from Subjects with Amnestic Mild Cognitive Impairment Compared to Brains from Subjects with Preclinical Alzheimer’s Disease: Insights into Memory Loss in MCI.” Journal of Alzheimer’s Disease
Informe de Pasantía de Grado – Licenciatura en Biología Humana Melanie Nuesch
42
23 (2): 257–69. doi:10.3233/JAD-2010-101083. Alzheimer’s Disease International, and BUPA UK. 2013. “El Coste Y La Prevalencia Del
Alzheimer Y Otros Tipos de Demencia En América Latina.” Informe ADI/Bupa: La Demencia En América, 20.
Attia, J., A. Thakkinstian, P. McElduff, E. Milne, S. Dawson, R. Scott J., N. de Klerk, B. Armstrong, and J. Thompson. 2010. “Detecting Genotyping Error Using Measures of Degree of Hardy-Weinberg Disequilibrium.” Stat. Appl. Genet. Mol. Biol. doi:10.2202/1544-6115.1463.
Bekris, Lynn M., Steven P. Millard, Nichole M. Galloway, Simona Vuletic, John J. Albers, Ge Li, Douglas R. Galasko, et al. 2008. “Multiple SNPs Within and Surrounding the Apolipoprotein E Gene Influence Cerebrospinal Fluid Apolipoprotein E Protein Levels.” Journal of Alzheimer’s Disease 13 (3): 255–66.
Bennett, David A, L E I Yu, Jingyun Yang, Gyan P Srivastava, Cristin Aubin, and Philip L D E Jager. 2014. “Epigenomics of Alzheimer’s Disease.” Translational Research 165 (1). Mosby, Inc: 200–220. doi:10.1016/j.trsl.2014.05.006.
Beyer, Katrin, Montserrat Domingo-Sàbat, and Aurelio Ariza. 2009. “Molecular Pathology of Lewy Body Diseases.” International Journal of Molecular Sciences 10 (3): 724–45. doi:10.3390/ijms10030724.
Beyreuther, K, and C.L. Masters. 1991. “Amyloid Precursor Protein (APP) and ΒZA4 Amyloid in the Etiology of Alzheimer’s Disease: Precursor-Product Relationships in the Derangement of Neuronal Function.” Brain Pathology 1 (4): 241–51.
Blalock, Eric M, James W Geddes, Kuey Chu Chen, Nada M Porter, William R Markesbery, and Philip W Landfield. 2004. “Incipient Alzheimer’s Disease: Microarray Correlation Analyses Reveal Major Transcriptional and Tumor Suppressor Responses.” Proceedings of the National Academy of Sciences of the United States of America 101 (7): 2173–78. doi:10.1073/pnas.0308512100.
Blanca, J, J Cañizares, J Montero-Pau, P Ziarsolo, and V García-Carpintero. 2017. “Bioinformatics at COMAV Institute.” Accessed June 23. https://bioinf.comav.upv.es/courses/sequence_analysis/sequence_file_formats.html.
Business Wire. 2014. “Institut Pasteur de Montevideo, Genomic Medicine Institute-Seoul National University, and Macrogen Launch Urugenomes Project to Decode the Genome of Uruguyan Population.” http://www.businesswire.com/news/home/20140919005010/en/Institut-Pasteur-de-Montevideo-Genomic-Medicine-Institute-Seoul.
Butterfield, D. Allan, TT Reed, and M Perluigi. 2007. “Elevated Levels of 3-Nitrotyrosine in Brain From Subjects with Amnestic Mild Cognitive Impairment: Implications for the Role of Nitration in the Progression of Alzheimer’s Disease.” Brain Research Bulletin, 1148:243-248. doi:10.1038/jid.2014.371.
Cariaso;, Michael, and Greg Lennon. 2011. “SNPedia: A Wiki Supporting Personal Genome Annotation, Interpretation and Analysis.” Nucleic Acids Research. doi:10.1093/nar/gkr798.
Chang, Chow, Vattikuti, Tellier, and Lee. 2017. “Plink 1.90 Beta.” Accessed May 1. https://www.cog-genomics.org/plink/1.9/.
Chang, Chow, Vattikuti, Tellier, Purcell, and Lee. 2015. “Second-Generation PLINK: Rising to the Challenge of Larger and Richer Datasets.” GigaScience 4.
Cohen, Samuel. 2015. “Alzheimer’s Is Not Normal Aging — and We Can Cure It. TED Talk.”
Informe de Pasantía de Grado – Licenciatura en Biología Humana Melanie Nuesch
43
BCG London. https://www.ted.com/talks/samuel_cohen_alzheimer_s_is_not_normal_aging_and_we_can_cure_it.
Corder, E H, A M Saunders, W J Strittmatter, D E Schmechel, P C Gaskell, G W Small, a D Roses, J L Haines, and M a Pericak-Vance. 1993. “Gene Dose of Apolipoprotein E Type 4 Allele and the Risk of Alzheimer’s Disease in Late Onset Families.” Science (New York, N.Y.) 261 (5123): 921–23. doi:10.1126/science.8346443.
De Strooper, Bart, T Iwatsubo, and M.S. Wolfe. 2012. “Presenilins and Gamma-Secretase: Structure, Function and Role in Alzheimer Disease.” Cold Spring Harbor Perspectives in Medicine.
DeKosky, ST, and SW Scheff. 1990. “Synapse Loss in Frontal Cortex Biopsies in Alzheimer’s Disease: Correlation with Cognitive Severity.” Annals of Neurology 27 (457).
Duforet-frebourg, Nicolas, Keurcien Luu, Guillaume Laval, Eric Bazin, and Michael G B Blum. 2015. “Detecting Genomic Signatures of Natural Selection with Principal Component Analysis : Application to the 1000 Genomes Data” 33 (4): 1082–93. doi:10.1093/molbev/msv334.
Ebbert, Boehmea, Wadswortha, Staleya, Shubhabrata, Craneb, Ridgea, Kauwea, and Alzheimer’s Disease Genetics Consortium. 2016. “Interaction between Variants in CLU and MS4A4E Modulates Alzheimer’s Disease Risk.” Alzheimer’s and Dementia 12 (2): 121–29. doi:10.1016/j.jalz.2015.08.163.
Elhaik, Eran. 2012. “Empirical Distributions of F ST from Large-Scale Human Polymorphism Data” 7 (11). doi:10.1371/journal.pone.0049837.
Elston, R. C., and R. Forthofer. 1997. “Testing for Hardy-Weinberg Equilibrium in Small Samples.” Biometrics, no. 33: 536–42.
Emigh, T. H. 1980. “A Comparison of Tests for Hardy-Weinberg Equilibrium.” Biometrics, no. 36: 627–42.
Farrer, LA Lindsay A., Adrienne L. Cupples, Jonathan L. JL Haines, Bradley Hyman, Walter A. Kukuli, Richard Mayeux, Richard H. Myers, et al. 1997. “Effects of Age, Sex, and Ethnicity on the Association between Apolipoprotein E Genotype and Alzheimer Disease.” … Medical Association 2118 (278): 1349–56. doi:10.1001/jama.1997.03550160069041.
Futuyma, D. J. 2013. Evolution. Third. Sinauer Associates. Gatz, Margaret, Chandra a Reynolds, Laura Fratiglioni, Boo Johansson, James a Mortimer,
Stig Berg, Amy Fiske, and Nancy L Pedersen. 2006. “Role of Genes and Environments for Explaining Alzheimer Disease.” Archives of General Psychiatry 63 (2): 168–74. doi:10.1001/archpsyc.63.2.168.
Glenner, George G, and Caine W Wong. 1984. “Alzheimer’s Disease: Initial Report of the Purification and Characterization of a Novel Cerebrovascular Amyloid Protein.” Biochemical and Biophysical Research Communications 425 (3). Elsevier Inc.: 534–39. doi:10.1016/j.bbrc.2012.08.020.
Goate, Alison. 2006. “Segregation of a Missense Mutation in the Amyloid β -Protein Precursor Gene with Familial Alzheimer ’ S Disease” 9: 341–47.
Graffelman, J., and J. Morales-Camarena. 2008. “Graphical Tests for Hardy-Weinberg Equilibrium Based on the Ternary Plot.” Hum. Hered., no. 65: 77–84.
Graffelman, J, and V Moreno. 2013. “The Mid P -Value in Exact Tests for Hardy-Weinberg Equilibrium” 12 (4): 433–48. doi:10.1515/sagmb-2012-0039.
Informe de Pasantía de Grado – Licenciatura en Biología Humana Melanie Nuesch
44
Guerreiro, R, J Bras, and J Hardy. 2013. “SnapShot: Genetics of Alzheimer’s Disease.” Cell 155 (968).
Guo, F, D K. Dey, and K E Holsinger. 2009. “A Bayesian Hierarchical Model for Analysis of SNP Diversity in Multilocus, Multipopulation Samples.” J Am Stat Assoc 104 (485): 142–54. doi:10.1198/jasa.2009.0010.A.
Hardy, G H. 1908. “Mendelian Proportions in a Mixed Population.” Science 28: 49–50. Hardy, J, and D Allsop. 1991. “Amyloid Deposition as the Central Event in the Aetiology of
Alzheimer’s Disease.” Trends in Pharmacological Sciences 12 (10): 383–88. Hardy, John A, and Gerald A Higgins. 1992. “Alzheimer’ S Disease : The Amyloid Cascade
Hypothesis.” Science (New York, N.Y.) 256 (April): 3–5. Hardy, John, and Dennis J Selkoe. 2002. “The Amyloid Hypothesis of Alzheimer’s Disease:
Progress and Problems on the Road to Therapeutics.” Science (New York, N.Y.) 297 (5580): 353–56. doi:10.1126/science.1072994.
Harel, A, F Wu, MP Mattson, CM Morris, and PJ Yao. 2008. “Evidence for CALM in Directing VAMP2 Trafficking.” Traffic 9: 417–29.
Harold, R Abraham, P Hollingworth, R Sims, A Gerrish, and ML Hamshere. 2009. “Genome-Wide Association Study Identifies Variants at CLU and PICALM Associated with Alzheimer’s Disease.” Nat Genet 41: 1088–93.
Hartley, D. M., D. M. Walsh, C. P. Ye, T. Diehl, S. Vasquez, P. M. Vassilev, D. B. Teplow, and D.J. Selkoe. 1999. “Protofibrillar Intermediates of Amyloid Beta Protein Induce Acute Electrophysiological Changes and Progressive Neurotoxicity in Cortical Neurons.” Journal of Neuroscience 19 (20): 8876–84.
Heneka, Michael T., Monica J. Carson, Joseph El Khoury, Gary E. Landreth, Frederic Brosseron, Douglas L. Feinstein, Andreas H. Jacobs, et al. 2015. “Neuroinflammation in Alzheimer’s Disease.” The Lancet Neurology 14 (4): 388–405. doi:10.1016/S1474-4422(15)70016-5.
Holsinger, Kent E, and Bruce S Weir. 2009. “Genetics in Geographically Structured Populations : Defining , Estimating and Interpreting F ST” 10 (SePTeMBer). doi:10.1038/nrg2611.
Holtzman, David M, John C Morris, and Alison M Goate. 2011. “Alzheimer ’ S Disease : The Challenge of the Second Century.” Science Translational Medicine 3 (77): 1–35. doi:10.1126/scitranslmed.3002369.Alzheimer.
Hosking, L., S. Lumsden, K. Lewis, A. Yeo, L.McCarthy, A. Bansal, J. Riley, I. Purvis, and C. Xu. 2004. “Detection of Genotyping Errors by Hardy-Weinberg Equilibrium Testing.” Eur. J. Hum. Genet. 12: 395’399.
Hsia, Albert Y., Eliezer Masliah, Lisa McConlogue, Gui-Qiu Yu, Gwen Tatsuno, Kang Hu, Dora Kholodenko, Robert C. Malenka, Roger A. Nicoll, and Lennart Mucke. 1999. “Plaque-Independent Disruption of Neural Circuits in Alzheimer’s.” Proceedings of the National Academy of Sciences of the United States of America 96 (March): 3228–33.
Huang Y, Weisgraber KH, Mucke L, and Mahley RW. 2003. “Apolipoprotein E: Diversity of Cellular Origins, Structural and Biophysical Properties, and Effects in Alzheimer’s Disease.” Journal of Molecular Neuroscience 23 (189).
Iriarte, Maite Mendioroz, and Laura Pulido Fontes. 2014. “Neuroepigenética: Metilación Del ADN En La Enfermedad de Alzheimer Y Otras Demencias.” Medicina Clínica (Barc) 144: 457–64. doi:10.1016/j.medcli.2014.03.023.
Jun, Gyungah, Carla A Ibrahim-Verbaaas, Maria Vronskaya, and Jean-Charles Lambert. 2016.
Informe de Pasantía de Grado – Licenciatura en Biología Humana Melanie Nuesch
45
“A Novel Alzheimer Disease Locus Located near the Gene Encoding Tau Protein.” Molecular Psychiatry 21 (1): 108–17. doi:10.1038/mp.2015.23.A.
Jun, Gyungah, Badri N Vardarajan, Jacqueline Buros, Chang-en Yu, Michele V Hawk, Beth A Dombroski, Paul K Crane, et al. 2012. “Comprehensive Search for Alzheimer Disease Susceptibility Loci in the APOE Region.” Arch. Neurol. 69 (10): 1270–79. doi:10.1001/archneurol.2012.2052.Comprehensive.
Karch, Celeste M, and Alison M Goate. 2015. “Alzheimer’s Disease Risk Genes and Mechanisms of Disease Pathogenesis.” Biological Psychiatry 77 (1): 45–51. doi:10.1016/j.pestbp.2011.02.012.Investigations.
Karran, Eric, and Bart De Strooper. 2016. “The Amyloid Cascade Hypothesis: Are We Poised for Success or Failure?” Journal of Neurochemistry, 1–16. doi:10.1111/jnc.13632.
Kittles, Rick A, and Kenneth M Weiss. 2003. “RACE , ANCESTRY , AND GENES : Implications for Defining Disease Risk,” 33–67. doi:10.1146/annurev.genom.4.070802.110356.
Klein, Hans Ulrich, and Philip L. De Jager. 2016. “Uncovering the Role of the Methylome in Dementia and Neurodegeneration.” Trends in Molecular Medicine 22 (8). Elsevier Ltd: 687–700. doi:10.1016/j.molmed.2016.06.008.
Lambert, J-C, S Heath, G Even, D Campion, K Sleegers, and M Hiltunen. 2009. “Genome-Wide Association Study Identifies Variants at CLU and CR1 Associated with Alzheimer’s Disease.” Nat Genet 41: 1094–99.
Lambert, JC, CA Ibrahim-Verbaas, D Harold, AC Naj, R Sims, and C Bellenguez. 2013. “Meta-Analysis of 74,046 Individuals Identifies 11 New Susceptibility Loci for Alzheimer’s Disease.” Nature Genetics 45 (12): 1452–58. doi:10.1038/ng.2802.Meta-analysis.
Lambert, M. P., A. K. Barlow, B. A. Chromy, C. Edwards, R. Freed, M. Liosatos, T. E. Morgan, et al. 1998. “Diffusible , Nonfibrillar Ligands Derived from Amyloid Beta 1 – 42 Are Potent Central Nervous System Neurotoxins.” Proceedings of the National Academy of Sciences of the United States of America 95 (May): 6448–53.
Landgrave-Gómez, Jorge, Octavio Mercado-Gómez, and Rosalinda Guevara-Guzmán. 2015. “Epigenetic Mechanisms in Neurological and Neurodegenerative Diseases.” Frontiers in Cellular Neuroscience 9 (February): 1–11. doi:10.3389/fncel.2015.00058.
Lessa, E. 2004. “Guía de Estudio de Genética de Poblaciones.” Montevideo, Uruguay. Li, Jun Z, Devin M Absher, Hua Tang, Audrey M Southwick, Amanda M Casto, Sohini
Ramachandran, Howard M Cann, et al. 2008. “Worldwide Human Relationships Inferred from Genome-Wide Patterns of Variation.” 25 (February): 1100–1104.
Liu, Guiyou, Haiyang Wang, and Jiafeng Liu. 2013. “The CLU Gene rs11136000 Variant Is Significantly Associated with Alzheimer ’ S Disease in Caucasian and Asian Populations.” Neuromol Med. doi:10.1007/s12017-013-8250-1.
Lu, Dongsheng, and Shuhua Xu. 2013. “Principal Component Analysis Reveals the 1000 Genomes Project Does Not Sufficiently Cover the Human Genetic Diversity in Asia” 4 (July): 1–9. doi:10.3389/fgene.2013.00127.
Lue, L F, L Brachova, H Civin, and J Rogers. 1996. “Inflammation, A Beta Deposition, and Neurofibrillary Tangle Formation as Correlates of Alzheimer’s Disease Neurodegeneration.” Journal of Neuropathology and Experimental Neurology 55 (10): 1083–88.
Masters, C.L., G Simms, N.A. Weinman, G Multhaup, B McDonald, and K Beyreuther. 1985. “Amyloid Plaque Core Protein in Alzheimer Disease and Down Syndrome.” Proceedings of the National Academy of Sciences of the United States of America 82: 4245–49.
Informe de Pasantía de Grado – Licenciatura en Biología Humana Melanie Nuesch
46
Mucke, Masliah, Yu, Mallory, Rockenstein, Tatsuno, Hu, Kholodenko, Johnson-wood, and Mcconlogue. 2000. “High-Level Neuronal Expression of Amyloid Beta 1 – 42 in Wild-Type Human Amyloid Protein Precursor Transgenic Mice : Synaptotoxicity without Plaque Formation.” Journal of Neuroscience 20 (11): 4050–58.
Nickerson, Deborah A., Scott L. Taylor, Stephanie M. Fullerton, Kenneth M. Weiss, Andrew G. Clark, Jari H. Stengård, Veikko Salomaa, Eric Boerwinkle, and Charles F. Sing. 2000. “Sequence Diversity and Large-Scale Typing of SNPs in the Human Apolipoprotein E Gene.” Genome Research 10 (10): 1532–45. doi:10.1101/gr.146900.
Parolo, Lisa, Gentilini, Di Blasio, Barlera, Nicolis, Boncoraglio, Parati, and Bione. 2015. “Characterization of the Biological Processes Shaping the Genetic Structure of the Italian Population.” BMC Genetics. doi:10.1186/s12863-015-0293-x.
Patterson, Nick, Alkes L Price, and David Reich. 2006. “Population Structure and Eigenanalysis” 2 (12). doi:10.1371/journal.pgen.0020190.
Pearson, Christopher E, Kerrie Nichol Edamura, and John D Cleary. 2005. “REPEAT INSTABILITY : MECHANISMS OF DYNAMIC MUTATIONS” 6: 729–42. doi:10.1038/nrg1689.
Pevsner, J. 2015. Bioinformatics and Functional Genomics. Third. Baltimore, Maryland, USA: Wiley Blackwell.
Pi Hugarte, Renzo. 2001. “Elementos de La Cultura Italiana En La Cultura Del Uruguay.” Prince, Martin, Anders Wimo, Maëlenn Guerchet, Ali Gemma-Claire, Yu-Tzu Wu, and
Matthew Prina. 2015. “World Alzheimer Report 2015: The Global Impact of Dementia - An Analysis of Prevalence, Incidence, Cost and Trends.” Alzheimer’s Disease International, 84. doi:10.1111/j.0963-7214.2004.00293.x.
Purcell, Shaun. 2010. “PLINK (1.07) Documentation.” Rasool, C G, Clive N Svendsen, and Dennis J Selkoe. 1986. “Neurofibrillary Degeneration of
Cholinergic and Noncholinergc Neurons of the Basal Forebrain in -Alzheimer ’ S Disease.” Annals of Neurology, no. 1.
Ropper, Allan H., Martin A. Samuels, and Joshua P. Klein. 2014. Adams and Victor’s Principles of Neurology. Canadian Medical Association Journal. Tenth edit. Mc Graw Hill Education.
Schellenberg, GD, I D’Souza, and P Poorkaj. 2000. “The Genetics of Alzheimer’s Disease.” Current Psychiatry Reports 2 (158).
Schuebel, Kornel. 2016. “Making Sense of Epigenetics.” IJNP. Scotter, Emma L., Han Jou Chen, and Christopher E. Shaw. 2015. “TDP-43 Proteinopathy and
ALS: Insights into Disease Mechanisms and Therapeutic Targets.” Neurotherapeutics 12 (2): 352–63. doi:10.1007/s13311-015-0338-x.
Selkoe, Dennis J. 1991. “The Molecular Pathology of Alzheimer’s Disease.” Neuron 6 (4): 487–98.
Sharp, Andrew J, Devin P Locke, Sean D Mcgrath, Ze Cheng, Jeffrey A Bailey, Rhea U Vallente, Lisa M Pertz, et al. 2005. “Segmental Duplications and Copy-Number Variation in the Human Genome,” 78–88.
Sherva, Richard, and Lindsay A Farrer. 2012. “NIH Public Access.” Psychiatry: Interpersonal and Biological Processes 13 (2): 138–46. doi:10.1007/s11920-011-0184-4.Power.
Shuai, Ping, Yuping Liu, Wenxue Lu, Qiaolan Liu, Tinxin Li, and Bo Gong. 2015. “Genetic Associations of CLU rs9331888 Polymorphism with Alzheimer ’ S Disease : A Meta-Analysis.” Neuroscience Letters 591. Elsevier Ireland Ltd: 160–65.
Informe de Pasantía de Grado – Licenciatura en Biología Humana Melanie Nuesch
47
doi:10.1016/j.neulet.2015.02.040. Sieben, Anne, Tim Van Langenhove, Sebastiaan Engelborghs, Jean Jacques Martin, Paul
Boon, Patrick Cras, Peter Paul De Deyn, Patrick Santens, Christine Van Broeckhoven, and Marc Cruts. 2012. “The Genetics and Neuropathology of Frontotemporal Lobar Degeneration.” Acta Neuropathologica 124 (3): 353–72. doi:10.1007/s00401-012-1029-x.
Sisodia, S., and P .H. St George-Hyslop. 2002. “γ -Secretase , Notch , Aβ and Alzheimer’s Disease: Where Do the Presenilins Fit in ?” Nature Neuroscience 3. doi:10.1038/nrn785.
Smith, C. A. B. 1986. “Chi-Squared Tests with Small Numbers.” Ann. Hum. Genet., no. 50: 163–67.
Spiess, Eliot B. 1989. Genes In Populations. Second. Wiley. Stefanis, Leonidas. 2012. “Alpha-Synuclein in Parkinson’s Disease.” Cold Spring Harbor
Perspectives in Medicine 2 (2): 1–23. doi:10.1101/cshperspect.a009399. The World Bank Group. 2014. “Life Expectancy at Birth, Total (Years). Web Page Data.”
http://data.worldbank.org/indicator/SP.DYN.LE00.IN. Tian, Y, JC Chang, EY Fan, M Flajolet, and P Greengard. 2013. “Adaptor Complex
AP2/PICALM, through Interaction with LC3, Targets Alzheimer’s APP CTF for Terminal Degradation via Autophagy.” Natl Acad Sci U S A 110: 17071–76.
Treusch, S, S Hamamichi, JL Goodman, KE Matlack, CY Chung, V Baru, JM Shulman, et al. 2011. “Functional Links between Abeta Toxicity, Endocytic Trafficking, and Alzheimer’s Disease Risk Factors in Yeast.” Science. doi:10.1126/science.1213210.
URUGENOMES. 2017. “Official Web Page.” Accessed April 11. http://www.urugenomes.org. Verghese, Philip B, Joseph M Castellano, and David M Holtzman. 2011. “Roles of
Apolipoprotein E in Alzheimer’s Disease and Other Neurological Disorders.” Lancet Neurology 10 (3): 241–52. doi:10.1016/S1474-4422(10)70325-2.Roles.
Wakefield, J. 2010. “Bayesian Methods for Examining Hardy-Weinberg Equilibrium.” Biometrics 66: 257–65.
Weinberg, W. 1908. “On the Demonstration of Heredity in Man.” In: Boyer SH, Trans (1963) Papers on Human Genetics. Prentice Hall, Englewood Cliffs, NJ.
Weir, B. S., and C. C. Cockerham. 1984. “Estimating F-Statistics for the Analysis of Population Structure B . S . Weir and C . Clark Cockerham.” Society for the Study of Evolution Stable 38 (6): 1358–70. ttp://www.jstor.org/stable/2408641.
Whitehouse, P J, D L Price, R G Struble, A W Clark, J T Coyle, and M R DeLong. 1981. “Alzheimer’s Disease and Senile Dementia: Loss of Neurons in the Basal Forebrain.” Science (New York, N.Y.) 215 (March).
Wigginton, JE, DJ Cutler, and GR Abecasis. 2005. “A Note on Exact Tests of Hardy-Weinberg Equilibrium.” The American Journal of Human Genetics 76: 887–93.
Willing, Eva-maria, Christine Dreyer, and Cock Van Oosterhout. 2012. “Estimates of Genetic Differentiation Measured by F ST Do Not Necessarily Require Large Sample Sizes When Using Many SNP Markers” 7 (8): 1–7. doi:10.1371/journal.pone.0042649.
Wilson, Robert S., Sukriti Nag, Patricia A. Boyle, Loren P. Hizel, Lei Yu, Aron S. Buchman, Julie A. Schneider, and David A. Bennett. 2013. “Neural Reserve, Neuronal Density in the Locus Ceruleus, and Cognitive Decline.” Neurology 80 (13): 1202–8. doi:10.1212/WNL.0b013e3182897103.
Wood, Nicholas. 2012. Neurogenetics: A Guide For Clinicians. Edited by Nicholas Wood. First Edit. Cambridge.
Informe de Pasantía de Grado – Licenciatura en Biología Humana Melanie Nuesch
48
Xiao, Q, SC Gil, P Yan, Y Wang, S Han, E Gonzales, R Perez, JR Cirrito, and JM Lee. 2012. “Role of Phosphatidylinositol Clathrin Assembly Lymphoid-Myeloid Leukemia (PICALM) in Intracellular Amyloid Precursor Protein (APP) Processing and Amyloid Plaque Pathogenesis.” J Biol Chem 287 (25): 21279–89. doi:10.1074/jbc.M111.338376.
Yu, Jin-tai, Lu Li, Qi-xiu Zhu, Qun Zhang, Wei Zhang, Zhong-chen Wu, Jun Guan, and Lan Tan. 2010. “Implication of CLU Gene Polymorphisms in Chinese Patients with Alzheimer ’ S Disease” 411: 1516–19. doi:10.1016/j.cca.2010.06.013.
ANEXO
Figura 20. Mapa del mundo coloreado respecto a las regiones definidas por el GBD (Global Burden of Diseases, Injuries, and Risk Factors Study). El mismo es el esfuerzo científico internacioal más grande y detallado para cuantificar tendencias en salud y enfermedad a nivel mundial. Estas
Informe de Pasantía de Grado – Licenciatura en Biología Humana Melanie Nuesch
49
regiones fueron utilizadas en el trabajo de Prince et al. 2015, citado en la introducción. Imagen extraída de http://www.healthdata.org/gbd/faq.
CÓDIGO DE ESTUDIO DE ESTRUCTURA POBLACIONAL
Para las primeras gráficas con los marcadores de LOAD: los SNPs se extrajeron de la
siguiente forma, utilizando la lista ¨loadsnps42panelfinal.txt¨:
plink --vcf 1000genomasconcat.vcf.gz --extract loadsnps42panelfinal.txt --make-bed --out
1000gen42final
plink --vcf afro_alzheimer.vcf --extract loadsnps42panelfinal.txt --make-bed --out
afrourus42final
plink --vcf charruas_alzheimer3.vcf.gz --extract loadsnps42panelfinal.txt --make-bed --out
char42final
plink --vcf 1000gen42final.vcf --alleleACGT --recode vcf --out 1000gen42finalACGT
plink --vcf afrourus42final.vcf --alleleACGT --recode vcf --out afrourus42finalACGT
plink --vcf char42final.vcf --alleleACGT --recode vcf --out char42finalACGT
Luego de corregir las incompatibilidades entre los archivos y eliminar el SNP que figuraba
como deleción en los Afrouruguayos, se unificaron los tres archivos con vcftools, dando
como resultado un solo VCF con 2524 individuos.
vcf-merge 1000gen41.vcf.gz char41.vcf.gz afrourus41.vcf.gz > todos41.vcf
El análisis de componente principal se realizó en Plink, y se visualizó en R.
plink --vcf todos41.vcf --pca --out todos41
#Set working directory
setwd('/Users/melnuesch/Documents/ftp.1000genomes.ebi.ac.uk/vol1/ftp/release/20130502')
#Read in the data - 2524 individuos (1000gen, afrourus e nativos uruguayos)
mergePCs<-as.data.frame(read.table('todos41.eigenvec'))
#Ingreso sample ID and population, para las referencias.
indpop<-as.data.frame(read.table('indpop2.txt'))
indsuperpop<-as.data.frame(read.table('indsuperpop2.txt'))
#les elimino las primeras dos columnas a ambos
indpop$V1<- NULL
indpop$V2<- NULL
indsuperpop$V1<- NULL
indsuperpop$V2<- NULL
milgen<-cbind(indpop,indsuperpop)
amr<-rep("AMR",20) #para agregarle las referencias
charr<-rep("CHAR",10) #los nativos uruguayos son los primeros 10 y los afros los segundos
afrouru<-rep("AFROURU",10)
ururef1<-c(charr,afrouru)
Informe de Pasantía de Grado – Licenciatura en Biología Humana Melanie Nuesch
50
ururef<-cbind(ururef1,amr)
colnames(milgen)<-c("Pop","Superpop")
colnames(ururef)<-colnames(milgen)
todos<-rbind(ururef,milgen)
#Hago un data frame mas comodo con los primeros 4 componentes, los IDs y las referencias
PCs<-
cbind(mergePCs$V1,mergePCs$V2,mergePCs$V3,mergePCs$V4,mergePCs$V5,mergePCs$
V6,todos)
colnames(PCs)<-c("ID1","ID2","PC1","PC2","PC3","PC4","Pop","Superpop")
Poblaciones<-PCs$Pop
Superpoblaciones1<-PCs$Superpop
#ahora grafico
library(ggplot2)
require(ggplot2)
library(RColorBrewer)
population<-qplot(PCs$PC1, PCs$PC2, col=Poblaciones, main = NULL ,xlab= NULL,
ylab=NULL, size=I(3))
population + theme(legend.position="bottom", legend.title = element_text(family= "System
Font", color = "grey12")) +
labs(x="Componente Principal 1",y="Componente Principal 2") +
theme(axis.title = element_text(family = "System Font", colour = "grey34", size=15))
superpopulation<-qplot(PCs$PC1,PCs$PC2, col=Superpoblaciones1, main = NULL ,xlab=
NULL, ylab=NULL, size=I(2.5))
superpopulation + theme(legend.position="bottom", legend.title = element_text(family=
"System Font", color = "grey12")) +
labs(x="Componente Principal 1",y="Componente Principal 2") +
theme(axis.title = element_text(family = "System Font", colour = "grey34", size=15))
#para pintar a los 20 uruguayos entre las superpoblaciones
uru<-rep("URU",20)
ururef2<-cbind(uru,uru)
colnames(ururef2)<-colnames(milgen)
pintourus<-rbind(ururef2,milgen)
PCs2<-
as.data.frame(cbind(mergePCs$V1,mergePCs$V2,mergePCs$V3,mergePCs$V4,mergePCs$
V5,mergePCs$V6,pintourus))
colnames(PCs2)<-c("ID1","ID2","PC1","PC2","PC3","PC4","Pop","Superpop")
PCsurus2<-PCs2[1:20,1:8]
PCnonurus2<-PCs2[21:2514,1:8]
newPC2<-as.data.frame(rbind(PCnonurus2,PCsurus2))
Superpoblaciones2<-newPC2$Superpop
#nueva forma de graficar, ggplot
library(extrafont)
mypalette=c("black","salmon","springgreen","yellow","cornflowerblue","plum1")
ggplot(newPC2, aes(PC1, PC2, colour = Superpoblaciones2)) +
geom_point(size = 2.5) +
Informe de Pasantía de Grado – Licenciatura en Biología Humana Melanie Nuesch
51
scale_color_manual(values = mypalette) +
theme(legend.position="bottom", legend.title = element_text(family= "System Font", color
= "grey12")) +
labs(x="Componente Principal 1",y="Componente Principal 2") +
theme(axis.title = element_text(family = "System Font", colour = "grey34", size=15))
#3D plot de este ultimo grafico
library(scatterplot3d)
pcolors <- unsplit(PCs2$Superpop, value = colors())
newPC3d<-cbind(PCs2,pcolors)
newPC3d$pcolors<-as.character(newPC3d$pcolors) #esto de as.character soluciona el
crashing del factor level
newPC3d$pcolors <- replace(newPC3d$pcolors, newPC3d$pcolors=="antiquewhite2",
"cornflowerblue") #euros
newPC3d$pcolors <- replace(newPC3d$pcolors, newPC3d$pcolors=="antiquewhite1",
"yellow") #east asians
newPC3d$pcolors <- replace(newPC3d$pcolors, newPC3d$pcolors=="antiquewhite",
"springgreen") #amerindians
newPC3d$pcolors <- replace(newPC3d$pcolors, newPC3d$pcolors=="aliceblue", "salmon")
#africans
newPC3d$pcolors <- replace(newPC3d$pcolors, newPC3d$pcolors=="antiquewhite3",
"plum1") #south asians
newPC3d$pcolors <- replace(newPC3d$pcolors, newPC3d$pcolors=="white", "black") #urus
with(newPC3d, {scatterplot3d(PC1, PC2, PC3, color = newPC3d$pcolors, pch=19,
xlab='Componente Principal 1',ylab = 'Componente Principal 2',zlab = 'Componente
Principal 3')})
Para los análisis con 77249819 marcadores: PCA en Plink, y posterior visualización en R:
plink --vcf 1000gen.vcf --pca --out 1000genpca
#PCA de los 1000genomas con todas sus variantes (77249819).
#Set working directory
setwd('/Users/melnuesch/Documents/ftp.1000genomes.ebi.ac.uk/vol1/ftp/release/20130502')
#Read in the data - 2514 individuos
milgenPC<-as.data.frame(read.table('1000genpca.eigenvec'))
#Ingreso sample ID and population, para las referencias.
indpop<-as.data.frame(read.table('indpop2.txt'))
indsuperpop<-as.data.frame(read.table('indsuperpop2.txt'))
#les elimino las primeras dos columnas a ambos
indpop$V1<- NULL
indpop$V2<- NULL
indsuperpop$V1<- NULL
indsuperpop$V2<- NULL
Informe de Pasantía de Grado – Licenciatura en Biología Humana Melanie Nuesch
52
PCs1y2<-
cbind(milgenPC$V1,milgenPC$V2,milgenPC$V3,milgenPC$V4,milgenPC$V5,milgenPC$
V6,indpop,indsuperpop)
colnames(PCs1y2)<-c("ID1","ID2","PC1","PC2","PC3","PC4","Pop","Superpop")
Poblaciones<-PCs1y2$Pop
Superpoblaciones<-PCs1y2$Superpop
#pintando según superpoblaciones
library(ggplot2)
require(ggplot2)
library(RColorBrewer)
library(extrafont)
library(scatterplot3d)
mypalette=c("salmon","springgreen","yellow","cornflowerblue","plum1")
ggplot(PCs1y2, aes(PC1, PC2, colour = Superpoblaciones)) +
geom_point(size = 2.5) +
scale_color_manual(values = mypalette) +
theme(legend.position="bottom", legend.title = element_text(family= "System Font", color
= "grey12")) + labs(x="Componente Principal 1",y="Componente Principal 2") +
theme(axis.title = element_text(family = "System Font", colour = "grey34", size=15))
#pintando según poblaciones
mypalette2=c("black", "yellow",
"salmon","springgreen","skyblue","cornflowerblue","plum1","violetred","royalblue2","grey",
"tomato","wheat2","seagreen4","sienna2","papayawhip","orchid3","palegoldenrod","navyblu
e","olivedrab","orange3","grey59","green","blue","firebrick4","darkslategray4","darkorange3
","darkcyan")
ggplot(PCs1y2, aes(PC1, PC2, colour = Poblaciones)) +
geom_point(size = 2.5) +
scale_color_manual(values = mypalette2) + theme(legend.position="bottom", legend.title =
element_text(family= "System Font", color = "grey12")) +
labs(x="Componente Principal 1",y="Componente Principal 2") +
theme(axis.title = element_text(family = "System Font", colour = "grey34", size=15))
#scatterplot para hacer grafico 3D de superpoblaciones
pcolors <- unsplit(PCs1y2$Superpop, value = colors())
newPC3d<-cbind(PCs1y2,pcolors)
newPC3d$pcolors<-as.character(newPC3d$pcolors) #esto de as.character soluciona el
crashing del factor level
newPC3d$pcolors <- replace(newPC3d$pcolors, newPC3d$pcolors=="antiquewhite1",
"cornflowerblue") #euros
newPC3d$pcolors <- replace(newPC3d$pcolors, newPC3d$pcolors=="antiquewhite",
"yellow") #east asians
newPC3d$pcolors <- replace(newPC3d$pcolors, newPC3d$pcolors=="aliceblue",
"springgreen") #amerindians
newPC3d$pcolors <- replace(newPC3d$pcolors, newPC3d$pcolors=="white", "salmon")
#africans
Informe de Pasantía de Grado – Licenciatura en Biología Humana Melanie Nuesch
53
newPC3d$pcolors <- replace(newPC3d$pcolors, newPC3d$pcolors=="antiquewhite2",
"plum1") #south asians
with(PCs1y2, {scatterplot3d(PC1, PC2, PC3, color = newPC3d$pcolors, pch=19,
xlab='Componente Principal 1',ylab = 'Componente Principal 2',zlab = 'Componente
Principal 3')})
CÓDIGO DE ANÁLISIS DE EQUILIBRIO DE HARDY-WEINBERG
Primero se generaron, a partir del archivo que reúne a todos los 2524 individuos
(todos41.vcf), archivos con la información de cada población por separado, utilizando --keep
en Plink. A continuación, se ilustra una población a modo de ejemplo, pero se hizo con todas.
plink --vcf todos41.vcf --double-id --keep indYRI.txt --recode --out HWYRI
Y luego, en cada población se testeó para equilibrio HW con --hardy.
plink --hardy midp --file HWYRI --out hwYRI
Ambas líneas se aplicaron una vez para cada población. Luego en R se tomaron los p valores
significativos de cada población y se concatenaron formando la tabla que está en Resultados
(Tabla 3).
# Script de R para importar los archivos HW de todas las pop y filtrar por p valor menor a
0.05
setwd('/Users/melnuesch/Documents/ftp.1000genomes.ebi.ac.uk/vol1/ftp/release/20130502')
hwACB<-read.table('hwACB.hwe')
hwASW<-read.table('hwASW.hwe')
hwBEB<-read.table('hwBEB.hwe')
hwCDX<-read.table('hwCDX.hwe')
hwCEU<-read.table('hwCEU.hwe')
hwCHB<-read.table('hwCHB.hwe')
hwCHS<-read.table('hwCHS.hwe')
hwCLM<-read.table('hwCLM.hwe')
hwESN<-read.table('hwESN.hwe')
hwFIN<-read.table('hwFIN.hwe')
hwGBR<-read.table('hwGBR.hwe')
hwGIH<-read.table('hwGIH.hwe')
hwGWD<-read.table('hwGWD.hwe')
hwIBS<-read.table('hwIBS.hwe')
hwITU<-read.table('hwITU.hwe')
hwJPT<-read.table('hwJPT.hwe')
hwKHV<-read.table('hwKHV.hwe')
hwLWK<-read.table('hwLWK.hwe')
hwMSL<-read.table('hwMSL.hwe')
hwMXL<-read.table('hwMXL.hwe')
Informe de Pasantía de Grado – Licenciatura en Biología Humana Melanie Nuesch
54
hwPEL<-read.table('hwPEL.hwe')
hwPJL<-read.table('hwPJL.hwe')
hwPUR<-read.table('hwPUR.hwe')
hwSTU<-read.table('hwSTU.hwe')
hwTSI<-read.table('hwTSI.hwe')
hwCHAR<-read.table('hwCHAR.hwe')
hwAFROURU<-read.table('hwAFROURU.hwe')
hwYRI<-read.table('hwYRI.hwe')
#Subseteo segun p valor menor a 0.05
hwACB2<-subset(hwACB,as.character(V9)<=0.05)
hwAFROURU2<-subset(hwAFROURU,as.character(V9)<=0.05)
hwASW2<-subset(hwASW,as.character(V9)<=0.05)
hwBEB2<-subset(hwBEB,as.character(V9)<=0.05) #no tiene
hwCDX2<-subset(hwCDX,as.character(V9)<=0.05)
hwCEU2<-subset(hwCEU,as.character(V9)<=0.05)
hwCHB2<-subset(hwCHB,as.character(V9)<=0.05) #no tiene
hwCHS2<-subset(hwCHS,as.character(V9)<=0.05) #no tiene
hwCLM2<-subset(hwCLM,as.character(V9)<=0.05)
hwESN2<-subset(hwESN,as.character(V9)<=0.05) #no tiene
hwFIN2<-subset(hwFIN,as.character(V9)<=0.05)
hwGBR2<-subset(hwGBR,as.character(V9)<=0.05)
hwGIH2<-subset(hwGIH,as.character(V9)<=0.05)
hwGWD2<-subset(hwGWD,as.character(V9)<=0.05) #no tiene
hwIBS2<-subset(hwIBS,as.character(V9)<=0.05)
hwITU2<-subset(hwITU,as.character(V9)<=0.05)
hwJPT2<-subset(hwJPT,as.character(V9)<=0.05) #no tiene
hwKHV2<-subset(hwKHV,as.character(V9)<=0.05) #no tiene
hwLWK2<-subset(hwLWK,as.character(V9)<=0.05)
hwMSL2<-subset(hwMSL,as.character(V9)<=0.05)
hwMXL2<-subset(hwMXL,as.character(V9)<=0.05)
hwPEL2<-subset(hwPEL,as.character(V9)<=0.05)
hwPJL2<-subset(hwPJL,as.character(V9)<=0.05)
hwPUR2<-subset(hwPUR,as.character(V9)<=0.05)
hwSTU2<-subset(hwSTU,as.character(V9)<=0.05)
hwTSI2<-subset(hwTSI,as.character(V9)<=0.05)
hwCHAR2<-subset(hwCHAR,as.character(V9)<=0.05)
hwYRI2<-subset(hwYRI,as.character(V9)<=0.05)
#les agrego tag de la poblacion y superpop
hwACB3<-cbind(hwACB2,rep("ACB",4),rep("AFR",4))
hwAFROURU3<-cbind(hwAFROURU2,rep("AFROURU",2),rep("URU",2))
hwASW3<-cbind(hwASW2,rep("ASW",1),rep("AFR",1))
hwCDX3<-cbind(hwCDX2,rep("CDX",1),rep("EAS",1))
hwCEU3<-cbind(hwCEU2,rep("CEU",6),rep("EUR",6))
hwCHAR3<-cbind(hwCHAR2,rep("CHAR",1),rep("URU",1))
hwCLM3<-cbind(hwCLM2,rep("CLM",5),rep("AMR",5))
hwFIN3<-cbind(hwFIN2,rep("FIN",3),rep("EUR",3))
Informe de Pasantía de Grado – Licenciatura en Biología Humana Melanie Nuesch
55
hwGBR3<-cbind(hwGBR2,rep("GBR",6),rep("EUR",6))
hwGIH3<-cbind(hwGIH2,rep("GIH",4),rep("SAS",4))
hwIBS3<-cbind(hwIBS2,rep("IBS",5),rep("EUR",5))
hwITU3<-cbind(hwITU2,rep("ITU",3),rep("SAS",3))
hwLWK3<-cbind(hwLWK2,rep("LWK",2),rep("AFR",2))
hwMSL3<-cbind(hwMSL2,rep("MSL",2),rep("AFR",2))
hwMXL3<-cbind(hwMXL2,rep("MXL",2),rep("AMR",2))
hwPEL3<-cbind(hwPEL2,rep("PEL",1),rep("AMR",1))
hwPJL3<-cbind(hwPEL2,rep("PJL",1),rep("SAS",1))
hwPUR3<-cbind(hwPUR2,rep("PUR",6),rep("AMR",6))
hwSTU3<-cbind(hwSTU2,rep("STU",2),rep("SAS",2))
hwTSI3<-cbind(hwTSI2,rep("TSI",3),rep("EUR",3))
hwYRI3<-cbind(hwYRI2,rep("YRI",1),rep("AFR",1))
colnames(hwACB3)<-c("col1","col2","col3","col4","col5","c6","c7","c8","c9","c10")
colnames(hwAFROURU3)=colnames(hwACB3)
colnames(hwASW3)=colnames(hwACB3)
colnames(hwCDX3)=colnames(hwACB3)
colnames(hwCEU3)=colnames(hwACB3)
colnames(hwCHAR3)=colnames(hwCEU3)
colnames(hwCLM3)=colnames(hwACB3)
colnames(hwFIN3)=colnames(hwACB3)
colnames(hwGBR3)=colnames(hwACB3)
colnames(hwGIH3)=colnames(hwACB3)
colnames(hwIBS3)=colnames(hwACB3)
colnames(hwITU3)=colnames(hwACB3)
colnames(hwLWK3)=colnames(hwACB3)
colnames(hwMSL3)=colnames(hwACB3)
colnames(hwMXL3)=colnames(hwACB3)
colnames(hwPEL3)=colnames(hwACB3)
colnames(hwPJL3)=colnames(hwACB3)
colnames(hwPUR3)=colnames(hwACB3)
colnames(hwSTU3)=colnames(hwACB3)
colnames(hwTSI3)=colnames(hwACB3)
colnames(hwYRI3)=colnames(hwACB3)
#los concateno en un solo archivo
todos<-
rbind(hwACB3,hwAFROURU3,hwASW3,hwCDX3,hwCEU3,hwCHAR3,hwCLM3,hwFIN
3,hwGBR3,hwGIH3,hwIBS3,hwITU3,hwLWK3,hwMSL3,hwMXL3,hwPEL3,hwPJL3,hwP
UR3,hwSTU3,hwTSI3,hwYRI3)
#luego exportar el archive para insertar la table en el documento de la tesis.
write.table(todos, file='HW41snps.txt', sep="\t", quote=FALSE, col.names = FALSE,
row.names = FALSE)
Cromosoma SNP ID Significancia
Clínica P valor Población Superpoblación
14 rs10498633 - 0.00711 PEL AMR
Informe de Pasantía de Grado – Licenciatura en Biología Humana Melanie Nuesch
56
14 rs10498633 - 0.00711 PJL SAS
11 rs10792832 - 0.02322 AFROURU URU
11 rs10838725 - 0.02976 CLM AMR
11 rs10838725 - 0.003326 GBR EUR
6 rs10948363 Aumenta 0.0118 ACB AFR
8 rs11136000 Disminuye 0.002458 MSL AFR
5 rs11168036 Ver Tabla 1 0.03411 LWK AFR
17 rs112665297 Ver Tabla 1 0.01362 CEU EUR
17 rs112665297 Ver Tabla 1 0.04403 CLM AMR
17 rs112665297 Ver Tabla 1 0.003476 GBR EUR
17 rs112665297 Ver Tabla 1 0.001207 IBS EUR
17 rs112665297 Ver Tabla 1 0.0277 PUR AMR
7 rs11767557 Disminuye 0.016 GIH SAS
7 rs11771145 Disminuye 0.04328 IBS EUR
19 rs12459419 Disminuye 0.01992 TSI EUR
7 rs1476679 - 0.04003 FIN EUR
7 rs1595014 - 0.04693 GIH SAS
7 rs1595014 - 0.009047 ITU SAS
7 rs1595014 - 0.04328 MXL AMR
17 rs2668626 Ver Tabla 1 0.01362 CEU EUR
17 rs2668626 Ver Tabla 1 0.04935 CLM AMR
17 rs2668626 Ver Tabla 1 0.001567 GBR EUR
17 rs2668626 Ver Tabla 1 0.001207 IBS EUR
17 rs2668626 Ver tabla 1 0.0277 PUR AMR
8 rs28834970 - 0.01184 CDX EAS
8 rs28834970 - 0.03669 ITU SAS
17 rs2942175 Ver Tabla 1 0.01362 CEU EUR
17 rs2942175 Ver Tabla 1 0.04403 CLM AMR
17 rs2942175 Ver Tabla 1 0.001567 GBR EUR
17 rs2942175 Ver Tabla 1 0.001207 IBS EUR
17 rs2942175 Ver Tabla 1 0.0277 PUR AMR
17 rs2942177 Ver Tabla 1 0.01362 CEU EUR
17 rs2942177 Ver Tabla 1 0.04403 CLM AMR
17 rs2942177 Ver Tabla 1 0.001567 GBR EUR
17 rs2942177 Ver Tabla 1 0.001207 IBS EUR
17 rs2942177 Ver Tabla 1 0.0277 PUR AMR
2 rs35349669 - 0.005396 CEU EUR
19 rs3764650 Aumenta 0.02997 GIH SAS
Informe de Pasantía de Grado – Licenciatura en Biología Humana Melanie Nuesch
57
19 rs3764650 Aumenta 0.01214 MSL AFR
19 rs3764650 Aumenta 0.002314 STU SAS
1 rs3818361 Aumenta 0.03331 CEU EUR
1 rs3818361 Aumenta 0.0008172 LWK AFR
11 rs3851179 Disminuye 0.02322 AFROURU URU
19 rs3865444 Disminuye 0.01992 TSI EUR
19 rs4147929 Aumenta 0.04132 ASW AFR
19 rs4147929 Aumenta 0.04691 ITU SAS
19 rs4147929 Aumenta 0.00388 STU SAS
11 rs541458 Disminuye 0.03942 PUR AMR
11 rs670139 Aumenta 0.04101 IND URU
11 rs670139 Aumenta 0.02694 TSI EUR
2 rs6733839 Aumenta 0.02733 GIH SAS
2 rs6733839 Aumenta 0.01702 PUR AMR
8 rs7012010 Disminuye 0.03732 GBR EUR
2 rs7561528 Aumenta 0.04824 ACB AFR
2 rs7561528 Aumenta 0.02506 MXL AMR
6 rs9296559 Aumenta 0.03029 ACB AFR
8 rs9331888 Disminuye 0.02205 FIN EUR
8 rs9331896 Ver Tabla 1 0.03295 YRI AFR
6 rs9349407 Aumenta 0.03029 ACB AFR
11 rs983392 Disminuye 0.02408 FIN EUR
Tabla 5. Los SNPs cuyo p-valor es menor a 0.05. Se realizó en análisis para todos los 41 SNPs en las
28 poblaciones, y solo 61 resultados sobrevivieron el filtrado de pvalor > 0.05 (los 61 que están en la tabla). Para estas variantes se rechaza la hipótesis nula y se considera que no están en equilibrio HW
en la población indicada. Las siglas son aquellas de las poblaciones de la Tabla 2, y IND = nativos uruguayos y AFROURU = afrouruguayos. En este caso, la columna de ¨Significancia Clínica¨ indica a
grandes rasgos si el SNP aumenta o disminuye el riesgo de desarrollar LOAD, ¨-¨ si es desconocido, o ¨Ver Tabla 1¨ si su estatus no se puede resumir tan fácilmente. Aquellos p valores no significativos
no se incluyeron en esta tabla. A partir de esta tabla se realizó la Tabla 3, más resumida.
CÓDIGO DE CÁLCULO DE LAS FRECUENCIAS ALÉLICAS
Usando R, Plink y grep se generaron archivos con los ID de individuos y sus
superpoblaciones, para poder hacer el filtrado y cálculo de frecuencias posteriormente
utilizando Plink.
#a partir del script anterior para generar los archivos para Hardy-Weinberg, se generó este:
freqsids=todos3
freqsids$Pop <- NULL #le saco las pops porque lo hago por superpops nomas
Informe de Pasantía de Grado – Licenciatura en Biología Humana Melanie Nuesch
58
#luego exportar el archivo
write.table(freqsids, file='IDsparafreqs.txt', quote=FALSE, col.names = FALSE, row.names
= FALSE)
grep AFR IDsparafreqs.txt | awk '{print $1,$2}'> indAFR.txt
grep AMR IDsparafreqs.txt | awk '{print $1,$2}'> indAMR.txt
grep EUR IDsparafreqs.txt | awk '{print $1,$2}'> indEUR.txt
grep EAS IDsparafreqs.txt | awk '{print $1,$2}'> indEAS.txt
grep SAS IDsparafreqs.txt | awk '{print $1,$2}'> indSAS.txt
plink --vcf todos41.vcf --double-id --keep indAFR.txt --recode --out todos41AFR
plink --vcf todos41.vcf --double-id --keep indAMR.txt --recode --out todos41AMR
plink --vcf todos41.vcf --double-id --keep indEUR.txt --recode --out todos41EUR
plink --vcf todos41.vcf --double-id --keep indEAS.txt --recode --out todos41EAS
plink --vcf todos41.vcf --double-id --keep indSAS.txt --recode --out todos41SAS
plink --vcf todos41.vcf --double-id --keep indAFROURU.txt --recode --out
todos41AFROURU
plink --vcf todos41.vcf --double-id --keep indCHAR.txt --recode --out todos41IND
plink --freq --file todos41AFR --out freqsAFR
plink --freq --file todos41AMR --out freqsAMR
plink --freq --file todos41EUR --out freqsEUR
plink --freq --file todos41EAS --out freqsEAS
plink --freq --file todos41SAS --out freqsSAS
plink --freq --file todos41AFROURU --out freqsAFROURU
plink --freq --file todos41IND --out freqsIND
plink --freqx --file todos41AFR --out freqsAFR
plink --freqx --file todos41AMR --out freqsAMR
plink --freqx --file todos41EUR --out freqsEUR
plink --freqx --file todos41EAS --out freqsEAS
plink --freqx --file todos41SAS --out freqsSAS
plink --freqx --file todos41AFROURU --out freqsAFROURU
plink --freqx --file todos41IND --out freqsIND
Y ahora, dejo script de R para procesar las tablas (primero) y hacer el chi cuadrado.
#vamos a procesar las tablas de frecuencias y counts para generar una sola
#tabla con todo, y calcular los counts por alelo y agregarlos.
setwd('/Users/melnuesch/Documents/ftp.1000genomes.ebi.ac.uk/vol1/ftp/release/20130502')
#hacer una sola tabla con los datos de frecuencias, de counts y de chisq
frqAFR<-as.data.frame(read.table('freqsAFR.frq'))
frqAMR<-as.data.frame(read.table('freqsAMR.frq'))
frqEUR<-as.data.frame(read.table('freqsEUR.frq'))
frqEAS<-as.data.frame(read.table('freqsEAS.frq'))
frqSAS<-as.data.frame(read.table('freqsSAS.frq'))
frqIND<-as.data.frame(read.table('freqsIND.frq'))
frqAFROURU<-as.data.frame(read.table('freqsAFROURU.frq'))
Informe de Pasantía de Grado – Licenciatura en Biología Humana Melanie Nuesch
59
colnames(frqAFR)<-c("CHR","SNP","A1","A2","MAF","NCHROBS")
colnames(frqAMR)<-colnames(frqAFR)
colnames(frqEUR)<-colnames(frqAFR)
colnames(frqEAS)<-colnames(frqAFR)
colnames(frqSAS)<-colnames(frqAFR)
colnames(frqAFROURU)<-colnames(frqAFR)
colnames(frqIND)<-colnames(frqAFR)
#borro la primera linea de cada data frame porque son los colnames
frqAFR = frqAFR[-1,]
frqAMR = frqAMR[-1,]
frqEUR = frqEUR[-1,]
frqEAS = frqEAS[-1,]
frqSAS = frqSAS[-1,]
frqAFROURU = frqAFROURU[-1,]
frqIND = frqIND[-1,]
#___________________________________________
#HEATMAP
listpop<-c("frqAFR", "frqAMR","frqEUR","frqEAS","frqSAS","frqAFROURU","frqIND")
hminput <- do.call(rbind, lapply(mget(listpop), function(x) x[c("SNP", "POP", "MAF")]))
colnames(hminput)<-c("Variantes","Poblaciones","Frecuencias")
fff<-as.numeric(as.character(hminput$Frecuencias))
ggplot(data = hminput, color=category, aes(x = Poblaciones, y = Variantes)) +
geom_tile(aes(fill = fff)) + scale_fill_gradient(name = "Frecuencias",high = "navy", low =
"snow2",guide="colourbar") + theme(legend.title = element_text(family= "System Font",
color = "grey12" )) +
labs(x="Poblaciones",y="Variantes") +
theme(axis.title = element_text(family = "System Font", colour = "grey34", size=15))
Cálculo del FST en Plink, con la opción --fst, estratificado por superpoblaciones, y
visualización en R:
plink --vcf todos41.vcf --within IDsparahw.txt --fst --double-id --make-bed --out todos41fst
#FST________________________________________________
fst<-read.table("todos41fst.fst")
fst<-fst[seq(2,42),]
fst<-(fst[order(fst$V5),])
colnames(fst)<-c("CHR","SNP","POS","N","FST")
attach(fst)
fst$SNPs<-c(rep("Fst < 0.1",24),rep("Fst > 0.1",17))
detach(fst)
Informe de Pasantía de Grado – Licenciatura en Biología Humana Melanie Nuesch
60
#grafico posición genómica en función de valor de fst
fst3<-
cbind.data.frame(fst$SNP,as.integer(as.character(fst$CHR)),seq(1:41),as.numeric(as.characte
r(fst$FST)))
colnames(fst3)<-c("SNP","CHR","BP","P")
snpsOfInterest<-as.character(fst2$SNP)
manhattan(fst3, ylim=c(0,0.5) , xlab="Posición por cromosoma", ylab="Índice de fijación
(Fst)", highlight = snpsOfInterest,logp= FALSE, suggestiveline = F, genomewideline = F)
TABLAS COMPLEMENTARIAS
CHR SNP FST
1 rs3818361 0.135713
2 rs7561528 0.0413662
2 rs6733839 0.00308914
2 rs744373 0.0612104
2 rs35349669 0.193832
3 rs16847609 0.108412
5 rs190982 0.128563
5 rs382216 0.0835432
5 rs11168036 0.010709
6 rs9271192 0.00726806
6 rs9296559 0.017201
6 rs9349407 0.0182859
6 rs10948363 0.0213019
7 rs1595014 0.0554038
7 rs2718058 0.156078
7 rs1476679 0.114259
7 rs11767557 0.0182368
7 rs11771145 0.071006
8 rs28834970 0.0782894
8 rs7012010 0.0124005
8 rs2279590 0.105715
8 rs7982 0.0338399
8 rs11136000 0.0878578
8 rs9331896 0.0952191
8 rs9331888 0.0990264
11 rs10838725 0.184754
11 rs983392 0.247922
11 rs670139 0.0243878
11 rs541458 0.0689286
11 rs10792832 0.0980001
11 rs3851179 0.0891717
14 rs10498633 0.0201924
17 rs112665297 0.105811
17 rs2942175 0.106504
17 rs2942177 0.106504
17 rs2668626 0.107411
18 rs8093731 0.150081
19 rs3764650 0.0687773
19 rs4147929 0.120036
19 rs3865444 0.142568
19 rs12459419 0.143313
Tabla 6. Valores promedio de Fst para los distintos SNPs en las 5 superpoblaciones de los 1000genomas y 2 poblaciones Uruguayas, ordenados por cromosoma (CHR). El FST promedio
estimado es 0.086.
Informe de Pasantía de Grado – Licenciatura en Biología Humana Melanie Nuesch
61
CHR SNP A1 A2 MAF CA1 CA2
1 rs3818361 A G 0.35 7 13
2 rs7561528 A G 0.2 4 16
2 rs6733839 T C 0.45 9 11
2 rs744373 G A 0.45 9 11
2 rs35349669 T C 0.35 7 13
3 rs16847609 A G 0.25 5 15
5 rs190982 G A 0.1 2 18
5 rs382216 T C 0.45 9 11
5 rs11168036 T G 0.5 10 10
6 rs9271192 C A 0.3 6 14
6 rs9296559 C T 0.15 3 17
6 rs9349407 C G 0.1 2 18
6 rs10948363 G A 0.1 2 18
7 rs1595014 A T 0.35 7 13
7 rs2718058 G A 0.2 4 16
7 rs1476679 C T 0.05 1 19
7 rs11767557 C T 0.15 3 17
7 rs11771145 A G 0.35 7 13
8 rs28834970 C T 0.15 3 17
8 rs7012010 C T 0.25 5 15
8 rs2279590 T C 0.15 3 17
8 rs7982 A G 0.45 9 11
8 rs11136000 T C 0.45 9 11
8 rs9331896 C T 0.45 9 11
8 rs9331888 G C 0.35 7 13
11 rs10838725 C T 0.1 2 18
11 rs983392 G A 0.2 4 16
11 rs670139 T G 0.3 6 14
11 rs541458 C T 0.2 4 16
11 rs10792832 A G 0.25 5 15
11 rs3851179 T C 0.25 5 15
14 rs10498633 T G 0.3 6 14
17 rs112665297 C T 0.1 2 18
17 rs2942175 G C 0.1 2 18
17 rs2942177 A G 0.1 2 18
17 rs2668626 C T 0.1 2 18
18 rs8093731 T C 0.05 1 19
Informe de Pasantía de Grado – Licenciatura en Biología Humana Melanie Nuesch
62
19 rs3764650 G T 0.3 6 14
19 rs4147929 A G 0.05 1 19
19 rs3865444 A C 0.2 4 16
19 rs12459419 T C 0.2 4 16
Tabla 8. Valores calculados de frecuencia de alelo menor y conteos de alelos para los uruguayos
afrodescendientes (“AFROURUS”). CHR= cromosoma, A1=alelo menor, A2= alelo mayor, MAF=frecuencia del alelo menor, CA1= conteo del alelo menor, CA2=conteo del alelo mayor.
CHR SNP A1 A2 MAF CA1 CA2
1 rs3818361 A G 0.25 5 15
2 rs7561528 A G 0.35 7 13
2 rs6733839 T C 0.35 7 13
2 rs744373 G A 0.4 8 12
2 rs35349669 T C 0.4 8 12
3 rs16847609 A G 0.15 3 17
5 rs190982 G A 0.2 4 16
5 rs382216 C T 0.5 10 10
5 rs11168036 G T 0.5 10 10
6 rs9271192 C A 0.2 4 16
6 rs9296559 C T 0.15 3 17
6 rs9349407 C G 0.15 3 17
6 rs10948363 G A 0.15 3 17
7 rs1595014 A T 0.1 2 18
7 rs2718058 G A 0.25 5 15
7 rs1476679 C T 0.3 6 14
7 rs11767557 C T 0.3 6 14
7 rs11771145 A G 0.4 8 12
8 rs28834970 C T 0.3 6 14
8 rs7012010 C T 0.05 1 19
8 rs2279590 T C 0.45 9 11
8 rs7982 A G 0.45 9 11
8 rs11136000 T C 0.45 9 11
8 rs9331896 C T 0.5 10 10
8 rs9331888 G C 0.35 7 13
11 rs10838725 C T 0.3 6 14
11 rs983392 G A 0.3 6 14
11 rs670139 T G 0.5 10 10
11 rs541458 C T 0.3 6 14
Informe de Pasantía de Grado – Licenciatura en Biología Humana Melanie Nuesch
63
11 rs10792832 A G 0.25 5 15
11 rs3851179 T C 0.25 5 15
14 rs10498633 T G 0.2 4 16
17 rs112665297 C T 0.15 3 17
17 rs2942175 G C 0.15 3 17
17 rs2942177 A G 0.15 3 17
17 rs2668626 C T 0.15 3 17
18 rs8093731 T C 0.05 1 19
19 rs3764650 G T 0.15 3 17
19 rs4147929 A G 0.15 3 17
19 rs3865444 A C 0.4 8 12
19 rs12459419 T C 0.4 8 12
Tabla 9. Valores calculados de frecuencia de alelo menor y conteos de alelos para los nativos
uruguayos (“IND”). CHR= cromosoma, A1=alelo menor, A2= alelo mayor, MAF=frecuencia del alelo menor, CA1= conteo del alelo menor, CA2=conteo del alelo mayor.