estudio de 41 marcadores genéticos de riesgo para la ...€¦ · ccg del gen clu (snps rs2279590,...

Informe de pasantía de grado Melanie Nuesch

1

Estudio de 41 marcadores

genéticos de riesgo para la

enfermedad de Alzheimer de

inicio tardío en 2

poblaciones uruguayas y 26

mundiales.

Melanie Nuesch Germano

Licenciatura en Biología Humana

Informe de pasantía de grado

2017


2

ÍNDICE

RESUMEN ...................................................................................................................... 3

INTRODUCCIÓN .......................................................................................................... 4

ENFERMEDAD DE ALZHEIMER: UN PROBLEMA GLOBAL ....................................................... 4

PATOLOGÍA .......................................................................................................................................... 6

La hipótesis amiloide ........................................................................................................................... 7

SUBTIPOS y FACTORES DE RIESGO .............................................................................................. 10

Alzheimer De inicio temprano (EOAD) ............................................................................................... 10

Alzheimer De inicio tardío (LOAD) ..................................................................................................... 11

CONTEXTO ESPECÍFICO .................................................................................................................. 13

OBJETIVOS ................................................................................................................. 14

MATERIALES Y MÉTODOS ...................................................................................... 15

LOS DATOS ......................................................................................................................................... 15

EL PANEL ............................................................................................................................................ 18

ESTUDIO DE ESTRUCTURA POBLACIONAL ............................................................................... 22

Análisis de componente principal ...................................................................................................... 22

Procedimiento ................................................................................................................................... 23

ANÁLISIS DE EQUILIBRIO DE HARDY-WEINBERG .................................................................. 23

Procedimiento ................................................................................................................................... 24

CÁLCULO DE FRECUENCIAS ALÉLICAS EN SUPERPOBLACIONES ...................................... 25

RESULTADOS ............................................................................................................. 27

RESULTADOS DEL ESTUDIO DE ESTRUCTURA POBLACIONAL ........................................... 27

Utilizando 342359 marcadores ......................................................................................................... 27

Utilizando los 41 marcadores de Alzheimer de inicio tardío ............................................................. 29

RESULTADOS DEL ESTUDIO DE EQUILIBRIO DE HARDY-WEINBERG ................................ 31

RESULTADOS DEL ESTUDIO DE FRECUENCIA ALÉLICA ....................................................... 34

DISCUSIÓN .................................................................................................................. 37

CONCLUSIONES ......................................................................................................... 41

BIBLIOGRAFÍA........................................................................................................... 41

ANEXO ......................................................................................................................... 48

CÓDIGO DE ESTUDIO DE ESTRUCTURA POBLACIONAL ........................................................ 49

CÓDIGO DE ANÁLISIS DE EQUILIBRIO DE HARDY-WEINBERG............................................ 53

CÓDIGO DE CÁLCULO DE LAS FRECUENCIAS ALÉLICAS ..................................................... 57

Tablas complementarias ................................................................................................................... 60


3

RESUMEN

Las enfermedades neurológicas demuestran cada vez más ser multifactoriales,

donde la genética juega un papel importante. Por ejemplo, la enfermedad de Alzheimer de

inicio tardío (LOAD), la causa de demencia más frecuente, está asociada a la presencia de

haplotipos del gen APOE, junto con la de polimorfismos nucleotídicos en varios genes

participantes en complejas redes de regulación de la expresión génica, capaces de

condicionar procesos fisiológicos del cerebro. Pueden ser protectores, si se asocian a un

menor riesgo de inicio de la enfermedad, o factores de riesgo, si lo aumentan. En este

contexto, las herramientas de la genómica evolutiva y la bioinformática actúan como fuentes

generadoras de hipótesis de trabajo en la neurociencia y genética médica, sobre todo en

patologías cuyos mecanismos fisiopatológicos requieren revisión (como LOAD).

En Uruguay no hay antecedentes de estudios de epidemiología genética de LOAD.

Debido a que su clínica puede solaparse con la de otras demencias, es de suma

importancia avanzar en su caracterización, así como también generar métodos modernos

de diagnóstico.

En este proyecto se construyó un panel genético que reune 62 polimorfismos

asociados a LOAD, y 41 de ellos se analizaron en 28 muestras del mundo. Se utilizaron

2504 genomas de individuos pertenecientes a 26 poblaciones de la base de datos de los

1000 genomas (1000genomes.org) y 20 genomas del proyecto URUGENOMES fase 1

(10 de individuos de ascendencia africana y 10 de ascendencia nativa uruguaya). Se

calcularon frecuencias alélicas en todas las poblaciones y se compararon entre cinco

“superpoblaciones” mediante el estadístico FST; también se exploró la estructura

poblacional mediante análisis de componentes principales, y se testeó si las frecuencias se

ajustaban a lo esperado por el modelo de equilibrio de Hardy-Weinberg.

Más allá de algunas consideraciones formales y/o técnicas, se lograron realizar

ampliamente los objetivos propuestos. En relación a algunos resultados concretos, se

encontró que las frecuencias del SNP rs670139 (locus MS4A) no se ajustan a lo esperado en

situación de equilibrio de Hardy-Weinberg en la población uruguaya descendiente de nativos.

Esto, junto con los antecedentes bibliográficos del SNP, sugiere una interesante línea de

investigación en los efectos neuroinflamatorios de la epístasis entre el locus MS4A (en

particular, el gen MS4A4E) y el gen CLU en LOAD en uruguayos, la cual a largo plazo

podría resultar en aplicaciones diagnósticas o terapéuticas para el país. Para esto, sin

embargo, primero se requiere reproducir los análisis con ciertas consideraciones, como

aumentar el tamaño de la muestra uruguaya utilizada, muestrear de forma más representativa

respecto a la etnia de los individuos y calcular valores de FST no sobreestimados, entre otras.

Como segunda perspectiva, se sugiere seguir estudiando la posible asociación del haplotipo

CCG del gen CLU (SNPs rs2279590, rs11136000 y rs9331888) con LOAD, ya que parece

haber una correlación entre la prevalencia de demencia y las frecuencias alélicas de SNPs, al

compararlas entre japoneses y africanos al Suroeste del Sahara.


4

INTRODUCCIÓN

Debido al aumento de la expectativa de vida y al decremento de la fertilidad, la

cantidad de adultos mayores a 64 años aumentó rápidamente, y mantendrá esta tendencia

durante el resto del siglo (Prince et al., 2015). Por esta razón, se están realizando esfuerzos

globales para investigar, entender e intentar combatir enfermedades asociadas al

envejecimiento.

Cierto grado de atrofia cerebral concomitante al envejecimiento es inevitable, pero

estos cambios por sí solos son de poca significancia clínica y carecen de un mecanismo

definido. En contraste, una atrofia severa que evoluciona en unos pocos años, acompañada

con deterioro cognitivo, es identificada como una enfermedad neurodegenerativa: demencia

(Ropper, Samuels & Klein 2014), y el mecanismo subyacente muchas veces es la enfermedad

de Alzheimer, la causa de demencia más frecuente. Como la incidencia y prevalencia de la

demencia aumentan marcadamente con la edad, y ésta genera una problemática

socioeconómica, atenderla es urgente.

De las diversas causas de demencia, en este trabajo se estudiará solamente al Alzheimer.

ENFERMEDAD DE ALZHEIMER: UN PROBLEMA GLOBAL

El Alzheimer es una enfermedad neurodegenerativa crónica, que empieza con una

fase subclínica, seguido por un deterioro cognitivo leve y un grave deterioro ulterior. Su

síntoma más notorio es la pérdida de memoria episódica, donde el paciente no es capaz de

recordar tiempos, lugares y características contextuales de su autobiografía (Bennett et al.,

2014). Desde que el psiquiatra alemán Alois Alzheimer diagnosticó al primer paciente en

1907, la enfermedad está entre las primeras 10 de causas de muerte a nivel mundial, y de

ellas es la única que, por el momento, no podemos prevenir, curar, ni enlentecer

significativamente (Cohen, 2015).

En 2015 se estimó que 46.8 millones de personas en el mundo padecen Alzheimer u

otra demencia relacionada (Prince et al., 2015), y se estima la duplicación de la cifra cada 20

años. Su prevalencia estimada en distintas regiones del mundo se muestra en la Figura 1. Los

valores de prevalencia en ciertas regiones claves para este trabajo, debido a que las muestras

pertenecen a poblaciones de dichas regiones, son: 3.1% en África Sub-Sahara del oeste y

3.5% en la del este, 6.9% en Europa del oeste, 6.5% en el Caribe, 5.8% en Latinoamérica

central, 6.1% en Latinoamérica andina, 7.0% en Asia del Pacífico “De Altos Ingresos”, 4.5%

en Asia del Este, 5.8% en Asia del Sureste, y 3.7% en Asia del Sur. Para ver estas regiones

ubicadas en el mapa mundial, ver Figura 20 en la sección Anexo de este trabajo.

En Uruguay, en el 2010 se estimó un total aproximado de 54.036 personas con

demencia (Alzheimer’s Disease International & BUPA UK, 2013), y en el 2014 se estimó

una esperanza de vida de 77 años, la cual creció marcadamente en los últimos 27 años y es

una de las más altas de la región, luego de la de Chile (The World Bank Group, 2014).


5

Figura 1. Tabla extraída de Prince et al. 2015, con estimaciones acerca de la demencia en el

mundo. De izquierda a derecha, se muestran estimaciones de la cantidad de personas de edad

mayor a 60, prevalencia, número de personas que padecen demencia y predicciones para los años

2030 y 2050. Es importante resaltar que hay una importante carencia de datos de Asia Central,

Sudamérica, Europa del Este y África del Sur y del Este, y que se consideraron personas cuyos

diagnósticos estaban basados en los criterios utilizados en DSM-IV, ICD-10, o similarles, pero ciertos

criterios no fueron rigurosamente respetados (como descartar otras causas de deterioro cognitivo,

como lo pueden ser la depresión, delirio y psicosis funcional, por lo cual se puede estar sub o

sobreestimando la prevalencia. De todos modos, en este trabajo se utilizarán como valores de

referencia. El mapa con las regiones utilizadas en esta tabla (GBD world regions, Figura) está en el

Anexo. El asterisco verde (*) marca las regiones importantes para este trabajo.

*

*

*

*

*

*

*

*

*

*


6

PATOLOGÍA

Cada enfermedad neurodegenerativa tiene, a nivel molecular, su proteína (o péptido)

problemática y lugar de inicio característicos, como la alfa-sinucleína formando cuerpos de

Lewy en la sustancia nigra en la enfermedad de Parkinson (Stefanis, 2012), cuerpos de Lewy

ampliamente distribuídos en la corteza cerebral en demencia con cuerpos de Lewy (Beyer,

Domingo-Sàbat & Ariza, 2009), TDP-43 en demencia frontotemporal (Sieben et al. 2012) y

en esclerosis lateral amiotrófica (Scotter, Chen, and Shaw, 2015).

En el caso de la enfermedad de Alzheimer, la patología se define por la agregación

anormal de determinadas moléculas, la cual está fuertemente correlacionada con las

disfunciones observadas. Dentro de la célula se forman ovillos neurofibrilares, compuestos de

proteína tau (tubulin associated unit, asociada a microtúbulos), y fuera de las células se

forman inclusiones del péptido beta-amiloide, llamadas placas de amiloide. La presencia de

placas de amiloide, gracias a estudios genéticos, bioquímicos y neuropatológicos, ha tomado

un lugar central en el mecanismo de inicio de la enfermedad (Hardy & Selkoe 2002), con la

creación de la hipótesis amiloide, mientras que la patología neurofibrilar ha mostrado una

fuerte correlación con la disfunción neuronal y progresión de las fases clínicas (Holtzman,

Morris & Goate, 2011).

Figura 2. A la izquierda, una ilustración de tejido nervioso sano. A la derecha, tejido nervioso

con la patología de Alzheimer, en particular los ovillos neurofibrilares y las placas de beta amiloide.

La patología comienza en regiones del lóbulo temporal, en particular en la corteza

temporal inferior e hipocampo, y posteriormente se extiende a otras zonas corticales

(parietales, frontales). Además, ocurre degeneración de núcleos colinérgicos de la base del

cerebro, junto con otros núcleos subcorticales y del tronco encefálico, neuroinflamación y

estrés oxidativo (Whitehouse et al. 1981; Rasool, Svendsen & Selkoe, 1986; Wilson et al.

2013; Aluise et al., 2011; Butterfield, Reed & Perluigi, 2007; Lue et al., 1996; Blalock et al.,

2004; Heneka et al., 2015). La degeneración de núcleos genera déficit de neurotransmisores.

En particular, existe déficit de acetilcolina debido a la degeneración del núcleo basal de

Meynert, localizado en la sustancia innominada de la sustancia perforada anterior. Los

agregados de proteínas (oligómeros solubles de beta amiloide) se unen a receptores de


7

reconocimiento de patrones en microglía y astroglía, desatando una respuesta inmune innata

caracterizada por la liberación de mediadiores químicos de la inflamación, lo cual contribuye

a la progresión y severidad de la enfermedad (Heneka et al., 2015). Hay evidencia, además,

en modelos murinos, de reclutamiento de monocitos periféricos a través de la barrera

hematoencefálica (Heneka et al., 2015).

Todos estos cambios patológicos ocurren una vez iniciada la enfermedad. Respecto al

inicio de la misma, se han propuesto varias hipótesis mecanísticas como intento de unificar

todos estos diversos fenómenos en una sola explicación teoríca (Karran & De Strooper,

2016): la de la cascada mitocondrial, la de la vía dual, la del metabolismo, la del retorno al

ciclo celular, la vascular, la de los oligómeros de beta amiloide, y la hipótesis de la cascada

amiloide, siendo esta última la más comprensiva y apoyada hasta el momento.

LA HIPÓTESIS AMILOIDE

Los orígenes de la hipótesis de la cascada amiloide se remontan a la década de los

ochenta, con la secuenciación de la cadena aminoacídica de la proteína precursora de

amiloide (APP, amyloid precursor protein) extraída de tejido cerebrovascular y parénquima

cerebral postmortem de pacientes con Alzheimer (Glenner & Wong 1984; Masters et al.

1985). Esto causó que se secuenciara e identificara el gen APP, que codifica para la

holoproteína de la cual se escinde el beta amiloide por acción secuencial de la enzima

cortadora de beta amiloide (-amyloid cleaving enzime), la cual lo libera de su extremo N, y

-secretasa, que corta el extremo C (Karran & De Strooper, 2016). -secretasa es un complejo

proteico que comprende a las presenilinas 1 o 2, aph1a o aph1b, pen2 y nicastrina, donde las

presenilinas aportan los residuos aspartil del sitio activo (De Strooper, Iwatsubo & Wolfe,

2012).

Figura 3. Ilustración del complejo -secretasa y su relación con la proteína APP.

Durante el metabolismo celular normal, APP puede ser cortada por las enzimas ,, y

secretasas, y es un producto de secreción regular de algunas células. Normalmente, APP es

cortada por -secretasa y, posteriormente, por -secretasa, originando fragmentos pequeños

no neurotóxicos (Ropper, Samuels & Klein, 2014). Sin embargo, si APP es cortada por -

secretasa y luego por -secretasa, se generan fragmentos de A más largos de 40 y 42


8

aminoácidos. A42 es neurotóxico, y se ha planteado que el radio A42/A40 es crítico para

la toxicidad del amiloide; abundante evidencia favorece la idea de que un aumento de A42

produce toxicidad antes y después de su agregación (M. P. Lambert et al., 1998; Hartley et

al., 1999; Hsia et al., 1999; Mucke et al., 2000). Parecería también que una deposición difusa

de A42 precede a la formación de placas y ovillos neurofibrilares más definidos, sugiriendo

que es el mecanismo inicial.

Figura 4. Esquema de los eventos proteolíticos y de escición que son generados durante el

procesamiento de APP. APP salvaje es normalmente procesado por la vía --secretasa, mientras

que algunas mutaciones, como la sueca (APP Swedish mutation) favorece la reacción de APP con -

secretasa. Las mutaciones en PSEN1 y PSEN2 alteran la acción de -secretasa y promueve la

sobreproducción de A42. Del mismo modo, las mutaciones en el dominio transmembrana (TM mutations) de APP también favorecen la sobreproducción. Otras mutaciones, como las

Flamencas/Holandesas y Árticas parecen altrar la predisposición de A a formar fibrillas. La

apolipoproteína 4 puede tener varios efectos, incluyendo competir por el clearance con A mediante el receptor de LRP1 (low-density-lipoprotein-related protein 1), favoreciendo la

aglomeración y la fibrilogénesis de A extracelular. Tomado de Sisodia & St George-Hyslop, 2002.

Entre 1991 y 1992, una serie de trabajos publicados articularon distintas evidencias,

fisiopatológicas y genéticas, al consolidar la hipótesis (Beyreuther & Masters, 1991; Hardy &

Allsop, 1991; Selkoe, 1991; Hardy & Higgins, 1992). En 1992, Hardy y Higgins publicaron

un breve pero robusto artículo sobre la hipótesis amiloide (Hardy & Higgins, 1992), donde se

posicionaba a la deposición de placas A como evento clave inicial en la patología que

resulta en muerte celular y/o desarrollo de ovillos neurofibrilares (formados por agregados

insolubles de proteína tau hiperfosforilada) mediante la elevación de los niveles de calcio

intracelular. A la vez, estudios de genética demostraron la existencia de mutaciones en genes

de proteínas relacionadas al metabolismo del beta amiloide en individuos con la patología de


9

Alzheimer, apoyando la idea de que la enfermedad se da a partir de una desregulación del

metabolismo normal de este péptido(Goate, 2006; Karch & Goate, 2015).

Figura 5. Secuencia de eventos patogénicos propuestos por la hipótesis de cascada amiloide. La flecha curva indica que los oligómeros son capaces de lesionar directamente, y no solamente a través de la activación glial. Modificado a partir de Hardy 2002 (Hardy & Selkoe, 2002). El hallazgo de mutaciones en el gen APP y el posterior reconocimiento de la acción γ-secretasa de las presenilinas derivaron en la consolidación de esta hipótesis.

Si bien hay mucha evidencia a favor de la hipótesis amiloide (Hardy & Selkoe, 2002),

también hay evidencia que desafía la relación entre la deposición de amiloide y la pérdida

neuronal y atrofia cerebral, por lo cual está en tela de juicio y los investigadores están

repasando otras hipótesis y generando líneas de investigación alternativas (Karran & De


10

Strooper, 2016). En particular, la de los oligómeros de beta amiloide ha ganado popularidad,

sugiriendo que quizás los fragmentos pequeños solubles son los tóxicos, mientras que el foco

todos estos años ha estado en estudiar los efectos del amiloide insoluble, largo y fibrilar

formador de placas(Ropper, Samuels & Klein, 2014; Karran & De Strooper, 2016).

Otros directamente han cuestionado las hipótesis amiloidocéntricas en general como

patogénicas, y hasta se ha sugerido que quizás sea un mecanismo de defensa de las células

(Ropper, Samuels & Klein, 2014).

DeKosky y Scheff encontraron un número reducido y ensanchamiento de sinapsis en

las áreas cerebrales afectadas en etapas tempranas (DeKosky & Scheff, 1990), lo cual se

puede interpretar como el primer signo de muerte neuronal o como el resultado de la pérdida

neuronal. En el primer caso, se plantea que quizás la deposición de amiloide sea un fenómeno

secundario. La formación de ovillos también está siendo debatida si es principal o secundaria

a la patología.

SUBTIPOS Y FACTORES DE RIESGO

Si bien su patología es idéntica, hoy en día la enfermedad de Alzheimer se divide en

dos tipos: de inicio temprano (antes de los 60 años) y de inicio tardío (después de los 60), los

cuales tienen distinta base etiológica. Más allá del debate de si realmente existen o no dos

subtipos, esta distinción es especialmente útil en un encare de neurogenética, por la cual la

utilizaré en este trabajo.

ALZHEIMER DE INICIO TEMPRANO (EOAD)

Se conoce la disfunción genética que subyace al Alzheimer de inicio temprano (early

onset Alzheimer’s Disease, EOAD) hace ya más de tres décadas. En 1984, Glenner y Wong

observaron que el péptido beta amiloide que se encontraba depositado en cerebros de

pacientes con síndrome de Down era idéntico al encontrado en muestras de pacientes con

Alzheimer esporádico, sugiriendo la posibilidad de que algún defecto en el cromosoma 21

fuese responsable también de esta patología(Glenner & Wong, 1984). Gracias a estudios

familiares y análisis de ligamiento, en 1991 se reveló una mutación que genera el cambio

aminoacídico V717I en la secuencia del gen de APP (cromosoma 21)(Goate, 2006), en la

región C-terminal, la cual resultaba en una patología exactamente igual a la del Alzheimer

esporádico de inicio tardío, pero ésta se iniciaba más temprano. Cuanto más temprano el

inicio, mayor la penetrancia observada.

Hoy en día se conocen centenares de mutaciones codificantes (http://www.alzfo-

rum.org/mutations) en tres genes: APP, PSEN1 (presenilina 1, cromosoma 14) y PSEN2

(presenilina 2, cromosoma 1) que causan Alzheimer de inicio temprano (Wood, 2012; Karch

& Goate, 2015); APP, gen de la molécula precursora, y PSEN1 y PSEN2, genes de enzimas

de su metabolismo. En su mayoría, las mutaciones de APP se encuentran en los exones 16 y

17 que codifican para la región beta amiloide de la proteína. Todas estas mutaciones tienen

efecto desregulando la vía metabólica del beta amiloide en algún punto, como aumento del

radio A42/A40 y/o cambio de las propiedades de agregación del péptido en general

(Karran & De Strooper, 2016), haciendo más propenso al péptido a agregarse en placas.


11

ALZHEIMER DE INICIO TARDÍO (LOAD)

El Alzheimer de inicio tardío (LOAD, late onset Alzheimer´s disease) tiene un

componente genético (Gatz et al., 2006), el cual es, en parte, explicado mayoritariamente por

el gen de la apolipoproteína E (APOE)(Corder et al., 1993) y otra gran cantidad de genes que

fueron identificados por mapeo posicional, análisis dirigido de genes y estudios de asociación

de genoma completo (GWAS, genome wide association studies)(Farrer et al., 1997; Sherva &

Farrer, 2012; Lambert & Al, 2013).

Los humanos presentan tres variantes mayores de apoE – apoE2, apoE3 y apoE4

(Nickerson et al., 2000), entre otras, compuestas por combinaciones alélicas no sinónimas en

dos SNPs en exones del gen APOE: rs429358 y rs7412 (Schellenberg, D’Souza & Poorkaj,

2000). Por ejemplo, si en ambos sitios se tiene el alelo C (C/C), entonces el individuo

produce la apolipopriteína E4 (apoE4) y se dice que es APOE 4+ (y así para cada uno: C/T

para , T/T para , y T/C para , siendo esta última la más común)(Cariaso & Lennon,

2011).

La consecuencia estructural de producir lipoproteína apoE4 parece ser que la misma se une

preferentemente a lipoproteínas de muy baja densidad (VLDLs) en el plasma sanguíneo,

mientras que apoE2 y 3 se unen a lipoproteínas de alta densidad (HDLs) (Huang et al., 2003).

Las isoformas de apoE también parecen influenciar los niveles de colesterol en

plasma, el crecimiento neuronal y su aglomeración en placas (Bekris et al., 2008).

Portar una copia del alelo APOE4, o 4, aumenta cuatro veces el riesgo de tener LOAD,

comparado con el genotipo APOE3/APOE3; dos copias del alelo APOE4 aumenta el riesgo

aproximadamente doce veces, y el alelo APOE2 reduce el riesgo comparado con APOE3 (es

protector)(Verghese, Castellano & Holtzman, 2011).

Posteriormente, se reprodujeron los análisis de asociación de genoma completo en

individuos APOE 4+ y APOE 4-, bajo la hipótesis de que éste alelo podría estar

apantallando polimorfismos de efecto pequeño, y varios nuevos fueron descubiertos, muchos

en regiones no codificantes. Actualmente en la literatura se encuentran 39 polimorfismos de

un sólo nucleótido (single nucleotide polymorphisms, o SNPs), identificados en diferentes

trabajos pero excelentemente resumidos en (Karch & Goate, 2015), y otros 22 hallados en

2016 (Jun et al., 2016).

Todos los genes asociados al riesgo de LOAD, según las vías metabólicas donde

participen, se han podido clasificar en cuatro categorías (Figura 6): aquellos que participan en

el metabolismo lipídico, los que participan en la inflamación, aquellos que se encargan de

fenómenos de endocitosis (como el tráfico intracelular del péptido beta amiloide, y la sinapsis

química), y los que su mecanismo es, por ahora, desconocido (Karch & Goate, 2015). Nótese

que todas estas vías tienen en común la posibilidad de influir sobre al menos uno de los

eventos clave de esta enfermedad, como la deposición de placas de amiloide extracelulares,

formación de ovillos neurofibrilares intracelulares de proteína tau, pérdida neuronal selectiva,

disfunción sináptica, déficit de neurotransmisores (como la acetilcolina), y neuroinflamación

(Holtzman, Morris & Goate, 2011).

Juntos, estos loci logran explicar menos de la mitad del componente hereditario de la

susceptibilidad a la enfermedad, y un 20-25% se le es atribuido a APOE por sí solo(Lambert

& Al, 2013; Jun et al., 2012), por lo cual se está estimulando el estudio neurogenético en

diferentes poblaciones humanas del mundo y en modelos experimentales.

Además del componente genético, el LOAD tiene un componente ambiental, bastante

menos nítido que el genético. Esto, sumado al hecho de que la muchas de las variantes estén

situadas en regiones no codificantes del genoma, contribuye a justificar el moderno auge de


12

la neuroepigenética (Iriarte & Fontes, 2014; Landgrave-Gómez, Mercado-Gómez & Guevara-

Guzmán, 2015; Klein & De Jager, 2016; Schuebel, 2016).

Figura 6. Representación de los genes y loci genéticos que fueron asociados con el desarrollo de la enfermedad de Alzheimer. Imagen extraída de Karch & Goate, 2015.

Mediante análisis de ligamiento genético se han identificado mutaciones causativas en tres genes: APP, PSEN1 y PSEN2, así como también se identificó un factor de alto riesgo: el alelo 4 de APOE.

Más recientemente el desarrollo de tecnologías que permitieron realizar GWAS permitieron el análisis de variantes comunes de riesgo pero bajo (es decir, son variantes de riesgo, pero menos fuertes que APOE 4; en la gráfica, abajo a la derecha). Esto derivó en la identificación de varios nuevos loci: CLU, PICALM, CR1, BIN1, CD33, ABCA7, MS4A6A, MS4AE4, CD2AP, EPHA1, HLA-DRB5/DRB1, SORL1, PTK2B, SLC24A4, ZCWPW1, CELF1, FERMT2, CASS4, INPP5D, MEF2C, DSG2, PLD3 y NME8. La integración de resultados de secuenciado y genotipado permitieron la identificación de TREM2, la primera variante rara de riesgo medio para LOAD. Debido a la forma en la que estos estudios están diseñados, solamente pueden identificar regiones genéticas asociadas a una enfermedad, en lugar de variantes o genes específicas. Por lo tanto, si el SNP es intergénico o está en una región poligénica, usualmente lleva el nombre del gen más cercano, pero no se puede asegurar, sin otros estudios, que dicho gen sea patogénico. Se requieren más estudios para identificar el verdadero gen/variante patogénico y estudiar cómo lleva a cabo su efecto.

Estos hallazgos sugirieron nuevas vías metabólicas como candidatas a responsables de la etiología de LOAD, ya que los loci descubiertos se agrupan en algunas categorías discretas y parecerían estar relacionados (representadas con distintos colores en la imagen), y con una clara sobrerepresentación en las vías relacionadas al metabolismo del colesterol y a la respuesta inmune. Además, algunos genes pueden participar de más de una vía, por lo cual se generaron modelos pleomórficos del riesgo (Guerreiro, Bras & Hardy, 2013).


13

CONTEXTO ESPECÍFICO

En cuanto a la neurogenética, importantes consorcios internacionales se han formado

para juntar esfuerzos, tanto para el estudio del Alzheimer como de otras patologías humanas.

En la base de datos pública de los 1000 genomas (1000genomes.org) se puede acceder a una

gran cantidad de información genómica de 5 “superpoblaciones” (África, América, Europa,

Asia del Este y Asia del Sur, es decir, poblaciones definidas por regiones continentales) y 26

poblaciones (ver Tabla 2 en Materiales y Métodos), así como también a los datos de origen

para reproducción de resultados u otros análisis.

Figura 7. Mapa que muestra la ubicación de las poblaciones de los datos del proyecto de los 1000 genomas (tomado de http://www.1000genomes.org). Las poblaciones continentales se denominan “superpoblaciones” y, si bien no es un término técnico oficial, será usada en este trabajo.

Dichas bases de datos y estudios no incluyen a Uruguay, y aquellos pocos uruguayos

que sí han sido secuenciados lo han hecho en privado con fines clínicos o personales. Sin

embargo, el Institut Pasteur de Montevideo, en conjunto con la Universidad Nacional de Seúl

y Macrogen, en 2014 anunciaron el lanzamiento del proyecto URUGENOMES, donde a lo

largo de los siguientes años se secuenciarán 80 genomas para estudiar la variabilidad de la

población uruguaya (Business Wire, 2014; URUGENOMES, 2017). En este momento, se

encuentran disponibles para este trabajo 20 genomas de individuos de ascendencia africana

(10) e indígena del territorio uruguayo (que se presume puede ser Charrúa, pero ante la falta

de certeza se denominarán como ¨descendientes de indígenas orientales¨ en este trabajo) (10)

(las muestras de URUGENOMES fase 1).

En Uruguay no hay antecedentes de estudios de epidemiología genética del

Alzheimer. Ya que sus síntomas clínicos pueden solaparse con los de otras demencias, es

posible obtener diagnósticos erróneos o baja efectividad en los tratamientos brindados. Por

esto y porque es la causa de demencia más frecuente, no solamente es urgente avanzar en la

caracterización de esta enfermedad, tanto en Uruguay como en el resto del mundo, sino que

http://www.1000genomes.org)/


14

también generar métodos de diagnóstico modernos que nos permitan diferenciarla con mayor

precisión y en etapas más tempranas. En este contexto, los análisis genéticos son una opción

interesante para explorar.

A medida que surjan más proyectos genomas en diferentes poblaciones, más se

logrará captar la variabilidad que existe entre ellas, lo que ayudará a determinar

predisposiciones a enfermedades que pueden diferir de una población a otra, aportará a la

medicina preventiva y a la farmacogenómica. Con mayor caracterización del genoma

uruguayo, más cerca estaremos de poder utilizar medicina de precisión, es decir, la

generación de terapias y fármacos dirigidos a nuestra población, respecto a nuestras

características y necesidades únicas. Con esto, se reducen los porcentajes de inefectividad de

fármacos y tratamientos utilizados hoy en nuestra población, ya que se éstos son

desarrollados en base a estudios de otras poblaciones (como de Estados Unidos o Europa).

OBJETIVOS

Objetivo General:

Aportar al conocimiento de epidemiología y diversidad genética de las variantes

relacionadas al riesgo de padecer enfermedad de Alzheimer de inicio tardío (LOAD) en

muestras de distintas poblaciones humanas.

Objetivos Específicos:

Realizar un panel genético actualizado de polimorfismos de un solo nucleótido

(SNPs) de riesgo para LOAD, muchas halladas en sitios no codificantes del ADN.

Calcular las frecuencias alélicas de dichas variantes en las secuencias de genoma

completo extraídas de las bases de datos de los 1000 genomas y URUGENOMES fase

1.

Comparar “superpoblaciones” y uruguayos mediante test estadísticos acordes.

Estudiar estructura poblacional y equilibrio de Hardy-Weinberg en ambas muestras.

Objetivos Académicos:

Aprender el manejo de datos genómicos de gran tamaño y la confección de paneles

genéticos, tanto en contexto de investigación como en diagnóstico clínico. Además,

desenvolverse con el sistema operativo UNIX, las bases de datos genómicas públicas,

y software libre como Plink, R, entre otros.

Aprender a interpretar datos genéticos y epigenéticos de enfermedades humanas, y

conocer el alcance y limitaciones que éstos tienen en los estudios epidemiológicos.

Aprender herramientas computacionales y análisis estadísticos del área de la

bioinformática/genómica que puedan ser de utilidad en la neurociencia, a modo de

expandir y complementar el repertorio técnico.


15

MATERIALES Y MÉTODOS

En esta pasantía de grado en la Unidad de Bioinformática del Institut Pasteur de

Montevideo se confeccionó un panel genético actualizado a partir de la literatura existente

sobre variantes nucleotídicas de riesgo para LOAD, y en función de él se realizaron

posteriores estudios poblacionales en los datos de URUGENOMES fase 1 y los 1000

genomas: análisis de componentes principales para estudiar la estructura poblacional, análisis

del equilibrio de Hardy-Weinberg en las diferentes poblaciones, y cálculos de las frecuencias

alélicas para cada SNP en las diferentes superpoblaciones, siendo comparadas mediante el

estadístico FST.

Los componentes principales, las frecuencias y FST de las variantes en las diferentes

poblaciones fueron calculadas utilizando el software Plink (www.cog-

genomics.org/plink/1.9/(Chang et al. 2015)). La visualización de resultados se realizó en R

(https://www.r-project.org/).

Se observó el contexto genómico de algunas variantes (marcas epigenéticas asociadas, sitios

de unión de factores de transcripción, etc) utilizando el UCSC browser

(https://genome.ucsc.edu/), para obtener información más detallada acerca de los distintos

mecanismos moleculares regulatorios que puedan estar asociados a ellas.

LOS DATOS

Figura 8. Ejemplo de archivo VCF, a modo de ilustración. Fuente: Variant Call Format,

Wikipedia.

Se trabajó con dos sets de datos: los del proyecto 1000 genomas, y los de

URUGENOMES fase 1, los cuales consisten en archivos de texto de formato VCF (Variant


16

Call Format), el cual es uno de los formatos que se usa para almacenar información respecto

a las variantes de un genoma secuenciado (Figuras 8 y 9). Un archivo en formato VCF puede

incluir más de un individuo (el de los 1000genomas incluye 2504 y el de URUGENOMES

fase 1 incluye 20), y contiene información acerca de la posición de cada variante en el

genoma, el código de la variante (rsID), información respecto a la calidad de la secuenciación

en dicha base, cromosoma, base de referencia y alternativa, entre otra. Esto permite analizar a

varios individuos de una misma muestra a la vez, manipulando un solo archivo.

A


17

Figura 9. A: Distintas etapas al utilizar tecnologías de secuenciado de nueva generación (next generation sequencing, NGS), con sus distintos formatos de archivo asociados. Imagen extraída de Blanca et al., 2017. El producto crudo de la secuenciación son archivos con secuencias cortas llamadas reads, y el formato de dicho archivo es FASTQ. Dichos reads son numerosos y algunos se solapan y encajan como, piezas de un puzzle, y utilizando un genoma de referencia se procede a alinear los reads utilizando ciertos programas, produciendo así un archivo que ensambla la secuencia que acaba de ser secuenciada (BAM). Mediante otro proceso llamado Variant Calling se analiza qué alelo está presente en cada posición nucleotídica, y se genera otro archivo (VCF) que posee esa información adicional. Además de estos, hay otros formatos que no aparecen en el esquema, como FASTA para representar genomas y GFF/BED para anotaciones de genoma, y según el análisis que se quiera hacer se debe trabajar con uno u otro. B: Resumen visual del proceso.

Respecto a los datos de los 1000 genomas fue descargado, de la página web oficial

(http://www.internationalgenome.org/data/), el archivo VCF separado por cromosoma que

contiene la información de 2504 individuos. Es decir, fueron descargados un archivo por

cromosoma, y posteriormente fueron unificados. Dichos genomas pertenecen a las 26

poblaciones y 5 superpoblaciones ilustradas en la siguiente tabla (Tabla 2).

Superpoblación Población Nombre de la población N Individuos

AFR ACB Afrocaribeños en Barbados 96

AFR ASW Afroamericanos en el suroeste de EEUU 61

SAS BEB Bengalis en Bangladesh 86

EAS CDX Chinos Dai en Xishuangbanna, China 93

EUR CEU Residentes de Utah (CEPH) con ancestría del

norte u oeste de Europa 99

EAS CHB Chinos Han en Beijing, China 103

EAS CHS Chinos Han del sur 105

AMR CLM Colombianos en Medellín, Colombia 94

AFR ESN Esanos en Nigeria 99

EUR FIN Finlandeses en Finlandia 99

EUR GBR Británicos en Inglaterra y Escocia 91

SAS GIH Gujaratianos (India) en Houston, Texas 103

AFR GWD Gambianos en la división oeste de Gambia 113

EUR IBS Ibéricos en España 107

SAS ITU Telugus (India) en Reino Unido 102

EAS JPT Japoneses en Tokyo, Japón 104

EAS KHV Kinhs en la ciudad de Ho Chi Minh, Vietnam 99

AFR LWK Luhyas en Webuye, Kenya 99

AFR MSL Mendes en Sierra Leona 85

PEQUEÑAS SECUENCIAS

"READS" (FASTQ)

ARCHIVO CON

ALINEAMIENTO

(BAM)

ARCHIVO CON VARIANTES

(VCF)

B


18

AMR MXL Americanos-Mejicanos en Los Ángeles,

California 64

AMR PEL Peruanos en Lima, Perú 85

SAS PJL Punjabis en Lahore, Pakistán 96

AMR PUR Portorriqueños 104

SAS STU Tamil de Sri Lanka en el Reino Unido 102

EUR TSI Toscanos en Italia 107

AFR YRI Yorubas en Ibadan, Nigeria 108

Tabla 2. Las 26 pobalaciones de los datos de los 1000 genomas, sus superpoblaciones y

número de individuos de cada población. AFR=Africanos, AMR=Amerindios, EUR=Europeos, EAS=Asiáticos del Este, SAS=Asiáticos del Sur. En total hay 661 AFR, 347 AMR, 503 EUR, 504 EAS y 489 SAS.

Los 20 individuos de URUGENOMES fase 1 fueron seleccionados en función de su

ascendencia con un objetivo antropológico, 10 descendientes de indígenas orientales y 10

afrodescendientes, por lo cual las muestras presentan deliberadamente sesgo étnico. La

mayoría de los individuos de la muestra son menores a 60 años, por lo cual se asume que no

padecen Alzheimer de inicio tardío, pero pueden no haber desarrollado la enfermedad aún.

De acá en más, en este documento se denominará ¨afrouruguayos¨ a los uruguayos

afrodescendientes, y ¨nativos uruguayos¨ a los descendientes de indígenas orientales, para

facilitar la lectura. Además, no serán clasificados dentro de ninguna “superpoblación”

existente, sino que ambas muestras serán tratadas como una superpoblación aparte, ¨URU¨.

EL PANEL

Para determinar los SNPs de interés biológico se realizó una extensa revisión

bibliográfica a partir de publicaciones científicas de los consorcios internacionales

previamente mencionados (Karch & Goate 2015; Lambert & Al 2013; Jun et al. 2016), y

diferentes bases de datos genómicas como Ensembl, OMIM, dbSNP, 1000 genomes, etc.

Se elaboró un panel genético lo más completo posible, que reuniera a todas las variantes

nucleotídicas que alguna vez fueron publicadas por asociación a riesgo de LOAD (Tabla 1).

El panel no incluye a las variantes del gen APOE. Si bien las variantes de APOE tienen

mayor efecto que las de otros genes, no es capaz de explicar la totalidad del componente

genético del riesgo de LOAD. Siguiendo la tendencia mundial de la búsqueda de loci

alternativos (y/o complementarios, no necesariamente descartando a APOE), en este trabajo

se quiso dar protagonismo a variantes en otros genes que están empezando a ser más

estudiadas y usadas para generar modelos poligénicos y epistáticos (tanto con y sin APOE),

los cuales eventual e hipotéticamente podrían llegar a tener en conjunto un impacto mayor

que las variantes de APOE.

De los 61 SNPs de mi panel original solo 41 estaban presentes en los tres VCFs a la

vez, por lo que se realizaron los análisis con un subpanel que contiene solamente 41. En la

Tabla 1 aparecen resaltados en negrita aquellos SNPs que no fueron incluidos en el subpanel.

Esto puede deberse a distintas razones, entre ellas que no haya variante en la muestra (que

todos los 10 uruguayos tengan el mismo alelo en esa posición), o que la secuenciación no

haya tenido tanta profundidad en esa posición (lo cual se puede chequear observando la

cantidad de reads con el visualizador IGV en esa posición si se tuviese el archivo BAM).


19

SNP ID Gen/Región Cromosoma Posición Hebra Significancia Clínica y Observaciones Fuente

rs3818361 CR1 1 207784968 + Potencia riesgo en individuos APOE ε4 + Karch & Goate 2015

rs6656401 CR1 1 207692049 + Potencia riesgo. En Afrouruguayos es una deleción. Karch & Goate 2015

rs35349669 INPP5D 2 234068476 + Desconocido Karch & Goate 2015

rs6733839 BIN1 2 127892810 + Potencia riesgo Karch & Goate 2015



rs16847609 SOX14-CLDN18 3 137650736 + Asociado Jun et al 2016

rs11168036 PFDN1-HBEGF 5 139707439 + Asociado Jun et al 2016

rs190982 MEF2C 5 88223420 + Desconocido Karch & Goate 2015

rs382216 CDC42SE2-ACSL6 5 130687137 + Asociado Jun et al 2016

rs10948363 CD2AP 6 47487762 + Potencia riesgo Jun et al 2016

rs75932628 TREM2 6 41129252 + Potencia riesgo x2 Karch & Goate 2015

rs9271192 HLA-DRB5-DRB1 6 32578530 + Desconocido Karch & Goate 2015

rs9296559 CD2AP 6 47452270 + Potencia riesgo Karch & Goate 2015

rs9349407 CD2AP 6 47453378 + Potencia riesgo Karch & Goate 2015

rs11767557 EPHA1 7 143109139 + Disminuye riesgo Karch & Goate 2015

rs11771145 EPHA1 7 143110762 + Disminuye riesgo Karch & Goate 2015

rs1476679 ZCWPW1 7 100004446 + Desconocido Karch & Goate 2015

rs1595014 TMEM106B 7 12188529 + Se observó interacción del genotipo con APOE. Jun et al 2016

rs2718058 NME8 7 37841534 + Desconocido Karch & Goate 2015

rs11136000 CLU 8 27464519 + Disminuye riesgo Karch & Goate 2015, Liu et al. 2013

rs2279590 CLU 8 27456253 + Disminuye riesgo Karch & Goate 2015

rs28834970 PTK2B 8 27195121 + Desconocido Karch & Goate 2015




20

rs9331888 CLU 8 27468862 + Potencia riesgo en caucásicos, pero no en asiáticos Shuai et al. 2015

rs9331896 CLU 8 27467686 + Asociado Karch & Goate 2015

rs10792832 PICALM 11 85867875 + Desconocido Karch & Goate 2015

rs10838725 CELF1 11 47557871 + Desconocido Karch & Goate 2015

rs11218343 SORL1 11 121435587 + Disminuye riesgo Karch & Goate 2015

rs3851179 PICALM 11 85868640 + Disminuye riesgo Karch & Goate 2015

rs541458 PICALM 11 85788351 + Disminuye riesgo Karch & Goate 2015

rs670139 MS4A 11 59971795 + Potencia riesgo en individuos APOE ε4 - Karch & Goate 2015

rs983392 MS4A 11 59923508 + Disminuye riesgo en individuos APOE ε4- Karch & Goate 2015

rs10498633 SLC24A4-RIN3 14 92926952 + Desconocido Karch & Goate 2015

rs17125944 FERMT2 14 53400629 + Desconocido Karch & Goate 2015

rs112665297 KANSL1-LRRC37A 17 44348634 + GWS de asociación con LOAD en individuos APOE ε4 - Jun et al 2016

rs113986870 ARL17B-LRRC37A 17 44355683 + Alelo menor (A) protector, pero el experimento necesita ser replicado. eQTL para la elevada expresión de los exones 3 de MAPT y 1 de KANSL1.

Jun et al 2016

rs2532331 KANSL1-LRRC37A 17 44348326 + Asociación con LOAD en individuos APOE ε4 -. eQTL, sitio de union de FT y pico de sensibilidad a DNAsa

Jun et al 2016

rs2532332 KANSL1-LRRC37A 17 44347727 - GWS de asociación con LOAD en individuos APOE ε4 -. Sitio de union de FT y pico de sensibilidad a DNAsa

Jun et al 2016

rs2532333 KANSL1-LRRC37A 17 44347557 - GWS de asociación con LOAD en individuos APOE ε4 - Jun et al 2016

rs2668626 KANSL1-LRRC37A 17 44353175 + GWS de asociación con LOAD en individuos APOE ε4 -. eQTL, sitio de union de FT y pico de sensibilidad a DNAsa

Jun et al 2016

rs2696556 KANSL1-LRRC37A 17 44347561 - GWS de asociación con LOAD en individuos APOE ε4 - Jun et al 2016




21

rs2732703 KANSL1-LRRC37A 17 44353222 + Asociado, pero necesita replicación. Mecanismo desconocido. Asociado a un sitio de union de FT y pico de sensibilidad a DNAsa. Imputado, pero con muy buena calidad de imputación.

Jun et al 2016








rs71380849 CDR2L 17 72975748 + Asociado, pero necesita replicación. Mecanismo desconocido. Karch & Goate 2015

rs8093731 DSG2 18 29088958 + Dsconocido Karch & Goate 2015

rs12459419 CD33 19 51728477 + Disminuye riesgo Karch & Goate 2015

rs145999145 PLD3 19 40877595 + Potencia riesgo Karch & Goate 2015

rs3764650 ABCA7 19 1046520 + Potencia riesgo Karch & Goate 2015

rs3865444 CD33 19 51727962 + Disminuye riesgo, pero en Lambert 2013 no alcanzó GWS Karch & Goate 2015

rs4147929 ABCA7 19 1063443 + Potencia riesgo Karch & Goate 2015

rs7274581 CASS4 20 55018260 + Desconocido Karch & Goate 2015

Tabla 1. Mi panel actualizado de variantes nucleotídicas asociadas a riesgo de LOAD, realizado en 2016, ordenadas por cromosoma. Las 20 variantes que aparecen en negrita son las que integran el panel original pero no fueron usadas en los análisis (no integran el subpanel, fueron excluídas). Los SNPs utilizados, entonces, en los análisis son 41. El panel original en total tiene 61 variantes. Algunas son codificantes y otras no codificantes. En la tabla se incluye el código del SNP (rs), el gen o región génica asociada o más cercana (en el caso de aquellos cuya exacta ubicación sea más difícil de mapear), el cromosoma al cual pertenecen, la posición en el genoma, la hebra donde está (+ si es forward y – si es reverse), significancia clínica (si disminuye o aumenta el riesgo de padecer LOAD) y notas potencialmente importantes destacadas en los trabajos citados, y los trabajos de origen (“fuente”). Significado de las siglas: GWS = “Genome Wide Significance”, eQTL = “expression quantitative trait loci”, FT= factor de transcripción. Es importante aclarar que muchos de estos SNPs se localizan en regiones multigénicas, y de muchos no está claro todavía a qué gen corresponden. Los SNPs de la region KANSL1-LRRC37A son particularmente interesantes, a su vez, porque su señal de asociación se solapa con la región del gen MAPT.


ESTUDIO DE ESTRUCTURA POBLACIONAL

ANÁLISIS DE COMPONENTE PRINCIPAL

Al analizar cualquier set de datos genómicos es importante explorar si su población de

origen está estratificada; es decir, si la población es homogénea o si contiene subgrupos

genéticamente diferenciados. En investigaciones de genética médica esto es especialmente

importante, ya que en algunos estudios el desconocimiento de la estructura puede ocasionar

falsos positivos.

El análisis de componente principal (principal component analysis, PCA) es una

herramienta estadística que nos permite estudiar esto a partir de datos; maximiza la variación

existente en los datos y permite detectar patrones significativos que los subdivida en grupos.

Puede aplicarse a datos genómicos, como es el caso de este trabajo.

La matemática que subyace al análisis básico con marcadores bialélicos está

prolijamente explicada en Patterson et al 2006 (Patterson, Price, & Reich 2006). A grandes

rasgos, el PCA realiza una transformación ortogonal que genera un nuevo sistema de

coordenadas, donde cada eje se denomina componente principal y representa el grado de

variación según un determinado marcador. Los ejes de la gráfica representan los

componentes principales, y hay una cantidad menor o igual al número de marcadores, por lo

cual se genera una figura multidimensional ( dimensiones, siendo el número de

marcadores) que posteriormente es reducida a un gráfico de dos dimensiones utilizando el

primer y segundo componente (o 3D, usando los primeros tres) permitiendo así su sencilla

visualización. Como los primeros componentes principales son los que captan la mayor

variación de los datos, se puede reducir el número de dimensiones sin perder demasiada

información.

Figura 10. Análisis de componente principal de la población de Italia (Parolo et al. 2015).

Informe de Pasantía de Grado – Licenciatura en Biología Humana Melanie Nuesch

23

El PCA con datos genómicos resulta en una gráfica donde cómodamente se puede

visualizar si existen subgrupos de individuos o no, donde cada individuo es un punto y cada

grupo es una agrupación discreta de puntos. Si se observa que los individuos forman un gran

conjunto de puntos homogéneos, entonces no habría estructura poblacional aparente

(considerando que la PCA se realizó correctamente, teniendo en cuenta las asunciones que

este procedimiento conlleva); si se ven subconjuntos homogéneos y separados se podría

asumir cierta estructuración poblacional (se puede pensar que existen subgrupos de

individuos distintos genéticamente; ver Figura 10 a modo de ejemplo de gráfico de PCA).

Con respecto a los datos genómicos se puede aplicar a SNPs, microsatélites,

frecuencias de haplotipos y distribución de inserciones de secuencias Alu, los cuales se

utilizan como marcadores; los grupos se clasifican en función de ellos, y en este trabajo los

marcadores usados fueron SNPs.

PROCEDIMIENTO

Se realizaron dos análisis de componente principal. El primero fue hecho utilizando

77249819 marcadores, para reproducir los PCA observados en la literatura que ilustran la

estructura poblacional observada en las poblaciones humanas de los 1000 genomas. Tal

número se eligió porque es el número total de marcadores disponibles en el archivo VCF de

los 1000 genomas (o sea, se utilizó cada posición secuenciada como marcador, para tener el

mayor poder de resolución posible), el cual es significativo para visualizar estructuración

poblacional.

El segundo PCA fue hecho con 41 marcadores (los SNPs del subpanel de riesgo para

LOAD), para estudiar puntualmente si hay subgrupos que presenten determinadas variantes

específicas o si se distribuyen de forma homogénea en la población mundial.

Hay que tener en cuenta, sin embargo, que 41 no es un número de marcadores que arroje un

poder de resolución significativo para sacar conclusiones significativas acerca de esto último.

Se descargaron los archivos VCF (separados por cromosoma) de la página de los

1000 genomas, los cuales se concatenaron con VCFtools. Con Plink se extrajo la información

respecto a los marcadores utilizados (generó un archivo VCF más pequeño solamente con la

información de los 41 SNPs de LOAD interés, para el segundo análisis, y para el primero se

utilizó el archivo original con todos sus marcadores). Estos pasos a su vez facilitaron el poder

unir posteriormente estos archivos con los de los uruguayos, necesario para los análisis

subsiguientes.

Se realizó el análisis de componente principal en Plink, el cual resultó en una tabla

con los 20 primeros componentes principales, de los cuales el primero, segundo y tercero

fueron graficados en R para la visualización del análisis.

Para ver el código referirse a la sección ¨Código del Estudio de Estructura Poblacional¨ en el

Anexo.

ANÁLISIS DE EQUILIBRIO DE HARDY-WEINBERG

En ausencia de migración, mutación, selección natural y apareamientos selectivos, las

frecuencias genotípicas en cualquier locus es una función simple de las frecuencias alélicas.


24

Este fenómeno fue descrito por primera vez por Hardy y Weinberg como “equilibrio de

Hardy-Weinberg” (Hardy, 1908; Weinberg, 1908) y, hoy en día, explorar si los genotipos

observados se ajustan a las expectaciones de dicho modelo se ha vuelto un procedimiento de

rutina en estudios de asociación genética. A pesar de la falta de realismo en sus asunciones,

las expectativas del modelo parecen cumplirse para las poblaciones humanas, y una

desviación de éstas proporciones puede darse como producto de errores de genotipado

(Hosking et al., 2004; Attia et al., 2010), evidencia de estructuración poblacional o asociación

entre algún marcador genético y alguna enfermedad.

Recordemos brevemente las asunciones del susodicho modelo (Lessa, 2004):

La población está formada por organismos diploides.

La reproducción es sexuada.

Las generaciones no se solapan.

El gen considerado es autosómico.

No hay diferencia de frecuencias alélicas entre los sexos.

Los apareamientos ocurren al azar.

La población es de tamaño infinito.

No existe migración desde otras poblaciones.

No hay mutación.

La selección natural no opera sobre el gen considerado.

Por el momento hay tres clases de procedimientos estadísticos que se utilizan para

estudiar si un genotipo observado se ajusta a las proporciones HW (Graffelman & Moreno,

2013). La primera clase comprende el clásico test de chi-cuadrado ( ) para bondad de

ajuste, el cual testea si el conteo de genotipos es compatible con una distribución multinomial

teniendo en cuenta las frecuencias alélicas observadas, y del cual se generaron variaciones y

correcciones para tener en cuenta casos particulares, como alelos menores de frecuencias

muy pequeñas (Elston & Forthofer, 1997; Emigh, 1980; Smith, 1986; Graffelman & Morales-

Camarena, 2008). La segunda clase comprende a la familia de test exactos, como el test

exacto de Fisher, los cuales se caracterizan por poder calcular de forma exacta el nivel de

desviación respecto a una hipótesis nula (ej. p-valor), en lugar de aproximarlo cuando el

límite del tamaño poblacional tiende a infinito, como lo hacen varios otros tests (llamados de

aproximación, u asintóticos; Graffelman & Moreno, 2013), y es la que se utilizará en este

trabajo. Esto es debido a que se vio que este método reduce los errores de tipo I respecto a chi

cuadrado, en particular en muestras de características semejantes a las utilizadas en este

trabajo (Wigginton, Cutler & Abecasis, 2005). La tercera clase comprende métodos

bayesianos (Wakefield, 2010).

PROCEDIMIENTO

Para este análisis se utilizó la opción --hardy en Plink, el cual produce una lista de las

variantes y sus p-valores (el p valor del test exacto de si el genotipo de esa variante se ajusta a

lo esperado por HW en esa población en particular). La hipótesis nula del test es que la

población posee un genotipo cuyas proporciones se ajustan al modelo de equilibrio de Hardy-

Weinberg, y la alternativa es que no.


25

El modificador midp fue añadido en la línea de comando, por recomendación en la literatura

de Plink (Chang et al., 2017; Purcell, 2010, Graffelman & Moreno, 2013), ya que se ha vio

que al usarlo se disminuye la probabilidad de cometer errores de tipo I (falsos positivos) en el

análisis y se aumenta la potencia (“power”, capacidad de resolución para identificar un

evento biológico significativo), por lo cual ayuda a filtrar errores de genotipado y variables

con valores perdidos, sobre todo en casos donde la frecuencia alélica menor es pequeña.

El detalle matemático del procedimiento genérico del test exacto para equilibrio HW,

para entender la lógica detrás de los programas que se utilizaron, se encuentra prolijamente

explicado también en Graffelman et al 2013. El detalle del procedimiento exacto que está por

detrás del programa específico (--hardy en Plink) utilizado en este trabajo se encuentra en

(Wigginton, Cutler & Abecasis, 2005), el cual es más preciso al estudiar genotipos raros que

otras versiones y por eso se implementó en Plink (Purcell, 2010).

Se analizaron los SNP del subpanel en cada población por separado, y luego se

filtraron aquellos cuyo p-valor es menor a 0.05. Para aquellas variantes cuyos p-valores sean

menores a 0.05, se rechaza la hipótesis nula y se consideran que no están en equilibrio HW en

esa población en particular. El código utilizado se encuentra en el Anexo.

CÁLCULO DE FRECUENCIAS ALÉLICAS EN SUPERPOBLACIONES

Para estudiar la riqueza del acervo genético de una población, o simplemente como

paso previo a un gran número de análisis, calcular las frecuencias alélicas es de gran

importancia en este tipo de estudios. Asimismo, para comparar frecuencias entre poblaciones

a modo de poder discutir diferencias fenotípicas, como podría ser una diferencia en la

predisposición a determinada enfermedad, es útil calcularlas (las observadas, a partir de datos

experimentales, y las esperadas, a partir de modelos como el de Hardy-Weinberg) y

compararlas mediante estadísticos que evidencien si hay una diferencia significativa.

Una medida de la variación en la frecuencia alélica entre diferentes poblaciones, para

un locus con dos alelos, es el índice de fijación, FST, el cual se utilizará en este trabajo y fue

definido por Wright de la siguiente forma:

Donde es la frecuencia promedio para uno de los alelos, y Vq es la varianza de

dicha frecuencia en las poblaciones estudiadas (Futuyma, 2013; Holsinger & Weir, 2009).

Para un locus con más alelos se utiliza otra medida comparable, GST. Ambos, FST y GST, van

del 0 (no hay variación entre las poblaciones) al 1 (las poblaciones tienen distintos alelos

fijados).

El ritmo al cual dos poblaciones cambian el sentido de la deriva genética, de la

fijación de un alelo a otro, es inversamente proporcional al tamaño efectivo de la población,

Ne. Sin embargo, la deriva hacia la fijación es contrarrestada por el flujo génico desde otras

poblaciones, a un ritmo m. Estos factores llegan a un punto de equilibrio, donde FST es

aproximadamente:


26

La cantidad Nem es la cantidad de inmigrantes por generación. Si m=1/N, o sea, un

solo individuo por generación es inmigrante, entonces Nem=1 y FST=0.20. Es decir, incluso

un escaso flujo génico acerca a ambas poblaciones en cuanto a sus frecuencias alélicas, y la

heterocigosidad permanece alta. Si las frecuencias alélicas de dos poblaciones varían en gran

medida, podemos pensar que el flujo génico entre ellas es bajo.

Para los alelos a los cuales calculemos su FST, debemos asumir que son neutrales

respecto a la selección (para que el efecto de la selección no se confunda con las diferencias

en el flujo génico). La deriva genética y el flujo génico afectan a todos los loci por igual,

mientras que la selección natural afecta de forma diferencial. Por ende, si nosotros

calculamos FST para distintos locus (por ejemplo, entre neutrales y candidatos a selección) y

nos dan valores similares, podemos pensar que la acción de la selección natural no fue muy

fuerte. Si la variación alélica en la mayoría de los loci es selectivamente neutral y su taza de

mutación es la misma (o similar), se puede considerar que los loci que se designen como

outliers están sujetos a presión selectiva divergente.

El valor de FST entre “razas” humanas es aproximadamente 0.088 (Elhaik, 2012), y el

umbral de equilibrio para establecer los valores atípicos en este trabajo se fijó en FST=0.1 (o

sea, los valores atípicos serán aquellos con FST>0.1), siguiendo las simulaciones realizadas en

el trabajo de Guo, Dey & Holsinger, 2009. Lo ideal sería calcular el valor de equilibrio

específico para estos datos utilizando datos de migración y tamaños efectivos de poblaciones,

pero para los propósitos de este trabajo se decidió utilizar lo nombrado anteriormente. Las

poblaciones humanas están fijadas para diferentes alelos en muy pocos loci, y algunos de

esos casos particulares comprenden loci desencadenantes de patologías. En general, las

frecuencias alélicas de SNPs pueden variar un poco entre poblaciones, pero se espera que a

grandes rasgos sean muy similares.

En particular, los SNPs rs2279590, rs11136000 y rs9331888 (locus CLU) forman

parte de un haplotipo cuya interacción fue asociada con mayor riesgo para LOAD (haplotipo

CCG; Harold et al., 2009; Yu et al., 2010), y presentan una moderna y robusta literatura en

poblaciones de distintas etnias comparadas con japoneses; Shuai et al., 2015. Al tener los

japoneses mayor incidencia de demencia respecto a las demás muestras (7.0%), una hipótesis

interesante que se exploró fue que los alelos de estos SNPs de CLU tengan mayor frecuencia

en dicha población. Con este fin, se compararon los conteos genotípicos de estos SNPs en

japoneses, por test de chi-cuadrado (para saber si la diferencia es significativa), con los de

africanos Sub-Sahara del oeste (elegidos por ser la muestra con menor valor de prevalencia,

3.1%). Los conteos se calcularon con --frqx en Plink.

Las frecuencias alélicas fueron calculadas con la opción --freq en Plink, la cual da

como resultado una tabla con los valores para los alelos de cada variante. Se hizo para las 5

superpoblaciones, 2 muestras uruguayas, africanos Sub-Sahara del oeste (ESN, GWD, MSL y

YRI) y japoneses (JPT). Las superpoblaciones se eligieron para comparar las grandes

regiones del mundo; los uruguayos, para caracterizar las frecuencias de SNPs de LOAD en

nuestro país; los africanos Sub-Sahara del oeste y los japoneses fueron seleccionados por lo

explicado anteriormente. Con la frecuencia del alelo menor calculada se realizó un heatmap

para poder visualizar de forma más cómoda las diferencias entre poblaciones y SNPs.

Con --fst en Plink se calculó FST para cada SNP entre las 5 superpoblaciones de los

1000genomas y 2 muestras uruguayas (Tabla 4), con el método propuesto en Weir &

Cockerham, 1984. El código está en el anexo.


27

RESULTADOS

RESULTADOS DEL ESTUDIO DE ESTRUCTURA POBLACIONAL

Respecto a los análisis realizados con 77249819 marcadores, se logró exitosamente

obtener la estructura esperada de acuerdo a trabajos anteriores con los datos de los 1000

genomas (Lu & Xu, 2013; Duforet-frebourg et al., 2015). En la Figura 11 se observa la

agrupación coloreada por poblaciones, mientras que en las figuras 11 y 13 se colorearon

principalmente por superpoblación. Básicamente, se observa un subgrupo diferenciado por

cada superpoblación (Figuras 12 y 13). Los europeos y asiáticos parecerían formar grupos

más compactos, con menor dispersión de puntos, mientras que la de africanos y amerindios

parece ser mayor (Figura 12).

Respecto a los análisis realizados con los 41 marcadores de riesgo de LOAD, no

observamos una agrupación significativa a nivel de poblaciones (y muestras uruguayas) para

esas variantes, lo cual es esperable por el bajo número de marcadores utilizado (Figura 14).

Sin embargo, a nivel de superpoblaciones vemos que los africanos parecen mostrar cierto

grado mayor de agrupación respecto a los otros (Figuras 15a y 16).

En las muestras de uruguayos tampoco se ve patrón de agrupación significativa

(Figura 15b), y su dispersión es similar a la vista en otras muestras, sobre todo comparado

con europeos, amerindios y asiáticos del sur (Figura 15a).

UTILIZANDO 342359 MARCADORES


28

Figura 11. Gráfico del primer componente principal versus el segundo de los datos de los 1000 genomas; 2504 individuos y 77249819 marcadores (no se incluyeron las dos muestras uruguayas). Coloreado según las poblaciones de la Tabla 2; cada punto representa un individuo.

Figura 12. Gráfico del primer componente principal versus el segundo de los datos de los 1000 genomas. 2504 individuos y 77249819 marcadores (no se incluyeron uruguayos). Cada punto representa un individuo. Coloreado según las superpoblaciones (AFR=africanos, AMR=amerindios, EAS=asiáticos del este, EUR=europeos, SAS=asiáticos del sur). Se pueden visualizar cuatro grandes agrupaciones: europeos, africanos, asiáticos del este, y amerindios-asiáticos del sur.

Figura 13. Gráfico del primer componente principal versus el segundo y el tercero de los

datos de los 1000 genomas. 2504 individuos y 77249819 marcadores (no se incluyeron uruguayos). Mismas referncias que la figura 12. En 3D se destaca la separación de los asiáticos del sur (rosados) en otro plano, lo cual en 2D no puede contemplarse y puede dar la falsa impresión de mezclarse con los amerindios (verdes). La perspectiva parecería mostrar que los europeos (azules) están junto con los amerindios, pero si se girase la gráfica se vería que están separados. Los amarillos son los asiáticos del este, y los rojos los africanos.


29

UTILIZANDO LOS 41 MARCADORES DE ALZHEIMER DE INICIO TARDÍO

Figura 14. Gráfico del primer componente principal versus el segundo, coloreado según las

28 muestras (1000 genomas (poblaciones de la Tabla 2) y uruguayos; AFROURU = afrouruguayos e IND = nativos). Se observa una dispersión bastante homogenea entre las poblaciones, lo que se interpreta como ausencia de estructuración poblacional. Esto es consistente con el bajo número de marcadores utilizado.

Figura 15a. Gráfico del primer componente principal versus el segundo, coloreado según las 5 superpoblaciones y los uruguayos en negro. A grandes rasgos, se podría pensar que los africanos presentan cierto grado de agrupamiento con respecto a los otros.


30

Figura 15b. Mismo gráfico de la figura 15 coloreado distinto para resaltar a los uruguayos.

Figura 16. Gráfico del primer componente principal versus el segundo y el tercero (3D). El código de colores es el mismo que el del gráfico anterior.


31

RESULTADOS DEL ESTUDIO DE EQUILIBRIO DE HARDY-WEINBERG

Tras analizar cada población por separado con el subpanel, se encontró que se rechazó

la hipótesis nula con un nivel de significancia del 0.05 en 32 SNPs en distintas poblaciones,

considerando entonces que los mismos no están en equilibrio de Hardy-Weinberg en la

población en cuestión. En la Tabla 3 a continuación se muestran los 61 resultados con sus

respectivos p-valores y población (son 61 porque un mismo SNP puede estar en desequilibrio

en más de una población a la vez, el cual fue el caso para varios).

Cromosoma SNP ID Significancia

Clínica Población Superpoblación

14 rs10498633 - PEL, PJL AMR, SAS

11 rs10792832 - AFROURU URU

11 rs10838725 - CLM, GBR AMR, EUR

6 rs10948363 Aumenta ACB AFR

8 rs11136000 Disminuye MSL AFR

5 rs11168036 Ver Tabla 1 LWK AFR

17 rs112665297

Ver Tabla 1 CEU, CLM, GBR, IBS, PUR EUR, AMR

7 rs11767557 Disminuye GIH SAS

7 rs11771145 Disminuye IBS EUR

19 rs12459419 Disminuye TSI EUR

7 rs1476679 - FIN EUR

7 rs1595014 - GIH, ITU, MXL SAS, AMR

17 rs2668626 Ver Tabla 1 CEU, CLM, GBR, IBS, PUR EUR, AMR

8 rs28834970 - CDX, ITU EAS, SAS



2 rs35349669 - CEU EUR

19 rs3764650 Aumenta GIH, MSL, STU SAS, AFR

1 rs3818361 Aumenta CEU, LWK EUR, AFR

11 rs3851179 Disminuye AFROURU URU

19 rs3865444 Disminuye TSI EUR

19 rs4147929 Aumenta ASW, ITU, STU AFR, SAS

11 rs541458 Disminuye PUR AMR

11 rs670139 Aumenta IND, TSI URU, EUR

2 rs6733839 Aumenta GIH, PUR SAS, AMR

8 rs7012010 Disminuye GBR EUR

2 rs7561528 Aumenta ACB, MXL AFR, AMR



32

8 rs9331888 Ver Tabla 1 FIN EUR

8 rs9331896 Ver Tabla 1 YRI AFR


11 rs983392 Disminuye FIN EUR

Tabla 3. Con Plink –hardy se analizaron los SNPs del subpanel en cada población por

separado (28 análisis, uno por población, de 41 SNPs cada uno, lo que da un total de 1148 resultados en total). Se concatenó una tabla con los 1148 resultados y se filtraron aquellos resultados con p-valor menor a 0.05 (los significativos, que resultaron ser 61; 31 SNPs del subpanel, algunos en desequilibrio en más de una población a la vez). Con esos 61 resultados se generó esta tabla, listando los 31 SNPs e indicando en qué población(es) se detectó el desequilibrio. Para estos SNPs cuyos p-valores resultaron ser menores a 0.05, se rechazó la hipótesis nula (que el genotipo se ajusta al equilibrio de HW) y por tanto se considera que no están en equilibrio en esa población en particular. La tabla completa con los p valores obtenidos en los análisis se encuentra en el anexo (Tabla 5). En verde se resaltan tres resultados uruguayos que serán discutidos en mayor detalle más adelante (ver Discusión). Las siglas son aquellas de las poblaciones de la Tabla 2, mas IND = nativos uruguayos y AFROURU = afrouruguayos. La columna de ¨Significancia Clínica¨ indica a grandes rasgos si el SNP aumenta o disminuye el riesgo de desarrollar LOAD, ¨-¨ si es desconocido, o ¨Ver Tabla 1¨ si su estatus no se puede resumir tan fácilmente.

De los 61 resultados de estos 31 SNPs, 10 son de poblaciones africanas, 14 de

amerindias, 3 de uruguayas, 23 de europeas, 1 de asiáticos del este y 10 de asiáticos del sur.

Los SNPs cuyos genotipos no se ajustan a lo esperado por HW en la población

africana son 10: rs10948363, rs11136000, rs11168036, rs3764650, rs3818361, rs4147929,

rs7561528, rs9296559, rs9331896 y rs9349407.

Los SNPs que no ajustaron en amerindios son 10: rs10498633, rs10838725,

rs112665297 (en dos poblaciones, colombianos y portorriqueños), rs1595014, rs2668626

(ídem), rs2942175 (ídem), rs2942177 (ídem), rs541458, rs6733839 y rs7561528.

En los uruguayos fueron 3: rs10792832 y rs3851179 en la población

afrodescendiente, y rs670139 en los nativos uruguayos. Los primeros dos solo se encontraron

en desequilibrio en uruguayos afrodescendientes y en ninguna otra población, por lo cual

parecería ser un comportamiento específico de ella.

En europeos, lo que no se ajustaron a las expectativas HW fueron 14: rs10838725,

rs112665297 (en tres poblaciones: CEU, GBR y IBS), rs11771145, rs12459419, rs1476679,

rs2668626 (ídem), rs2942175 (ídem), rs2942177 (ídem), rs35349669, rs3818361, rs3865444,

rs670139, rs7012010, rs9331888 y rs983392.

En asiáticos, el único SNP fue rs28834970 en CDX (chinos Dai en Xishuangbanna,

China). Interesantemente, el mismo SNP tampoco está en equilibrio en una población de

asiáticos del sur, ITU (Telugus (India) en Reino Unido), pero está en equilibrio en todas las

demás, por lo cual parecería que este comportamiento sería propio de los asiáticos.

En asiáticos del sur, los SNPs que no ajustaron fueron 7: rs10498633, rs11767557, rs1595014

(en dos poblaciones: GIH e ITU), rs28834970, rs3764650 (en GIH y STU), rs4147929 (en

ITU y STU) y rs6733839.


33

Figura 17. SNPs que no están en equilibrio de Hardy-Weinberg en más de una superpoblación a la vez. Los SNPs en los recuadros grises no están en equilibrio en las dos poblaciones indicadas en los círculos localizados inmediatamente arriba de cada recuadro. Los asteriscos marcan a aquellos SNPs que, dentro de esas superpoblaciones, a su vez no están en equilibrio en tres o más poblaciones (las cuales se pueden ver en la Tabla 3).

Algunos SNPs se vio que están en desequilibrio en dos superpoblaciones a la vez

(Figura 17) y, dentro de esas superpoblaciones, a veces hasta en tres o más poblaciones a la

vez (en la Tabla 3 se puede ver cuáles son).

Cabe destacar que los SNPs rs112665297, rs2668626, rs2942175 y rs2942177 están

en desequilibrio en tres poblaciones europeas y dos amerindias (específicamente, en CEU,

CLM, PUR, IBS y GBR).

También, que el SNP rs670139 se encuentra en desequilibrio en dos poblaciones a la

vez: nativos uruguayos y europeos italianos de Toscana.


34

RESULTADOS DEL ESTUDIO DE FRECUENCIA ALÉLICA

Figura 18. Heatmap que muestra, de forma comparativa, las frecuencias alélicas calculadas

de los 41 SNPs de riesgo para LOAD en las distintas superpoblaciones, dos poblaciones uruguayas (IND y AFROURU), japoneses (JPT) y africanos Sub-Sahara del oeste (WSSA).

En la Figura 18 se tiene un pantallazo visual y comparativo de las frecuencias alélicas

entre las distintas poblaciones (se graficó la frecuencia del alelo menor). Las tablas completas

de las frecuencias en las dos poblaciones de uruguayos se encuentran en el anexo (Tablas 7 y

8).

Recuérdese que las frecuencias alélicas de tres SNPs en japoneses y africanos

subsaharianos del oeste fueron calculadas y comparadas, para ver si una diferencia

significativa entre dichos valores acompañaba sus diferencias observadas en prevalencia de

demencia. En japoneses, las frecuencias alélicas para los tres SNPs del gen CLU, vinculados

al haplotipo CCG asociado con riesgo para LOAD, fueron las siguientes: 0.8 para el alelo

mayor C de rs2279590, 0.8 para el alelo mayor C de rs11136000 y 0.5 para el alelo menor G

de rs9331888. En africanos Sub-Sahara del oeste, las frecuencias fueron las siguientes: 0.8

para el alelo mayor C de rs2279590, 0.6 para el alelo mayor C de rs11136000 y 0.3 para el

alelo menor G de rs9331888. El test de chi-cuadrado entre ambas poblaciones indicó que la

diferencia en las frecuencias alélicas de dichos SNPs es significativa (los p-valores dieron

menores a 2.2-16

). Al calcular los conteos genotípicos, se vio que el conteo de homocigotas

para el alelo T es igual a cero en los africanos Sub-Sahara del oeste.


35

Figura 19. Valores promedio de FST para los distintos SNPs en las 5 superpoblaciones de los 1000genomas y 2 poblaciones Uruguayas, en función de la posición genómica (en pares de bases) por cromosoma. Los valores en verde son mayores al valor de equilibrio establecido (FST>0.1) y en negro los menores (FST < 0.1). Cada punto representa un SNP.

Se buscó visualizar la ubicación general en el genoma de aquellos SNPs con Fst grandes, para ver si están sobrerepresentados en alguna región particular. Se ve mayor cantidad de SNPs con FST>0.1 en los cromosomas 7, 11, 17 y 19.

El FST total promedio estimado entre las poblaciones considerando todos los sitios es 0.086 (el cual da una medida aproximada de qué tan distintas son las poblaciones entre sí considerando todos los marcadores). En la Tabla 6 en el Anexo se encuentran los valores promedio de FST para cada SNP en las diferentes poblaciones.

Con respecto a los resultados de los cálculos de FST, 17 SNPs obtuvieron valores de

FST por encima del valor de equilibrio 0.1 (Figura 19). Esto sugiere que estos SNPs pueden

estar asociados a regiones genómicas las cuales fueron sujetas a selección diversificadora

entre poblaciones (Guo, Dey & Holsinger, 2009). Los SNPs con FST mayor a 0.1 fueron:

rs10838725, rs112665297, rs12459419, rs1476679, rs16847609, rs190982, rs2279590,

rs2668626, rs2718058, rs2942175, rs2942177, rs35349669, rs3818361, rs3865444,

rs4147929, rs8093731 y rs983392 (Tabla 4), y a su vez fueron calculados los FST entre pares

de poblaciones, para ver cuál (o cuáles) era la responsable de la diferencia. Si se observan las

frecuencias de cada SNP en la figura 18 se verá una clara concordancia con estos datos

(aquellos cuyas frecuencias alélicas difieren más entre poblaciones tendrán mayores valores

de FST).

Cabe destacar que no se consideraron, en la Tabla 4, los FST de las comparaciones

hechas con alguna población uruguaya, debido a que el pequeño tamaño de la muestra

uruguaya tiende a sobreestimar el valor de FST. Por ejemplo, para el primer SNP (rs4147929,

ABC7), la mayor diferencia de frecuencias está entre los africanos y los asiáticos del este,


36

con un FST de 0.36. Si se calcula el FST entre africanos y nativos uruguayos da un valor de

0.43, lo cual es un artefacto por el pequeño tamaño de muestra nativa uruguaya (N=10).

Los cálculos de FST no necesariamente necesitarían un tamaño de muestra grande para

ser representativos; si se usan suficientes marcadores se puede lograr (Willing, Dreyer &

Oosterhout, 2012). Sin embargo, como en este trabajo se utilizaron solamente 41 (los SNPs

de LOAD), y las muestras de los uruguayos son de 10 individuos, ya se puede predecir que el

FST calculado para ellos estará sobreestimado.

La figura 19 da un pantallazo general, exploratorio; si se observa algún SNP que

tenga un Fst mayor al umbral definido (como vemos en la gráfica en color verde), éste se

vuelve un candidato interesante a estudiar más a fondo. ¿Hay alguna población en particular

que sea responsable de esta diferencia en frecuencias alélicas? Para responder esta

interrogante se observan las comparaciones entre pares de poblaciones para cada SNP, para

ver en qué población el Fst se diferenció significativamente de las demás (Tabla 4).

Patología SNP ID Gen Cercano CHR Posición Mayor FST

COLM/INM rs4147929 ABCA7 19 1063443 0.36 (AFR-EAS)

COLM rs2279590 CLU 8 27456253 0.31 (AFR-EUR)

DES rs8093731 DSG2 18 29088958 0.24 (AFR-todas)

DES rs2718058 NME8 7 37841534 0.35 (AFR-SAS)

DES rs112665297 KANSL1-LRRC37A 17 44348634 0.19 (EUR-EAS)




DES rs10838725 CELF1 11 47557871 0.50 (AFR-SAS)

INM rs3865444 CD33 19 51727962 0.44 (AFR-AMR)

INM rs12459419 CD33 19 51728477 0.44 (AFR-AMR)

INM rs983392 MS4A 11 59923508 0.47 (AFR-SAS)

DES rs190982 MEF2C 5 88223420 0.27 (AFR-SAS)

DES rs1476679 ZCWPW1 7 100004446 0.34 (AFR-EAS)

DES rs16847609 SOX14-CLDN18 3 137650736 0.19 (AFR-SAS)

INM rs3818361 CR1 1 207784968 0.29 (AFR-SAS)

DES rs35349669 INPP5D 2 234068476 0.43 (EUR-EAS)

Tabla 4. Los 17 SNPs que tienen FST > 0.1, indicando código de SNP, gen/región cercana a la

cual está asociado, cromosoma (CHR) y posición en el genoma. La primera columna indica a qué categoría patofisiológica del Alzheimer pertenecen (COLM= metabolismo del colesterol, INM= respuesta inmune, DES = desconocido, como descritas en Karch & Goate, 2015). La última columna indica el mayor valor obtenido de FST al comparar pares de poblaciones, y también se indica en qué par de poblaciones se encontró, el cual refleja cuáles tienen mayor diferencia de frecuencias alélicas para el SNP en cuestión. Cuanto mayor es el FST, mayor es la divergencia entre dichas poblaciones.


37

DISCUSIÓN

En este trabajo se realizaron estudios genético-poblacionales para 41 polimorfismos

de riesgo de LOAD, utilizando 2504 secuencias de 28 poblaciones del mundo, entre ellas dos

uruguayas. Se analizó estructura poblacional mediante análisis de componente principal, se

calcularon las frecuencias alélicas y se vio si encajaban con una distribución de equilibrio de

Hardy-Weinberg, y se compararon las frecuencias en las diferentes superpoblaciones

mediante el estadístico FST.

El propósito ulterior que subyace a este trabajo es utilizar las herramientas de la genómica

evolutiva y la bioinformática como fuente generadora de hipótesis de trabajo interesantes a

futuro que guíen investigaciones y avances en la neurociencia y genética médica, sobre todo

en patologías cuyos mecanismos fisiopatológicos requieren revisión (como LOAD) y,

siempre que sea posible, contemplando el caso particular de nuestro país. Éste es un punto

fuerte a destacar, ya que en marco de este propósito se seleccionaron algunos resultados a

discutir por sobre otros, no por ser los otros menos interesantes sino porque los seleccionados

aportan a dirigirnos hacia esa dirección.

Respecto a los análisis de estructura poblacional, se logró exitosamente reproducir

trabajos anteriores y visualizar la presencia de la estructura poblacional existente entre las

superpoblaciones humanas, utilizando un gran número de marcadores. Al utilizar solamente

los 41 marcadores de LOAD, no se vio que las poblaciones presentaran alguna agrupación

relevante, como era esperado. Sin embargo, se puede visualizar que los africanos esbozan

cierto grado de agrupación, lo cual llamó la atención. Sin embargo, cabe destacar que existe

cierto grado de separación genética entre africanos y el resto. Como los humanos se

dispersaron desde África al resto del mundo hace relativamente poco tiempo, la mayor parte

de la variación en poblaciones no-africanas es un subconjunto de la africana (Futuyma,

2013). Como el PCA es exploratorio, habría que confirmar si los africanos efectivamente

forman un grupo significativamente aparte, en este contexto; un posible paso a seguir sería

realizar un análisis de grupos (cluster analysis). Además, hay métodos matemáticos para

descomponer los componentes principales y averiguar qué genes son los responsables de esa

separación (como en Parolo et al. 2015, ver Figura 10, que se realizó para los habitantes de

regiones italianas y, correlacionando a su vez con datos clínicos, históricos y geográficos, se

encontraron diferencias a nivel de genes de respuesta inmune y se le dio un correlato

ambiental).

Con respecto a la interpretación de los resultados de equilibrio de Hardy-Weinberg hay

que tener ciertas consideraciones. Para los SNPs en desequilibrio no podemos concluir más

allá que alguna de las asunciones del modelo no se está cumpliendo (como que el

apareamiento no es al azar, o que hay fuerzas no neutrales actuando sobre el locus). También

puede pasar que haya algún artefacto, como el causado por la presencia de estructura

poblacional (el cual se podría eventualmente discutir teniendo los resultados del análisis de

grupos propuesto más arriba). A su vez, hay efectos genéticos (como dominancia, y otros)

que cambian la eficiencia de la estimación de las frecuencias alélicas, lo cual requiere utilizar

varias generaciones para compensarlo (Spiess, 1989). En este trabajo, se utilizó solo una

generación, lo cual nos da una instantánea de un momento histórico dado donde cada muestra

fue tomada, sin tener en consideración muchos factores de la compleja dinámica (y más aun

teniendo en cuenta tantos SNPs y tan diversos). Para poder concluir algo más robusto debería

afinarse más el modelo utilizado para cada variante, teniendo en cuenta todos estos asuntos.


38

Respecto a los SNPs que no ajustan a los valores esperados de equilibrio en más de una

población a la vez, este análisis por sí solo no aclara cuál(es) de las asunciones de Hardy-

Weinberg no se está cumpliendo, por lo cual de momento no se puede afirmar más que esto,

aunque la estructura poblacional que se demostró que existe entre las superpoblaciones

podría estar contribuyendo.

A pesar de lo anterior, uno de los SNPs en desequilibrio de Hardy-Weinberg

interesantes a discutir es rs670139, el cual está en desequilibrio en nativos uruguayos y

europeos italianos de Toscana. Cabe comentar que encontrar este tipo de coincidencias entre

italianos y uruguayos tiene sentido debido a la gran migración italiana que ocurrió entre los

años 40 y 60 hacia el territorio uruguayo (Pi Hugarte, 2001). Este SNP pertenece a MS4A, un

locus multigénico asociado a la respuesta inmune, que no solo ha sido asociado a un aumento

de riesgo para LOAD en individuos APOE ε4 -, sino que recientemente también se observó

que está involucrado en interacciones epistáticas, que influyen aún más en el riesgo para

LOAD (Ebbert et al., 2016). En particular, la interacción de MS4A4E con el SNP

rs11136000 del locus CLU en sujetos APOE4-, la cual no existe en APOE4+. Además,

luego de APOE y TREM2, son las variantes de riesgo para LOAD con la mayor razón de

probabilidades (odds ratio), sugiriendo que puede tener un rol importante en la etiología de la

enfermedad, en particular si se interesa expandir el abanico de mecanismos posibles. Como

Uruguay a su vez es uno de los países de la región con mayor envejecimiento, sería

interesante ahondar en la dinámica evolutiva de esta variante, su interacción con CLU en

uruguayos y comparar esto con datos clínicos del país y ver si hay una correlación, ya que

podría eventualmente abrir una nueva línea de investigación hacia potenciales diagnósticos y

terapéuticos en el país. Según Ebbert et al. 2016, el modelo vigente sugiere que

aproximadamente un 8% de la incidencia de LOAD disminuiría si se eliminan ambos alelos

mayores de CLU y MS4A4E. Otro análisis que habría que hacer, al tener una muestra más

representativa de los uruguayos, sería ver si este SNP tampoco está en equilibrio en el resto

de la población o es exclusivo de los nativos uruguayos (por ejemplo, en los afrouruguayos

no se vio).

Otro resultado de la muestra uruguaya que llamó la atención fue el de los SNPs en

desequilibrio de Hardy-Weinberg en el locus PICALM (rs10792832 y rs3851179). Estos

SNPs solo se encontraron en desequilibrio en la muestra uruguaya afrodescendiente, y son

dos variantes que se han asociado con un menor riesgo para LOAD (protectoras;(Harold et

al., 2009; Lambert et al., 2009; Lambert et al., 2013). PICALM codifica para una proteína

involucrada en el ensamblaje de las vesículas de clatrina, la proteína de ensamblaje de

clatrina de unión a fosfatidilinositol (phosphatidylinositol binding clathrin assembly protein),

la cual se expresa predominantemente en neuronas y colocaliza in vivo e in vitro con APP

(Xiao et al., 2012). La misma a su vez juega un rol esencial en la fusión de vesículas

sinápticas (Harel et al., 2008), se cree que puede tener un rol también en el clearance del beta

amiloide por autofagia (Tian et al., 2013). También se ha visto que modula toxicidad mediada

por beta amiloide (Treusch et al., 2011) y su disrupción altera el tráfico de APP in vitro y

genera formación de placas de amiloide en modelos transgénicos de ratones con enfermedad

de Alzheimer (Xiao et al., 2012). Si se confirmase posteriormente que la población

afrodescendiente uruguaya presenta frecuencias alélicas para dichos SNPs significativamente

diferentes a las demás poblaciones, sería bueno caracterizar el cambio (si disminuyen o

aumentan), comparar con datos clínicos y buscar el mecanismo subyacente. Lo curioso es que

en poblaciones africanas esto no se observa; es particular de aquellos afrodescendientes que

viven en Uruguay, y en las muestras africanas parecen estar en equilibrio. En el caso


39

hipotético de que las frecuencias aumentaran en afrodescendientes, y los datos clínicos

indicaran que ellos padecen significativamente menos Alzheimer, habría que estudiar qué

factores biológicos o culturales pueden estar siendo responsables de esa protección.

Debe aclararse que de todos los SNPs en desequilibrio se eligió discutir esos dos

porque están enmarcado en un mecanismo patológico que en el presente año ha estado siendo

estudiado exhaustivamente por investigadores de todo el mundo, y porque mostraron un

comportamiento singular y llamativo en una población uruguaya. Respecto al SNP de MS4A,

hay una creciente tendencia a dejar de buscar mecanismos de SNPs aislados en particular y

buscar efectos epistáticos entre ellos que logren explicar un mayor porcentaje de la

enfermedad, de los cuales el efecto CLU-MS4A es de los más caracterizados. Para los

objetivos de este informe de pasantía de grado se decidió profundizar y discutir solamente en

esos; sin embargo, todos los SNPs que demostraron estar en desequilibrio tienen el potencial

de plantear hipótesis interesantes para estudiar LOAD en sus poblaciones de origen.

Respecto a los resultados de la tercera parte, las poblaciones parecen ser bastante

genéticamente similares entre sí (al menos a grandes rasgos) y, respecto a los SNPs de

LOAD, algunos siguen ese patrón y otros no (es decir, en algunos sí se observa diferencia).

Debido a la historia evolutiva ya mencionada más arriba, las poblaciones del mundo son muy

similares genéticamente (el valor hallado en la literatura fue de FST=0.088, y el calculado en

este trabajo fue de 0.086, lo cual es consistente con decir que las poblaciones no están tan

alejadas genéticamente). Se estima que 89.9% de la variación genética es entre individuos,

2.1% entre poblaciones, y 9.0% es entre grandes regiones geográficas del mundo, por lo tanto

ver poca diferencia entre superpoblaciones es concordante también con la literatura (Li et al.,

2008). A su vez, el humano no presenta aislamiento reproductivo biológico entre razas, e

incluso las barreras culturales son usualmente superadas, por lo que hay entrecruzamiento

(admixture) entre grupos genéticamente diferenciados, lo que aporta a que haya una

diferencia gradual en lugar de tajante en la mayoría de los loci (si bien hay algunos donde se

pueden observar diferencias no graduales). Tanto en la figura 18 como en la Tabla 4 se puede

ver que las frecuencias de los SNPs en africanos se diferencian un poco más, en comparación

con las demás superpoblaciones, y tienen valores más extremos (en la Figura 18,

representados como celdas más azules o más blancas, en lugar de matices intermedios como

tienen, por ejemplo, los europeos), lo cual también es esperable según la literatura (Kittles &

Weiss, 2003), por ejemplo debido a su alta heterocigocidad y a su historia biogeográfica.

Respecto a los 17 SNPs con FST > 0.1 Tabla 4, se realizó una búsqueda bibliográfica y

se encontró que varios SNPs están asociados a otras enfermedades además de LOAD. Una

posible hipótesis que explique la diferencia de frecuencias (alto FST) entre las poblaciones en

cuestión podría ser que alguna de esas enfermedades estuviera bajo efecto de algún tipo de

selección en alguna de ellas, de forma diferencial, y así causar divergencia. En tal caso, sería

interesante y necesario acompañar con datos clínicos de dichas enfermedades en las

poblaciones en cuestión. Además, habría que realizar estudios complementarios de genómica

evolutiva que ahonden aún más en la dinámica del SNP, para asegurarnos de diferenciarlo de

efectos debido a la patología de LOAD. Se vio que hay más de un SNP con FST significativo

en los cromosomas 7, 11, 17 y 19 (Figura 19). Los cromosomas 7, 11 y 17 presenta una

cantidad inusualmente alta de segmentos duplicados de secuencia (segmental duplications), y

el cromosoma 19 presenta una densidad inusualmente alta de secuencias repetidas (repeats;

en el 19 en particular, gran cantidad de secuencias Alu) respecto a otras áreas del genoma

(Pevsner, 2015). Hay antecedentes que muestran que, al estudiar enfermedades humanas, hay


40

que tener en cuenta si la variante en cuestión está dentro de este tipo de regiones que poseen

una arquitectura genómica con una dinámica de recombinación y reorganización particular,

ya que la variación observada o ciertos efectos pueden deberse a la biología molecular

inherente de la región (en particular, Sharp et al. 2005 trata el tema de los segmentos

duplicados). Además, las zonas de secuencias repetidas han mostrado ser inestables y

responsables de generar una dinámica mutacional particular que ha sido asociadas a

enfermedades, entre ellos numerosos desórdenes neurológicos, neuromusculares y

neurodegenerativos (Pearson, Edamura & Cleary 2005). La mutabilidad en regiones

hipervariables requiere consideraciones especiales en estudios de dinámica poblacional o

variación geográfica como éste, ya que su efecto no es despreciable y en éste trabajo no se ha

tenido en cuenta, y hay modelos más complejos que podrían utilizarse para un análisis más

adecuado, como el modelo de mutación por pasos o “stepwise” (Lessa, 2004). Todo esto

podría estar influenciando los valores de FST y se podría asegurar una mayor robustez de

resultados asegurándose el uso de modelos más comprensivos en análisis futuros.

Sería pertinente a nuestros objetivos analizar y descartar las posibilidades anteriores y

descubrir que cierto SNP de riesgo para LOAD está siendo seleccionado por algún otro

factor; por ejemplo, que un factor (tanto protector como de riesgo) en cierta población esté

siendo seleccionado positiva o negativamente, por algún motivo (biológico, cultural, etc.), y

que eso se vea reflejado en un aumento o disminución de casos de LOAD. Esto podría abrir

puertas a nuevos métodos de prevención, quizás hasta conductuales, que idealmente es

incluso mejor que padecer la enfermedad y trabajar en un tratamiento.

Las dos muestras uruguayas manejadas fueron tan pequeñas que su valor de FST

tiende a sobreestimarse, por lo tanto, no se consideraron. Se necesitaría agrandar ambas

muestras uruguayas y volver a calcular FST. Además, como ya se explicó en Materiales y

Métodos, esta muestra no es representativa de la población uruguaya total, por lo que para

trasladar exitosamente cualquier resultado a la población general se debería diseñar una

nueva muestra acorde con los requisitos que un estudio de este estilo requiere y realizar estos

análisis en ella. Asimismo, en Uruguay se debería formar una base de datos clínica de LOAD

para poder acompañar esos estudios, ya que la validación clínica de los mismos es crucial.

Respecto a los resultados de frecuencias alélicas de los SNPs que conforman el

haplotipo de CLU, se vio que las mismas son significativamente mayores en japoneses

comparado con africanos SS del oeste. Al integrar esto con las estimaciones de prevalencia

de demencia en el mundo y los antecedentes del haplotipo, se plantea como hipótesis posible

que una mayor frecuencia de este haplotipo en la población japonesa pueda explicar, al

menos en cierto grado, el hecho de que dicha población tenga una prevalencia tan grande

(7.0%, y recordemos que la de africanos SS del oeste es de 3.1%, y que las demás

poblaciones poseen frecuencias intermedias). Sin embargo, debe aclararse que en este trabajo

no se estudiaron haplotipos sino SNPs, por lo cual este trabajo sirve como indicio para

justificar un futuro estudio de haplotipos, pero no sería correcto transpolar estos resultados de

frecuencias alélicas de SNP a haplotipos. Otra consideración a tener en cuenta es que las

estimaciones de prevalencia poseen varios puntos a pulir (Prince et al., 2015), por lo cual en

este trabajo se usaron como punto de referencia pero hay críticas fuertes para hacer. Una de

ellas es que la prevalencia fue calculada para un diagnóstico de demencia y no de Alzheimer,

por lo cual muy probablemente se esté sobreestimando. De todos modos, no desacredita este

resultado, ya que el Alzheimer es la causa de demencia más frecuente, por lo tanto, se


41

propone, como perspectiva, continuar estudiar al haplotipo mencionado en japoneses para ver

si la correlación se mantiene.

Un punto fuerte a tener en cuenta a lo largo de todo este trabajo es que la bibliografía

de LOAD carece, por el momento, de variantes causales conocidas detrás de los SNPs

asociados a riesgo (excepto por APOE). Los numerosos SNPs obtenidos en GWAS son

etiquetas que evidencian una asociación entre la región genómica y la enfermedad, pero el

SNP en sí es poco probable que sea el responsable directo. Es más probable que el SNP esté

en desequilibrio de ligamiento con una o más variantes causales que aún no están

identificadas, las cuales sí se relacionan directamente con el mecanismo etiológico, y esto es

algo que se debe resolver para poder seguir hilando más fino y llegar a resultados realmente

aplicables a la terapéutica. Eso, a su vez, debe ir en consonancia con resultados

experimentales de otras áreas como la biología molecular, celular, y ensayos clínicos.

CONCLUSIONES

Un panel genético actualizado de factores de riesgo de LOAD fue generado en el

marco de este trabajo, el cual puede ser utilizado para un sin fin de análisis posteriores o ser

utilizado como referencia bibliográfica para planificar investigaciones.

Las muestras uruguayas se pusieron a punto y unificaron junto con las de los

1000genomas generando una base de datos de genoma completo útil para realizar estudios

comparativos entre uruguayos y otras poblaciones, ya sea de LOAD o cualquier enfermedad.

Más allá de algunas consideraciones formales y/o técnicas, se lograron realizar

ampliamente los objetivos propuestos, algunos de ellos obteniendo resultados similares a la

literatura.

Como perspectiva, el resultado del SNP rs670139 (locus MS4A) sugiere una

interesante línea de investigación acerca de los efectos de la epístasis entre los loci MS4A (en

particular, MS4A4E) y CLU, en la dimensión inmunológica de LOAD en uruguayos, la cual

eventualmente podría resultar en aplicaciones diagnósticas o terapéuticas. Lo mismo para los

SNPs del locus PICALM rs10792832 y rs3851179. Para esto se requiere determinar estos

SNPs en la población uruguaya de forma representativa, y volver a realizar estos análisis.

Como segunda perspectiva, se sugiere estudiar la posible asociación del haplotipo

CCG del locus CLU (SNPs rs2279590, rs11136000 y rs9331888) con LOAD comparando

japoneses y africanos, ya que los datos de prevalencia de demencia y frecuencias alélicas de

SNPs parecerían indicar una posible correlación.

BIBLIOGRAFÍA

Aluise, Christopher D., Ren A S Robinson, Jian Cai, William M. Pierce, William R. Markesbery,

and D. Allan Butterfield. 2011. “Redox Proteomics Analysis of Brains from Subjects with Amnestic Mild Cognitive Impairment Compared to Brains from Subjects with Preclinical Alzheimer’s Disease: Insights into Memory Loss in MCI.” Journal of Alzheimer’s Disease


42

23 (2): 257–69. doi:10.3233/JAD-2010-101083. Alzheimer’s Disease International, and BUPA UK. 2013. “El Coste Y La Prevalencia Del

Alzheimer Y Otros Tipos de Demencia En América Latina.” Informe ADI/Bupa: La Demencia En América, 20.

Attia, J., A. Thakkinstian, P. McElduff, E. Milne, S. Dawson, R. Scott J., N. de Klerk, B. Armstrong, and J. Thompson. 2010. “Detecting Genotyping Error Using Measures of Degree of Hardy-Weinberg Disequilibrium.” Stat. Appl. Genet. Mol. Biol. doi:10.2202/1544-6115.1463.

Bekris, Lynn M., Steven P. Millard, Nichole M. Galloway, Simona Vuletic, John J. Albers, Ge Li, Douglas R. Galasko, et al. 2008. “Multiple SNPs Within and Surrounding the Apolipoprotein E Gene Influence Cerebrospinal Fluid Apolipoprotein E Protein Levels.” Journal of Alzheimer’s Disease 13 (3): 255–66.

Bennett, David A, L E I Yu, Jingyun Yang, Gyan P Srivastava, Cristin Aubin, and Philip L D E Jager. 2014. “Epigenomics of Alzheimer’s Disease.” Translational Research 165 (1). Mosby, Inc: 200–220. doi:10.1016/j.trsl.2014.05.006.

Beyer, Katrin, Montserrat Domingo-Sàbat, and Aurelio Ariza. 2009. “Molecular Pathology of Lewy Body Diseases.” International Journal of Molecular Sciences 10 (3): 724–45. doi:10.3390/ijms10030724.

Beyreuther, K, and C.L. Masters. 1991. “Amyloid Precursor Protein (APP) and ΒZA4 Amyloid in the Etiology of Alzheimer’s Disease: Precursor-Product Relationships in the Derangement of Neuronal Function.” Brain Pathology 1 (4): 241–51.

Blalock, Eric M, James W Geddes, Kuey Chu Chen, Nada M Porter, William R Markesbery, and Philip W Landfield. 2004. “Incipient Alzheimer’s Disease: Microarray Correlation Analyses Reveal Major Transcriptional and Tumor Suppressor Responses.” Proceedings of the National Academy of Sciences of the United States of America 101 (7): 2173–78. doi:10.1073/pnas.0308512100.

Blanca, J, J Cañizares, J Montero-Pau, P Ziarsolo, and V García-Carpintero. 2017. “Bioinformatics at COMAV Institute.” Accessed June 23. https://bioinf.comav.upv.es/courses/sequence_analysis/sequence_file_formats.html.

Business Wire. 2014. “Institut Pasteur de Montevideo, Genomic Medicine Institute-Seoul National University, and Macrogen Launch Urugenomes Project to Decode the Genome of Uruguyan Population.” http://www.businesswire.com/news/home/20140919005010/en/Institut-Pasteur-de-Montevideo-Genomic-Medicine-Institute-Seoul.

Butterfield, D. Allan, TT Reed, and M Perluigi. 2007. “Elevated Levels of 3-Nitrotyrosine in Brain From Subjects with Amnestic Mild Cognitive Impairment: Implications for the Role of Nitration in the Progression of Alzheimer’s Disease.” Brain Research Bulletin, 1148:243-248. doi:10.1038/jid.2014.371.

Cariaso;, Michael, and Greg Lennon. 2011. “SNPedia: A Wiki Supporting Personal Genome Annotation, Interpretation and Analysis.” Nucleic Acids Research. doi:10.1093/nar/gkr798.

Chang, Chow, Vattikuti, Tellier, and Lee. 2017. “Plink 1.90 Beta.” Accessed May 1. https://www.cog-genomics.org/plink/1.9/.

Chang, Chow, Vattikuti, Tellier, Purcell, and Lee. 2015. “Second-Generation PLINK: Rising to the Challenge of Larger and Richer Datasets.” GigaScience 4.

Cohen, Samuel. 2015. “Alzheimer’s Is Not Normal Aging — and We Can Cure It. TED Talk.”


43

BCG London. https://www.ted.com/talks/samuel_cohen_alzheimer_s_is_not_normal_aging_and_we_can_cure_it.

Corder, E H, A M Saunders, W J Strittmatter, D E Schmechel, P C Gaskell, G W Small, a D Roses, J L Haines, and M a Pericak-Vance. 1993. “Gene Dose of Apolipoprotein E Type 4 Allele and the Risk of Alzheimer’s Disease in Late Onset Families.” Science (New York, N.Y.) 261 (5123): 921–23. doi:10.1126/science.8346443.

De Strooper, Bart, T Iwatsubo, and M.S. Wolfe. 2012. “Presenilins and Gamma-Secretase: Structure, Function and Role in Alzheimer Disease.” Cold Spring Harbor Perspectives in Medicine.

DeKosky, ST, and SW Scheff. 1990. “Synapse Loss in Frontal Cortex Biopsies in Alzheimer’s Disease: Correlation with Cognitive Severity.” Annals of Neurology 27 (457).

Duforet-frebourg, Nicolas, Keurcien Luu, Guillaume Laval, Eric Bazin, and Michael G B Blum. 2015. “Detecting Genomic Signatures of Natural Selection with Principal Component Analysis : Application to the 1000 Genomes Data” 33 (4): 1082–93. doi:10.1093/molbev/msv334.

Ebbert, Boehmea, Wadswortha, Staleya, Shubhabrata, Craneb, Ridgea, Kauwea, and Alzheimer’s Disease Genetics Consortium. 2016. “Interaction between Variants in CLU and MS4A4E Modulates Alzheimer’s Disease Risk.” Alzheimer’s and Dementia 12 (2): 121–29. doi:10.1016/j.jalz.2015.08.163.

Elhaik, Eran. 2012. “Empirical Distributions of F ST from Large-Scale Human Polymorphism Data” 7 (11). doi:10.1371/journal.pone.0049837.

Elston, R. C., and R. Forthofer. 1997. “Testing for Hardy-Weinberg Equilibrium in Small Samples.” Biometrics, no. 33: 536–42.

Emigh, T. H. 1980. “A Comparison of Tests for Hardy-Weinberg Equilibrium.” Biometrics, no. 36: 627–42.

Farrer, LA Lindsay A., Adrienne L. Cupples, Jonathan L. JL Haines, Bradley Hyman, Walter A. Kukuli, Richard Mayeux, Richard H. Myers, et al. 1997. “Effects of Age, Sex, and Ethnicity on the Association between Apolipoprotein E Genotype and Alzheimer Disease.” … Medical Association 2118 (278): 1349–56. doi:10.1001/jama.1997.03550160069041.

Futuyma, D. J. 2013. Evolution. Third. Sinauer Associates. Gatz, Margaret, Chandra a Reynolds, Laura Fratiglioni, Boo Johansson, James a Mortimer,

Stig Berg, Amy Fiske, and Nancy L Pedersen. 2006. “Role of Genes and Environments for Explaining Alzheimer Disease.” Archives of General Psychiatry 63 (2): 168–74. doi:10.1001/archpsyc.63.2.168.

Glenner, George G, and Caine W Wong. 1984. “Alzheimer’s Disease: Initial Report of the Purification and Characterization of a Novel Cerebrovascular Amyloid Protein.” Biochemical and Biophysical Research Communications 425 (3). Elsevier Inc.: 534–39. doi:10.1016/j.bbrc.2012.08.020.

Goate, Alison. 2006. “Segregation of a Missense Mutation in the Amyloid β -Protein Precursor Gene with Familial Alzheimer ’ S Disease” 9: 341–47.

Graffelman, J., and J. Morales-Camarena. 2008. “Graphical Tests for Hardy-Weinberg Equilibrium Based on the Ternary Plot.” Hum. Hered., no. 65: 77–84.

Graffelman, J, and V Moreno. 2013. “The Mid P -Value in Exact Tests for Hardy-Weinberg Equilibrium” 12 (4): 433–48. doi:10.1515/sagmb-2012-0039.


44

Guerreiro, R, J Bras, and J Hardy. 2013. “SnapShot: Genetics of Alzheimer’s Disease.” Cell 155 (968).

Guo, F, D K. Dey, and K E Holsinger. 2009. “A Bayesian Hierarchical Model for Analysis of SNP Diversity in Multilocus, Multipopulation Samples.” J Am Stat Assoc 104 (485): 142–54. doi:10.1198/jasa.2009.0010.A.

Hardy, G H. 1908. “Mendelian Proportions in a Mixed Population.” Science 28: 49–50. Hardy, J, and D Allsop. 1991. “Amyloid Deposition as the Central Event in the Aetiology of

Alzheimer’s Disease.” Trends in Pharmacological Sciences 12 (10): 383–88. Hardy, John A, and Gerald A Higgins. 1992. “Alzheimer’ S Disease : The Amyloid Cascade

Hypothesis.” Science (New York, N.Y.) 256 (April): 3–5. Hardy, John, and Dennis J Selkoe. 2002. “The Amyloid Hypothesis of Alzheimer’s Disease:

Progress and Problems on the Road to Therapeutics.” Science (New York, N.Y.) 297 (5580): 353–56. doi:10.1126/science.1072994.

Harel, A, F Wu, MP Mattson, CM Morris, and PJ Yao. 2008. “Evidence for CALM in Directing VAMP2 Trafficking.” Traffic 9: 417–29.

Harold, R Abraham, P Hollingworth, R Sims, A Gerrish, and ML Hamshere. 2009. “Genome-Wide Association Study Identifies Variants at CLU and PICALM Associated with Alzheimer’s Disease.” Nat Genet 41: 1088–93.

Hartley, D. M., D. M. Walsh, C. P. Ye, T. Diehl, S. Vasquez, P. M. Vassilev, D. B. Teplow, and D.J. Selkoe. 1999. “Protofibrillar Intermediates of Amyloid Beta Protein Induce Acute Electrophysiological Changes and Progressive Neurotoxicity in Cortical Neurons.” Journal of Neuroscience 19 (20): 8876–84.

Heneka, Michael T., Monica J. Carson, Joseph El Khoury, Gary E. Landreth, Frederic Brosseron, Douglas L. Feinstein, Andreas H. Jacobs, et al. 2015. “Neuroinflammation in Alzheimer’s Disease.” The Lancet Neurology 14 (4): 388–405. doi:10.1016/S1474-4422(15)70016-5.

Holsinger, Kent E, and Bruce S Weir. 2009. “Genetics in Geographically Structured Populations : Defining , Estimating and Interpreting F ST” 10 (SePTeMBer). doi:10.1038/nrg2611.

Holtzman, David M, John C Morris, and Alison M Goate. 2011. “Alzheimer ’ S Disease : The Challenge of the Second Century.” Science Translational Medicine 3 (77): 1–35. doi:10.1126/scitranslmed.3002369.Alzheimer.

Hosking, L., S. Lumsden, K. Lewis, A. Yeo, L.McCarthy, A. Bansal, J. Riley, I. Purvis, and C. Xu. 2004. “Detection of Genotyping Errors by Hardy-Weinberg Equilibrium Testing.” Eur. J. Hum. Genet. 12: 395’399.

Hsia, Albert Y., Eliezer Masliah, Lisa McConlogue, Gui-Qiu Yu, Gwen Tatsuno, Kang Hu, Dora Kholodenko, Robert C. Malenka, Roger A. Nicoll, and Lennart Mucke. 1999. “Plaque-Independent Disruption of Neural Circuits in Alzheimer’s.” Proceedings of the National Academy of Sciences of the United States of America 96 (March): 3228–33.

Huang Y, Weisgraber KH, Mucke L, and Mahley RW. 2003. “Apolipoprotein E: Diversity of Cellular Origins, Structural and Biophysical Properties, and Effects in Alzheimer’s Disease.” Journal of Molecular Neuroscience 23 (189).

Iriarte, Maite Mendioroz, and Laura Pulido Fontes. 2014. “Neuroepigenética: Metilación Del ADN En La Enfermedad de Alzheimer Y Otras Demencias.” Medicina Clínica (Barc) 144: 457–64. doi:10.1016/j.medcli.2014.03.023.

Jun, Gyungah, Carla A Ibrahim-Verbaaas, Maria Vronskaya, and Jean-Charles Lambert. 2016.


45

“A Novel Alzheimer Disease Locus Located near the Gene Encoding Tau Protein.” Molecular Psychiatry 21 (1): 108–17. doi:10.1038/mp.2015.23.A.

Jun, Gyungah, Badri N Vardarajan, Jacqueline Buros, Chang-en Yu, Michele V Hawk, Beth A Dombroski, Paul K Crane, et al. 2012. “Comprehensive Search for Alzheimer Disease Susceptibility Loci in the APOE Region.” Arch. Neurol. 69 (10): 1270–79. doi:10.1001/archneurol.2012.2052.Comprehensive.

Karch, Celeste M, and Alison M Goate. 2015. “Alzheimer’s Disease Risk Genes and Mechanisms of Disease Pathogenesis.” Biological Psychiatry 77 (1): 45–51. doi:10.1016/j.pestbp.2011.02.012.Investigations.

Karran, Eric, and Bart De Strooper. 2016. “The Amyloid Cascade Hypothesis: Are We Poised for Success or Failure?” Journal of Neurochemistry, 1–16. doi:10.1111/jnc.13632.

Kittles, Rick A, and Kenneth M Weiss. 2003. “RACE , ANCESTRY , AND GENES : Implications for Defining Disease Risk,” 33–67. doi:10.1146/annurev.genom.4.070802.110356.

Klein, Hans Ulrich, and Philip L. De Jager. 2016. “Uncovering the Role of the Methylome in Dementia and Neurodegeneration.” Trends in Molecular Medicine 22 (8). Elsevier Ltd: 687–700. doi:10.1016/j.molmed.2016.06.008.

Lambert, J-C, S Heath, G Even, D Campion, K Sleegers, and M Hiltunen. 2009. “Genome-Wide Association Study Identifies Variants at CLU and CR1 Associated with Alzheimer’s Disease.” Nat Genet 41: 1094–99.

Lambert, JC, CA Ibrahim-Verbaas, D Harold, AC Naj, R Sims, and C Bellenguez. 2013. “Meta-Analysis of 74,046 Individuals Identifies 11 New Susceptibility Loci for Alzheimer’s Disease.” Nature Genetics 45 (12): 1452–58. doi:10.1038/ng.2802.Meta-analysis.

Lambert, M. P., A. K. Barlow, B. A. Chromy, C. Edwards, R. Freed, M. Liosatos, T. E. Morgan, et al. 1998. “Diffusible , Nonfibrillar Ligands Derived from Amyloid Beta 1 – 42 Are Potent Central Nervous System Neurotoxins.” Proceedings of the National Academy of Sciences of the United States of America 95 (May): 6448–53.

Landgrave-Gómez, Jorge, Octavio Mercado-Gómez, and Rosalinda Guevara-Guzmán. 2015. “Epigenetic Mechanisms in Neurological and Neurodegenerative Diseases.” Frontiers in Cellular Neuroscience 9 (February): 1–11. doi:10.3389/fncel.2015.00058.

Lessa, E. 2004. “Guía de Estudio de Genética de Poblaciones.” Montevideo, Uruguay. Li, Jun Z, Devin M Absher, Hua Tang, Audrey M Southwick, Amanda M Casto, Sohini

Ramachandran, Howard M Cann, et al. 2008. “Worldwide Human Relationships Inferred from Genome-Wide Patterns of Variation.” 25 (February): 1100–1104.

Liu, Guiyou, Haiyang Wang, and Jiafeng Liu. 2013. “The CLU Gene rs11136000 Variant Is Significantly Associated with Alzheimer ’ S Disease in Caucasian and Asian Populations.” Neuromol Med. doi:10.1007/s12017-013-8250-1.

Lu, Dongsheng, and Shuhua Xu. 2013. “Principal Component Analysis Reveals the 1000 Genomes Project Does Not Sufficiently Cover the Human Genetic Diversity in Asia” 4 (July): 1–9. doi:10.3389/fgene.2013.00127.

Lue, L F, L Brachova, H Civin, and J Rogers. 1996. “Inflammation, A Beta Deposition, and Neurofibrillary Tangle Formation as Correlates of Alzheimer’s Disease Neurodegeneration.” Journal of Neuropathology and Experimental Neurology 55 (10): 1083–88.

Masters, C.L., G Simms, N.A. Weinman, G Multhaup, B McDonald, and K Beyreuther. 1985. “Amyloid Plaque Core Protein in Alzheimer Disease and Down Syndrome.” Proceedings of the National Academy of Sciences of the United States of America 82: 4245–49.


46

Mucke, Masliah, Yu, Mallory, Rockenstein, Tatsuno, Hu, Kholodenko, Johnson-wood, and Mcconlogue. 2000. “High-Level Neuronal Expression of Amyloid Beta 1 – 42 in Wild-Type Human Amyloid Protein Precursor Transgenic Mice : Synaptotoxicity without Plaque Formation.” Journal of Neuroscience 20 (11): 4050–58.

Nickerson, Deborah A., Scott L. Taylor, Stephanie M. Fullerton, Kenneth M. Weiss, Andrew G. Clark, Jari H. Stengård, Veikko Salomaa, Eric Boerwinkle, and Charles F. Sing. 2000. “Sequence Diversity and Large-Scale Typing of SNPs in the Human Apolipoprotein E Gene.” Genome Research 10 (10): 1532–45. doi:10.1101/gr.146900.

Parolo, Lisa, Gentilini, Di Blasio, Barlera, Nicolis, Boncoraglio, Parati, and Bione. 2015. “Characterization of the Biological Processes Shaping the Genetic Structure of the Italian Population.” BMC Genetics. doi:10.1186/s12863-015-0293-x.

Patterson, Nick, Alkes L Price, and David Reich. 2006. “Population Structure and Eigenanalysis” 2 (12). doi:10.1371/journal.pgen.0020190.

Pearson, Christopher E, Kerrie Nichol Edamura, and John D Cleary. 2005. “REPEAT INSTABILITY : MECHANISMS OF DYNAMIC MUTATIONS” 6: 729–42. doi:10.1038/nrg1689.

Pevsner, J. 2015. Bioinformatics and Functional Genomics. Third. Baltimore, Maryland, USA: Wiley Blackwell.

Pi Hugarte, Renzo. 2001. “Elementos de La Cultura Italiana En La Cultura Del Uruguay.” Prince, Martin, Anders Wimo, Maëlenn Guerchet, Ali Gemma-Claire, Yu-Tzu Wu, and

Matthew Prina. 2015. “World Alzheimer Report 2015: The Global Impact of Dementia - An Analysis of Prevalence, Incidence, Cost and Trends.” Alzheimer’s Disease International, 84. doi:10.1111/j.0963-7214.2004.00293.x.

Purcell, Shaun. 2010. “PLINK (1.07) Documentation.” Rasool, C G, Clive N Svendsen, and Dennis J Selkoe. 1986. “Neurofibrillary Degeneration of

Cholinergic and Noncholinergc Neurons of the Basal Forebrain in -Alzheimer ’ S Disease.” Annals of Neurology, no. 1.

Ropper, Allan H., Martin A. Samuels, and Joshua P. Klein. 2014. Adams and Victor’s Principles of Neurology. Canadian Medical Association Journal. Tenth edit. Mc Graw Hill Education.

Schellenberg, GD, I D’Souza, and P Poorkaj. 2000. “The Genetics of Alzheimer’s Disease.” Current Psychiatry Reports 2 (158).

Schuebel, Kornel. 2016. “Making Sense of Epigenetics.” IJNP. Scotter, Emma L., Han Jou Chen, and Christopher E. Shaw. 2015. “TDP-43 Proteinopathy and

ALS: Insights into Disease Mechanisms and Therapeutic Targets.” Neurotherapeutics 12 (2): 352–63. doi:10.1007/s13311-015-0338-x.

Selkoe, Dennis J. 1991. “The Molecular Pathology of Alzheimer’s Disease.” Neuron 6 (4): 487–98.

Sharp, Andrew J, Devin P Locke, Sean D Mcgrath, Ze Cheng, Jeffrey A Bailey, Rhea U Vallente, Lisa M Pertz, et al. 2005. “Segmental Duplications and Copy-Number Variation in the Human Genome,” 78–88.

Sherva, Richard, and Lindsay A Farrer. 2012. “NIH Public Access.” Psychiatry: Interpersonal and Biological Processes 13 (2): 138–46. doi:10.1007/s11920-011-0184-4.Power.

Shuai, Ping, Yuping Liu, Wenxue Lu, Qiaolan Liu, Tinxin Li, and Bo Gong. 2015. “Genetic Associations of CLU rs9331888 Polymorphism with Alzheimer ’ S Disease : A Meta-Analysis.” Neuroscience Letters 591. Elsevier Ireland Ltd: 160–65.


47

doi:10.1016/j.neulet.2015.02.040. Sieben, Anne, Tim Van Langenhove, Sebastiaan Engelborghs, Jean Jacques Martin, Paul

Boon, Patrick Cras, Peter Paul De Deyn, Patrick Santens, Christine Van Broeckhoven, and Marc Cruts. 2012. “The Genetics and Neuropathology of Frontotemporal Lobar Degeneration.” Acta Neuropathologica 124 (3): 353–72. doi:10.1007/s00401-012-1029-x.

Sisodia, S., and P .H. St George-Hyslop. 2002. “γ -Secretase , Notch , Aβ and Alzheimer’s Disease: Where Do the Presenilins Fit in ?” Nature Neuroscience 3. doi:10.1038/nrn785.

Smith, C. A. B. 1986. “Chi-Squared Tests with Small Numbers.” Ann. Hum. Genet., no. 50: 163–67.

Spiess, Eliot B. 1989. Genes In Populations. Second. Wiley. Stefanis, Leonidas. 2012. “Alpha-Synuclein in Parkinson’s Disease.” Cold Spring Harbor

Perspectives in Medicine 2 (2): 1–23. doi:10.1101/cshperspect.a009399. The World Bank Group. 2014. “Life Expectancy at Birth, Total (Years). Web Page Data.”

http://data.worldbank.org/indicator/SP.DYN.LE00.IN. Tian, Y, JC Chang, EY Fan, M Flajolet, and P Greengard. 2013. “Adaptor Complex

AP2/PICALM, through Interaction with LC3, Targets Alzheimer’s APP CTF for Terminal Degradation via Autophagy.” Natl Acad Sci U S A 110: 17071–76.

Treusch, S, S Hamamichi, JL Goodman, KE Matlack, CY Chung, V Baru, JM Shulman, et al. 2011. “Functional Links between Abeta Toxicity, Endocytic Trafficking, and Alzheimer’s Disease Risk Factors in Yeast.” Science. doi:10.1126/science.1213210.

URUGENOMES. 2017. “Official Web Page.” Accessed April 11. http://www.urugenomes.org. Verghese, Philip B, Joseph M Castellano, and David M Holtzman. 2011. “Roles of

Apolipoprotein E in Alzheimer’s Disease and Other Neurological Disorders.” Lancet Neurology 10 (3): 241–52. doi:10.1016/S1474-4422(10)70325-2.Roles.

Wakefield, J. 2010. “Bayesian Methods for Examining Hardy-Weinberg Equilibrium.” Biometrics 66: 257–65.

Weinberg, W. 1908. “On the Demonstration of Heredity in Man.” In: Boyer SH, Trans (1963) Papers on Human Genetics. Prentice Hall, Englewood Cliffs, NJ.

Weir, B. S., and C. C. Cockerham. 1984. “Estimating F-Statistics for the Analysis of Population Structure B . S . Weir and C . Clark Cockerham.” Society for the Study of Evolution Stable 38 (6): 1358–70. ttp://www.jstor.org/stable/2408641.

Whitehouse, P J, D L Price, R G Struble, A W Clark, J T Coyle, and M R DeLong. 1981. “Alzheimer’s Disease and Senile Dementia: Loss of Neurons in the Basal Forebrain.” Science (New York, N.Y.) 215 (March).

Wigginton, JE, DJ Cutler, and GR Abecasis. 2005. “A Note on Exact Tests of Hardy-Weinberg Equilibrium.” The American Journal of Human Genetics 76: 887–93.

Willing, Eva-maria, Christine Dreyer, and Cock Van Oosterhout. 2012. “Estimates of Genetic Differentiation Measured by F ST Do Not Necessarily Require Large Sample Sizes When Using Many SNP Markers” 7 (8): 1–7. doi:10.1371/journal.pone.0042649.

Wilson, Robert S., Sukriti Nag, Patricia A. Boyle, Loren P. Hizel, Lei Yu, Aron S. Buchman, Julie A. Schneider, and David A. Bennett. 2013. “Neural Reserve, Neuronal Density in the Locus Ceruleus, and Cognitive Decline.” Neurology 80 (13): 1202–8. doi:10.1212/WNL.0b013e3182897103.

Wood, Nicholas. 2012. Neurogenetics: A Guide For Clinicians. Edited by Nicholas Wood. First Edit. Cambridge.


48

Xiao, Q, SC Gil, P Yan, Y Wang, S Han, E Gonzales, R Perez, JR Cirrito, and JM Lee. 2012. “Role of Phosphatidylinositol Clathrin Assembly Lymphoid-Myeloid Leukemia (PICALM) in Intracellular Amyloid Precursor Protein (APP) Processing and Amyloid Plaque Pathogenesis.” J Biol Chem 287 (25): 21279–89. doi:10.1074/jbc.M111.338376.

Yu, Jin-tai, Lu Li, Qi-xiu Zhu, Qun Zhang, Wei Zhang, Zhong-chen Wu, Jun Guan, and Lan Tan. 2010. “Implication of CLU Gene Polymorphisms in Chinese Patients with Alzheimer ’ S Disease” 411: 1516–19. doi:10.1016/j.cca.2010.06.013.

ANEXO

Figura 20. Mapa del mundo coloreado respecto a las regiones definidas por el GBD (Global Burden of Diseases, Injuries, and Risk Factors Study). El mismo es el esfuerzo científico internacioal más grande y detallado para cuantificar tendencias en salud y enfermedad a nivel mundial. Estas


49

regiones fueron utilizadas en el trabajo de Prince et al. 2015, citado en la introducción. Imagen extraída de http://www.healthdata.org/gbd/faq.

CÓDIGO DE ESTUDIO DE ESTRUCTURA POBLACIONAL

Para las primeras gráficas con los marcadores de LOAD: los SNPs se extrajeron de la

siguiente forma, utilizando la lista ¨loadsnps42panelfinal.txt¨:

plink --vcf 1000genomasconcat.vcf.gz --extract loadsnps42panelfinal.txt --make-bed --out

1000gen42final

plink --vcf afro_alzheimer.vcf --extract loadsnps42panelfinal.txt --make-bed --out

afrourus42final

plink --vcf charruas_alzheimer3.vcf.gz --extract loadsnps42panelfinal.txt --make-bed --out

char42final

plink --vcf 1000gen42final.vcf --alleleACGT --recode vcf --out 1000gen42finalACGT

plink --vcf afrourus42final.vcf --alleleACGT --recode vcf --out afrourus42finalACGT

plink --vcf char42final.vcf --alleleACGT --recode vcf --out char42finalACGT

Luego de corregir las incompatibilidades entre los archivos y eliminar el SNP que figuraba

como deleción en los Afrouruguayos, se unificaron los tres archivos con vcftools, dando

como resultado un solo VCF con 2524 individuos.

vcf-merge 1000gen41.vcf.gz char41.vcf.gz afrourus41.vcf.gz > todos41.vcf

El análisis de componente principal se realizó en Plink, y se visualizó en R.

plink --vcf todos41.vcf --pca --out todos41

#Set working directory

setwd('/Users/melnuesch/Documents/ftp.1000genomes.ebi.ac.uk/vol1/ftp/release/20130502')

#Read in the data - 2524 individuos (1000gen, afrourus e nativos uruguayos)

mergePCs<-as.data.frame(read.table('todos41.eigenvec'))

#Ingreso sample ID and population, para las referencias.

indpop<-as.data.frame(read.table('indpop2.txt'))

indsuperpop<-as.data.frame(read.table('indsuperpop2.txt'))

#les elimino las primeras dos columnas a ambos

indpop$V1<- NULL

indpop$V2<- NULL

indsuperpop$V1<- NULL


milgen<-cbind(indpop,indsuperpop)

amr<-rep("AMR",20) #para agregarle las referencias

charr<-rep("CHAR",10) #los nativos uruguayos son los primeros 10 y los afros los segundos

afrouru<-rep("AFROURU",10)

ururef1<-c(charr,afrouru)


50

ururef<-cbind(ururef1,amr)

colnames(milgen)<-c("Pop","Superpop")

colnames(ururef)<-colnames(milgen)

todos<-rbind(ururef,milgen)

#Hago un data frame mas comodo con los primeros 4 componentes, los IDs y las referencias

PCs<-

cbind(mergePCs$V1,mergePCs$V2,mergePCs$V3,mergePCs$V4,mergePCs$V5,mergePCs$

V6,todos)

colnames(PCs)<-c("ID1","ID2","PC1","PC2","PC3","PC4","Pop","Superpop")

Poblaciones<-PCs$Pop

Superpoblaciones1<-PCs$Superpop

#ahora grafico

library(ggplot2)

require(ggplot2)

library(RColorBrewer)

population<-qplot(PCs$PC1, PCs$PC2, col=Poblaciones, main = NULL ,xlab= NULL,

ylab=NULL, size=I(3))

population + theme(legend.position="bottom", legend.title = element_text(family= "System

Font", color = "grey12")) +

labs(x="Componente Principal 1",y="Componente Principal 2") +

theme(axis.title = element_text(family = "System Font", colour = "grey34", size=15))

superpopulation<-qplot(PCs$PC1,PCs$PC2, col=Superpoblaciones1, main = NULL ,xlab=

NULL, ylab=NULL, size=I(2.5))

superpopulation + theme(legend.position="bottom", legend.title = element_text(family=

"System Font", color = "grey12")) +



#para pintar a los 20 uruguayos entre las superpoblaciones

uru<-rep("URU",20)

ururef2<-cbind(uru,uru)

colnames(ururef2)<-colnames(milgen)

pintourus<-rbind(ururef2,milgen)

PCs2<-

as.data.frame(cbind(mergePCs$V1,mergePCs$V2,mergePCs$V3,mergePCs$V4,mergePCs$

V5,mergePCs$V6,pintourus))

colnames(PCs2)<-c("ID1","ID2","PC1","PC2","PC3","PC4","Pop","Superpop")

PCsurus2<-PCs2[1:20,1:8]

PCnonurus2<-PCs2[21:2514,1:8]

newPC2<-as.data.frame(rbind(PCnonurus2,PCsurus2))

Superpoblaciones2<-newPC2$Superpop

#nueva forma de graficar, ggplot

library(extrafont)

mypalette=c("black","salmon","springgreen","yellow","cornflowerblue","plum1")

ggplot(newPC2, aes(PC1, PC2, colour = Superpoblaciones2)) +

geom_point(size = 2.5) +


51

scale_color_manual(values = mypalette) +

theme(legend.position="bottom", legend.title = element_text(family= "System Font", color

= "grey12")) +



#3D plot de este ultimo grafico

library(scatterplot3d)

pcolors <- unsplit(PCs2$Superpop, value = colors())

newPC3d<-cbind(PCs2,pcolors)

newPC3d$pcolors<-as.character(newPC3d$pcolors) #esto de as.character soluciona el

crashing del factor level

newPC3d$pcolors <- replace(newPC3d$pcolors, newPC3d$pcolors=="antiquewhite2",

"cornflowerblue") #euros


"yellow") #east asians

newPC3d$pcolors <- replace(newPC3d$pcolors, newPC3d$pcolors=="antiquewhite",

"springgreen") #amerindians

newPC3d$pcolors <- replace(newPC3d$pcolors, newPC3d$pcolors=="aliceblue", "salmon")

#africans


"plum1") #south asians

newPC3d$pcolors <- replace(newPC3d$pcolors, newPC3d$pcolors=="white", "black") #urus

with(newPC3d, {scatterplot3d(PC1, PC2, PC3, color = newPC3d$pcolors, pch=19,

xlab='Componente Principal 1',ylab = 'Componente Principal 2',zlab = 'Componente

Principal 3')})

Para los análisis con 77249819 marcadores: PCA en Plink, y posterior visualización en R:

plink --vcf 1000gen.vcf --pca --out 1000genpca

#PCA de los 1000genomas con todas sus variantes (77249819).

#Set working directory


#Read in the data - 2514 individuos

milgenPC<-as.data.frame(read.table('1000genpca.eigenvec'))

#Ingreso sample ID and population, para las referencias.

indpop<-as.data.frame(read.table('indpop2.txt'))

indsuperpop<-as.data.frame(read.table('indsuperpop2.txt'))

#les elimino las primeras dos columnas a ambos

indpop$V1<- NULL

indpop$V2<- NULL




52

PCs1y2<-

cbind(milgenPC$V1,milgenPC$V2,milgenPC$V3,milgenPC$V4,milgenPC$V5,milgenPC$

V6,indpop,indsuperpop)

colnames(PCs1y2)<-c("ID1","ID2","PC1","PC2","PC3","PC4","Pop","Superpop")

Poblaciones<-PCs1y2$Pop

Superpoblaciones<-PCs1y2$Superpop

#pintando según superpoblaciones

library(ggplot2)

require(ggplot2)

library(RColorBrewer)

library(extrafont)

library(scatterplot3d)

mypalette=c("salmon","springgreen","yellow","cornflowerblue","plum1")

ggplot(PCs1y2, aes(PC1, PC2, colour = Superpoblaciones)) +


scale_color_manual(values = mypalette) +

theme(legend.position="bottom", legend.title = element_text(family= "System Font", color

= "grey12")) + labs(x="Componente Principal 1",y="Componente Principal 2") +


#pintando según poblaciones

mypalette2=c("black", "yellow",

"salmon","springgreen","skyblue","cornflowerblue","plum1","violetred","royalblue2","grey",

"tomato","wheat2","seagreen4","sienna2","papayawhip","orchid3","palegoldenrod","navyblu

e","olivedrab","orange3","grey59","green","blue","firebrick4","darkslategray4","darkorange3

","darkcyan")

ggplot(PCs1y2, aes(PC1, PC2, colour = Poblaciones)) +


scale_color_manual(values = mypalette2) + theme(legend.position="bottom", legend.title =

element_text(family= "System Font", color = "grey12")) +



#scatterplot para hacer grafico 3D de superpoblaciones

pcolors <- unsplit(PCs1y2$Superpop, value = colors())

newPC3d<-cbind(PCs1y2,pcolors)

newPC3d$pcolors<-as.character(newPC3d$pcolors) #esto de as.character soluciona el

crashing del factor level


"cornflowerblue") #euros

newPC3d$pcolors <- replace(newPC3d$pcolors, newPC3d$pcolors=="antiquewhite",

"yellow") #east asians

newPC3d$pcolors <- replace(newPC3d$pcolors, newPC3d$pcolors=="aliceblue",

"springgreen") #amerindians

newPC3d$pcolors <- replace(newPC3d$pcolors, newPC3d$pcolors=="white", "salmon")

#africans


53


"plum1") #south asians

with(PCs1y2, {scatterplot3d(PC1, PC2, PC3, color = newPC3d$pcolors, pch=19,

xlab='Componente Principal 1',ylab = 'Componente Principal 2',zlab = 'Componente

Principal 3')})

CÓDIGO DE ANÁLISIS DE EQUILIBRIO DE HARDY-WEINBERG

Primero se generaron, a partir del archivo que reúne a todos los 2524 individuos

(todos41.vcf), archivos con la información de cada población por separado, utilizando --keep

en Plink. A continuación, se ilustra una población a modo de ejemplo, pero se hizo con todas.

plink --vcf todos41.vcf --double-id --keep indYRI.txt --recode --out HWYRI

Y luego, en cada población se testeó para equilibrio HW con --hardy.

plink --hardy midp --file HWYRI --out hwYRI

Ambas líneas se aplicaron una vez para cada población. Luego en R se tomaron los p valores

significativos de cada población y se concatenaron formando la tabla que está en Resultados

(Tabla 3).

# Script de R para importar los archivos HW de todas las pop y filtrar por p valor menor a

0.05


hwACB<-read.table('hwACB.hwe')

hwASW<-read.table('hwASW.hwe')

hwBEB<-read.table('hwBEB.hwe')

hwCDX<-read.table('hwCDX.hwe')

hwCEU<-read.table('hwCEU.hwe')

hwCHB<-read.table('hwCHB.hwe')

hwCHS<-read.table('hwCHS.hwe')

hwCLM<-read.table('hwCLM.hwe')

hwESN<-read.table('hwESN.hwe')

hwFIN<-read.table('hwFIN.hwe')

hwGBR<-read.table('hwGBR.hwe')

hwGIH<-read.table('hwGIH.hwe')

hwGWD<-read.table('hwGWD.hwe')

hwIBS<-read.table('hwIBS.hwe')

hwITU<-read.table('hwITU.hwe')

hwJPT<-read.table('hwJPT.hwe')

hwKHV<-read.table('hwKHV.hwe')

hwLWK<-read.table('hwLWK.hwe')

hwMSL<-read.table('hwMSL.hwe')

hwMXL<-read.table('hwMXL.hwe')


54

hwPEL<-read.table('hwPEL.hwe')

hwPJL<-read.table('hwPJL.hwe')

hwPUR<-read.table('hwPUR.hwe')

hwSTU<-read.table('hwSTU.hwe')

hwTSI<-read.table('hwTSI.hwe')

hwCHAR<-read.table('hwCHAR.hwe')

hwAFROURU<-read.table('hwAFROURU.hwe')

hwYRI<-read.table('hwYRI.hwe')

#Subseteo segun p valor menor a 0.05

hwACB2<-subset(hwACB,as.character(V9)<=0.05)

hwAFROURU2<-subset(hwAFROURU,as.character(V9)<=0.05)

hwASW2<-subset(hwASW,as.character(V9)<=0.05)

hwBEB2<-subset(hwBEB,as.character(V9)<=0.05) #no tiene

hwCDX2<-subset(hwCDX,as.character(V9)<=0.05)

hwCEU2<-subset(hwCEU,as.character(V9)<=0.05)

hwCHB2<-subset(hwCHB,as.character(V9)<=0.05) #no tiene

hwCHS2<-subset(hwCHS,as.character(V9)<=0.05) #no tiene

hwCLM2<-subset(hwCLM,as.character(V9)<=0.05)

hwESN2<-subset(hwESN,as.character(V9)<=0.05) #no tiene

hwFIN2<-subset(hwFIN,as.character(V9)<=0.05)

hwGBR2<-subset(hwGBR,as.character(V9)<=0.05)

hwGIH2<-subset(hwGIH,as.character(V9)<=0.05)

hwGWD2<-subset(hwGWD,as.character(V9)<=0.05) #no tiene

hwIBS2<-subset(hwIBS,as.character(V9)<=0.05)

hwITU2<-subset(hwITU,as.character(V9)<=0.05)

hwJPT2<-subset(hwJPT,as.character(V9)<=0.05) #no tiene

hwKHV2<-subset(hwKHV,as.character(V9)<=0.05) #no tiene

hwLWK2<-subset(hwLWK,as.character(V9)<=0.05)

hwMSL2<-subset(hwMSL,as.character(V9)<=0.05)

hwMXL2<-subset(hwMXL,as.character(V9)<=0.05)

hwPEL2<-subset(hwPEL,as.character(V9)<=0.05)

hwPJL2<-subset(hwPJL,as.character(V9)<=0.05)

hwPUR2<-subset(hwPUR,as.character(V9)<=0.05)

hwSTU2<-subset(hwSTU,as.character(V9)<=0.05)

hwTSI2<-subset(hwTSI,as.character(V9)<=0.05)

hwCHAR2<-subset(hwCHAR,as.character(V9)<=0.05)

hwYRI2<-subset(hwYRI,as.character(V9)<=0.05)

#les agrego tag de la poblacion y superpop

hwACB3<-cbind(hwACB2,rep("ACB",4),rep("AFR",4))

hwAFROURU3<-cbind(hwAFROURU2,rep("AFROURU",2),rep("URU",2))

hwASW3<-cbind(hwASW2,rep("ASW",1),rep("AFR",1))

hwCDX3<-cbind(hwCDX2,rep("CDX",1),rep("EAS",1))

hwCEU3<-cbind(hwCEU2,rep("CEU",6),rep("EUR",6))

hwCHAR3<-cbind(hwCHAR2,rep("CHAR",1),rep("URU",1))

hwCLM3<-cbind(hwCLM2,rep("CLM",5),rep("AMR",5))

hwFIN3<-cbind(hwFIN2,rep("FIN",3),rep("EUR",3))


55

hwGBR3<-cbind(hwGBR2,rep("GBR",6),rep("EUR",6))

hwGIH3<-cbind(hwGIH2,rep("GIH",4),rep("SAS",4))

hwIBS3<-cbind(hwIBS2,rep("IBS",5),rep("EUR",5))

hwITU3<-cbind(hwITU2,rep("ITU",3),rep("SAS",3))

hwLWK3<-cbind(hwLWK2,rep("LWK",2),rep("AFR",2))

hwMSL3<-cbind(hwMSL2,rep("MSL",2),rep("AFR",2))

hwMXL3<-cbind(hwMXL2,rep("MXL",2),rep("AMR",2))

hwPEL3<-cbind(hwPEL2,rep("PEL",1),rep("AMR",1))

hwPJL3<-cbind(hwPEL2,rep("PJL",1),rep("SAS",1))

hwPUR3<-cbind(hwPUR2,rep("PUR",6),rep("AMR",6))

hwSTU3<-cbind(hwSTU2,rep("STU",2),rep("SAS",2))

hwTSI3<-cbind(hwTSI2,rep("TSI",3),rep("EUR",3))

hwYRI3<-cbind(hwYRI2,rep("YRI",1),rep("AFR",1))

colnames(hwACB3)<-c("col1","col2","col3","col4","col5","c6","c7","c8","c9","c10")

colnames(hwAFROURU3)=colnames(hwACB3)

colnames(hwASW3)=colnames(hwACB3)

colnames(hwCDX3)=colnames(hwACB3)

colnames(hwCEU3)=colnames(hwACB3)

colnames(hwCHAR3)=colnames(hwCEU3)

colnames(hwCLM3)=colnames(hwACB3)

colnames(hwFIN3)=colnames(hwACB3)

colnames(hwGBR3)=colnames(hwACB3)

colnames(hwGIH3)=colnames(hwACB3)

colnames(hwIBS3)=colnames(hwACB3)

colnames(hwITU3)=colnames(hwACB3)

colnames(hwLWK3)=colnames(hwACB3)

colnames(hwMSL3)=colnames(hwACB3)

colnames(hwMXL3)=colnames(hwACB3)

colnames(hwPEL3)=colnames(hwACB3)

colnames(hwPJL3)=colnames(hwACB3)

colnames(hwPUR3)=colnames(hwACB3)

colnames(hwSTU3)=colnames(hwACB3)

colnames(hwTSI3)=colnames(hwACB3)

colnames(hwYRI3)=colnames(hwACB3)

#los concateno en un solo archivo

todos<-

rbind(hwACB3,hwAFROURU3,hwASW3,hwCDX3,hwCEU3,hwCHAR3,hwCLM3,hwFIN

3,hwGBR3,hwGIH3,hwIBS3,hwITU3,hwLWK3,hwMSL3,hwMXL3,hwPEL3,hwPJL3,hwP

UR3,hwSTU3,hwTSI3,hwYRI3)

#luego exportar el archive para insertar la table en el documento de la tesis.

write.table(todos, file='HW41snps.txt', sep="\t", quote=FALSE, col.names = FALSE,

row.names = FALSE)

Cromosoma SNP ID Significancia

Clínica P valor Población Superpoblación

14 rs10498633 - 0.00711 PEL AMR


56

14 rs10498633 - 0.00711 PJL SAS

11 rs10792832 - 0.02322 AFROURU URU

11 rs10838725 - 0.02976 CLM AMR

11 rs10838725 - 0.003326 GBR EUR

6 rs10948363 Aumenta 0.0118 ACB AFR

8 rs11136000 Disminuye 0.002458 MSL AFR

5 rs11168036 Ver Tabla 1 0.03411 LWK AFR

17 rs112665297 Ver Tabla 1 0.01362 CEU EUR

17 rs112665297 Ver Tabla 1 0.04403 CLM AMR

17 rs112665297 Ver Tabla 1 0.003476 GBR EUR

17 rs112665297 Ver Tabla 1 0.001207 IBS EUR

17 rs112665297 Ver Tabla 1 0.0277 PUR AMR

7 rs11767557 Disminuye 0.016 GIH SAS

7 rs11771145 Disminuye 0.04328 IBS EUR

19 rs12459419 Disminuye 0.01992 TSI EUR

7 rs1476679 - 0.04003 FIN EUR

7 rs1595014 - 0.04693 GIH SAS

7 rs1595014 - 0.009047 ITU SAS

7 rs1595014 - 0.04328 MXL AMR





17 rs2668626 Ver tabla 1 0.0277 PUR AMR

8 rs28834970 - 0.01184 CDX EAS

8 rs28834970 - 0.03669 ITU SAS











2 rs35349669 - 0.005396 CEU EUR

19 rs3764650 Aumenta 0.02997 GIH SAS


57

19 rs3764650 Aumenta 0.01214 MSL AFR

19 rs3764650 Aumenta 0.002314 STU SAS

1 rs3818361 Aumenta 0.03331 CEU EUR

1 rs3818361 Aumenta 0.0008172 LWK AFR

11 rs3851179 Disminuye 0.02322 AFROURU URU

19 rs3865444 Disminuye 0.01992 TSI EUR

19 rs4147929 Aumenta 0.04132 ASW AFR

19 rs4147929 Aumenta 0.04691 ITU SAS

19 rs4147929 Aumenta 0.00388 STU SAS

11 rs541458 Disminuye 0.03942 PUR AMR

11 rs670139 Aumenta 0.04101 IND URU

11 rs670139 Aumenta 0.02694 TSI EUR

2 rs6733839 Aumenta 0.02733 GIH SAS

2 rs6733839 Aumenta 0.01702 PUR AMR

8 rs7012010 Disminuye 0.03732 GBR EUR


2 rs7561528 Aumenta 0.02506 MXL AMR


8 rs9331888 Disminuye 0.02205 FIN EUR

8 rs9331896 Ver Tabla 1 0.03295 YRI AFR


11 rs983392 Disminuye 0.02408 FIN EUR

Tabla 5. Los SNPs cuyo p-valor es menor a 0.05. Se realizó en análisis para todos los 41 SNPs en las

28 poblaciones, y solo 61 resultados sobrevivieron el filtrado de pvalor > 0.05 (los 61 que están en la tabla). Para estas variantes se rechaza la hipótesis nula y se considera que no están en equilibrio HW

en la población indicada. Las siglas son aquellas de las poblaciones de la Tabla 2, y IND = nativos uruguayos y AFROURU = afrouruguayos. En este caso, la columna de ¨Significancia Clínica¨ indica a

grandes rasgos si el SNP aumenta o disminuye el riesgo de desarrollar LOAD, ¨-¨ si es desconocido, o ¨Ver Tabla 1¨ si su estatus no se puede resumir tan fácilmente. Aquellos p valores no significativos

no se incluyeron en esta tabla. A partir de esta tabla se realizó la Tabla 3, más resumida.

CÓDIGO DE CÁLCULO DE LAS FRECUENCIAS ALÉLICAS

Usando R, Plink y grep se generaron archivos con los ID de individuos y sus

superpoblaciones, para poder hacer el filtrado y cálculo de frecuencias posteriormente

utilizando Plink.

#a partir del script anterior para generar los archivos para Hardy-Weinberg, se generó este:

freqsids=todos3

freqsids$Pop <- NULL #le saco las pops porque lo hago por superpops nomas


58

#luego exportar el archivo

write.table(freqsids, file='IDsparafreqs.txt', quote=FALSE, col.names = FALSE, row.names

= FALSE)

grep AFR IDsparafreqs.txt | awk '{print $1,$2}'> indAFR.txt

grep AMR IDsparafreqs.txt | awk '{print $1,$2}'> indAMR.txt

grep EUR IDsparafreqs.txt | awk '{print $1,$2}'> indEUR.txt

grep EAS IDsparafreqs.txt | awk '{print $1,$2}'> indEAS.txt

grep SAS IDsparafreqs.txt | awk '{print $1,$2}'> indSAS.txt

plink --vcf todos41.vcf --double-id --keep indAFR.txt --recode --out todos41AFR

plink --vcf todos41.vcf --double-id --keep indAMR.txt --recode --out todos41AMR

plink --vcf todos41.vcf --double-id --keep indEUR.txt --recode --out todos41EUR

plink --vcf todos41.vcf --double-id --keep indEAS.txt --recode --out todos41EAS

plink --vcf todos41.vcf --double-id --keep indSAS.txt --recode --out todos41SAS

plink --vcf todos41.vcf --double-id --keep indAFROURU.txt --recode --out

todos41AFROURU

plink --vcf todos41.vcf --double-id --keep indCHAR.txt --recode --out todos41IND

plink --freq --file todos41AFR --out freqsAFR

plink --freq --file todos41AMR --out freqsAMR

plink --freq --file todos41EUR --out freqsEUR

plink --freq --file todos41EAS --out freqsEAS

plink --freq --file todos41SAS --out freqsSAS

plink --freq --file todos41AFROURU --out freqsAFROURU

plink --freq --file todos41IND --out freqsIND

plink --freqx --file todos41AFR --out freqsAFR

plink --freqx --file todos41AMR --out freqsAMR

plink --freqx --file todos41EUR --out freqsEUR

plink --freqx --file todos41EAS --out freqsEAS

plink --freqx --file todos41SAS --out freqsSAS

plink --freqx --file todos41AFROURU --out freqsAFROURU

plink --freqx --file todos41IND --out freqsIND

Y ahora, dejo script de R para procesar las tablas (primero) y hacer el chi cuadrado.

#vamos a procesar las tablas de frecuencias y counts para generar una sola

#tabla con todo, y calcular los counts por alelo y agregarlos.


#hacer una sola tabla con los datos de frecuencias, de counts y de chisq

frqAFR<-as.data.frame(read.table('freqsAFR.frq'))

frqAMR<-as.data.frame(read.table('freqsAMR.frq'))

frqEUR<-as.data.frame(read.table('freqsEUR.frq'))

frqEAS<-as.data.frame(read.table('freqsEAS.frq'))

frqSAS<-as.data.frame(read.table('freqsSAS.frq'))

frqIND<-as.data.frame(read.table('freqsIND.frq'))

frqAFROURU<-as.data.frame(read.table('freqsAFROURU.frq'))


59

colnames(frqAFR)<-c("CHR","SNP","A1","A2","MAF","NCHROBS")

colnames(frqAMR)<-colnames(frqAFR)

colnames(frqEUR)<-colnames(frqAFR)

colnames(frqEAS)<-colnames(frqAFR)

colnames(frqSAS)<-colnames(frqAFR)

colnames(frqAFROURU)<-colnames(frqAFR)

colnames(frqIND)<-colnames(frqAFR)

#borro la primera linea de cada data frame porque son los colnames

frqAFR = frqAFR[-1,]

frqAMR = frqAMR[-1,]

frqEUR = frqEUR[-1,]

frqEAS = frqEAS[-1,]

frqSAS = frqSAS[-1,]

frqAFROURU = frqAFROURU[-1,]

frqIND = frqIND[-1,]

#___________________________________________

#HEATMAP

listpop<-c("frqAFR", "frqAMR","frqEUR","frqEAS","frqSAS","frqAFROURU","frqIND")

hminput <- do.call(rbind, lapply(mget(listpop), function(x) x[c("SNP", "POP", "MAF")]))

colnames(hminput)<-c("Variantes","Poblaciones","Frecuencias")

fff<-as.numeric(as.character(hminput$Frecuencias))

ggplot(data = hminput, color=category, aes(x = Poblaciones, y = Variantes)) +

geom_tile(aes(fill = fff)) + scale_fill_gradient(name = "Frecuencias",high = "navy", low =

"snow2",guide="colourbar") + theme(legend.title = element_text(family= "System Font",

color = "grey12" )) +

labs(x="Poblaciones",y="Variantes") +


Cálculo del FST en Plink, con la opción --fst, estratificado por superpoblaciones, y

visualización en R:

plink --vcf todos41.vcf --within IDsparahw.txt --fst --double-id --make-bed --out todos41fst

#FST________________________________________________

fst<-read.table("todos41fst.fst")

fst<-fst[seq(2,42),]

fst<-(fst[order(fst$V5),])

colnames(fst)<-c("CHR","SNP","POS","N","FST")

attach(fst)

fst$SNPs<-c(rep("Fst < 0.1",24),rep("Fst > 0.1",17))

detach(fst)


60

#grafico posición genómica en función de valor de fst

fst3<-

cbind.data.frame(fst$SNP,as.integer(as.character(fst$CHR)),seq(1:41),as.numeric(as.characte

r(fst$FST)))

colnames(fst3)<-c("SNP","CHR","BP","P")

snpsOfInterest<-as.character(fst2$SNP)

manhattan(fst3, ylim=c(0,0.5) , xlab="Posición por cromosoma", ylab="Índice de fijación

(Fst)", highlight = snpsOfInterest,logp= FALSE, suggestiveline = F, genomewideline = F)

TABLAS COMPLEMENTARIAS

CHR SNP FST

1 rs3818361 0.135713

2 rs7561528 0.0413662

2 rs6733839 0.00308914

2 rs744373 0.0612104

2 rs35349669 0.193832

3 rs16847609 0.108412

5 rs190982 0.128563

5 rs382216 0.0835432

5 rs11168036 0.010709

6 rs9271192 0.00726806

6 rs9296559 0.017201

6 rs9349407 0.0182859

6 rs10948363 0.0213019

7 rs1595014 0.0554038

7 rs2718058 0.156078

7 rs1476679 0.114259

7 rs11767557 0.0182368

7 rs11771145 0.071006

8 rs28834970 0.0782894

8 rs7012010 0.0124005

8 rs2279590 0.105715

8 rs7982 0.0338399

8 rs11136000 0.0878578

8 rs9331896 0.0952191

8 rs9331888 0.0990264

11 rs10838725 0.184754

11 rs983392 0.247922

11 rs670139 0.0243878

11 rs541458 0.0689286

11 rs10792832 0.0980001

11 rs3851179 0.0891717

14 rs10498633 0.0201924

17 rs112665297 0.105811

17 rs2942175 0.106504

17 rs2942177 0.106504

17 rs2668626 0.107411

18 rs8093731 0.150081

19 rs3764650 0.0687773

19 rs4147929 0.120036

19 rs3865444 0.142568

19 rs12459419 0.143313

Tabla 6. Valores promedio de Fst para los distintos SNPs en las 5 superpoblaciones de los 1000genomas y 2 poblaciones Uruguayas, ordenados por cromosoma (CHR). El FST promedio

estimado es 0.086.


61

CHR SNP A1 A2 MAF CA1 CA2

1 rs3818361 A G 0.35 7 13

2 rs7561528 A G 0.2 4 16

2 rs6733839 T C 0.45 9 11

2 rs744373 G A 0.45 9 11

2 rs35349669 T C 0.35 7 13

3 rs16847609 A G 0.25 5 15

5 rs190982 G A 0.1 2 18

5 rs382216 T C 0.45 9 11

5 rs11168036 T G 0.5 10 10

6 rs9271192 C A 0.3 6 14

6 rs9296559 C T 0.15 3 17

6 rs9349407 C G 0.1 2 18

6 rs10948363 G A 0.1 2 18

7 rs1595014 A T 0.35 7 13

7 rs2718058 G A 0.2 4 16

7 rs1476679 C T 0.05 1 19

7 rs11767557 C T 0.15 3 17

7 rs11771145 A G 0.35 7 13

8 rs28834970 C T 0.15 3 17

8 rs7012010 C T 0.25 5 15

8 rs2279590 T C 0.15 3 17

8 rs7982 A G 0.45 9 11

8 rs11136000 T C 0.45 9 11

8 rs9331896 C T 0.45 9 11

8 rs9331888 G C 0.35 7 13

11 rs10838725 C T 0.1 2 18

11 rs983392 G A 0.2 4 16

11 rs670139 T G 0.3 6 14

11 rs541458 C T 0.2 4 16

11 rs10792832 A G 0.25 5 15

11 rs3851179 T C 0.25 5 15

14 rs10498633 T G 0.3 6 14

17 rs112665297 C T 0.1 2 18

17 rs2942175 G C 0.1 2 18

17 rs2942177 A G 0.1 2 18

17 rs2668626 C T 0.1 2 18

18 rs8093731 T C 0.05 1 19


62

19 rs3764650 G T 0.3 6 14

19 rs4147929 A G 0.05 1 19

19 rs3865444 A C 0.2 4 16

19 rs12459419 T C 0.2 4 16

Tabla 8. Valores calculados de frecuencia de alelo menor y conteos de alelos para los uruguayos

afrodescendientes (“AFROURUS”). CHR= cromosoma, A1=alelo menor, A2= alelo mayor, MAF=frecuencia del alelo menor, CA1= conteo del alelo menor, CA2=conteo del alelo mayor.

CHR SNP A1 A2 MAF CA1 CA2

1 rs3818361 A G 0.25 5 15

2 rs7561528 A G 0.35 7 13

2 rs6733839 T C 0.35 7 13

2 rs744373 G A 0.4 8 12

2 rs35349669 T C 0.4 8 12

3 rs16847609 A G 0.15 3 17

5 rs190982 G A 0.2 4 16

5 rs382216 C T 0.5 10 10

5 rs11168036 G T 0.5 10 10

6 rs9271192 C A 0.2 4 16

6 rs9296559 C T 0.15 3 17

6 rs9349407 C G 0.15 3 17

6 rs10948363 G A 0.15 3 17

7 rs1595014 A T 0.1 2 18

7 rs2718058 G A 0.25 5 15

7 rs1476679 C T 0.3 6 14

7 rs11767557 C T 0.3 6 14

7 rs11771145 A G 0.4 8 12

8 rs28834970 C T 0.3 6 14

8 rs7012010 C T 0.05 1 19

8 rs2279590 T C 0.45 9 11

8 rs7982 A G 0.45 9 11

8 rs11136000 T C 0.45 9 11

8 rs9331896 C T 0.5 10 10

8 rs9331888 G C 0.35 7 13

11 rs10838725 C T 0.3 6 14

11 rs983392 G A 0.3 6 14

11 rs670139 T G 0.5 10 10

11 rs541458 C T 0.3 6 14


63

11 rs10792832 A G 0.25 5 15

11 rs3851179 T C 0.25 5 15

14 rs10498633 T G 0.2 4 16

17 rs112665297 C T 0.15 3 17

17 rs2942175 G C 0.15 3 17

17 rs2942177 A G 0.15 3 17

17 rs2668626 C T 0.15 3 17

18 rs8093731 T C 0.05 1 19

19 rs3764650 G T 0.15 3 17

19 rs4147929 A G 0.15 3 17

19 rs3865444 A C 0.4 8 12

19 rs12459419 T C 0.4 8 12

Tabla 9. Valores calculados de frecuencia de alelo menor y conteos de alelos para los nativos

uruguayos (“IND”). CHR= cromosoma, A1=alelo menor, A2= alelo mayor, MAF=frecuencia del alelo menor, CA1= conteo del alelo menor, CA2=conteo del alelo mayor.