homología de isoformas filogenia, ortología y adaptación · tipo de información a disposición...

Homología de IsoformasFilogenia, Ortología y Adaptación

Juan Antonio Rodríguez Pérez

MAGISTER EN BIOINFORMÁTICA Y BIOLOGIA COMPUTACIONAL

UNIVERSIDAD COMPLUTENSE DE MADRID2010-2011

_________________________

CENTRO/EMPRESA DONDE SE DESARROLLARON LAS PRACTICASCentro de Investigación Príncipe Felipe (Valencia)

DIRECTOR DE LA TESIS (TUTOR DE LA EMPRESA)François Serra / Hernán J. Dopazo

CODIRECTOR DE LA TESIS (TUTOR POR EL MASTER)Federico Morán Abad

FECHA: Septiembre 2011

CALIFICACIÓN:

Homología de Isoformas. Filogenia. Ortología y Adaptación Juan Antonio Rodriguez Perez

2

ÍNDICE1. Introducción

2. Objetivos

3. Materiales y Métodos

3.1. Obtención del conjunto de genes.

3.1.1. Estrategia de la isoforma más larga (LIS)

3.1.2. Método de selección de isoformas por homología: BLAST2

3.1.3. Método de selección de isoformas por alineamiento: ALIGN

3.1.4. Método de selección de isoformas por filogenia: FILOALIGN

3.2. Selección de Metodologías

3.2.1. Selección de la mejor metodología (BLAST2 - ALIGN - FILOALIGN)

3.2.2. Comparación entre estrategias (LIS vs BLAST2)

3.3. Análisis del conjunto de datos BLAST2 vs LIS

3.3.1. Predicción de ortología

3.3.2. Análisis filogenético

3.3.3. Comparación de topologías de árboles

3.3.4. Análisis de adaptación molecular

3.3.4.1 Modelos de adaptación por sitio

3.3.4.2 Modelos de adaptación por rama y sitio

4. Resultados y Discusión

4.1. Conjunto de Datos

4.2. Comparación del conjunto de datos

4.3. Comparación de los métodos BLAST2 y LIS

4.4. Análisis de ortología y paralogía

4.5. Análisis de topologías

4.6. Análisis de adaptación

5. Conclusiones

6. Bibliografía

7. Anexo I

8. Anexo II

9. Experiencia adquirida


3

1. INTRODUCCIÓN

El concepto de homología es la base fundamental de la biología comparada. Originalmente

definido por Richard Owen [1] para estudiar las variantes del arquetipo vertebrado, el término fue

finalmente despojado de toda raíz creacionista luego de la publicación del Origen de las Especies

[2]. Esta publicación sentó las bases para la fundación de la biología moderna y el

reconocimiento de la biología como una ciencia histórica.

Desde el punto de vista Darwiniano la homología es evidencia de ancestralidad común y las

relaciones de parentesco se ponen en evidencia a través de la reconstrucción filogenética [3]. En

términos modernos el problema de la reconstrucción filogenética es un problema estadístico

preferiblemente asociado a la evolución de marcadores moleculares y en general asociado a la

evolución de los genes [4]. Sin embargo, los genes de especies eucariotas generalmente

transcriben más de una forma proteica [5], con lo que el reconocimiento de la homología puede

ser un problema comparativo no trivial para el análisis filogenético.

Las metodologías empleadas para el reconocimiento de la homología génica se basan en la

aproximación consensuada y generalmente aceptada de que la isoforma o transcripto más largo

de cada gen, mostrará una mayor distribución de posiciones homólogas maximizando así la

posibilidad de reconstruir las relaciones de parentesco entre las secuencias. Esta metodología es

empleada por bases de datos tales como HomoloGene [6], PhylomeDB [7], OrthoDB [8], y

EnsemblCompara [9]. En todas ellas, se parte de las isoformas más largas para, a partir de un

conjunto de algoritmos variables, reconstruir las relaciones filogenéticas de estas secuencias.

A continuación, a modo de ejemplo describiremos el procedimiento empleado por la base de

datos de EnsemblCompara para la obtención de ortólogos, es decir genes homólogos cuya

relación de descendencia se debe al proceso de diferenciación de especies. El resto de bases de

datos emplean estrategias análogas con algunas modificaciones propias. Para seleccionar sus

homólogos a partir de las proteínas para cada especie, HomoloGene y OrthoDB emplean

BLASTP [10], PhylomeDB se basa en el algoritmo de Smith-Waterman [11], mientras que

Ensembl [12] combina ambos, pero manteniéndose en todas ellas la selección de genes


4

homólogos a partir del transcripto más largo.

El proyecto Ensembl es una iniciativa conjunta del EBI (European Bioinformatics Institute) y del

Instituto Sanger, lanzada en 1999, como respuesta a la más que previsible finalización del

Proyecto Genoma Humano. El acceso público a los datos genómicos a través de un servidor web,

la anotación automática de genomas y la integración con otras bases de datos para genomas

vertebrados fueron sus objetivos iniciales. El servidor web se puso en marcha a mediados del año

2000, y desde entonces, genomas de otras especies se han ido añadiendo a la base de datos, y el

tipo de información a disposición de los usuarios se ha expandido para abarcar toda una serie de

datos biológicos funcionales y comparativos entre diferentes especies de animales, plantas,

eucariotas unicelulares y procariotas.

La base de datos, denominada EnsemblCompara [9], nos permite actualmente, realizar

predicciones de ortología y paralogía tras la secuenciación de un nuevo genoma. Estas

predicciones se realizan a partir de árboles de máxima verosimilitud (ML, Maximum Likelihood;

por sus siglas en inglés), tratando de reconstruir la historia de familias génicas. El algoritmo que

se emplea para predecir las relaciones de homología consiste en:

i. Buscar la isoforma de mayor largo de secuencia para cada gen por cada especie empleada en el análisis, en la base de datos de Ensembl.

ii. Ejecutar un WUBLASTP [13], en combinación con el algoritmo de Smith-Waterman, para cada gen contra el resto (su misma especie incluida)

iii. Construir un gráfico de las relaciones entre proteínas basadas en los mejores hits recíprocos para BLAST o en el ratio de scores de BLAST cuando es > 0.33.

iv. Del gráfico se extraer los componentes conectados. Cada conexión representa un grupo o familia génica.

v. Para cada agrupamiento construir un alineamiento múltiple, basado en la secuencia de proteínas, empleando una combinación de alineadores, consensuados por M-Coffee [14]

vi. Construir un árbol filogenético empleando TreeBeST [9], con la secuencia codificante.

vii. Inferir las relaciones de ortología y paralogía a partir de este árbol.

En el paso I de dicho algoritmo se utiliza la selección de la isoforma más larga. Esto presupone

que, al menos, una de las siguientes hipótesis es cierta:

• Las isoformas se conservan dentro de un mismo conjunto de homólogos• El paso de alineamiento eliminará exones no-homólogos.


5

Esta estrategia de tomar “por consenso” la isoforma más larga de un gen para predecir relaciones

de homología entre genes, puede acarrear problemas que se manifiesten y se acumulen a lo largo

de todo el flujo de trabajo.

Si por alguna razón biológica o algorítmica el transcripto más largo de alguna de las especies

implicadas no es reconocido, los exones utilizados en el alineamiento podrían llegar a ser no

homólogos, generando gaps y problemas de alineamiento (Fig. 1). En este caso, los análisis

estadísticos a posteriori, ya sea en la reconstrucción filogenética, en la detección de ortología y

paralogía, y/o en la detección de selección natural sobre dichas moléculas, se verían

comprometidos .

Figura 1. Problemas en la elección del transcripto más largo. En la especie Pan troglodytes la isoforma 1 no es reconocida como la más larga ya que ha habido un cambio en la configuración del transcripto a lo largo del proceso evolutivo. La forma más larga para esta especie es la isoforma 2 generando problemas de alineamiento entre isoformas no homólogas. Las cajas de colores indican exones.En esta tesis utilizaremos metodologías clásicas de la genómica comparativa. Concretamente:

• La definición de conjuntos de genes homólogos.• El alineamiento de secuencias • La reconstrucción filogenética

Isoforma 1 H. sapiens

Isoforma 2 P. troglodytes

Isoforma 1 M. musculus

ALINEAMIENTO DE ISOFORMAS

H.sapiens P. troglodytes M. musculus

Isoforma 1

Isoforma 2


6

• La predicción de las relaciones de ortología y paralogía• La detección de eventos de selección positiva.

Finalmente, concluiremos que la selección de isoformas mediante uno de los métodos propuestos

en esta tesis, sin ser el más eficiente produce mejoras, en el alineamiento y por lo tanto cambios

en la definición de ortólogos, parálogos y sitios bajo selección positiva.


7

2. OBJETIVOS

El objetivo principal de este trabajo consiste en definir una nueva metodología para la búsqueda y

alineamiento de secuencias homologas que sirviendo a los propósitos del análisis de secuencia en

bioinformática y evolución molecular mejore los resultados presentados por la estrategia de la

forma más larga (LIS).

La hipótesis que pondremos a prueba en este proyecto establece que el empleo de una

metodología diferente al método comúnmente utilizado (LIS) mejora la calidad del alineamiento

evitando así la obtención de falsos positivos a la hora de detectar eventos de ortología y selección

positiva.


8

3. MATERIALES Y MÉTODOS

3.1. Obtención del conjunto de genes.

Los conjuntos de genes homólogos correspondientes a cada gen de H. sapiens fueron

obtenidos de Ensembl v56 [15] a través de Biomart [16]. Las especies implicadas en el

estudio fueron: P. troglodytes , P. pygmaeus, M. mulatta, M. musculus, R. norvegicus , C.

porcellus y B. taurus.

3.1.1. Estrategia de la isoforma más larga (LIS)

Este set de homólogos precalculado por Ensembl está construido a partir del

transcripto más largo del gen [9] y por ello, constituirá el conjunto de genes con la

selección de las isoformas de mayor longitud de secuencia, empleadas como control en

el estudio, conjunto al cual a partir de ahora nos referiremos como LIS (Longest-

Isoform Selection) .

Para la construcción de un segundo conjunto de homólogos conteniendo una selección

de isoformas similares usamos todas las isoformas disponibles en Ensembl v56. A la

hora de proponer un método alternativo de selección de isoformas al transcripto más

largo, hemos pensado en tres metodologías diferentes:

3.1.2. Método de selección de isoformas por homología. BLAST2

El método de BLAST2 utiliza el programa BLAST [10] sobre todas las isoformas

existentes correspondientes a un grupo de genes homólogos. El algoritmo encuentra las

isoformas mas cercanas a cada una de las isoformas del gen semilla, resultando en un

grupo selecto de isoformas por cada una de las isoformas del gen semilla. Para evitar

tener dos isoformas de un mismo gen en estos grupos de isoformas homólogas, se

selecciona únicamente la isoforma mas cercana a la semilla para cada gen. Una vez

definidos estos grupos de transcriptos homólogos, se selecciona aquel grupo para el

que la suma de los scores de BLAST es mayor. (ANEXO I).

Cuando sea necesario referirse al conjunto de isoformas seleccionadas a través de este


9

método lo haremos por el nombre de BIS (Blast-Isoform Selection). El tiempo de

computación para producir BIS es de aproximadamente 2 horas de CPU a 2.0 GHz

para 20.966 genes semilla humanos.

3.1.3. Método de selección de isoformas por alineamiento: ALIGN

El método de ALIGN consiste en comparar todas las posibles combinaciones de

isoformas correspondientes a cada grupo de genes homólogos. Para ello se alinean las

secuencias con Muscle v3.7 [17] y a través del score de alineamiento (opción -

musclescore), se elige aquella combinación de isoformas que maximice esta

puntuación. Hemos encontrado genes semilla humanos con homólogos que

presentaban un número muy alto de isoformas, por lo que en ocasiones el número de

combinaciones posibles, alcanza y sobrepasa los varios millones. Con el objetivo de

poner un límite a esta combinatoria se ha elegido un umbral de 17.000 combinaciones

por gen semilla; cálculo realizado previamente al cómputo del alineamiento,

excluyendo el gen del grupo de comparación si se daba esta circunstancia.

El tiempo de computación para el algoritmo ALIGN ha sido de aproximadamente 1-2

semanas dividiendo el trabajo entre 140 CPUs a 2GHz cada una para completar 2.000

genes semilla humanos.

3.1.4. Método de selección de isoformas por filogenia: FILOALIGN

El método FILOALIGN se basa en la construcción de árboles filogenéticos, a partir del

grupo de homólogos con todas las isoformas disponibles. Se utilizó el programa

ProtTest [18] para estimar el mejor modelo de evolución del conjunto de isoformas. A

partir de éstas se construyen los árboles por máxima verosimilitud empleando el

programa PHYML [19]. Para cada uno de estos árboles se identificó cada una de las

isoformas de la semilla del gen humano y el conjunto de sus homólogos

correspondientes (ANEXO II). Para seleccionar un único conjunto de isoformas, se

compararon los scores de alineamiento de cada uno de los conjuntos homologos a

través de Muscle v3.7. Este método ha sido puesto en práctica para el mismo


10

subconjunto de genes que ALIGN. Para computar los 2000 genes, FILOALIGN

requirió aproximadamente 3-4 días de computación dividiendo el trabajo entre 140

CPUs a 2 GHz

3.2. Selección de metodologías

3.2.1. Selección de la mejor metodología (BLAST2, ALIGN, FILOALIGN)

Tras procesar los genes por las tres metodologías (BLAST2, ALIGN, FILOALIGN) y

obtener sus respectivas selecciones de isoformas, se compararon los resultados

mediante una media ponderada.

Aquellos homólogos que presentaban sólo una isoforma han sido retirados de la

ponderación ya que, evidentemente, ésta será elegida unánimemente por todos los

métodos, no portando diferencias en la comparación.

Las comparaciones entre métodos se han realizado comparando entre pares, y

analizando las coincidencias entre los tres.

La puntuación de comparación entre dos métodos se ha computado según los

siguientes criterios:

I. Se suma el número de homólogos para los que los dos métodos han elegido la misma isoforma, ponderado por el número de isoformas de cada uno de estos genes.

II. Se divide este número entre la suma total de isoformas que presentan los genes que tienen más de una isoforma. Obtendremos así un porcentaje de coincidencia para un determinado gen entre dos de los tres métodos de selección.

III. La media de este valor para todos los genes generará un único valor que representará el porcentaje de coincidencia entre dos métodos. La resultante es la media aritmética entre todos los valores.

El porcentaje ponderado para un conjunto de homólogos (PPH) para un gen semilla es;


11

donde: Nt es el numero de genes (con mas de una isoforma); P = serie de datos representando la

coincidencia o la discrepancia de ambos métodos para el gen i (Pi tomara un valor de 1 si ambos métodos coinciden para el gen i, y un valor de 0 si discrepan); T = serie de datos representando el

número de isoformas correspondiente a cada gen; (Ti sería igual al numero de isoformas del gen i)

3.2.2. Comparación entre estrategias (LIS vs BLAST2)

El alineamiento de las secuencias de las isoformas seleccionadas para cada gen por

ambos métodos se realizó empleando el algoritmo Muscle v3.7, con la opción -

musclescore.

Como test estadístico para verificar o rechazar si existen diferencias entre las medias

totales de los scores obtenidos por ambos métodos para cada gen, se ha aplicado un t-

Test de muestras independientes.

La aplicación de este test de contraste paramétrico requiere la normalidad de las

observaciones para cada uno de los grupos. Se ha asumido esta condición por estar

tratando tamaños relativamente grandes (>30), basándonos en el teorema central del

límite. Para realizar el cálculo del test, empleamos la librería stats del paquete scipy,

implementada en el lenguaje de programación Python. Los alineamientos de las

isoformas de cada gen y por lo tanto de cada árbol, se han visualizado mediante la

función correspondiente incluida en el paquete ETE (Environment for Tree

Exploration) [20]. Para determinar que existen diferencias significativas en cuanto a

score, hemos considerado significativo un p-valor de <0.05.

3.3. Análisis del conjunto de datos BLAST2 vs LIS

3.3.1. Predicción de ortología

Dado que el árbol de especies correspondiente a la selección de especies es

relativamente aceptado [21], la predicción de ortología se hizo mediante el algoritmo

de “species overlap” [22] implementado en el paquete ETE. El conteo de las

inconsistencias en esta predicción de ortología/paralogía entre los conjuntos de datos

LIS y BIS se realizó también empleando el paquete ETE.


12

3.3.2. Análisis filogenético

Las secuencias de las isoformas, obtenidas por uno y otro método se han alineado con

el algoritmo Muscle v3.7 y se ha utilizado el programa trimAl v1.2 [23], para eliminar

secuencias demasiado divergentes o mal alineadas. Para cada conjunto de isoformas

seleccionadas por cada método se construyó un árbol filogenético de máxima

verosimilitud empleando pMODELTEST [24], que permite inferir estadísticamente el

mejor modelo evolutivo que explica la relación entre un conjunto de secuencias

nucleotídicas.

3.3.3. Comparación de topologías

Para la comparación de topologías se ha empleado el programa TreeKO [25], con dos

estrategias de medición de distancias diferentes: 1- la distancia de Robinson & Foulds

[26] (en su variante de distancia estricta y distancia de especiación); y 2- la distancia al

filoma utilizando la topología de la figura 2.

Figura 2. Relaciones filogenéticas de las 8 especies de estudio [21].

Esta última distancia fue seleccionada para identificar nodos en conflicto con la

topología del filoma. Esta permite identificar la variabilidad en un conjunto de árboles

de genes sobre los nodos de un árbol de referencia que le suministraremos y contra el


13

cuál se comparará cada árbol.

3.3.4 Análisis de adaptación

Para el estudio de la adaptación de secuencias se han seleccionado topologías que

contuviesen única y exclusivamente árboles compuestos por 8 especies diferentes y

cuyo conjunto final de isoformas difiriese entre las metodologías BLAST2 y LIS.

Por otro lado, se han aplicado filtros de divergencia mínimos (Tabla 1) para las tasas de

sustituciones no sinónimas por sitio no sinónimo (dN) y la tasa de sustituciones

sinónimas por sitio sinónimo (dS) entre especies [27,28].

Pares de especiesPares de especies dN dS

P. troglodytes H. sapiens 0.0313 0.0625P. pygmaeus H. sapiens 0.0862 0.1727P. pygmaeus M. musculus 1.1704 2.3387M. mulatta M. musculus 1.1807 2.3612M. mulatta H. sapiens 0.1646 0.3293H. sapiens M. musculus 0.4896 1.0224

M. musculus R. norvegicus 0.4375 0.8750M. musculus C. porcellus 1.2430 2.4836

Tabla 1. Valores de dN y dS utilizados como filtros máxímos entre especies.

El programa CODEML del paquete PAML [29] fue utilizado para el análisis de

adaptación en secuencias. Este programa emplea métodos de máxima verosimilitud,

basándose en modelos de evolución de codones. El modelo que emplea este programa

es una versión simplificada del modelo de Goldman y Yang [30, 31]. Para estudiar los

efectos que la adaptación ejerce sobre las secuencias del estudio, se han aplicado dos

tipos de modelos; los modelos de sitios y los modelos de rama por sitio.

3.3.4.1. Modelos de adaptación por sitio

Para analizar los efectos de la selección positiva que actúan sobre cada gen y su

selección de isoformas por los dos métodos, se han utilizado los modelos M1a,


14

M2a, M7 y M8 [32] y los correspondientes test de tasas de verosimilitud (LRT).

El primer test compara la verosimilitud de los modelos M1a y M2 sobre las

secuencias alineadas. El modelo M1a (denominado cuasi-neutral) posee dos clases

de sitios (0, 1) con proporciones p0, y p1; una con ω0 estimado entre 0 y 1, y la otra

con ω1 = 1. El modelo M2a añade una nueva clase de sitios en proporciones p2 con

ω2 > 1 , que se infiere de los datos.

El test M7 vs M8 difiere del anterior por el número de clases de sitios. Mientras

que en el modelo M7 las presiones selectivas se distribuyen en 10 clases de sitios

en el modelo M8, lo hace sobre 11 clases de sitios. La clase adicional del modelo

alternativo asume una proporción extra de sitios bajo selección positiva, (ω > 1)

Para calcular la probabilidad a posteriori de pertenencia de un sitio a una clase,

CODEML utiliza una aproximación Bayesiana (Bayes-Empirical Bayes; BEB). Los

sitios con una probabilidad a posteriori de pertenecer a la clase con un p-valor <

0.05 luego del LRT, son seleccionados como sitios de selección positiva [33]

3.3.4.2. Modelos de adaptación por rama y sitio

Este tipo de modelos permiten que ω varíe tanto entre ramas como entre sitios

dentro del árbol, detectando selección positiva sobre sitios concretos en ramas

determinadas. Las ramas seleccionadas para testear selección positiva se

denominan foreground, mientras que el resto de las ramas del árbol se reconocen

como background. En este trabajo se ha aplicado el denominado Test 2 de ramas

por sitio, definido en Zhang, et al [33] y aplicado en Arbiza et al [27] y Serra et al

[28]. Este test compara dos modelos (A y A1). Mientras que en el modelo nulo

(A1), solo se consideran 2 clases de sitios (aquellos bajo selección purificadora y

neutral) a lo largo del background, el modelo alternativo (A) agrega una clase de

sitios bajo selección positiva solamente en el foreground. Estos modelos se

comparan a través de una prueba de LRT. La identificación de sitios bajo selección

positiva se determina a posteriori por inferencia bayesiana.


15

4. RESULTADOS Y DISCUSION

4.1. Conjunto de datos

Las estrategias desarrolladas en esta tesis para la búsqueda de una forma de selección de

genes homólogos a partir de la comparación de múltiples isoformas, ha generado un total

de 3 conjuntos de datos originales, derivados de las tres metodologías ya mencionadas:

BLAST2, ALIGN y FILOALIGN. A estas tres hay que sumar el conjunto de isoformas

derivadas directamente de la propia búsqueda de Biomart sobre la base de datos de

Ensembl-Compara v.56. Esta última corresponde a la mencionada como LIS (por Longest

Isoform Selection).

Biomart encontró un total de 20.966 grupos de homólogos a partir del genoma de H.

sapiens con el resto de las 7 especies de mamíferos. El grupo de homólogos derivado de

BLAST2 no observados en LIS corresponde a 9.564 genes. En estos, al menos una de las

isoformas seleccionadas no corresponde a la transcripción más larga.

4.2. Comparación del conjunto de datos

La comparación de los conjuntos de datos tomados de a pares y su ponderación por el

número de isoformas homólogas comunes a través de la medida PPH (ver definición en

Materiales y Métodos; sección 3.2.1), no arrojaron diferencias sustanciales en el

descubrimiento de conjuntos de isoformas distintas entre los métodos (Figura 2).

El hecho de que tanto BLAST2 y FILOALIGN como ALIGN y FILOALIGN presenten un

valor más alto (~54%) de coincidencia entre si que ALIGN y BLAST (~48%), podría deberse

a características compartida entre métodos. Efectivamente los métodos BLAST2 y

FILOALIGN comparten un primer paso en común en el que ambos, partiendo del mismo

conjunto de isoformas del gen semilla humano construyen conjuntos de homólogos en

diferentes especies a partir de cada una de estas isoformas. Una vez definidos estos grupos

BLAST2 selecciona a aquel conjunto de isoformas que maximiza el score del algoritmo

BLAST, mientras que FILOALIGN recurre al alineamiento de cada conjunto de homólogos y

escoge aquel con máximo score de alineamiento. Este segundo paso de FILOALIGN es

compartido con la metodología e ALIGN. Contrariamente, los métodos BLAST2 y ALIGN


16

no comparten metodologías comunes. La búsqueda realizada por BLAST2 para agrupar

homólogos es diferente a las practicada en ALIGN, donde la comparación de todas contra

todos genera un universo mas basto de agrupamientos de secuencias.

Dadas estas similitudes y diferencias entre los métdos es de esperar que el porcentaje de

coincidencia entre los tres métodos sea más bajo aún (35.55%).

Al momento de seleccionar la mejor estrategia debemos tener en cuenta que tanto los

métodos ALIGN como FILOALIGN sólo contemplaron un limitado conjunto de datos. Como

se ha explicado en el apartado 3.1, resulta computacionalmente muy costoso analizar el

universo posible de combinaciones de isoformas en ambos métodos. Esta es la razón por la

cual el diagrama de la figura 2 solo contempla 2.000 conjuntos de homólogos (extraídos de

idénticas semillas) y no el total de los más de 20.000 conjuntos totales de isoformas

homólogas. Por lo tanto, si bien las estrategias ALIGN y FILOALIGN resultan más fiables al

momento de seleccionar conjuntos de homólogos, éstas son tan intensivas

computacionalmente que resultan inaplicables cuando se tratan problemas de genomas

completos. De aquí que escojamos la estrategia BLAST2 como la solución mas económica y

sin embargo fiable de selección de isoformas entre los 3 métodos originales presentados en

esta tesis para el análisis de datos genómicos.

Figura 3: Diagrama de Venn representando los porcentajes de coincidencia entre métodos de selección de isoformas


17

4.3. Comparación de los métodos BLAST2 y LIS

Para comprobar cuantitativamente si la metodología mas económica en términos de

computación (BLAST2) resulta más efectiva que la selección de isoformas por el transcripto

más largo (LIS) comparamos los valores del score de alineamiento para los 9.564 genes

comunes entre estas metodologías. La media de estos valores fue 70.68 y 68.37 para

BLAST2 y LIS, respectivamente. La diferencia resultó estadísticamente significativa tras la

aplicación del t-Test de muestras independientes (t = 5.99; p-valor << 0.001).

Este resultado valida la mejora en la calidad de los alineamientos que supone la selección de

isoformas por el método BLAST2 en contraposición a la estrategia generalmente aplicada en

todos los estudios de genómica comparativa llevados a cabo hasta la fecha.

Para confirmar de forma gráfica este resultado la figura 4 muestra la distribución de los

scores utilizand "notched" box-plot. La no-superposición de las muescas entre distribuciones

señala que las medianas son diferentes con un 95% de confianza. De la misma forma que

para el test de medias, observamos una diferencia significativa.

Figura 4. Representación de los valores de score de alineamiento para los conjuntos de datos BLAST2 (1) y la selección de isoformas más largas (2). Las muescas de los box-plot no son solapantes, por lo que las medianas son estadísticamente diferentes.


18

Una vez verificado que la selección de isoformas a través de BLAST2 mejora

significativamente la calidad del alineamiento veremos como influyen estas diferencias en

cuanto a predicción de ortología, análisis filogenético y análisis de adaptación molecular.

4.4. Predicción de ortología y paralogía

Para valorar los cambios en cuanto a la obtención de ortólogos y parálogos por BLAST2 y

LIS, contamos el número de cambios de ortólogos a parálogos para los dos métodos. De los

9.564 genes hemos visto que en el 34.13 % de ellos existe al menos un cambio en cuanto a

estas relaciones de tipos de homología molecular. Este resultado contrasta fuertemente con

las pequeñas mejoras de calidad de los alineamientos vistas anteriormente. A nivel de

predicción de ortología y paralogía, la selección de isoformas es un factor clave, y si bien no

podemos afirmar que los cambios observados corresponden a una mejor interpretación del

proceso evolutivo, si podemos evaluar el impacto que supone no escoger las isoformas mas

largas.

4.5 Análisis de topologías

La comparación entre topologías de los árboles obtenidos para cada gen entre los dos

métodos mostró que en media los árboles tienen una distancia de especiación de 0.05. Si bien

este número no parece ser muy elevado para diferenciar entre los métodos, esta medida de

distancia no contempla las diferencias entre dos árboles marcadas por eventos tales como

duplicaciones o pérdidas de genes. Sin embargo, si empleamos la distancia estricta la media

entre ambos métodos se incrementa a 0.17, lo cual nos indica que las diferencias entre la

manera de construir los árboles filogenéticos, son apreciables (en razón de un 20% de los

arboles) tan pronto como tomamos en cuenta los eventos de duplicaciones y pérdida de genes

ocurrido entre árboles. Esta diferencia, evidencia la repercusión en cuanto a las topologías

construidas a partir de uno y otro método.

La comparación de las topologías obtenidas en relación al árbol de referencia del filoma

mamífero no reveló diferencias notables entre los métodos. No obstante los resultados


19

muestran diferencias entre las dos aproximaciones. La comparación contra el filoma, mostró

que para los árboles construidos a partir de la isoforma más larga, existía un 65.9% de

árboles, o particiones, que recuperaban la topología de referencia, mientras que para los

árboles obtenidos a partir de BLAST2, este porcentaje se incrementaba a 67.6%. Este

resultado, aunque sin soporte estadístico, apunta a que la metodología BLAST2 mejora el

resultado de la topología obtenido a partir de estos alineamientos.

4.6 Análisis de adaptación

Con el propósito de cuantificar las diferencias en eventos de adaptación derivados de las

metodologías BLAST2 y LIS, dos tipos de test de adaptación se utilizaron: 1- test de sitios y

2- test de ramas por sitios. Para esto se han analizado el conjunto de genes comunes donde

los ortólogos son “uno a uno” y difiriendo en el contenido de isoformas entre metodologías.

Un total de 3.041 grupos de ortólogos cumplieron dichas condiciones. Luego de la aplicación

del filtro de distancia máxima entre especies un total de 625 y 480 alineamientos fueron

seleccionados dentro de los conjuntos BLAST2 y LIS, respectivamente.

El número de genes bajo selección positiva contabilizados luego del LRT entre M1a y M2a

fue de 33 y 56 para el conjunto de datos de BLAST2 y LIS. Este número representa el 5.3%

para BLAST2 y 11.7% del total de alineamientos para LIS resaltando el carácter

conservativo de BLAST2 al momento de detectar adaptación.

El número total de sitios (codones) bajo selección positiva fue mas alto sin embargo en

BLAST2 que en LIS, llegando 3,3 frente a 2.2 sitios de selección por gen en media para

ambos métodos.

Los resultados obtenidos mediante la comparación M7- M8, confirman los resultados de la

comparación M1a vs M2a. Una mayor cantidad de genes bajo selección positiva El carácter

mas conservativo de BLAST2 frente a LIS al momento de detectar genes bajo selección

positiva (72 vs 101) y con una mayor cantidad de sitios positivamente seleccionados por gen

(4.12 frente a 2.94).

La figura 5 muestra un ejemplo gráfico de lo que ocurre a nivel de detección de sitios bajo


20

selección positiva en el alineamiento. El alineamiento de las isoformas más largas conlleva

un alineamiento de exones no homólogos, por lo que se generan gaps mas grandes,

provocando alineamientos que no reflejan la realidad, detectándose así los falsos positivos de

sitios bajo selección natural, 3 en este caso, según el modelo M2a. Por el contrario, en las

isoformas obtenidas a través de BLAST2 los exones que se alinean son verdaderos ortólogos

mejorando la estima de selección natural sobre secuencias.

Figura 5. Alineamientos e histograma de valores de dN/dS por sitio (M2a) correspondiente al conjunto de isoformas ortólogas a través de LIS (A) y BLAST2 (B) para el gen Ensembl_ID:ENSG00000187672. Los amino ácidos supuestamente sometidos a selección positiva están señalados en verde representando valores de ω=dN/dS >1. Estos sitios son falsos positivos al compararse con el alineamiento B. Los asteriscos remarcan diferencias de alineamiento.Las cajas amarillas muestran 5 residuos “EGIWA” separados por gaps debido a la selección de isoformas más largas (LIS) y el respectivo alineamiento de exones no homólogos. En B no se observan gaps y los residuos aparecen juntos mejorando la calidad del alineamiento. Note que no se observan sitios de seleccion positiva.

Los resultados obtenidos luego del análisis del test de adaptación por ramas y sitios entre

métodos confirma la misma tendencia observada en el análisis de sitios. La Tabla 2 muestra

el número de genes totales, y por especie, bajo selección positiva deducidos a partir de ambas


21

metodologías. en la mayor parte de los casos estudiados el BLAST2 muestra ser más

conservativo que el método de las isoformas más largas.

Especies BLAST2 LIS COMUNESM. musculus 85 77 45R. norvegicus 7 14 3C. porcellus 64 76 34M. mulatta 12 17 2H.sapiens 30 34 18P. troglodytes 38 36 21P. pygmaeus 61 85 36Total 297 339 159

Tabla 2. Número de genes bajo selección positiva según el modelo por rama y sitio.

Por lo tanto, sin posibilidades de comparación con un conjunto de secuencias fiables para este conjunto de datos donde detectar falsos positivos y negativos concluimos que el comportamiento mas parsimonioso de la metodología BLAST2 sirve a los propósitos del estudio de la selección natural sobre secuencias de manera mas fiable que la metodología comúnmente utilizada del transcripto mas largo.


22

5. CONCLUSIONES

En este trabajo se han presentado tres metodologías novedosas para la selección de conjuntos de secuencias homólogas: BLAST2, FILOALIGN y ALIGN. Estas metodologías fueron comparadas entre sí y con la metodología clásica de búsqueda de homólogos en estudios de genómica comparativa: la selección de isomorfas a partir del transcripto más largo (LIS).

En estas comparaciones hemos demostrado que BLAST2 en contraposición a LIS es una metodología alternativa y equivalente en tiempos de computación para la resolución de problemas genómicos. En contraposición FILOALIGN resultaría más eficiente si los problemas a analizar tuviesen una disensión menor, pro ejemplo las que resulten de comparaciones en estudios de unas pocas familias multigénicas.

La metodología ALIGN al ser exhaustiva es de difícil resolución por el inmenso número de combinatorias que plantea incluso para unas pocas secuencias por gen en pocas especies.

BLAST2 mejoró de forma significativa la calidad de los alineamientos de genes homólogos.

Dada la ausencia de un conjunto de referencia, no permite concluir que el uso de BLAST2 en contraposición a LIS mejore significativamente la selección de topologías y la detección de presiones selectivas adaptativas. Sin embrago a lo largo de este trabajo hemos observado que BLAST2 mejora para un tercio de los conjuntos de homólogos estudiados las distancias topológicas al árbol del filoma. Del mismo modo la utilización de BLAST2 hace a la predicción de las secuencias y sitios bajo selección positiva mucho mas conservativa que la metodología LIS.

La inclusión de este conjunto de referencia es condición necesaria para la posterior publicación de este trabajo.

6. BIBLIOGRAFÍA

1. Owen, R. On the archetype and homologies of the vertebrate skeleton. (London, 1848).

2. Darwin, C. On the Origin of Species by Means of Natural Selection, or the Preservation of Favoured Races in the Struggle for Life. (London, 1859).

3. Haeckel, E. Die systematische Phylogenie. (1894).

4. Felsenstein, J. Inferring phylogenies. Methods in enzymology 266, 1-681 (2004).

5. Jocelyn E. Krebs, Elliott S. Goldstein, S.T.K. Lewin’s GENES X. (2011).

6. Sayers, E.W. et al. Database resources of the National Center for Biotechnology Information. Nucleic acids research 39, D38-51 (2011).

7. Huerta-Cepas, J. et al. PhylomeDB v3.0: an expanding repository of genome-wide collections of trees, alignments and phylogeny-based orthology and paralogy predictions. Nucleic acids research 39, D556-60 (2011).

8. Waterhouse, R.M., Zdobnov, E.M., Tegenfeldt, F., Li, J. & Kriventseva, E.V. OrthoDB: the hierarchical catalog of eukaryotic orthologs in 2011. Nucleic acids research 39, D283-8 (2011).

9. Vilella, A.J. et al. EnsemblCompara GeneTrees: Complete, duplication-aware phylogenetic trees in vertebrates. Genome research 19, 327-35 (2009).

10. Altschul, S.F., Gish, W., Miller, W., Myers, E.W. & Lipman, D.J. Basic local alignment search tool. Journal of molecular biology 215, 403-10 (1990).

11. Waterman, M.S. Identification of Common Molecular Subsequences Identification of Common Molecular Subsequences. 195-197 (1981).

12. Hubbard, T. et al. The Ensembl genome database project. Nucleic acids research 30, 38-41 (2002).

13. Chao, K.M., Pearson, W.R. & Miller, W. Aligning two sequences within a specified diagonal band. Computer applications in the biosciences": CABIOS 8, 481-7 (1992).

14. Wallace, I.M., O’Sullivan, O., Higgins, D.G. & Notredame, C. M-Coffee: combining multiple sequence alignment methods with T-Coffee. Nucleic acids research 34, 1692-9 (2006).

15. Hubbard, T.J.P. et al. Ensembl 2009. Nucleic acids research 37, D690-7 (2009).

16. Smedley, D. et al. BioMart--biological queries made easy. BMC genomics 10, 22 (2009).


24

17. Edgar, R.C. MUSCLE: multiple sequence alignment with high accuracy and high throughput. Nucleic acids research 32, 1792-7 (2004).

18. Abascal, F., Zardoya, R. & Posada, D. ProtTest: selection of best-fit models of protein evolution. Bioinformatics (Oxford, England) 21, 2104-5 (2005).

19. Guindon, S. & Gascuel, O. A Simple, Fast, and Accurate Algorithm to Estimate Large Phylogenies by Maximum Likelihood. Systematic Biology 52, 696-704 (2003).

20. Huerta-Cepas, J., Dopazo, J. & Gabaldón, T. ETE: a python Environment for Tree Exploration. BMC bioinformatics 11, 24 (2010).

21. Prasad, A.B., Allard, M.W. & Green, E.D. Confirming the phylogeny of mammals by use of large comparative sequence data sets. Molecular biology and evolution 25, 1795-808 (2008).

22. Huerta-Cepas, J., Dopazo, H., Dopazo, J. & Gabaldón, T. The human phylome. Genome biology 8, R109 (2007).

23. Capella-Gutiérrez, S., Silla-Martínez, J.M. & Gabaldón, T. trimAl: a tool for automated alignment trimming in large-scale phylogenetic analyses. Bioinformatics (Oxford, England) 25, 1972-3 (2009).

24. Posada, D. jModelTest: phylogenetic model averaging. Molecular biology and evolution 25, 1253-6 (2008).

25. Marcet-Houben, M. & Gabaldón, T. TreeKO: a duplication-aware algorithm for the comparison of phylogenetic trees. Nucleic acids research 39, e66 (2011).

26. D. R. Robinson, L.R.F. Comparison of phylogenetic trees. Mathematical Biosciences 53, 131-147 (1981).

27. Arbiza, L., Dopazo, J. & Dopazo, H. Positive selection, relaxation, and acceleration in the evolution of the human and chimp genome. PLoS computational biology 2, e38 (2006).

28. Serra, F., Arbiza, L., Dopazo, J. & Dopazo, H. Natural selection on functional modules, a genome-wide analysis. PLoS computational biology 7, e1001093 (2011).

29. Yang, Z. PAML: a program package for phylogenetic analysis by maximum likelihood. Computer applications in the biosciences": CABIOS 13, 555-6 (1997).

30. Goldman, N. & Yang, Z. A codon-based model of nucleotide substitution for protein-coding DNA sequences. Molecular biology and evolution 11, 725-36 (1994).

31. Yang, Z. Likelihood ratio tests for detecting positive selection and application to primate lysozyme evolution. Molecular biology and evolution 15, 568-73 (1998).


25

32. Yang, Z., Nielsen, R., Goldman, N. & Pedersen, a M. Codon-substitution models for heterogeneous selection pressure at amino acid sites. Genetics 155, 431-49 (2000).

33. Zhang, J., Nielsen, R. & Yang, Z. Evaluation of an improved branch-site likelihood method for detecting positive selection at the molecular level. Molecular biology and evolution 22, 2472-9 (2005).


26

7. ANEXO I

ALGORITMO BLAST2En este anexo se muestra el comportamiento de BLAST2 a la hora de realizar la selección de isoformas utilizando como "query" una secuencia semilla de H. sapiens. En BLAST2, la semilla corresponde a todos los transcriptos del gen humano en cuestión. La selección se realiza frente a una base de datos que contiene el conjunto total de isoformas de genes de otras especies. Así, para cada búsqueda obtendremos un subconjunto de isoformas más cercana en "score" al gen semilla (ver Figura S1). Para definir el conjunto de isoformas homólogas putativas se suma los valores de "scores" de la isoforma más cercana para cada especie a la isoforma "query". En la figura 1, podemos comprobar que la isoforma que corresponde al Ensembl ID Isoforma: ENST00000375464; Ensembl ID Gen: ENSG00000165233, tiene un largo de 183 aminoácidos, y su selección de isoformas suma un "score" total de 2.044. Este gen en la versión 56 de Ensembl presentaba dos isoformas de las cuales esta de 183 aminoacidos es la más corta. Sin embargo, la isoforma más larga ENST00000428473 para este mismo gen tiene una longitud de 228 aminoácidos (Figura S2). Cuando empleamos este transcripto como "query" en BLAST, este devuelve un conjunto de isoformas cuya suma de "score" es 1.518, resultado ~500 puntos más bajo que el anterior, por lo que en este caso BLAST2 ha mejorado a priori la elección de transcriptos homólogos.

Fig S1: Captura de pantalla de la salida de BLAST para la isoforma más corta ENST00000375464 del gen ENSG00000165233. En el recuadro rojo están incluidas las isoformas, una por especie, con mayor valor de "score". El recuadro blanco remarca la isoforma semilla, y su longitud


27

Fig S2: Captura de pantalla de la salida de BLAST para la isoforma más larga ENST00000428473 del gen ENSG00000165233. En el recuadro rojo están incluidas aquellas isoformas, una por especie, con mayor valor de score. El recuadro azul remarca la isoforma semilla, y su longitud.


28

8. ANEXO II.

ALGORITMO FILOALIGNEn este anexo se muestra el funcionamiento FILOALIGN. Este algoritmo utiliza el conjunto de isoformas de un gen colectas en EnsemblCompara para las 8 especies de este trabajo. FILOALIGN computa un árbol de ML utilizando el mejor modelo evolutivo del conjunto de estas isoformas (Figura S3).En este árbol, existen genes homólogos (Gen 1 y Gen 2) con más de una isoforma (A y B) (Fig S3). Para el gen semilla (recuadrado en rojo), la isoforma más cercana del gen 1 es la isoforma A, y para el gen 2 es de nuevo la isoforma A. Sin embargo, el grupo de isoformas seleccionadas partiendo de la isoforma amarilla, será diferente porque para el gen 1, la isoforma más cercana a esta semilla es la B en ambos casos.Finalmente, cada combinación se alinea, y aquella que maximice el score de alineamiento será la combinación de homólogos elegida.

Figura S3: Figura que representa el árbol completo para el gen ENSG00000165233, construido a partir de todas sus isoformas existentes.


29

Experiencia adquirida durante la realización de este proyecto.

Programación• Linux OS• Shell-Scripting • Emacs. Editor de texto• Python. Lenguaje de programación• Manejo de computación distribuida (Sun Grid Engine)• Construcción de pipelines

Bases de Datos• Ensembl Compara. Base de datos de genomas completos• Phylome DB. Base de datos de filomas.

Manejo de Software • BLAST. Programa para búsqueda de secuencias similares• PHYML. Phylogenetic Maximum Likelihood• PAML. Phylogenetic Analysis using Maximum Likelihood• PHYLIP. Phylogeny Inference Package• trimAl. Trim Alignments• TreeKO. Duplication-aware algorithm for the comparison of

phylogenetic trees• ETE. Environment for tree explorer


30

homología de isoformas filogenia, ortología y adaptación · tipo de información a disposición...

Documents