búsqueda de similitud en bd - cinvestavertello/bioinfo/sesion06.pdfentre los 3 criterios dr....
TRANSCRIPT
Búsqueda de similitud en BD
Dr. Eduardo A. RODRÍGUEZ TELLO
CINVESTAV-Tamaulipas
4 de junio del 2013
Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Búsqueda de similitud en BD 4 de junio del 2013 1 / 37
1 Búsqueda de similitud en BDIntroducciónRequerimientos para búsqueda en BDBLASTFASTAComparación
Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Búsqueda de similitud en BD 4 de junio del 2013 2 / 37
Búsqueda de similitud en BD Introducción
1 Búsqueda de similitud en BDIntroducciónRequerimientos para búsqueda en BDBLASTFASTAComparación
Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Búsqueda de similitud en BD 4 de junio del 2013 3 / 37
Búsqueda de similitud en BD Introducción
Introducción
Una de las principales aplicaciones del alineamiento de pares desecuencias es en la recuperación de secuencias biológicas de lasBD en base a similitud
Este proceso implica el enviar una secuencia de consulta yefectuar una comparación por pares entre ésta y todas lassecuencias existentes en la BD
Por lo tanto podemos decir que la búsqueda de similitud en BD esequivalente al alineamiento de pares de secuencias a gran escala
Este tipo de búsqueda constituye una forma efectiva de inferirfuncionalidades para secuencias recién determinadas
Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Búsqueda de similitud en BD 4 de junio del 2013 4 / 37
Búsqueda de similitud en BD Requerimientos para búsqueda en BD
1 Búsqueda de similitud en BDIntroducciónRequerimientos para búsqueda en BDBLASTFASTAComparación
Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Búsqueda de similitud en BD 4 de junio del 2013 5 / 37
Búsqueda de similitud en BD Requerimientos para búsqueda en BD
Requerimientos para búsqueda en BD
Existen requerimientos únicos para la implementación dealgoritmos para búsqueda de secuencias en BD
Sensibilidad: Habilidad para encontrar el mayor número desecuencias coincidentes posibles (verdadero positivo)
Selectividad (Especificidad): Habilidad para excluir coincidenciasincorrectas (falso positivo).
Velocidad: El tiempo que toma recuperar los resultados de la BD
Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Búsqueda de similitud en BD 4 de junio del 2013 6 / 37
Búsqueda de similitud en BD Requerimientos para búsqueda en BD
Requerimientos para búsqueda en BD
Idealmente se quiere tener gran sensibilidad, selectividad yvelocidad al realizar búsquedas en BD
Sin embargo, satisfacer estos 3 requerimientos es muy difícil en lapráctica
Por lo anterior es necesario buscar un compromiso (balance)entre los 3 criterios
Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Búsqueda de similitud en BD 4 de junio del 2013 7 / 37
Búsqueda de similitud en BD Requerimientos para búsqueda en BD
Requerimientos para búsqueda en BD
Al igual que en otras áreas, los algoritmos para búsqueda desimilitud en BD pueden clasificarse en dos tipos:
Exhaustivos o exactos (imprácticos, lentos)
Heurísticos o aproximados
Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Búsqueda de similitud en BD 4 de junio del 2013 8 / 37
Búsqueda de similitud en BD Requerimientos para búsqueda en BD
Requerimientos para búsqueda en BD
El método de programación dinámica que estudiamos la clasepasada es exhaustivo e impráctico en la mayoría de los casos
El día de hoy estudiaremos algunos métodos heurísticos(basados en palabra corta1) que permiten acelerar el proceso decomparación entre secuencias:
BLAST
FASTA
1Matriz de puntos, Programación dinámica, Método de palabra corta
Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Búsqueda de similitud en BD 4 de junio del 2013 9 / 37
Búsqueda de similitud en BD BLAST
1 Búsqueda de similitud en BDIntroducciónRequerimientos para búsqueda en BDBLASTFASTAComparación
Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Búsqueda de similitud en BD 4 de junio del 2013 10 / 37
Búsqueda de similitud en BD BLAST
BLAST
BLAST (Basic Local Alignment Search Tool) es un métodoheurístico de alineamiento de secuencias de tipo local quepermite trabajar con secuencias biológicas de ADN o de proteínas
Desarrollado por Stephen Altschul del NCBI (National Center forBiotechnology Information) en 1990
BLAST permite comparar una secuencia de consulta (query)contra una gran cantidad de secuencias que se encuentren enuna BD
Devuelve las secuencias de la BD que tienen mayor parecido a lasecuencia de consulta
Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Búsqueda de similitud en BD 4 de junio del 2013 11 / 37
Búsqueda de similitud en BD BLAST
BLAST
BLAST emplea el algoritmo Smith-Waterman para realizar susalineamientos
Utiliza matrices de sustitución de aminoácidos o nucleótidos paracalificar sus alineamientos
Dichas matrices contienen la puntuación (score) que se le da alalinear un nucleótido (o aminoácido) X de la secuencia A con otroY de la secuencia B
Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Búsqueda de similitud en BD 4 de junio del 2013 12 / 37
Búsqueda de similitud en BD BLAST
BLAST
Las matrices más usadas para calificar alineamientos deproteínas son BLOSUM y PAM
El algoritmo de BLAST tiene tres etapas principales:
Inicialización (seeding)
Extensión
Evaluación
A continuación describiremos brevemente cada una de ellas
Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Búsqueda de similitud en BD 4 de junio del 2013 13 / 37
Búsqueda de similitud en BD BLAST
BLAST
1. InicializaciónSe buscan “palabras” pequeñas en las secuencias de la BD quecorresponden a fragmentos de la secuencia de consulta
BLAST asume que los alineamientos significativos debencontener estas palabras
Sólo se consideran significativas las palabras que tengan unapuntuación mayor a un umbral T y que se encuentren al menos auna distancia A de otra palabra (uso de matrices de sustitución)
Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Búsqueda de similitud en BD 4 de junio del 2013 14 / 37
Búsqueda de similitud en BD BLAST
BLAST
1. Inicialización...W es otro parámetro usado por BLAST y se refiere al tamaño delas palabras a buscar (3 residuos en proteínas, 11 nucleótidos enADN)
Ajustando T , A y W se puede elegir entre hacer un alineamientosensible pero lento, o uno más rápido pero con menor sensibilidad
Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Búsqueda de similitud en BD 4 de junio del 2013 15 / 37
Búsqueda de similitud en BD BLAST
BLAST
2. ExtensiónEl alineamiento se va extendiendo a ambos lados de las palabrasencontradas (usando el algoritmo de Smith-Waterman)
BLAST va extendiendo el alineamiento hasta que la puntuacióndel alineamiento descienda X o más puntos con respecto a lapuntuación más alta obtenida anteriormente
Este es el factor heurístico de BLAST, el límite X evita extender alo largo de toda la secuencia todos los alineamientos (tomaríademasiado tiempo)
Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Búsqueda de similitud en BD 4 de junio del 2013 16 / 37
Búsqueda de similitud en BD BLAST
BLAST
3. EvaluaciónTerminada la extensión de todas las palabras, cada uno de losalineamientos realizados es evaluado para determinar susignificación estadística
Para ello, se eliminan los alineamientos inconsistentes (aquellosque junten la misma parte de la secuencia de consulta condistintas partes de una secuencia en la BD)
Los alineamientos resultantes son llamados pares de altapuntuación (High Score Pairs o HSPs)
Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Búsqueda de similitud en BD 4 de junio del 2013 17 / 37
Búsqueda de similitud en BD BLAST
BLAST
3. Evaluación...Después se calcula la puntuación final de los alineamientosresultantes
Se determina su significación tomando en cuenta la probabilidadque tiene dicho alineamiento de haber sido obtenido por azar deacuerdo al tamaño de la BD
Al final se reportan sólo los alineamientos que hayan obtenidouna probabilidad mayor a E
Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Búsqueda de similitud en BD 4 de junio del 2013 18 / 37
Búsqueda de similitud en BD BLAST
BLAST
3. Evaluación...El parámetro E es conocido como e-valor (e-value) de corte, ynos permite definir qué alineamientos queremos obtener deacuerdo a su significación estadística
Cuanto menor sea el valor de E , más significativo es unalineamiento
Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Búsqueda de similitud en BD 4 de junio del 2013 19 / 37
Búsqueda de similitud en BD BLAST
BLASTEjemplo
Inicialización
Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Búsqueda de similitud en BD 4 de junio del 2013 20 / 37
Búsqueda de similitud en BD BLAST
BLASTEjemplo
Extensión
Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Búsqueda de similitud en BD 4 de junio del 2013 21 / 37
Búsqueda de similitud en BD BLAST
BLASTEjemplo
Evaluación
Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Búsqueda de similitud en BD 4 de junio del 2013 22 / 37
Búsqueda de similitud en BD BLAST
BLASTEjemplo
http://blast.ncbi.nlm.nih.gov/Blast.cgi
Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Búsqueda de similitud en BD 4 de junio del 2013 23 / 37
Búsqueda de similitud en BD BLAST
BLASTVariantes
BLAST cuenta con una familia de variantes que incluyen:BLASTN, BLASTP BLASTX TBLASTN y TBLASTX
BLASTN compara una secuencia de nucleótidos contra una BDque contenga también secuencias nucleotídicas
BLASTP es un BLAST “con huecos” (gaps) que compara unasecuencia de aminoácidos contra una BD del mismo tipo
Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Búsqueda de similitud en BD 4 de junio del 2013 24 / 37
Búsqueda de similitud en BD BLAST
BLASTVariantes...
BLASTX usa como secuencias de consulta nucleótidos y lostraduce en sus 6 marcos de lectura (3 por hebra) para producirsecuencias de proteínas, las cuales son usadas para buscar enuna BD de proteínas. Se usa cuando se tiene sospecha de que lasecuencia de entrada codifica para una proteína pero no se sabeexactamente cuál es su producto
TBLASTN compara una secuencia de proteínas con una BD denucléotidos. Para realizar esto traduce todas las secuencias denucleótidos en sus 6 marcos de lectura. Se usa cuando se tieneuna proteína, y el análisis con BLASTP no ha sido exitoso
Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Búsqueda de similitud en BD 4 de junio del 2013 25 / 37
Búsqueda de similitud en BD FASTA
1 Búsqueda de similitud en BDIntroducciónRequerimientos para búsqueda en BDBLASTFASTAComparación
Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Búsqueda de similitud en BD 4 de junio del 2013 26 / 37
Búsqueda de similitud en BD FASTA
FASTA
FASTA (FAST All) es una herramienta de búsqueda de similituden BD que fue creada antes que BLAST
Fue presentado por primera vez (como FASTP) por David J.Lipman y William R. Pearson en 19852
Utiliza una estrategia de hashing para encontrar coincidenciaspara un conjunto pequeño de residuos idénticos con una longitudk
FASTA también segmenta las secuencias en fragmentospequeños, llamados k-tuplas (2 residuos en proteínas, 6nucleótidos en ADN)
2DJ Lipman and WR Pearson (1985). Rapid and sensitive protein similarity searches. Science 227 (4693): pp.
1435–41. doi:10.1126/science.2983426
Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Búsqueda de similitud en BD 4 de junio del 2013 27 / 37
Búsqueda de similitud en BD FASTA
FASTA
Algoritmo FASTACrear fragmentos de las secuencias de tamaño k (k-tuplas)
Identificar ktups coincidentes entre 2 secuencias utilizandohashing
Mapear resultados a una matriz bidimensional (diagonales)
Se asignan puntajes (matriz de substitución) a las 10 regionescon la más alta densidad de diagonales
Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Búsqueda de similitud en BD 4 de junio del 2013 28 / 37
Búsqueda de similitud en BD FASTA
FASTA
Algoritmo FASTA...Los segmentos vecinos con altos puntajes en la misma diagonalson unidos para formar un alineamiento (con gaps)
El alineamiento se refina usando el algoritmo Smith-Watermanpara obtener el alineamiento final
Se efectua una validación estadística para obtener el e-valor(e-value)
Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Búsqueda de similitud en BD 4 de junio del 2013 29 / 37
Búsqueda de similitud en BD FASTA
FASTAEjemplo
La estrategia de hashing consiste en construir una tabla quecontiene la posición de cada k-tupla en las secuenciasconsideradas
La diferencia posicional para cada k-tupla se obtiene restando laposición de la primera secuencia de aquella de la segunda(desplazamiento)
Cuando dos o más k-tuplas tienen el mismo desplazamiento sonunidas y revelan una región continua idéntica que corresponde auna diagonal en una matriz bidimensional
Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Búsqueda de similitud en BD 4 de junio del 2013 30 / 37
Búsqueda de similitud en BD FASTA
FASTAEjemplo
Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Búsqueda de similitud en BD 4 de junio del 2013 31 / 37
Búsqueda de similitud en BD FASTA
FASTAEjemplo
Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Búsqueda de similitud en BD 4 de junio del 2013 32 / 37
Búsqueda de similitud en BD FASTA
FASTAEjemplo
Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Búsqueda de similitud en BD 4 de junio del 2013 33 / 37
Búsqueda de similitud en BD FASTA
FASTAEjemplo
Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Búsqueda de similitud en BD 4 de junio del 2013 34 / 37
Búsqueda de similitud en BD FASTA
FASTAEjemplo
http://www.ebi.ac.uk/Tools/fasta33/index.html
Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Búsqueda de similitud en BD 4 de junio del 2013 35 / 37
Búsqueda de similitud en BD Comparación
1 Búsqueda de similitud en BDIntroducciónRequerimientos para búsqueda en BDBLASTFASTAComparación
Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Búsqueda de similitud en BD 4 de junio del 2013 36 / 37
Búsqueda de similitud en BD Comparación
Comparación
En la práctica tanto FASTA como BLAST han presentadoresultados satisfactorios en busquedas en BD generales, sinembargo existen diferencias entre ambas herramientas:
En el paso de inicialización BLAST usa una matriz de substituciónpara encontrar coincidencias, mientras que FASTA utiliza unprocedimiento de hashingFASTA escanea tamaños de ventana más pequeños por lo que esmás sensible que BLAST pero usualmente más lento que ésteBLAST tiene más alta selectividad que FASTA por que reduce losfalsos positivosBLAST puede regresar múltiples alineamientos con la mejorpuntuación para la misma secuencia mientras que FASTA regresasólo un alineamiento final
Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Búsqueda de similitud en BD 4 de junio del 2013 37 / 37