análisis genético usando datos de secuenciación masiva · 2013-06-26 · toda la información...

Post on 30-May-2020

4 Views

Category:

Documents

0 Downloads

Preview:

Click to see full reader

TRANSCRIPT

Análisis genético usando datos de secuenciación masiva

Michael Hackenberg

hackenberg@ugr.es

Motivación

Existen diferentes situaciones en las que interesa detectar el genotipo de un individuo Identificación del portador: análisis genético de una pareja que está pensando en tener un hijo y cuyos miembros pertenecen a familias con antecedentes . Diagnóstico pre-natal: es el test genético de un feto. Puede ser realizado en los casos en los que existe riesgo de que el bebé presente genes asociados a un retraso mental o discapacidad física. Exploración del recién nacido: se realiza frecuentemente como medida preventiva de salud, presentando una ventaja obvia para el recién nacido cuando existe un tratamiento disponible. Trastornos de aparición tardía: incluye el análisis de enfermedades en adultos como, por ejemplo, cáncer y enfermedades cardiacas. Estas enfermedades son complejas y las causas para su desarrollo pueden ser tanto genéticas como medioambientales.

Enfermedades mendelianas

Ejemplos: Enfermedades mendelianas

Base de datos: OMIM (Online Mendelian Inheritance in Man) http://www.ncbi.nlm.nih.gov/omim

Toda la información acerca de enfermedades mendelianas conocidas

incluyendo 12000 genes y la relación entre el genotipo y fenotipo

Hemoglobinopathies: sickle cell anaemia,thalassemia

Inborn errors of metabolism:PKU,Alkaptonuria……

Albinism

Cystic Fibrosis

Hirschsprung disease

Fenotipos complejos

Objetivo

Corto plazo: Descubrir la base molecular de un fenotipo complejo, es decir la variación genética que puede explicar las diferencias fenotípicas entre los individuos de dos grupos (casos/controles)

Largo plazo: Mejorar la prevención y el tratamiento de enfermedades

Factores genéticos

Factores ambientales

Fenotipo complejo

• Algunos canceres • Diabetes (ambos tipos) • Alzheimer • Adicciones • Altura • Etc, etc, …

SNPs

En un principio podríamos usar diferentes tipos de variación para detectar las diferencias entre poblaciones o grupos (sanos/enfermos) pero el análisis genético se basa frecuentemente en SNPs

SNPs: Polimorfismo de nucleótido simple • Suelen tener solo dos alelos, por ejemplo

C/T

• Mas de 2/3 de todos los SNPs derivan de un dinucleótido CpG (mutación por metilación)

• MAF: Minor Allele Frequency (frecuencia del alelo menos frecuente)

• A partir de una MAF del 5% (algunas veces del 1%) se define como SNP común

• Los SNPs comunes se suelen emplear en los estudios de asociación

Tipos de variación: insercion y deleción

http://www.hgmd.cf.ac.uk/docs/mut_nom.html

Inserción en humano/chimpancé

Deleción en ratón/rata

Alineamientos

Genotípo y haplotípo

Frecuencia vs. Efecto

Detectar variación con chips de DNA

El principio de detectar variación mediante chips de DNA es el mismo que determinar los perfiles de expresión:

Secuenciación masiva

Métodos actuales Second Generation Sequencing (Secuenciación masiva) 454

Pyrosequencing (PS)

Illumina Reversible Termination (RT)

SOLID Sequencing by Ligation (SBL)

Secuenciación

Secuenciación

Variación y genotípo

SNP calling: detectar si en una posición dada existe variación Genotype calling: Detectar el genotípo de un individuo en la posición

Variación y genotípo

Posición: chr9:139266466-139266536 Alelo de la referencia: C 8 reads indican timina en la muestra 10 reads indican citosina en la muestra

Heterocigoto con genotipo: C/T

Detección de variación y genotípo

Protocolo

(1) discovery: alignment of sequence reads to the reference genome and identification of candidate sites or regions at which one or more samples differ from the reference sequence;

(2) filtering: use of quality control measures to remove candidate sites that were probably false positives;

(3) genotyping: estimation of the alleles present in each individual at variant sites or regions;

(4) validation: assaying a subset of newly discovered variants using an independent technology, enabling the estimation of the false discovery rate (FDR). Independent data sources were used to estimate the accuracy of inferred genotypes.

El punto de partida: FASTQ

@SRR037876.8543926 GSM522374_1:1:148:931:861 TAGTTCTACAGTCCGACGATCTCGTATGCCGTCTTC + BB@+?0:4@B@-@/A<3A7@-=@<1=@87=?<==9# @SRR037876.8543927 GSM522374_1:1:148:931:517 AGCTACATTGTCTGCTGGGTTTCTCGTATGCCGTCT + BBC@3<1=872661.@C;@A93+?:;.2.?386<;> @SRR037876.8543928 GSM522374_1:1:148:931:648 TGAGGTAGTAGGTTGTGTGGTTAATCGTATGCCGCT + 5@059)@6?':9>0<@@)@=BA8)99@3258?#### @SRR037876.8543929 GSM522374_1:1:148:931:770 GCTACATTGTCTGCTGGGTTTCTCGTATGCCGTCTT +

Identificador

Secuencia del ‘read’

Calidad del ‘read’

La calidad Los caracteres se pueden convertir en un score (Q, Phred score) de calidad

La salida del secuenciador: Los reads (lecturas) en formato fastq

Phred Quality Score

Línea de calidad: BB@+?0:4@B@-@/A<3A7@-=@<1=@87=?<==9#

ASCII codificación B = 66 @=64 + = 43 …

Codificación depende del fabricante (por ejemplo codificación Sanger para la línea de calidad de de arriba) Q(B) = 66 – 33 = 33 (primer base) Q(@) = 64 – 33 = 31 (tercer base) Q(+) = 43 – 33 = 10 (cuarta base) …

Phred Quality Score

Q y probabilidad de un error de secuenciación

Example of extended CIGAR and the pileup output.

Li H et al. Bioinformatics 2009;25:2078-2079

© 2009 The Author(s)‏

Formato VCF

top related