estudios de expresión génica con microarrays
Post on 26-Jan-2016
77 Views
Preview:
DESCRIPTION
TRANSCRIPT
Estudios de expresión génica con microarrays
Aplicaciones de Data Miningen ciencia y tecnología
Bioinformática
Marcelo A. Soria (soria@agro.uba.ar)Maestria en Data Mining. DC-FCEN
Expresión diferencial de genes frente a dos tratamientos
Marcelo A. Soria (soria@agro.uba.ar)Maestria en Data Mining. DC-FCEN
Tratamiento 1
Tratamiento 2
gen 1 gen 2
…
gen 3 gen 4 gen n
gen 1 gen 2
…
gen 3 gen 4 gen n
Comparación tratamiento 1 vs. tratamiento 2…
Marcelo A. Soria (soria@agro.uba.ar)Maestria en Data Mining. DC-FCEN
Utilizando microarrays se puede analizar la expresión relativa de miles de genes simultáneamente
http://www.bio.davidson.edu/Courses/genomics/chip/chip.html
Una animación sobre experimentos con microarrays:
Marcelo A. Soria (soria@agro.uba.ar)Maestria en Data Mining. DC-FCEN
Un microarray es un soporte sólido, por ejemplo, un vidrio de 8 x 2,5 cm.
Sobre el soporte se diseña una grilla, con tantos números de celdas como genes se van a analizar, más duplicados y controles
Sobre cada celda de la grilla se pegan moléculas de ADN complementarias del gen a analizar
Puntos importantes (1/2)
Marcelo A. Soria (soria@agro.uba.ar)Maestria en Data Mining. DC-FCEN
Se realizan los experimentos, se extrae ARNm y después de varios pasos químicos, se agrega el material procesado a los microarrays
Se escanea el microarray iluminando con uno o dos láseres de diferentes colores, se procesan las imágenes
Se extraen los datos de expresión de la imágen
Puntos importantes (2/2)
Experimentos con microarrays. Esquema de trabajo
hipótesis
diseño experimental
experimento
análisis de imágenes
normalización
pre-procesamiento
análisisfiltradoestimación agrupamiento
integración de los datosenriquecimiento
funcionalanálisis de vias
metabólicas
Marcelo A. Soria (soria@agro.uba.ar)Maestria en Data Mining. DC-FCEN
procesamiento de imágenes
Los spots se distribuyen en grillas, cada grilla se corresponde con uno de los probes (o genes) a analizar.
A veces las grillas no están bien alineadas entre sí.
Puede haber curvaturas dentro de una grilla
El espaciado entre los spots puede ser desigual
un microarray escaneadoMarcelo A. Soria (soria@agro.uba.ar)Maestria en Data Mining. DC-FCEN
procesamiento de imágenes
Cualquiera sea el tipo de microarray que utilicemos, tenemos que convertir los pixels de la imagen escaneada del microarray en información de expresión
1. escaneado (uno o dos canales)2. manipulación del contraste3. estimación preliminar de los centros de los
spots4. eliminar artefactos5. determinar la localización precisa del spot6. determinar la forma y tamaño del spot7. estimar el background
Dependiendo del tipo de microarray y de la plataforma, esto proceso puede ser más o menos automatizado
Marcelo A. Soria (soria@agro.uba.ar)Maestria en Data Mining. DC-FCEN
Estrategia de un experimento con un microarray de cDNA
El análisis de expresión con un chip de Affymetrix
Marcelo A. Soria (soria@agro.uba.ar)Maestria en Data Mining. DC-FCEN
normalización
Es una colección de métodos para tratar con los errores sistemáticos y los sesgos introducidos por la plataforma experimental utilizada
Etapas
Limpieza de los datos y transformación Normalización dentro del array (para arrays de 2 canales) Normalización entre arrays
Marcelo A. Soria (soria@agro.uba.ar)Maestria en Data Mining. DC-FCEN
normalización
1. Limpieza de los datos y transformación
Remover spots marcados en el paso anterior
Sustracción del background
Aplicar logaritmos
Marcelo A. Soria (soria@agro.uba.ar)Maestria en Data Mining. DC-FCEN
2. Normalización dentro del array (para arrays de 2
canales)
Posibles problemas:
normalización
Las marcas con Cy3 y Cy5 se incorporan diferencialmente
Los fluorógenos pueden tener diferentes respuestas de emisión a diferentes abundancias
Las emisiones pueden ser medidas diferencialmente a distintas intensidades
Problemas de enfoque
Marcelo A. Soria (soria@agro.uba.ar)Maestria en Data Mining. DC-FCEN
normalización
Soluciones (1/2):
Regresión lineal de Cy5 contra Cy3: Graficar los logaritmos de las intensidades Ajustar una recta de regresión Reemplazar los valores de Cy3 con los valores
ajustados
Marcelo A. Soria (soria@agro.uba.ar)Maestria en Data Mining. DC-FCEN
Soluciones (2/2):
Gráficos MA Graficar para cada spot en el eje x el promedio de los
logaritmos de Cy3 y Cy5. Y en el eje y la diferencia entre los logaritmos de los dos canales.
Ajustar una recta de regresión Recalcular la diferencia de logaritmos restando el valor
ajustado a la diferencia cruda
Regresión no-lineal de las diferencias de logaritmos (Regresión Loess)
Realizar un gráfico MA Aplicar la regresión Loess Recalcular la diferencia de logaritmos restando el valor
ajustado a la diferencia cruda
normalización
Marcelo A. Soria (soria@agro.uba.ar)Maestria en Data Mining. DC-FCEN
normalización
A veces es necesario corregir diferencias de intensidad que varían espacialmente sobre el microarray, en ese caso se pueden aplicar regresiones Loess bidimensionales
La causa de esto son las diferencias entre bloques de spots
Marcelo A. Soria (soria@agro.uba.ar)Maestria en Data Mining. DC-FCEN
3. Normalización entre arrays
Antes de hacer comparaciones entre distintos microarrays
tenemos que analizar y eliminar las diferencias entre arrays
debidas, por ejemplo, a diferencias entre las reacciones de
hibridación que ocurrieron en cada uno.
normalización
Marcelo A. Soria (soria@agro.uba.ar)Maestria en Data Mining. DC-FCEN
normalización
Soluciones
Realizar un gráfico Box-Plot conjunto para todos los arrays del experimento, para ver diferencias en variabilidad y en valores medios.
Asumiendo que las diferencias no tienen origen biológico se puede:
Escalar los datos: restarle a cada valor de logaritmos (o log-ratio), la media de su microarrray.
Centrarlos: restar la media y dividir por el desvío estándar
Normalizar la distribución: 1) ordenar los datos por array de mayor a menor. 2) calcular una nueva distribución, el primer dato es el promedio de los más altos; el segundo, el promedio de los segundos más altos, y así sucesivamente.3) Reemplazar cada medida en cada array con el promedio de la distribución calculada en 3).
Marcelo A. Soria (soria@agro.uba.ar)Maestria en Data Mining. DC-FCEN
top related