la identidad de los fragmentos de dna ramon rosselló-móra marine microbiology group institut...

31
LA IDENTIDAD DE LOS FRAGMENTOS DE DNA LA IDENTIDAD DE LOS FRAGMENTOS DE DNA Ramon Rosselló-Móra Ramon Rosselló-Móra Marine Microbiology Group Marine Microbiology Group Institut Mediterrani d’Estudis Avançats (CSIC-UIB) Institut Mediterrani d’Estudis Avançats (CSIC-UIB)

Upload: gaspar-jiminez

Post on 23-Jan-2016

248 views

Category:

Documents


1 download

TRANSCRIPT

Page 1: LA IDENTIDAD DE LOS FRAGMENTOS DE DNA Ramon Rosselló-Móra Marine Microbiology Group Institut Mediterrani d’Estudis Avançats (CSIC-UIB)

LA IDENTIDAD DE LOS FRAGMENTOS DE DNALA IDENTIDAD DE LOS FRAGMENTOS DE DNA

Ramon Rosselló-MóraRamon Rosselló-Móra

Marine Microbiology GroupMarine Microbiology Group

Institut Mediterrani d’Estudis Avançats (CSIC-UIB)Institut Mediterrani d’Estudis Avançats (CSIC-UIB)

Page 2: LA IDENTIDAD DE LOS FRAGMENTOS DE DNA Ramon Rosselló-Móra Marine Microbiology Group Institut Mediterrani d’Estudis Avançats (CSIC-UIB)

Aristotle (-2400 years)Aristotle (-2400 years)

genusgenus speciesspecies

Linnaeus (-300 years)Linnaeus (-300 years)

kingdomkingdom classclass orderorder genusgenus speciesspecies

Mayr & Simpson (-50 yearsMayr & Simpson (-50 years))

kingdomkingdom phylumphylum subphylumsubphylum superclasssuperclass classclass infraclassinfraclass cohortcohort superorder superorder orderorder infraorderinfraorder superfamilysuperfamily familyfamily subfamilysubfamily tribetribe subtribe subtribe genusgenus subgenussubgenus speciesspecies subspeciessubspecies

►►un solo sistema ►un solo sistema ► toda la diversidadtoda la diversidad ( (MONISMOMONISMO))

►► de categorias respuesta ade categorias respuesta a nuevas clasificaciones!nuevas clasificaciones!

► ► El sistema ES artificialEl sistema ES artificial

Rosselló-Mora 2005, J.Bacteriol. 187:6255-6257Rosselló-Mora 2005, J.Bacteriol. 187:6255-6257

La idea de unidad taxonómica surge de la suposición de una creación divinaLa idea de unidad taxonómica surge de la suposición de una creación divina

Page 3: LA IDENTIDAD DE LOS FRAGMENTOS DE DNA Ramon Rosselló-Móra Marine Microbiology Group Institut Mediterrani d’Estudis Avançats (CSIC-UIB)

< 60’s< 60’s

Identificación fenotípicaIdentificación fenotípica

60’s60’s

Descubrimiento del DNADescubrimiento del DNAhibridaciones DNA-DNAhibridaciones DNA-DNA

Análisis del GCAnálisis del GC

90’s90’s

use del RNAr como use del RNAr como cronómetro molecularcronómetro molecular

>00’s>00’s

Genómica y Genómica y metagenómicametagenómica

(Venter)(Venter) (Bergey)(Bergey)

(Woese)(Woese) (Watson & Crieg)(Watson & Crieg)

La definición de unidad va mejorando con el desarrollo tecnológicoLa definición de unidad va mejorando con el desarrollo tecnológico

Page 4: LA IDENTIDAD DE LOS FRAGMENTOS DE DNA Ramon Rosselló-Móra Marine Microbiology Group Institut Mediterrani d’Estudis Avançats (CSIC-UIB)

¿qué es una especie?¿qué es una especie?

El concepto de especie en TAXONOMÍAEl concepto de especie en TAXONOMÍA

Page 5: LA IDENTIDAD DE LOS FRAGMENTOS DE DNA Ramon Rosselló-Móra Marine Microbiology Group Institut Mediterrani d’Estudis Avançats (CSIC-UIB)

¿qué es una especie?¿qué es una especie?

CONCEPTOCONCEPTO

ESPECIE (concepto ESPECIE (concepto filo-fenéticofilo-fenético))

““es una categoría que circunscribe (preferentemente) es una categoría que circunscribe (preferentemente) grupos genómicos coherentes grupos genómicos coherentes

y monofiléticosy monofiléticos de aislados/cepas individuales que comparten de aislados/cepas individuales que comparten un elevado grado de un elevado grado de

similitudsimilitud en (muchos) caracteres independientes, comparados utilizando métodos en (muchos) caracteres independientes, comparados utilizando métodos

estandarizados”estandarizados”

Rosselló-Mora & Amann 2001, FEMS Rev. Rosselló-Mora & Amann 2001, FEMS Rev. 25:39-6725:39-67

Page 6: LA IDENTIDAD DE LOS FRAGMENTOS DE DNA Ramon Rosselló-Móra Marine Microbiology Group Institut Mediterrani d’Estudis Avançats (CSIC-UIB)

¿qué es una especie?¿qué es una especie?

DEFINICIÓNDEFINICIÓN

phylogenetic coherencephylogenetic coherence

RNAr 16SRNAr 16SGenes funcionales (MLSA)Genes funcionales (MLSA)

Análisis genómicosAnálisis genómicos

70-50%70%

genomic coherencegenomic coherence

Reasociación DNA-DNAReasociación DNA-DNAG+C, AFLP, G+C, AFLP, MLSAMLSA

Comparaciones genómicasComparaciones genómicas(ANI; AAI)(ANI; AAI)

100%100%

60%60%

70%70%

80%80%

50%50%phenotypic coherencephenotypic coherence

metabolismometabolismoquimiotaxonomíaquimiotaxonomíaEspectrometría Espectrometría

(Maldi-Tof; ICR-FT/MS)(Maldi-Tof; ICR-FT/MS)

PARÁMETROS PARA CIRCUNSCRIBIR ESPECIESPARÁMETROS PARA CIRCUNSCRIBIR ESPECIES

(no se pueden tomar como valores absolutos)(no se pueden tomar como valores absolutos)

RNAr 16S RNAr 16S ≥ 97%≥ 97%

Hibridación DNA-DNA Hibridación DNA-DNA ≥ 70%≥ 70%

ANI ANI ≥ 94%≥ 94%

MLSA ???MLSA ???

Fenotipo Fenotipo = coherencia en muchos carácteres= coherencia en muchos carácteres

Page 7: LA IDENTIDAD DE LOS FRAGMENTOS DE DNA Ramon Rosselló-Móra Marine Microbiology Group Institut Mediterrani d’Estudis Avançats (CSIC-UIB)

El gen del El gen del RNAr 16SRNAr 16S permite reconstruir filogenias permite reconstruir filogenias

El RNAr 16S se ha convertido en la molécula de referencia paraEl RNAr 16S se ha convertido en la molécula de referencia para

reconstruir la genealogíareconstruir la genealogía

construir el sistema de clasificaciónconstruir el sistema de clasificación

indentificar diversidad ambientalindentificar diversidad ambiental

Page 8: LA IDENTIDAD DE LOS FRAGMENTOS DE DNA Ramon Rosselló-Móra Marine Microbiology Group Institut Mediterrani d’Estudis Avançats (CSIC-UIB)

¿qué es una especie?¿qué es una especie?

Se pretende asumir el filotipo como especie basada en 16S RNAr Se pretende asumir el filotipo como especie basada en 16S RNAr

En general dos organismos con <97% identidad pertenecen a especies distintasEn general dos organismos con <97% identidad pertenecen a especies distintasLo contrario no es ciertoLo contrario no es cierto

one species with genomic and one species with genomic and phylogenetic heterogeneityphylogenetic heterogeneity

several species with identical or several species with identical or nearly identical 16S rRNAnearly identical 16S rRNA

Staphylococcus piscifermentansStaphylococcus piscifermentans Staphylococcus carnosusStaphylococcus carnosus

Staphylococcus condimentiStaphylococcus condimenti

three speciesthree speciesRBR 51 - 58% - RBR 51 - 58% - 16S rRNA 98.9 - 99.9%16S rRNA 98.9 - 99.9%

Amycolatopsis thermoflavaAmycolatopsis thermoflava Amycolatopsis methanolicaAmycolatopsis methanolica

two speciestwo speciesRBR 21% - RBR 21% - 16S rRNA 98.8%16S rRNA 98.8%

Proteus vulgarisProteus vulgaris

Rahnella aquatilisRahnella aquatilis

ArchaeaArchaea

10%10%

Mycobacterium tuberculosisMycobacterium tuberculosis

Pseudomonas stutzeriPseudomonas stutzeri

one species with 7 genomovarsone species with 7 genomovars∆∆Tm 0 - 10°C - Tm 0 - 10°C - 16S rRNA 98 - 99.9%16S rRNA 98 - 99.9%

Pseudomonas aeruginosaPseudomonas aeruginosaone species with 3 genomospeciesone species with 3 genomospecies

RBR 40 - 100% - RBR 40 - 100% - 16S rRNA 97.8 - 100%16S rRNA 97.8 - 100%

Staphylococcus aureusStaphylococcus aureus

Page 9: LA IDENTIDAD DE LOS FRAGMENTOS DE DNA Ramon Rosselló-Móra Marine Microbiology Group Institut Mediterrani d’Estudis Avançats (CSIC-UIB)

¿qué es una especie?¿qué es una especie?

Se pretende asumir el filotipo como especie basada en 16S RNAr Se pretende asumir el filotipo como especie basada en 16S RNAr

En general dos organismos con <97% identidad pertenecen a especies distintasEn general dos organismos con <97% identidad pertenecen a especies distintasLo contrario no es ciertoLo contrario no es cierto

even extreme cases where a single even extreme cases where a single strain may contain different 16S rRNA strain may contain different 16S rRNA genes even below 97% similarity!!!!genes even below 97% similarity!!!!

a good correlation!!!a good correlation!!!

""Thermococcus litoralisThermococcus litoralis""

Thermococcus barophilusThermococcus barophilus

Haloarcula marismortuiHaloarcula marismortui

Haloferax mediterraneiHaloferax mediterranei Haloferax denitrificansHaloferax denitrificans

Natronobacterium tibetenseNatronobacterium tibetense

Natronobacterium bangenseNatronobacterium bangense

BacteriaBacteria10%10%

one strain with three 16S rRNAone strain with three 16S rRNAoperons with operons with 94%94% similarity similarity

two speciestwo speciesRBR 35% - 16S rRNA 95.2%RBR 35% - 16S rRNA 95.2%

two speciestwo speciesRBR 68% - 16S rRNA 97.3%RBR 68% - 16S rRNA 97.3%

Page 10: LA IDENTIDAD DE LOS FRAGMENTOS DE DNA Ramon Rosselló-Móra Marine Microbiology Group Institut Mediterrani d’Estudis Avançats (CSIC-UIB)

Identificación de organismos (DNA / RNA) no cultivados Identificación de organismos (DNA / RNA) no cultivados ►►

100%100%

100% 100% reconditioningreconditioning

99%99%98%98%97%97%

Acinas et al., 2004 Nature 430:551-554Acinas et al., 2004 Nature 430:551-554

Librerías de clonesLibrerías de clones

gran variedad de filotiposgran variedad de filotipos

errores en la amplificaciónerrores en la amplificación

agrupaciones por % identidadagrupaciones por % identidad

97% por especie?97% por especie?

Filotipos Filotipos ≠ especies≠ especies

OPU (operational phylogenetic unit)OPU (operational phylogenetic unit)

Se puede determinar a Se puede determinar a

grandes rasgos la identidad grandes rasgos la identidad

de los organismos presentesde los organismos presentes

Page 11: LA IDENTIDAD DE LOS FRAGMENTOS DE DNA Ramon Rosselló-Móra Marine Microbiology Group Institut Mediterrani d’Estudis Avançats (CSIC-UIB)

BASES DE DATOSBASES DE DATOS

1.443.326 16S rRNA1.443.326 16S rRNA

756.668 > 300 bases756.668 > 300 bases

324.342 > 900 bases324.342 > 900 bases

50% mala calidad50% mala calidad

20% buena calidad20% buena calidad

5% (10%) cultivados5% (10%) cultivados

Page 12: LA IDENTIDAD DE LOS FRAGMENTOS DE DNA Ramon Rosselló-Móra Marine Microbiology Group Institut Mediterrani d’Estudis Avançats (CSIC-UIB)

El crecimiento de la base de datos es exponencialEl crecimiento de la base de datos es exponencial

BASES DE DATOSBASES DE DATOS

95% de las secuencias son ambientales95% de las secuencias son ambientales

5% de las secuencias son de organismos cultivados5% de las secuencias son de organismos cultivados

1% de las secuencias se corresponden con especies conocidas1% de las secuencias se corresponden con especies conocidas

Page 13: LA IDENTIDAD DE LOS FRAGMENTOS DE DNA Ramon Rosselló-Móra Marine Microbiology Group Institut Mediterrani d’Estudis Avançats (CSIC-UIB)

La calidad de las secuencias aumenta con el tamaño de fragmento secuenciadoLa calidad de las secuencias aumenta con el tamaño de fragmento secuenciado

El gen está conservado de distinta forma en distintos sectores. El gen está conservado de distinta forma en distintos sectores.

Las secuencias cortas pierden información relevanteLas secuencias cortas pierden información relevante

Son las más abundates en la base de datosSon las más abundates en la base de datos

No es recomendable reconstruir filogeniasNo es recomendable reconstruir filogenias

rojo (secuencias totales)rojo (secuencias totales)

negro (buena calidad)negro (buena calidad)

Page 14: LA IDENTIDAD DE LOS FRAGMENTOS DE DNA Ramon Rosselló-Móra Marine Microbiology Group Institut Mediterrani d’Estudis Avançats (CSIC-UIB)

La identidad basada en RNAr 16S ambiental, muy probablemente se limite a filotiposLa identidad basada en RNAr 16S ambiental, muy probablemente se limite a filotipos

4 filos concentran el 87% de los taxones descritos4 filos concentran el 87% de los taxones descritos

La mayor parte de origen clínicoLa mayor parte de origen clínico

Hugenholz et al. 2002 AEM 18: 4765-4774Hugenholz et al. 2002 AEM 18: 4765-4774

Yarza et al. 2008 System Appl Microbiol 31: 241-250Yarza et al. 2008 System Appl Microbiol 31: 241-250

Identificación de un DNA ambientalIdentificación de un DNA ambiental

a nivel de especie poco probablea nivel de especie poco probable

hay 4 grupos que tienen la mayoria de aisladoshay 4 grupos que tienen la mayoria de aislados

información metabólicainformación metabólica

información genéticainformación genética

otros filos => difícil especular otros filos => difícil especular

Una secuencia no garantiza identificar el metabolismo y genéticaUna secuencia no garantiza identificar el metabolismo y genética

Page 15: LA IDENTIDAD DE LOS FRAGMENTOS DE DNA Ramon Rosselló-Móra Marine Microbiology Group Institut Mediterrani d’Estudis Avançats (CSIC-UIB)

El concepto de genoma de una especieEl concepto de genoma de una especie

Genes “core” esenciales y Genes “core” esenciales y con señal filogenéticacon señal filogenética

Genes “auxiliares” no Genes “auxiliares” no presentes en todos las presentes en todos las

poblaciones y con poca señal poblaciones y con poca señal filogenéticafilogenética

Genes “específicos” de Genes “específicos” de población y sin señal población y sin señal

filogenéticafilogenética

Lan and Reeves. 2000 TRENDS Microbiol 8: 396-401Lan and Reeves. 2000 TRENDS Microbiol 8: 396-401

Page 16: LA IDENTIDAD DE LOS FRAGMENTOS DE DNA Ramon Rosselló-Móra Marine Microbiology Group Institut Mediterrani d’Estudis Avançats (CSIC-UIB)

Otras moléculas con señal filogenéticaOtras moléculas con señal filogenética

Características de una molecula como reloj molecularCaracterísticas de una molecula como reloj molecular

universalmente representadauniversalmente representada

Solo Solo 3434 genes ortólogos universales ( genes ortólogos universales (Huynen & Bork, PNAS, 1998. 95:5849-5856Huynen & Bork, PNAS, 1998. 95:5849-5856))

Se pueden seleccionar genes específicos de grupo (e.g. filo) y no universalesSe pueden seleccionar genes específicos de grupo (e.g. filo) y no universales

constancia funcional constancia funcional

conservación en la secuencia suficiente para la reconstrucciónconservación en la secuencia suficiente para la reconstrucción

suficiente complejidad para tener señal filogenéticasuficiente complejidad para tener señal filogenética

Ludwig and Schleifer. 2005 Microbial phylogeny and Ludwig and Schleifer. 2005 Microbial phylogeny and evolution (Sapp) 70-98. (Oxford University Press)evolution (Sapp) 70-98. (Oxford University Press)

Marcadores que dan soporte a la filogenia globalMarcadores que dan soporte a la filogenia global

RNAr 16SRNAr 16S

RNAr 23SRNAr 23S

EF-Tu (EF-Tu (algunos filos son parafiléticos e.g. algunos filos son parafiléticos e.g. Actinobacteria Actinobacteria yy Streptomyces Streptomyces))

RNA polimerasa rpoB RNA polimerasa rpoB (algunos filos (algunos filos parafiléticos e.g. parafiléticos e.g. EpsilonproteobacteriaEpsilonproteobacteria y resto y resto ProteobacteriaProteobacteria))

Heat Shock Hsp60 Heat Shock Hsp60 ((BacteriaBacteria: GroEL, : GroEL, ArchaeaArchaea: : Tf-55; tambien algunos parafiléticos)Tf-55; tambien algunos parafiléticos)

Aminoacyl tRNA sintetasasAminoacyl tRNA sintetasas

Marcadores que NO dan soporte a la filogenia globalMarcadores que NO dan soporte a la filogenia global

ATPasasATPasas

DNA girasasDNA girasas

Hsp70Hsp70

RecARecA

De todos modos, si tienen señal a niveles más De todos modos, si tienen señal a niveles más concretos y pueden dar una idea de la identidadconcretos y pueden dar una idea de la identidad

Page 17: LA IDENTIDAD DE LOS FRAGMENTOS DE DNA Ramon Rosselló-Móra Marine Microbiology Group Institut Mediterrani d’Estudis Avançats (CSIC-UIB)

Filogenia con genes funcionales de Filogenia con genes funcionales de S. ruberS. ruber cepa M8 cepa M8

2222 ortólogos seleccionados ortólogos seleccionados ►► Filogenias individuales Filogenias individuales

((ileS, pyrG, rpsC, S5, rpoC, rpoB, gyrB, thrS, mfd, ftsY, tuf, uvrA-2ileS, pyrG, rpsC, S5, rpoC, rpoB, gyrB, thrS, mfd, ftsY, tuf, uvrA-2, , ffh, glyA, recN, ffh, glyA, recN,

ruvB, recG, rhoruvB, recG, rho, , groEL, recA, uvrA, valSgroEL, recA, uvrA, valS))

2222 secuencias concatenated secuencias concatenated ►►10.75710.757 posiciones posiciones

7474 ortólogos seleccionados automáticamente ortólogos seleccionados automáticamente ►► 17.14917.149 posiciones posiciones

Of all 22 analyzed genesOf all 22 analyzed genes::

57 % 57 % BacteroidetesBacteroidetes

27 % 27 % ChlorobiChlorobi

18 % 18 % Chlorobi- BacteroidetesChlorobi- Bacteroidetes

3 posibles filogenias

Sória-Carrasco et al. 2007. System Appl Microbiol. Sória-Carrasco et al. 2007. System Appl Microbiol. 30: 171-17930: 171-179

La filogenia de La filogenia de Salinibacter ruberSalinibacter ruber

Page 18: LA IDENTIDAD DE LOS FRAGMENTOS DE DNA Ramon Rosselló-Móra Marine Microbiology Group Institut Mediterrani d’Estudis Avançats (CSIC-UIB)

De los 29 genes analizadosDe los 29 genes analizados::

31% 31% ChlorobiChlorobi

38% 38% BacteroidetesBacteroidetes

10% 10% Chlorobi- BacteroidetesChlorobi- Bacteroidetes

21% 21% other reconstructionsother reconstructions

Page 19: LA IDENTIDAD DE LOS FRAGMENTOS DE DNA Ramon Rosselló-Móra Marine Microbiology Group Institut Mediterrani d’Estudis Avançats (CSIC-UIB)

Árboles concatenadosÁrboles concatenados::

misma topología que 16S rRNAmisma topología que 16S rRNA

resolución similarresolución similar

confima la divergencia tempranaconfima la divergencia temprana

mayor robustezmayor robustez

Mucho más complejo para el mismo resultadoMucho más complejo para el mismo resultado

16S 16S ►► aproximación más parsimoniosaaproximación más parsimoniosa

2222 genesgenes / / 10.75710.757 posicionesposiciones 7474 genesgenes / / 17.14917.149 posicionesposiciones

Sória-Carrasco et al. 2007. System Appl Microbiol. Sória-Carrasco et al. 2007. System Appl Microbiol. 30: 171-17930: 171-179

Page 20: LA IDENTIDAD DE LOS FRAGMENTOS DE DNA Ramon Rosselló-Móra Marine Microbiology Group Institut Mediterrani d’Estudis Avançats (CSIC-UIB)

DDHDDH es el estándar para circunscribir especies es el estándar para circunscribir especies

50-70% genome similarity50-70% genome similarity

MLSAMLSA ( (multilocus sequence analysismultilocus sequence analysis))

5-105-10 secuencias completas/parcialessecuencias completas/parciales

house keeping geneshouse keeping genes dificultades en el diseño de cebadoresdificultades en el diseño de cebadores biases en la selección de genesbiases en la selección de genes más trabajosomás trabajoso

(Stackebrandt et al. 2002. IJSEM. 52:1043-1047)(Stackebrandt et al. 2002. IJSEM. 52:1043-1047)

0102030405060708090

100

4 8 12 16

Boot

stra

p

Number of genes

Selecciones al azar deSelecciones al azar de 2222 genesgenes ►►checking branching robustnesschecking branching robustness►►1212 genes give thegenes give the minimalminimal reliabilityreliability►►el diseño de cebadores no es siempre fácilel diseño de cebadores no es siempre fácil

DDHDDH será menos preciso peroserá menos preciso pero más parsimoniosomás parsimonioso

Sória-Carrasco et al. 2007. System Appl Microbiol. Sória-Carrasco et al. 2007. System Appl Microbiol. 30: 171-17930: 171-179

El valor de los análisis multilocus (MLSA)El valor de los análisis multilocus (MLSA)

Page 21: LA IDENTIDAD DE LOS FRAGMENTOS DE DNA Ramon Rosselló-Móra Marine Microbiology Group Institut Mediterrani d’Estudis Avançats (CSIC-UIB)

El problema de la pérdida de identidad por transferencia horizontal de genes (HGT)El problema de la pérdida de identidad por transferencia horizontal de genes (HGT)

Kunin et al. 2005. Genome Res. 15:954-959 Kunin et al. 2005. Genome Res. 15:954-959

Las incongruencias filogenéticas Las incongruencias filogenéticas

hacen pensar en una transferencia hacen pensar en una transferencia horizontal exagerada que desdibuja la horizontal exagerada que desdibuja la

filogenia de los organismosfilogenia de los organismos

Doolittle y otros Doolittle y otros

DOS ESCUELASDOS ESCUELAS

Las incongruencias filogenéticas Las incongruencias filogenéticas

Se pueden explicar por Se pueden explicar por

►►eventos de duplicaciones (paralogías) eventos de duplicaciones (paralogías) y pérdida de genes (hidden paralogy)y pérdida de genes (hidden paralogy)

► ►

► ►

La solución es siendo más estricto en la La solución es siendo más estricto en la selección de genes y en la asignación selección de genes y en la asignación

de ortologíasde ortologías

Soria-Carrasco & Castresana, 2008. Mol. Soria-Carrasco & Castresana, 2008. Mol. Biol. Evol. 25: 2319-2329Biol. Evol. 25: 2319-2329

Kurland. 2005. Bioessays 27:741-747Kurland. 2005. Bioessays 27:741-747

Page 22: LA IDENTIDAD DE LOS FRAGMENTOS DE DNA Ramon Rosselló-Móra Marine Microbiology Group Institut Mediterrani d’Estudis Avançats (CSIC-UIB)

El problema de la pérdida de identidad por transferencia horizontal de genes (HGT)El problema de la pérdida de identidad por transferencia horizontal de genes (HGT)

Sensory rhodopsinsSensory rhodopsins

BacteriorhodopsinsBacteriorhodopsins

HalorhodopsinsHalorhodopsins

ProteorhodopsinsProteorhodopsins

XanthorhodopsinsXanthorhodopsins

Salinibacter M8 & M31 encode for 4 rhodopsinsA medida que se van secuenciando A medida que se van secuenciando DNA ambientales aparecen más y DNA ambientales aparecen más y más proteorhodopsinas (hasta en más proteorhodopsinas (hasta en

euriarcheotas) que se atribuyen a una euriarcheotas) que se atribuyen a una enorme tasa de HGTenorme tasa de HGT

McCarren & DeLong, Environ. Microbiol. McCarren & DeLong, Environ. Microbiol. 9:846-858 (2007)9:846-858 (2007)

Si los 3 tipos de proteorhodopsinas se consideraran Si los 3 tipos de proteorhodopsinas se consideraran distintos genes (como el resto), probablemente se distintos genes (como el resto), probablemente se

hablaría de un ancestro común y no de HGThablaría de un ancestro común y no de HGT

Page 23: LA IDENTIDAD DE LOS FRAGMENTOS DE DNA Ramon Rosselló-Móra Marine Microbiology Group Institut Mediterrani d’Estudis Avançats (CSIC-UIB)

200 l agua de mar200 l agua de mar

2 millones de secuencias (media de 800 bases)2 millones de secuencias (media de 800 bases)

1.2 millones de genes1.2 millones de genes

1400 1400 ≠ 16S rRNA≠ 16S rRNA

600 ≠ recA600 ≠ recA

800 proteorhodopsinas nuevas 800 proteorhodopsinas nuevas

Venter et al., 2004. Science 304:66-74Venter et al., 2004. Science 304:66-74

www.sorcerer2expedition.org

Rusch et al., 2007. PLoS Biol. 5:398-431Rusch et al., 2007. PLoS Biol. 5:398-431

200 l agua de mar / estación

41 puntos de muestreo

44,000 – 420,000 clones/estación

7,700,000 lecturas

total 6,250,000 genes (3,081,849 contigs)

4,125 ≠ 16S rRNA (>5000 recA!)

811 ≠ ribotipos (97%) (50% novel)

Alfaproteobacteria (SAR11) más abundante

Incremento en información entre ambos estudiosIncremento en información entre ambos estudios

41 muestras41 muestras

3.9x secuenciaciones3.9x secuenciaciones

5.1x número de genes5.1x número de genes

2.9x número de RNAr 16S 2.9x número de RNAr 16S ≠≠

Page 24: LA IDENTIDAD DE LOS FRAGMENTOS DE DNA Ramon Rosselló-Móra Marine Microbiology Group Institut Mediterrani d’Estudis Avançats (CSIC-UIB)

La probabilidad de encontrar un gen con señal filogenéticaLa probabilidad de encontrar un gen con señal filogenética

Venter: Global Ocean Sampling (Venter: Global Ocean Sampling (Rusch et al., 2007. PLoS Biol. 5:398-431Rusch et al., 2007. PLoS Biol. 5:398-431) random sequencing) random sequencing

6,250,944 ORFs6,250,944 ORFs

6,413 16S ≠ 6,413 16S ≠ ΞΞ 0.1% (1/1000) 0.1% (1/1000)

fósmido ►100 orfs fósmido ►100 orfs ΞΞ 10% contendrá un RNAr 16S (o marcador filogenético) 10% contendrá un RNAr 16S (o marcador filogenético)

cósmido ►40 orfs cósmido ►40 orfs ΞΞ 4% contendrá un RNAr 16S (o marcador filogenético) 4% contendrá un RNAr 16S (o marcador filogenético)

Valores semejantes se obtendrán para otros genes con pocos parálogosValores semejantes se obtendrán para otros genes con pocos parálogos

Si hay 34 ortólogos universales Si hay 34 ortólogos universales ΞΞ 3.5% de los genes (29/1000) 3.5% de los genes (29/1000)

Aumentan mucho las posibilidades de encontrar un gen con señal en un fósmidoAumentan mucho las posibilidades de encontrar un gen con señal en un fósmido

Asignación por tetranucleótidos (Asignación por tetranucleótidos (Teeling et al., 2004 Environ Microbiol. 6:938-947Teeling et al., 2004 Environ Microbiol. 6:938-947 ) targeted metagenome ) targeted metagenome librarieslibraries

si un genoma tiene 4 Mbsi un genoma tiene 4 Mb fósmido ►100 orfs fósmido ►100 orfs ΞΞ 10% contendrá un RNAr 16S (o marcador filogenético) 10% contendrá un RNAr 16S (o marcador filogenético)

cósmido ►40 orfs cósmido ►40 orfs ΞΞ 4% contendrá un RNAr 16S (o marcador filogenético) 4% contendrá un RNAr 16S (o marcador filogenético)

Ambas aproximaciones concuerdan con una media de genoma de 4MbAmbas aproximaciones concuerdan con una media de genoma de 4Mb

La precisión en la identificación depende de lo extensa que sea la base de datosLa precisión en la identificación depende de lo extensa que sea la base de datos

Page 25: LA IDENTIDAD DE LOS FRAGMENTOS DE DNA Ramon Rosselló-Móra Marine Microbiology Group Institut Mediterrani d’Estudis Avançats (CSIC-UIB)

Si el fragmento de metagenoma no contiene marcador filogenéticoSi el fragmento de metagenoma no contiene marcador filogenético

SIGNATURAS DEL GENOMASIGNATURAS DEL GENOMA

Contenido G+C Contenido G+C ►poco informativo►poco informativo

Codon usage Codon usage ► equivalente a trinucleotidos ► mayor información► equivalente a trinucleotidos ► mayor información

Tetranucleótidos (penta-, hexa-…) Tetranucleótidos (penta-, hexa-…) ►mayor información, pero mayor coste de cálculo►mayor información, pero mayor coste de cálculo

Variaciones de tetranucleótidos: 4Variaciones de tetranucleótidos: 444 = 256 = 256

Page 26: LA IDENTIDAD DE LOS FRAGMENTOS DE DNA Ramon Rosselló-Móra Marine Microbiology Group Institut Mediterrani d’Estudis Avançats (CSIC-UIB)

Se puede realizar la regresión de las frecuencias de uso de tetranucleótidosSe puede realizar la regresión de las frecuencias de uso de tetranucleótidos

Índice de regresiónÍndice de regresión

dos genomas semejantes tienen frecuencias semejantes (buena correlación; e.g. 0.89)dos genomas semejantes tienen frecuencias semejantes (buena correlación; e.g. 0.89)

dos genomas distintos tienen frecuencias distintas (mala regresión; e.g. 0.45)dos genomas distintos tienen frecuencias distintas (mala regresión; e.g. 0.45)

Page 27: LA IDENTIDAD DE LOS FRAGMENTOS DE DNA Ramon Rosselló-Móra Marine Microbiology Group Institut Mediterrani d’Estudis Avançats (CSIC-UIB)

Se puede realizar la regresión de las frecuencias de uso de tetranucleótidosSe puede realizar la regresión de las frecuencias de uso de tetranucleótidos

Teeling et al., 2004 Environ Microbiol. 6:938-947Teeling et al., 2004 Environ Microbiol. 6:938-947

En un grupo de clones de metagenoma se puede observar cuáles pueden ser asignados a En un grupo de clones de metagenoma se puede observar cuáles pueden ser asignados a un mismo genoma o de organismos muy semejantesun mismo genoma o de organismos muy semejantes

Probablemente de un Probablemente de un mismo genoma u mismo genoma u

organismoorganismo

Page 28: LA IDENTIDAD DE LOS FRAGMENTOS DE DNA Ramon Rosselló-Móra Marine Microbiology Group Institut Mediterrani d’Estudis Avançats (CSIC-UIB)

Dos poblaciones de una misma especie pueden no compartir orfsDos poblaciones de una misma especie pueden no compartir orfs

Peña et al., manuscrito en preparaciónPeña et al., manuscrito en preparación

Si los fragmentos de DNA no compartidos tienen una misma frecuencia de uso, se puede Si los fragmentos de DNA no compartidos tienen una misma frecuencia de uso, se puede hipotetizar una identidad semejantehipotetizar una identidad semejante

Page 29: LA IDENTIDAD DE LOS FRAGMENTOS DE DNA Ramon Rosselló-Móra Marine Microbiology Group Institut Mediterrani d’Estudis Avançats (CSIC-UIB)

si se encuentra un gen codificante para 16S rRNA ► buena precisión si se encuentra un gen codificante para 16S rRNA ► buena precisión > 300,000> 300,000 secuencias en bases de datos secuencias en bases de datos

otros marcadores universales:otros marcadores universales:

23S ► precisión adecuada 23S ► precisión adecuada > 12,506> 12,506 secuencias en bases de datos secuencias en bases de datos

otros genes esenciales ► poco precisa por falta de entradas en bases de datosotros genes esenciales ► poco precisa por falta de entradas en bases de datos

otros marcadores no universales:otros marcadores no universales:

depende del grupo y la exhaustividad en el estudio ► depende del grupo y la exhaustividad en el estudio ► ProteobacteriaProteobacteria vs vs AcidobacteriaAcidobacteria

no marcadores ►la signatura de tetranucleótidos puede dar una idea (depende del número de genomas no marcadores ►la signatura de tetranucleótidos puede dar una idea (depende del número de genomas secuenciados)secuenciados)

La identidad depende de haber clasificado anteriormente el organismo; sólo La identidad depende de haber clasificado anteriormente el organismo; sólo 80008000 especies descritas especies descritas

Una hipótesis sobre genética/metabolismo/ecología depende de los conocimientos previos del grupo (i.e. Una hipótesis sobre genética/metabolismo/ecología depende de los conocimientos previos del grupo (i.e. aislados estudiados, información sobre autoecología…)aislados estudiados, información sobre autoecología…)

La identidad de un fragmento de DNALa identidad de un fragmento de DNA

Page 30: LA IDENTIDAD DE LOS FRAGMENTOS DE DNA Ramon Rosselló-Móra Marine Microbiology Group Institut Mediterrani d’Estudis Avançats (CSIC-UIB)
Page 31: LA IDENTIDAD DE LOS FRAGMENTOS DE DNA Ramon Rosselló-Móra Marine Microbiology Group Institut Mediterrani d’Estudis Avançats (CSIC-UIB)

El problema de la pérdida de identidad por transferencia horizontal de genes (HGT)El problema de la pérdida de identidad por transferencia horizontal de genes (HGT)

aa Pedrós-Alió, 2006 TRENDS Microbiol 14:257-263 Pedrós-Alió, 2006 TRENDS Microbiol 14:257-263

Numbers of total existing Numbers of total existing species is very controversialspecies is very controversial

Some Some

Slava Epstein Slava Epstein

believe <40.000believe <40.000

Others Others

Carles Pedrós-Alió believe Carles Pedrós-Alió believe >10>1099

And even othersAnd even others

Dykhuizen Dykhuizen

believebelieve >>10101818