estudio de la variabilidad genética de muestras ambientales de

21
Estudio de la variabilidad genética de muestras ambientales de Legionella pneumophila Tesis de Máster Máster en Biología Molecular, Celular y Genética Especialidad de Microbiología Universitat de València Alumna: María Cristina Mideros Mora Director: Fernando González Candelas

Upload: vuque

Post on 08-Feb-2017

225 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Estudio de la variabilidad genética de muestras ambientales de

Estudio de la variabilidad genética de

muestras ambientales de Legionella

pneumophila Tesis de Máster

Máster en Biología Molecular, Celular y Genética

Especialidad de Microbiología

Universitat de València

Alumna: María Cristina Mideros Mora

Director: Fernando González Candelas

Page 2: Estudio de la variabilidad genética de muestras ambientales de

1

Resumen

Legionella pneumophila es un patógeno intracelular que se encuentra en ambientes

acuáticos superficiales, formando parte de su microbiota. Es el causante de la Enfermedad del

Legionario o Legionelosis, la cual se presenta como una neumonía severa que puede llegar a

causar la muerte. L. pneumophila puede llegar a colonizar lugares creados por el hombre para

almacenar agua, ya que tiene una elevada capacidad de supervivencia. A partir de estos y

mediante aerosoles generados en los mismos llega a ser dispersada en el aire, siendo esta la

forma de transmisión de este patógeno del ambiente al ser humano. Al no haberse reportado

una transmisión de persona a persona, es muy importante el estudio de muestras ambientales,

ya que esto permite analizar la diversidad genética, la estructura de sus poblaciones y las

posibles fuentes de brotes de esta enfermedad.

En este trabajo se analizaron 61 aislados ambientales de L. pneumophila tomados en los

años 2009 y 2010 en distintas localidades de la Comunidad Valenciana. Siguiendo el sistema

estándar de “Sequence Based Typing” (SBT), se obtuvo un perfil haplotípico con el que

encontramos el “Sequence Type” (ST) para cada aislado. En los resultados, sólo 2 de los ST

eran compartidos en los dos años de análisis, siendo el resto exclusivos de cada año. También

se analizaron 3 regiones intergénicas para conseguir un mayor poder de discriminación.

Se estudiaron distintos parámetros de diversidad genética dentro de los aislados del

2009, de los pertenecientes al 2010 y todos ellos como población única. Además, se estudió

también su estructuración poblacional mediante Análisis Molecular de la Varianza (AMOVA),

que reveló diferencias dentro de cada año superiores a las encontradas al comparar entre los 2

años. Sin embargo, analizando la estructura poblacional a nivel genético, los datos se

clasificaron en 4 poblaciones, independientemente del año de toma de muestra.

Finalmente se buscaron posibles eventos de recombinación los que nos confirman que

L. pneumophila es un patógeno que está en constante adaptación.

Este tipo de estudios de Legionella pneumophila son importantes para determinar la

epidemiología del patógeno y así mismo dar la información necesaria para poder tomar las

medidas adecuadas en cuanto a las estrategias de control de salud pública.

Palabras clave: Legionella pneumophila, muestras ambientales, variabilidad genética

Page 3: Estudio de la variabilidad genética de muestras ambientales de

2

Introducción

El género Legionella pertenece al grupo de las Gamma-Proteobacterias y cuenta con 56

especies, subespecies y con más de 70 serogrupos (1). Es un bacilo Gram-negativo, presenta

flagelos y se encuentra en ambientes acuáticos, donde es parásito de protozoos. A través de las

construcciones hechas por el hombre para transportar el agua a las ciudades, llega a torres de

refrigeración, agua potable, plantas de tratamiento, jacuzzis, spas, etc., y, al ser liberada en

aerosoles allí generados, puede llegar a infectar el sistema respiratorio de las personas que los

inhalen (1).

Legionella es una bacteria oportunista que afecta a personas inmunodeprimidas o

susceptibles, siempre y cuando inhalen suficientes bacterias viables para producir la

enfermedad. Existen dos presentaciones clínicas de esta enfermedad, conocida en general como

legionelosis: la primera, llamada Fiebre de Pontiac, más débil y con síntomas de resfriado, y la

Enfermedad del Legionario, que se presenta como una neumonía aguda, y que puede llegar a

causar daño en varios órganos y la muerte del paciente (2).

Se ha comprobado que más de 20 de las especies del género producen legionelosis, pero

L. pneumophila es la responsable de alrededor del 90% de los casos confirmados. Dentro de

esta especie encontramos 15 serogrupos, pero es el serogrupo 1 el reconocido como el que más

casos clínicos provoca, siendo los serogrupos del 2 al 15, L. longbeachae y L. bozemanii los

siguientes en importancia (3).

L. pneumophila se puede multiplicar intracelularmente al parasitar protozoos que

encuentra en el agua, así como distintos tipos celulares al ingresar en el sistema respiratorio,

principalmente los macrófagos, pero también lo puede hacer extracelularmente formando parte

de biopelículas microbianas (4). Se ha llegado a comprobar que las bacterias liberadas después

de la multiplicación intracelular pueden parasitar macrófagos con mayor frecuencia, por lo que

se las considera más infecciosas que las que se multiplican extracelularmente (5).

Este proceso de multiplicación de L. pneumophila se inicia al ser fagocitada tanto por

los protozoos como por los macrófagos, en cuyo caso necesita la participación de la actina del

citoesqueleto para la internalización de la bacteria. Una vez dentro, permanece en el fagosoma

secretando proteínas que evitan la unión con el lisosoma y la maduración del mismo, que se

adhiere al retículo endoplasmático utilizándolo como su ribosoma. La bacteria se multiplica

por fisión binaria dentro del fagosoma y cuando los nutrientes escasean provoca la lisis celular

para salir al ambiente (1, 2).

El método estándar para tipar cepas de L. pneumophila es el propuesto por el “European

Working Group for Legionella Infections” (EWGLI), que consiste en el llamado tipado basado

Page 4: Estudio de la variabilidad genética de muestras ambientales de

3

en secuencia (“Sequence Based Typing”, SBT) de 7 genes: 5 relacionados con virulencia y 2

“house-keeping” (1), siendo esta una técnica derivada del “Multi-Locus Sequence Typing”

(MLSTs) (6). La secuencia nucleotídica de cada uno de estos genes es comparada con la de los

alelos previamente descritos para el gen y, de esta manera, se genera un perfil alélico para cada

aislado que se conoce como “sequence type” (ST).

Por estudios previos (7), donde se analizaron 13 regiones intergénicas de aislados

ambientales, se sabe que analizar estas regiones permite una mayor discriminación entre cepas

del mismo ST, siendo L2, L6 y L14 suficientes para este objetivo. Los estudios de L.

pneumophila pueden basarse tanto en muestras de origen clínico como ambiental. Al existir

una ligera dificultad con las muestras clínicas por su complejidad, ya que se encuentran con

otras bacterias del tracto respiratorio, se ha desarrollado un SBT con amplificación anidada (1).

Hasta el día de hoy se han secuenciado 7 cepas de L. pneumophila: Lens (8), Paris (8),

Philadelphia (9), Corbi (10), Alcoy (11), 130b (12), pertenecientes al serogrupo 1 y 570-CO-H

(13) perteneciente al serogrupo 12. Todas estas comparten un cromosoma circular y, en

ocasiones, la presencia de un plásmido. Se detectó una alta presencia de variabilidad genética

sobre todo en los genes que no forman parte del núcleo (core). Esto se puede haber dado por

eventos de transferencia horizontal de genes y recombinación en la evolución de cada cepa

(11).

Los estudios realizados sobre la diversidad genética de los patógenos, en este caso L.

pneumophila, ayudan a entender las fuerzas ecológicas y evolutivas que determinan la

dinámica de sus poblaciones (14). Las variaciones que se encuentren toman parte en la

respuesta de dicho patógeno a las condiciones que implementamos para intentar eliminarlo.

Hay que tener en cuenta que no ha sido descrita la transmisión de este patógeno de

persona a persona. Por esto, es muy importante el estudio de las muestras ambientales, ya que

permite analizar la diversidad genética, la estructura de sus poblaciones y, con ello, la

epidemiología de la enfermedad (15).

Los objetivos que se plantean en este trabajo van enfocados al análisis de muestras

ambientales tomadas entre los años 2009 y 2010 en la Comunidad Valenciana. Primero se

realizará el tipado de cada uno de los aislados según lo previamente descrito para poder realizar

árboles filogenéticos y observar la relación que hay entre estos, siguiendo con el estudio de su

diversidad genética. Finalmente se estudiará la estructura genético-poblacional y los

potenciales eventos de recombinación, principalmente intergénica.

Page 5: Estudio de la variabilidad genética de muestras ambientales de

4

Materiales y Métodos

Obtención de las muestras y extracción de ADN

Se analizaron un total de 61 aislados ambientales, 30 tomados en el año 2009 y 31 en el

2010, en distintos puntos de la Comunidad Valenciana. Fueron aislados y conservados en el

Laboratorio de Salud Pública de Valencia en medio LB (Luria Bertani) y glicerol al 15% en un

ultracongelador a -80°C hasta su remisión al Área de Genómica y Salud (Centro Superior de

Investigación en Salud Pública, CSISP), para la extracción del ADN y posterior análisis.

Para la extracción del ADN se utilizó un protocolo de choque térmico que consiste en:

tomar 400 µl del cultivo puro, centrifugarlo durante 1 minuto a 12.000 rpm, eliminar el

sobrenadante y añadir 400 µl de agua ultrapura para eliminar el medio LB y el glicerol. Se

agita la muestra durante 2-3 segundos para que esté homogénea antes de colocarla en el bloque

térmico a 99°C durante 5 minutos. Transcurrido este tiempo se sumerge la muestra en hielo

durante 5 minutos y se repite el ciclo 99ºC-hielo una vez más. Al terminar, se centrifuga por 3

minutos a 12.000 rpm y se pueden hacer alícuotas del ADN que ya se encuentra en el

sobrenadante. En este caso, al venir la muestra de cultivos puros se realizó una dilución 1:10

para evitar una concentración muy alta de ADN que pudiera inhibir la reacción de

amplificación.

Amplificación por Reacción en Cadena de la Polimerasa (PCR) y purificación

Para cada una de las muestras se amplificaron los 7 genes indicados por el EWGLI:

fliC, pilE, asd, mip, mompS, proA y neuA, así como también 3 regiones intergénicas para

conseguir mayor poder de discriminación: L2, L6 y L14 (7).

La reacción usada para las amplificaciones constó de: tampón 10X con MgCl2 2 mM,

dNTPs 0.1 mM, cebadores a una concentración final de 0.2 µM cada uno (16), 1 U de ADN

polimerasa (Biotools), aproximadamente 100ng de ADN y H2O ultrapura para llegar a un

volumen final de 50 µl.

El programa para la amplificación consistió en un primer paso de desnaturalización a

94°C durante 2 minutos, seguido de 35 ciclos de 30 segundos a 94°C, 30 segundos a la

temperatura de anillamiento correspondientes (16) para cada par de cebadores y 30 segundos a

72°C siendo esta la temperatura de extensión y la utilizada también para una extensión final

durante 8 minutos. Finalmente se mantuvieron las muestras a 8°C hasta ser recuperadas del

termociclador y almacenadas en refrigeración (4ºC).

Page 6: Estudio de la variabilidad genética de muestras ambientales de

5

Para comprobar la amplificación se utilizaron geles de agarosa al 1.4%, cargando los

amplicones con GelRed (Biotium) y tampón de carga 3X y visualizándolo en el

transiluminador. Después se pasó a purificar los productos de la amplificación utilizando las

placas de 96 pocillos que facilita el NucleoFast® 96 PCR Plates de MACHEREY-NAGEL,

mediante ultrafiltración en membrana colocando toda la reacción obtenida de la PCR y

centrifugando a 4.500xg por 10 minutos. A continuación, procedimos a un lavado con 100 µl

de agua ultrapura, seguido de ultracentrifugación con las mismas condiciones y tiempo que en

el paso anterior. Finalmente, los amplificados se resuspendieron en 50 µl de agua ultrapura

colocando la placa durante 10 minutos a 24°C con una agitación de 300 rpm. Los productos de

PCR purificados que se obtuvieron se almacenaron a -20°C.

Obtención y análisis de secuencias

Para conseguir las secuencias de todas las muestras siguiendo el método de Sanger se

realizó una nueva amplificación. Para esto se trabajó con el “BigDyeTM Terminator v3.0 Ready

Reaction Cycle Sequencing Kit” (Applied Biosystems), utilizando un programa de 66 ciclos

de 10 segundos a 94°C, 5 segundos a 50°C y 4 minutos a 60°C. Se utilizaron los mismos

cebadores (tanto directo como reverso) que en las amplificaciones originales, excepto en el

caso de mompS, en el que el cebador reverso fue el interno. Los productos se analizaron en un

equipo ABI PRISM 3730 Sequencer, que proporciona los cromatogramas en un formato .ab1.

Los programas pregap4 y gap4 del Staden package (17) se utilizaron para procesar los

cromatogramas correspondientes a las lecturas directa y reversa de cada muestra, obteniendo

un consenso para cada región. Estos consensos fueron alineados utilizando el programa MEGA

v5.0 (18), y en dicho alineamiento se incluyeron las secuencias de todos los alelos previamente

descritos para la región correspondiente que se encuentran en la base de datos del EWGLI (16).

Esto nos permite comparar a nivel nucleotídico nuestras secuencias objetivo con las conocidas

previamente y asignar el número de alelo correspondiente para cada uno de los 7 genes, lo que

construye el haplotipo o ST de cada muestra. En el caso de encontrar un alelo nuevo que no se

encuentra entre los descritos previamente, se someten los cromatogramas correspondientes a un

análisis “online” que nos indicará si efectivamente corresponde a un alelo no descrito y si su

calidad es buena. De ser el caso, el EWGLI se encarga de revisar los datos y asignar un número

nuevo de alelo.

Además, también se alinearon las 3 regiones intergénicas de todas las muestras y, al

igual que con los alineamientos de los 7 genes, se realizó un árbol filogenético para poder ver

la agrupación de las muestras según cada región. Para tener más información, se realizó un

Page 7: Estudio de la variabilidad genética de muestras ambientales de

6

concatenado de los 7 genes y uno de los 7 genes más las 3 regiones intergénicas para cada

muestra, para lo cual se utilizó el programa BioEdit (19).

Para el tipado de cada región junto con los alelos descritos en la base de datos, se hizo

un árbol filogenético con el método de “neighbor-joining” (20). La reconstrucción filogenética

de los concatenados de 7 y 10 genes respectivamente, se realizó mediante el método de

máxima verosimilitud, utilizando un “bootstrap” de 1000 réplicas en MEGA v5.0 (18).

Análisis de la variabilidad genética y la estructura poblacional

Basándonos en la información que nos da el concatenado de las 10 regiones se

obtuvieron los parámetros necesarios para poder analizar la diversidad genética dentro de cada

región. Para esto se utilizó el programa DnaSP v5 (21), que nos permite calcular, entre otros, el

número de sitios polimórficos (S), número de mutaciones reales (η), número de haplotipos (h),

diversidad haplotípica y nucleotídica (π), tasa de mutación poblacional por sitio a partir de S

(θ, estimador de Watterson), número de diferencias emparejadas (k) y el ratio entre el número

de sustituciones sinónimas por sitio sinónimo (dS) y no sinónimas por sitio no sinónimo (dN).

Para el análisis de una potencial estructura poblacional en nuestros datos de carácter

temporal se consideraron a priori dos poblaciones, las muestras del 2009, por una parte, y las

del 2010, por otra. Para el cálculo de las diferencias entre y dentro de las poblaciones

consideradas se realizó un Análisis Molecular de la Varianza (AMOVA) mediante el programa

Arlequin v3.0 (22). Por otra parte, se utilizó el programa Structure v2.3 (23) para tratar de

determinar, mediante métodos bayesianos y a partir de nuestros datos, cuál es el número más

probable de poblaciones (K) a nivel genético. Para ello, se modificó el archivo FASTA que

contenía el concatenado de las 10 regiones con xfma2struct (24) para obtener las secuencias en

el formato necesario para Structure v2.3 (23). Se utilizó el modelo que asume mezcla entre los

individuos, ya que existen evidencias previas de recombinación (7), con un “burn-in” de

20.000 y 100.000 iteraciones, haciendo 10 repeticiones para cada valor de K entre 2 y 8. Los

resultados fueron analizados con “Structure Harvester” (25) en línea, lo que nos dio un input

adecuado para el programa CLUMPP v1.1.6 (26), que se utilizó para obtener un consenso entre

las 10 ejecuciones para cada valor de K. Para finalizar, los datos de CLUMPP se representaron

gráficamente utilizando Distruct (27).

Estudio de recombinación

Como último análisis en este estudio se utilizó el programa RDP3 (28), que nos permite

detectar posibles eventos de recombinación tanto intragénica como intergénica. Para esto se

Page 8: Estudio de la variabilidad genética de muestras ambientales de

7

indicó al programa que el genoma utilizado es circular y se ingresaron los datos del

concatenado con las 10 regiones. Los modelos utilizados fueron: RDP, GENECONV,

BootScan, MaxChi, Chimaera, SiScan y 3Seq, y se tomaron como válidos los eventos

detectados con significación por al menos dos de los métodos.

Resultados

Amplificación y tipado

En primer lugar, se realizó la extracción del ADN de los aislados. De cada uno de ellos

se amplificaron las 7 regiones del EWGLI más los 3 intergénicas comentadas anteriormente.

La confirmación de las PCR se hizo en geles de agarosa, al 1,4%, como el que se muestra en la

Figura 1.

Figura 1. 10 regiones amplificadas del aislado 3842B. Cada gen va seguido de su respectivo control positivo. 1: pilE; 2: C+; 3: mip; 4: C+; 5: proA; 6: C+; 7: mompS; 8: C+; 9: asd; 10: C+; 11: neuA; 12: C+; 13: fliC; 14: C+; 15: L2; 16: C+; 17: L6; 18: C+; 19: L14; 20: C+; 21: C- ; 22: marcador de pesos moleculares.

Tras obtener todas las secuencias, se alineó cada región junto con las previamente

descritas (16) y se realizó la reconstrucción filogenética mediante “neighbor-joining”. Con esto

se consiguió asignar el perfil alélico correspondiente para cada aislado y, de esta forma, su ST

(Tabla 1). En los datos del año 2010 se encontró una variante nueva del gen mip, al que el

EWGLI le asignó el alelo 54.

El aislado 3842B del año 2010 presenta el alelo de neuA 207, uno de los descritos más

recientemente (29) y que se caracteriza por presentar una divergencia nucleotídica muy alta en

comparación con los demás alelos descritos para el mismo gen. Debido a esto no han sido

asignados números de ST para los aislados que los presentan, como es el caso del 3842B.

El ST 1 es el más representado en el año 2010 con una frecuencia de 51.6% (16 de 31

muestras), aunque en el 2009 sólo apareció en 7 de los 30 aislados (23.3%), siendo el ST 42 el

detectado con más frecuencia durante este año (36.7%, 11 de 30), pero sin ningún

representante en el año siguiente. Solamente los ST 1 y 1117 aparecen en los dos años en al

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22

Page 9: Estudio de la variabilidad genética de muestras ambientales de

8

menos un caso, siendo propios del año 2009 los ST 2, 20, 75, 42 y 292, y del año 2010 los ST

23, 114, 378, 461, 578, 625, A, 1132 y 1133.

Tabla 1. Perfil alélico para los 61 aislados analizados. *Nuevo ST

Año ID fliC pilE asd mip mompS proA neuA ST Localidad de origen

2009

151 6 10 19 28 19 4 3 292 Valencia 5674A 1 4 3 1 1 1 1 1 Sagunto 5675 1 4 3 1 1 1 1 1 Sagunto 5677 1 4 3 1 1 1 1 1 Sagunto 5678 1 4 3 1 1 1 1 1 Sagunto 5679 1 4 3 1 1 1 1 1 Sagunto 5680 1 4 3 1 1 1 1 1 Sagunto 5682 1 4 3 1 1 1 1 1 Sagunto 6095 6 10 14 28 63 14 9 1117 Castello de la Plana 6096 6 10 14 28 63 14 9 1117 Castello de la Plana

8055A 4 7 11 3 11 12 9 42 Moixent 8056 4 7 11 3 11 12 9 42 Moixent 8057 4 7 11 3 11 12 9 42 Moixent 8058 4 7 11 3 11 12 9 42 Moixent

8059A 4 7 11 3 11 12 9 42 Moixent 8060 4 7 11 3 11 12 9 42 Moixent 8688 6 10 19 3 19 4 9 2 Xativa 8693 6 10 19 3 19 4 9 2 Xativa

8694A 6 10 19 3 19 4 9 2 Xativa 8834 4 7 11 3 11 12 9 42 Moixent 8835 4 7 11 3 11 12 9 42 Moixent

8838A 4 7 11 3 11 12 9 42 Moixent 9763 2 3 18 15 2 1 6 20 Xativa 9765 6 10 19 3 19 4 9 2 Xativa 9767 6 10 19 3 19 4 9 2 Xativa 9997 2 3 18 13 25 5 6 75 Alberic 10425 4 7 11 3 11 12 9 42 Moixent 12479 6 10 14 28 63 14 9 1117 Castello de la Plana 12359 4 7 11 3 11 12 9 42 Moixent 13841 6 10 19 3 19 4 9 2 Xativa

2010

547 2 3 9 10 2 1 6 23 Gandia 3842A 1 4 3 1 1 1 1 1 Vilajoiosa 3842B 6 10 15 28 62 14 207 A* Vilajoiosa 3843 1 4 3 1 1 1 1 1 Vilajoiosa 9096 2 3 9 10 2 1 6 23 Simat de la Valldigna

9098 2 3 9 10 2 1 6 23 Simat de la Valldigna 9099 1 4 3 1 1 1 1 1 Simat de la Valldigna 9445 6 10 14 28 63 14 9 1117 Castello de la Plana

11142A 1 4 3 1 1 1 1 1 Alcudia de Crespins 11142B 12 8 11 2 40 12 4 625 Alcudia de Crespins

Page 10: Estudio de la variabilidad genética de muestras ambientales de

9

Año ID fliC pilE asd mip mompS proA neuA ST Localidad de

origen

2010

11143A 1 4 3 1 1 1 1 1 Alcudia de Crespins 11143B 12 8 11 2 40 12 4 625 Alcudia de Crespins 11144 1 4 3 1 1 1 1 1 Alcudia de Crespins 11145 1 4 3 1 1 1 1 1 Alcudia de Crespins 11146 1 4 3 1 1 1 1 1 Alcudia de Crespins 11147 1 4 3 1 1 1 1 1 Alcudia de Crespins 11148 1 4 3 1 1 1 1 1 Alcudia de Crespins 12768 1 4 3 1 1 1 1 1 Alcudia de Crespins 12772 1 4 3 1 1 1 1 1 Alcudia de Crespins 12773 1 4 3 1 1 1 1 1 Alcudia de Crespins 12774 1 4 3 1 1 1 1 1 Alcudia de Crespins 13068 6 10 14 28 21 14 9 461 Chulilla 13836 3 6 1 6 14 11 9 114 Olleria 13837 3 6 1 6 14 11 9 114 Olleria 13838 3 13 1 17 14 9 7 378 Olleria 13839 3 4 1 54 14 9 7 1132 Olleria 13844 3 4 1 54 14 9 1 1133 Olleria 14180 1 4 3 1 1 1 1 1 Alcudia de Crespins 14181 1 4 3 1 1 1 1 1 Alcudia de Crespins 15318 6 10 15 13 9 14 6 578 Olleria

8109096 2 3 9 10 2 1 6 23 Simat de la Valldigna Análisis de las secuencias

Una vez obtenido el consenso de todas las secuencias, se realizó en primer lugar el

concatenado de los 7 genes, siguiendo su posición en el genoma, dando un alineado con 3098

posiciones. Con este se obtuvo un árbol filogenético según el método de máxima verosimilitud

(Figura 2A). Lo mismo se hizo al tener las 10 regiones amplificadas (7 genes + 3 regiones

intergénicas) con un alineamiento de 4487 posiciones (Figura 2B).

Al observar el árbol filogenético de la figura 2, se pueden ver diferencias dentro de los

aislados que pertenecen al ST 1. Esto se produce porque para los concatenados se utilizaron las

regiones amplificadas por PCR completas y éstas son más largas que las necesarias para el

tipado del EWGLI. Por esta razón se puede ver una pequeña diferencia entre aislados del

mismo ST pero que en realidad difieren en pocos nucleótidos que no son utilizados para el

tipado.

Dentro del ST 1 podemos encontrar más diferencias si comparamos la Figura 2A con la

2B ya que, al incluir la información de las 3 regiones intergénicas al concatenado de los 7

genes, conseguimos un aumento en el poder de discriminación entre cepas.

Page 11: Estudio de la variabilidad genética de muestras ambientales de

10

A. B.

Figura 2. Árboles filogenéticos a partir del concatenado de los 7 genes (A) e incluyendo las 3 regiones intergénicas (B). Los triángulos azules indican los aislados del año 2009 y cuadros rojos del 2010. Las llaves verdes indican los ST más destacados. El valor de los nodos indica el porcentaje de soporte con 1000 réplicas de bootstrap.

ST 1

ST 42

ST A

ST 461

ST 42

ST A

ST 461

ST 1

Page 12: Estudio de la variabilidad genética de muestras ambientales de

11

La cercanía de algunos ST a otros varía entre los dos árboles filogenéticos (Figura 2),

como en el caso del ST 461, que se encuentra cerca de los ST 2 y 292 al no incluir las regiones

intergénicas; pero se aleja de éstos acercándose al clado más grande de muestras cuando las

incluimos.

Finalmente, podemos observar que la muestra 3842B, asignada al ST A, en los dos

casos se mantiene alejada del resto de muestras por la gran diferencia que existe entre este

aislado y los demás debido al recientemente descubierto alelo 207 del gen neuA (Figura 2).

Análisis de variabilidad genética

La variación genética se puede analizar con los parámetros que fueron indicados en el

apartado de Materiales y Métodos. Con estos se pueden comparar la diversidad de los aislados

del año 2009, 2010 y de los 2 años juntos, cuantificar los niveles de diversidad presentes en las

7 regiones codificantes y en las intergénicas.

En la Tabla 2 se muestran los valores obtenidos para los parámetros mencionados

anteriormente de cada una de las 7 regiones codificantes. Hay que tener en cuenta que, para

pilE, su amplificación incluye una pequeña región no codificante, que se encuentra justo

delante del gen y ha sido estudiada independientemente de la región codificante para no

interferir en los análisis. En el caso de neuA, se han tomado tanto los valores sin el aislado que

presenta el alelo 207 como con éste, para mostrar la variación que supone en la diversidad

nucleotídica. Por otro lado, en la Tabla 3 encontramos los mismos parámetros calculados para

cada una de las regiones intergénicas (L2, L6, L14).

Al tomar por separado cada uno de los valores calculados se puede ver que la

diversidad haplotípica es más alta para mompS en el año 2009 y en la unión de los dos años,

pero en el año 2010 los valores más elevados los tiene neuA con la presencia del alelo 207

(Tabla 2). En las regiones intergénicas es L2 el que presenta la mayor diversidad haplotípica,

igual a la de L14 en el año 2009 (Tabla 3).

Sin embargo, la diversidad haplotípica, como otros parámetros tipo S, son dependientes

del número de secuencias y de la longitud de las mismas. Por tanto, es conveniente fijarse en

parámetros como la diversidad nucleotídica, que presenta una corrección por estos factores. En

este caso, encontramos que los valores de este parámetro son superiores en el gen pilE,

comparables con mompS en el 2010. Si tenemos en cuenta la desviación estándar, los valores

de neuA con la presencia del alelo 207 superan a los demás genes (Tabla 2). Como era de

esperar, los valores en las regiones intergénicas son mayores para este parámetro, siendo L14 el

que presenta los valores más elevados (Tabla 3).

Page 13: Estudio de la variabilidad genética de muestras ambientales de

12

Tabla 2. Parámetros para el estudio de la diversidad génica de los 7 genes analizados. pilE NC Corresponde a la sección no codificante que se encuentra previa al gen. En neuA los valores entre corchetes son los que incluyen el aislado del ST A.

proA pilE NC pilE neuA mip fliC asd mompS

2009 2010 2009 + 2010

2009 2010 2009

+ 2010

2009 2010 2009

+ 2010

2009 2010 2009 + 2010

2009 2010 2009

+ 2010

2009 2010 2009

+ 2010

2009 2010 2009

+ 2010

2009 2010 2009

+ 2010

N° secuencias 30 31 61 30 31 61 30 31 61 30 30 [31] 60

[61] 30 31 61 30 31 61 30 31 61 30 31 61

Longitud, L 443 67 350 476 520 206 527 509

N° haplotipos 5 5 7 3 5 5 4 6 7 4 9 [10] 10

[11] 5 8 10 4 5 6 5 6 8 8 8 13

Diversidad haplotípica, h (desviación estándar)

0,754 (0,04)

0,568 (0,09)

0,726 (0,04)

0,543 (0,06)

0,563 (0,09)

0,557 (0,06)

0,720 (0,04)

0,641 (0,09)

0,747 (0,03)

0,513 (0,09)

0,802 [0,81] (0,06)

[(0,05)]

0,733 [0,742] (0,04)

[(0,03)]

0,625 (0,08)

0,716 (0,08)

0,770 (0,04)

0,720 (0,04)

0,692 (0,07)

0,768 (0,03)

0,768 (0,04)

0,701 (0,07)

0,792 (0,03)

0,807 (0,05)

0,705 (0,08)

0,858 (0,03)

Diversidad nucleotídica, π

(desviación estándar)

0,013 (0,01)

0,012 (0,002)

0,013 (0,00)

0,015 (0,00)

0,013 (0,00)

0,015 (0,00)

0,029 (0,00)

0,019 (0,00)

0,026 (0,00)

0,008 (0,00)

0,012 [0,034] 0,001

[(0,02)]

0,012 [0,023] 0,0007 [(0,01)]

0,007 (0,00)

0,012 (0,00)

0,011 (0,00)

0,015 (0,00)

0,017 (0,00)

0,017 (0,00)

0,009 (0,00)

0,009 (0,00)

0,010 (0,00)

0,013 (0,00)

0,019 (0,00)

0,018 (0,00)

N° sitios polimórficos, S

13 19 19 3 4 4 23 37 38 11 27

[173] 28

[173] 10 32 34 7 11 11 12 13 14 21 36 41

N° total de mutaciones, η

13 19 19 3 4 4 23 38 39 11 27

[182] 28

[182] 10 34 36 7 11 11 12 13 14 21 36 42

θ (a partir de S) (desviación

estándar)

0,007 (0,00)

0,010 (0,00)

0,009 (0,00)

0,011 (0,01)

0,015 (0,01)

0,013 (0,01)

0,016 (0,01)

0,026 (0,09)

0,023 (0,01)

0,005 (0,00)

0,014 [0,091] 0,005

[(0,03)]

0,013 [0,078] 0,004

[(0,02)]

0,005 (0,00)

0,015 (0,00)

0,014 (0,00)

0,008 (0,00)

0,013 (0,00)

0,011 (0,00)

0,005 (0,00)

0,006 (0,00)

0,005 (0,00)

0,010 (0,00)

0,017 (0,01)

0,017 (0,00)

N° diferencias emparejadas, k

(desviación estándar)

6,051 (2,96)

5,665 (2,79)

5,954 (2,88)

1,048 (0,72)

0,899 (0,64)

0,984 (0,67)

10,09 (4,74)

6,813 (3,30)

9,026 (4,21)

4,189 (2,14)

6,129 [16,16] 2,994

[(7,40)]

5,834 [10,95] 2,828

[(5,05)]

3,616 (1,89)

6,391 (3,11)

5,739 (2,79)

3,028 (1,62)

3,665 (1,91)

3,588 (1,85)

5,113 (2,55)

4,628 (2,33)

5,202 (2,55)

7,064 (3,41)

10,12 (4,75)

9,154 (4,27)

N° mutaciones sinónimas

13 18 18 - - - 22 28 29 8 13 [86] 14

[86] 9 31 33 7 8 8 12 13 14 13 25 26

N° mutaciones no sinónimas

0 1 1 - - - 1 10 10 3 14

[80] 14

[80] 1 3 3 0 3 3 0 0 0 8 11 13

dN/dS 0,007 0,007 0,007 - - - 0,017 0,017 0,018 0,132 0,132 [0,206]

0,14 [0,217]

0,032 0,032 0,032 0,05 0,05 0,051 0 0 0 0,105 0,105 0,108

Page 14: Estudio de la variabilidad genética de muestras ambientales de

13

Tabla 3. Parámetros para el estudio de la diversidad génica de las 3 regiones intergénicas.

L2 L6 L14

2009 2010 2009 + 2010 2009 2010 2009 + 2010 2009 2010 2009 + 2010

N° secuencias 30 31 61 30 31 61 30 31 61

Longitud, L 484 446 459

N° haplotipos 5 7 9 5 4 7 5 9 12

Diversidad haplotípica, h (desviación estándar)

0,768 (0,041)

0,774 (0,056)

0,825 (0,028)

0,497 (0,102)

0,649 (0,062)

0,662 (0,044)

0,768 (0,041)

0,72 (0,081)

0,809 (0,037)

Diversidad nucleotídica, π

(desviación estándar)

0,037 (0,001)

0,023 (0,004)

0,034 (0,002)

0,013 (0,002)

0,014 (0,002)

0,015 (0,001)

0,039 (0,004)

0,043 (0,006)

0,046 (0,002)

N° sitios polimorficos,

S 40 47 52 22 19 27 42 57 59

N° total de mutaciones, η

40 48 54 22 20 28 42 59 61

θ (a partir de S) (desviación

estándar)

0,021 (0,007)

0,026 (0,009)

0,024 (0,007)

0,012 (0,004)

0,010 (0,004)

0,013 (0,004)

0,023 (0,008)

0,031 (0,01)

0,028 (0,008)

N° diferencias emparejadas,

k (desviación estándar)

17,611 (8,047)

10,692 (5,003)

15,624 (7,07)

6,115 (2,993)

6,146 (3,003)

6,693 (3,200)

17,628 (8,054)

19,325 (8,791)

20,865 (9,337)

Al comparar la tasa de mutación poblacional, los valores más elevados los presenta

pilE, que sólo es superado por neuA si incluimos el aislado de ST A, mientras que los valores

más bajos los presenta asd para todos los casos analizados (Tabla 2). Para las regiones

intergénicas, los valores más elevados los encontramos en L14, siendo nuevamente los valores

de L6 menores a los encontrados en pilE y otros genes (Tabla 3).

En el número de diferencias emparejadas se vuelve a ver que, incluyendo ST A en el

análisis de neuA hay un incremento en los valores bastante representativo, llegando a ser más

alto que todos los genes e incluso que algunas de las regiones intergénicas. Por otra parte, L14

es la región analizada que tiene los valores más altos, seguida de pilE en el 2009 y mompS en el

2010 (Tablas 2 y 3).

Los últimos valores tomados para todas las regiones fueron los números de sitios

polimórficos y de mutaciones reales, para los que las regiones intergénicas son las que tienen

los valores más elevados, seguidas de mompS, pilE y mip. Como era de esperar, una vez más,

al analizar neuA incluyendo el ST A, es el único fragmento que nos da valores mucho más

elevados que las regiones intergénicas.

Para finalizar, se tomaron los números de mutaciones sinónimas y no sinónimas sólo

para las regiones codificantes, ya que en las regiones intergénicas, al no ser codificantes, no se

Page 15: Estudio de la variabilidad genética de muestras ambientales de

14

produciría un cambio aminoacídico. Teniendo esto en cuenta, en los casos de asd y fliC en el

2009 no hay presencia de mutaciones no sinónimas y por esto nos da un ratio dN/dS igual a

cero. Por otro lado, los valores superiores de este parámetro los encontramos en mompS, neuA

y neuA con el ST A, siendo estos dos últimos los más elevados.

Estructura poblacional

En primer lugar, se realizó un AMOVA para cada una de las 10 regiones analizadas

considerando las muestras del 2009 y las del 2010 como dos poblaciones independientes, para

ver si existe algún tipo de estructuración poblacional a nivel temporal. En la Tabla 4 se

muestran los porcentajes de variación, donde se puede ver que existe más variación dentro de

las poblaciones que entre ellas para todas las regiones, siendo mip la región que presenta la

mayor variación entre las poblaciones, seguida de L6, L2 y L14.

Hasta este punto se han clasificado los aislados según el año en el que fueron tomados,

pero se quería conocer el número de poblaciones más probable tomando la información

genética como punto de partida. Según lo descrito en el apartado de Materiales y Métodos, se

utilizó el programa Structure v2.3 (23) para realizar estos cálculos considerando un intervalo

de 2 a 8 grupos (K); éste programa utiliza métodos Bayesianos para calcular el porcentaje de

similitud de cada aislado para cada población estimada.

Tabla 4. Porcentajes de variación obtenidos mediante técnica de AMOVA para las dos poblaciones analizadas (2009-2010).

Porcentaje de

variación entre

poblaciones

Porcentaje de

variación dentro de

poblaciones

L14 19,96 80,04

proA 3,25 96,75

pilE NC 2,23 97,77

pilE 12,34 87,66

L2 19,81 80,19

neuA 11,38 88,62

mip 21,78 78,22

fliC 12,19 87,81

L6 20,49 79,51

asd 11,96 88,04

mompS 11.03 88,97

MEDIA 13,53 86,69

En la Figura 3 observamos el valor de ∆K obtenido con Structure Harvester (25), que

según lo describe (30); este valor está definido por el ratio de cambio en el logaritmo de la

probabilidad de que un aislado pertenezca a un determinado grupo entre los valores de K

Page 16: Estudio de la variabilidad genética de muestras ambientales de

sucesivos. Por esta razón, en la figura se observa que el número más probable de poblaciones

que conforman los 61 aislados analizados es K=4, siendo este el valor más alto de

La representación gráfica que se obtuvo con Distruct (

de K, nos permite ver el porcentaje de cada aislado que pertenece a las distintas pob

según se esté analizando. En la Figura 4A vemos la representación gráfica de K=4 en donde se

distingue la proporción de cada aislado que pertenece a cada una de las 4 poblaciones. Esta

información puede verse con mayor claridad en el árbol filogen

Figura 3. Representación de ∆K para cada uno de los valores analizados de K. La grHarvester (25).

Figura 4. A. Representación gráfica obtenida con Distruct para K=4. información de K=4. Los cuadrados rojos representan muestras del año 2010 y los

K=4

A.

15

sucesivos. Por esta razón, en la figura se observa que el número más probable de poblaciones

e conforman los 61 aislados analizados es K=4, siendo este el valor más alto de

La representación gráfica que se obtuvo con Distruct (27) para cada uno de los valores

de K, nos permite ver el porcentaje de cada aislado que pertenece a las distintas pob

según se esté analizando. En la Figura 4A vemos la representación gráfica de K=4 en donde se

distingue la proporción de cada aislado que pertenece a cada una de las 4 poblaciones. Esta

información puede verse con mayor claridad en el árbol filogenético de la Figura 4B.

∆K para cada uno de los valores analizados de K. La gráfica se ob

Representación gráfica obtenida con Distruct para K=4. B. Agrupación de los aislados con la información de K=4. Los cuadrados rojos representan muestras del año 2010 y los triángulos

B.

sucesivos. Por esta razón, en la figura se observa que el número más probable de poblaciones

e conforman los 61 aislados analizados es K=4, siendo este el valor más alto de ∆K.

) para cada uno de los valores

de K, nos permite ver el porcentaje de cada aislado que pertenece a las distintas poblaciones

según se esté analizando. En la Figura 4A vemos la representación gráfica de K=4 en donde se

distingue la proporción de cada aislado que pertenece a cada una de las 4 poblaciones. Esta

ético de la Figura 4B.

áfica se obtuvo con Structure

Agrupación de los aislados con la triángulos azules del 2009.

G2

G1

G3

G4

Page 17: Estudio de la variabilidad genética de muestras ambientales de

16

Análisis de la recombinación

Los análisis realizados con RDP3 (28) para los 61 aislados nos indican la presencia de

posibles eventos de recombinación significativos para al menos 2 de los 7 métodos utilizados.

Pero al no tener dentro de la muestra representantes de toda la variabilidad genética que

presenta L. pneumophila, la asignación de parentales que nos da el programa no siempre es

fiable. Por esta razón, se mapeó en el árbol filogenético la correcta ubicación de los eventos de

recombinación guiándonos en la ubicación de cada ST (Figura 5).

Podemos observar claramente en la Figura 5 que la región que más eventos de

recombinación presenta es neuA, seguida de L14, mip, pilE, asd, L2 y mompS. Cada uno de los

eventos es independiente, ya que se encontraron en ramas diferentes del árbol a excepción del

evento pilE + L2 que se encuentra para ST1132 junto con uno de neuA. En total, 12 de los 16

ST encontrados en el total de la muestra presentan eventos de recombinación. No se

encontraron casos para proA, fliC ni L6.

Dentro del ST1 se encontró un evento en L14 para 2 de los aislados y uno en neuA en

sólo un aislado; a pesar de pertenecer al mismo ST se ven estas variaciones ya que en este

análisis utilizamos el concatenado de las 10 regiones, que nos da mayor discriminación.

Figura 5. Árbol filogenético en el que se indican los eventos de recombinación intergénica detectados por RDP3 (28). Entre paréntesis se encuentra el número de métodos que soportan el respectivo evento. Los cuadrados rojos representan los aislados del 2010 y los triángulos azules las del 2009.

L14 (7) neuA (4)

mip (7)

pilE (7) mip (5)

neuA (4) / pilE + L2 (7)

L14 (5)

L14 (5) neuA (5)

neuA + mip (6)

asd (7)

momps (5)

neuA (6)

Page 18: Estudio de la variabilidad genética de muestras ambientales de

17

Discusión

El uso del “Sequence Based Typing” (SBT) ha incentivado el estudio de la variabilidad

genética de Legionella pneumophila tanto de muestras clínicas como ambientales, dejando al

descubierto una mayor diversidad en las muestras que vienen del ambiente (15). Sin embargo,

el aumentar la información obtenida mediante SBT, tanto de muestras clínicas como

ambientales, con otro tipo de regiones, como por ejemplo las intergénicas utilizadas en este

trabajo, nos da la posibilidad de encontrar el origen de una infección (31).

En este estudio sólo se analizaron muestras ambientales de varias partes de la misma

región pero tomadas en distintos años. Este tipo de estudios que considera la distribución

temporal nos permite monitorizar cómo el patógeno, en este caso L. pneumophila, responde a

las condiciones que se imponen para eliminarlo (14). En el año 2009 se encontraron 7 ST

distintos, pero en el año 2010 encontramos 11, compartiendo en los dos años sólo los ST 1 y

ST 1117. Esto nos indica un cambio en la variabilidad entre un año y otro, teniendo en cuenta

que el tamaño muestral es similar. A pesar de esto, se mantiene una coincidencia con otras

investigaciones, en las que el ST1 es uno de los más representados (3).

Al estudiar la variabilidad genética se puede observar que en ninguno de los parámetros

analizados hay una gran diferencia entre años ó al considerarlos en conjunto, por lo que se ha

analizado cada región por separado. En la diversidad haplotípica se mantienen valores

equivalentes para fliC, proA y mompS, como los analizados por (14) en la provincia de

Alicante. Las demás regiones también mantienen valores similares en el presente trabajo,

siendo mompS la que presentó valores más elevados.

Al considerar parámetros independientes del número de secuencias y su longitud, como

es el caso de la diversidad nucleotídica, se pueden comparar los resultados con los obtenidos en

(15) para muestras ambientales. El mencionado trabajo reporta una diferencia entre muestras

de origen clínico y ambiental que puede deberse a la gran diversidad de este patógeno, sobre

todo en el ambiente. Además, hay que tener en cuenta que los valores del ratio dN/dS son muy

inferiores a 1 en todos los fragmentos analizados, lo que nos indica que puede haber una

selección purificadora.

Los parámetros calculados para evaluar la diversidad genética dentro del gen neuA

varían considerablemente cuando incluimos en el análisis al alelo 207 perteneciente al ST A.

Como lo describe Farhat et al. 2011 (29), este alelo pertenece a uno de las “nuevas” variantes

de neuA que presentan mayor variación y que podría estar genéticamente relacionada con la

cepa Dallas 1E (ATCC 33216). Sin embargo, no se tiene la completa seguridad del origen de

estos “nuevos” alelos, pero puede deberse a una divergencia muy antigua en la especie.

Page 19: Estudio de la variabilidad genética de muestras ambientales de

18

Cuando se consideraron las muestras de cada año (2009 y 2010) como distintas

poblaciones, obtuvimos un AMOVA que nos indica una mayor diferencia dentro que entre los

años. Esto nos demuestra que no hay una estructuración poblacional a nivel temporal y, por

esta razón, al analizar las muestras a nivel genético con Structure (23) encontramos que las

cepas analizadas podrían clasificarse en 4 grupos diferentes, bien definidos en el árbol

filogenético (Figura 4). Únicamente el Grupo 1 está conformado exclusivamente por muestras

del año 2010.

Todos estos resultados soportan la existencia de recombinación intergénica como ya ha

sido reportada (7, 15). Los resultados obtenidos con RDP3 (28) nos indican que el Grupo 1 es

el que presenta mayor número de eventos de recombinación; lo que coincide con lo descrito en

(7) sobre la alta frecuencia con la que L. pneumophila intercambia su material genético y la

habilidad que esto le da para adaptarse a los cambios ambientales, encontrándose distinta

diversidad genética para cada año.

Se han reportado eventos de recombinación de hasta 3 regiones juntas (7, 15) y en el

presente trabajo se encontraron sólo eventos individuales y uno de 2 loci juntos; pero, debido a

que las 10 regiones analizadas se encuentran bastante lejanas la una de la otra en el genoma de

la bacteria, es probable que los eventos de recombinación que incluyen más de una región sean

eventos diferentes para cada locus o que se hayan producido en distintos momentos en la

historia evolutiva de la bacteria.

En conclusión, este tipo de estudios ayuda a conocer la distribución real de L.

pneumophila en el ambiente y, de esta manera, se pueden comprender las fuerzas evolutivas

que dirigen su distribución, siendo esto lo que necesitamos para tomar las medidas adecuadas y

controlar los brotes e infecciones de esta bacteria.

Referencias

1. Gomez-Valero L, Rusniok C, Buchrieser C. Legionella pneumophila: population genetics,

phylogeny and genomics. Infection, genetics and evolution: 2009 Sep; 9(5):727-39.

2. Fields BS, Benson RF, Besser RE. Legionella and Legionnaires’ disease: 25 years of

investigation. Clinical microbiology reviews. 2002; 15(3):506.

3. Lee HK, Shim JI, Kim HE, Yu JY, Kang YH. Distribution of Legionella species from

environmental water sources of public facilities and genetic diversity of L. pneumophila sg 1

in Korea. Applied and environmental microbiology. 2010 Aug; 76(19):6547-6554.

4. Horwitz MA, Silverstein SC. Legionnaires’ disease bacterium (Legionella pneumophila)

multiplies intracellularly in human monocytes. Journal of Clinical Investigation. 1980;

66(3):441.

Page 20: Estudio de la variabilidad genética de muestras ambientales de

19

5. Cirillo JD, Falkow S, Tompkins LS. Growth of Legionella pneumophila in Acanthamoeba

castellanii enhances invasion. Infection and immunity. 1994 Aug; 62(8):3254-61.

6. Maiden MC, Bygraves JA, Feil E, Morelli G, Russell JE, et al. (1998) Multilocus sequence

typing: a portable approach to the identification of clones within populations of pathogenic

microorganisms. Proc Natl Acad Sci U S A 95: 3140–5.

7. Coscollá M, González-Candelas F. Population structure and recombination in environmental

isolates of Legionella pneumophila. Environmental microbiology. 2007 Mar; 9(3):643-56.

8. Cazalet C, Rusniok C, Brüggemann H, Zidane N, Magnier A, Ma L, et al. Evidence in the

Legionella pneumophila genome for exploitation of host cell functions and high genome

plasticity. Nature genetics. 2004 Nov; 36(11):1165-73.

9. Chien M, Morozova I, Shi S, Sheng H, Chen J, Gomez SM, et al. The genomic sequence of

the accidental pathogen Legionella pneumophila. Science. 2004; 305(5692):1966-1968.

10. Glöckner G, Albert-Weissenberger C, Weinmann E, Jacobi S, Schunder E, Steinert M, et al.

Identification and characterization of a new conjugation/type IVA secretion system (trb/tra)

of Legionella pneumophila Corby localized on two mobile genomic islands. International

journal of medical microbiology: IJMM. 2008 Jul; 298(5-6):411-28.

11. D’Auria G. JN, Francesc PB, Andrés M, Amparo L. Legionella pneumophila pangenome

reveals strain-specific virulence factors. BMC Genomics. 2010; 111-13.

12. Schroeder GN, Petty NK, Mousnier A, Harding CR, Vogrin AJ, Wee B, Fry NK, et al.

Legionella pneumophila strain 130b possesses a unique combination of type IV secretion

systems end novel Dot/Icm secretion system effector proteins. Journal of Bacteriology. 2010

Nov; 192(22):6001-6016.

13. Amaro F, Gilbert J. A, Owens S, Trimble W, Shuman H. A Whole-Genome sequence of the

human pathogen Legionella pneumophila serogroup 12 strain 570-CO-H. Journal of

Bacteriology. 2012 194(6):1613.

14. Coscollá M, Gosalbes MJ, Catalán V, González-Candelas F. Genetic variability in

environmental isolates of Legionella pneumophila from Comunidad Valenciana (Spain).

Environmental microbiology. 2006 Jun; 8(6):1056-63.

15. Coscollá M, González-Candelas F. Comparison of clinical and environmental samples of

Legionella pneumophila at the nucleotide sequence level. Infection, genetics and evolution:.

2009 Sep; 9(5):882-8.

16. EWGLI SBT Database:

www.hpa-bioinformatics.org.uk/legionella/legionella_sbt/php/sbt_homepage.php

17. Staden R. The Staden sequence analysis package. Molecular biotechnology. 1996 Jun;

5(3):233-41.

18. Tamura K, Peterson D, Peterson N, Stecher G, Nei M, and Kumar S (2011) MEGA5:

Molecular Evolutionary Genetics Analysis using Maximum Likelihood, Evolutionary

Page 21: Estudio de la variabilidad genética de muestras ambientales de

20

Distance, and Maximum Parsimony Methods. Molecular Biology and Evolution 28(10):

2731-2739.

19. Hall TA. BioEdit: a user-friendly biological sequence alignment editor and analysis program

for Windows 95/98/NT. Nucleic Acids Symposium Series. 1999; 4195-98.

20. Saitou N, Nei M. The neighbor-joining method: a new method for reconstructing

phylogenetic trees. Molecular biology and evolution. 1987 Jul; 4(4):406-25.

21. Librado P, Rozas J. DnaSP v5: a software for comprehensive analysis of DNA

polymorphism data. Bioinformatics (Oxford, England). 2009 Jun; 25(11):1451-2.

22. Excoffier L, Laval G, Schneider S. Arlequin (version 3.0): an integrated software package for

population genetics data analysis. Evolutionary bioinformatics online. 2005 Jan;147-50.

23. Pritchard JK, Stephens M, Donnelly P. Inference of population structure using multilocus

genotype data. Genetics. 2000 Jun; 155(2):945-59.

24. Didelot X, Falush D. Inference of bacterial microevolution using multilocus sequence data.

Genetics. 2007 Mar; 175(3):1251-66.

25. Structure Harvester web page: http://taylor0.biology.ucla.edu/structureHarvester/

26. Jakobsson M, Rosenberg NA. CLUMPP: a cluster matching and permutation program for

dealing with label switching and multimodality in analysis of population structure.

Bioinformatics 2007 Jul; 23(14):1801-6.

27. Rosenberg NA. DISTRUCT: a program for the graphical display of population structure.

Molecular Ecology Notes. 2004.

28. Martin DP, Lemey P, Lott M, Moulton V, Posada D, Lefeuvre P. RDP3: a flexible and fast

computer program for analyzing recombination. Bioinformatics(. 2010 Oct; 26(19):2462-3.

29. Farhat C, Mentasti M, Jacobs E, Fry N. K, Lück C. The N-acylneuraminate cytidyl

transferase gene, neuA is heterogenous in Legionella pneumophila strains but can be used as

marker for epidemiological typing in the consensus sequence-based tying scheme. Journal of

clinical microbiology. 2011 September 28.

30. Evanno G, Regnaut S, Goudet J. Detecting the number of clusters of individuals using the

software STRUCTURE: a simulation study. Molecular ecology. 2005 Jul; 14(8):2611-20.

31. Coscollá M, Fenollar J, Escribano I, González-Candelas F. Legionellosis Outbreak

Associated with Asphalt Paving Machine, Spain, 2009. Emerging Infectious Diseases. 2010

Sep; 16(9):1381-1387.