modelos combinatorios en ensamblamiento genético

87
División de Ciencias Básicas e Ingeniería Modelos combinatorios en ensamblamiento genético Tesis para obtener el grado de Maestra en Optimización Elaborada por Ing. Lidia Angélica García García Asesora: Dra. Guadalupe Rodríguez Sánchez UAM-Azcapotzalco 25 de enero de 2018

Upload: others

Post on 23-Jul-2022

11 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Modelos combinatorios en ensamblamiento genético

División de Ciencias Básicas e Ingeniería

Modelos combinatorios enensamblamiento genético

Tesis para obtener el grado de Maestraen Optimización

Elaborada porIng. Lidia Angélica García García

Asesora:Dra. Guadalupe Rodríguez Sánchez

UAM-Azcapotzalco

25 de enero de 2018

Page 2: Modelos combinatorios en ensamblamiento genético

2

2

Page 3: Modelos combinatorios en ensamblamiento genético

Contenidos

Lista de Figuras 7

Índice de cuadros 9

1. Introducción 11.1. Ordenamiento por inversiones . . . . . . . . . . . . . . . . 2

1.1.1. Sistemas de isotropía . . . . . . . . . . . . . . . . 31.1.2. 4-matroides . . . . . . . . . . . . . . . . . . . . . 41.1.3. Obstáculos . . . . . . . . . . . . . . . . . . . . . . 4

1.2. Organización del trabajo . . . . . . . . . . . . . . . . . . 5

2. Conceptos matemáticos fundamentales 72.1. Elementos de teoría de gráficas . . . . . . . . . . . . . . . 7

2.1.1. Paseos y circuitos . . . . . . . . . . . . . . . . . . 72.2. Campo GF (2) . . . . . . . . . . . . . . . . . . . . . . . . 82.3. Matroides binarios . . . . . . . . . . . . . . . . . . . . . . 82.4. 4-matroides . . . . . . . . . . . . . . . . . . . . . . . . . 11

2.4.1. Representación lineal de un 4-matroide . . . . . . 122.4.2. Gráfica fundamental . . . . . . . . . . . . . . . . . 132.4.3. Transformación de pivote principal . . . . . . . . . 132.4.4. Menores . . . . . . . . . . . . . . . . . . . . . . . 132.4.5. Conexidad de un 4-matroide . . . . . . . . . . . . 14

2.5. Conceptos relacionados con el estudiode 4-matroides . . . . . . . . . . . . . . . . . . . . . 14

2.5.1. Alfabetos complementarios y palabras de dobleocurrencia . . . . . . . . . . . . . . . . . . . . . . 14

2.5.2. Gráfica de alternancia . . . . . . . . . . . . . . . . 152.5.3. Gráfica de alternancia signada . . . . . . . . . . . 162.5.4. Complementación de lazo . . . . . . . . . . . . . . 162.5.5. Complementación local . . . . . . . . . . . . . . . 17

3

Page 4: Modelos combinatorios en ensamblamiento genético

4 CONTENIDOS

3. Modelo genético 193.1. Construcción del modelo . . . . . . . . . . . . . . . . . . 19

3.1.1. Estructura del ADN . . . . . . . . . . . . . . . . . 193.1.2. Problema del reordenamiento cromosómico . . . . 223.1.3. Ensamblamiento genético en ciliados . . . . . . . . 243.1.4. Operaciones de ADN en ciliados . . . . . . . . . . 263.1.5. Secuencias MDS . . . . . . . . . . . . . . . . . . . 28

3.2. Permutaciones. Inversiones orientadas yno orientadas . . . . . . . . . . . . . . . . . . . . . . . 29

3.2.1. Distancia de inversión . . . . . . . . . . . . . . . . 293.2.2. Representación de un cromosoma lineal . . . . . . 293.2.3. Inversiones orientadas . . . . . . . . . . . . . . . . 293.2.4. Obstáculos . . . . . . . . . . . . . . . . . . . . . . 303.2.5. Inversiones no orientadas . . . . . . . . . . . . . . 30

3.3. Gráfica de punto de rompimiento . . . . . . . . . . . . . . 313.3.1. Inversiones en BG(ı0) . . . . . . . . . . . . . . . . 323.3.2. Modelo de programación lineal entera . . . . . . . 343.3.3. Obstáculos en la gráfica de punto de rompimiento . 353.3.4. Eliminación de obstáculos en BG(ı0) . . . . . . . . 36

3.4. Gráfica Hb(ı0) . . . . . . . . . . . . . . . . . . . . . . . . 373.4.1. Complementación local e inversiones . . . . . . . . 383.4.2. Diagrama cordal . . . . . . . . . . . . . . . . . . . 393.4.3. Matriz de intersección . . . . . . . . . . . . . . . . 413.4.4. Complemento local modificado de M . . . . . . . . 42

3.5. Paseos Eulerianos en multigráficas4-regulares . . . . . . . . . . . . . . . . . . . . . . . . 44

3.5.1. Multigráfica 4-regular asociada a una permuta-ción

signada . . . . . . . . . . . . . . . . . . . 443.5.2. Bitransiciones . . . . . . . . . . . . . . . . . . . . 463.5.3. Multigráfica codificada . . . . . . . . . . . . . . . 48

3.6. Transformaciones en paseos Eulerianos . . . . . . . . . . . 503.6.1. Separación . . . . . . . . . . . . . . . . . . . . . . 503.6.2. Conmutación . . . . . . . . . . . . . . . . . . . . . 51

3.7. Gráficas fundamentales . . . . . . . . . . . . . . . . . . . 513.7.1. Gráfica de alternancia relativa . . . . . . . . . . . 52

3.8. 4-matroides y sistemas de isotropía . . . . . . . . . . . . . 53

4. Aplicación en el ordenamiento por inversiones 574.1. Inversiones orientadas y 4-matroides . . . . . . . . . . . . 574.2. Inversión de corte . . . . . . . . . . . . . . . . . . . . . . 58

4

Page 5: Modelos combinatorios en ensamblamiento genético

CONTENIDOS 5

4.3. Ecuación exacta para la distancia de inversión . . . . . . . 594.4. Ciliados . . . . . . . . . . . . . . . . . . . . . . . . . . . 60

5. Conclusiones y trabajo futuro 615.1. Conclusiones . . . . . . . . . . . . . . . . . . . . . . . . . 615.2. Trabajo futuro . . . . . . . . . . . . . . . . . . . . . . . . 61

A. Sistemas de isotropía 63.0.1. Presentaciones gráficas de sistemas de isotropía . . 63

Bibliografía 65

5

Page 6: Modelos combinatorios en ensamblamiento genético
Page 7: Modelos combinatorios en ensamblamiento genético

Lista de Figuras

1.1. Estructura y secuencia del ADN. Imagen tomada de [104]. . 1

2.1. Diagrama cordal y gráfica de alternancia de una palabrade doble ocurrencia. . . . . . . . . . . . . . . . . . . . . . 15

2.2. Ejemplo de transposición sobre diagrama cordal. . . . . . . 16

3.1. Bases nitrogenadas. Imagen tomada de [102]. . . . . . . . 193.2. Enlaces de hidrógeno entre pares de bases complementa-

rias en el ADN. . . . . . . . . . . . . . . . . . . . . . . . 203.3. Transcripción. . . . . . . . . . . . . . . . . . . . . . . . . 203.4. Codones. . . . . . . . . . . . . . . . . . . . . . . . . . . . 213.5. Componentes estructurales del gen. . . . . . . . . . . . . 213.6. Corte y empalme del ARN mensajero. . . . . . . . . . . . 213.7. Cromosoma lineal. . . . . . . . . . . . . . . . . . . . . . . 223.8. Bloques de sintenia del cromosoma X en ratones y en

humanos. . . . . . . . . . . . . . . . . . . . . . . . . . . . 223.9. Ejemplo del reordenamiento de inversión en un segmento

de ADN. . . . . . . . . . . . . . . . . . . . . . . . . . . . 233.10. Escenario evolutivo entre el cromosoma X en ratones y en

humanos. . . . . . . . . . . . . . . . . . . . . . . . . . . . 233.11. Escenario evolutivo con una inversión y una transposición. . 243.12. Oxytricha trifallax, Paramecium tetraurelia, Tetrahymena

thermophila.Imagen tomada de [103]. . . . . . . . . . . . . 243.13. Ensamblamiento genético. . . . . . . . . . . . . . . . . . . 253.14. Ejemplo de ensamblamiento genético en el gen actina I

del ciliado Sterkiella nova. . . . . . . . . . . . . . . . . . 263.15. Segmento del gen ˛TP en el ciliado Sterkiella histrio-

muscorum. . . . . . . . . . . . . . . . . . . . . . . . . . . 263.16. Plegamiento molecular en la escisión de lazo. . . . . . . . 273.17. Recombinación homóloga. . . . . . . . . . . . . . . . . . . 273.18. Eliminación de ADN no genético. . . . . . . . . . . . . . . 27

7

Page 8: Modelos combinatorios en ensamblamiento genético

8 LISTA DE FIGURAS

3.19. Recombinación de doble lazo. . . . . . . . . . . . . . . . . 273.20. Ejemplo de recombinación de horquilla en el gen Actina I

del ciliado Sterkiella Nova. . . . . . . . . . . . . . . . . . 283.21. Gráfica de punto de rompimiento de la permutación no

signada del del ejemplo 18. . . . . . . . . . . . . . . . . . 323.22. Componentes en BG(ı

0

ratón). . . . . . . . . . . . . . . . . 333.23. Ciclos en BG(ı

0

ratón). . . . . . . . . . . . . . . . . . . . . 333.24. Inversión orientada en BG(ı

0

ratón). . . . . . . . . . . . . . . 333.25. Obstáculos en la gráfica de punto de rompimiento. . . . . 353.26. Inversión de corte en la gráfica de punto de rompimiento. . 363.27. Inversión de fusión. . . . . . . . . . . . . . . . . . . . . . 373.28. Gráfica Hb(ı0). . . . . . . . . . . . . . . . . . . . . . . . . 383.29. Inversión en Hb(ı0). . . . . . . . . . . . . . . . . . . . . . 383.30. Representación lineal de la gráfica en el ejemplo (19). . . 393.31. Ejemplo de aplicación de la transformación en (25). . . . . 403.32. H(ı0ratón). . . . . . . . . . . . . . . . . . . . . . . . . . . . 403.33. Ejemplo de secuencia óptima. . . . . . . . . . . . . . . . . 413.34. Gráfica de intersección asociada a la permutación ı1 del

ejemplo 17. . . . . . . . . . . . . . . . . . . . . . . . . . 423.35. Gráfica dirigida correspondiente a la permutación expandi-

da ı0 del ejemplo 34. . . . . . . . . . . . . . . . . . . . . 453.36. Multigráfica 4-regular obtenida de la gráfica dirigida del

ejemplo 35. . . . . . . . . . . . . . . . . . . . . . . . . . 453.37. GıjΩ(TE(Φ)) . . . . . . . . . . . . . . . . . . . . . . . . 473.38. GıjΩ(Ψ) . . . . . . . . . . . . . . . . . . . . . . . . . . . 473.39. Bitransiciones. . . . . . . . . . . . . . . . . . . . . . . . . 483.40. Gráfica de alternancia del paseo Euleriano TE(Φ) del

ejemplo 37. . . . . . . . . . . . . . . . . . . . . . . . . . 52

4.1. Gráfica de alternancia del paseo Euleriano TE(Φ)˜v4 delejemplo 41. . . . . . . . . . . . . . . . . . . . . . . . . . 59

4.2. Multigráfica 4-regular G$ de la permutación expandida$0 en (54). . . . . . . . . . . . . . . . . . . . . . . . . . 60

8

Page 9: Modelos combinatorios en ensamblamiento genético

Índice de cuadros

2.1. Suma y producto (mod 2) . . . . . . . . . . . . . . . . . 8

3.1. Codificación de bitransiciones. . . . . . . . . . . . . . . . . 483.2. Suma . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54

9

Page 10: Modelos combinatorios en ensamblamiento genético

Capítulo 1

Introducción

El ADN (ácido desoxirribonucleico) es una molécula con forma de doblehélice constituida por dos cadenas antiparalelas de nucleótidos. En el ADNlos nucleótidos consisten en una base nitrogenada ligada a la desoxirribo-sa, la que a su vez está ligada al fosfato. Las bases nitrogenadas son:Adenina (A), Citosina (C), Guanina (G) y Tiamina (T ) (figura 1.1). En unnivel abstracto, el ADN se representa como una secuencia sobre el alfabetofA,C,G,Tg.

Figura 1.1: Estructura y secuencia del ADN.Imagen tomada de [104].

El genoma es la secuencia entera de ADN que almacena la informacióngenética de un organismo. El genoma está particionado en subunidadesllamadas cromosomas. Un cromosoma puede verse como una secuenciaordenada de genes. Un gen es un segmento de ADN involucrado en laproducción de proteínas o en la codificación de ARN (ácido ribonucleico)funcional.

1

Page 11: Modelos combinatorios en ensamblamiento genético

2 1.1. Ordenamiento por inversiones

El reordenamiento cromosómico es una rama de la genómica comparadaque estudia el orden genético entre diferentes especies. El objetivo es lainferencia de relaciones filogenéticas y la estimación del número de reorde-namientos ocurridos durante la evolución de una especie a otra. El estudiode los reordenamientos cromosómicos también permite la construcción debancos de datos que sirvan para atribuir funciones a los genes a partir dela comparación entre genomas.

Diferentes especies comparten distintos porcentajes de información genéti-ca dependiendo de su proximidad evolutiva. Estos datos genéticos han sidoheredados de un antecesor en común y no necesariamente tienen un ordensimilar en los genomas de cada especie debido a mutaciones a gran escalaque afectan amplias regiones del cromosoma. Tales mutaciones se cono-cen como reordenamientos cromosómicos . Asumiendo que la evolución esparsimoniosa y prefiere las secuencias con el mínimo de eventos [88, 89] ydados dos genomas, el problema general del reordenamiento cromosómicose puede plantear como la determinación de la secuencia más corta dereordenamientos que convierte a un genoma en el otro.

1.1. Ordenamiento por inversiones

En el modelo que consideramos, un genoma es un conjunto de cromosomas,donde cada cromosoma se representa como un conjunto de genes. Un gense identifica con un entero sin signo. Cuando aparece en un cromosoma, ungen se asocia con un signo ("+ " o "`") que representa su orientación. SiΠ es un genoma con N cromosomas y el k-ésimo cromosoma en Π contienenk genes, entonces:

Π = ffı11,ı12, ...,ı1n1g,fı21,ı22, ...,ı2n2g, ...,fıN1,ıN2, ...,ıNnNgg

Los reordenamientos cromosómicos más comunes son la inversión, la trans-posición y la transposición invertida [72]. El presente trabajo se enfoca enla inversión la cuál corresponde al problema combinatorio de ordenamien-to por inversiones . Sea ı = (ı1, ...,ıi`1,ıi, ...,ıj,ıj+1, ...,ın) un cromosoma enΠ. Una inversión (i,j) reordena los genes dentro de ı transformándolo enun cromosoma (ı1, ...,ıi`1,`ıj, ...,`ıi,ıj+1, ...,ın). Consideremos un segundogenoma Γ y un cromosoma ‚ 2 Γ con el mismo número de genes que ı.El problema de la distancia de inversión consiste en encontrar la secuenciamás corta de inversiones que convierte a ı en ‚. La longitud de esta secuen-cia se conoce como la distancia de inversión entre ı y ‚ y se denota condr(ı,‚). Las propiedades algebraicas de las permutaciones permiten formu-lar el problema como la determinación del número mínimo de inversiones

2

Page 12: Modelos combinatorios en ensamblamiento genético

1. Introducción 3

que convierten a ı en la permutación identidad , denotada como «.

El primer algoritmo de aproximación para el problema de la distancia de in-versión fue propuesto por Kececioglu y Sankoff en 1994 [70]. En 1996 Bafnay Pevzner [3] introdujeron la gráfica de punto de rompimiento(breakpointgraph) asociada a una permutación signada y revelaron importantes víncu-los entre la distancia de inversión y la descomposición en ciclos de estagráfica convirtiéndola en la base de los análisis subsecuentes del orde-namiento por inversiones. Sea c(ı) la cardinalidad de una partición de lagráfica de punto de rompimiento en ciclos de aristas disjuntas. Bafna yPezner demostraron que cualquier inversión puede cambiar el parámetroc(ı) a lo sumo en 1. Lo anterior define la cota inferior dr(ı,«)– (n+1)` c(ı)para una permutación signada ı con n elementos.

En 1995 Kececioglu y Sankoff [69] observaron que para permutacionesaleatorias la diferencia promedio entre la cota inferior definida por Bafna yPevzner y la distancia exacta es menor que 1. En 1999 Hannenhalli y Pevz-ner [56] probaron la existencia de un nuevo parámetro que permitió eliminarla diferencia entre dr(ı,«) y (n+1)` c(ı) y demostraron que el problema delordenamiento por inversiones es polinomial. El parámetro introducido porHannenhalli y Pevzner para la formulación exacta de la distancia de inver-sión es el número de obstáculos en la permutación signada ı. Un obstáculo(hurdle) es una subsecuencia en ı en la cuál no es aplicable la operaciónde inversión como se ha definido.

En 2000 Kaplan, Shamir, y Tarjan presentaron la gráfica de superposición(overlap graph) para una permutación signada [68], la cual se puede definircomo una gráfica circular con lazos permitidos. La matriz de adyacenciade una gráfica circular es una V ˆ V -matriz simétrica (antisimétrica) conentradas en el campo binario GF (2). En esta tesis la gráfica de superposiciónserá llamada gráfica de intersección.

Debido a un buen número de investigaciones sobre el reordenamiento cro-mosómico, se ha podido construir un modelo matemático que usa principal-mente permutaciones y cuyo fundamento, son las estructuras matroidalesque específicamente son las gráficas circulares, los 4-matroides y los sis-temas de isotropía.

1.1.1. Sistemas de isotropía

La complementación local de una gráfica simple H = (V ,E) en un vérticev 2 V invierte la relación de adyacencia de H sobre el conjunto de veci-nos de H. El concepto de complementación local de gráficas simples fue

3

Page 13: Modelos combinatorios en ensamblamiento genético

4 1.1. Ordenamiento por inversiones

introducido por Kotzig en relación a las k-tranformaciones de los paseosEulerianos de multigráficas 4-regulares [71]. Las complementaciones loca-les se relacionan con las k-tranformaciones solo cuando se aplican sobregráficas circulares [15]. En el caso general existe un marco natural paratratar las complementaciones locales dado por los sistemas de isotropía.

Los sistemas de isotropía son estructuras algebraicas y combinatorias in-troducidas por Bouchet en [16] que unifican algunas propiedades comunesa las multigráficas 4-regulares y a pares de matroides binarios duales.

1.1.2. 4-matroides

Los 4-matroides [20] son estructuras combinatorias que constituyen una ge-neralización de los matroides. Los 4-matroides binarios normales represen-tan de manera natural la organización de la molécula de ADN [31,33,38].En 2017 Brijder propuso su aplicación en el problema de la distancia deinversión [26]. Sean ı y « los cromosomas de dos especies y sea Hb la grá-fica de intersección del cromosoma ı. En la presente tesis se demuestraque ı y « pueden representarse como vectores suplementarios del sistemade isotropia con gráfica fundamental Hb el cuál está determinado por el4-matroide DHb.

La transformación de pivote principal (principal pivot transform) introdu-cida por Tucker [98], invierte parcialmente una matriz dada. Sea A(Hb) lamatriz de adyacencia de la gráfica Hb y sea un subconjunto X „ V condet(A(Hb)[X ]) = 1. Bridjer probó [26] que la transformación de pivote princi-pal sobre X seguida de la eliminación de los elementos de X corresponde auna inversión en ı. Bouchet demostró [23] que en el caso de las matricessimétricas sobre GF (2) la transformación de pivote principal satisface unadefinición equivalente en términos de 4-matroides debido a que cumplenel axioma de intercambio de 4-matroides.

1.1.3. Obstáculos

Como se mencionó anteriormente un obstáculo es una subsecuencia enla permutación signada ı donde la inversión no es aplicable. Hannenhalliy Pevzner propusieron dos operaciones denominadas inversión de corte einversión de fusión para la eliminación de estas estructuras. La inversiónde corte y la inversión de fusión no están definidas de manera directa en lagráfica de intersersección y su definición se hace por medio de la gráfica depunto de rompimiento o de la gráfica de cubierta (cover graph) de ı1. Enel presente trabajo un obstáculo se define como una submatriz principal

1El concepto de gráfica de cubierta no será utilizado en esta tesis.

4

Page 14: Modelos combinatorios en ensamblamiento genético

1. Introducción 5

singular de A(Hb). La inversión de corte se presenta como el complementolocal modificado postulado por Traldi en [94], el cuál está directamenterelacionado con las tranformaciones de Kotzig.

1.2. Organización del trabajo

La presente tesis se estructura como sigue. En el capítulo 2, se revisanlos conceptos matemáticos fundamentales empleados a lo largo de estetrabajo. Las secciones 2.3 y 2.4 presentan respectivamente las definicionesde matroide binario y 4-matroide.

En la sección 3.1 del capítulo 3 se da una introducción al problema delreordenamiento cromosómico. La subsección 3.1.3 describe la estructurade ciertos organismos unicelulares llamados ciliados que son empleadoscomo modelo en la genómica comparativa. Recientes investigaciones enteoría de inversiones han propuesto la aplicación de las tres operacionesirreversibles con las que estos organismos ordenan su ADN (definidas enla subsección 3.1.4) en la deducción de potenciales relaciones evolutivasrelativas al fenómeno del reordenamiento cromósomico [61,63].

En la sección 3.2 se presentan las definiciones de inversión, distancia deinversión, inversiones orientadas e inversiones no orientadas en términos dela permutación signada con la que se representa el orden y la orientaciónde los genes en un cromosoma lineal. La gráfica de punto de rompimientoasociada a dicha permutación es definida en la sección 3.3. La subsección3.3.2 describe un modelo de programación lineal entera para el problemade la distancia de inversión. El concepto de gráfica de intersección estádado en la sección 3.4. La matriz de adyacencia de esta gráfica se presentaen la subsección 3.4.3. En la subsección 3.4.4 se define la inversión decorte de las subsecciones 3.2.5 y 3.3.4 en términos de la operación sobrematrices antisimétricas conocida como complemento local modificado.

Los paseos Eulerianos en la multigráfica 4-regular conexa asociada a unapermutación signada se estudian en la sección 3.5. En la subsección 3.5.3se da la definición de la multigráfica codificada (G,fi ) asociada a un sistemade isotropía S con gráfica fundamental H2.

Las transformaciones aplicables sobre un paseo Euleriano en una mul-tigráfica 4-regular, descritas por Kotzig y posteriormente extendidas porBouchet, se definen en la sección 3.6. El concepto de gráficas fundamen-tales es presentado en la sección 3.7. La sección 3.8 define el sistema de

2El concepto de un sistema de isotropía S se revisa en el apéndice A.

5

Page 15: Modelos combinatorios en ensamblamiento genético

6 1.2. Organización del trabajo

isotropía con gráfica fundamental Hb(Φ, Ψ) descrita en la subsección 3.7.1 ysu relación con los 4-matroides.

El capítulo 4 presenta la aplicación de los conceptos expuestos en los con-textos del ordenamiento por inversiones y del ensamblamiento genético enciliados. En la sección 4.1 las inversiones en un cromosoma lineal ı sondescritas en términos del 4-matroide binario normal DHb(Φ,Ψ). La definiciónde la distancia de inversión dr(ı,«) en el caso en que ı sea una permuta-ción signada sin obstáculos se muestra en la ecuación (52) de esta sección.La relación entre el complemento local modificado y las transformacionessobre paseos Eulerianos en multigráficas 4-regulares es presentada en lasección 4.2 mientras que la fórmula exacta para la distancia de inversiónestá dada por la ecuación (53) de la sección 4.3. Finalmente la descrip-ción de como el modelo aplicado se generaliza para genes y cromosomascirculares se da en la sección 4.4.

6

Page 16: Modelos combinatorios en ensamblamiento genético

Capítulo 2

Conceptos matemáticosfundamentales

2.1. Elementos de teoría de gráficas

Una gráfica G se define como un par ordenado (V ,E), donde V es un conjuntofinito y E es un conjunto de multiconjuntos de dos elementos de V . Loselementos de V son llamados vértices, y los elementos de E son llamadosaristas de G. Se dice que una arista es incidente con los dos vértices queella une. Por ejemplo, la arista fv,wg es incidente con los vértices v y w ylos vértices v y w son llamados vértices adyacentes. En adelante una aristafv,wg se denotará simplemente por vw. Un lazo es una arista vv incidentecon un mismo vértice v [75].

Una digráfica o gráfica dirigida D es un par ordenado (V ,E), donde V es elconjunto de vértices y E es el conjunto de arcos o aristas dirigidas. Cadaarco (v,w) es un par ordenado de vértices distintos v y w.

Una multigráfica G es una gráfica con lazos permitidos y donde más deuna arista puede ser incidente con el mismo par de vértices. Se dice quemultigráfica es una gráfica simple con lazos permitidos si sus aristas sonincidentes a lo sumo con un mismo par de vértices. La vecindad de unvértice v de una gráfica G es el subconjunto de vértices definido en (1):

n(v) =fw : vw 2 E(G)g. (1)

El grado de un vértice v se define como el número de aristas incidentes env, deg(v) = jn(v)j. Cada lazo contribuye en dos al grado de v.

2.1.1. Paseos y circuitos

Un paseo es una sucesión de aristas ei1 ,ei2 , ...,eik tal que el vértice terminalde eij coincide con el vértice inicial de ei(j+1) para j 2 f1, ...,k`1g. Un circuito

7

Page 17: Modelos combinatorios en ensamblamiento genético

8 2.2. Campo GF (2)

es un paseo ei1 ,ei2 , ...,eik en el cuál el vértice terminal eik coincide con elvértice inicial ei1.

Un paseo Euleriano en una gráfica G, se define como un paseo que pasa através de cada arista en G una y sólo una vez. De modo similar, un circuitoEuleriano en G, se define como un circuito que pasa a través de cada aristade G una y sólo una vez. Una gráfica G es llamada Euleriana si tiene uncircuito Euleriano.

Teorema 2.1 (Teorema de Euler). Sea G = (V ,E) una gráfica omultigráfica conexa, son equivalentes para G:

(i) G es Euleriana.(ii) Todo vértice de G es de grado par.(iii)El conjunto E(G) puede descomponerse en circuitos.

Multigráficas 4-regulares

Sea G = (V ,E) una multigráfica Euleriana, se dice que G es 4-regular sideg(v) = 4 8v 2 V . Una partición Euleriana, (también llamada partición decircuitos o ‰`descomposición [71]) en G es una partición de E en circuitosde aristas disjuntas.

2.2. Campo GF (2)

Un campo es un conjunto de elementos que tiene definidas dos operacionessobre sus elementos, denominadas suma y producto, las cuáles cumplenciertas propiedades. Un ejemplo de un campo es el conjunto de los núme-ros reales con las operaciones de suma y producto habituales. Un campodefinido sobre un conjunto finito es llamado campo finito. Al campo defi-nido sobre el conjunto f0,1g, se le conoce como GF(2). El campo binarioGF(2) consta de los elementos 0 y 1, con las operaciones suma y productomódulo 2 (cuadro 2.1).

˘ 0 1

0 0 1

1 1 0

^ 0 1

0 0 0

1 0 1

Cuadro 2.1: Suma y producto (mod 2)

2.3. Matroides binarios

Los matroides fueron introducidos por Whitney [86] en 1935. En esta tesisconsideraremos algunos conceptos de teoría de matroides. Para un estudiomás profundo sugerimos los textos de referencia [53, 87, 97]. Un matroide

8

Page 18: Modelos combinatorios en ensamblamiento genético

2. Conceptos matemáticos fundamentales 9

M es un par ordenado (V ,I), donde V es un conjunto finito e I es una familiade subconjuntos de V que cumplen las siguientes condiciones:

I1 ; 2 I.I2 Si I 2 I y I0 „ I, entonces I0 2 I.I3 Si I1 y I2 están en I y jI1j < jI2j, entonces 9 e 2 (I2` I1) tal queI1[e 2 I.

La condición I3 se conoce como el axioma de incremento de independencia.Se dice que M = (V ,I) es un matroide sobre V . Los miembros de I son losconjuntos independientes de M y V es el conjunto base de M. Un subcon-junto de V que no está en I es llamado dependiente [87]. Una base de M,es un conjunto maximal independiente de M.

Lema 2.1. Si B1 y B2 son bases de un matroide M, entonces jB1j = jB2j.

Si B es una familia de bases del matroide M, entonces por I1:

B1 B es no vacío.

Lema 2.2. B satisface la siguiente condición:

B2 Si B1,B2 2 B y x 2 (B1`B2), entonces 9 y 2 (B2`B1) tal que(B1`x)[y 2 B.

Teorema 2.2. Sea V un conjunto y B una colección de subconjuntos deV que satisface B1 y B2. Sea I la familia de subconjuntos de V que estáncontenidos en algún miembro de B. Entonces (V ,I) es un matroide quetiene la familia de bases B.

Corolario 2.1. Sea B una base del matroide M. Si e 2 V (M)`B entoncesB[e contiene un único circuito C(e,B). Además e 2 C(e,B).

Llamamos a C(e,B) el circuito fundamental de e con respecto a B.

Definición 2.3.1 (Matroide lineal). Sea F un campo, A 2 Fmxn unamxn-matriz sobre F. Sea V = f1, ...,ng el conjunto de etiquetas de lascolumnas de A. Un subconjunto I „ V es independiente si las columnasetiquetadas por I son linealmente independientes en el espacio vectorial(m, F).

Un matroide binario es un matroide lineal que puede ser representado sobreGF (2). Un matroide binario no se modifica si una fila de su matriz de re-presentación es sumada a otra, si las filas son permutadas, o si una fila deceros se añade o se elimina. El resultado de permutar las columnas de una

9

Page 19: Modelos combinatorios en ensamblamiento genético

10 2.3. Matroides binarios

matriz es una nueva matriz que representa a un matroide binario isomorfo.

Definición 2.3.2. Sea I la matriz identidad rˆr. Una representaciónestándar de un matroide binario M de rango r es una matriz de la forma(IjA) [92].

Si A es una matriz con entradas en GF(2), entonces M(IA) denota al ma-troide con representación estándar (IjA). Esencialmente, la representación(IjA) se puede describir de la siguiente manera: los elementos del matroidecorrespondientes a las columnas de I son una base B y para cada elementov 62 B, el circuito fundamental C(v,B) incluye a v junto con los elementosde B correspondientes a las entradas distintas de cero de la columna v deA [91].

Teorema 2.3 (Traldi 2005, [91]). Sean A1 y A2 rˆfn`rg-matrices conentradas en GF(2). Entonces M(IA1)‰=M(IA2) si y sólo si (IjA2) puede seobtenido de (IjA1) por medio de los siguientes tipos de operaciones sobrematrices de la forma (IjA):

(a) Permutación de las columnas de A.

(b) Permutación de las columnas de I y de las filas de (IjA), usando(b) la misma permutación.

(c) Supongamos que la entrada jk de A es ajk = 1. Entonces reempla-(b) zamos abc con 1+abc siempre que b 6= j, c 6= k, ajc = 1 y abk = 1.

Se dice que la operación de tipo (c) es un intercambio de base que involucraa la j-ésima columna de I y a la k-ésima columna de A.

Si Hb es una gráfica simple con lazos permitidos. La matriz de adyacenciaA(Hb), es una V ˆ V -matriz sobre GF(2) donde para los vértices v,v0 de Hb,la entrada etiquetada por (v,v0) es 1 si y sólo si v y v0 son adyacentes (seconsidera que un vértice v de Hb es adyacente a si mísmo si v es un vérticecon lazo).

Sea (IjA(Hb)jI +A(Hb)), donde I es la V ˆ V -matriz identidad, A(Hb) es la V ˆV -matriz de adyacencia de Hb e I +A(Hb) es la V ˆ V -matriz suma de lasmatrices anteriores. Sea AS(Hb) = (A(Hb)jI+A(Hb)), denotamos conM(IAS(Hb)))

al matroide binario representado por la matriz:

IAS(Hb) =(IjA(Hb))jI +A(Hb)) (2)

10

Page 20: Modelos combinatorios en ensamblamiento genético

2. Conceptos matemáticos fundamentales 11

Para todo vértice v 2 V (Hb) existen tres columnas de IAS(Hb) asociadas a v:vffi en I, vffl en A(Hb) y v en I +A(Hb). El conjunto que contiene a todos loselementos que corresponden a las columnas de IAS(Hb) es el conjunto basedel matroide binario M(IAS(Hb))) M(IAS(Hb))) y se denotará con W (Hb). Elconjunto de vértices fvffi,vffl,v g es la tripleta de vértices correspondientesa v. El grupo de permutaciones de los símbolos ffi, ffl y se denotará conS3 [91].

Supongamos que H1b y H2

b son gráficas simples con lazos permitidos, yque existe un isomorfismo compatible ˛ :M(IAS(H1

b )) 7!M(IAS(H2b )). Entonces

este isomorfismo consta de dos partes:

1 Existe una biyección inducida V (H1b ) 7! V (H2

b ) (la cuál también se1 denotará con ˛). Sin embargo, con respecto a isomorfismo, asu-1 miremos que V (H1

b ) = V (H2b ).

2 Existe una función f˛ : V (H1b ) 7! S3 tal que ˛(v«) = ˛(v)f˛ (v)(«) 8v 2 V (H1

b )

1 8« 2 fffi,ffl, g. En este caso se dice que ˛ es un isomorfismo compa-1 tible determinado por f˛.

Sea Hb una gráfica simple con lazos permitidos. El matroide binario res-tringido M(IA(Hb))) M(IA(Hb))) se define como el matroide representado porla matriz (3):

IA(Hb) =(IjA(Hb)) (3)

2.4. 4-matroides

Definición 2.4.1. Un sistema de conjuntos (sobre V ) es un par ordenadoD = (V ,F) donde V es un conjunto finito y F es una familia de subconjuntosde V . Un sistema de conjuntos es llamado propio si F 6= ;.

Axioma 2.1. Axioma de Intercambio SimétricoPara F1,F2 2 F y x 2 F14F2, 9 y 2 F14F2, tal que F14fx,yg 2 F.

Donde 4 es el operador diferencia simétrica entre conjuntos esto es, X4Y =

(X [Y )n (X \Y ).

Definición 2.4.2. Un 4-matroide es un sistema propio de conjuntosD = (V ,F), que satisface el axioma de intercambio simétrico. A loselementos de F se les llama conjuntos factibles o bases.

Ejemplo 1

11

Page 21: Modelos combinatorios en ensamblamiento genético

12 2.4. 4-matroides

Sea D un 4-matroide con el conjunto base V = f2, 3, 4g y con lafamilia de conjuntos factibles,

F = ff;g,f2g,f3g,f2, 4g,f3, 4g,f2, 3, 4gg

Si F1 = f2, 4g y F2 = f3g, entonces F14F2 = f2, 3, 4g. Para x 2 F14F2

y y 2 F14F2:

Si x = 2 y y = 2

F14f2g = f2, 4g[f2gnf2, 4g\f2g= f4g,f4g 62 F

Si x = 2 y y = 3

F14f2, 3g = f2, 4g[f2, 3gnf2, 4g\f2, 3g= f3, 4g,f3, 4g 2 F

Para X „ V se consideran F 4X = fF 4X : F 2 Fg y D4X = (V ,F 4X). Latransformación D !D4X es llamada torcimiento (twisting). Se dice queD y D4X son 4-equivalentes.

2.4.1. Representación lineal de un 4-matroide

Una matriz de tipo simétrico es una matriz que es simétrica o antisimétrica.Sea F un campo y A una V ˆV -matriz de tipo simétrico con entradas en F.Denotamos por A[X ] a la submatriz de A indexada por X „ A. Si F = fX „ V :

A[X ] es no singularg, entonces D = (V ,F) es un 4-matroide. Las matrices A[X ]

son llamadas submatrices principales. Por convención, se asume que A[X ]

es no singular si A[X ] = ; [23, 84]. Se dice que un 4-matroide es normal sicumple que ; 2 F. Un 4-matroide D tal que para todo F1,F2 2 F, jF1j y jF2jtienen la misma paridad se dice que es par .

Definición 2.4.3. La matriz A es una representación lineal de un4-matroide D con respecto a una base X si,

D =D(A)4X (4)

Un 4-matroide binario es un 4-matroide equivalente a D = (V ,F(A)) paraalguna matriz simétrica (antisimétrica) A sobre GF (2). La representaciónlineal de un 4-matroide binario D se define por medio de la matriz deadyacencia de una gráfica fundamental de D [6].

Ejemplo 2

Sea A la matriz simétrica con entradas en GF(2) en (5). F en (6)es el conjunto de etiquetas correspondientes a las submatricesprincipales invertibles de A.

12

Page 22: Modelos combinatorios en ensamblamiento genético

2. Conceptos matemáticos fundamentales 13

A =

266642 3 4

2 1 1 0

3 1 1 1

4 0 1 0

37775(5)

F = f;, 2, 3, 24, 34, 234g (6)

2.4.2. Gráfica fundamental

Sea D = (V ,F) un 4-matroide y sea X una base de D. Se define la gráficasimple H =HD(X), con E(H) = fvw :X4fv,wg 2Fg. A HD(X) se la llama gráficafundamental del 4-matroide D con respecto a X.

2.4.3. Transformación de pivote principal

Sea D un 4-matroide representado por una matriz de tipo simétrico A,con respecto a la base X y sea vw una arista de H = HD(X). Entonces, elconjunto X0 = X4fv,wg es una base de D y ¸ = [fv,wg] es una matriz nosingular. En 1987 Bouchet demostró que al hacer la descomposición porbloques en (7), se obtiene una matriz de tipo simétrico A0 en (8), ademásD(A0) =D(A)4fv,wg.

A =

0@ ¸ ˛

‚ ‹

1A (7) A0=

0@ ¸`1 `¸`1˛

‚¸`1 ‹`‚¸`1˛

1A (8)

La igualdad (4) implica que D = D(A0)4X0, por lo tanto A0 es una repre-sentación de D con respecto a X [7]. La transformación A 7! A0 es llamadatransformación de pivote principal o simplemente pivote.

2.4.4. Menores

Sea D = (V ,F) un 4-matroide. Para x 2 V se definen dos 4-matroides conconjunto base V nx y cuyas familias de conjuntos factibles están dadas por:

F nx = fF : F „ V nx,F 2 FgF ‹x = fF : F „ V nx,F [fxg 2 Fg

Se conoce a Dnx = (V nx,F nx) como un menor elemental de D, obtenido porel borrado del elemento x y a D‹x = (V nx,F ‹x) como un menor elementalde D, obtenido por la contracción del elemento x [84].

Propiedad 1 (Bouchet 1991, [13]). Para cualquier 4-matroide D = (V ,F),x 2 V y F „ V :

(D4F )nx = (D ‹x)4 (F `x) si x 2 F

13

Page 23: Modelos combinatorios en ensamblamiento genético

142.5. Conceptos relacionados con el estudio

de 4-matroides

Teorema 2.4. Sea D = (V ,F) un 4-matroide con una matriz derepresentación A sobre F. Cualquier menor elemental D— de D tiene unamatriz de representación A— sobre F. Además A—, es antisimétrica(simétrica) si A es antisimétrica (simétrica).

2.4.5. Conexidad de un 4-matroide

Para un par de 4-matroides D1 = (V1,F1) y D2 = (V2,F2) con V1 \ V2 = ;, lasuma directa D1˘D2 designa al 4-matroide (V ,F) definido por V = V1[V2 yF = fF1[F2 : F1 2 F1,F2 2 F2g [42, 51]. En este caso se dice que D1 y D2 sonsumandos de D. Se dice que un 4-matroide es conexo si no es la sumadirecta de dos 4-matroides con conjunto base no vacío.

2.5. Conceptos relacionados con el estudiode 4-matroides

2.5.1. Alfabetos complementarios y palabras de doble ocu-rrencia

Una permutación es una función biyectiva que asocia a i 2 f1, ..,ng un ele-mento ıi 2 f1, ..,ng. Sea ˛ : X 7! X una permutación sobre un conjunto finitoX. ˛ es una involución si ˛(˛(x)) = x, 8x 2 X.

Sea – un alfabeto, esto es, un conjunto finito de símbolos. Las secuenciasa1,a2, ...an con ai 2 – son palabras sobre –. El conjunto de todas las palabrassobre –, incluyendo a la palabra vacía, se denota con –˜.

Ejemplo 3

Tomemos, como ejemplo – = fa,b,cg. Si –i es el conjunto depalabras formadas por i símbolos.

–0 = f;g

–1 = fa,b,cg

–2 = fab,ac,bc,ba,ca,cbg

–˜ =1[j=0–j

Denotamos como L(a), al conjunto de letras en una palabra a sobre unalfabeto –. La palabra a, es una palabra de doble ocurrencia si cada x 2L(a) ocurre exactamente dos veces en a. Un alfabeto – junto con unainvolución ˛ : – 7!– es llamado alfabeto complementario y una palabra sobre– es una palabra de doble ocurrencia signada [45]. Sea (–,˛) un alfabeto

14

Page 24: Modelos combinatorios en ensamblamiento genético

2. Conceptos matemáticos fundamentales 15

complementario, ˛(a) se denotará como a 8a 2 –. Una permutación signadaes una palabra sobre – donde cada símbolo de – aparece exactamente unavez.

2.5.2. Gráfica de alternancia

Sea m una palabra de doble ocurrencia sobre el alfabeto finito V . Un parno ordenado vw de elementos distintos de V es una alternancia de m, si alleer m encontramos alternativamente v...w...v..w o w...v...w..v [10].

La gráfica de alternancia de m es la gráfica simple Hm definida sobre elconjunto de vértices V , tal que existe una arista de v a w si vw es unaalternancia de m. [10]. Otra manera de definir la gráfica Hm es considerandoun diagrama D que consta de una circunferencia con un conjunto finito decuerdas etiquetadas con los elementos de V . La gráfica Hm es la gráfica deintersección del diagrama D, es decir Hm tiene como vértices a los elementosde V y existe una arista del vértice v al vértice w si las correspondientescuerdas se intersecan en el diagrama D. En este contexto a D se le conocecomo el diagrama cordal y a Hm como la gráfica circular [23]. En eldiagrama D, se puede asumir sin pérdida de generalidad que no existen doscuerdas que compartan un extremo en común. Se puede recorrer el círculo yconstruir la palabra m si se consideran las etiquetas de las intersecciones delas cuerdas con la circunferencia, recorriendo la circunferencia a partir de laintersección de una cuerda con la circunferencia tomando una dirección fijasobre la circunferencia dando una vuelta completa hasta llegar al puntoinicial.

Ejemplo 4

La figura 2.1 muestra el diagrama cordal y la gráfica dealternancia y el diagrama cordal de la palabra de dobleocurrencia m = 1321545234.

15

Page 25: Modelos combinatorios en ensamblamiento genético

162.5. Conceptos relacionados con el estudio

de 4-matroides

1

1

3

3

2

2

55

4

4 1

4

2 3

5Figura 2.1: Diagrama cordal y gráfica de alternancia de una palabra dedoble ocurrencia.

16

Page 26: Modelos combinatorios en ensamblamiento genético

2. Conceptos matemáticos fundamentales 17

Definición 2.5.1. Transposición [2]Sea H el diagrama con la palabra m colocada sobre la circunferencia,como en la figura ?? sin las cuerdas y sean v y w un par de letras queforman una alternancia en m. Una transposición sobre vw es la gráficaresultante de intercambiar una de las secuencias de letras de v a w con laotra secuencia de v a w.

Ejemplo 5

Consideremos la palabra m = a123b2a3b414.

b

2

2

3

1a

41

4

b

3

a

(a) Diagrama cordal de m.

b

2

3

a4

1

4

b

12

3

a

(b) Transposición sobre ab.

Figura 2.2: Ejemplo de transposición sobre diagrama cor-dal.

2.5.3. Gráfica de alternancia signada

Considérese un alfabeto de la forma (V ,˛) y una palabra de doble ocurrenciaa 2 V . La gráfica de alternancia de a, es la gráfica simple Hb = (V ,E,v)

consistente en:

˜ Un conjunto finito V junto con una involución v 7! v,˜ tal que para 8v 2 V , v 6= v y si v 2 V entonces v 2 V .

˜ El conjunto finito de aristas E definido en la subsección˜ 2.5.2.

Para cada v 2 V , v se representará con un lazo sobre v.

2.5.4. Complementación de lazo

Sea H1b una gráfica simple con lazos permitidos y sea H2

b la gráfica resultantede H1

b por el complemento del estatus de lazo de un vértice v 2H1b . Entonces

IAS(H2b ) (ver sección 2.3) es la matriz obtenida de IAS(H1

b ) por el intercambiode las columnas vffl y v . Este intercambio es un ejemplo de la operacióntipo (a) del teorema 2.3, de acuerdo con el cuál existe un isomorfismocompatible M(IAS(H1

b )) 7!M(IAS(H2b )) determinado por la función f : V (H1

b ) 7!S3 dada en (9):

17

Page 27: Modelos combinatorios en ensamblamiento genético

182.5. Conceptos relacionados con el estudio

de 4-matroides

f(w) =

8<:La transposición fflffi, si w = v

1 si w 6= v(9)

Teorema 2.5 (Traldi 2015, [91]). Sean H1b y H

2b gráficas simples con

lazos permitidos, y supongamos v 2 V (H1b ). Entonces las siguientes

condiciones son equivalentes:

(1) Con respecto a isomorfismo, H2b es la gráfica obtenida de H1

b

˜ al complementar el estatus de lazo de v.

(2) Existe un isomorfismo compatible ˛ :M(IAS(H1b )) 7!M(IAS(H2

b ))

˜ tal que f˛(v) = (ffl ) y f˛(w) = 1, 8w 6= v.

2.5.5. Complementación local

Existen dos distintas versiones de la complementación local: la comple-mentación local simple y la complementación local no simple. La primerafue introducida por Bouchet [24] y por Rosenstiehl y Read [85], como partede la teoría de alternancia en multigráficas 4-regulares. La complementa-ción local simple no contempla la creación de lazos. La complementaciónlocal no simple es parte de la teoría de Transformaciones de Pivote Prin-cipal sobre GF (2) (ver subsección 2.4.3).

Sea Hb una gráfica simple con lazos permitidos. Para un vértice con lazov 2 Hb:

(1) El complemento local simple de Hb en v es la complementación˜ del estatus de adyacencia de cada par de vecinos de v.

(2) El complemento local no simple de Hb con respecto a v, A(Hnsb ˜v),˜ es la complementación del estatus de adyacencia de todo par de˜ vecinos de v y la complementación del estatus de lazo˜ de cada vecino de v [27, 91].

(4) Hinvb ˜v denota a la gráfica obtenida de Hnsb ˜v al eliminar˜ todas las aristas incidentes con v (incluyendo al lazo˜ en v). De forma equivalente, Hinvb ˜v es la complementación˜ local no simple de la subgráfica inducida por la vecindad˜ cerrada de v, fw : vw 2 E(Hb)g.

Sea M(IAS(Hb))) el matroide binario representado por la matriz IAS(Hb) (versección 2.3). Reemplazar A(Hb) con A(Hnsb ˜v) tiene exactamente el mismoefecto sobre IAS(Hb) que la operación del tipo (c) del teorema 2.3. Esta

18

Page 28: Modelos combinatorios en ensamblamiento genético

2. Conceptos matemáticos fundamentales 19

operación es equivalente a un cambio de base haciendo un intercambioentre vffi y vffl (si v es un vértice con lazo) o entre vffi y v (si v es un vérticesin lazo) [91].

19

Page 29: Modelos combinatorios en ensamblamiento genético
Page 30: Modelos combinatorios en ensamblamiento genético

Capítulo 3

Modelo genético

3.1. Construcción del modelo

3.1.1. Estructura del ADN

Existen dos tipos de ácidos nucleicos: el desoxirribonucleico, ADN, y elribonucleico, ARN. Los ácidos nucleicos son las moléculas responsablesdel almacenamiento, expresión, y replicación de la información genética.Una cadena de ácido nucleico es un polímero de nucleótidos. Un nucleótidoestá formado por tres componentes: una pentosa, (20-desoxirribosa en elADN, ribosa en el ARN), un grupo fosfato (el cuál une a dos pentosassucesivas mediante enlaces fosfodiester entre el grupo 50-hidroxilo de laprimera y el grupo 30-hidroxilo de la siguiente) y una base nitrogenada(púrica o pirimidínica) (figura 3.1).

Figura 3.1: Bases nitrogenadas.Imagen tomada de [102].

Las bases púricas que componen los ácidos nucleicos son: Adenina (A) yGuanina (G). Las bases pirimidínicas son Citosina (C), Tiamina (T) y Úra-cilo (U). La Citosina está presente en ambos ácidos nucleicos, la Tiaminaúnicamente se encuentra en el ADN y el Úracilo en el ARN.

21

Page 31: Modelos combinatorios en ensamblamiento genético

22 3.1. Construcción del modelo

La molécula de ADN consta de dos cadenas antiparalelas enrolladas al-rededor de un mismo eje formando una doble hélice unida por enlaces dehidrógeno entre pares de bases púricas y pirimidínicas complementarias ypor interacciones hidrofóbicas. En los patrones de enlaces de hidrógenomás frecuentes (definidos por Watson y Crick [74]) A se une con T y G seune con C (figura 3.2).

Puentesde hidrógeno

3’

5’

5’

3’

Adenina Tiamina Citosina Guanina

AT

TA

GC

AT

TA

CG

TA

CG

GC

TA

AT

AT

CG

Figura 3.2: Enlaces de hidrógeno entre paresde bases complementarias en el ADN.

Durante la replicación del ADN una emzima rompe los enlaces de hidró-geno que unen a las cadenas sencillas de ADN y cada una de ellas puedeactuar como modelo para la reproducción de la cadena complementaria.La polaridad de una hebra es positiva si una versión del transcrito (ARN)de la misma secuencia es traducida a proteína (figura 3.3).

Cadenacodificadora

Cadenamolde

ARN

Transcrito (ARN)

3’

5’

5’

3’

A

AT

T

UA

G

GC

A

AT

T

UA

C

CG

T

UA

C

G

G

C

T

A

A

T

A

T

C

G

A U G A U C U C G U A A C

Figura 3.3: Transcripción.

El código genético se guarda en las secuencias de bases de cada cadenasencilla de la doble hélice. Estas secuencias se representan como palabrassobre el alfabeto de nucleótidos N = fA,C,G,Tg. El alfabeto N y la invo-lución ˛ : N 7! N forman un alfabeto complementario (subsección 2.5.1).La función ˛ modela la relación complementaria A`T, C`G de Watson yCrick [45,66,67].

˛(A) = T , ˛(T ) = A, y ˛(C) = G, ˛(G) = C

Sea N i el conjunto de palabras con i símbolos. Los codones son los elemen-tos del conjunto N 3 y contienen la codificación para aminoácidos específicos(ejemplo 6).

22

Page 32: Modelos combinatorios en ensamblamiento genético

3. Modelo genético 23

Ejemplo 6

A G C A C C

Figura 3.4: Codones.

El codón ACG codifica para el ami-noácido serina y el codón ACC co-difica para el aminoácido treonina(figura 3.4).

Un gen es un fragmento de cadena sencilla de ADN que codifica para unaproteína (en algunos casos para una molécula de ARN), identificado porun codón de inicio y un codón de término (figura 3.5). La orientación deun gen depende de la polaridad de la cadena sencilla a la que pertenece yde su posición dentro de la misma.

5’

3’

3’

5’

codón de inicioATG

codón de finalizaciónTAA,TGA,TAA

Regionescodificadoras

Regionesno codificadoras

Sitios decorte y empalme

Figura 3.5: Componentes estructurales del gen.

El ARN mensajero (mARN) codifica la secuencia de aminoácidos especifi-cada por un gen. Para que esta codificación se realice es necesario eliminarlas regiones que no especifican aminoácidos y ensamblar las regiones quecodifican para proteína. El proceso descrito es conocido como corte y em-palme (splicing) del mARN (figura 3.6).

corte y empalme

Regiones codificadoras

Regiones nocodificadoras

3’

5’

5’

3’

mARN

Figura 3.6: Corte y empalme del ARN mensajero.

El genoma eucariota es un conjunto de cromosomas lineales (figura 3.7).Dado un conjunto de genes, un cromosoma se define como un conjunto deadyacencias formado por pares de extremos de genes, donde cada gen estácontenido en exactamente una adyacencia.

23

Page 33: Modelos combinatorios en ensamblamiento genético

24 3.1. Construcción del modelo

cadenacodificadora

cadenamolde

3’

5’

5’

3’

gen+

gen+

gen-

Figura 3.7: Cromosoma lineal.

Los telómeros son ”cubiertas” de ADN especializado que protegen al cro-mosoma lineal del deterioro causado por la replicación. Los telómeros sonregiones compuestas por repeticiones de la misma secuencia corta de ADN,la cuál varía entre organismos, pero en seres humanos y otros mamíferoses 50`TTAGGG`30.

3.1.2. Problema del reordenamiento cromosómico

Sean Π y Γ los genomas de dos especies con un genoma ancestral común ˇ .Un bloque de sintenia es un segmento de información genética conservadode ˇ en Π y Γ (ejemplo 7) [76,78,81].

Ejemplo 7Cromosoma X ratón

Cromosoma X humano

1 -7 6 -10 9 -8 2 -11 -3 5 4

1 2 3 4 5 6 7 8 9 10 11

Figura 3.8: Bloques de sintenia del cromosoma X en ratones y en huma-nos.

Existe un conjunto de eventos evolutivos conocidos como reordenamientoscromosómicos (chromosomal rearrangements) que pueden convertir a Π enˇ y luego en Γ [72, 79]. Los reordenamientos cromosómicos tienen lugarpor un mecanismo conocido como recombinación homóloga, el cuál ocurreentre secuencias de ADN con segmentos idénticos de pares de bases [77].

(1) Los segmentos idénticos se alinean marcando los sitios de(1) corte, llamados puntos de rompimiento, en el cromosoma.

(2) Una enzima corta la estructura de doble hélice en los puntos(1) de rompimiento.

(3) El segmento separado se reordena.(4) Una enzima repara la ruptura.

24

Page 34: Modelos combinatorios en ensamblamiento genético

3. Modelo genético 25

Los reordenamientos cromosómicos preponderantes son la inversión, latransposición y la transposición invertida [72]. La presente tesis se enfocaen la inversión, la cuál produce una rotación de 180 grados en una regióndel cromosoma (ejemplo 8).

Ejemplo 8

Puntos derompimiento

GC

TA

CG

AT

TA

GC

AT

TA

CG

TA

CG

GC

TA

AT

AT

TA

GC

TA

CG

TA

TA

AT

CG

GC

AT

GC

AT

TA

CG

AT

TA

TA

GC

TA

CG

TA

TA

AT

CG

GC

AT

GC

AT

TA

CG

AT

TA

TA

Figura 3.9: Ejemplo del reordenamiento de inver-sión en un segmento de ADN.

Sean ı y ‚ un par de cromosomas con el mismo número de genes enlos genomas Π y Γ. La secuencia de reordenamientos cromosómicos quetransforma a ı en ‚ se conoce como escenario evolutivo. Un escenarioevolutivo puede constar de uno o más tipos de reordenamientos (ejemplos9 y 10).

Ejemplo 9Cromosoma X ratón

Cromosoma X humano

1 -7 6 -10 9 -8 2 -1 1 -3 5 4

1 -7 6 -10 9 -8 2 3 1 1 5 4

1 -7 6 -3 -2 8 -9 10 1 1 5 4

1 2 3 -6 7 8 -9 10 1 1 5 4

1 2 3 -6 -5 -1 1 -10 9 -8 -7 4

1 2 3 -6 -5 -4 7 8 -9 10 1 1

1 2 3 4 5 6 7 8 -9 10 1 1

1 2 3 4 5 6 7 8 9 10 1 1

Figura 3.10: Escenario evolutivo entre el cromosoma X enratones y en humanos.

La figura 3.10 muestra la secuencia de inversiones (marcadas enverde) que transforman el cromosoma X de ratones en el

25

Page 35: Modelos combinatorios en ensamblamiento genético

26 3.1. Construcción del modelo

cromosoma X humano.

Ejemplo 10

Inversión Translocación1,2,3,45,6,7,8

9,10,11

π

-3,-2,-1,45,6,7,89,10,11

-3,-2,-1,45,6,7,119,10,8

γ

Figura 3.11: Escenario evolutivo con unainversión y una transposición.

La longitud de un escenario evolutivo se correlaciona con la distancia evo-lutiva entre dos especies. El problema general del reordenamiento cromo-sómico consiste en la determinación de escenarios evolutivos de longitudmínima (parsimonia máxima).

Una permutación signada es una permutación donde cada elemento tieneasociado un signo (+,`). Las permutaciones signadas modelan el ordenrelativo en los bloques de sintenia, ya que reflejan la estructura de doblehélice del ADN [80]. Sean ı = (ı1, ...,ın) y ‚ = (‚1, ...,‚n) las permutacionessignadas que representan el orden y la orientación de los genes en loscromosomas ı y ‚. Al reasignar la etiqueta de cada gen i 2 ı podemosasumir que ‚ = « = (1, 2, ...,n), donde « denota a la permutación identidad.Así el problema general del reordenamiento cromosómico es equivalente aordenar ı con el número mínimo de reordenamientos permitidos.

3.1.3. Ensamblamiento genético en ciliados

Los ciliados (ciliophora) son organismos eucariotas unicelulares que or-denan su material genético mediante reordenamientos genómicos a granescala [41,46], lo que los convierte en organismos modelo para el análisisde la evolución molecular [61,63]. Los ciliados se caracterizan por la pre-sencia de dos núcleos, un macronúcleo (MAC) y un micronúcleo (MIC). ElMAC contiene al genoma transcripcionalmente activo y el genoma trans-cripcionalmente silente está contenido en el MIC.

Figura 3.12: Oxytricha trifallax, Paramecium tetraurelia, Tetrahymenathermophila.Imagen tomada de [103].

26

Page 36: Modelos combinatorios en ensamblamiento genético

3. Modelo genético 27

El micronúcleo está fragmentado en alrededor de 200,0001 segmentos co-dificadores conocidos como secuencias destinadas al macronúcleo (macro-molecular destined sequences, MDSs). Las secuencias internamente elimi-nadas (internally eliminated sequences, IESs) son regiones no codificadorasque interrumpen a los MDSs. El macronúcleo se constituye de nanocromo-somas del tamaño de un gen. El ensamblamiento genético consiste en elordenamiento de los segmentos codificadores mediante cortes y empalmeslo que produce genes transcripcionalmente competentes que se expresanen un nuevo MAC (figura 3.13).

3’

5’

5’

3’Eliminaciónde IESs

Ordenamiento einversión de MDSs

punteros

MDS2

MDS3 MDS4

MDS1 MDS2 MDS3 MDS4

MDS1

Figura 3.13: Ensamblamiento genético.

Las secuencias destinadas al macronúcleo pueden ser elementales o com-puestas. Un MDS elemental es un segmento codificador presente en laforma MIC. Los MDSs compuestos se producen durante el ensamblamien-to genético como resultado de cortes y empalmes de la molécula de ADN.Este proceso de rupturas y pegados se lleva a cabo por recombinaciónhomóloga entre pares de secuencias repetidas llamadas punteros. Los pun-teros son secuencias cortas de nucleótidos localizadas en los extremos delos MDSs elementales (exceptuando a los que se ubican en los extremosdel gen). La secuencia en el borde izquierdo se conoce como puntero deentrada y la secuencia en el borde derecho es llamada puntero de salida(ejemplo 11).

1Dependiendo de la especie [41].

27

Page 37: Modelos combinatorios en ensamblamiento genético

28 3.1. Construcción del modelo

Ejemplo 11

CG

TA

CG

CG

CG

AT

AT

GC

TA

CG

CG

AT

TA

GC

CG

CG

AT

GC

CG

CG

CG

CG

CG

AT

AT

AT

AT

CG

TA

CG

TA

AT

CG

TA

CG

CG

CG

AT

AT

GC

TA

CG

CG

AT

TA

GC

CG

CG

AT

GC

CG

CG

CG

CG

CG

AT

AT

AT

AT

CG

TA

CG

TA

AT

C T C C C C A A G T C C A T G C C A G C C C C C A A A A C T C T A

MDS7MDS5

MDS4 MDS6

MDS5 MDS7

MDS4 MDS7

Ensamblamiento

Figura 3.14: Ejemplo de ensamblamiento genético en el gen actina I delciliado Sterkiella nova.

La figura 3.14 muestra los punteros en los MDSs 4, 6, 5 y 7 delgen actina I. Notar los emparejamientos entre el puntero desalida del MDS4 y el puntero de entrada del MDS5, entre elpuntero de salida del MDS5 y el puntero de entrada del MDS6 yentre el puntero de salida del MDS6 y el puntero de entrada delMDS7.

3.1.4. Operaciones de ADN en ciliados

De acuerdo con el modelo intramolecular de ensamblamiento genéticopostulado en [46, 82, 83], los ciliados ordenan su ADN mediante tres ope-raciones irreversibles conocidas como: escisión de lazo (loop excision), re-combinación de doble lazo (double loop recombination) y recombinaciónde horquilla (haipin recombination).

Escisión de lazo

La escisión de lazo, elimina un segmento no codificador ubicado entre unpar de punteros consecutivos con la misma orientación.

Ejemplo 12MDS2 MDS3IES

TA

CG

GC

AT

TA

CG

GC

GC

AT

CG

AT

TA

TA

TA

CG

AT

CG

AT

TA

TA

TA

CG

GC

AT

TA

CG

TA

AT

GC

GC

TA

Figura 3.15: Segmento del gen ˛TP en el ciliado Sterkie-lla histriomuscorum.

La figura 3.15 muestra una región del gen ˛TP con el punterode salida del MDS2 y el puntero de entrada del MDS3 en el

28

Page 38: Modelos combinatorios en ensamblamiento genético

3. Modelo genético 29

Sterkiella histriomuscorum. La molécula de ADN se pliegaalineando el par de punteros (figura 3.16) y se lleva a cabo larecombinación homóloga (figura 3.17). Como resultado el IESes eliminado como una molécula circular y los fragmentosMDS2 y MDS3 quedan unidos (figura 3.18).

MDS2P2

P2 MDS3

IES

Figura 3.16: Plegamiento molecular en laescisión de lazo.

MDS2

MDS3

IES

Figura 3.17: Recombinación homóloga.

MDS2 P MDS3

P

IES

Figura 3.18: Eliminación de ADN no gené-tico.

Recombinación de doble lazo

P3MDS4P4

P4

P5

P5

IES2

MDS6P6

IES 3 M

DS5

IES4

Figura 3.19: Recombinación de doble lazo.

La recombinación de doble la-zo, (double loop recombina-tion), es aplicable a una mo-lécula de ADN con dos pa-res de punteros que delimi-tan regiones superpuestas. Lamolécula se pliega en dos la-zos alineando los dos pares depunteros y este doble plegla-miento intercambia las posi-ciones de las regiones trasla-padas (figura 3.19).

Recombinación de horquilla

La recombinación de horquilla (hairpin recombination) invierte el orden yla orientación de una región del gen y ocurre entre pares de repeticionescon orientación opuesta (ejemplo 13).

29

Page 39: Modelos combinatorios en ensamblamiento genético

30 3.1. Construcción del modelo

Ejemplo 13

P2 MDS2 P1

IES7IES6 MDS1P1 IES8

Segmentos MDS1 y MDS2 en la formamicronuclear.

I8P1MDS1

P1MDS2P2 I6

I 7

La molécula se pliega en forma de hor-quilla alineando los punteros.

I8P1 P1

P1 P1 MDS2P2 I6

MD

S1

I7

El segmento separado es invertido.

P1 I8

P1MDS2 I6P2MDS1

I7

Los MDSs quedan ordenados.

Figura 3.20: Ejemplo de recombinación de horquilla en elgen Actina I del ciliado Sterkiella Nova.

La recombinación de horquilla y el reordenamiento de inversión se puedenver como operaciones análogas que actúan en distintos niveles molecula-res [61, 63]. Sin embargo es importante recordar que la recombinación dehorquilla es un evento irreversible.

3.1.5. Secuencias MDS

Un gen compuesto por k– 1 segmentos codificadores es representable comouna palabra sobre el alfabeto de MDSs —k = fMi,j : 1 » i » j » kg. Dondeel símbolo Mi,i (o simplemente Mi) abstrae a un MDS elemental y lossímbolos Mi,j para j > i abstraen MDSs compuestos. Las palabras sobre —kson llamadas secuencias MDS y se denotarán con la letra #. Toda # 2 —˜kpuede ser modelada por una permutación signada $.

Ejemplo 14

Consideremos la secuencia # =M3M4M6M5M7M9M2M1M8

correspondiente al gen Actina I del ciliado SterkiellaNova. La inversión del segmento MDS2 se indica con M2.# es representada por la permutación $ = (3, 4, 6, 5, 7, 9,`2, 1, 8).

30

Page 40: Modelos combinatorios en ensamblamiento genético

3. Modelo genético 31

Sea ı = (ı1, ...,ın) un cromosoma con n genes y sea $ = ($(i)1, ...,$(i)ki ). ki elnúmero de segmentos codificadores en el iésimo gen de ı. El ensamblamientogenético definido en la subsección 3.1.3 es la transformación $! «.

3.2. Permutaciones. Inversiones orientadas yno orientadas

3.2.1. Distancia de inversión

Sea ı = (ı1, ...,ın) un cromosoma 1» i» j » n. Una inversión (i,j) reordenalos genes dentro del cromosoma ı = (ı1, ...,ıi`1,ıi, ...,ıj,ıj+1, ...,ın) y trans-forma a ı en el cromosoma (ı1, ...,ıi`1,`ıj, ...,`ıi,ıj+1, ...,ın). El problemade la distancia de inversión consiste en determinar la secuencia de inversio-nes 1, ...,dr de longitud mínima que que convierta a ı en «. El valor óptimode la solución dr se conoce como la de la distancia de inversión de ı y sedenota como dr(ı,«) [40, 59].

3.2.2. Representación de un cromosoma lineal

En teoría de inversiones, los telómeros de un cromosoma lineal son repre-sentados por los elementos 0 y n+ 1, tal que ı = (0,ı1, ...,ın,n+ 1). Se diceque ı es una permutación signada y enmarcada.

3.2.3. Inversiones orientadas

Un par orientado (ıi,ıj), i < j es un par de enteros consecutivos, con signosopuestos que cumplen jıij` jıjj = ˚1. Los pares orientados representan pa-res de bases púricas y pirimidínicas complementarias. Un par (ıi,ıj) puedeinducir dos tipos de inversión:

Si ıi+ıj = +1 entonces (i,j`1) (10)

Si ıi+ıj =`1 entonces (i+1,j) (11)

Los pares orientados indican inversiones que producen elementos consecu-tivos que a su vez son enteros consecutivos. Una inversión orientada es unainversión inducida por un par orientado [5, 80].

Ejemplo 15

Sea ıratón = (0, 1,`7, 6,`10, 9,`8, 2,`11,`3, 5, 4, 12) lapermutación que describe el orden relativo de los genes en elcromosoma X del ratón. Inicialmente, los pares orientados enıratón son (`7, 6), (`10, 9), (9,`8), (2,`3) y (`3, 4). El par (2,`3)

induce una inversión del tipo (11).

31

Page 41: Modelos combinatorios en ensamblamiento genético

323.2. Permutaciones. Inversiones orientadas y

no orientadas

ıratón(2,`3) = (0, 1,`7, 6,`10, 9,`8, 2, 3, 11, 5, 4, 12)

La cuál produce un nuevo par orientado (`10, 11), las inversionesorientadas no necesariamente crean nuevos pares orientadoscomo se verificará más adelante.

3.2.4. Obstáculos

Supongamos que ı es una permutación signada y enmarcada cuyos elemen-tos son todos positivos y no consecutivos. Consideremos un orden circular(inducido al fijar 0 como el sucesor de n+1) en ı. Un intervalo enmarcadoen ı, es un intervalo de la forma i,ıj+1,ıj+2, ...,ıj+k`1, i+ k. Tal que todoslos enteros entre i e i+k pertenecen al intervalo [i, ..., i+k]. Un obstáculoen ı es un intervalo enmarcado que no contiene un intervalo enmarcadomás corto [5, 96].

3.2.5. Inversiones no orientadas

Los obstáculos en ı se eliminan con dos tipos de inversión no orientada: lainversión de corte (cut reversal) y la inversión de fusión (merge reversal).Ambas operaciones son inducidas por pares no orientados en ı. La inversiónde corte invierte el segmento entre i e i+1 de un obstáculo i,ıj+1,ıj+2, ..., i+

1, ...,ıj+k`1, i+k.

Ejemplo 16

Sea ı = (0, 3, 4, 6, 5, 7,9,`2, 1, 8, 10) la representación comocromosoma lineal del gen MIC en el ejemplo (14). El únicoobstáculo de ı se marca con azul en (12).

ı =(0, 3, 4, 6, 5, 7, 9,`2, 1, 8, 10) (12)

Al invertir el segmento entre i = 4 e i+1 = 5 se obtiene lasecuencia en (13) ,

ı = (0, 3, 4,`6, 5, 7, 9,`2, 1, 8, 10) (13)

La inversión de fusión invierte el intervalo cuyos extremos i+k e i0, son lospuntos finales de dos obstáculos diferentes i, ..., i+k, ..., i0, ..., i0+k0.

Ejemplo 17

Consideremos la permutación ı1 = (0, 2, 4, 6, 5, 7,9, 8, 10, 3, 11, 1, 12).La fusión de los obstáculos 7, 9, 8, 10 y 11, 1, 12, 0, 2 se muestra en(14).

32

Page 42: Modelos combinatorios en ensamblamiento genético

3. Modelo genético 33

ı1(10,11) =(0, 2, 4, 6, 5, 7, 9, 8,`11,`3,`10, 1, 12) (14)

ı1 contiene además el obstáculo 4, 6, 5, 7 el cuál se elimina conla inversión de corte ilustrada en el ejemplo 16.

3.3. Gráfica de punto de rompimiento

Los puntos de rompimiento descritos en la subsección 3.1.2 permiten com-parar la posición de los bloques de sintenia (genes) entre pares de cromo-somas. El primer paso para identificar tales puntos es aplicar la transfor-mación T1 : ı 7! ı0, la cuál convierte a la permutación signada ı de ordenn en la permutación no signada ı0 en (15) conocida como la imagen deı [3].

ı0 = (ı0

0, ...,ı0

2n`1) (15)

Cada gen i2 ı es representado en ı0 por sus extremos 50 y 30 (ver subsección3.1.1) de acuerdo a las asignaciones en (16) y (17):

i! (2i`1, 2i) si i > 0 (16)

i! (2i, 2i`1) si i < 0 (17)

La permutación no signada ı0 modela la estructura de doble hélice dela molécula de ADN ya que los elementos 2i y 2i` 1 corresponden a losextremos 50 y 30 del gen. Los elementos 0 y n+ 1 en ı asociados con lostelómeros del cromosoma lineal (ver subsección 3.2.2) son representadospor ı00 = 0 y ı02n`1 = 2n`1.

Ejemplo 18

ı0 =(0ı0

0

, 5ı0

1

, 6ı0

2

, 7ı0

3

, 8ı0

4

, 11ı0

5

, 12ı0

6

, 9ı0

7

, 10ı0

8

, 13ı0

9

, 14ı0

10

, 17ı0

11

, 18ı0

12

, 4ı0

13

, 3ı0

14

, 1ı0

15

, 2ı0

16

, 15ı0

17

, 16ı0

18

, 19ı0

19

)

Imagen de la permutación signada ı del ejemplo 16.

La gráfica de punto de rompimiento de ı0 es una gráfica bicoloreada,BG(ı0) = (V ,ER,EA), donde el conjunto V está compuesto por los elementosde ı0. El conjunto de aristas rojas, ER, representa las adyacencias en ı y elconjunto de aristas azules, EA, codifica las adyacencias en en «. Cada aristaen ER es de la forma (ı02i,ı

02i+1), mientras que las aristas en EA conectan

a los pares (2i, 2i+ 1) 8i 2 f0, ...,ng. Todos los vértices de BG(ı0) tienen elmismo número de aristas incidentes de ER y de EA, por lo tanto jERj = jEAj.

Un ciclo alternante en BG(ı0) es una secuencia de aristas r1,a1,r2,a2, ...,rm,am

donde ri 2 ER y ai 2 EA para i 2 f1, ...,mg; ri y aj inciden en un vértice común

33

Page 43: Modelos combinatorios en ensamblamiento genético

34 3.3. Gráfica de punto de rompimiento

para i = j 2 f1, ...,mg y para i = j + 1 2 f1, ...,mg [40]. Una partición de BG(ı)

en ciclos alternantes, es una partición tal que cada arista de BG(ı0) estácontenida en exactamente un ciclo de la partición. La cardinalidad de unapartición es el número de ciclos que aparecen en BG(ı0), se denotará conc(ı). Una partición de máxima cardinalidad es óptima. Los ciclos trivialescontienen exactamente una arista roja y una arista azul, mientras que losciclos largos se componen de al menos cuatro aristas alternantes. Se diceque ı está ordenada si todos los ciclos en BG(ı0) son triviales.

Ejemplo 19

05

π′0π′16π′27π′38

11π′4π′5

129 π′6π′71013

π′8π′9

1417π′10

π′11

184

π′12

π′133π′141π′15

2π′1615π′17 16 19

π′18π′19

056

7

811

1291013

1417

18

43

12

1516 19

C3

C2

C1

Figura 3.21: Gráfica de punto de rompimiento de la permutación nosignada del del ejemplo 18.

Las figuras en 18 ilustran la gráfica BG(ı0). La figura de laderecha está coloreada de manera que los ciclos se distinganmás claramente. La partición de BG(ı0) está compuesta por unciclo trivial C1 = (6, 7), (7, 6) y dos ciclos largos:C2 =(8, 11), (11, 10), (10, 13), (13, 12), (12, 9), (9, 8) y

C3 =(14, 17), (17, 16), (16, 19), (19, 18), (18, 4), (4, 5), (5, 0), (0, 1), (1, 3), (3, 2),

(2, 15), (15, 14)

3.3.1. Inversiones en BG(ı0)

Toda inversión en la permutación signada ı tiene una correspondencia únicacon una inversión en la permutación imagen ı0 [4,56]. Las inversiones (i,j)en ı se simulan con inversiones no signadas (2i` 1, 2j) en ı0. Se dice queuna inversión (i,j) actúa sobre una arista azul a, si a incide con dos aristasrojas (ı0i`1,ı0i) y (ı0j,ı

0j+1). Si las dos aristas rojas pertenecen al mismo ciclo

C se dice que actúa sobre C. Es importante notar que si una inversión(i,j) actúa sobre una arista azul a = (ı0k,ı0l), entonces cualquier elemento(distinto de ı0i,ı

0j,pi

0k,ı0l) está contenido en el intervalo [i,j], si y sólo si

está contenido en el intervalo [k, l]. Una inversión propia en ı0 se definecomo una inversión que incrementa en 1 el parámetro c(ı) [25,56–59]. Lasinversiones propias en ı0 corresponden a las inversiones orientadas sobre ıdefinidas en la subsección 3.2.3.

34

Page 44: Modelos combinatorios en ensamblamiento genético

3. Modelo genético 35

Una arista azul es orientada si la inversión que actúa sobre ella es unainversión propia y no orientada en otro caso. Dos aristas azules (ı0a,ı0b) y(ı0c,ı

0d) se intersecan si a < c < b < d. Dos ciclos se intersecan si contienen

aristas azules intersecantes. Un ciclo es orientado si contiene al menos unaarista orientada y no orientado en otro caso. Una componente conexa deBG(ı0) se define como un conjunto de ciclos intersecantes. Una componentees orientada si contiene al menos un ciclo orientado y no orientada en otrocaso [56].

Ejemplo 20

ı0ratón =(0ı0

0

, 1ı0

1

, 2ı0

2

, 14ı0

3

, 13ı0

4

, 11ı0

5

, 12ı0

6

, 20ı0

7

, 19ı0

8

, 17ı0

9

, 18ı0

10

, 16ı0

11

, 15ı0

12

, 3ı0

13

, 4ı0

14

, 22ı0

15

, 21ı0

16

, 6ı0

17

, 5ı0

18

, 9ı0

19

, 10ı0

20

,

7ı0

21

, 8ı0

22

, 23ı0

23

)

Imagen de la permutación signada ıratón del ejemplo 15.

0π′0

1π′1

2π′214π′313π′411π′512π′6

20π′719π′8

17π′9

18π′10

16π′11

15π′12

3π′13

4π′14

22π′15

21π′16

6π′175π′189π′1910π′20 7

π′218π′22

23π′23

A

B

D

Figura 3.22:Componentes enBG(ı

0ratón).

01

2

14131112

201917181615

34

222165

910

7 8 23

C3

C4

C5C2

C1

Figura 3.23:Ciclos enBG(ı

0ratón).

01

2

14131112

201917181615

34

562122

910

7 8 23

Figura 3.24: Inversión orienta-da en BG(ı

0ratón).

Las componentes A y B de BG(ı0

ratón) son componentes orientadasya que contienen a los ciclos C2, C4 y C5. La gráfica en 3.24muestra el efecto de la inversión sobre la arista orientada f4, 5g.

Teorema 3.1 (Bafna y Pevzner 1996, [3]). Sea ı una permutación signadacon n elementos:

dr(ı,«)– jERj` c(ı)

La cota inferior jERj` c(ı) proporciona el número de inversiones orientadasque ordenan una permutación ı. Las permutaciones que alcanzan la cotainferior definida en 3.1 son permutaciones sin obstáculos.

35

Page 45: Modelos combinatorios en ensamblamiento genético

36 3.3. Gráfica de punto de rompimiento

Ejemplo 21

Retomando la permutación signada ıratón del ejemplo 15 y lapermutación no signada ı0ratón en el ejemplo 20, se tiene quedrratón (ıratón,«) = 12`5 = 7.

3.3.2. Modelo de programación lineal entera

En la modelación que se describe a continuación ni la permutación nila secuencia de inversiones de la solución al problema de la distanciade inversion son vistas de forma directa como variables y/o restriccionesdel modelo. La programación lineal entera es usada para determinar lasolución del problema consistente en determinar el número de ciclos en unapartición de máxima cardinalidad de BG(ı0). La solución de este problemaproduce una cota ajustada sobre dr(ı,«) [40,73]. Sea C el conjunto de ciclosalternantes de BG(ı0). Para cada C 2 C se define la variable de decisión xC.

m«axXC2C

xC (18)

s.a.XC3e

xC » 1, e 2 ER[EA (19)

xC 2 f0, 1g, C 2 C (20)

La restricción (19) asegura que cada arista e 2 ER[EA este contenida comomáximo un en un ciclo C tal que xC = 1. En una solución óptima x˜ de (18)-(20), el conjunto de ciclos C tal que x˜C = 1 forma una descomposición decardinalidad máxima.

Se puede obtener una cota inferior válida c˜(ı) sobre c(ı) resolviendo larelajación del problema de programación lineal (18)-(20), obtenida reem-plazando la restricción (20) con:

xC – 0, C 2 C (21)

En el modelo definido por (18), (19) y (21), xC » 1 se implica trivialmente.El dual del problema de programación lineal (18),(19) y (21) se lee

m«“nX

e2ER[EA

ye (22)

s.a.Xe2C

ye – 1, C 2 C (23)

Donde cada variable ye, e 2 ER [EA no tiene restricción de signo. Resolverla relajación del problema de programación lineal (18),(19) y (21) implicala resolución de un problema de programación lineal con jER [EAj = O(n)

36

Page 46: Modelos combinatorios en ensamblamiento genético

3. Modelo genético 37

restricciones y jCj = O(2n) variables. En [73] Lancia et. al., resuelven elproblema en tiempo polinomial mediante el uso de un algoritmo de rami-ficación y acotamiento.

3.3.3. Obstáculos en la gráfica de punto de rompimiento

Sea L una componente conexa de BG(ı0), las posiciones en los extremosizquierdo y derecho de L se definen en (24):

Lm«“n = m«“nC2L

m«“nıi2C

y Lm«ax = m«axC2L

m«axıi2C

(24)

Una componente L separa a las componentes L0 y L00 si existe una arista(ıi,ıj) 2 L tal que el intervalo [L

0

mín,L0

máx] esté contenido en el intervalo [i,j]

pero el intervalo [L00

mín,L00

máx] no esté contenido en el intervalo [i,j]. Un obs-táculo es una componente no orientada que no separa a otras componentesno orientadas.

Ejemplo 22

La figura 3.25 ilustra la gráfica de punto de rompimientoasociada a la permutación signada del ejemplo 17.Consideremos la arista fı02,ı017g = (4, 5) en la componente A,las posiciones en los extremos de B y D son respectivamen-te (ı020,ı01) y (ı010,ı015), tal que Bmín = 20, Bmáx = 1 y Dmín = 10,Dmáx = 15. La componente A separa a las componentes B yD ya que [10,15] está contenido en [12,17] en tanto que [20,1]

no lo está.

π′00 π

′13

π′24π

′37

π′48

π′5

11

π′6

12

π′7

9

π′8

10

π′9

13π

′10

14π

′11

17π

′12

1815

π′13

π′1416

π′1519

π′1620

π′175

π′186

π′1921

π′2022

π′211

π′22

′23

23

B

A

FD

Figura 3.25: Obstáculos en la gráfica de punto de rompimiento.

En la subsección 3.2.4 un obstáculo se definió como un intervalo enmarcadoque no contiene un intervalo enmarcado más pequeño.

37

Page 47: Modelos combinatorios en ensamblamiento genético

38 3.3. Gráfica de punto de rompimiento

Lema 3.1 (Bergeron 2005, [5]). Los intervalos enmarcados de la forma[i, i+k] en una permutación signada ı tienen una correspondencia uno auno con los intervalos enmarcados de la forma [2i, 2(i+k)`1] en lapermutación imagen ı0.

Los extremos de un intervalo enmarcado [i, i+ k] corresponden respectiva-mente a los pares 2i`1, 2i y 2(i+k)`1, 2(i+k). Todos los elementos entre ie i+k ocurren en el intervalo [i, i+k] si y sólo si todos los elementos entre2i y 2(i+k)`1 aparecen en el intervalo [2i, 2(i+k)`1]. Si [2i, 2(i+k)`1] es unobstáculo entonces contiene exactamente los enteros entre 2i y 2(i+k)`1,tal que las únicas aristas azules en este intervalo son: (2i, 2i+1), (2i+2, 2i+3),

..., (2(i+k)`2, 2(i+k)`1 y ninguna otra arista azul interseca este conjunto.

3.3.4. Eliminación de obstáculos en BG(ı0)

La inversión de corte definida en la sección 3.2.5 invierte el segmento entre2iy 2i+ 1 contenido en el intervalo [2i, 2(i+k)`1], esto es, actúa dentro deun mismo ciclo C. Esta operación no altera el parámetro c(ı) (ejemplo 23).

Ejemplo 23

05678

1211

9101314

171843

12

1516 19

C1

C2

C3

KM

N

Figura 3.26: Inversión de corte en lagráfica de punto de rompimiento.

La inversión de corte sobreBG(ı0) mostrada en la figura3.26 corresponde al corte deobstáculo en del ejemplo 16.

La inversión de fusión, (i+k, i0) une los extremos de dos obstáculos separa-dos por una componente no orientada produciendo una nueva componenteorientada y disminuyendo en 1 el parámetro c(ı) (ejemplo 24).

38

Page 48: Modelos combinatorios en ensamblamiento genético

3. Modelo genético 39

Ejemplo 24

8

11

12

910

13

03

1415

17

16

21

6520 4

7

19

18

1 2

22

03

DABF

C3

C1

C3

Figura 3.27: Inversión de fusión.

La inversión (19, 22) fusionalas componentes noorientadas B, D y A de lagráfica en el ejemplo 22.

Un súper obstáculo es un obstáculo cuya eliminación crea nuevos obs-táculos. Sea ı una permutación signada. Se dice que ı es una fortaleza(fortress), si tiene un número impar de obstáculos y todos ellos son súperobstáculos. Así podemos definir la variable booleana f(ı):

f(ı) =

8<:1 Si ı es una fortaleza

0 En otro caso

Sea h(ı) el número de obstáculos en la permutación signada ı. El teorema3.2 proporciona una ecuación exacta para la distancia de inversión.

Teorema 3.2 (Hannenhalli y Pevzner, 1999 [56]). Para cualquierpermutación signada ı:

dr(ı,«) = jERj` c(ı) +h(ı) + f(ı)

Ejemplo 25

De acuerdo con el teorema 3.2, la distancia de inversión para laspermutaciones signadas ı y ı1 de los ejemplos 16 y 17 es:

dr(ı,«) =10`3+1 = 8

dr(ı1,«) =12`4+3 = 11

3.4. Gráfica Hb(ı0)

Sea ı0 la imagen de una permutación signada ı bajo T1. La gráfica Hb(ı0)

se define como la gráfica donde cada arista de BG(ı0) es representada conun vértice y dos vértices son adyacentes si las cuerdas correspondientes seintersecan en la gráfica de punto de rompimiento. Los vértices orientados deHb(ı0), corresponden a las aristas orientadas de BG(ı0). En esta tesis se defineHb(ı0) como una gráfica simple (V ,E) con lazos permitidos, cuya matriz deadyacencia es una matriz simétrica con entradas en GF (2). En [5,43,56,57],

39

Page 49: Modelos combinatorios en ensamblamiento genético

40 3.4. Gráfica Hb(ı0)

Hb(ı0), se define como una gráfica simple bicoloreada H = (V ,E,c), donde el2-coloreo c : V 7! f0, 1g de sus vértices, codifica su orientación [52].

Ejemplo 26

4,5 8,9

14,15

6,7

18,19 16,17

2,3 0,1

10,11

12,13

Figura 3.28: Gráfica Hb(ı0).

Gráfica de intersecciónasociada a la permutaciónno signada ı0 del ejemplo18.

3.4.1. Complementación local e inversiones

La inversión correspondiente a un vértice orientado v de Hb(ı0) se definecomo la complementación local no simple sobre la vecindad cerrada dev [5,26]. Esta operación, denotada como Hinvb (ı0)˜v en la subsección 2.5.5,convierte a v en un vértice aislado, ya que los pares orientados indicaninversiones que producen elementos consecutivos que a su vez son enterosconsecutivos (ejemplo 27).

Ejemplo 27

4,5 8,9

14,15

6,7

18,19 16,17

2,3 0,1

10,11

12,13

Figura 3.29: Inversión en Hb(ı0).

Inversión sobre el vértice(4, 5) en la gráfica Hb(ı0) enel ejemplo (26).

Una componente conexa de Hb(ı0) es orientada si al menos uno de susvértices es un vértice con lazo y no orientada en otro caso. Una inversiónsegura es una inversión que no crea nuevas componentes no orientadas, conexcepción de los vértices aislados.

40

Page 50: Modelos combinatorios en ensamblamiento genético

3. Modelo genético 41

3.4.2. Diagrama cordal

La gráfica BG(ı0) puede representarse de manera lineal o circular [1] (ejem-plo 28).

Ejemplo 28

0 5 6 7 8 11 12 9 10 13 14 17 18 4 3 1 2 15 16 19

Figura 3.30: Representación lineal de la gráfica en el ejemplo (19).

La representación circular de BG(ı0) es un diagrama cordal, donde las cuer-das son las aristas azules y las aristas rojas se encuentran sobre la circun-ferencia del diagrama. BG(ı0) tiene asociada su gráfica de intersección (versubsección 2.5.2), que en este contexto se denotará como Hb(ı0).

Sea ı0 la imagen de una permutación signada y enmarcada ı. Se considerala inversa de la transformación T1 definida en la sección 3.3, sea esta T`1

1 .Las cuerdas unen enteros consecutivos empezando por el (0, 1) y T

`11 se

define asignando la etiqueta (d2 ) a los extremos (d,d+1) de cada cuerda.

(d,d+1) 7! (d

2,d

2, ) (25)

La aplicación de la transformación en (25) permite recobrar ı de ı0 yasí etiquetar las cuerdas de la gráfica BG(ı0) con las etiquetas de ı. Dela misma manera se recobra la palabra de doble ocurrencia relativa aldiagrama de cuerdas, como se ilustra en el ejemplo 29.

41

Page 51: Modelos combinatorios en ensamblamiento genético

42 3.4. Gráfica Hb(ı0)

Ejemplo 29

Consideremos la permutación no signada del ejemplo 18.

(d,d+1) (d2 , d2 )

(0, 1) (0, 0)

(2, 3) (1, 1)

(4, 5) (2, 2)

(6, 7) (3, 3)

(8, 9) (4, 4)

(10, 11) (5, 5)

(12, 13) (6, 6)

(14, 15) (7, 7)

(16, 17) (8, 8)

(18, 19) (9, 9)

0

02

2

3

34

4

5

56

67

7

8

8

9

9

1

1

2 4

7

3

9 8

1 0

5

6Figura 3.31: Ejemplo de aplicación de la transformación en (25).

Sea (v1, ....,vk) una secuencia de vértices distintos de Hb(ı0) y sea ’= (˜invv1, ....,invvk) una secuencia de inversiones aplicables sobre (v1, ....,vk) (la asocia-tividad de ˜invv es de izquierda a derecha). ’ es una secuencia óptima sitodos los vértices en la gráfica Hb(ı0)’ son aislados y no orientados.

Ejemplo 30

5

3 11198

2 10

4 6

7

00

Figura 3.32: H(ı0ratón).

La figura en 3.32 muestrala gráfica de intersecciónasociada a la permutacióndel ejemplo 20. Las gráfi-cas en la figura 3.33 pre-sentan la aplicación de lasecuencia en (26) sobre lagráfica H(ı0ratón).

’ =(˜invv6,˜invv5,˜invv4,˜invv2,

˜inv v3,˜invv8,˜invv1) (26)

42

Page 52: Modelos combinatorios en ensamblamiento genético

3. Modelo genético 43

5

3 11198

2 10

4 6

7

00

Inversión sobre v6.

5

3 11198

2 10

4 6

7

00

Inversión sobre v5.

5

3 11198

2 10

4 6

7

00

Inversión sobre v4.

5

3 11198

2 10

4 6

7

00

Inversión sobre v2.

53

1

10

98

2 114 6

7

0

Inversión sobre v3.

53

1

8 11102 94 6

7

0

Inversión sobre v8.

0 1 2 3 4 6 8 111095 7Inversión sobre v1.

Figura 3.33: Ejemplo de secuencia óptima.

3.4.3. Matriz de intersección

Sea A(Hb(ı0)) la matriz de adyacencia de Hb(ı0) y sea r(A(Hb(ı0))) el rangode A(Hb(ı0)). El resultado en 3.1 aparece en [43], (Corolario 4) y en [26],(Corolario 12).

Corolario 3.1. El número de vértices en cualquier secuencia orientadaóptima para una gráfica Hb depende únicamente de Hb y es igual a r(A(Hb)).

Tal que en términos de matrices simétricas (antisimétricas), la cota inferiordel teorema 3.1 se define en el teorema 3.3.

Teorema 3.3 (Brijder 2017, [26]). Para toda permutación signada ı:

dr(ı,«)– r(A(Hb))

43

Page 53: Modelos combinatorios en ensamblamiento genético

44 3.4. Gráfica Hb(ı0)

Ejemplo 31

4

65 8

7

93

2

10 11

01

Figura 3.34: Gráfica de intersección asociada a la permutación ı1 delejemplo 17.

Sea A(Hb(ı0)) en (27) la matriz de adyacencia de la gráficaen el extremo derecho de la figura 3.31 en el ejemplo 29 ysea A(Hb(ı01)) en (28) la matriz de adyacencia de la gráficaHb(ı

01) en 3.34. Se tiene que la matriz A(Hb(ı0)) es simétrica

y r(A(Hb(ı0))) = 7 mientras que A(Hb(ı01)) es antisimétrica yr(A(Hb(ı

01))) = 8. Tal que dr(ı,«)– 7 y dr(ı1,«)– 8.

A(Hb(ı0)) =

26666666666666666666666664

0 1 2 3 4 5 6 7 8 9

0 0 1 0 0 0 0 0 1 1 1

1 1 1 0 0 0 0 0 0 0 0

2 0 0 1 0 0 0 0 1 1 1

3 0 0 0 0 0 0 0 0 0 0

4 0 0 0 0 0 1 1 0 0 0

5 0 0 0 0 1 0 1 0 0 0

6 0 0 0 0 1 1 0 0 0 0

7 1 0 1 0 0 0 0 0 1 1

8 1 0 1 0 0 0 0 1 0 1

9 1 0 1 0 0 0 0 1 1 0

37777777777777777777777775(27)

A(Hb(ı01)) =

266666666666666666666666666666664

0 1 2 3 4 5 6 7 8 9 10 11

0 0 1 0 0 0 0 0 0 0 0 0 1

1 1 0 0 0 0 0 0 0 0 0 0 1

2 0 0 0 1 0 0 0 0 0 0 1 0

3 0 0 1 0 0 0 0 0 0 0 1 0

4 0 0 0 0 0 1 1 0 0 0 0 0

5 0 0 0 0 1 0 1 0 0 0 0 0

6 0 0 0 0 1 1 0 0 0 0 0 0

7 0 0 0 0 0 0 0 0 1 1 0 0

8 0 0 0 0 0 0 0 1 0 1 0 0

9 0 0 0 0 0 0 0 1 1 0 0 0

10 0 0 1 1 0 0 0 0 0 0 0 0

11 1 1 0 0 0 0 0 0 0 0 0 0

377777777777777777777777777777775(28)

Las submatrices principales correspondientes a obstáculos en la gráfica deintersección son matrices antisimétricas de tamaño impar y por consecuen-cia no son invertibles.

3.4.4. Complemento local modificado de M

Sean Hb una gráfica y M una V ˆ V -matriz cuyas filas y columnas estánetiquetadas por V (Hb). Sea v un vértice de Hb, la matriz M queda expresadaen (29).

M =

264dvv 1 2

»1 M11 M12

»2 M21 M22

375 (29)

La primer fila y la primer columna de M corresponden a v, las filas y co-lumnas de M11 corresponden a los vértices en n(v) mientras que las filas y

44

Page 54: Modelos combinatorios en ensamblamiento genético

3. Modelo genético 45

columnas de M22 se asignan a los vértices en V (Hb)`n(v)`fvg. El comple-mento local modificado de M con respecto a v, es la matriz Mv

mod en (30)obtenida de M al sumar la fila de v a toda fila correspondiente a un vecinode v [94].

Mvmod =

264dvv 1 2

»10 M0

11 M0

12»2 M21 M22

375 (30)

Sea X „ V el subconjunto X = fi, .., i+1g que induce una matriz antisimétricay singular A(Hıb )[X ]. La inversión de corte descrita en las subsecciones 3.2.5y 3.3.3 corresponde al complemento local modificado de la subgráficainducida por X, donde el vértice vi corresponde al elemento i 2 X.

Ejemplo 32

Consideremos la matriz A(Hb(ı0)) en (27) del ejemplo 31 y elsubconjunto X = f4, 5, 6g 2 V . La submatriz A(Hb(ı0))[X ]v4

mod semuestra en (31).

A(Hb(ı0)[X ]v4

mod =

266644 5 6

4 0 1 1

5 1 1 0

6 1 0 1

37775(31)

A(Hb(ı0)) =

26666666666666666666666664

0 1 2 3 4 5 6 7 8 9

0 0 1 0 0 0 0 0 1 1 1

1 1 1 0 0 0 0 0 0 0 0

2 0 0 1 0 0 0 0 1 1 1

3 0 0 0 0 0 0 0 0 0 0

4 0 0 0 0 0 1 1 0 0 0

5 0 0 0 0 1 1 0 0 0 0

6 0 0 0 0 1 0 1 0 0 0

7 1 0 1 0 0 0 0 0 1 1

8 1 0 1 0 0 0 0 1 0 1

9 1 0 1 0 0 0 0 1 1 0

37777777777777777777777775(32)

Observemos que las matrices en (27) y en (32) tienen elmismo rango. Esto se debe a que el complemento localmodificado no altera el parámetro c(ı) lo que es congruentecon la definición de inversión de corte dada en la subsección3.3.4.

45

Page 55: Modelos combinatorios en ensamblamiento genético

463.5. Paseos Eulerianos en multigráficas

4-regulares

3.5. Paseos Eulerianos en multigráficas4-regulares

3.5.1. Multigráfica 4-regular asociada a una permutaciónsignada

Hasta ahora, la permutación signada y enmarcada ı ha representado, in-distintamente, el orden de los genes en un cromosoma lineal y el orden delos fragmentos MDS en un gen micronuclear. Se ha establecido una corres-pondencia directa entre los punteros (también llamados puntos de recom-binación), descritos en la subsección 3.1.3, con los elementos (ı02i,ı

02i+1) de

la transformación T1 (sección 3.3). Para continuar con está línea y comoprimer paso en la construcción de la multigráfica 4-regular Gı asociadaa una permutación signada ı, se hará la modificación mostrada en (33)y (34) a la notación de (16) y (17). Sea ı una permutación signada yenmarcada,

i! ((i`1)b, ia) si i > 0 (33)

i! (ia, (i`1)b) si i < 0 (34)

Ejemplo 33

Sea ı la permutación signada del ejemplo 16.

ı0 =(0a, (2b, 3a), (3b, 4a), (5b, 6a), (4b, 5a), (6b, 7a), (8b, 9a), (2a, 1b), (0b, 1a),

(7b, 8a), 9b) (35)

Aunado a lo anterior, seguiremos las siguientes convenciones:

(1) Los genes en el cromosoma se representarán como(1) fragmentos MDS.

(2) La transformación definida en (33) y (34) se expan-(1) dirá por medio de la inserción de un elemento inter-(1) medio Ii entre dos MDSs adyacentes en ı.

Ejemplo 34

Consideremos la permutación ı0 en (35) del ejemplo 33 cuyapermutación expandida se muestra en (35) (los punteros semarcan en rojo).

46

Page 56: Modelos combinatorios en ensamblamiento genético

3. Modelo genético 47

ı0 =M00aI02bM33aI13bM44aI25bM66aI34bM55aI46bM77aI58bM99aI62a

M21bI70bM11aI87bM88aI99bM10 (36)

La gráfica Dı se define como una gráfica dirigida donde cada vértice seasocia con un único punto de recombinación y cada arco representa unsegmento (de MDSs o IESs) entre dos punteros (ejemplo 35).

Ejemplo 35

Puntos derecombinación

8a

9b0a

2b3a3b4a5b

6a4b

5a

6b7a

8b9a 2a 1b

0b1a

7b

i7m1

i8

m8

i9

m10m0

i0

m3i1m4i2

m6

i3

m5

i4

m7

i5

m9i6 m2

Figura 3.35: Gráfica dirigida correspondiente a lapermutación expandida ı0 del ejemplo 34.

La multigráfica 4-regular Gı asociada a un cromosoma ı se obtiene a partirde Dı modificando la transformación inversa T

`11 en (25) (ver subsección

3.4.2) como se expresa en (37):

(ib, ia)) 7! i) (37)

Cada vértice v de Gı se relaciona con un elemento de la transformaciónen (37) y cada arco de Dı se convierte en una arista no dirigida de Gı. Lamultigráfica Gı es conexa para toda permutación signada ı [26, 31].

Ejemplo 36

2 3 4

0

8

9 1

7

5

6

M3

I1M4

M5

I2

M6 I4

I3

M7

M8

I5

M9 I9

M10M0

M1

I7

I6I0 M2

i8

Figura 3.36: Multigráfica 4-regular obtenida de lagráfica dirigida del ejemplo 35.

47

Page 57: Modelos combinatorios en ensamblamiento genético

483.5. Paseos Eulerianos en multigráficas

4-regulares

3.5.2. Bitransiciones

Consideraremos que cada arista e de una multigráfica 4-regular G estácompuesta por un par de medias aristas fh0,h00g con un vértice final cadauna con solo un vértice de G tal que cada media arista incide en un extremode e [8, 11, 16, 64]. Sea v un vértice de G, el conjunto de medias aristasincidentes en v, se denota con hv. Ya que G es 4-regular jhvj = 4, 8v 2 V .

Una transición en v es un subconjunto de tamaño dos de hv. Una bitransiciónen v es un par ! = ft0, t00g de transiciones disjuntas incidentes en un mismovértice v (ver figura 3.39). Un conjunto de bitransiciones Ω = !1,!2, ...,!k esdisjunto si no contiene bitransiciones incidentes en un mismo vértice. Sedefine:

Ω(G) =fΩ : Ω es un conjunto disjunto de bitransiciones en Gg

Todo conjunto Ω 2 Ω induce una partición Euleriana de G. Cortar una bi-transición incidente en v consiste en eliminar v de G y reemplazarlo con unvértice v0 incidente a las medias aristas de t0 y con un vértice v00 incidentea las medias aristas de t00, obteniéndose una nueva gráfica denotada conGj! [11, 64].

Sea TE un paseo Euleriano de G y sea Ω(TE) el conjunto de bitransicionesdefinido por TE. Si ! 2 Ω(TE), entonces TE sigue siendo un paseo Eulerianode Gj!. El número de componentes conexas en G se denotará con l(G).

l(Gj!) = l(G) = 1 si ! 2 Ω(TE) (38)

Cortar un conjunto Ω 2 Ω consiste en la construcción de la gráfica GjΩ =

Gj!1j!2j...j!k (la cuál se denotará con GjΩ ya que el orden !1,!2...!k esirrelevante [11,20]).

Ejemplo 37

El orden de las secuencias de bases en el cromosomarepresentado por la permutación expandida ı0 en (36)del ejemplo 34 induce un paseo Euleriano en la mul-tigráfica 4-regular conexa Gı de la figura 3.36. Estepaseo, que denotaremos como TE(Φ), se muestra en (39)2.

TE(Φ) = M 01M001 , I08I

008 ,M 08M

008 , I09I

009 ,M10M

00M10M

000 , I00I

000 ,M 03M

003 , I01I

001 ,M 04M

004 ,

I02I002 ,M 06M

006 , I03I

003 ,M 05M

005 , I04I

004 ,M 07M

007 , I05I

005 ,M 09M

009 , I06I

006 ,M 02M

002 , I07I

007(39)

2El uso de esta notación se justifica en la sección 3.8 (proposición 2).

48

Page 58: Modelos combinatorios en ensamblamiento genético

3. Modelo genético 49

TE(Φ) define al conjunto de bitransiciones Ω(TE(Φ)):

˙(TE(˘))

v0 ffI007 ,M 01g,fM10M000 , I00gg

v1 ffM 001 , I08g,fM002 , I07gg

v2 ffI006 ,M 02g,fI000 ,M 03gg

v3 ffM 003 , I01g,ffI001 ,M 04gg

v4 ffM 004 , I02g,fI003 ,M 05gg

v5 ffI002 ,M 06g,fM005 , I04gg

v6 ffM 006 , I03g,fI004 ,M 07gg

v7 ffI008 ,M 08g,fM007 , I05gg

v8 ffM 008 , I09g,fI005 ,M 09gg

v9 ffI009 ,M10M00g,fM

009 , I06gg

2b 3a 3b 4a 4b

5b 5a

6a6b7b

7a8a

8b

1b

1a

9a

0b

0a

9b

2a M1’M1” I8’ I8”

M8’M8”I9’I9”M10M0’

M10M0”

I0’

I0” M3’ M3” I1’ I1” M4’ M4”

I2’

I2”

M6’M6”

I3’

I3”

M5’

M5”

I4’

I4”M7’

M7”

I5’I5”M9’M9”

I6”

I6’

M2’M2”

I7’I7”

Figura 3.37: GıjΩ(TE(Φ))

Consideremos un segundo conjunto de bitrasiciones Ω 2 Ω(Gı)

denotado con Ω(Ψ). Ω(Ψ) induce la partición Euleriana P (Ω(Ψ))

en (40) ilustrada en la gráfica de la figura 3.38.

Ω(Ψ)

v0 ffM10M000 ,M 01g,fI

00, I007gg v5 ffM 005 ,M 06g,fI

002 , I04gg

v1 ffM 001 ,M 002g,fI07, I08gg v6 ffM 006 ,M 07g,fI

004 , I03gg

v2 ffM 02,M 03g,fI006 , I000gg v7 ffM 007 ,M 08g,fI

008 , I05gg

v3 fM 003 ,M 04g,ffI001 , I01gg v8 ffM 008 ,M 09g,fI

005 , I09gg

v4 ffM 004 ,M 05g,fI003 , I02gg v9 ffM 009 ,M10M

00g,fI

009 , I06gg

P (Ω(Ψ)) = ffM 01M001 ,M 002M

02,M 03M

003 ,M 04M

004 ,M 05M

005 ,M 06M

006 ,M 07M

007 ,M 08M

008 ,

M 09M009 ,M10M

00M10M

000g,fI

03I003 , I02I

002 , I04I

004g,fI

01I001g,fI

007 I07, I08I

008 , I05I

005 ,

I09I009 , I06I

006 , I000 I

00gg (40)

2b 3b

3a

4a

4b

5b

5a

6a

6b

7b8b

1b

1a

8a

0b

2a

9b

0a

7a

9a

M′2

M′′2

M′3 M′′

3 M′4 M′′

4 M′5

M′′5

M′6

M′′6

M′7M′′

7M′8M′′

8M′9M′′

9M10M′0

M10M′′0

M′1

M′′1

I′2 I′′2I′4

I′′4I′3

I′′3I′8

I′′8

I′5I′′5

I′9I′′9I′′6

I′6

I′0

I′′0

I′7

I′′7

I′1 I′′1

Figura 3.38: GıjΩ(Ψ)

P (Ω(Ψ)) contiene el circuito con la permutación identidad «.Los conjuntos Ω(TE(Φ)) y Ω(Ψ) no tienen bitransiciones en común,en este caso se dice que los conjuntos son suplementarios.

49

Page 59: Modelos combinatorios en ensamblamiento genético

503.5. Paseos Eulerianos en multigráficas

4-regulares

En la subsección 3.5.3 se describe la asociación de un sistema de isotropía(ver apéndice A) con una multigráfica 4-regular. Los sistemas de isotropíaasociados a multigráficas 4-regulares se conocen como sistemas gráficos.Es importante mencionar que no todos los sistemas de isotropía son gráficos[16].

3.5.3. Multigráfica codificada

Sea G una multigráfica conexa 4-regular y sea TE = h00h000,h01h

001, ...,h0n`1h

00n`1

un paseo Euleriano de G, expresado mediante las medias aristas que loforman. Consideremos un vértice v de G tal que v = vi = vj, (i 6= j). Exis-ten exactamente tres pares de bitransiciones en v: ffh00j`1,h0jg,fh

00i`1,h0igg,

ffh00j`1,h0ig,fh00i`1,h0jgg y ffh

00j`1,h0i`1g,fh

0i,h0jgg los cuáles se ilustran en la fi-

gura 3.39.

h′′j−1

h′i

h′′i−1

h′j

TE φ χ ψ

h′′j−1

h′j

h′′i−1

h′i

h′′j−1

h′i h′j

h′′i−1 h′′j−1

h′i

h′′i−1

h′j

Figura 3.39: Bitransiciones.

La bitransición ffh00j`1,h0jg,fh00i`1,h0igg está contenida en Ω(TE). Asociamos

un elemento fiv(!) 2 K0V , a cada una de las tres posibles bitransiciones !

incidentes en v. Entonces existe una correspondencia biyectiva entre lastres bitransiciones en v y los elementos en K 0V . Sea K 0V = fffi,ffl, g [8,11,15].

fiv(ffh00j`1,h0jg,fh00i`1,h0igg) = ffi

fiv(ffh00j`1,h0ig,fh00i`1,h0jgg) = ffl

fiv(ffh00j`1,h00i`1g,fh0i,h0jgg) =

Cuadro 3.1: Codificación de bitransiciones.

Una codificación de bitransiciones es una familia fi = (fiv : v 2 V ) [8, 16].

Ejemplo 38

Asignación de etiquetas para los conjuntos disjuntos debitransiciones Ω(TE(Φ)) y Ω( ) del ejemplo 37.

v0 v1 v2 v3 v4 v5 v6 v7 v8 v9

fi (Ω(TE(Φ))) ffi ffi ffi ffi ffi ffi ffi ffi ffi ffi

fi (Ω(Ψ)) ffl ffl ffl ffl ffl ffl ffl ffl

50

Page 60: Modelos combinatorios en ensamblamiento genético

3. Modelo genético 51

Una multigráfica codificada es un par (G,fi ), donde G es una multigráfica4-regular y fi una codificación de bitransiciones [11,15]. Para todo conjuntoΩ 2 Ω(G) se define un vector T (Ω) 2KV tal que T (Ω)v es la codificación de labitransición de Ω incidente en v, 8v 2 V [8]. Si no existe una bitransición deΩ incidente en v entonces T (Ω)v = 0. En otro caso T (Ω)v es la etiqueta de labitransición de Ω incidente en v.

Sea S = (L,V ) el sistema de isotropía asociado a una multigráfica codificada(G,fi ). Una bitransición inducida por un vector A 2 K0V en un vértice v de Ges una bitransición tal que fiv(!) = Av. Denotamos con Ω(A) al conjunto detodas las bitransiciones inducidas por A. Todo conjunto de bitransiciones(partición Euleriana) es determinado por un único vector de K0V [16]. Unvector completo A puede dar origen a un paseo Euleriano o a una particiónde G en circuitos. La ecuación (41) determina la cardinalidad de cualquierpartición Euleriana P de la multigráfica 4-regular conexa G [14]. Sea jP j elnúmero de circuitos en P .

jP j` l(G) = r(A) si A = T (P ) (41)

Donde r(A) es el rango de A con respecto a S (ver apéndice A).

Ejemplo 39

Sea Ω(Ψ) el conjunto de bitransiciones en el ejemplo 37 queinduce la partición Euleriana P (Ω(Ψ)) en (40), de la multigrá-fica 4-regular Gı en la figura 3.36. La codificación de Ω(Φ)

se muestra en el ejemplo 38. Sea Ψ un vector en K0V tal quepara cada v 2 V , fi (Ω(Ψ))v = Ψv. Además de contener el circuitocon el orden en la permutación identidad, P (Ω(Ψ)) contiene(en el ejemplo) otros tres circuitos compuestos por ADN nogenético (IESs) denotados por CIES. Sea l(Gı) el número decomponentes conexas de Gı (ecuación (38)).

jP (Ω(Ψ))j` l(Gı) = jCIESj = 3 (42)

De acuerdo con (42), el número de circuitos conformadospor segmentos no codificadores en la partición inducida porel vector que representa al cromosoma identidad es igual alrango de dicho vector con respecto a S. Sea c(ı) el númerode ciclos en una decomposición de BG(ı0) (ver sección 3.3).c(ı) = jCIESj, por lo que el número de circuitos en BG(ı0) esigual a r(Ψ) (ejemplo 19).

Si S es un sistema de isotropía, entonces un vector A 2 K0v es un vector

51

Page 61: Modelos combinatorios en ensamblamiento genético

52 3.6. Transformaciones en paseos Eulerianos

Euleriano de S, si r(A) = 0. Sea TE un paseo Euleriano de G, Bouchet [16]demostró que para toda multigráfica codificada (G,fi ), existe exactamenteun sistema de isotropía S definido de manera que:

jΩ(TE)j` l(G) = r(A) = 0 si A = T (Ω(TE)) (43)

Ejemplo 40

Ahora consideremos el conjunto de bitrasiciones Ω(TE(Φ)) queinduce el paseo Euleriano TE(Φ) en (39) del ejemplo 37 cuyacodificación se muestra en el ejemplo 38. Sea Φ un vector enK0V tal que para cada v 2 V , fi (Ω(TE(Φ)))v = Φv y sea P (Ω(TE(Φ)))

la partición Euleriana de Gı inducida por Φ (en la figura 3.37).P (Ω(TE(Φ))) satisface la igualdad en (44):

jP (Ω(TE(Φ)))j` l(Gı) = r(Φ) = 0 (44)

Un sistema de isotropía S que se puede asociar de la manera descrita conuna multigŕafica codificada es un sistema gráfico [15, 19].

3.6. Transformaciones en paseos Eulerianos

En esta sección se describen dos transformaciones aplicables sobre un paseoEuleriano en un gráfica 4-regular. Estas tranformaciones fueron descritaspor primera vez por Kotzig [71] y extendidas posteriormente a sistemas deisotropía por Bouchet [19].

Consideremos una multigráfica codificada (G,fi ), su sistema gráfico asociadoS, y un vector Euleriano A de S. Sea TE(A) = h00h

000,h01h

001, ...,h0n`1h

00n`1 una

sucesión de medias aristas que forman un paseo Euleriano en G inducidopor A. La secuencia de vértices de TE(A) es V (A) = v0,v1, ...,vn`1 donde vi es elvértice incidente a TE(A) = h00i`1,h0i para i2 f0, ..,n`1g. V (A) es una palabra dedoble ocurrencia sobre V (G) [7]. Sea v 2 V (G) y supongamos v = vi = vj, (i 6= 0).Se definen dos tipos de transformaciones, la separación y la conmutación.

3.6.1. Separación

Si sustituimos la bitransición codificada por el vector Euleriano A en v conla bitransición etiquetada con ffl en v se obtiene el conjunto de bitransicionesde una nueva partición Euleriana fU 0,U 00g.

U 0 =fh0ih00i ,h0i+1h

00i+1, ...,h0j`1h

00j`1g

U 00 =fh0jh00j ,h0j+1h

00j+1, ...,h0n`1h

00n`1,h00h

000, ..., ,h0i`1h

00i`1g

52

Page 62: Modelos combinatorios en ensamblamiento genético

3. Modelo genético 53

Se dice que la bitransición con la etiqueta ffl, separa al paseo EulerianoTE(A) en v.

3.6.2. Conmutación

El resultado de reemplazar la bitransición codificada por A en v por labitransición con la etiqueta en v, es el conjunto de bitransiciones deun nuevo paseo Euleriano denotado con TE(A)˜v. Se dice que TE(A)˜v esobtenido por la conmutación de TE(A) en v [15, 19].

Ejemplo 41

La bitransiciones inducidas por el vector completo Ψ delejemplo 39 y el vector Euleriano Φ del ejemplo 40 en elvértice v4 de la multigráfica 3.36 son respectivamente:fM 004 , I02gfI

003 ,M 05g y fM

004 , I003gfI

02,M 05g. La conmutacion de TE(Φ)

en v4 se muestra en (45).

TE(Φ)˜v4 = M 01M001 , I08I

008 ,M 08M

008 , I09I

009 ,M10M

00M10M

000 , I00I

000 ,M 03M

003 , I01I

001 ,M 04M

004 ,

I003 I03,M 006M

06, I002 I

02,M 05M

005 , I04I

004 ,M 07M

007 , I05I

005 ,M 09M

009 , I06I

006 ,M 02M

002 , I07I

007

(45)

Proposición 1 (Bouchet 1988, [19]). Si TE(A0) y TE(A00) son paseosEulerianos de una multigráfica codificada (G,fi ) entonces existe unapalabra m sobre V tal que TE(A00) = TE(A0)˜m.

3.7. Gráficas fundamentales

Sea S = (L,V ) el sistema de isotropía asociado a una multigráfica codificada(G,fi ), y sea A la codificación de un paseo Euleriano TE de G. Si H es lagráfica de alternancia de TE, vista como una palabra de doble ocurrencia,se dice que H es la gráfica fundamental de S. Existe exactamente un vectorEuleriano A

0 de S que satisface A0 (v) 6= A(v) y A0 (w) = A(w), 8w 2 V nfvg [11].La gráfica fundamental de S derivada de TE(A0) se obtiene por la comple-mentación local de H en un vértice v.

Sea A(H) la matriz de adyacencia de la gráfica fundamental H de un sistemade isotropía S asociado a (G,fi ). Se dice que A(H) es la matriz de alternanciade G con respecto a A.

Ejemplo 42

La figura 3.40 muestra la gráfica de alternancia del paseoEuleriano TE(Φ) del ejemplo 37 inducido por el vector Eu-leriano Φ del ejemplo 40. La matriz en (46) es la matriz

53

Page 63: Modelos combinatorios en ensamblamiento genético

54 3.7. Gráficas fundamentales

de alternancia de Gı con respecto a Φ.

2 4

7

3

9 8

1 0

5

6Figura 3.40: Gráfica de alternancia delpaseo Euleriano TE(Φ) del ejemplo37.

A(H) =

26666666666666666666666664

0 1 2 3 4 5 6 7 8 9

0 0 1 0 0 0 0 0 1 1 1

1 1 0 0 0 0 0 0 0 0 0

2 0 0 0 0 0 0 0 1 1 1

3 0 0 0 0 0 0 0 0 0 0

4 0 0 0 0 0 1 1 0 0 0

5 0 0 0 0 1 0 1 0 0 0

6 0 0 0 0 1 1 0 0 0 0

7 1 0 1 0 0 0 0 0 1 1

8 1 0 1 0 0 0 0 1 0 1

9 1 0 1 0 0 0 0 1 1 0

37777777777777777777777775(46)

3.7.1. Gráfica de alternancia relativa

En la teoría de alternancia de multigráficas 4-regulares, la gráfica funda-mental H de un sistema de isotropía S asociada a una multigráfica codifica-da (G,fi ) no se maneja como una gráfica con lazos permitidos. Sin embargoel modelado de la estructura de doble hélice de la molécula de ADN re-quiere la codificación de la orientación de los vértices por lo cuál a partirde ahora nos referiremos a la gráfica de alternancia de un paseo Eulerianoen G como una gráfica simple con lazos permitidos Hb.

Sea ˝ = (Hb,A,B) la presentación gráfica de un sistema de isotropía S asocia-do a una multigráfica codificada (G,fi ) y sea P (Ω(B)) la partición Eulerianainducida por el vector completo B. Para simplificar la notación desde estemomento P (Ω(B)) se denotará como PB. La gráfica de alternancia relati-va [32, 90, 91, 93] de PB con respecto a TE(A) es la gráfica Hb(A,B) que seobtiene de Hb modificando cada vértice v 2 V (G) tal que Bv 6= ffl, como sigue:

(i) Eliminando v si Bv = ffi.

(ii) Añadiendo un lazo a v si Bv = .

La operación (ii) corresponde a la complementación de lazo descrita en lasubsección 2.5.4.

Ejemplo 43

Sea PΨ la partición Euleriana inducida por el vector completo Ψ

del ejemplo 39. La gráfica de alternancia relativa de PΨ conrespecto al paseo Euleriano TE(Φ) del ejemplo 37 corresponde ala gráfica en el extremo derecho de la figura 3.31 en el ejemplo

54

Page 64: Modelos combinatorios en ensamblamiento genético

3. Modelo genético 55

29.

En adelante Hb(ı0) será referida como la gráfica de alternancia relativaHb(Φ, Ψ). Sea (G,fi ) una multigráfica codificada y sea P una partición Eule-riana en G. Se dice que un circuito ‰ 2 P es incidente de forma única en unvértice v si contiene exactamente dos de las cuatro medias aristas incidentesen v [93].

Si ˝ = (Hb, Φ, Ψ) es la presentación gráfica de un sistema de isotropía S aso-ciado a (G,fi ) y A(Φ, Ψ) es la matriz de adyacencia de Hb(Φ, Ψ). Entonces elvector relativo principal (relative core vector) de un circuito ‰ 2 PΨ con res-pecto a Φ se define como el vector Ξ(‰, Φ)2GF (2)V (G) cuyas entradas distintasde cero corresponden a los vértices de G en los cuáles ‰ es incidente deforma única y se cumple que Ψv = ffl o Ψv = , 8 ‰ 2 PΨ.

Teorema 3.4 (Traldi 2012, [93]). Sea A(Φ, Ψ) la matriz de adyacencia dela gráfica Hb(Φ, Ψ).

(i) El espacio nulo de A(Φ, Ψ) es generado por los vectores(i) relativos principales de los circuitos de PΨ.

(ii) Para cada componente conexa de G, los vectores relativos(i) principales de los circuitos incidentes de PΨ suman 0.

(iii)Si Q PΨ y no existe una componente conexa de G para la(i) cuál Q contenga a cada circuito incidente de PΨ, en-(i) tonces los vectores relativos de los circuitos de Q son lineal-(i) mente independientes.

Sea (A(Φ, Ψ))) la nulidad de A(Φ, Ψ). De acuerdo con el teorema 3.4 y losresultados de la subsección 3.5.3 se tiene,

jCIESj =(A(Φ, Ψ)) (47)

Ejemplo 44

Consideremos la matriz de adyacencia de la gráfica Hb(Φ, Ψ)

referenciada en el ejemplo 43. A((Φ, Ψ)) se muestra en (27)del ejemplo 31. Tenemos que (A(Φ, Ψ)) = 3 lo que coincidecon los resultados obtenidos anteriormente.

3.8. 4-matroides y sistemas de isotropía

Definición 3.8.1 ( [23]). Si Hb es una gráfica simple con lazospermitidos, entonces el 4-matroide asociado a Hb es,

55

Page 65: Modelos combinatorios en ensamblamiento genético

56 3.8. 4-matroides y sistemas de isotropía

DHb = fX „ V : A[X ] es no singular sobre GF (2)g

Definición 3.8.2. Sea Hb una gráfica simple con lazos permitidos, y seaW (Hb) el conjunto finito del matroide binario asociado a Hb. Lostransversales (resp. subtransversales) de W (Hb) son los elementos de:

T (W (Hb)) =fT „W (Hb) : jT \fvffi,vffl,v gj = 1 8v 2 V (Hb)gS(W (Hb)) =fS „W (Hb) : jS\fvffi,vffl,v gj » 1 8v 2 V (Hb)g

El conjunto potencia P(W (Hb)) se considera un espacio vectorial sobre GF (2)

con la suma, la multiplicación usual por los escalares del campo GF (2) yuna forma bilineal definidas en el apéndice A. Sea Q el subespacio deP(W (Hb)) generado por tripletas de vértices. Entonces cada vértice del es-pacio cociente P(W (Hb))/Q incluye un elemento de S(W (Hb)). De maneraque podemos identificar a S(W (Hb)) con P(W (Hb))/Q. La suma resultante enS(W (Hb)) se denota con y se define en el cuadro 3.2, para cada compo-nente correspondiente al par de transversales que se consideran.

0 ffi ffl

0 0 ffi ffl

ffi ffi 0 ffl

ffl ffl 0 ffi

ffl ffi 0

Cuadro 3.2: Suma .

El espacio ciclo Z(M(IAS(Hb))) es el subespacio de P(W (Hb)) en GF (2) com-puesto por los subconjuntos de W (Hb) correspondientes a los conjuntos decolumnas de IAS(Hb) que suman 0.

Definición 3.8.3 ( [91]). Un ciclo transverso de Hb es un elemento de:

L(Hb) =S(W (Hb))\Z(M(IAS(Hb)))

Si X „ Hb y S 2 S(W (Hb)), entonces X ´S denota a S\fvffi,vffl,v : v 2 Xg.

Proposición 2 (Traldi 2015, [91]). Sea Φ(Hb)fvffi : v 2 V (Hb)g, y sea Ψ(Hb) =

fv : v 2 V (Hb) v es un vértice con lazog[fvffl : v 2 V (Hb) v es un vértice sin lazog.Entonces

L(Hb) = f(X ´Ψ(Hb)) (n(X) ´Φ(Hb)) : X „ V (Hb)g

Φ(Hb) y Ψ(Hb) son elementos disjuntos de S(W (Hb)) de tamaño jV (Hb)j, demanera que satisfacen la definición de vectores suplementarios dada en elapéndice A. De acuerdo con la proposición 2, L(Hb(Φ, Ψ)) es un sistema de

56

Page 66: Modelos combinatorios en ensamblamiento genético

3. Modelo genético 57

isotropía con gráfica fundamental Hb(Φ, Ψ). Por sencillez en la notación losvectores Φ(Hb(Φ, Ψ)) y Ψ(Hb(Φ, Ψ)) se denotarán con Φ y Ψ. El 4-matroide DHbtambién se puede definir como (48):

DHb =fS „ V (Hb) : fsffl : s 2 Sg[fvffi : v 62 Sg es una base de M(IAS(Hb))g (48)

El índice no aparece en la descripción (48), ya que el matroide binariorestringido M(IA(Hb)) contiene información suficiente para determinar a DHb[27,91]. Si Hb es una gráfica simple con lazos permitidos, entonces Hb estácompletamente determinada por el 4-matroide DHb: un vértice v es unvértice con lazo si y sólo si fvg 2 DHb. Dos vértices con lazo v y w 2 DHb,son adyacentes si y sólo si fv,wg 62 DHb. Dos vértices v y w sin lazo sonadyacentes si y sólo si fv,wg 2 DHb [91]. Como consecuencia DHb determinaa los sistemas de isotropía con gráfica fundamental Hb con respecto aisomorfismo fuerte.

57

Page 67: Modelos combinatorios en ensamblamiento genético
Page 68: Modelos combinatorios en ensamblamiento genético

Capítulo 4

Aplicación en elordenamiento por inversiones

4.1. Inversiones orientadas y 4-matroides

Sea ˝ = (Hb, Φ, Ψ) la presentación gráfica del sistema de isotropía L(Hb) aso-ciado a una multigráfica codificada (Gı,fi ) y determinado por el 4-matroideDHb(Φ,Ψ) donde el vector Euleriano Φ induce el paseo Euleriano TE(Φ) con elorden de los pares de bases en el cromosoma representado por la permuta-ción expandida ı0 (ver subsección 3.5.2) y Ψ induce la partición EulerianaPΨ que contiene el circuito correspondiente a la permutación identidad ylos circuitos formados por ADN no genético. Sea X „ V , en la sección 2.4el torcimiento D˜X se definió como el 4-matroide (V ,fF 4X : F 2 Fg).

Teorema 4.1 (Brijder 2017, [26]). Sea una gráfica Hb y sea v 2 V (Hb) unvértice con lazo. Entonces DHb˜nsv=DHb ˜ns v.

El teorema 4.1 y la propiedad 1 permiten definir la inversión orientadacomo la operación de contracción descrita en la subsección 2.4.4.

DHb˜invv = (DHb4F )nv si v 2 F (49)

Ejemplo 45

Sea FHb(Φ,Ψ) en (50) la familia de conjuntos factibles del4-matroide DHb(Φ,Ψ) que determina a la gráfica simple conlazos permitidos de la figura 3.31.

59

Page 69: Modelos combinatorios en ensamblamiento genético

60 4.2. Inversión de corte

FHb(Φ,Ψ) =f;,f1g,f2g,f0, 1g,f0, 7g,f0, 8g,f0, 9g,f1, 2g,f2, 7g,f2, 8g,f2, 9g

f4, 5g,f4, 6g,f5, 6g,f7, 8g,f7, 9g,f8, 9g,f0, 1, 2gf0, 1, 7g,f0, 1, 8g,f0, 1, 9g,f0, 2, 7g,f0, 2, 8g, ...,f0, 1, 2, 4, 5, 7,8g,f0, 1, 2, 5, 6, 7,8g,f0, 1, 2, 4, 5, 7,9g,f0, 1, 2, 4, 5, 8,9gg,f0, 1, 4, 5, 7, 8,9g,f0, 1, 4, 6, 7, 8,9gf0, 1, 5, 6, 7, 8,9g,f0, 2, 4, 5, 7, 8,9g,f0, 2, 4, 6, 7, 8, 9g,f0, 2, 5, 6, 7, 8,9g,f1, 2, 4, 5, 7, 8,9g,f1, 2, 4, 6, 7, 8,9g,f1, 2, 4, 5, 6, 8, 9gg

(50)

La operación (DHb(Φ,Ψ)4f2g)n2 en (51) corresponde a la inversiónsobre el vértice v2 de Hb(Φ, Ψ) (vértice (4, 5) en el ejemplo 27).

(FHb(Φ,Ψ)4f2g)n2 =f;,f1g,f7g,f8g,f9g,f0, 1g,f0, 7g,f0, 8g, ...,f0, 1, 4, 5, 7, 8g,

f0, 1, 5, 6, 7, 8g,f0, 1, 4, 5, 7, 9g,f0, 1, 4, 5, 8, 9gg,f0, 4, 5, 7, 8, 9g,f0, 4, 6, 7, 8, 9g,f0, 5, 6, 7, 8, 9g,f1, 4, 5, 7, 8, 9g,f1, 4, 6, 7, 8, 9g,f1, 4, 5, 6, 8, 9gg

(51)Una secuencia (v1,v2, ....,vk) de elementos distintos de V es una secuenciaóptima para DHb(Φ,Ψ) si para todo i 2 f0, ...,kg, fv1, ...,vig 2 FHb(Φ,Ψ). En par-ticular ;,fv1, ...,vkg 2 FHb(Φ,Ψ) [26]. Sea max(FHb(Φ,Ψ)) la familia de conjuntosmaximales de FHb(Φ,Ψ) con respecto a inclusión. Una secuencia (v1,v2, ....,vk)

es óptima si fv1, ...,vkg 2max(FHb(Φ,Ψ)) [26]. El teorema 4.2 aplica el con-cepto de conexidad de 4-matroides definido en la subsección 2.4.5, en ladeterminación de secuencias óptimas.

Teorema 4.2 (Brijder 2017, [26]). Sea D un 4-matroide binario normal.Entonces existe una secuencia óptima para D si y sólo si cada sumandoconexo par de D con conjunto base no vacío es de la forma (fvg,;) paraalgún elemento v en el conjunto base de D.

Sea ı una permutación signada sin obstáculos y sea DHb(Φ,Ψ) el 4-matroideque determina la gráfica de intersección de ı. Entonces el DHb(Φ,Ψ) cumplecon lo postulado en el teorema 4.2 y la distancia de inversión para ı entérminos de 4-matroides queda expresada en (52).

dr(ı,«) = fjF j : F 2max(FHb(Φ,Ψ))g (52)

4.2. Inversión de corte

El teorema 4.3 relaciona el complemento modificado (ver subsección 3.4.4)con la conmutación definida en la sección 3.6).

60

Page 70: Modelos combinatorios en ensamblamiento genético

4. Aplicación en el ordenamiento por inversiones 61

Teorema 4.3 (Traldi 2012, [94]). (Modificado) Sea A(Φ, Ψ) la matriz deadyacencia de la gráfica Hb(Φ, Ψ) y sea v un vértice de la multigráfica4-regular G.

Mvmod(Φ, Ψ) = A(Φ˜v, Ψ)

Si Hb(Φ, Ψ) es la matriz de alternancia relativa de PΨ con respecto a TE(Φ) yX „ V es un subconjunto X tal que A(Hb(Φ, Ψ))[X ] es un obstáculo, entoncesde acuerdo al teorema 4.3 es posible definir la inversión de corte descritaen las subsecciones 3.2.5 y 3.3.4 como la conmutación del paseo EulerianoTE(Φ) en el vértice vi 2 X.

Ejemplo 46

2 4

7

3

9 8

1 0

5

6

Figura 4.1: Gráfica de alternancia del paseoEuleriano TE(Φ)˜v4 del ejemplo 41.

A(H) =

26666666666666666666666664

0 1 2 3 4 5 6 7 8 9

0 0 1 0 0 0 0 0 1 1 1

1 1 1 0 0 0 0 0 0 0 0

2 0 0 1 0 0 0 0 1 1 1

3 0 0 0 0 0 0 0 0 0 0

4 0 0 0 0 0 1 1 0 0 0

5 0 0 0 0 1 1 0 0 0 0

6 0 0 0 0 1 0 1 0 0 0

7 1 0 1 0 0 0 0 0 1 1

8 1 0 1 0 0 0 0 1 0 1

9 1 0 1 0 0 0 0 1 1 0

37777777777777777777777775

La matriz de adyacencia de gráfica ilustrada en la figura 4.1corresponde a la matriz (32) del ejemplo 32.

4.3. Ecuación exacta para la distancia de inversión

Sea DHb(Φ,Ψ) un 4-matroide que no cumple con la condición del teorema4.2. Entonces la fórmula exacta para la distancia de inversión del teorema3.2 queda expresada en (53).

dr(ı,«) = jF j+h(ı) + f(ı) 8F 2max(FHb(Φ,Ψ)) (53)

Ejemplo 47

Sea DHb(Φ,Ψ) el 4-matroide del ejemplo 45. La cardinalidad delos miembros de max(FHb(Φ,Ψ)) es 7. De acuerdo con la ecuación(53) la distancia de inversión para la permutación signada delejemplo 16 es dr(ı,«) = 7+1+0.

61

Page 71: Modelos combinatorios en ensamblamiento genético

62 4.4. Ciliados

4.4. Ciliados

En la subsección 3.1.3 se mencionó que las operaciones de ensamblamientogenético en ciliados ordenan los fragmentos del gen micronuclear para ob-tener la forma macronuclear del gen. Los genes no presentan las cubiertasprotectoras del cromosoma lineal por lo cuál no es necesario añadir losextremos 0 y n+1. Está representación sin telómeros corresponde también alos cromosomas circulares presentes en las bacterias [54], de modo que elmodelo que exponemos en este trabajo se puede emplear en cromosomaslineales, en cromosomas circulares y en genes.

La multigráfica 4-regular asociada a la permutación que representa el ordende los segmentos MDS en el gen micronuclear, es muy similar a la descritaen la subsección 3.5.1 en este caso se eliminan los punteros en los extremosde los MDSs M0 y M10 y se fusionan sus segmentos adyacentes. Dicha fusiónproduce aristas mixtas (ejemplo 48).

Ejemplo 48

Sea $0 en (54) la permutación extendida correspondiente al genActina I en el Sterkiella Nova del ejemplo 14. La multigráfica4-regular asociada se ilustra en la figura 4.2.

$0 =I02bM33aI13bM44aI25bM66aI34bM55aI46bM77aI58bM9M9I62aM21bI7M11a

I87bM88a (54)

2 3 4

8

1

7

5

6

M3

I1M4

M5I2

M6 I4I3

M7

M8

I5

M9I6

I7M1

Figura 4.2: Multigráfica 4-regular G$ de la per-mutación expandida$0 en (54).

El resto del modelo funciona de forma análoga a lo ya descrito.

62

Page 72: Modelos combinatorios en ensamblamiento genético

Capítulo 5

Conclusiones y trabajo futuro

5.1. Conclusiones

Este trabajo presenta un enfoque combinatorio al problema biológico co-nocido como problema de la distancia de inversión el cuál estudia lasrelaciones evolutivas entre genomas mediante la comparación del ordencromosómico. Se demostró, que dos cromosomas sobre el mismo númerode genes se pueden representar como los vectores suplementarios Φ y Ψ delsistema de isotropía L(Hb(Φ, Ψ)) con gráfica fundamental Hb(Φ, Ψ).

Sea ı una permutación con obstáculos y sea vi el vértice asociado al ele-mento i dentro de un obstáculo i,ıj+1,ıj+2, ..., i+ 1, ...,ıj+k`1, i+ k en ı. Sea˝ la presentación gráfica de L(Hb(Φ, Ψ)) y sea ˝0 la presentación gráficaasociada al vector Euleriano Φ˜vi. En esta tesis se concluye que la ma-triz de adyacencia de Hb(Φ, Ψ)˜vi corresponde a la inversión de corte en lapermutación signada ı.

El sistema de isotropía L(Hb(Φ, Ψ)) queda determinado por el 4-matroideDHb(Φ,Ψ) cuyo rango equivale a la distancia de inversión del cromosoma abs-traído por el vector Euleriano Φ.

5.2. Trabajo futuro

Enriquecer el modelo que se maneja en este trabajo, introduciendo el reor-denamiento de transposición que es equivalente a la complementación dearistas en la gráfica Hb(Φ, Ψ).

Dado que el problema de programación entera planteado en la tesis espolinomial, éste puede relajarse a un problema de programación lineal,mostrando que los vértices son enteros y que corresponden a las solucio-nes de programación entera. Será deseable, en un trabajo posterior, hacerla relajación mencionada y desarrollar un algoritmo para implementar la

63

Page 73: Modelos combinatorios en ensamblamiento genético

64 5.2. Trabajo futuro

solución al problema de la distancia de inversión.

64

Page 74: Modelos combinatorios en ensamblamiento genético

Apéndice A

Sistemas de isotropía

Sea K un espacio vectorial de dimensión 2 sobre GF (2) con la forma bili-neal, antisimétrica, no degenerada (a^ b), tal que (a^ b = 1() 0 6= a 6= b 6= 0).Para cada conjunto finito V consideramos a KV como un espacio vectorialde dimensión 2jV j sobre GF (2) con la forma bilineal, antisimétrica, no de-generada (A,B)! A^B =

P(Av ^Bv : v 2 V ). Si L es un subespacio totalmente

isotrópico (esto es, A,B 2 L =) A^B = 0) de KV entonces dim(L)» jV j.

Un sistema de isotropía es un par S = (L,V ), donde V es un conjunto finitoy L es un subespacio L 2 KV tal que dim(L) = jV j.

Para A 2 KV y un subconjunto X „ V , el vector Y 2 KV definido por Yv = Avsi v 2 X y Yv = 0 si v 62 X, se denotará con AX. Sea A = fAX : X „ V g, A es unsubespacio de KV y la dimensión de A es igual al número de elementos vtales que Av 6= 0.

Sea K0 = K nf0g, se dice que A es completo si A 2 K0V , tal que dim(A) = jV j.Dos vectores completos A y B son suplementarios si Av 6= Bv 8v 2 V , estoes si A y B son subespacios suplementarios de KV . El rango de un vectorA 2 KV con respecto a un sistema de isotropía S = (L,V ) se define comor(A) =dim(A\L). Un vector Euleriano de S es un vector A 2 K0V tal quer(A) = 0 [11, 19].

.0.1. Presentaciones gráficas de sistemas de isotropía

Sea H una gráfica simple sobre el conjunto de vértices V (G) y el conjuntode aristas E. El conjunto potencia P(V ) se considera un espacio vectorialsobre GF(2) con la suma (P ,Q)! P +Q= P4Q. Además se considera la formabilineal (P ,Q)! P ^Q = P \Q sobre P(V ) [19].

Teorema .1 (Bouchet 1988, [19]). Sean A y B vectores suplementariosde K0V y sea L = fAX +Bn(X) : X „ V g. Entonces S = (L,V ) es un sistema deisotropía. La tripleta ˝ = (H,A,B) se conoce como presentación gráfica deS.

65

Page 75: Modelos combinatorios en ensamblamiento genético

66

Se dice que la gráfica H es una gráfica fundamental de S.

Propiedad 2 (Bouchet 1990, [15]). Para todo vector Euleriano A de unsistema de isotropía S = (L,V ) existe exactamente una presentación gráfica˝ = (H,A,B) de S. Si v 2 V , A0 = A˜v y ˝0 = (H0,A0,B0) es la presentacióngráfica asociada al vector Euleriano A0, entonces H0 = H ˜v.

La propiedad 2 implica que cualquier clase de equivalencia local es elconjunto de gráficas fundamentales de algún sistema de isotropía. La pro-piedad 3, enuncia la relación entre las gráficas de alternancia y las gráficasfundamentales de un sistema de isotropía

Propiedad 3 (Bouchet 1990, [15]). Sea S = (L,V ) el sistema gráficoasociado a una multigráfica codificada (G,fi ), y sea A la codificación de unpaseo Euleriano TE de G. Si ˝ = (H,A,B) es la presentación gráfica de Sasociada a A, entonces H es la gráfica de alternancia de TE.

66

Page 76: Modelos combinatorios en ensamblamiento genético

Bibliografía

[1] Adamyk, K. L. M., Holmes, E., Mayfield, G. R., Moritz, D. J., Schee-pers, M., Tenner, B. E., and Wauck, H. C. Sorting Permutations: Ga-mes, Genomes, and Cycles. arXiv preprint arXiv:1410.2353. (2014).

[2] Arratia, R., Bollobás, B., and Sorkin, G. B. The interlace polynomialof a graph. Journal of Combinatorial Theory, Series B, 92(2), 199-233.(2004).

[3] V. Bafna and P. A. Pevzner. Genome rearrangements and sorting byreversals. SIAM Journal on Computing, 25(2):272–289, (1996).

[4] Bergeron, A., Mixtacki, J., and Stoye, J. (2006, September). A unif-ying view of genome rearrangements. In International Workshop onAlgorithms in Bioinformatics (pp. 163-173). Springer Berlin Heidel-berg.

[5] Bergeron, A. A very elementary presentation of the Hannenha-lli–Pevzner theory. Discrete Applied Mathematics, 146(2), 134-145.(2005).

[6] Bouchet, A. Graph polynomials derived from Tutte–Martin polyno-mials. Discrete Mathematics, 302(1), 32-38. (2005).

[7] Bouchet, A. Multimatroids III. Tightness and fundamental graphs,European Journal of Combinatorics, 22(5), 657-677. (2001).

[8] Bouchet, A., and Ghier, L. Connectivity and ˛-invariants of isotropicsystems and 4-regular graphs. Discrete Mathematics, 161(1-3), 25-44. (1996).

[9] Bouchet, A., and Cunningham, W. H. Delta-matroids, jump systems,and bisubmodular polyhedra, SIAM Journal on Discrete Mathema-tics, 8(1), 17-32. (1995).

[10] Bouchet, A. Circle graph obstructions. Journal of CombinatorialTheory, Series B, 60(1), 107-144. (1994).

67

Page 77: Modelos combinatorios en ensamblamiento genético

68 BIBLIOGRAFÍA

[11] Bouchet, A. Compatible Euler tours and supplementary Eulerian vec-tors. European journal of combinatorics, vol. 14, no 6, p. 513-520,1993.

[12] Bouchet, A. A characterization of unimodular orientations of simplegraphs. Journal of Combinatorial Theory, Series B, 56(1), 45-54.(1992).

[13] Bouchet, A., and Duchamp, A. Representability of 4-matroids overGF (2). Linear Algebra and its Applications, 146, 67-78. (1991).

[14] Bouchet, A. Tutte-Martin polynomials and orienting vectors of iso-tropic systems. Graphs and Combinatorics, 7(3), 235-252. (1991).

[15] Bouchet, A. k-transformations, local complementations and swit-ching. In Cycles and Rays (pp. 41-50). Springer Netherlands. (1990).

[16] Bouchet, A. Isotropic systems. European J. Combin. 8 (1987) 231-244.

[17] Bouchet, A. Matchings and 4-matroids. Discrete Applied Mathema-tics, 24(1-3), 55-62. (1989).

[18] Bouchet, A. Maps and 4-matroids. Discrete Mathematics, 78(1),59-71. (1989).

[19] Bouchet, A. Graphic presentations of isotropic systems. Journal ofCombinatorial Theory, Series B, 45(1), 58-76. (1988).

[20] Bouchet, A. Greedy Algorithm and Symmetric Matroids, Math. Pro-gram. 38, 2 (September 1987), 147-159.

[21] Bouchet, A. Unimodularity and circle graphs. Discrete mathematics,66(1-2), 203-208. (1987).

[22] Bouchet, A. Digraph decompositions and Eulerian systems. SIAMJournal on Algebraic Discrete Methods, 8(3), 323-337. (1987).

[23] Bouchet, A.Representability of ∆-matroids, Colloquia MathematicaSocietatis János Bolyai 52. Combinatorics, Eger (Hungary),167-182.,1987.

[24] A. Bouchet, Caractérisation des symboles croisés de genre nul, C. R.Acad. Sci. Paris Sér. A-B 274 (1972) A724-A727.

[25] Braga, M. D., Sagot, M. F., Scornavacca, C., and Tannier, E. Ex-ploring the solution space of sorting by reversals, with experimentsand an application to evolution. IEEE/ACM Transactions on Compu-

68

Page 78: Modelos combinatorios en ensamblamiento genético

BIBLIOGRAFÍA 69

tational Biology and Bioinformatics (TCBB), 5(3), 348-356. (2008).[26] Brijder, R. Sorting by Reversals and the Theory of 4-Regular Graphs.

arXiv preprint arXiv:1701.07463. (2017).

[27] Brijder, R., Traldi, L. A characterization of circle graphs in terms ofmultimatroid representations. arXiv eprint arXiv:1703.05960. (2017).

[28] Brijder, R. Orienting transversals and transition polynomials of mul-timatroids. arXiv preprint arXiv:1605.04244.(2016).

[29] Traldi, L., and Brijder, R. Isotropic matroids. III. Connectivity. arXivpreprint arXiv:1602.03899. (2016).

[30] Brijder, R. and Traldi, L.Isotropic matroids. II. Circle graphs,ArXive-prints, 1504.04299, (2015).

[31] Brijder, R. Recombination faults in gene assembly in ciliates mode-led using multimatroids. Theoretical Computer Science, 608, 27-35.(2015).

[32] Brijder, R., and Hoogeboom, H. J. Interlace polynomials for mul-timatroids and delta-matroids. European Journal of Combinatorics,40, 142-167. (2014).

[33] Brijder, R., and Hoogeboom, H. J. The algebra of gene assembly inciliates. In Discrete and Topological Models in Molecular Biology(pp. 289-307). Springer Berlin Heidelberg. (2014).

[34] Brijder, R., and Hoogeboom, H. J. Binary symmetric matrix inversionthrough local complementation. Fundamenta Informaticae, 116(1-4), 15-23. (2012).

[35] Brijder, R., and Hoogeboom, H. J. Nullity invariance for pivot and theinterlace polynomial. Linear Algebra and its Applications, 435(2),277-288. (2011).

[36] Brijder, R., Hoogeboom, H. J., and Traldi, L. The adjacency matroidof a graph. arXiv preprint arXiv:1107.5493. (2011).

[37] Brijder, R., and Hoogeboom, H. J. The group structure of pivot andloop complementation on graphs and set systems. European Journalof Combinatorics, 32(8), 1353-1367. (2011).

[38] Brijder, R., and Hoogeboom, H. J. Maximal pivots on graphs withan application to gene assembly. Discrete Applied Mathematics,158(18), 1977-1985. (2010).

[39] Brijder, R., Hoogeboom, H. J., and Muskulus, M. Strategies of loop

69

Page 79: Modelos combinatorios en ensamblamiento genético

70 BIBLIOGRAFÍA

recombination in ciliates. Discrete Applied Mathematics, 156(10),1736-1753. (2008).

[40] Caprara, A. Sorting permutations by reversals and Eulerian cycledecompositions. SIAM journal on discrete mathematics, 12(1), 91-110. (1999).

[41] Chen, X., Bracht, J. R., Goldman, A. D., Dolzhenko, E., Clay, D.M., Swart, E. C., ... and Sebra, R. P. The architecture of a scram-bled genome reveals massive levels of genomic rearrangement duringdevelopment. Cell, 158(5), 1187-1198. (2014).

[42] Chun, C., Chun, D., and Noble, S. D. Inductive tools for connecteddelta-matroids and multimatroids. European Journal of Combinato-rics, 63, 59-69. (2017).

[43] Cooper, J., and Davis, J. Successful pressing sequences for a bicolo-red graph and binary matrices. Linear Algebra and its Applications,490, 162-173. (2016).

[44] Drillon, Guénola, Alessandra Carbone, and Gilles Fischer. Combi-natorics of chromosomal rearrangements based on synteny blocksand synteny packs. Journal of Logic and Computation 23.4 (2011):815-838.

[45] Ehrenfeucht, A., Harju, T., Petre, I., Prescott, D. M., and Rozenberg,G. Gene assembly through cyclic graph decomposition. In Compu-tation in Living Cells (pp. 151-175). Springer Berlin Heidelberg.(2004).

[46] Ehrenfeucht, A., Harju, T., Petre, I., Prescott, D. M., and Rozenberg,G. Computation in living cells: gene assembly in ciliates. SpringerScience and Business Media. (2003).

[47] Ellis-Monaghan, J. A. Transition polynomials, double covers,and biomolecular computing. Congressus Numerantium, 166, 181.(2004).

[48] Ellis-Monaghan, J. A., and Sarmiento, I. Generalized transition poly-nomials. Congressus Numerantium, 57-70. (2002).

[49] Fleming, T., and Mellor, B. Chord Diagrams and Gauss Codes forGraphs. arXiv preprint math/0508269. (2005).

[50] Frausto D., Saucedo O., and Valenzuela E., Paquete computacionalpara la investigación en 4-matroides. UAM 2017.

[51] Geelen, J. F., Iwata, S., and Murota, K. The linear delta-matroidparity problem. Journal of Combinatorial Theory, Series B, 88(2),

70

Page 80: Modelos combinatorios en ensamblamiento genético

BIBLIOGRAFÍA 71

377-398. (2003).

[52] Genest, F. On the complementation orbits of graphs.

[53] Gordon, G., and McNulty, J. Matroids: a geometric introduction.Cambridge University Press. (2012)

[54] Griffiths AJF, Gelbart WM, Miller JH, et al. Modern Genetic Analy-sis. New York: W. H. Freeman; 1999. Chromosomal Rearrangements.Available from: https://www.ncbi.nlm.nih.gov/books/NBK21367/

[55] Grusea, S., and Labarre, A. The distribution of cycles in break-point graphs of signed permutations. Discrete Applied Mathematics,161(10), 1448-1466. (2013).

[56] Hannenhalli, S., and Pevzner, P. A. Transforming cabbage into turnip:polynomial algorithm for sorting signed permutations by reversals.Journal of the ACM (JACM), 46(1), 1-27. (1999).

[57] Hannenhalli, S., and Pevzner, P. A. (1996, January). To Cut... orNot to Cut (Applications of Comparative Physical Maps in MolecularEvolution). In SODA (Vol. 7, pp. 304-313).

[58] Hannenhalli, S. Polynomial-time algorithm for computing transloca-tion distance between genomes. Discrete applied mathematics, 71(1-3), 137-151. (1996).

[59] Hannenhalli, S., and Pevzner, P. A. (1995, October). Transformingmen into mice (polynomial algorithm for genomic distance problem).In Foundations of Computer Science, 1995. Proceedings., 36th An-nual Symposium on (pp. 581-592). IEEE.

[60] Hartman, T., and Verbin, E. Matrix tightness: A linear-algebraic fra-mework for sorting by transpositions. In String Processing and Infor-mation Retrieval (pp. 279-290). Springer Berlin/Heidelberg.(2006).

[61] Herlin, J. L., Nelson, A., and Scheepers, M. Using ciliate operationsto construct chromosome phylogenies. Involve, a Journal of Mathe-matics, 9(1), 1-26. (2015).

[62] Jaeger, F. Symmetric representations of binary matroids. North-Holland Mathematics Studies, 75, 371-376. (1983).

[63] Jansen, C. L., Scheepers, M., Simon, S. L., and Tatum, E. Con-text Directed Reversals and the Ciliate Decryptome. arXiv preprintarXiv:1603.06149. (2016).

[64] Jackson, B. A characterisation of graphs having three pairwise compa-

71

Page 81: Modelos combinatorios en ensamblamiento genético

72 BIBLIOGRAFÍA

tible Euler tours. Journal of Combinatorial Theory, Series B, 53(1),80-92. (1991).

[65] Jiménez Garcia, Tapia-Vieyra, and Mas-Oliva. .El espliceosoma: Cortey empalme del pre-ARNm." Revista de Educación Bioquímica 23(2004): 59-63.

[66] Kari, L., and Mahalingam, K. Watson–Crick palindromes in DNAcomputing. Natural Computing, 9(2), 297-316. (2010).

[67] Kari, L., and Mahalingam, K. Watson-Crick conjugate and commu-tative words. In International Workshop on DNA-Based Computers(pp. 273-283). Springer Berlin Heidelberg. (2007, June).

[68] Kaplan, H., Shamir, R., and Tarjan, R. E. A faster and simpler al-gorithm for sorting signed permutations by reversals. SIAM Journalon Computing, 29(3), 880-892. (2000).

[69] Kececioglu, J., and Sankoff, D. Exact and approximation algorithmsfor sorting by reversals, with application to genome rearrangement.Algorithmica, 13(1), 180-210. (1995).

[70] Kececioglu, J., and Sankoff, D. Efficient bounds for oriented chro-mosome inversion distance. In Combinatorial Pattern Matching (pp.307-325). Springer Berlin/Heidelberg. (1994).

[71] Kotzig, A. Eulerian lines in finite 4-valent graphs and their transfor-mations. Theory of graphs, Proceedings of the Colloquium, Tihany,Hungary, 1966, pp.219-230. Academic Press, New York (1968)

[72] Lancia, G., Rinaldi, F., and Serafini, P. (2015, April). A Unified In-teger Programming Model for Genome Rearrangement Problems. InIWBBIO (1) (pp. 491-502).

[73] Lancia, A.C.G., and Ng, S.K. A column-generation based branch-and-bound algorithm for sorting by reversals. Mathematical Supportfor Molecular Biology: Papers Related to the Special Year in Mathe-matical Support for Molecular Biology, 1994-1998, 47, 213. (1999).

[74] Lehninger, A.L. and Cox, M.M. Principios de bioquímica,isbn:9788428214100, Omega. (2006).

[75] Liu, C.L. Elementos de Matemáticas Discretas. Mc Graw Hill.(1985)

[76] Mack, Katya L., and Michael W. Nachman. "Gene regulation andspeciation." Trends in Genetics (2016).

72

Page 82: Modelos combinatorios en ensamblamiento genético

BIBLIOGRAFÍA 73

[77] Michel, B., and Leach, D. Homologous Recombination-Enzymes andPathways. EcoSal Plus, 5(1). (2012).

[78] Miklós, I., and Smith, H. Sampling and counting genome rearrange-ment scenarios. BMC bioinformatics, 16(14), S6. (2015).

[79] Miranda-Rodriguez,J.R. Salas-Vidal,E. Lomeli,H. Zurita,M. Schna-bel,D. RhoA/ROCK pathway activity is essential for the correct lo-calization of the germ plasm mRNAs in zebrafish embryos Develop-mental Biology, 421, 27-42. (2017)

[80] Pevzner, P. A. Computational Molecular Biology.

[81] Pevzner, P., and Tesler, G. Genome rearrangements in mammalianevolution: lessons from human and mouse genomes. Genome re-search, 13(1), 37-45. (2003).

[82] Prescott, David M. "The DNA of ciliated protozoa." Microbiologicalreviews 58.2 (1994): 233-267.

[83] Prescott, David M., Andrzej Ehrenfeucht, and Grzegorz Rozenberg."Molecular operations for DNA processing in hypotrichous ciliates."European Journal of Protistology 37.3 (2001): 241-260.

[84] Rodríguez Sánchez, M. G. Delta-matroides rueda ternarios. Univer-sidad Autónoma Metropolitana, Departamento de Ciencias Básicas,México, Distrito Federal. México. [Morfismos, México, 2002 Vól. 6Núm. 1 Jun, Pág. 31-55]

[85] R. C. Read, P. Rosenstiehl, On the Gauss crossing problem, in: Com-binatorics (Proc. Fifth Hungarian Colloq., Keszthely, 1976), Vol. II,Colloq. Math. Soc. Jťanos Bolyai, 18, North-Holland, Amsterdam-New York, 1978, pp. 843-876.

[86] Whitney, H. On the abstract properties of linear dependence. Ameri-can Journal of Mathematics, 57(3), 509-533. (1935).

[87] Oxley, J. Matroid Theory, Oxford Univ. Press, Oxford, (2011).

[88] Sankoff, D., Cedergren, R., and Abel, Y. Genomic divergence throughgene rearrangement. Methods in enzymology, 183, 428-438. (1990).

[89] Sankoff, D. Edit distance for genome comparison based on non-localoperations. In Combinatorial Pattern Matching (pp. 121-135). Sprin-ger Berlin/Heidelberg. (1992).

[90] Traldi, L. Circuit partitions and signed interlacement in 4-regulargraphs. arXiv preprint arXiv:1607.04233. (2016).

73

Page 83: Modelos combinatorios en ensamblamiento genético

74 BIBLIOGRAFÍA

[91] Traldi, L. Binary matroids and local complementation. EuropeanJournal of Combinatorics, 45, 21-40. (2015).

[92] Traldi, L. The transition matroid of a 4-regular graph: an introduc-tion. European Journal of Combinatorics, 50, 180-207. (2015).

[93] Traldi, L. On the linear algebra of local complementation. LinearAlgebra and Its Applications, 436(5), 1072-1089. (2012).

[94] Traldi, L. Interlacement in 4-regular graphs: a new approach usingnonsymmetric matrices. arXiv preprint arXiv:1204.0482. (2012).

[95] Traldi, L. Binary nullity, Euler circuits and interlace polynomials.European Journal of Combinatorics, 32(6), 944-950. (2011).

[96] Tsang, O. W. Sorting by Reversals in Genome Rearrangements.(1996)

[97] Truemper, K. Matroid decomposition (Vol. 6). Boston: AcademicPress. (1992).

[98] Tucker, A.W. A combinatorial equivalence of matrices, in: Combi-natorial Analysis, Proceedings of Symposia in Applied Mathematics,vol. X, American Mathematical Society, 1960, pp. 129–140.

[99] Watterson, G.A. et al. The chromosome inversion problem. J. Theor.Biol., 99,1–7. (1982)

[100] Yin, Z., Tang, J., Schaeffer, S.W., and Bader, D.A. Streaming break-point graph analytics for accelerating and parallelizing the compu-tation of dcj median of three genomes. Procedia Computer Science,18, 561-570. (2013).

[101] Zerbino, D.R., Ballinger, T., Paten, B., Hickey, G., and Haussler, D.Representing and decomposing genomic structural variants as balan-ced integer flows on sequence graphs. BMC bioinformatics, 17(1),400. (2016).

[102] https://s-media-cache-ak0.pinimg.com/originals/05/26/d9/0526d9ec3520afd8eb4a0d4ab63b2db3.jpg

[103] https://www.researchgate.net/figure/255736580_fig1_A-From-left-to-right-Oxytricha-trifallax-Paramecium-\tetraurelia-Tetrahymena

[104] https://es.khanacademy.org/science/biology/dna-as-the-genetic-material/dna-discovery-and-structure/a/discovery-of-the-structure-of-dna

74

Page 84: Modelos combinatorios en ensamblamiento genético

Índice alfabético

4-matroides, 3, 55, 57, 59, 604-matroide binario, 124-matroide normal, 124-matroide par, 12Axioma de Intercambio

Simétrico, 11Conexidad, 14Familia de conjuntos

maximales, 60Gráfica fundamental, 12, 13Menores, 13Operador diferencia simétrica,

11Representación lineal, 12Sistema de conjuntos, 11Sistema de conjuntos propio,

11Torcimiento, 12Transformación de pivote

principal, 4, 13, 18

ADN, 1, 21Transcripción, 22

Alfabeto, 14Alfabeto complementario, 14,

22Alfabeto de MDSs, 30Alfabeto de nucleótidos, 1, 22

Antecesor común, 2, 24ARN, 1, 21, 23

Corte y empalme, 23

Bafna V., 3Bases nitrogenadas, 1, 21, 31

Úracilo, 21Adenina, 1, 21, 22Citosina, 1, 21, 22Enlaces de hidrógeno, 22Guanina, 1, 21, 22Tiamina, 1, 21, 22

Bitransiciones, 48, 53Codificación, 50, 51Conjunto de, 48, 49Corte, 48Pares incidentes con un

vértice, 50Bloques de sintenia, 24Bouchet A., 4, 52Brijder R., 4

Campo binario GF (2), 3, 8, 39,55, 56

Suma y producto, 8Ciclo transverso, 56Ciliados, 26

Ensamblamiento genético, 26,62

Macronúcleo, 26Micronúcleo, 26Puntero de entrada, 27Puntero de salida, 27Punteros, 27, 46, 62Secuencias destinadas al

75

Page 85: Modelos combinatorios en ensamblamiento genético

76 ÍNDICE ALFABÉTICO

macronúcleo MDSs, 27,30, 46, 47, 62

Secuencias internamenteeliminadas IESs, 27, 29,47

Complementación localComplementación de lazo,

17, 54Complementación local no

simple, 18, 40Complementación local

simple, 3, 18Complemento local

modificado, 5, 44, 60Inversión, 40

Conjunto potencia, 56Crick F., 22Cromosoma, 1, 2, 59

Cromosoma circular, 62Cromosoma lineal, 23, 32,

33, 46, 62Representación, 31Telómeros, 24

Distancia de inversión, 2, 31Cota inferior, 3, 35, 43Ecuación exacta, 3, 39, 61

Escenario evolutivo, 25Espacio ciclo, 56Espacio cociente, 56Espacio vectorial, 9, 56

Forma bilineal, 56

Gen, 1, 23, 33, 62Codones, 22Orientación, 23

Genoma, 1, 2Eucariota, 23

Gráfica de alternancia, 15, 53Gráfica de alternancia

signada, 17

Relativa, 54, 55Gráfica de cubierta, 4Gráfica de intersección, 3, 15, 40,

41, 44Diagrama cordal, 15, 41Transposición, 17

Gráfica de punto de rompimiento,3, 33

Cardinalidad de una partición,3, 34, 36, 45, 51

Ciclos alternantes, 33Partición en ciclos, 3

Gráfica de superposición, 3Gráfica dirigida, 47Gráfica simple con lazos

permitidos, 3, 10, 11, 17,18, 55, 57, 59

Grupo de permutaciones, 11

Hannenhalli S., 3

Inversión, 2, 25, 30, 59Inversión segura, 40Pares orientados, 31Secuencia óptima, 42, 60

Involución, 14Isomorfismo compatible, 11, 17

Kaplan H.„ 3Kececioglu, J., 3Kotzig A., 4, 52

MatricesMatrices de tipo simétrico, 3,

5, 12, 13, 45Matriz de adyacencia, 3, 10,

12, 53, 55Matriz de alternancia, 53Matriz de alternancia relativa,

61Matriz de intersección, 43Matriz identidad, 10

76

Page 86: Modelos combinatorios en ensamblamiento genético

ÍNDICE ALFABÉTICO 77

Matriz suma, 10Submatrices principales, 4, 12

Matroide binario, 9, 11, 56Conjunto base, 11Subtransversales, 56Transversales, 56

Isomorfo, 10Representación estándar, 10Restringido, 11, 57

Matroides, 8Axioma de incremento de

independencia, 9Circuito fundamental, 9Conjunto base, 9Conjuntos dependientes, 9Conjuntos independientes, 9Familia de Bases, 9Matroide binario, 4Matroide lineal, 9

Modelo de programación linealentera, 36

Modelo intramolecular deensamblamiento genético,28

Multigráfica 4-regular, 4, 47, 48,50

Asociada a una permutaciónsignada, 46–48, 51, 52, 62

Multigráfica codificada,50–52, 54, 59

Número de componentes, 48Partición Euleriana, 8, 48, 51,

54, 59Cardinalidad de, 51

Partición Eulerianacardinalidad de, 51

Particiónnn Euleriana, 55Paseo Euleriano, 8, 48,

51–53, 59Transformaciones en paseos

Eulerianos, 4, 52

Conmutación, 52, 53, 60Separación, 52

Nucleótidos, 1, 21

Obstáculos, 3, 32, 37Fortaleza, 39Inversión de corte, 4, 32, 38,

45, 60Inversión de fusión, 4, 32, 38Súper obstáculo, 39Submatrices principales

singulares, 44Operaciones de ADN en ciliados,

28Escisión de lazo, 28Recombinación de doble lazo,

28Recombinación de horquilla,

28Ordenamiento por inversiones, 2

Palabra de doble ocurrencia, 14,53

Palabra de doble ocurrenciasignada, 14

Parsimonia máxima, 26Permutaciones, 3, 14

Permutación expandida, 46,59

Permutación identidad, 3, 26,59

Permutación imagen de unapermutación signada, 33

Permutación signada, 3, 15,26, 30

Pevzner A., 3Problema del reordenamiento

cromosómico, 2, 24, 26Puntos de rompimiento, 24, 25,

33

Recombinación homóloga, 24

77

Page 87: Modelos combinatorios en ensamblamiento genético

78 ÍNDICE ALFABÉTICO

Reordenamientos cromosómicos,2, 24

Sankoff, D., 3Shamir R., 3Sistemas de isotropía, 3, 50, 52,

53, 57Gráfica fundamental, 4, 53,

57Presentaciones gráficas, 54,

55, 59Sistemas gráficos, 50, 52Vector completo, 51, 54Vector completo rango de, 51Vector Euleriano, 52, 53, 59Vectores suplementarios, 4,

56

Suma , 56

Tarjan R.E., 3Traldi L., 5Transformación T

`11 , 41, 47

Transformación T1, 33Transición, 48Transposición (Reordenamiento

cromosómico), 2, 25, 26Transposición invertida, 2, 25Tripleta de vértices fvffi,vffl,v g,

11, 56Tucker A.W, 4

Vector relativo principal, 55

Watson J., 22

78