descripción del formato de secuencias standard european ... · pdf fileentrada en...

Download Descripción del formato de secuencias Standard European ... · PDF fileentrada en GenBank o a un ... de cargos que se puede utilizar ... sofisticado como es el de GenBank o Swiss-Prot

If you can't read please download the document

Upload: domien

Post on 06-Feb-2018

223 views

Category:

Documents


0 download

TRANSCRIPT

  • Descripcin del formato de secuencias Standard

    European Vector Architecture (SEVA) con el

    lenguaje Synthetic Biology Open Language

    (SBOL) para uso computacional.

    Estudiante: Marta Carcajona Mata

    MSTER EN BIOINFORMTICA Y BIOLOGA COMPUTACIONAL

    ESCUELA NACIONAL DE SALUD INSTITUTO DE SALUD CARLOS III

    2014-2015

    CENTRO NACIONAL DE BIOTECNOLOGA (CNB)

    DIRECTOR DE LA TESIS: ngel Goi-Moreno

    Enero - 2016

  • 1

    NDICE

    Resumen 2

    Introduccin 2

    Objetivos 8

    Material y mtodos 9

    Resultados 16

    Discusin 22

    Conclusiones 25

    Bibliografa 25

  • 2

    Abreviaturas: SEVA, Standard European Vector Architecture; SBOL, Synthetic

    Biology Open Language; EDA, Electronic Design Automation; GDA, Genetic Design

    Automation; SBML, Systems Biology Markup Language

    1. RESUMEN

    El estndar in vivo Standard European Vector Architecture (SEVA), y el estndar

    in slico Synthetic Biology Open Language (SBOL), son dos formatos clave para el

    desarrollo de la biologa sinttica. Sabiendo que la plataforma SEVA ayuda en la

    eleccin de vectores plasmdicos ptimos para la deconstruccin y reconstruccin de

    fenotipos procariticos complejos; y que SBOL es ms completo que otros lenguajes

    estndar pre-existentes, en este estudio se muestra que la traduccin del formato SEVA

    al formato SBOL y las aplicaciones diseadas en el proceso, favorecen el intercambio

    de diseo de componentes biolgicos para uso en simulacin computacional y su

    posterior construccin in vivo para ensayos experimentales. Adems de describir ambos

    estndares, este paper reafirma el beneficio potencial de los softwares con base SBOL

    para la comunidad de biologa sinttica.

    2. INTRODUCCIN

    2.1 Biologa sinttica

    La biologa sinttica es el diseo y construccin de nuevas partes biolgicas,

    dispositivos y sistemas, y el rediseo de sistemas biolgicos naturales para aplicaciones

    tiles. Esto ha permitido a los cientficos re-disear sistemas ya existentes, ayudando as

    a entender los principios de la biologa y sus mecanismos subyacentes (Chopra y

    Kamma, 2006).

    La biologa sinttica puede ser enfocada de diversas maneras:

    - Ingeniera de sistemas biolgicos: la sntesis de componentes biolgicos los

    cuales se pueden ensamblar para crear circuitos biolgicos que se comportan de una

    forma predecible. Estos componentes biolgicos pueden ser intercambiables dentro del

    circuito. Por lo tanto, es un intento de llevar los conceptos existentes de la ingeniera,

    tales como la estandarizacin de los componentes, la disociacin de los problemas y la

    abstraccin de la informacin, a la biologa (Endy, 2005).

    - Redisear sistemas ya existentes: a travs de la construccin de sistemas

    biolgicos, han aparecido algunas lagunas en nuestro actual entendimiento de la

  • 3

    biologa debido a las diferencias encontradas entre el comportamiento predicho y el

    observado. Esto, nos permite entender la biologa de una forma ms completa. Adems,

    podemos desarrollar de forma potencial sistemas biolgicos menos complejos haciendo

    que puedan ser usados para aplicaciones ms especficas.

    Adems, el campo de la biologa sinttica est generando un tremendo inters

    debido a la gran variedad de aplicaciones potenciales como la produccin de frmacos

    ms baratos (Ro y col., 2006), optimizacin de la produccin de biocombustibles

    (Atsumi y Liao, 2008), tratamiento potencial de enfermedades como el cncer

    (Anderson y col., 2006) y desarrollo de circuitos genticos (Bonet y col., 2013).

    .

    2.2 Estandarizacin de componentes biolgicos

    La biologa sinttica trata a los organismos biolgicos como un nuevo medio

    tecnolgico con un set de caractersticas nico, entre las que podemos encontrar la

    habilidad de auto-repararse, evolucionar y replicar. Estas caractersticas crean sus

    propios retos de ingeniera, pero son a su vez una fuente de aplicaciones potenciales en

    muchos sectores (Khalil y Collins, 2010; Keasling. 2005). Aplicaciones como la

    computacin biomolecular (Benenson, 2012), ingeniera metablica (Woolston y col.,

    2013), o reconstruccin y exploracin de la biologa celular (Nandagopal y Elowitz,

    2011; Mukherji y van Oudenaarden, 2009), requieren del diseo de nuevos sistemas

    genticos codificados.

    Aunque el campo de la ingeniera gentica lleva en uso 30 aos, el campo

    multidisciplinar de la biologa sinttica es el que trae consigo el concepto de

    estandarizacin para la representacin de datos tanto in vivo, como in slico (Endy,

    2005). Todos los campos de la ingeniera necesitan de un set de estndares que usen los

    profesionales y permita un intercambio y uso de diseos de sistemas, dispositivos y

    componentes. Adems, un formato estndar intercambiable para diseos de biologa

    sinttica mejorara mucho la capacidad de reproducir resultados publicados.

    Actualmente, es extremadamente difcil repetir diseos de la literatura porque suelen

    estar descritos de forma imprecisa y con un lenguaje propenso a malentendidos. Incluso

    se omite informacin y datos crticos debido a que se dan por hecho, como secuencias

    finales, etc. Con inputs y outputs estndar definidos por una serie de reglas, la biologa

    sinttica puede ser una disciplina de la ingeniera que permita el desarrollo de softwares

    y de herramientas de diseo automatizadas (EDA).

    Estas EDA han permitido la produccin de muchos y ms complejos circuitos

    http://www.sciencedirect.com/science/article/pii/B9780124170292000078#bb0200http://www.sciencedirect.com/science/article/pii/B9780124170292000078#bb0010http://www.sciencedirect.com/science/article/pii/B9780124170292000078#bb0005http://www.sciencedirect.com/science/article/pii/B9780124170292000078#bb0080http://www.sciencedirect.com/science/article/pii/B9780124170292000078#bb0080

  • 4

    biolgicos aportndonos una gran cantidad de informacin hasta la fecha. Para permitir

    esta nueva era de la biologa, se requieren muchas plataformas de automatizacin de

    diseo gentico (GDA) (Myers, 2009; Myers y col., 2009). Un primer paso crtico para

    el uso de estas herramientas es conseguir un set de partes genticas con las cuales se

    puede construir un diseo. A pesar de que la mnima descripcin para una de las partes

    es la anotacin de su secuencia de DNA, la representacin fiel del comportamiento del

    componente no es suficiente solo con su secuencia (Peccoud y col., 2011). Por ello, un

    repositorio de partes ideal debera incluir informacin adicional acerca del componente

    incluyendo datos como la cepa en la que se suele usar y el ambiente en el reside esta. En

    ltima instancia, los workflows de biologa sinttica requieren la capacidad de codificar

    informacin adicional ms all de una secuencia anotada, incluyendo, entre otras cosas,

    informacin del contexto ambiental y experimental, los modelos computacionales de

    comportamiento y las mediciones de caractersticas de rendimiento. Por lo tanto, se

    requiere unos nuevos estndares para lograr estos objetivos.

    Con el fin de que los diseos de biologa sinttica aumenten en complejidad, los

    investigadores tendrn que hacer un mayor uso de herramientas de diseo

    especializadas y repositorios de partes. La amplia adopcin de un estndar de diseo

    permitira al creciente nmero de herramientas de software el uso de un nico modelo

    de workflow (Beal y col., 2012) para los bilogos sintticos tanto de centros de

    investigacin como en la industria.

    Un ejemplo de estandarizacin in vivo es el Standard European Vector

    Arquitecture (SEVA), un estndar de vectores plasmdicos en bacterias gran negativas

    (optimizado para pseudomonas) desarrollado en el laboratorio de Vctor de Lorenzo en

    el Centro Nacional de Biotecnologa; y un ejemplo de estndar in silico, es el Synthetic

    Biology Open Language o SBOL, un emergente lenguaje que describe componentes

    biolgicos de forma muy precisa.

    2.3 Standard European Vector Architecture (SEVA)

    Como se ha mencionado previamente, la necesidad de unos formatos ya fijados

    para la organizacin y designacin de componentes biolgicos se ha vuelto ms que

    evidente en esta era de sistemas y biologa sinttica (Canton y col., 2008; Endy 2009).

    La plataforma Standard European Vector Architecture es un recurso web y un

    repositorio de material clonado que ayuda en la eleccin de vectores plasmdicos

    ptimos para la deconstruccin y reconstruccin de fenotipos procariticos complejos

    http://www.sciencedirect.com/science/article/pii/B9780124170292000078?np=y#bb0185

  • 5

    (Martnez-Gara y col., 2015).

    La base de datos (SEVA-DB, http://seva.cnb.csic.es) es un recurso para

    implementar estndares in vivo en el ensamblaje de plsmidos y que ayuda en la

    creacin de una nomenclatura comn y no ambigua basada en un cdigo numrico.

    Adems, la base de datos funciona como un ndice para repositorio de secuencias

    funcionales y de construcciones disponibles en la comunidad (Durante-Rodrguez y col.,

    2014).

    Esta SEVA-DB consiste en una base de datos relacional como el estrato en el

    que se guardan los datos, una serie de mdulos alojados en un servidor y una

    presentacin web con los estndares que se aplican para las construcciones. Las

    correspondientes secuencias de cada plsmid