fundamentos de sistemas de base de datos (capítulo 29 y 30)
Post on 23-Jan-2018
265 Views
Preview:
TRANSCRIPT
TEMA: CAPITULO 29 Y 30
UNIVERSIDAD CENTRAL
DEL
ECUADORFACULTAD CIENCIAS ECONÓMICAS
CARRERA DE FINANZAS
INTEGRANTES:
• SANGOQUIZA GUAYASAMIN DIEGO STALIN
• VACA RODRIGUEZ PAUL FERNANDO
• VELASCO VIRACOCHA BRYAN DAVID
VISIÓN GENERAL DEL ALMACENAMIENTO
DE DATOS Y OLAP
El aumento de la potencia de procesamiento y la sofisticación de las herramientas y técnicas
analíticas ha dado como resultado lo que se ha dado en llamar almacenes de datos (data
warehouses), los cuales proporcionan el almacenamiento, la funcionalidad y la respuesta
adecuada a las consultas que se escapan del ámbito de las bases de datos orientadas a las
transacciones.
En las organizaciones de hoy en día, los usuarios de los datos suelen encontrarse alejados de
las fuentes de los mismos. Muchas personas sólo precisan leer la información, pero
conservando una adecuada velocidad de acceso a grandes volúmenes de datos para ser
descargados al computador.
Los archivos de los datos no siempre están organizados de la forma ideal para las
necesidades específicas del usuario.
Para preparar los datos para analizarlos posteriormente puede transformar de
muchas maneras diferentes el archivo:
• ORDENAR DATOS: Puede ordenar los casos en función del valor de una o mas
variables.
• SELECCIONAR SUBCONJUNTOS DE CASOS: Puede restringir el análisis a
un subconjunto de casos o efectuar análisis simultáneamente de subconjuntos
diferentes.
CONSTRUCCIÓN DE UN ALMACÉN DE
DATOS A la hora de preparar un almacén de datos, sus constructores deben disponer de
una visión general anticipada del uso que se le dará. Durante la fase de diseño, no
existe forma de prever todas las posibles consultas y análisis que se realizarán.
La adquisición de los datos desde el almacén implica dar los siguientes pasos:
• Los datos deben ser extraídos de fuentes múltiples y heterogéneas como, por
ejemplo, bases de datos o cualquier otro lugar en el que exista información relevante.
• Los datos deben estar formateados de forma que sean coherentes dentro del
almacén. Los nombres, contenidos y dominios de los datos que provengan de fuentes
inconexas deben ser reajustados.
• Los datos deben estar limpios para garantizar su validez.
• Muchas veces resulta útil y en
ocasiones es incluso necesario,
ordenar los casos ordenar las
filas del archivo de datos), para
realizar determinados tipos de
análisis.
• Para dividir el archivo de
datos en diferentes grupos:
En los menús seleccione:
Datos > Dividir archivo
Aparecerá el cuadro de diálogo
dividir archivo.
El procedimiento Dividir archivo crea un nuevo subgrupo cada vez que se
encuentra un valor diferente para una de las variables de agrupación.
Es importante ordenar los casos de acuerdo con los valores de las variables de
agrupación antes de invocar el procesamiento de división del archivo.
El procedimiento dividir archivo ordena automáticamente el archivo de datos de
acuerdo con los valores de las variables de agrupación.
Mientras permanezca activado el
procesamiento de división del archivo
aparecerá el mensaje división en la
barra de estado situada en la parte
inferior de la ventana de la aplicación.
ANALIZAR TODOS LOS CASOS: esta opción desactiva el
procedimiento de división del archivo.
COMPARAR LOS GRUPOS Y ORGANIZAR LOS
RESULTADOS POR GRUPOS: esta opción activa el
procesamiento de división del archivo.
Tras invocar el procedimiento de
división del archivo, este permanecerá
en vigor durante el resto de la sesión, a
menos que lo desactive.
Puede limitar el análisis a un determinado
subconjunto de acuerdo con criterios que pueden
incluir variables y expresiones complejas
• Valores y rangos de las variables
• Rango de fechas y horas
• Numero de casos (filas)
• Expresiones aritméticas
• Expresiones lógicas
• Funciones
ALMACENES DE DATOS FRENTE A
VISTAS Los almacenes de datos existen como un sistema de almacenamiento
permanente en lugar de materializarse bajo petición.
Los almacenes de datos no suelen ser relacionales, sino más bien
multidimensionales. Las vistas de una base de datos relacional son relacionales.
Los almacenes de datos pueden indexarse para mejorar su rendimiento. Las
vistas no pueden estarlo de forma independiente de las bases de datos
subyacentes.
Los almacenes de datos ofrecen soporte específico de funcionalidad; las vistas
no.
Los almacenes de datos proporcionan grandes cantidades de datos integrados y,
con frecuencia, temporales (generalmente más de los contenidos en una base de
datos), mientras que las vistas son un extracto de una base de datos.
Para seleccionar los casos basados en una
expresión condicional:
• Seleccione SI se satisface la condición y
pulse en Si en el cuadro de diálogo
Seleccionar casos.
• Se abrirá el cuadro de diálogo Seleccionar
casos: Si
Para obtener una muestra aleatoria:
• Seleccione Muestra aleatoria de
casos en el cuadro de diálogo
Seleccionar casos.
• Pulse en muestra.
• Se abrirá de dialogo Seleccionar
casos: Muestra aleatoria.
• Para seleccionar un rango de casos basados en
fechas, horas o números de observación:
• Seleccione basándose en el rango del tiempo o
de los casos y pulse en Rango en el cuadro de
diálogo Seleccionar casos.
• Se abrirá el cuadro de diálogo Seleccionar casos:
Rango en el que podrá seleccionar un rango de
números de observación.
PRIMER CASO: Introduzca los valores de la fecha y
hora iniciales de rango. Si no se ha definido ninguna
variable de la fecha introduzca el numero de observación
inicial.
ULTIMO CASO: introduzca los valores de la fecha y hora
finales de rango. Si no se ha definido ninguna variable de
fecha introduzca el numero de observación final.
DESCARTAR CASOS NO
SELECCIONADOS
Los casos no seleccionados no se incluyen en
el análisis, pero se conservan en el conjunto
de datos.
COPIAR CASOS SELECCIONADOS A UN NUEVO CONJUNTO DE
DATOS
Los casos seleccionados se copiarán a un nuevo conjunto de datos, lo
que mantendrá inalterado el conjunto de datos original.
Los casos no seleccionados no se incluirán en el nuevo conjunto de
datos y se mantendrán en su estado original en el conjunto de datos
original.
ELIMINAR CASOS NO SELECCIONADOS
Los casos no seleccionados se eliminarán
del conjunto de datos. Sólo se pueden
recuperar los casos eliminados saliendo del
archivo sin guardar ningún cambio y
abriéndolo de nuevo.
PROBLEMAS ABIERTOS EN EL
ALMACENAMIENTO DE DATOS
El almacenamiento de datos es un área activa deinvestigación que, muy probablemente se veaincrementada en un futuro cercano a medida que losalmacenes y los mercados de datos proliferen.
.Los problemas antiguos sufrirán un nuevo enfoque; por ejemplo, la limpieza de los datos, la indexación, el particionado y las vistas recibirán una renovada atención.
En la actualidad ya pueden encontrarse en el mercadoprogramas de distintos fabricantes para almacenar datos,los cuales se centran principalmente en la administracióndel almacén y en las aplicaciones OLAP/DSS.
Tecnologías y aplicaciones
emergentes de bases de
datos
Bases de datos moviles Los recientes avances en la tecnología móvil e inalámbrica han conducido a la
computación móvil, una nueva dimensión en la comunicación y el procesamiento
de los datos. Los dispositivos computacionales móviles junto con las
comunicaciones inalámbricas, permiten a los clientes el acceso a los datos desde
prácticamente cualquier lugar y en cualquier momento. Esta funcionalidad resulta
especialmente útil a las empresas dispersas geográficamente. Entre los ejemplos
típicos podríamos incluir las agendas electrónicas, los servicios de información de
noticias y de valores de bolsa, y la gestión comercial automatizada. Sin embargo,
existen varios problemas en el hardware y en el software que deben ser resueltos
antes de que se puedan utilizar en su totalidad las posibilidades de la computación
móvil.
Arquitectura de la computación móvil
Plataforma móvil basada en infraestructura. Se trata de una arquitectura
distribuida en la que varios computadores, a los que se les denomina
generalmente Host fijo (FS) y Estación base (BS), se interconectan a través de
una red de cable de alta velocidad. Los hosts fijos son, por lo general,
computadores dedicados que no están equipados normalmente para la gestión de
unidades móviles pero que pueden ser configurados para ello. Las estaciones
base son pasarelas entre las Unidades móviles (MU) y la red fija. Están equipadas
con interfaces inalámbricas y ofrecen servicios de acceso a la red a las unidades
móviles clientes.
Plataforma móvil no basada en infraestructura. La arquitectura de comunicaciones
que acabamos de describir está diseñada para dar al cliente la impresión de que
se encuentra conectado a una red fija, emulando la arquitectura cliente/servidor
tradicional. Además de lo anterior, las comunicaciones inalámbricas posibilitan
otros tipos de arquitecturas. Una de ellas es una plataforma móvil sin
infraestructura, también llamada red móvil ad hoc (MANET).
Las principales características de las aplicaciones MANET son las siguientes:
• Desconexiones frecuentes.
• Particionado frecuente de la red.
• Control centralizado dificultoso.
• Heterogeneidad de los nodos.
Características de los entornos móviles
Entre algunas de las características de la computación en entornos móviles
podemos incluir la alta latencia de comunicaciones, la conectividad inalámbrica
intermitente, la duración limitada de las baterías y, por supuesto, el cambio en la
ubicación de los clientes.
Temas sobre gestión de datos
Desde el punto de vista de la gestión de los datos, la computación móvil puede ser considerada como una variante de la computación distribuida. Las bases de datos móviles pueden ser distribuidas bajo dos escenarios posibles:
1. Toda la base de datos se encuentra distribuida principalmente entre los componentes cableados, quizá con replicación total o parcial. Una estación base o un host fijo gestiona su propia base de datos mediante una funcionalidad de tipo DBMS, con funcionalidad adicional para la localización de unidades móviles y con funciones adicionales de consulta y tratamiento de transacciones que cumplan los requisitos de los entornos móviles.
2. La base de datos está distribuida entre los componentes cableados e inalámbricos. La responsabilidad de la gestión de los datos se reparte entre las estaciones base o entre los hosts fijos y las unidades móviles.
Aplicación. Bases de datos sincronizadas intermitentemente
El escenario de computación móvil se está haciendo. cada vez más popular a medida que las personas se llevan el trabajo lejos de sus oficinas y hogares y llevan a cabo una gran cantidad de actividades y funciones: todo tipo de ventas, particularmente en productos farmacéuticos, artículos de consumo y el sector industrial; defensa de la ley; consultoría y planificación financiera y de seguros; bienes inmuebles o actividades de gestión de la propiedad; servicios de mensajería y transportes; etc.
En su conjunto, las siguientes características de las ISDBs las diferencian de las bases de datos móviles que hemos explicado anteriormente: 1. Un cliente conecta con el servidor cuando quiere recibir actualizaciones del mismo, enviarle actualizaciones, o procesar transacciones que necesitan datos no locales. Esta comunicación puede ser de tipo unidifusión (comunicación de uno a uno entre el servidor y el cliente) o de tipo multidifusión (un emisor o un servidor puede comunicar periódicamente con un conjunto de receptores o actualizar un grupo de clientes).
2. Un servidor no puede conectar con un cliente a voluntad. 3. Los problemas de las conexiones cliente inalámbricas frente a las cableadas y la conservación de la energía son generalmente inmateriales. 4. Un cliente es libre de gestionar sus propios datos y transacciones mientras está desconectado. También puede efectuar su propia recuperación en cierta medida. 5. Un cliente tiene varias formas de conectar con un servidor, y en caso de muchos servidores, puede elegir el servidor en particular con el que quiere conectar en base a la proximidad, los nodos de comunicación disponibles, los recursos disponibles, etcétera.
Bases de datos multimedia En los próximos años se espera que los sistemas de información multimedia dominen nuestra actividad diaria. Nuestras casas estarán cableadas para permitir grandes anchos de banda que permitan interactuar con aplicaciones multimedia interactivas. Nuestras televisiones de alta definición o nuestras estaciones de trabajo tendrán acceso a un gran número de bases de datos, incluyendo librerías digitales, que distribuirán inmensas cantidades de contenido multimedia de diferentes fuentes.
La naturaleza de los datos y las aplicaciones multimedia
Los DBMSs se han ido incorporando constantemente a los tipos de datos que soportan. En la actualidad, la mayoría de sistemas admiten los siguientes tipos de datos multimedia:
Tecto, graficos, imágenes, animaciones,video, audio estructurado , audio, datos multimedia compuestos o mixtos.
Naturaleza de las aplicaciones multimedia. Los datos multimedia pueden ser almacenados, entregados y utilizados de muy diferentes formas. Las aplicaciones pueden categorizarse de la siguiente forma en función de sus características de administración de los datos:
Aplicaciones de almacén, aplicaciones de presentación, trabajo cooperativo usando información multimedia.
Cuestiones relativas a la administración de los datos
Las aplicaciones multimedia tratan con cientos de imágenes, documentos, segmentos de audio y vídeo y texto libre que dependen de una forma crucial del modelado apropiado de la estructura y del contenido de los datos para después diseñar los esquemas de base de datos adecuados para almacenar y recuperar información multimedia. Estos sistemas son complejos y abarcan un gran número de temas, entre los que se pueden citar los siguientes:
Modelado, diseño, almacenamiento, consultas y recuperación y rendimiento
Problemas de investigación abierta
Perspectiva de la recuperación de información en la consulta de bases de datos multimedia. El modelado del
contenido de datos no ha sido un tema en los modelos y sistemas de bases de datos porque los datos cuentan con
una estructura rígida y es posible inferir una de sus instancias a partir del esquema.
Requerimientos del modelado y la recuperación de datos multimedia/hipermedia. Para capturar toda la potencia
expresiva del modelado de datos multimedia, el sistema debe contar con una construcción general que pennita al
usuario especificar enlaces entre dos nodos arbitrarios. Los enlaces hipermedia, o hiperenlaces, tienen numerosas
características diferentes:
• Los enlaces pueden especificarse con o sin infonnación asociada, y pueden tener grandes descripciones
asociadas a ellos.
• Los enlaces pueden empezar desde un punto específico del nodo o desde todo él.
• Los enlaces pueden ser direccionales o sin dirección cuando pueden atravesarse en cualquier sentido.
Requerimientos del modelado y la recuperación de datos multimedia/hipermedia.
Para capturar toda la potencia expresiva del modelado de datos multimedia, el sistema debe contar con una
construcción general que pennita al usuario especificar enlaces entre dos nodos arbitrarios. Los enlaces
hipermedia, o hiperenlaces, tienen numerosas características diferentes:
• Los enlaces pueden especificarse con o sin infonnación asociada, y pueden tener grandes descripciones
asociadas a ellos.
• Los enlaces pueden empezar desde un punto específico del nodo o desde todo él.
• Los enlaces pueden ser direccionales o sin dirección cuando pueden atravesarse en cualquier sentido.
Indexación de imágenes. Existen dos métodos de indexación de imágenes: identificar los objetos
automáticamente mediante técnicas de procesamiento de imágenes, y asignar ténninos y frases índice mediante
indexa
La recuperación de información en la indexación de imágenes está basada en uno de estos tres esquemas:
1. Sistemas clasificatorios.
2. Sistemas basados en palabras clave.
3. Sistemas entidad-atributo-relación.
Problemas en la recuperación de texto. La recuperación de texto siempre ha sido la clave en las aplicaciones de negocio y sistemas de librería, y aunque se ha avanzado mucho en algunos de los problemas que veremos a continuación, aún quedan muchas mejoras por realizar, especialmente en las siguientes áreas:
• Indexación de frase.
• Uso de diccionarios de sinónimos (tesauros).
• Resolución de la ambigüedad.
Aplicaciones de bases de datos multimedia
Las aplicaciones de bases de datos multimedia a gran escala deben abarcar un gran número de disciplinas y mejorar el potencial ya existente. Algunas de las aplicaciones importantes implicadas serán:
• Administración de documentos y registros.
• Diseminación del conocimiento.
• Educación y aprendizaje.
• Marketing, publicidad, ventas, entretenimiento y viajes.
• Control en tiempo real y monitorización.
Sistemas comerciales para la administración de Información multimedia.
No existe ningún DBMS diseñado en exclusiva para controlar datos multimedia, por lo que no hay nada que tenga todas las funcionalidades necesarias para dar un soporte completo a todas estas aplicaciones. Sin embargo, algunos DBMSs soportan tipos de datos multimedia; podemos citar Informix Dynamic Server, UDB (Base de datos universal DB2, DB2 Universal Database) de IBM, Oracle 9 y 10, CA-JASMINE, SYBASE y ODB 11.
GIS (Sistemas de información geográfica,
Geographic Information Systems)Los GIS suelen estar definidos como una integración sistemática de hardware y software para la captura, el
almacenamiento, la visualización, la actualización y el análisis de datos espaciales. Durante la década de
los 60 y 70, los GIS no eran más que una simple herramienta software integrada en un computador que
permitía resolver problemas espaciales con relativa facilidad.
Componentes de los sistemas GIS
Los sistemas GIS pueden considerarse como una integración de tres componentes: hardware y software,
datos y personas.
• Hardware y software.
• Datos.
• Personas.
Características de los datos en GIS
Existen características particulares de los datos geográficos que hacen que su modelado sea más
complicado que en las aplicaciones convencionales. Seconsideran varios aspectos geograficos:
Localizacion, temporalidad, rasgos espaciales complejos, valores tematicos, objetos ambiguos, entidad a
datos basados en campos, generalizacion, roles, ID de objeto, calidad de los datos.
Restricciones en GIS. Las restricciones son un aspecto muy importante de los objetos geográficos en GIS.
Las típicas restricciones de integridad de clave, de dominio, referencial y semánticas generales no pueden
capturar las características distintivas de la información geográfica.
Modelos de datos conceptuales para GIS
Esta sección describe brevemente los modelos conceptuales más comunes para el almacenamiento de
datos espaciales en GIS. Cada uno de estos modelos está implementado actualmente en los Sistemas
Geográficos,
Mejoras OBMS para GIS
Hasta mediados de la década de los 90, los sistemas de información geográfica estaban
basados principalmente en modelos de datos propietarios. Estos modelos estaban
basados en ficheros y optimizados para conseguir un acceso rápido y eficiente.
Estándares y operaciones GIS
Uno de los primeros pasos fundamentales del diseño de una base de datos es
comprender los requisitos del sistema. El diseño se basa en los bloques de construcción
del sistema, es decir, las entidades, los métodos y las restricciones que éste podría
soportar. Las necesidades de estándares y políticas dentro de la comunidad GIS que
definan los tipos de datos y los métodos han sido dirigidas por varias organizaciones.
Los estándares definen varios métodos para la verificación de las relaciones espaciales
entre los objetos geométricos:
Igualdad, disjunto, interseccion, contacto, cruce, dentro, contiene, superposicion,
relacion.
El análisis espacial de las geometrías en el sistema se consigue definiendo los
siguientes métodos:
Distancia, bufer, convexHull, Interseccion, union , diferencia, symDifference.
La tabla de Sistemas de Referencia Espacial almacena información de cada uno de los Sistemas de Referencia individuales de la base de datos. El siguiente ejemplo muestra la creación de una tabla de estados:
CREATE TABLE ESTADOS (NombreEstado VARCHAR(50) NOT NULL, FormaEstado POLYGON NOT NULL, País VARCHAR(50), PRIMARY KEY (NombreEstado), FOREIGN KEY (País) REFERENCES PAíSES (NombrePaís), );
Esta sentencia define el nombre del estado, su geometría (polígono) y el país, además de indicar que la clave primaria es el nombre del estado (no puede ser nulo) y una clave externa contra la tabla de países. La siguiente es una sentencia que recupera los estados que tengan un área mayor que 50.000:
SELECT FROM WHERE
NombreEstado ESTADOS (AREA(FormaEstado) >50000);
Area es un método definido en los estándares OGC (OGC 1999) que devuelve el área de una superficie en las unidades del sistema de coordenadas. La sentencia siguiente recuperará todos los estados que comparten frontera con Texas. El método Touches devuelve 1 cuando las geometrías se tocan espacialmente.
SELECT FROM WHERE
S1.NombreEstado ESTADOS S1, ESTADOS S2 ( (TOUCHES( S1.FormaEstado, S2.FormaEstado) == 1) ANO (S2.NombreEstado = 'Texas') )
Aplicaciones y software GIS
Desde que GIS trata con el mundo que nos rodea, existen una gran cantidad de aplicaciones basadas en él. GIS empezó en los centros de investigación de las universidades y ha sido utilizado tradicionalmente por empresas Y disciplinas específicas como los militares y el gobierno. GIS se expandió a otros campos en la década pasada, como el mercado inmobiliario, y en la actualidad se utiliza en casi todos los aspectos de nuestra vida cotidiana.
Trabajo futuro en GIS
GIS se ha desarrollado rápidamente sobre todo durante los últimos diez
años. El auge de las tecnologías de bases de datos y el creciente
interés que muestran las nuevas disciplinas por GIS han dado lugar a
nuevas preguntas y problemas. Las nuevas aplicaciones continuarán
presentando nuevos desafíos como los siguientes:
-Fuentes de datos.
-Modelos de datos.
-Estándares.
-Nuevas arquitecturas.
-Estrategia del ciclo de vida del objeto y su versionado.
-GIS móvil.
-GIS temporal.
-Modelado de varios aspectos de GIS.
-Notación común.
-Generalización.
-DBMSs especializados para GIS.
Control de los datos del genomaBiología y genética
La biología engloba una enorme variedad de información. Las ciencias medioambientales nos ofrecen una visión del modo en que las especies viven e interactúan en un mundo repleto de fenómenos naturales.
La genética ha emergido como un campo ideal para la aplicación de la tecnología de la información. En un sentido amplio, puede considerarse como la construcción de modelos de datos basados en la información sobre los genes (considerados como las unidades fundamentales de la herencia) y la búsqueda de relaciones entre esa información.
Características de los datos biológicos
Los datos biológicos exhiben muchas características especiales que hacen que su control suponga un gran problema. Por ejemplo, las nuevas técnicas experimentales permiten la obtención de ingentes cantidades de datos biológicos a partir de un único experimento.
Característica 1. Los datos biológicos son altamente complejos en comparación con la mayoría de otros dominios o aplicaciones.
Característica 2. La cantidad y el rango de variación de los datos son grandes.
Característica 3. Los esquemas de las bases de datos biológicas cambian rápidamente.
Característica 4. Las representaciones del mismo dato realizadas por distintos biólogos podrían ser diferentes (incluso usando el mismo sistema).
Característica 5. La mayoría de los usuarios de los datos biológicos no necesitan acceso de escritura a la base de datos; un acceso de sólo lectura sería suficiente.
Característica 6. La mayoría de biólogos no tienen constancia de la estructura interna de la base de datos ni del diseño del esquema
Característica 7. El contexto de los datos añade significado sobre su uso en aplicaciones biológicas. o del esquema.
Característica 8. La definición y representación de consultas complejas es extremadamente importante para los biólogos.
Característica 9. Los usuarios de la información biológica necesitan acceder con frecuencia a los valores "antiguos" de los datos, particularmente cuando quieren verificar los resultados anteriores.
El proyecto del genoma humano y las bases de datos biológicas existentes
El término genoma está definido como la información genética total que puede obtenerse acerca de una entidad. El genoma humano, por ejemplo, suele hacer referencia al conjunto completo de genes necesarios para crear un ser humano (más de 25.000 diseminados por más de 23 pares de cromosomas y una cantidad estimada de 3 a 4 mil millones de nucleótidos).
Algunas de las bases de datos y sistemas existentes que soportan o se han desarrollado a partir del HGP.
GenBank. En la actualidad, la mejor base de datos sobre la secuencia del ADN es GenBank, mantenida por el NCBI (Centro nacional de información biotecnológica, National Center for Biotechnology Information) de la NLM (Librería nacional de medicina, National Library of Medicine).
GDB (Base de datos del genoma, Genome DataBase). Creada en 1989, la GDB es un catálogo de datos sobre el mapeo de los genes humanos, un proceso que asocia una porción de información con una localización particular en el genoma humano.
OMIM (herencia mendeliana en el hombre). La OMIM es un compendio electrónico de información de las bases genéticas de las enfermedades humanas.
EcoCyc (Enciclopedia de los genes y el metabolismo de la Escherichia coli,
Encyclopedia of Escherichia coli Genes and Metabolism) es un reciente
experimento que combina información acerca del genoma y el metabolismo de la
E. coli K-12.
Durante los últimos diez años, el interés por las aplicaciones de bases de datos que tratan la
biología y la medicina ha aumentado sensiblemente. GenBank, GDB y OMIM se han creado
como almacenes centrales para ciertos tipos de datos biológicos, pero, aunque
extremadamente útiles, aún no cubren el espectro completo de los datos del proyecto del
genoma humano. Sin embargo, en todo el mundo se están haciendo importantes esfuerzos
destinados al diseño de nuevas herramientas y técnicas que aliviarán del problema de la
administración de los datos a los biólogos y los investigadores médicos.
Ontología del gen. El Consorcio GO (Ontología del gen, Gene Ontology) fue creado en 1998
como una colaboración entre los tres modelos de bases de datos de organismos: la FlyBase, la
MGI (Informática del genoma del ratón, Mouse Genome Informatics) y la SGD (Base de datos
del genoma del Saccharomyces, Saccharomyces or yeast Genome Database). Su objetivo es
producir un vocabulario estructurado, definido de forma precisa, común y controlado para
describir los roles de los genes en cualquier organismo. Con la terminación de la secuencia del
genoma de muchas especies, se ha observado que una gran fracción de los genes de los
distintos organismos muestran similitudes en sus papeles biológicos, lo que ha llevado a los
biólogos a afirmar que es muy probable que exista un universo limitado de genes y proteínas
que se conservan en la mayoría, o en todas, las células vivas. En el otro extremo, los datos
sobre el genoma están creciendo exponencialmente y no existe un método unifonne de
interpretar y conceptuar los elementos biológicos compartidos. La GO hace posible la anotación
de los productos de genes usando un vocabulario común basado en sus atributos biológicos
compartidos y en la interoperabilidad entre las bases de datos genómicas.
Gene Expression Omnibus (GEO). Es un almacén público que almacena datos de
expresiones de genes de alto rendimiento enviados por la comunidad científica. Está mantenida
por el NCBI (Centro nacional para la información biotecnológica, National Center for
Biotechnology Information). GEO archiva datos de experimentos basados en microarrays que
miden los niveles relativos de mARN, ADN genómico y moléculas de proteínas. También
contiene datos de tecnologías que no están basadas en los arrays, como SAGE (Análisis en
serie de la expresión génica, Serial Analysis of Gene Express ion ) y la tecnología proteómica
de la espectrometría de masas. En enero de 2006 podían estudiarse más de 69.000 ejemplos
de los aproximadamente mil millones de medidas de expresiones de genes individuales, de más
de 100 organismos.
top related