bases de datos

33
CATEDRATICO: ING. JUAN JOSE CONTRERAS CATEDRA: BASE DE DATOS II SECCION: 01 TEMA: DESARROLLO DE GUIA DE INVESTIGACION DIDACTICA No.1 INTEGRANTES DEL GRUPO: CARNET NOMBRES Y APELLIDOS 17-0129-2007 Juan Fernando Peña 17-2639-2008 Elmer Alexander Andrade SAN SALVADOR, AGOSTO DE 2010

Upload: el-alex

Post on 30-Jun-2015

394 views

Category:

Documents


0 download

DESCRIPTION

TABLA DE CONTENIDO1. Clasificación de bases de datos según diferentes criterios ................................................. 32. Que son las bases de datos OLTP , características y su función? ...................................... 53. Que son las bases de Datos OLAP, características y su función? ...................................... 74. Diferentes Modelos de Bases de datos, Jerárquico, Red, Relacional y Orientado a Objetos,sus características y enfoque o funcionamiento de las B. D. ...................................................... 95. Diferentes Gestores de bases de datos(DBMS), con pago de licencia y gratuitos ............... 157. Investigar sobre como se instala el Sql Server 2008 de ser posible sobre un servidorVirtual(virtual box, vmware o Microsoft Virtual PC) .................................................................. 188. RAID, Niveles y Ventajas............................................................................................... 269. Mirror / Espejo (internet)................................................................................................ 32

TRANSCRIPT

Page 1: Bases de Datos

CATEDRATICO: ING. JUAN JOSE CONTRERAS

CATEDRA:

BASE DE DATOS II

SECCION: 01

TEMA: DESARROLLO DE GUIA DE INVESTIGACION

DIDACTICA No.1

INTEGRANTES DEL GRUPO: CARNET NOMBRES Y APELLIDOS

17-0129-2007 Juan Fernando Peña

17-2639-2008 Elmer Alexander Andrade

SAN SALVADOR, AGOSTO DE 2010

Page 2: Bases de Datos

DESARROLLO DE GUIA INVESTIGACION DIDACTICA No.1

2

TABLA DE CONTENIDO

11.. CCllaassiiffiiccaacciióónn ddee bbaasseess ddee ddaattooss sseeggúúnn ddiiffeerreenntteess ccrriitteerriiooss ................................................. 3

22.. QQuuee ssoonn llaass bbaasseess ddee ddaattooss OOLLTTPP ,, ccaarraacctteerrííssttiiccaass yy ssuu ffuunncciióónn?? ...................................... 5

33.. QQuuee ssoonn llaass bbaasseess ddee DDaattooss OOLLAAPP,, ccaarraacctteerrííssttiiccaass yy ssuu ffuunncciióónn?? ...................................... 7

44.. DDiiffeerreenntteess MMooddeellooss ddee BBaasseess ddee ddaattooss,, JJeerráárrqquuiiccoo,, RReedd,, RReellaacciioonnaall yy OOrriieennttaaddoo aa OObbjjeettooss,,

ssuuss ccaarraacctteerrííssttiiccaass yy eennffooqquuee oo ffuunncciioonnaammiieennttoo ddee llaass BB.. DD.. ...................................................... 9

55.. DDiiffeerreenntteess GGeessttoorreess ddee bbaasseess ddee ddaattooss((DDBBMMSS)),, ccoonn ppaaggoo ddee lliicceenncciiaa yy ggrraattuuiittooss ............... 15

77.. IInnvveessttiiggaarr ssoobbrree ccoommoo ssee iinnssttaallaa eell SSqqll SSeerrvveerr 22000088 ddee sseerr ppoossiibbllee ssoobbrree uunn sseerrvviiddoorr

VViirrttuuaall((vviirrttuuaall bbooxx,, vvmmwwaarree oo MMiiccrroossoofftt VViirrttuuaall PPCC)) .................................................................. 18

88.. RRAAIIDD,, NNiivveelleess yy VVeennttaajjaass............................................................................................... 26

99.. MMiirrrroorr // EEssppeejjoo ((iinntteerrnneett)) ................................................................................................ 32

Page 3: Bases de Datos

DESARROLLO DE GUIA INVESTIGACION DIDACTICA No.1

3

11.. CCllaassiiffiiccaacciióónn ddee bbaasseess ddee ddaattooss sseeggúúnn ddiiffeerreenntteess ccrriitteerriiooss

Según la variabilidad de los datos almacenados.-

Bases de datos estáticas

Éstas son bases de datos de sólo lectura, utilizadas primordialmente para almacenar datos históricos

que posteriormente se pueden utilizar para estudiar el comportamiento de un conjunto de datos a

través del tiempo, realizar proyecciones y tomar decisiones.

Bases de datos dinámicas

Éstas son bases de datos donde la información almacenada se modifica con el tiempo, permitiendo

operaciones como actualización, borrado y adición de datos, además de las operaciones

fundamentales de consulta. Un ejemplo de esto puede ser la base de datos utilizada en un sistema

de información de una tienda de abarrotes, una farmacia, un videoclub.

Según el contenido

Bases de datos bibliográficas

Solo contienen un sur rogante (representante) de la fuente primaria, que permite localizarla. Un

registro típico de una base de datos bibliográfica contiene información sobre el autor, fecha de

publicación, editorial, título, edición, de una determinada publicación, etc. Puede contener un

resumen o extracto de la publicación original, pero nunca el texto completo, porque si no, estaríamos

en presencia de una base de datos a texto completo (o de fuentes primarias —ver más abajo). Como

su nombre lo indica, el contenido son cifras o números. Por ejemplo, una colección de resultados de

análisis de laboratorio, entre otras.

Bases de datos de texto completo

Almacenan las fuentes primarias, como por ejemplo, todo el contenido de todas las ediciones de una

colección de revistas científicas.

Directorios

Un ejemplo son las guías telefónicas en formato electrónico.

Bases de datos o "bibliotecas" de información química o biológica

Son bases de datos que almacenan diferentes tipos de información proveniente de la química, las

ciencias de la vida o médicas. Se pueden considerar en varios subtipos:

Page 4: Bases de Datos

DESARROLLO DE GUIA INVESTIGACION DIDACTICA No.1

4

Las que almacenan secuencias de nucleótidos o proteínas.

Las bases de datos de rutas metabólicas.

Bases de datos de estructura, comprende los registros de datos experimentales sobre

estructuras 3D de biomoléculas.

Bases de datos clínicas.

Bases de datos bibliográficas (biológicas, químicas, médicas y de otros campos): PubChem,

Medline, EBSCOhost.

Dependiendo del tipo de cobertura temática pueden ser:

Bases de datos multidisciplinares: la documentación almacenada abarca distintas disciplinas

científicas como es el caso de TESEO (tesis de todas las disciplinas)

Bases de datos especializadas: la documentación almacenada abarca sólo una disciplina

como es el caso de Medline (sólo documentación relacionada con Medicina)

Según la cobertura geográfica:

Internacionales: Almacenan la documentación publicada en cualquier lugar del mundo. Por

ejemplo: LISA.

Nacionales: Almacenan la documentación publicada sólo en un ámbito nacional. Por

ejemplo: IME.

Clasificación de las bases de datos según la teledocumentación:

Los distribuidores pueden ofrecer bases de datos de contenido temático muy variado: medicina,

política, derecho, cultura... por esta razón algunos autores han adoptado una clasificación basada en

los trabajos de Fundesco (FUNDESCO, 1986) y de otras fuentes, que tienden a clasificar las bases

de datos según el siguiente esquema:

Bases de datos referenciales

Son aquellas que ofrecen registros que su vez son representaciones de documentos primarios.

Dentro de éstas distinguen, a su vez, entre:

a. Bibliográficas: Aquellas cuyo contenido son registros de tipo bibliográfico.

b. Directorios: Aquellas cuyo contenido está referido a la descripción de otros recursos de

información, como por ejemplo un directorio de bases de datos.

Page 5: Bases de Datos

DESARROLLO DE GUIA INVESTIGACION DIDACTICA No.1

5

Bases de datos fuente

Serían aquellas bases de datos que ofrecen el documento completo, no una representación del

mismo. También distinguen entre:

a. Numéricas: contienen información de tipo numérico, como un censo o indicadores cuantitativos.

b. Textuales: ofrecen el texto completo de un documento. c. Mixtas: combinan ambos tipos de información, como por ejemplo informes económicos

de empresas, datos geoeconómicos, etc.

De esta clasificación puede deducirse, evidentemente, que la información obtenida podrá ser

referencial o factual. Sin embargo, cabe plantear que las modificaciones que están siendo

introducidas en el ámbito de las bases de datos, tanto a escala tecnológica como de contenido,

como por ejemplo las bases de datos multimedia, introducirán variaciones en esta clasificación, que

deberá adoptar criterios más flexibles.

22.. QQuuee ssoonn llaass bbaasseess ddee ddaattooss OOLLTTPP ,, ccaarraacctteerrííssttiiccaass yy ssuu ffuunncciióónn??

Definición

OLTP es la sigla en inglés de Procesamiento de Transacciones En Línea (OnLine Transaction

Processing) es un tipo de sistemas que facilitan y administran aplicaciones transaccionales,

usualmente para entrada de datos y recuperación y procesamiento de transacciones (gestor

transaccional). Los paquetes de software para OLTP se basan en la arquitectura cliente-servidor ya

que suelen ser utilizados por empresas con una red informática distribuida.

El término puede parecer ambiguo, ya que puede entenderse "transacción" en el contexto de las

"transacciones computacionales" o de las "transacciones en bases de datos". También podría

entenderse en términos de transacciones de negocios o comerciales. OLTP también se ha utilizado

para referirse a la transformación en la que el sistema responde de inmediato a las peticiones del

usuario. Un cajero automático de un banco es un ejemplo de una aplicación de procesamiento de

transacciones comerciales.

La tecnología OLTP se utiliza en innumerables aplicaciones, como en banca electrónica,

procesamiento de pedidos, comercio electrónico, supermercados o industria.

Page 6: Bases de Datos

DESARROLLO DE GUIA INVESTIGACION DIDACTICA No.1

6

Requerimientos

El procesamiento de transacciones en línea cada vez necesita más recursos para las transacciones

que se propagan por una red y que pueden integrar a más de una empresa. Por esta razón, el

software actual para sistemas OLTP utiliza procesamiento cliente-servidor y software de

intermediación (middleware) que permite a las transacciones correr en diferentes plataformas en una

red.

En grandes aplicaciones, la eficiencia del OLTP puede depender de lo sofisticado que sea el

software de gestión de transacciones (como CICS en plataformas IBM) o de que tácticas de

optimización se utilizan para facilitar la gran cantidad de actualizaciones concurrentes que se pueden

producir en una base de datos orientada a OLTP.

En los sistemas de bases de datos descentralizados más exigentes, los programas de

intermediación OLTP distribuyen el procesamiento de transacciones entre varios ordenadores en

una red. A menudo OLTP se integra en una arquitectura orientada a servicios o en un servicio Web.

Beneficios

El procesamiento de transacciones en línea tiene dos claros beneficios: la simplicidad y la eficiencia.

Sobre la simplicidad:

La reducción de la documentación y la obtención de previsiones de ingresos y gastos de

forma más rápida y precisa son ejemplos de cómo OLTP hace las cosas más simples para

las empresas.

También proporciona una base concreta para la estabilidad de una organización gracias a

las actualizaciones oportunas.

Otro factor es la simplicidad de permitir a los consumidores la elección de la forma en que

desean pagar, por lo que es mucho más atractivo que la de hacer transacciones.

Sobre la eficiencia:

OLTP amplía la base de consumidores para una organización.

Los procesos individuales se ejecutan mucho más rápido.

Inconvenientes

OLTP es una gran herramienta para cualquier organización, aunque en su utilización hay algunas

cuestiones en las que se debe pensar ya que pueden suponer un problema: la seguridad y los

costes económicos o de tiempo.

Page 7: Bases de Datos

DESARROLLO DE GUIA INVESTIGACION DIDACTICA No.1

7

Sobre la seguridad:

Una de las ventajas de OLTP es también un posible problema. La disponibilidad a todo el

mundo que estos sistemas ofrecen a las empresas hacen a sus bases de datos mucho más

susceptibles a los intrusos y hackers.

Sobre los costes:

En las transacciones B2B, las empresas deben ir fuera de línea (offline) para completar

ciertos pasos de algunos procesos, causando que los compradores y proveedores pierdan

algunos de los beneficios de eficiencia que el sistema proporciona.

Tan simple como es un sistema OLTP, la más simple perturbación en el sistema tiene el

potencial de causar una gran cantidad de problemas, que a su vez pueden causar una

pérdida de tiempo y dinero.

Otro coste económico es la posibilidad de que se produzcan fallos en el servidor, esto puede

causar retrasos en el servicio e incluso la perdida de gran cantidad de información

importante. Para eliminar este riesgo o, al menos mitigarlo, se debe invertir en mecanismos

de seguridad.

33.. QQuuee ssoonn llaass bbaasseess ddee DDaattooss OOLLAAPP,, ccaarraacctteerrííssttiiccaass yy ssuu ffuunncciióónn??

Definición

OLAP es el acrónimo en inglés de procesamiento analítico en línea (On-Line Analytical Processing).

Es una solución utilizada en el campo de la llamada Inteligencia empresarial (o Business

Intelligence) cuyo objetivo es agilizar la consulta de grandes cantidades de datos. Para ello utiliza

estructuras multidimensionales (o Cubos OLAP) que contienen datos resumidos de grandes Bases

de datos o Sistemas Transaccionales (OLTP). Se usa en informes de negocios de ventas, marketing,

informes de dirección, minería de datos y áreas similares.

La razón de usar OLAP para las consultas es la velocidad de respuesta. Una base de datos

relacional almacena entidades en tablas discretas si han sido normalizadas. Esta estructura es

buena en un sistema OLTP pero para las complejas consultas multitabla es relativamente lenta. Un

modelo mejor para búsquedas (aunque peor desde el punto de vista operativo) es una base de datos

multidimensional.

Tradicionalmente, los sistemas OLAP se clasifican según las siguientes categorías:

ROLAP

Page 8: Bases de Datos

DESARROLLO DE GUIA INVESTIGACION DIDACTICA No.1

8

Implementación OLAP que almacena los datos en un motor relacional. Típicamente, los datos son

detallados, evitando las agregaciones y las tablas se encuentran normalizadas. Los esquemas más

comunes sobre los que se trabaja son estrella ó copo de nieve, aunque es posible trabajar sobre

cualquier base de datos relacional. La arquitectura está compuesta por un servidor de banco de

datos relacional y el motor OLAP se encuentra en un servidor dedicado. La principal ventaja de esta

arquitectura es que permite el análisis de una enorme cantidad de datos.

MOLAP

Esta implementación OLAP almacena los datos en una base de datos multidimensional. Para

optimizar los tiempos de respuesta, el resumen de la información es usualmente calculado por

adelantado. Estos valores precalculados o agregaciones son la base de las ganancias de

desempeño de este sistema. Algunos sistemas utilizan técnicas de compresión de datos para

disminuir el espacio de almacenamiento en disco debido a los valores precalculados.

HOLAP (Hybrid OLAP)

Almacena algunos datos en un motor relacional y otros en una base de datos multidimensional.

Comparación

Cada sistema OLAP tiene ciertos beneficios (aunque existe desacuerdo acerca de las características

específicas de los beneficios entre los proveedores).

Algunas implementaciones MOLAP son propensas a la "explosión" de la base de datos; este

fenómeno provoca la necesidad de grandes cantidades de espacio de almacenamiento para el uso

de una base de datos MOLAP cuando se dan ciertas condiciones: elevado número de dimensiones,

resultados precalculados y escasos datos multidimensionales. Las técnicas habituales de atenuación

de la explosión de la base de datos no son todo lo eficientes que sería deseable.

Por lo general MOLAP ofrece mejor rendimiento debido a la especializada indexación y a las

optimizaciones de almacenamiento. MOLAP también necesita menos espacio de almacenamiento

en comparación con los especializados ROLAP porque su almacenamiento especializado

normalmente incluye técnicas de compresión.

ROLAP es generalmente más escalable. Sin embargo, el gran volumen de preprocesamiento es

difícil de implementar eficientemente por lo que con frecuencia se omite; por tanto, el rendimiento de

una consulta ROLAP puede verse afectado.

Desde la aparición de ROLAP van apareciendo nuevas versiones de bases de datos preparadas

para realizar cálculos, las funciones especializadas que se pueden utilizar tienen más limitaciones.

Page 9: Bases de Datos

DESARROLLO DE GUIA INVESTIGACION DIDACTICA No.1

9

HOLAP (OLAP Híbrido) engloba un conjunto de técnicas que tratan de combinar MOLAP y ROLAP

de la mejor forma posible. Generalmente puede pre-procesar rápidamente, escala bien, y

proporciona una buena función de apoyo.

Características

La principal característica que potencia a OLAP, es que es lo más rápido a la hora de ejecutar

sentencias SQL de tipo SELECT, en contraposición con OLTP que es la mejor opción para

operaciones de tipo INSERT, UPDATE Y DELETE.

Funcionalidad

En la base de cualquier sistema OLAP se encuentra el concepto de cubo OLAP (también llamado

cubo multidimensional o hipercubo). Se compone de hechos numéricos llamados medidas que se

clasifican por dimensiones. El cubo de metadatos es típicamente creado a partir de un esquema en

estrella o copo de nieve, esquema de las tablas en una base de datos relacional. Las medidas se

obtienen de los registros de una tabla de hechos y las dimensiones se derivan de la dimensión de

los cuadros.

44.. DDiiffeerreenntteess MMooddeellooss ddee BBaasseess ddee ddaattooss,, JJeerráárrqquuiiccoo,, RReedd,, RReellaacciioonnaall yy OOrriieennttaaddoo aa

OObbjjeettooss,, ssuuss ccaarraacctteerrííssttiiccaass yy eennffooqquuee oo ffuunncciioonnaammiieennttoo ddee llaass BB.. DD..

¿Qué es modelo de datos?

Es una colección de herramientas conceptuales para describir los datos, las relaciones que existen

entre ellos, semántica asociada a los datos y restricciones de consistencia.

Los modelos de datos se dividen en tres grupos:

Modelos lógicos basados en objetos.

Modelos lógicos basados en registros.

Modelos físicos de datos.

Modelos lógicos basados en objetos.

Se usan para describir datos en los niveles conceptual y de visión, es decir, con este modelo

representamos los datos de tal forma como nosotros los captamos en el mundo real, tienen una

capacidad de estructuración bastante flexible y permiten especificar restricciones de datos

explícitamente. Existen diferentes modelos de este tipo, pero el más utilizado por su sencillez y

eficiencia es el modelo Entidad-Relación.

Page 10: Bases de Datos

DESARROLLO DE GUIA INVESTIGACION DIDACTICA No.1

10

Modelo Entidad-Relación.

Denominado por sus siglas como: E-R; Este modelo representa a la realidad a través de entidades,

que son objetos que existen y que se distinguen de otros por sus características, por ejemplo: un

alumno se distingue de otro por sus características particulares como lo es el nombre, o el numero

de control asignado al entrar a una institución educativa, así mismo, un empleado, una materia, etc.

Las entidades pueden ser de dos tipos:

Tangibles: Son todos aquellos objetos físicos que podemos ver, tocar o sentir.

Intangibles: Todos aquellos eventos u objetos conceptuales que no podemos ver, aun sabiendo que existen, por ejemplo: la entidad materia, sabemos que existe, sin embargo, no la podemos visualizar o tocar.

Las características de las entidades en base de datos se llaman atributos, por ejemplo el nombre,

dirección teléfono, grado, grupo, etc. son atributos de la entidad alumno; Clave, número de seguro

social, departamento, etc., son atributos de la entidad empleado. A su vez una entidad se puede

asociar o relacionar con más entidades a través de relaciones, ejemplo:

Se considera una empresa que requiere controlar a los vendedores y las ventas que ellos realizan;

de este problema determinamos que los objetos o entidades principales a estudiar son el empleado

(vendedor) y el artículo (que es el producto en venta), y las características que los identifican son:

Empleado

Nombre

Puesto

Salario

R.F.C.

Artículo

Descripción

Costo

Clave

La relación entre ambas entidades la podemos establecer como Venta.

Bueno, ahora nos falta describir como se representa un modelo E-R gráficamente, la representación

es muy sencilla, se emplean símbolos, los cuales son:

Page 11: Bases de Datos

DESARROLLO DE GUIA INVESTIGACION DIDACTICA No.1

11

Símbolo Representa

Así nuestro ejemplo anterior quedaría representado de la siguiente forma:

Existen más aspectos a considerar con respecto a los modelos entidad relación, estos serán

considerados en el tema Modelo Entidad Relación.

Modelos lógicos basados en registros.

Se utilizan para describir datos en los niveles conceptual y físico.

Estos modelos utilizan registros e instancias para representar la realidad, así como las relaciones

que existen entre estos registros (ligas) o apuntadores. A diferencia de los modelos de datos

basados en objetos, se usan para especificar la estructura lógica global de la base de datos y para

proporcionar una descripción a nivel más alto de la implementación.

Los tres modelos de datos más ampliamente aceptados son:

Modelo Relacional

Modelo de Red

Modelo Jerárquico

Page 12: Bases de Datos

DESARROLLO DE GUIA INVESTIGACION DIDACTICA No.1

12

Modelo relacional.

En este modelo se representan los datos y las relaciones entre estos, a través de una colección de

tablas, en las cuales los renglones (tuplas) equivalen a los cada uno de los registros que contendrá

la base de datos y las columnas corresponden a las características(atributos) de cada registro

localizado en la tupla;

Considerando nuestro ejemplo del empleado y el artículo:

Tabla del empleado

¿Cómo se representan las relaciones entre las entidades en este modelo?

Existen dos formas de representarla; pero para ello necesitamos definir que es una llave primaria: Es

un atributo el cual definimos como atributo principal, es una forma única de identificar a una entidad.

Por ejemplo, el RFC de un empleado se distingue de otro por que los RFC no pueden ser iguales.

Ahora si, las formas de representar las relaciones en este modelo son:

1. Haciendo una tabla que contenga cada una de las llaves primarias de las entidades involucradas

en la relación.

Tomando en cuenta que la llave primaria del empleado es su RFC, y la llave primaria del artículo es

la Clave.

Page 13: Bases de Datos

DESARROLLO DE GUIA INVESTIGACION DIDACTICA No.1

13

2. Incluyendo en alguna de las tablas de las entidades involucradas, la llave de la otra tabla.

Modelo de red.

Este modelo representa los datos mediante colecciones de registros

y sus relaciones se representan por medio de ligas o enlaces,

los cuales pueden verse como punteros. Los registros se organizan

en un conjunto de gráficas arbitrarias.

Ejemplo:

Modelo jerárquico.

Es similar al modelo de red en cuanto a las relaciones y datos, ya que estos se representan por

medio de registros y sus ligas. La diferencia radica en que están organizados por conjuntos

de arboles en lugar de gráficas arbitrarias.

Page 14: Bases de Datos

DESARROLLO DE GUIA INVESTIGACION DIDACTICA No.1

14

Modelo relacional

El modelo relacional para la gestión de una base de datos es un modelo de datos basado en la

lógica de predicado y en la teoría de conjuntos. Es el modelo más utilizado en la actualidad para

modelar problemas reales y administrar datos dinámicamente. Tras ser postuladas sus bases en

1970 por Edgar Frank Codd, de los laboratorios IBM en San José (California), no tardó en

consolidarse como un nuevo paradigma en los modelos de base de datos.

Su idea fundamental es el uso de «relaciones». Estas relaciones podrían considerarse en forma

lógica como conjuntos de datos llamados «tuplas». Pese a que ésta es la teoría de las bases de

datos relacionales creadas por Edgar Frank Codd, la mayoría de las veces se conceptualiza de una

manera más fácil de imaginar, esto es, pensando en cada relación como si fuese una tabla que está

compuestas por registros (cada fila de la tabla sería un registro o tupla), y columnas (también

llamadas campos).

Descripción

En este modelo todos los datos son almacenados en relaciones, y como cada relación es un

conjunto de datos, el orden en el que estos se almacenen no tiene mayor relevancia (a diferencia de

otros modelos como el jerárquico y el de red). Esto tiene la considerable ventaja de que es más fácil

de entender y de utilizar por un usuario no experto. La información puede ser recuperada o

almacenada por medio de «consultas» que ofrecen una amplia flexibilidad y poder para administrar

la información.

Este modelo considera la base de datos como una colección de relaciones. De manera simple, una

relación representa una tabla que no es más que un conjunto de filas, cada fila es un conjunto de

campos y cada campo representa un valor que interpretado describe el mundo real. Cada fila

también se puede denominar tupla o registro y a cada columna también se le puede llamar campo o

atributo.

Para manipular la información utilizamos un lenguaje relacional, actualmente se cuenta con dos

lenguajes formales el Álgebra relacional y el Cálculo relacional. El Álgebra relacional permite

describir la forma de realizar una consulta, en cambio, el Cálculo relacional sólo indica lo que se

desea devolver.

El lenguaje más común para construir las consultas a bases de datos relacionales es SQL,

Structured Query Language o Lenguaje Estructurado de Consultas, un estándar implementado por

los principales motores o sistemas de gestión de bases de datos relacionales.

Page 15: Bases de Datos

DESARROLLO DE GUIA INVESTIGACION DIDACTICA No.1

15

55.. DDiiffeerreenntteess GGeessttoorreess ddee bbaasseess ddee ddaattooss((DDBBMMSS)),, ccoonn ppaaggoo ddee lliicceenncciiaa yy ggrraattuuiittooss

Los sistemas de gestión de bases de datos (en inglés database management system, abreviado

DBMS) son un tipo de software muy específico, dedicado a servir de interfaz entre la base de datos,

el usuario y las aplicaciones que la utilizan.

Los hechos general de los sistemas de gestor de bases de datos es el de manejar de manera clara,

sencilla y ordenada un conjunto de datos que posteriormente se convertirán en información relevante

para una organización.

Existen distintos objetivos que deben cumplir los SGBD:

Abstracción de la información. Los SGBD ahorran a los usuarios detalles acerca del

almacenamiento físico de los datos. Da lo mismo si una base de datos ocupa uno o cientos

de archivos, este hecho se hace transparente al usuario. Así, se definen varios niveles de

abstracción.

Independencia. La independencia de los datos consiste en la capacidad de modificar el

esquema (físico o lógico) de una base de datos sin tener que realizar cambios en las

aplicaciones que se sirven de ella.

Consistencia. En aquellos casos en los que no se ha logrado eliminar la redundancia, será

necesario vigilar que aquella información que aparece repetida se actualice de forma

coherente, es decir, que todos los datos repetidos se actualicen de forma simultánea. Por

otra parte, la base de datos representa una realidad determinada que tiene determinadas

condiciones, por ejemplo que los menores de edad no pueden tener licencia de conducir. El

sistema no debería aceptar datos de un conductor menor de edad. En los SGBD existen

herramientas que facilitan la programación de este tipo de condiciones.

Seguridad. La información almacenada en una base de datos puede llegar a tener un gran

valor. Los SGBD deben garantizar que esta información se encuentra segura de permisos a

usuarios y grupos de usuarios, que permiten otorgar diversas categorías de permisos.

Manejo de transacciones. Una transacción es un programa que se ejecuta como una sola

operación. Esto quiere decir que luego de una ejecución en la que se produce una falla es el

mismo que se obtendría si el programa no se hubiera ejecutado. Los SGBD proveen

mecanismos para programar las modificaciones de los datos de una forma mucho más

simple que si no se dispusiera de ellos.

Tiempo de respuesta. Lógicamente, es deseable minimizar el tiempo que el SGBD tarda en

darnos la información solicitada y en almacenar los cambios realizados.

Ventajas

Proveen facilidades para la manipulación de grandes volúmenes de datos (ver objetivos).

Entre éstas:

Page 16: Bases de Datos

DESARROLLO DE GUIA INVESTIGACION DIDACTICA No.1

16

o Simplifican la programación de equipos de consistencia.

o Manejando las políticas de respaldo adecuadas, garantizan que los cambios de la

base serán siempre consistentes sin importar si hay errores correctamente, etc.

o Organizan los datos con un impacto mínimo en el código de los programas.

o Bajan drásticamente los tiempos de desarrollo y aumentan la calidad del sistema

desarrollado si son bien explotados por los desarrolladores.

Usualmente, proveen interfaces y lenguajes de consulta que simplifican la recuperación de

los datos.

Inconvenientes

1. Típicamente, es necesario disponer de una o más personas que administren de la base de

datos, en la misma forma en que suele ser necesario en instalaciones de cierto porte

disponer de una o más personas que administren los sistemas operativos. Esto puede llegar

a incrementar los costos de operación en una empresa. Sin embargo hay que balancear

este aspecto con la calidad y confiabilidad del sistema que se obtiene.

2. Si se tienen muy pocos datos que son usados por un único usuario por vez y no hay que

realizar consultas complejas sobre los datos, entonces es posible que sea mejor usar una

planilla de cálculo.

3. Complejidad: los software muy complejos y las personas que vayan a usarlo deben tener

conocimiento de las funcionalidades del mismo para poder aprovecharlo al máximo.

4. Tamaño: la complejidad y la gran cantidad de funciones que tienen hacen que sea un

software de gran tamaño, que requiere de gran cantidad de memoria para poder correr.

5. Coste del hardware adicional: los requisitos de hardware para correr un SGBD por lo general

son relativamente altos, por lo que estos equipos pueden llegar a costar gran cantidad de

dinero.

SGBD libres

MySQL Licencia Dual, depende el uso (no se sabe hasta cuando, ya que la compró Oracle).

Sin embargo, existen 2 versiones: una gratuita que sería equivalente a la edición "express"

SQL server de Microsoft Windows y otra más completa de pago, ese pago se haría en la

licencia de ella ya que permitiría usarse en otras distribuciones sin usar la licencia GNU.

PostgreSQL (http://www.postgresql.org Postgresql) Licencia BSD

Firebird basada en la versión 6 de InterBase, Initial Developer's PUBLIC LICENSE Version

1.0.

SQLite (http://www.sqlite.org SQLite) Licencia Dominio Público

DB2 Express-C (http://www.ibm.com/software/data/db2/express/)

Apache Derby (http://db.apache.org/derby/)

Page 17: Bases de Datos

DESARROLLO DE GUIA INVESTIGACION DIDACTICA No.1

17

SGBD no libres

Advantage Database

dBase

FileMaker

Fox Pro

IBM DB2 Universal Database (DB2 UDB)

IBM Informix

Interbase de CodeGear, filial de Borland

MAGIC

Microsoft Access

Microsoft SQL Server

NexusDB

Open Access

Oracle

Paradox

PervasiveSQL

Progress (DBMS)

Sybase ASE

Sybase ASA

Sybase IQ

WindowBase

IBM IMS Base de Datos Jerárquica

CA-IDMS

66.. QQuuee eess SSQQLL SSeerrvveerr 22000088?? YY eell lleenngguuaajjee TTrraannssaacctt SSQQLL SSeerrvveerr((TT--SSQQLL))

¿Qué es Sql Server 2008?

Microsoft SQL Server 2008 es un sistema para la gestión de bases de datos producido por Microsoft

basado en el modelo relacional. Sus lenguajes para consultas son T-SQL y ANSI SQL.

Lenguaje Transact SQL Server(T-SQL)

(T-SQL). Transact-SQL es una extensión del lenguaje SQL, propiedad de Microsoft y Sybase. La

implementación de Microsoft funciona en los productos Microsoft SQL Server. En tanto, Sybase

utiliza el lenguaje en su Adaptative Server Enterprise, el sucesor de Sybase SQL Server.

Para hacer a SQL más poderoso, le fueron agregados algunas características como:

-Mejora en las declaraciones DELETE y UPDATE.

-Variables locales.

Page 18: Bases de Datos

DESARROLLO DE GUIA INVESTIGACION DIDACTICA No.1

18

-Soporte de varias funciones para el procesamiento de cadenas, datos, matemática, etc.

-Un lenguaje de control de flujos.

Para el lenguaje de control de flujos utiliza palabras claves como BEGIN y END, BREAK,

CONTINUE, GOTO, IF y ELSE, RETURN, WAITFOR y WHILE.

Para las variables locales utiliza DECLARE para declararlas y SET para proveerles un valor.

En tanto las mejoras en las declaraciones DELETE Y UPDATE se debe a que ambas permiten una

cláusula FROM.

Los críticos de Transact-SQL dicen que las caracterísitcas adicionales rompen la compatibilidad con

el SQL estándar. También critican que lo que Transact-SQL hace es posible implementarse a través

de los lenguajes de programación y SQL embebido.

77.. IInnvveessttiiggaarr ssoobbrree ccoommoo ssee iinnssttaallaa eell SSqqll SSeerrvveerr 22000088 ddee sseerr ppoossiibbllee ssoobbrree uunn sseerrvviiddoorr

VViirrttuuaall((vviirrttuuaall bbooxx,, vvmmwwaarree oo MMiiccrroossoofftt VViirrttuuaall PPCC))

INSTALACION DE MICROSOFT SQL SERVER 2008

Si bien la instalación de Microsoft SQL Server 2008 no es complicada, es de gran importancia

conocer acerca de lo que se está realizando en cada uno de los pasos del proceso, realizar una

instalación a ciegas podría terminar en una instalación de más o menos servicios de los necesarios,

en la implementación de malas prácticas de seguridad entre muchas otras.

Antes de Instalar

Es importante que antes de instalar SQL Server se tengan en cuenta algunas recomendaciones

importantes:

1. Decidir la edición de SQL Server 2008 que se desea instalar.

2. Revisar que se cumpla con los requerimientos de hardware y software necesarios para instalar

SQL Server 2008, la información al respecto se encuentra en la documentación del producto, al

final de este documento se presenta el link hacia dicha documentación.

3. Crear cuentas para los servicios de SQL Server, estas cuentas deben ser creadas con privilegios

mínimos ya que durante el proceso de instalación, el asistente les asignará los permisos

necesarios para ejecutar los respectivos servicios.

Page 19: Bases de Datos

DESARROLLO DE GUIA INVESTIGACION DIDACTICA No.1

19

La creación de estas cuentas de servicio NO es obligatoria para poder instalar SQL Server, pero

es una buena práctica de seguridad

Instalando

A continuación se muestra una guía paso a paso de la instalación de SQL Server 2008, con sus

componentes de administración.

“En SQL Server Installation Center” es posible revisar información detallada acerca de

requerimientos para la instalación, recomendaciones de seguridad y adicionalmente realizar un

chequeo de la configuración del sistema.

Haga clic en “System Configuration Checker”

Revise el reporte y haga clic en OK

Ahora, vaya al tab “Installation”, y allí seleccione la opción “New SQL Server stand alone installation

or add features to an existing installation”

Page 20: Bases de Datos

DESARROLLO DE GUIA INVESTIGACION DIDACTICA No.1

20

Observe de nuevo el reporte y haga clic en “OK”

Si está instalando una versión de pruebas (cómo en este ejemplo) de SQL Server, podrá seleccionar

la opción correspondiente para la edición que desee; en una instalación diferente, agregue la clave

de producto y haga clic en “Next”

Ahora, lea los términos de licencia y luego, si está de acuerdo seleccione la opción correspondiente

y haga clic en “Next”

A continuación, se instalan componentes de soporte necesarios para la instalación, haga clic en

“Install” para instalarlos

Page 21: Bases de Datos

DESARROLLO DE GUIA INVESTIGACION DIDACTICA No.1

21

Ahora haga clic en “Next”

Ahora, deberá seleccionar las características de SQL server 2008 que desea instalar; Asegúrese de

instalar los servicios que en algún momento vaya a utilizar, si está totalmente seguro que no va a

usar un servicio específico cómo Analysis Services, limpie la casilla de verificación junto a él, y haga

clic en “Next”.

A continuación tendrá que decidir si la instancia que va instalar es una instancia por defecto o

nombrada, en el segundo caso tendrá que asignar a esta un nombre con el cual la reconocerá a

futuro; si la instancia es creada por defecto, la forma de conectarse a esta desde servidores o

equipos clientes remotos, será por medio del nombre de la máquina o de la dirección ip de la misma.

Haga clic en “Next”.

En la siguiente ventana, se encuentra un análisis de requerimientos de espacio, cuando se haya

comprobado que cuenta con el espacio de almacenamiento suficiente, haga clic en “Next”

Page 22: Bases de Datos

DESARROLLO DE GUIA INVESTIGACION DIDACTICA No.1

22

Ahora, usted deberá configurar las cuentas con las cuales se ejecutará el servicio; la recomendación

es utilizar diferentes cuentas, sin embargo, en la imagen de la derecha usted puede observar cómo

una cuenta es utilizada para ejecutar más de un servicio, en la parte inferior podría seleccionar la

opción para utilizar la misma cuenta para todos los servicios, en cuyo caso solamente tendrá que

escribir credenciales una vez, pero no estará cumpliendo con buenas prácticas de seguridad.

Después de configurar las cuentas, haga clic en el tab “Collation”.

En Collation, observe los métodos de ordenamiento que van a ser utilizados tanto para SQL Server

cómo para Analysis Services; es importante que tenga un cuenta si existen regulaciones en su

organización acerca del tipo de ordenamiento a utilizar, y de no ser así, busque que tanto las bases

de datos, cómo Analysis Services tengan modelos de ordenamiento similares para evitar problemas

cuando estos dos componentes se conecten entre sí. Haga clic en Next

Ahora, tendrá que definir si va a utilizar un modelo de autenticación Windows o Mixto, y si especifica

un modelo mixto deberá escribir una contraseña para el usuario administrador tipo SQL; Recuerde

que el modo mixto permite la utilización de inicios de sesión tipo SQL (usuarios que no hacen parte

de Windows) y es utilizada para dar acceso a SQL Server desde aplicaciones, entre otras cosas. De

todas maneras se recomienda por razones de seguridad y mientras sea posible, utilizar el modo de

Page 23: Bases de Datos

DESARROLLO DE GUIA INVESTIGACION DIDACTICA No.1

23

autenticación tipo Windows. Agregue también como administrador a cualquier usuario que vaya a

cumplir con dicha tarea, por ejemplo el usuario que está ejecutando la instalación (Add current User)

Haga clic en “Data Directories”

Ahora revise las ubicaciones físicas donde va a quedar instalado SQL Server y cada uno de sus

componentes, Haga clic en Next

Agregue los usuarios que van a ser administradores de Análisis Services, puede agregar al usuario

con el que está ejecutando la instalación o a cualquier otro usuario, vaya a “Data Directories”

Revise la ubicación donde va a quedar almacenada la información de Analysis Services, haga clic en

„‟Next”

Page 24: Bases de Datos

DESARROLLO DE GUIA INVESTIGACION DIDACTICA No.1

24

Defina en qué modo va a instalar reporting services, puede instalarlo en el modo nativo (para que

pueda usar reporting services una vez termine la instalación sin necesidad de SharePoint), otro es el

modo integrado con SharePoint (que almacenara sus reportes en una librería de reportes de

SharePoint) o bien puede instalar Reporting Services pero no configurarlo, lo cual implica que luego

debería realizar dicha configuración (esta opción se utilizaría si piensa realizar una configuración

escalada de Reporting Services) Para efectos de este ejemplo, seleccionamos el modo nativo. Haga

clic en “Next”

Ahora, seleccione las opciones para que se envíen reportes de errores y de uso de características

hacia Microsoft y haga clic en “Next”

Haga clic en “Next”

Revise el resumen y haga clic en “Install”

Page 25: Bases de Datos

DESARROLLO DE GUIA INVESTIGACION DIDACTICA No.1

25

La instalación está siendo realizada

La instalación ha sido completada

Si desea ver un resumen de la instalación, aquí encuentra un link hacia dicho registro de resumen;

Haga clic en “Close” para salir, la instalación ha sido terminada.

Page 26: Bases de Datos

DESARROLLO DE GUIA INVESTIGACION DIDACTICA No.1

26

88.. RRAAIIDD,, NNiivveelleess yy VVeennttaajjaass

¿Qué es RAID?

El término RAID es un acrónimo del inglés "Redundant Array of Independent Disks". Significa matriz

redundante de discos independientes. RAID es un método de combinación de varios discos duros

para formar una única unidad lógica en la que se almacenan los datos de forma redundante. Ofrece

mayor tolerancia a fallos y más altos niveles de rendimiento que un sólo disco duro o un grupo de

discos duros independientes.

Una matriz consta de dos o más discos duros que ante el sistema principal funcionan como un único

dispositivo. Un RAID, para el sistema operativo, aparenta ser un sólo disco duro lógico (LUN). Los

datos se desglosan en fragmentos que se escriben en varias unidades de forma simultánea. En este

método, la información se reparte entre varios discos, usando técnicas como el entrelazado de

bloques (RAID nivel 0) o la duplicación de discos (RAID nivel 1) para proporcionar redundancia,

reducir el tiempo de acceso, y/o obtener mayor ancho de banda para leer y/o escribir, así como la

posibilidad de recuperar un sistema tras la avería de uno de los discos.

La tecnología RAID protege los datos contra el fallo de una unidad de disco duro. Si se produce un

fallo, RAID mantiene el servidor activo y en funcionamiento hasta que se sustituya la unidad

defectuosa.

La tecnología RAID se utiliza también con mucha frecuencia para mejorar el rendimiento de

servidores y estaciones de trabajo. Estos dos objetivos, protección de datos y mejora del

rendimiento, no se excluyen entre sí.

RAID ofrece varias opciones, llamadas niveles RAID, cada una de las cuales proporciona un

equilibrio distinto entre tolerancia a fallos, rendimiento y coste.

Todos los sistemas RAID suponen la pérdida de parte de la capacidad de almacenamiento de los

discos, para conseguir la redundancia o almacenar los datos de paridad.

Los sistemas RAID profesionales deben incluir los elementos críticos por duplicado: fuentes de

alimentación y ventiladores redundantes y Hot Swap. De poco sirve disponer de un sistema tolerante

al fallo de un disco si después falla por ejemplo una fuente de alimentación que provoca la caída del

sistema.

También cada vez es más recomendable, sobre todo en instalaciones de cluster, configuraciones de

dos controladoras redundantes y Hot Swap, de manera que en el caso de fallo de una de ellas se

puede proceder a su sustitución sin tener que detener el funcionamiento del sistema. Además, esta

configuración con controladoras redundantes nos permite conectar el sistema RAID a diferentes

servidores simultáneamente.

Niveles de RAID

La elección de los diferentes niveles de RAID va a depender de las necesidades del usuario en lo

que respecta a factores como seguridad, velocidad, capacidad, coste, etc. Cada nivel de RAID

ofrece una combinación específica de tolerancia a fallos (redundancia), rendimiento y coste,

diseñadas para satisfacer las diferentes necesidades de almacenamiento. La mayoría de los niveles

Page 27: Bases de Datos

DESARROLLO DE GUIA INVESTIGACION DIDACTICA No.1

27

RAID pueden satisfacer de manera efectiva sólo uno o dos de estos criterios. No hay un nivel de

RAID mejor que otro; cada uno es apropiado para determinadas aplicaciones y entornos

informáticos. De hecho, resulta frecuente el uso de varios niveles RAID para distintas aplicaciones

del mismo servidor. Oficialmente existen siete niveles diferentes de RAID (0-6), definidos y

aprobados por el RAID Advisory Board (RAB). Luego existen las posibles combinaciones de estos

niveles (10, 50,...). Los niveles RAID 0, 1, 0+1 y 5 son los más populares.

RAID 0:

Disk Striping "La más alta transferencia, pero sin tolerancia a fallos".

También conocido como "Separación o Fraccionamiento/ Striping". Los datos se desglosan en

pequeños segmentos y se distribuyen entre varias unidades. Este nivel de "array" o matriz no ofrece

tolerancia al fallo. Al no existir redundancia, RAID 0 no ofrece ninguna protección de los datos. El

fallo de cualquier disco de la matriz tendría como resultado la pérdida de los datos y sería necesario

restaurarlos desde una copia de seguridad. Por lo tanto, RAID 0 no se ajusta realmente al acrónimo

RAID. Consiste en una serie de unidades de disco conectadas en paralelo que permiten una

transferencia simultánea de datos a todos ellos, con lo que se obtiene una gran velocidad en las

operaciones de lectura y escritura. La velocidad de transferencia de datos aumenta en relación al

número de discos que forman el conjunto. Esto representa una gran ventaja en operaciones

secuenciales con ficheros de gran tamaño. Por lo tanto, este array es aconsejable en aplicaciones

de tratamiento de imágenes, audio, video o CAD/CAM, es decir, es una buena solución para

cualquier aplicación que necesite un almacenamiento a gran velocidad pero que no requiera

tolerancia a fallos. Se necesita un mínimo de dos unidades de disco para implementar una solución

RAID 0.

RAID 1:

Mirroring "Redundancia. Más rápido que un disco y más seguro"

También llamado "Mirroring" o "Duplicación" (Creación de discos en espejo). Se basa en la

utilización de discos adicionales sobre los que se realiza una copia en todo momento de los datos

que se están modificando. RAID 1 ofrece una excelente disponibilidad de los datos mediante la

redundancia total de los mismos. Para ello, se duplican todos los datos de una unidad o matriz en

otra. De esta manera se asegura la integridad de los datos y la tolerancia al fallo, pues en caso de

avería, la controladora sigue trabajando con los discos no dañados sin detener el sistema. Los datos

se pueden leer desde la unidad o matriz duplicada sin que se produzcan interrupciones. RAID 1 es

una alternativa costosa para los grandes sistemas, ya que las unidades se deben añadir en pares

para aumentar la capacidad de almacenamiento. Sin embargo, RAID 1 es una buena solución para

las aplicaciones que requieren redundancia cuando hay sólo dos unidades disponibles. Los

servidores de archivos pequeños son un buen ejemplo. Se necesita un mínimo de dos unidades para

implementar una solución RAID 1.

RAID 0+1/ RAID 0/1 ó RAID 10:

"Ambos mundos"

Page 28: Bases de Datos

DESARROLLO DE GUIA INVESTIGACION DIDACTICA No.1

28

Combinación de los arrays anteriores que proporciona velocidad y tolerancia al fallo

simultáneamente. El nivel de RAID 0+1 fracciona los datos para mejorar el rendimiento, pero

también utiliza un conjunto de discos duplicados para conseguir redundancia de datos. Al ser una

variedad de RAID híbrida, RAID 0+1 combina las ventajas de rendimiento de RAID 0 con la

redundancia que aporta RAID 1. Sin embargo, la principal desventaja es que requiere un mínimo de

cuatro unidades y sólo dos de ellas se utilizan para el almacenamiento de datos. Las unidades se

deben añadir en pares cuando se aumenta la capacidad, lo que multiplica por dos los costes de

almacenamiento. El RAID 0+1 tiene un rendimiento similar al RAID 0 y puede tolerar el fallo de

varias unidades de disco. Una configuración RAID 0+1 utiliza un número par de discos (4, 6, 8)

creando dos bloques. Cada bloque es una copia exacta del otro, de ahí RAID 1, y dentro de cada

bloque la escritura de datos se realiza en modo de bloques alternos, el sistema RAID 0. RAID 0+1 es

una excelente solución para cualquier uso que requiera gran rendimiento y tolerancia a fallos, pero

no una gran capacidad. Se utiliza normalmente en entornos como servidores de aplicaciones, que

permiten a los usuarios acceder a una aplicación en el servidor y almacenar datos en sus discos

duros locales, o como los servidores web, que permiten a los usuarios entrar en el sistema para

localizar y consultar información. Este nivel de RAID es el más rápido, el más seguro, pero por

contra el más costoso de implementar.

RAID 2:

"Acceso paralelo con discos especializados. Redundancia a través del código Hamming"

El RAID nivel 2 adapta la técnica comúnmente usada para detectar y corregir errores en memorias

de estado sólido. En un RAID de nivel 2, el código ECC (Error Correction Code) se intercala a través

de varios discos a nivel de bit. El método empleado es el Hamming. Puesto que el código Hamming

se usa tanto para detección como para corrección de errores (Error Detection and Correction), RAID

2 no hace uso completo de las amplias capacidades de detección de errores contenidas en los

discos. Las propiedades del código Hamming también restringen las configuraciones posibles de

matrices para RAID 2, particularmente el cálculo de paridad de los discos. Por lo tanto, RAID 2 no ha

sido apenas implementado en productos comerciales, lo que también es debido a que requiere

características especiales en los discos y no usa discos estándares.

Debido a que es esencialmente una tecnología de acceso paralelo, RAID 2 está más indicado para

aplicaciones que requieran una alta tasa de transferencia y menos conveniente para aquellas otras

que requieran una alta tasa de demanda I/O.

RAID 3:

"Acceso síncrono con un disco dedicado a paridad"

Dedica un único disco al almacenamiento de información de paridad. La información de ECC (Error

Checking and Correction) se usa para detectar errores. La recuperación de datos se consigue

calculando el O exclusivo (XOR) de la información registrada en los otros discos. La operación I/O

accede a todos los discos al mismo tiempo, por lo cual el RAID 3 es mejor para sistemas de un sólo

usuario con aplicaciones que contengan grandes registros.

Page 29: Bases de Datos

DESARROLLO DE GUIA INVESTIGACION DIDACTICA No.1

29

RAID 3 ofrece altas tasas de transferencia, alta fiabilidad y alta disponibilidad, a un coste

intrínsicamente inferior que un Mirroring (RAID 1). Sin embargo, su rendimiento de transacción es

pobre porque todos los discos del conjunto operan al unísono.

Se necesita un mínimo de tres unidades para implementar una solución RAID 3.

RAID 4:

"Acceso Independiente con un disco dedicado a paridad."

Basa su tolerancia al fallo en la utilización de un disco dedicado a guardar la información de paridad

calculada a partir de los datos guardados en los otros discos. En caso de avería de cualquiera de las

unidades de disco, la información se puede reconstruir en tiempo real mediante la realización de una

operación lógica de O exclusivo. Debido a su organización interna, este RAID es especialmente

indicado para el almacenamiento de ficheros de gran tamaño, lo cual lo hace ideal para aplicaciones

gráficas donde se requiera, además, fiabilidad de los datos. Se necesita un mínimo de tres unidades

para implementar una solución RAID 4. La ventaja con el RAID 3 está en que se puede acceder a

los discos de forma individual.

RAID 5:

"Acceso independiente con paridad distribuida."

Este array ofrece tolerancia al fallo, pero además, optimiza la capacidad del sistema permitiendo una

utilización de hasta el 80% de la capacidad del conjunto de discos. Esto lo consigue mediante el

cálculo de información de paridad y su almacenamiento alternativo por bloques en todos los discos

del conjunto. La información del usuario se graba por bloques y de forma alternativa en todos ellos.

De esta manera, si cualquiera de las unidades de disco falla, se puede recuperar la información en

tiempo real, sobre la marcha, mediante una simple operación de lógica de O exclusivo, sin que el

servidor deje de funcionar.

Así pues, para evitar el problema de cuello de botella que plantea el RAID 4 con el disco de

comprobación, el RAID 5 no asigna un disco específico a esta misión sino que asigna un bloque

alternativo de cada disco a esta misión de escritura. Al distribuir la función de comprobación entre

todos los discos, se disminuye el cuello de botella y con una cantidad suficiente de discos puede

llegar a eliminarse completamente, proporcionando una velocidad equivalente a un RAID 0.

RAID 5 es el nivel de RAID más eficaz y el de uso preferente para las aplicaciones de servidor

básicas para la empresa. Comparado con otros niveles RAID con tolerancia a fallos, RAID 5 ofrece

la mejor relación rendimiento-coste en un entorno con varias unidades. Gracias a la combinación del

fraccionamiento de datos y la paridad como método para recuperar los datos en caso de fallo,

constituye una solución ideal para los entornos de servidores en los que gran parte del E/S es

aleatoria, la protección y disponibilidad de los datos es fundamental y el coste es un factor

importante. Este nivel de array es especialmente indicado para trabajar con sistemas operativos

multiusuarios.

Se necesita un mínimo de tres unidades para implementar una solución RAID 5.

Los niveles 4 y 5 de RAID pueden utilizarse si se disponen de tres o más unidades de disco en la

configuración, aunque su resultado óptimo de capacidad se obtiene con siete o más unidades. RAID

Page 30: Bases de Datos

DESARROLLO DE GUIA INVESTIGACION DIDACTICA No.1

30

5 es la solución más económica por megabyte, que ofrece la mejor relación de precio, rendimiento y

disponibilidad para la mayoría de los servidores.

RAID 6:

"Acceso independiente con doble paridad"

Similar al RAID 5, pero incluye un segundo esquema de paridad distribuido por los distintos discos y

por tanto ofrece tolerancia extremadamente alta a los fallos y a las caídas de disco, ofreciendo dos

niveles de redundancia. Hay pocos ejemplos comerciales en la actualidad, ya que su coste de

implementación es mayor al de otros niveles RAID, ya que las controladoras requeridas que

soporten esta doble paridad son más complejas y caras que las de otros niveles RAID. Así pues,

comercialmente no se implementa.

Tipos de RAID

Existen dos tipos de tecnología RAID: basada en software y basada en hardware. Cada uno de ellos

tiene sus ventajas y sus inconvenientes.

A su vez, el RAID basado en hardware puede ser basado en host o RAID externo.

La ventaja de los RAID basados en hardware es su independencia de la plataforma o sistema

operativo, ya que son vistos por éste como un gran disco duro más, y además son mucho más

rápidos, entre otras ventajas. Los sistemas RAID software no son implementaciones adecuadas en

la mayoría de los casos, y cada vez son menos empleados.

El software RAID puede ser una opción apropiada cuando el factor de decisión es el coste inicial. Sin

embargo, cuando se considera el coste total de propiedad, los costes ocultos del software RAID

pueden convertirlo en la opción más cara a largo plazo. Este coste más elevado de propiedad del

RAID basado en software, es debido a la productividad más baja del usuario, costes más altos de

gestión y reconfiguración. Sistemas operativos de redes como NetWare y Windows NT incluyen

software RAID integrado. Todas las funciones RAID son manejadas por la CPU, lo que puede

ralentizar en exceso otras aplicaciones. Este tipo de RAID no ofrece protección para el sistema

operativo, a menos que se añada una unidad adicional a la matriz. Además, el RAID basado en

software no cuenta con importantes características, como el intercambio de unidades de repuesto en

funcionamiento, matrices de arranque y funciones de gestión remota. La utilización excesiva de la

CPU es su principal inconveniente. Las soluciones RAID dependen del software para controlar la

matriz. Sin embargo, las matrices basadas en software ejecutan todos los comandos de E/S y los

algoritmos con numerosas operaciones matemáticas en la CPU del host. Esto puede ralentizar el

rendimiento del sistema, ya que aumenta el tráfico del bus PCI del host y la utilización e

interrupciones de la CPU. El uso del software RAID puede degradar el rendimiento del sistema hasta

un nivel en el que resulta más costoso actualizar.

A diferencia de las matrices basadas en software, las que están basadas en hardware utilizan

controladores RAID que se conectan a una ranura PCI del host. Con tan sólo una diferencia mínima

de precio con respecto al coste del controlador que se necesita para el software RAID, el hardware

RAID ofrece ventajas significativas en lo que respecta a:

Rendimiento

Integridad de los datos

Page 31: Bases de Datos

DESARROLLO DE GUIA INVESTIGACION DIDACTICA No.1

31

Gestión de matrices

El hardware RAID basado en host supone un mayor rendimiento que el RAID basado en software,

sin embargo la solución más profesional y de gama alta es la solución hardware RAID externa. En

este caso, las operaciones RAID se llevan a cabo mediante un controlador situado en el subsistema

de almacenamiento RAID externo, que se conecta al servidor mediante un adaptador de bus de host

SCSI o Fibre Channel. Las soluciones RAID externas son independientes del sistema operativo,

aportan mayor flexibilidad y permiten crear sistemas de almacenamiento de gran capacidad para

servidores de gama alta.

Ventajas de RAID

RAID proporciona tolerancia a fallos, mejora el rendimiento del sistema y aumenta la productividad.

Tolerancia a fallos: RAID protege contra la pérdida de datos y proporciona recuperación de datos

en tiempo real con acceso interrumpido en caso de que falle un disco.

Mejora del Rendimiento/ Velocidad: Una matriz consta de dos o más discos duros que ante el

sistema principal funcionan como un único dispositivo. Los datos se desglosan en fragmentos que se

escriben en varias unidades de forma simultánea. Este proceso, denominado fraccionamiento de

datos, incrementa notablemente la capacidad de almacenamiento y ofrece mejoras significativas de

rendimiento. RAID permite a varias unidades trabajar en paralelo, lo que aumenta el rendimiento del

sistema.

Mayor Fiabilidad: Las soluciones RAID emplean dos técnicas para aumentar la fiabilidad: la

redundancia de datos y la información de paridad. La redundancia implica el almacenamiento de los

mismos datos en más de una unidad. De esta forma, si falla una unidad, todos los datos quedan

disponibles en la otra unidad, de inmediato. Aunque este planteamiento es muy eficaz, también es

muy costoso, ya que exige el uso de conjuntos de unidades duplicados. El segundo planteamiento

para la protección de los datos consiste en el uso de la paridad de datos. La paridad utiliza un

algoritmo matemático para describir los datos de una unidad. Cuando se produce un fallo en una

unidad se leen los datos correctos que quedan y se comparan con los datos de paridad

almacenados por la matriz. El uso de la paridad para obtener fiabilidad de los datos es menos

costoso que la redundancia, ya que no requiere el uso de un conjunto redundante de unidades de

disco.

Alta Disponibilidad: RAID aumenta el tiempo de funcionamiento y la disponibilidad de la red. Para

evitar los tiempos de inactividad, debe ser posible acceder a los datos en cualquier momento. La

disponibilidad de los datos se divide en dos aspectos: la integridad de los datos y tolerancia a fallos.

La integridad de los datos se refiere a la capacidad para obtener los datos adecuados en cualquier

momento. La mayoría de las soluciones RAID ofrecen reparación dinámica de sectores, que repara

sobre la marcha los sectores defectuosos debidos a errores de software. La tolerancia a fallos, el

segundo aspecto de la disponibilidad, es la capacidad para mantener los datos disponibles en caso

de que se produzcan uno o varios fallos en el sistema.

Page 32: Bases de Datos

DESARROLLO DE GUIA INVESTIGACION DIDACTICA No.1

32

99.. MMiirrrroorr // EEssppeejjoo ((iinntteerrnneett))

En internet, un espejo, (del inglés, mirror), es un sitio que contiene una réplica exacta de otro. Estas

réplicas u espejos se suelen crear para facilitar descargas grandes y facilitar el acceso a la

información aun cuando haya fallos en el servicio del servidor principal.

Los espejos suelen sincronzarse periódicamente con el servidor principal para mantener la

integridad de la información.

Es un concepto muy utilizado en foros en los cuales los usuarios de estos comparten archivos entre

sí, ya que en ocasiones algunos de estos no pueden ser descargados adecuadamente por lo que se

informa sobre un mirror para obtenerlo.

En el caso de redes, mirror también hace referencia al modo en el que trabaja un switch al hacer

replica de todos los paquetes que este conmuta direccionados a un solo puerto a través del cual, con

un analizador de tráfico, se puede observar todo el trafico de la red.

Configuración de discos en espejo

Posted by daniel on Thursday, July 15 2004 @ 06:49 PM CEST

Views: 201,077

Pequeño tutorial sobre cómo crear un sistema de discos espejo (o RAID por software) en Windows

2000 (aunque también es aplicable a XP, 2003 ...)

RAID es el acrónimo de matriz redundante de discos económicos (Redundant Array of Inexpensive

Disks). Un volumen simple no es tolerante a errores. Puede contener el espacio en un único disco

físico, utilizando una única región o varias regiones vinculadas entre sí, o puede abarcar varios

discos.

Mejora considerablemente el rendimiento del sistema de archivos, ya que permiten que varios discos

hagan el trabajo de uno, duplican datos en dos discos físicos de forma que, si se produce un error en

un disco, el sistema operativo siga funcionando. Los discos reflejados afectan al rendimiento del

sistema operativo, pero proteger contra errores en el hardware.

Configuración de discos en espejo

Antes de nada os digo como tienen que estar configurados los jumpers de los discos duros para que

en caso de fallo poder intercambiar los discos y seguir trabajando mientras regeneramos el

estropeado:

Los 2 discos duros han de estar como Master 1 en el IDE1 y el OTRO en el IDE2 el CD-ROM ha de

estar como Cable Select en el IDE1.

El siguiente texto ha sido extraido de: http://www.microsoft.com/latam/technet/articulos/200001/art05/

, lo he incluido en este documento para que se vea un poco las diferencias entre Discos Básicos y

Dinámicos. Así como las posibilidades de cada uno de ellos. (aparte que yo no se explicarme tan

bien como los de Microsoft)

Page 33: Bases de Datos

DESARROLLO DE GUIA INVESTIGACION DIDACTICA No.1

33

· Discos básicos: El Disco FT administra los discos básicos, como ya ocurría en Windows NT

Workstation 4.0. Un disco básico es un disco físico que contiene particiones primarias, particiones

extendidas y unidades lógicas. Windows 2000 Professional puede utilizar conjuntos de volúmenes,

de espejos y de bandas con o sin paridad creados en Windows NT Workstation 4.0 o versiones

anteriores, pero no puede crearlos. Además, Windows 2000 Professional no puede ampliar un disco

básico en línea, por lo que los cambios a un disco básico requieren reiniciar el sistema operativo.

MS-DOS, Windows 98 y Windows NT Workstation 4.0 pueden utilizar discos básicos.

· Discos dinámicos: El LDM administra discos dinámicos, que son discos físicos que contienen

volúmenes dinámicos (no particiones y unidades lógicas) que los usuarios crean con el complemento

Administración de discos. Los discos dinámicos pueden contener un gran número de volúmenes.

Utilice discos dinámicos si el equipo sólo ejecuta Windows 2000 Professional y desea aprovechar

características como ampliación de volúmenes en línea, tolerancia a errores, reflejos de discos y

creación de bandas de discos. Tenga en cuenta que los administradores pueden configurar discos

dinámicos en línea, lo que significa que los cambios realizados en un disco dinámico no requieren

reiniciar el sistema operativo.

Los discos dinámicos contienen volúmenes dinámicos, que pueden ser simples, distribuidos,

reflejados, seccionados o seccionados con paridad (RAID-5); RAID es el acrónimo inglés de matriz

redundante de discos económicos. Un volumen simple no es tolerante a errores. Puede contener el

espacio en un único disco físico, utilizando una única región o varias regiones vinculadas entre sí, o

puede abarcar varios discos. Un volumen simple que abarca varios discos se denomina volumen

distribuido. Los volúmenes seccionados almacenan datos en bandas alternativas en dos o más

discos físicos. Mejoran considerablemente el rendimiento del sistema de archivos, ya que permiten

que varios discos hagan el trabajo de uno. Los volúmenes reflejados son tolerantes a errores y

ofrecen redundancia. Es decir, duplican datos en dos discos físicos de forma que, si se produce un

error en un disco, el sistema operativo siga funcionando. Los discos reflejados afectan al rendimiento

del sistema operativo, pero proteger contra errores en el hardware. Sólo Windows 2000 Server

admite el tipo restante de volumen dinámico, RAID-5, pero puede crear un volumen RAID-5 en un

servidor desde Windows 2000 Professional. Los volúmenes RAID-5 reparten los datos y la paridad

en tres o más discos físicos, lo que permite al sistema operativo volver a crear los datos de una parte

con errores de un disco a partir de la paridad y los datos restantes.