datatur. almacÉn de datos para el anÁlisis y … · propio iet y los datos que se corresponden...

15
Estudios Turísticos, n.° 148 (2001), pp. 157-171 Instituto de Estudios Turísticos Secretaría General de Turismo Secretaría de Estado de Comercio y Turismo DATATUR. ALMACÉN DE DATOS PARA EL ANÁLISIS Y DIFUSIÓN DE LA INFORMACIÓN ESTADÍSTICA DEL TURISMO EN ESPAÑA José Manuel Salinas González* Resumen. Se describe en este artículo el almacén de datos turísticos creado en el Instituto de Estudios Turísticos (DATATUR). Se da una visión global del sistema tanto desde su perspectiva metodológica como técnica, haciendo hincapié sobre todo en su arquitectura y funciona- miento. Abstract. In this article is described the Tourist Information Data Warehouse developed in the Instituto de Estudios Turísticos (DATA- TUR). It shows a global visión of the system, its methodological perspective as technology, emphasizing especially in its architecture and func- tionalities. I. INTRODUCCIÓN El Sistema de Información de Estadísti- cas Turísticas (DATATUR) es hoy una rea- lidad en el Instituto de Estudios Turísticos (IET). Su desarrollo, se ha hecho a partir de las especificaciones realizadas por el propio Instituto sobre lo que debía ser un Gran Almacén de Datos Estadísticos sobre Turismo (1). La construcción de DATATUR se ha re- alizado por medio de técnicas de Data Wa- rehouse, por lo que es un sistema en cons- tante cambio y por tanto nunca puede darse por cerrado su desarrollo, ya que debe evo- lucionar y mejorarse en el tiempo, para adaptarse a los cambios que la realidad tu- rística requiere. El objetivo inicial que se quería conse- guir era proporcionar al Instituto de Estu- dios Turísticos una plataforma desde la cual poder satisfacer las demandas externas e internas de información coyuntural turís- tica, basada en un sistema que aunara la facilidad de uso por parte de los usuarios tanto como la simplicidad en su manteni- miento. El sistema actual cumple hoy en día con esas expectativas y ya es la herra- mienta de referencia obligada para propor- cionar información externa a través de In- ternet, para CC. AA., Oficinas Españolas de Turismo en el extranjero (OET's) y pú- blico en general, e información interna para uso de los técnicos de negocio del IET. El desarrollo del sistema constituye una experiencia pionera en el desarrollo de bancos de datos estadísticos con tecnología OLAP. En los próximos apartados se explicará cuáles han sido los pasos en su desarrollo, * Gerente de BG&S Online Consultores. Especialista en el desarrollo de Data Warehouse con tecnología OLAP. 157

Upload: tranliem

Post on 01-Nov-2018

217 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: DATATUR. ALMACÉN DE DATOS PARA EL ANÁLISIS Y … · propio IET y los datos que se corresponden con directorios (ejemplo, hoteles, aparta-mentos) o datos estadísticos no elevados

Estudios Turísticos, n.° 148 (2001), pp. 157-171

Instituto de Estudios TurísticosSecretaría General de Turismo

Secretaría de Estado de Comercio y Turismo

DATATUR. ALMACÉN DE DATOSPARA EL ANÁLISIS Y DIFUSIÓN DE LA INFORMACIÓN

ESTADÍSTICA DEL TURISMO EN ESPAÑA

José Manuel Salinas González*

Resumen. Se describe en este artículo el almacén de datos turísticos creado en el Instituto de Estudios Turísticos (DATATUR). Se da unavisión global del sistema tanto desde su perspectiva metodológica como técnica, haciendo hincapié sobre todo en su arquitectura y funciona-miento.

Abstract. In this article is described the Tourist Information Data Warehouse developed in the Instituto de Estudios Turísticos (DATA-TUR). It shows a global visión of the system, its methodological perspective as technology, emphasizing especially in its architecture and func-tionalities.

I. INTRODUCCIÓN

El Sistema de Información de Estadísti-cas Turísticas (DATATUR) es hoy una rea-lidad en el Instituto de Estudios Turísticos(IET). Su desarrollo, se ha hecho a partirde las especificaciones realizadas por elpropio Instituto sobre lo que debía ser unGran Almacén de Datos Estadísticos sobreTurismo (1).

La construcción de DATATUR se ha re-alizado por medio de técnicas de Data Wa-rehouse, por lo que es un sistema en cons-tante cambio y por tanto nunca puede darsepor cerrado su desarrollo, ya que debe evo-lucionar y mejorarse en el tiempo, paraadaptarse a los cambios que la realidad tu-rística requiere.

El objetivo inicial que se quería conse-guir era proporcionar al Instituto de Estu-

dios Turísticos una plataforma desde lacual poder satisfacer las demandas externase internas de información coyuntural turís-tica, basada en un sistema que aunara lafacilidad de uso por parte de los usuariostanto como la simplicidad en su manteni-miento. El sistema actual cumple hoy endía con esas expectativas y ya es la herra-mienta de referencia obligada para propor-cionar información externa a través de In-ternet, para CC. AA., Oficinas Españolasde Turismo en el extranjero (OET's) y pú-blico en general, e información interna parauso de los técnicos de negocio del IET.

El desarrollo del sistema constituye unaexperiencia pionera en el desarrollo debancos de datos estadísticos con tecnologíaOLAP.

En los próximos apartados se explicarácuáles han sido los pasos en su desarrollo,

* Gerente de BG&S Online Consultores.Especialista en el desarrollo de Data Warehouse con tecnología OLAP.

157

Page 2: DATATUR. ALMACÉN DE DATOS PARA EL ANÁLISIS Y … · propio IET y los datos que se corresponden con directorios (ejemplo, hoteles, aparta-mentos) o datos estadísticos no elevados

José Manuel Salinas González

los problemas encontrados, la tecnologíaempleada y sus perspectivas de futuro.

Para poder comprender algunos aspectosque se tratarán en este artículo es necesariodefinir una serie de conceptos relacionadoscon la arquitectura o modelado de los datos.

1.1. Conceptos OLAP

El modelado de datos tradicional y másampliamente utilizado en las bases de datosrelaciónales, es el modelo de datos norma-lizado. Este modelo es ideal para el alma-cenamiento de datos transaccionales (ope-raciones realizadas, nombres de clientes,direcciones...), pero no está enfocado al ne-gocio sino al proceso. Es, por tanto, un mo-delo de semántica débil desde el punto devista de la decisión. El usuario tiene muchaautonomía, pero debe saber cómo consultarla información y además, este margen tanamplio de autonomía puede conllevar unapérdida de control, es decir, que cada usua-rio llegue a una cifra distinta según cómoextraiga la información, ya que las infor-maciones interesantes para el usuario noexisten directamente.

Más enfocado a la decisión o al negocioes el modelado dimensional de los datosque deriva de los conceptos que han lleva-do a la emergencia de las bases de datosmultidimensionales, llamadas bases OLAP.

El objetivo principal es el análisis de unaserie de indicadores, así, para un comer-cial, los indicadores podrían ser el volumende ventas o el porcentaje de consecuciónde objetivos, para un director el margen de

beneficio o el cash-flow y para un usua-rio de negocio del sector turístico el nú-mero de visitantes o el número de hoteles.Estos indicadores se analizarán a través dedimensiones. El tiempo es una de las di-mensiones que encontraremos casi obliga-toriamente en todos los modelos multidi-mensionales, permitirá seguir la evoluciónde los indicadores por años, temporadas,meses, semanas, etc. Otra dimensión opunto de vista del negocio por la que sepodría analizar un indicador serían los pro-ductos, en el caso del comercial (ventas porproducto) o el tipo de visitante (residente,turista, excursionista), en el caso de indica-dores turísticos.

Figura 1Ejemplo de jerarquía dimensión tiempo

TIEMPO

Trimestre

Mes

158 Estudios Turísticos, n.° 148 (2001)

Page 3: DATATUR. ALMACÉN DE DATOS PARA EL ANÁLISIS Y … · propio IET y los datos que se corresponden con directorios (ejemplo, hoteles, aparta-mentos) o datos estadísticos no elevados

DATATUR. Almacén de datos para el análisis y difusión de la información estadística del turismo en España

Los elementos de una dimensión se or-denan jerárquicamente, para luego poder«navegar» por ellos subiendo, «drill-up», obajando, «drill-down», por la jerarquía. Porejemplo, en una dimensión temporal, losdías se unen en meses y los meses formantrimestres (véase figura 1).

Existen dos aproximaciones al modeladodimensional, que son el modelo en estrellay el modelo en copo de nieve. En amboscasos los indicadores se agrupan en una ta-bla central, llamada tabla de hechos. Unatabla de hechos agrupa todos los indicado-res que comparten el mismo conjunto dedimensiones y que no pueden ser deduci-dos de otros indicadores.

En el centro de la estrella se coloca latabla de hechos y a su alrededor las tablasde dimensiones. El identificador de la ta-bla de hechos es una clave múltiple com-puesta por las claves de los elementos decada una de las dimensiones de análisis(véase figura 2).

Un indicador está identificado, por tanto,en la tabla de hechos por todas las dimen-siones que lo representan (para el caso deun viajero, el tipo de viajero, el tipo de alo-jamiento utilizado, el motivo de la visita, elpaís de residencia, etc.). La ventaja de estemodelado es que la legibilidad para elusuario es muy alta, entiende perfectamen-te la finalidad del modelo y al estar orien-

Figura 2Tabla de hechos

M o d e l o en Y.sU ella Modelado DimensioiuilTibia de m«rcadot

q w l h f c JwcripdorOh»

Tenas

Utah

Reglón Nvel48

Mvcaí D RoductotTta^PO Emnarto

Clave Prod.i234

TaWa deprDescripción

ColaRool B»«f

Crtwn SodaGingat AI*

oduct.•npo

ANNA

> •

CategorliAABC

Tabla temporalTiempo^ " "

234

Artoisa/!S»/isa/

MesJanAptJulD«c

Irn!1j

4

c o o s

JO,

•tti23

_s

Tabla de •totnwioDod. Escer Detcrlp.

Rta"VanaciónPt»dicaór

AAo

Estudios Turísticos, n." 148 (2001) 159

Page 4: DATATUR. ALMACÉN DE DATOS PARA EL ANÁLISIS Y … · propio IET y los datos que se corresponden con directorios (ejemplo, hoteles, aparta-mentos) o datos estadísticos no elevados

José Manuel Salinas González

tado al tema o al negocio, el usuario sabeperfectamente cuáles son los indicadores.

El modelado en copo de nieve es unavariación del anterior en el cual las tablasde dimensiones se subdividen en tantas ta-blas como niveles tenga la jerarquía de ladimensión, esto lleva a normalizar las tablasde dimensión y evitar las redundancias. Eneste modelado se ve más claro el conceptode jerarquía dentro de una dimensión.

Esta forma de trabajar tiene sus ventajase inconvenientes en las que no entraremospor no ser la finalidad de este artículo, perosí es interesante reseñar que no todo sonventajas, ya que, por ejemplo, este diseñoestá muy vinculado a la etapa de análisis,todos los indicadores que no se definan nopueden ser nunca consultados por los usua-rios y se debe hacer un nuevo modelo oadaptar el existente para dar cabida a nue-vos indicadores.

Una de las particularidades de las herra-mientas OLAP, es que sobre la base delmodelado explicado son capaces de agre-gar o preempaquetar todos las posiblespeticiones de los usuarios previamente alas consultas, de manera que los tiemposde respuesta del usuario son muy bajos, alestar ya todo o parte calculado. Esto es po-sible, ya que agregan los datos siguiendo lajerarquía de las dimensiones definidas.

II. DESCRIPCIÓN FUNCIONALDEL SISTEMA

El sistema DATATUR consta de dife-rentes niveles de información. Su eje cen-

tral se basa en que los datos que proporcio-na para el grupo principal de usuarios, es-tán modelados dimensionalmente, es decir,están almacenados en un sistema multidi-mensional. Esto implica muchas ventajaspara este usuario final, ya que puede «na-vegar» por la información de una manerasencilla, sin tener que conocer ningún tipode lenguaje de programación, exclusiva-mente mediante el uso del ratón, puedecomponerse sus informes a medida y hacerlas selecciones que considere necesarias.

En contrapartida, el sistema está muy in-terrelacionado con el negocio, lo que re-quiere que los usuarios, por una parte, co-nozcan conceptualmente el modelo por elcual quieren navegar o extraer la informa-ción, y por otra, necesiten de unos conoci-mientos del negocio turístico o en concretode la operación o área de estudio sobre lacual estén trabajando.

Los diferentes niveles de datos que con-tiene DATATUR se han dividido dentrodel sistema en diferentes bases de datos: lade Datos Primarios o datos fuente de laoperación, que en el caso de operacionesestadísticas en las que es necesaria la ele-vación de los datos, se corresponde con losficheros pretabulables (a cada registro se leha asignado un peso específico), la Base deDatos Agregados que se identifica con losmodelos multidimensionales los cuales seexplicarán ampliamente más adelante y laBase de Datos de Metadatos o de infor-mación sobre el dato estadístico almacena-do en las otras dos, es decir, definicionesde variables, comentarios, documentos me-todológicos asociados...

160 Estudios Turísticos, n." 148 (2001)

Page 5: DATATUR. ALMACÉN DE DATOS PARA EL ANÁLISIS Y … · propio IET y los datos que se corresponden con directorios (ejemplo, hoteles, aparta-mentos) o datos estadísticos no elevados

DATATUR. Almacén de datos para el análisis y difusión de la información estadística del turismo en España

II. 1. Base de datos primarios

El almacenamiento de los datos fuentese realiza en una base de datos relacional.Los datos originarios cargados proceden defuente diversas, dependiendo no sólo delorganismo elaborador, sino también del ti-po de datos.

Existen dos tipos de datos fuente princi-palmente, los datos derivados de encuesta,que han sido elevados y tabulados para ha-cerlos corresponder a una población y queson principalmente los datos que explota elpropio IET y los datos que se correspondencon directorios (ejemplo, hoteles, aparta-mentos) o datos estadísticos no elevados(ejemplo, Balanza de Pagos por Turismo).La diferencia fundamental entre unos yotros es el tratamiento posterior que ha derealizarse sobre ellos, antes de convertirlosen multidimensionales.

Dentro de la base de datos primarios sehan creado tres grupos de tablas de datosdiferenciados, tablas de datos de entra-da, tablas de dimensiones y tablas de he-chos.

Las tablas de datos de entrada corres-ponden como su nombre indica con los da-tos fuente, estos son transformados parapoder verlos luego dimensionalmente y seconvierten en tablas de hechos. Las tablasde dimensiones son creadas con los valoresde los diferentes estados que pueden tenerlos elementos dentro de cada dimensión(véase apartado de conceptos).

Para ilustrarlo más claramente vamos aver un ejemplo real que se corresponde

con una de las principales operaciones es-tadístidas del Instituto de Estudios Turísti-cos, Frontur (Movimientos Turísticos enFronteras). Esta es una operación derivadade encuesta y los ficheros de entrada paraDATATUR son del tipo «pretabulables»,cada registro del fichero tiene asignado unpeso (representa a JC individuos).

Dentro de esta operación existen dife-rentes suboperaciones, entradas por carre-tera, entradas por aeropuertos y entradaspor tren y barco. Cada una de estas subo-peraciones tiene diferentes ficheros de da-tos muéstrales, por lo que existen diferen-tes tablas según sea la suboperación y elaño de los datos. El modelo dimensionalque se ha diseñado para Frontur Entradases, sin embargo, único, ya que se pretendíaunir toda esta información, por lo que enun primer paso del diseño hubo que selec-cionar aquellos campos comunes en todaslas suboperaciones y seleccionar los indi-cadores.

En algunas suboperaciones las transfor-maciones necesarias no fueron muchas,pero otras como en el caso de entradas porcarretera se necesitaron muchos cambios.Entre los más significativos se pueden enu-merar los siguientes:

• Uniones de campos: pernoctacionesextranjero + pernoctaciones en Españaa un único campo de pernoctaciones.

• Desestimación de campos: no tener encuenta los campos de agrupaciones su-periores de países, ya que las agrega-ciones están definidas en las tablas dedimensiones.

Estudios Turísticos, n.° 148 (2001) 161

Page 6: DATATUR. ALMACÉN DE DATOS PARA EL ANÁLISIS Y … · propio IET y los datos que se corresponden con directorios (ejemplo, hoteles, aparta-mentos) o datos estadísticos no elevados

José Manuel Salinas González

• Generación de campos que no exis-tían: en los modelos se ha creado unadimensión que es la periodicidad deldato (mensual, acumulado) y se ha te-nido que crear un campo que haga re-ferencia a esta variable.

• Limpieza de algunos campos: com-probaciones sobre los estados de unavariable para evitar incongruenciasen los cruces (que un excursionistaque por definición no pernocta nopueda tener asignado un tipo de aloja-miento).

• Además, para unir las distintas subo-peraciones hubo que revisar las codifi-caciones de los campos por los que seunieron las tablas (evitar que furgone-ta en carretera y vuelo charter en avióntengan el mismo código).

El resultado al final del proceso fue unatabla de hechos con los datos de todas las

Figura 3

suboperaciones y de todos los periodos, ala que actualmente, a través de los procesosde actualización diseñados, se van añadien-do nuevos registros según van llegandomás datos de nuevos meses.

A la tabla de hechos resultante de todo elproceso anterior se unieron por medio de lasclaves, las tablas de dimensiones para darcomo resultado el esquema en estrella expli-cado en el apartado de conceptos. El resul-tado puede comprobarse en la figura 3.

II.2. Base de datos de agregados

Las bases de datos agregados o multidi-mensionales, constituyen el núcleo del sis-tema, ya que es sobre ellas, sobre las que serealizan casi todas las consultas.

Estas bases de datos no son de tipo rela-cional y el software empleado para su de-sarrollo no es tan conocido como el de lasanteriores, pero no es complicado. La ma-yor complejidad en este tipo de desarrolloses la parte de análisis, el diseño propio dela base de datos más que su desarrollo eimplantación.

Las BD dimensionales permiten gene-ralmente distintos tipos de almacenamien-to conocidos como MOLAP, ROLAP yHOLAP (1). En nuestro caso, al ser las basesde datos no muy grandes (aunque contenganmillones de registros) y siendo, sobretodo, loque prima los tiempos de respuesta, hemosoptado por el almacenamiento MOLAP, enel cual todos los datos, incluidos los de ori-gen (existe una redundancia de datos), sealmacenan en el formato multidimensional,

162 Estudios Turísticos, n. 148 (2001)

Page 7: DATATUR. ALMACÉN DE DATOS PARA EL ANÁLISIS Y … · propio IET y los datos que se corresponden con directorios (ejemplo, hoteles, aparta-mentos) o datos estadísticos no elevados

DATATUR. Almacén de datos para el análisis y difusión de la información estadística del turismo en España

que es el almacenamiento que mejores tiem-pos de respuesta ofrece.

Para la operación estadística de FronturEntradas, la base de datos dimensional o«cubo», consta de 10 dimensiones o puntosde vista sobre los que se puede analizar losindicadores de viajeros (personas que hanpasado por la frontera) y pernoctaciones(véase figura 4).

Esto implica en la práctica que un usua-rio puede cruzar cualquier estado de lasvariables o dimensiones con cualquierotro. Para dar una mejor visión de lo queesto representa diremos que el número decombinaciones posibles que un usuariopodría hacer sería el producto de los ele-mentos o estados de todas las dimensio-nes que en el caso de la operación que es-tamos poniendo como ejemplo ascendería a39.798.088.634.304. Esto es el número de

Figura 4

•fe

iHB

%

HB

&

ALOJAMIENTOS

DESTINO PRINCIPAL

MOTIVOS VIAJE

PAÍS RESIDENCIA

PERNOCTACIONES

TIPO TRANSPORTE

TIPO VIAJERO

VÍAS DE ACCESO

PERIODICIDAD

PERIODO DE REFERENCIA

consultas teóricas que se pueden hacer so-bre la base de datos, pero no en todos loscruces tendremos información, no todos losturistas provenientes de Suiza en coche yque hayan entrado por el punto fronterizode «La Junquera» durante enero de 2000han pernoctado en Segovia, si hiciésemoseste cruce de variables seguramente no nosdevolvería ningún dato.

La forma de efectuar la consulta anteriorsobre el modelo sería a través del ratón, elusuario ha de desglosar la dimensión «Paísde residencia» y seleccionar Suiza, desglo-sar los periodos hasta llegar el elementoEnero 2000, desglosar puntos de entradahasta «La Junquera» y seleccionar quéquiere ver como filas y columnas; porejemplo, podría seleccionar como filas losmotivos del viaje y como columnas los ti-pos de viajero (véase figura 5).

H.3. Base de datos de metadatos

Un complemento indispensable a la horade dar información estadística son los «meta-datos» considerando como tales a todo datosusceptible de aportar más información o cla-ridad sobre el dato que se está consultando, osea, cualificar el dato, ya sea por medio dedefiniciones de variables, documentos aso-ciados, «links» o referencias a otros datos...

Los metadatos son esenciales para com-prender correctamente los datos numéricosy para valorar la comparabilidad de distin-tas fuentes.

Como base de soporte de estos, se hacreado una base de datos relacional con esta

Estudios Turísticos, n." 148 (2001) 163

Page 8: DATATUR. ALMACÉN DE DATOS PARA EL ANÁLISIS Y … · propio IET y los datos que se corresponden con directorios (ejemplo, hoteles, aparta-mentos) o datos estadísticos no elevados

José Manuel Salinas González

Figura 5

OPERACIÓN ESTADÍSTICA: MOVIMIENTOS TURÍSTICOS EN FRONTERAS (FRONTUR)

LBMP 1

|S* MOTIVOS VIAJES

TOTAL MOTIVOS

1 OCIO. VACACIOKS<• TRABAJO. ESTUDIOS. «CGOCIOS

i PERSONAL (SALUD, FAMILIARES)• OTROS MOTIVOS

SINttKClFlCA*

i wnrruia• i s m n flitiTM. nFsTiH fld& TOTAL DCSTNO 5|J

B~ TURISMO B*SOR*^J& TURISMO RECffT'^J

8~ ANDALUCÍA JHÉ-ARAOOI •

Ó BALEARSOfeB9-CANAR1AS •

l̂ - CASTUJk Y i. ,$ CATALUÑA i

* - EXTRBKAWJK iB-OAUCJA JÜ

mmmL—tm

• DATATUR 2001. Instttuto d* 6 *

(VÍA» • • AJTOTM.

•T A

OTAL WSITANTES •

760 374

627 959101.003

22 6256 564

2-223

dio* TuiístiMM • a J M « Lluro dtlá

M

j TURISTAS •

735.283

615 643

96S62

16 8026 250

ine. 0. 28030 Midnd ESPAÑA

| E n t r a d a s FRONTUR |

1 |PMWB«T4TOTJ«C PBtNO ^

T i¿TOTAL EXCURSIOMSTAS •

2S0&1

123164 441

5 823314

2197

- ttno+5481343 3100-34 34

información que está estrechamente relacio-nada con las bases anteriormente descritas.Es muy importante que cuando uno estáconsultando un dato estadístico sepa, porejemplo, la diferencia entre excursionista oturista o que meses componen los datos deuna temporada o poderse leer el/los docu-mento(s) de metodología asociados.

Una de las principales razones por lasque se optó en su momento en hacer un de-sarrollo a medida en el IET, fue que ningúnsoftware actual, es capaz de mostrar infor-mación estadística pura con metadatos através de Internet y esto es uno de los pila-res fundamentales sobre los que se sustentael sistema.

pos de elementos de una dimensión, infor-mación para distintos cruces de variables,incluso definiciones para los distintos esta-dos de una variable o dimensión. Ademásse pueden asociar al sistema documentosen distintos formatos, relacionados conoperaciones, suboperaciones, distintos me-ses, temporadas y años que son publicadosautomáticamente en Internet por el sistema.

III. ARQUITECTURA DEDESARROLLO

El sistema creado consta de los siguien-tes elementos que cubren todas las funcio-nalidades:

Dentro de esta base de datos, a través delprograma especialmente diseñado paraello, los usuarios de mantenimiento del sis-tema son capaces de añadir definiciones oaclaraciones tanto a nivel dimensión, gru-

Bases de datos relaciónales y multidi-mensionales.

Programas de extracción, limpieza ytransformación de datos (ETL).

164 Estudios Turísticos, n.° 148 (2001)

Page 9: DATATUR. ALMACÉN DE DATOS PARA EL ANÁLISIS Y … · propio IET y los datos que se corresponden con directorios (ejemplo, hoteles, aparta-mentos) o datos estadísticos no elevados

DATATUR. Almacén de datos para el análisis y difusión de la información estadística del turismo en España

• Programas para la generación y publi-cación de información de las BD demanera automática en Internet.

• Interfaces de usuario para la consultade datos vía web.

• Programas de usuario para la actuali-zación y mantenimiento de los meta-datos.

• Procesos de backup y seguridad delsistema.

Los programas ETL son un elementoimprescindible del sistema para su perma-nencia en el tiempo. Se encargan de facili-tar al usuario técnico el mantenimiento yactualización de la información al provenirde diferentes fuentes. Son procesos auto-matizados hasta el nivel más básico posible(sólo necesitan del usuario que les informede la fecha de los datos a cargar). La gene-ración de estos paquetes de transformacio-nes de datos ha sido compleja debido a ladiversidad de formatos y ha representadoun tiempo importante dentro del desarrollo.

Otro elemento importante ha sido conse-guir la publicación automática de distintosinformes en Internet. Se ha creado un pro-grama que en función de unos parámetrosalmacenados en la base de datos de meta-datos permite al Instituto de Estudios Tu-rísticos generar los informes mensuales quenecesita publicar en Internet, ya sea paralos usuarios públicos como para distintosorganismos como Comunidades Autóno-mas u Oficinas Españolas de Turismo en elExtranjero (OET). Se pueden publicar in-formes mensuales, anuales y de temporada

y el programa se encarga de acceder a lasbases de datos para extraer la informaciónen función de la parametrización, buscarsus metadatos asociados y generar todo enformato HTML (incluyendo generación au-tomática de gráficos en función de los da-tos de los informes). Esto supone un granavance, ya que esta publicación antes eramanual y sólo se podían publicar pequeñascantidades de datos, ahora se están gene-rando en torno a 4.000 informes, con elconsiguiente ahorro de tiempo y, por tanto,de costes.

La parte más visual del sistema y por laque la mayoría de los usuarios trabajan esla interfase vía web. En ella se ha conse-guido dar al usuario una herramienta detrabajo intuitiva y potente, para trabajar através de Internet, sin descuidar el diseño.Es la parte que junto con el tratamiento delos datos más esfuerzo ha requerido, perolos resultados lo han merecido.

La interfaz consta de dos partes, una, esdonde el usuario se compone a través demovimientos de ratón y navegación «drill-up» y «drill-down» el informe que necesi-ta, y otra, es la ficha técnica que nos da in-formación sobre los datos que estamosviendo (metadatos). Para no sobrecargar elsistema, la ficha técnica sólo se actualizacuando lo solicita el usuario y no cada vezque se cambian los datos en pantalla (véan-se figuras 5 y 6).

El programa de actualización de metada-tos permite a los usuarios técnicos añadir,borrar o modificar registros en la base dedatos de metadatos sin que sea necesarioque conozcan su estructura. Además, se ha

Estudios Turísticos, n.° 148 (2001) 165

Page 10: DATATUR. ALMACÉN DE DATOS PARA EL ANÁLISIS Y … · propio IET y los datos que se corresponden con directorios (ejemplo, hoteles, aparta-mentos) o datos estadísticos no elevados

José Manuel Salinas González

Figura 6

•Dawcrii

•Irrfonr

todos lo

f ronte*

KlAní Movii

i « ^ ^ ^ t O M 1UH

mi a netos Turístico

• 1 . implantad» an mayo d . l

i medioi d

; « i d i carra

a transporta ot.l.;

996.

cado)

<JU* Utlll

: por < .

. aeropuerto*

rretera, «vlór.. b*r<

y encuatft** por rn

topar

:o o

uastrauartoi

* Da>*crtpci¿AT El alcjamtanto turiftieo i * dafma corno toda inqui ragularmanta (u Ocasionalmanta) disponga da platas paratur>ft* puada pasar la ñocha

' Infotmaao*>aimaK»*IÓA:Ei >rnport*r>ta dif«nnati «ntra Ut'r>stalac>onat corrtarcialas donda s« afactúan la mayon'4 d* laiparnoctacionas fuara dal «retomo habitual da! huéipad y laf ^ui

alo)amiar>to tun'ttico t * ha dividido an dos grupo* pnndpala*'-Establadmiantoi da alojamiento colectivos- *Jo)amianto turistiee

o «i un lugar (ignrftcatluo visitado durai• DMcrtpctón.Ivi*j*/a*tancia. El ttda (tino principal.

• Información dtendrían iot dlfarantas dajtinpii- cuando al v*)mra «> raí I danta an

creado otra aplicación para gestionar losdocumentos o ficheros (Word, Excel, etc.),con los que trabaja el personal del IET, conla posibilidad, si lo desea el usuario, de quesu documento se publique automáticamen-te en Internet asociado a una operación, su-boperación y periodo.

Por último, se han definido los procesosautomáticos de salvaguarda de toda la in-formación de los diferentes tipos de basesde datos para su ejecución desatendida.

IV. ENTORNO TECNOLÓGICO

Todo el desarrollo realizado habría sidoprácticamente imposible y por supuesto losresultados no habrían sido los mismos si elproyecto se hubiese realizado tan sólo haceunos años. Los avances que se producen en

el software y herramientas que existen enel mercado son muy rápidos y lo que ayerera una ficción, hoy es una realidad. Esteritmo de cambio, además, se va a mantenero aumentar en los próximos años.

Por esta razón, los productos con los quese inició el proyecto y con los que se ha fi-nalizado, no son los mismos, en cuanto a laversión y, por tanto, tampoco las funciona-lidades que soportan.

La plataforma utilizada ha sido la de Mi-crosoft y las herramientas con las que se hafinalizado el proyecto son:

• En servidor:

— Windows 2000 Advanced Server.— Microsoft SQL 2000.— Microsoft Analysis Services 2000.— Internet Information Server 5.0

(US).— Microsoft Component Services.

• En los puestos de desarrollo:

— Windows 2000 Professional.— Microsoft Visual Interdev 6.0.— Microsoft Visual Basic 6.0.— Front Page 2000.— Microsoft Office 2000.— Cliente de SQL Server 2000.— Cliente de Análisis Services.

El proyecto comenzó con los mismosproductos pero en sus versiones anterio-res (1) (Microsoft SQL 7.0, Windows NT4.0, OLAP Services 7.0), pero hubo quemigrar principalmente por la necesidad deutilizar las nuevas funcionalidades de mo-

166 Estudios Turísticos, n. 148 (2001)

Page 11: DATATUR. ALMACÉN DE DATOS PARA EL ANÁLISIS Y … · propio IET y los datos que se corresponden con directorios (ejemplo, hoteles, aparta-mentos) o datos estadísticos no elevados

DATATUR. Almacén de datos para el análisis y difusión de la información estadística del turismo en España

delado multidimensional de la nueva ver-sión de los servicios OLAP y SQL 2000 ypor necesitar comprimir la información através de Internet (debido al tamaño de al-gunos informes), característica soportadapor el US de Windows 2000.

Todo el proyecto, como se ha ido desta-cando a lo largo del artículo, esta orientadoa la difusión de datos a través de Internet,por tanto una gran parte del esfuerzo se hacentrado en este punto. Todos los desarro-llos se han realizado pensando en que nofuese necesario instalar nada en los puestoscliente, ni siquiera componentes Java nicontroles OCX. Para ello se han programa-do las interfaces con Microsoft Visual In-terdev utilizando Active Server Pages(ASP), que es una programación que ejecu-ta el servidor para devolver páginas distin-tas según las peticiones del usuario. En ellado de cliente se ha utilizado Java Scriptpara hacer las funciones necesarias.

Las aplicaciones de este tipo son muysensibles al número de usuarios concurren-tes que hacen peticiones de datos desde In-ternet, por lo que para evitar saturacionesfuturas y que el sistema sea escalable, se hacreado también mucha parte de la progra-mación del servidor en componentes, queutilizando los servicios de Microsoft Com-ponent Services hace que la escalabilidadsea sencilla.

El sistema ha sido desarrollado para elsoporte de diferentes idiomas en el futuro,por lo que se han creado distintos compo-nentes para que se comporten como si deusuarios con distintos idiomas se trataran.Esto hace posible desde Internet la selec-

ción del idioma (según el idioma elegido seutilizará un componente u otro para conec-tarse a las BD). En principio esta previstoel español y el inglés, pero se pueden aña-dir los que se quieran, el trabajo por su-puesto está en la traducción de los estadosde las variables y de los metadatos.

V. TRATAMIENTO DE LAINFORMACIÓN

Un sistema de información turística, Sta-tistical Information System (SIS), realizauna serie de procesos estadísticos y manejaunas categorías de datos, datos estadísticos.

En una organización estadística existenprocesos para los siguientes tipos de tareas:

• Recogida de datos.• Elaboración de datos.• Almacenamiento datos.• Recuperación datos.• Análisis estadístico de datos.• Difusión de información estadística.

Los procesos estadísticos usan y pro-ducen datos estadísticos, estos según defi-nición de la Comisión Estadística de laOCDE, pueden ser microdatos, macrodatosy metadatos. Cada uno de ellos ya han sidodefinidos en este artículo.

El sistema DATATUR se ha desarrolla-do para facilitar y agilizar los cuatro últi-mos procesos, el almacenamiento, recupe-ración, análisis y difusión.

Aunque el sistema cubre gran parte delos procesos de una organización dedicada a

Estudios Turísticos, n.° 148 (2001) 167

Page 12: DATATUR. ALMACÉN DE DATOS PARA EL ANÁLISIS Y … · propio IET y los datos que se corresponden con directorios (ejemplo, hoteles, aparta-mentos) o datos estadísticos no elevados

José Manuel Salinas González

Figura 7Flujo de datos y metadatos típico a partir de una encuesta estadística

Cuestionarios electrónicos o en papel u otrosinstrumentos de medida

Instrucciones para encuestados y oencuestadores

Cuestionarios completos son enviados porcorreo, voz o comunicación electrónica a laoficina de datos estadísticos

Ejemplos de metadatos son:i Las preguntas del cuestionario, instrucciones,j comentarios de encuestadores o encuestados,

respuestas a preguntas de metadatos.

Se verifican los datos deentrada y los metadatos porposibles errores oinconsistencias. Se añadendatos o metadatos de la mismau otras fuentes

Contiene microdatoe 'limpios'acompañados de metadatos,organizados y clasificados parafacilitar los procesos posteriores

Datos estimados a partir decaracterísticas de la poblaciónSeries de datos temporales,ajustes estacionales y otrosanáteia

Estadísticas finales multidimensionaleeacompañadas de metadatos, organizadasy clasificadas de un única forma

El resultado final es obtenido a partir dedatos y metadatos estadísticos Elresultado puede ser almacenado endocumentos electrónicos y estos serándiseminados por diferentes canales ymedios.

Fuente: Elaboración propia a partir de los trabajos de la Comisión Estadística y Económica para Europa. Work session on Statistical Meta-data (METIS) Berlín, Alemania, 22-25 octubre 1996.

168 Estudios Turísticos, n. 148 (2001)

Page 13: DATATUR. ALMACÉN DE DATOS PARA EL ANÁLISIS Y … · propio IET y los datos que se corresponden con directorios (ejemplo, hoteles, aparta-mentos) o datos estadísticos no elevados

DATATUR. Almacén de datos para el análisis y difusión de la información estadística del turismo en España

elaborar datos estadísticos, también es cier-to que sólo es la punta del iceberg de un tra-bajo ingente que hay en los procesos pre-vios que son la recogida y elaboración delos datos.

Hasta que los datos ya elaborados llegana DATATUR se han tenido que realizar enel caso de datos provenientes de encuestas,la definición de estas, la toma de datos encampo, el estudio de las tomas para la me-jora de la recogida, las limpiezas previas delas encuestas, la tabulación y elevación delos datos, etc.

Todas estas tareas conllevan el uso deotras herramientas más específicas adapta-das a cada una, como es el uso de PDA(Personal Digital Assistant) en la recogidade datos, el uso de software especializadoen la elevación y depuración de datos.

Por tanto, DATATUR se nutre de unosprocesos y tareas previas sin los cuales nopodría existir. El esquema completo delflujo de datos y metadatos de una opera-ción estadística, a partir de una encuesta sepuede ver en la figura 7.

VI. PERFILES DE ACCESOAL SISTEMA

Se han creado distintos perfiles de accesoal sistema atendiendo sobre todo al conoci-miento no tanto de la herramienta sino de lasoperaciones. Como hemos hecho referenciaen otros puntos de este artículo el acceso alos modelos de datos dimensionales no nece-sita de conocimientos informáticos de nin-gún tipo, pero sí del modelo o' el negocio.

Al accederse a los datos con tanta facili-dad es sencillo que un usuario saque datossin fijarse realmente o sin conocer lo queestá viendo. Es fácil tomar unos datoscomo si fuesen turistas cuando realmentelo que estamos viendo son viajeros (turistasy excursionistas) o incluso no conocer ladiferencia.

Por ello hemos creado tres perfiles deacceso a los datos:

1. El usuario público.2. El usuario de suscripción con acce-

so restringido.3. El usuario de suscripción con acce-

so completo.

El usuario público sólo accede a la in-formación a través de informes predefini-dos que ya han sido generados para él ypuestos a su disposición a través de Inter-net. No puede componerse sus informes,pero a cambio tiene la seguridad de que lainformación es correcta. Este usuariopuede exportar los datos de los informespredefinidos o imprimirlos. A este grupode usuarios pertenece el público en gene-ral. Este perfil cubre las necesidades dedatos de la mayoría de los usuarios poten-ciales.

Al usuario con acceso por suscripción,pero con acceso restringido, se le deja ha-cer sus análisis y componerse sus informesporque ya tiene unos conocimientos sufi-cientes para ello, pero no se le deja bajarhasta los datos elementales de la opera-ción, donde la muestra es insuficiente paraque los datos que se cruzan sean significa-tivos.

Estudios Turísticos, n." 148 (2001) 169

Page 14: DATATUR. ALMACÉN DE DATOS PARA EL ANÁLISIS Y … · propio IET y los datos que se corresponden con directorios (ejemplo, hoteles, aparta-mentos) o datos estadísticos no elevados

José Manuel Salinas González

El último tipo de usuario es el que pue-de acceder completamente a los datos delsistema.

Los dos usuarios por suscripción debencumplir con unos requisitos de conoci-mientos y responsabilidad en el tratamientode la información que se les proporcionacon la herramienta. Antes de la publicaciónde resultados extraídos de los datos del sis-tema deben de tener el consentimiento delInstituto de Estudios Turísticos y deben ci-tar la fuente en todos sus estudios.

VII. PERSPECTIVAS DE FUTURO

Casi es obligado concluir como comen-zábamos el artículo, haciendo hincapié en

que un Data Warehouse, como es el siste-ma que hoy nos ocupa, debe evolucionarpara hacer frente a los cambios que la rea-lidad turística requiere o caer en el olvido yel desuso. Por tanto, es obligado que seamplíe no sólo en la información que con-tiene, llegando a acuerdos con otras institu-ciones turísticas para incorporar sus datos,sino también, en sus funcionalidades y mo-dos de acceso.

DATATUR al ser un almacén de datosestructurados y clasificados en formatoelectrónico es potencialmente accesible demúltiples maneras.

Hasta este momento se han desarrolladoo utilizado para su consulta herramientasde análisis OLAP, consultas predefinidas

Figura 8

InterrogarConsultas ad-hoc

Acceso libre

i L Cuadro de MandoSistema EIS

Toma de DecisionesAnalizar, navegar

Sistemas DSS OLAPAnálisis simple (operativo'

Visualización avanzadaSistemas GIS

Segmentar, correlacionarArboles de decisión

Búsqueda de comportamiento enlos datos

Simular, predecir, extrapolarEstadísticas, redes neuronales

170 Estudios Turísticos, n.° 148 (2001)

Page 15: DATATUR. ALMACÉN DE DATOS PARA EL ANÁLISIS Y … · propio IET y los datos que se corresponden con directorios (ejemplo, hoteles, aparta-mentos) o datos estadísticos no elevados

DATATUR. Almacén de dalos para el análisis y difusión de la información estadística del turismo en España

para usuarios de acceso libre y herramien-tas de hoja de cálculo para el trabajo de losusuarios internos del IET, donde además deanalizar pueden representar la informaciónde manera gráfica. Pero estas no son lasúnicas maneras por las que se podría tratarla información.

Todos los tipos de acceso que en un fu-turo se podrían utilizar están representadosen la figura 8.

Como se puede ver, y a modo de con-clusión, todavía quedan muchos caminospor los que mejorar y potenciar DATA-TUR, desde visualización cartográfica dela información (Sistemas GIS), pasandopor herramientas de Data Mining y cuadrosde mando, para recoger de una manera or-ganizada y orientada a dar una visión glo-bal y rápida, las últimas tendencias del tu-rismo en cuanto a información estadística.

INMON, W. H. (1996). Building Data Warehouse(2.a edición). John Willey & Sons (Sd).

INMON, W. H. y HACJATHORM, RICHARD (1994).Using the Data Warehouse. Q E D Pub co.

INSTITUTO DE ESTUDIOS TURÍSTICOS (2000). Estadís-tica de Movimientos Turísticos en Fronteras(Frontur). Referencias metodológicas. Madrid.Instituto de Estudios Turísticos. Secretaría Gene-ral de Turismo. Ministerio de Economía.

INSTITUTO DE ESTUDIOS TURÍSTICOS (2000). Estadís-tica de Movimientos Turísticos de los Españoles(Familitur). Referencias metodológicas 2000-2001. Madrid. Instituto de Estudios Turísticos.Secretaría General de Turismo. Ministerio deEconomía.

KIMBALL, RALPH (2000). The Data Warehouse Tool-kit. John Willey & Sons (Sd).

MICROSOFT (1999). Estrategia de Data Warehousingde Microsoft: una plataforma para mejorar latoma de decisiones mediante un acceso a datos yun análisis más fácil.

BIBLIOGRAFÍA

FRANCO, JEAN MICHEL y EDS-INSTITUT PROMÉTÉUS(1997). Le Data Warehouse, le Data Mining.Editions Eyrolles, Paris; Ediciones Gestión 2000,S. A.. Barcelona.

NOTAS

(1) INSTITUTO DE ESTUDIOS TURÍSTICOS (1999): «DA-TATUR. Sistema de Información de EstadísticasTurísticas», Estudios Turísticos, núm. 142, pp.37-56. Madrid, Secretaría de Estado de Comercio,Turismo y Pymes.

Estudios Turísticos, n. 148 (2001) 171