comp. científica aplic. a la caract. del aire urbano, téc. gis… trazabilidad y visualización no...

29
Comp. Científica aplic. a la caract. del aire urbano, téc. GIS… Trazabilidad y Visualización no estructurada en DW 2.0 Mg. Guillermo Friedrich UTN-FRBB

Upload: cleto-bermudes

Post on 13-Feb-2015

0 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Comp. Científica aplic. a la caract. del aire urbano, téc. GIS… Trazabilidad y Visualización no estructurada en DW 2.0 Mg. Guillermo Friedrich UTN-FRBB

Comp. Científica aplic. a la caract. del aire urbano, téc. GIS…

Trazabilidad

y

Visualización no estructurada

en DW 2.0

Mg. Guillermo Friedrich

UTN-FRBB

Page 2: Comp. Científica aplic. a la caract. del aire urbano, téc. GIS… Trazabilidad y Visualización no estructurada en DW 2.0 Mg. Guillermo Friedrich UTN-FRBB

9/10/2007 2

Trazabilidad

• Es de importancia porque:– existen datos en diferentes formas a lo largo del entorno, y– los datos fluyen de un estado a otro.

• Los datos fluyen:– Dentro del sistema de origen– Del sistema de origen al almacén de datos– Del almacén de datos al entorno de análisis del usuario final

• A lo largo de ese flujo los datos son constantemente transformados y recalculados

Page 3: Comp. Científica aplic. a la caract. del aire urbano, téc. GIS… Trazabilidad y Visualización no estructurada en DW 2.0 Mg. Guillermo Friedrich UTN-FRBB

9/10/2007 3

Trazabilidad

• El flujo de datos es representativo del proceso de transformación.

Page 4: Comp. Científica aplic. a la caract. del aire urbano, téc. GIS… Trazabilidad y Visualización no estructurada en DW 2.0 Mg. Guillermo Friedrich UTN-FRBB

9/10/2007 4

Trazabilidad

• En el momento del análisis puede ser necesario o al menos de utilidad disponer de la traza del flujo y transformaciones sufridas por los datos a través del sistema.

– Para saber si los datos que se están usando en el análisis son correctos.

• El usuario final puede tener interés en examinar la traza de los datos.

Page 5: Comp. Científica aplic. a la caract. del aire urbano, téc. GIS… Trazabilidad y Visualización no estructurada en DW 2.0 Mg. Guillermo Friedrich UTN-FRBB

9/10/2007 5

Trazabilidad

• Un ejemplo (sobre un tema de actualidad) podría ser el siguiente:

– A fin de hacer ciertas estimaciones y/o tomar ciertas decisiones, el usuario final necesita conocer el dato de la inflación real en el mes de septiembre.

– Dispone de dos valores:• La inflación calculada por el IndeK -20%

• La inflación informada por economistas de la oposición +300%

– ¿cuál es el valor correcto? – ¿alguno de los dos?– ¿ninguno?

Page 6: Comp. Científica aplic. a la caract. del aire urbano, téc. GIS… Trazabilidad y Visualización no estructurada en DW 2.0 Mg. Guillermo Friedrich UTN-FRBB

9/10/2007 6

Trazabilidad

• Al disponer de la traza correspondiente a ambos índices, el incluso el acceso a los datos de origen, se pudo saber que:

– El IndeK calculó la inflación (deflación) en base al precio de los blazers de invierno.

• En septiembre salieron a liquidación con un 20% de descuento.

– Los economistas de la oposición calcularon la inflación en base al precio del tomate.

• Aumentó de $5 a $15 en un mes.

• La trazabilidad permite evaluar la calidad de la información final.

Page 7: Comp. Científica aplic. a la caract. del aire urbano, téc. GIS… Trazabilidad y Visualización no estructurada en DW 2.0 Mg. Guillermo Friedrich UTN-FRBB

9/10/2007 7

Trazabilidad

• Tres aspectos importantes:

– Los datos que fueron usados para conformar los datos que han arribado al entorno de análisis del usuario final.

– El linaje (o los ancestros) de los datos que arriban.

– Los algoritmos y transformaciones que por los que han pasado los datos hasta llegar al entorno analítico del usuario.

Page 8: Comp. Científica aplic. a la caract. del aire urbano, téc. GIS… Trazabilidad y Visualización no estructurada en DW 2.0 Mg. Guillermo Friedrich UTN-FRBB

9/10/2007 8

Trazabilidad Linaje

• Camino que han recorrido los datos hasta llegar al entorno analítico del usuario final.

• Implica hacer un seguimiento de los distintos nombres asignados a el o los datos de interés, en distintas etapas del camino.

Page 9: Comp. Científica aplic. a la caract. del aire urbano, téc. GIS… Trazabilidad y Visualización no estructurada en DW 2.0 Mg. Guillermo Friedrich UTN-FRBB

9/10/2007 9

Trazabilidad Conocer los valores en el origen

Page 10: Comp. Científica aplic. a la caract. del aire urbano, téc. GIS… Trazabilidad y Visualización no estructurada en DW 2.0 Mg. Guillermo Friedrich UTN-FRBB

9/10/2007 10

Trazabilidad Algoritmos y transformaciones

• A medida que los datos pasan de una etapa a otra del DW, los mismos pueden ser recalculados o afectados por la lógica.• Este aspecto de la trazabilidad implica conocer las operaciones o transformaciones realizadas en cada etapa.

Page 11: Comp. Científica aplic. a la caract. del aire urbano, téc. GIS… Trazabilidad y Visualización no estructurada en DW 2.0 Mg. Guillermo Friedrich UTN-FRBB

9/10/2007 11

Trazabilidad Evolución temporal de los algoritmos

• Es normal y natural que los algoritmos vayan cambiando con el tiempo.• Es importante llevar un registro del período de tiempo en que se aplicó cada forma de cálculo.

Page 12: Comp. Científica aplic. a la caract. del aire urbano, téc. GIS… Trazabilidad y Visualización no estructurada en DW 2.0 Mg. Guillermo Friedrich UTN-FRBB

9/10/2007 12

Trazabilidad Velocidad de recuperación de los datos

• Otro aspecto importante de la trazabilidad es la velocidad (o la demora admisible) con que los datos de origen deben estar disponibles para el análisis.

– ¿Tiempo “real”? aproximadamente en 3 o 4 segundos

– ¿Es admisible una cierta relajación? 30 min, 2 hs, ....

• Puede haber ciertos casos en que se requiera disponer de los datos en tiempo real

hay que justificar el mayor costo y complejidad del sistema.

Page 13: Comp. Científica aplic. a la caract. del aire urbano, téc. GIS… Trazabilidad y Visualización no estructurada en DW 2.0 Mg. Guillermo Friedrich UTN-FRBB

9/10/2007 13

Trazabilidad Elementos sujetos a trazabilidad

• Implementar la trazabilidad implica dedicar una importante cantidad de recursos a tal fin.• Cuantos más elementos de información estén sujetos a trazabilidad mayores serán el costo y esfuerzo requeridos.• Hay que determinar que variables realmente presentan requisitos de trazabilidad.

Page 14: Comp. Científica aplic. a la caract. del aire urbano, téc. GIS… Trazabilidad y Visualización no estructurada en DW 2.0 Mg. Guillermo Friedrich UTN-FRBB

9/10/2007 14

Visualización no estructurada

• La visualización es un componente de la Inteligencia de Negocios (BI: Business Intelligence).

• Business Intelligence:– estrategias y herramientas …– enfocadas a la administración y creación de conocimiento …– mediante el análisis de datos existentes en la organización.

• Características de la BI:– Accesibilidad a la información independientemente del origen

– Apoyo en la toma de decisiones herramientas de análisis – Orientación al usuario final sin grandes conocimientos técnicos

Page 15: Comp. Científica aplic. a la caract. del aire urbano, téc. GIS… Trazabilidad y Visualización no estructurada en DW 2.0 Mg. Guillermo Friedrich UTN-FRBB

9/10/2007 15

Visualización no estructurada

• Algunos componentes de la BI:

– Multidimensionalidad La información se encuentra en:

• hojas de cálculo• bases de datos• documentos de texto• archivos de powerpoint, pdf, etc.• e-mails• etc.

es necesario poder reunir esta información dispersa (incluso en distintos sectores de la organización) a fin de extraer datos útiles para el análisis.

Page 16: Comp. Científica aplic. a la caract. del aire urbano, téc. GIS… Trazabilidad y Visualización no estructurada en DW 2.0 Mg. Guillermo Friedrich UTN-FRBB

9/10/2007 16

Visualización no estructurada

• Algunos componentes de la BI:

– Minería de datos (Data Mining):

• Extraer información y descubrir las relaciones en bases de datos que revelen comportamientos poco evidentes.

• Identificar tendencias y comportamientos.

• Favorecer la visión para intuir cambios o nuevas tendencias.

Page 17: Comp. Científica aplic. a la caract. del aire urbano, téc. GIS… Trazabilidad y Visualización no estructurada en DW 2.0 Mg. Guillermo Friedrich UTN-FRBB

9/10/2007 17

Visualización no estructurada

• Algunas operaciones típicas de la BI:

– Analizar la información en sentido vertical

– Analizar la información en sentido transversal

– Resumir la información

•Los listados son una forma de mostrar resultados, aunque no suelen ser la mejor forma para que el usuario tenga una visión general.

– Puede haber datos importantes que queden escondidos.

Page 18: Comp. Científica aplic. a la caract. del aire urbano, téc. GIS… Trazabilidad y Visualización no estructurada en DW 2.0 Mg. Guillermo Friedrich UTN-FRBB

9/10/2007 18

Visualización no estructurada

• A diferencia de los listados, los gráficos permiten identificar una situación y/o una relación de importancia de un golpe de vista.

Page 19: Comp. Científica aplic. a la caract. del aire urbano, téc. GIS… Trazabilidad y Visualización no estructurada en DW 2.0 Mg. Guillermo Friedrich UTN-FRBB

9/10/2007 19

Visualización no estructurada

• Un problema con la visualización es que ésta se aplica básicamente a datos numéricos.

– Pero hay una importante cantidad de datos “no estructurados”, en general textuales, que no se pueden introducir directamente a un sistema BI tradicional.

Page 20: Comp. Científica aplic. a la caract. del aire urbano, téc. GIS… Trazabilidad y Visualización no estructurada en DW 2.0 Mg. Guillermo Friedrich UTN-FRBB

9/10/2007 20

Visualización no estructurada

• Los datos estructurados corresponden a la parte formal de la organización.

• Los datos no estructurados corresponden a la parte informal de la organización.

– Sin embargo, pueden contener mucha información valiosa que es necesario:

• recuperar y• aprovechar.

Page 21: Comp. Científica aplic. a la caract. del aire urbano, téc. GIS… Trazabilidad y Visualización no estructurada en DW 2.0 Mg. Guillermo Friedrich UTN-FRBB

9/10/2007 21

Visualización no estructurada

Un par de ejemplos que pueden clarificar esta idea:

• En la industria farmacéutica puede ser necesario reunir información de miles de pruebas clínicas y procesarlas inteligentemente, para evaluar el resultado de un medicamento.

• En la industria automotriz, miles de e-mails de usuarios deben ser organizados a fin de conocer que parte de un cierto modelo de automóvil requiere atención.

Page 22: Comp. Científica aplic. a la caract. del aire urbano, téc. GIS… Trazabilidad y Visualización no estructurada en DW 2.0 Mg. Guillermo Friedrich UTN-FRBB

9/10/2007 22

Visualización no estructurada

Desafíos que se presentan:• Procesar enormes volúmenes de información

• Velocidad de procesamiento

• Exactitud• Si una persona procesa un documento lo hará detalladamente. Si tiene que

procesar un gran volumen de documentos, el grado de exactitud en el conocimiento de cada uno se diluye.

• Encontrar relaciones entre documentos• Por ejemplo: que tienen en común los reclamos de vecinos de un sector de la

ciudad con actividades reportadas por las plantas industriales.

• Necesidad de encontrar muchos elementos• El procesamiento es heurístico. El resultado de una etapa conduce la

búsqueda en la siguiente, y así sucesivamente.

Page 23: Comp. Científica aplic. a la caract. del aire urbano, téc. GIS… Trazabilidad y Visualización no estructurada en DW 2.0 Mg. Guillermo Friedrich UTN-FRBB

9/10/2007 23

Visualización no estructurada ETAPAS

1. Encontrar y preparar los datos textuales a ser visualizados.

Page 24: Comp. Científica aplic. a la caract. del aire urbano, téc. GIS… Trazabilidad y Visualización no estructurada en DW 2.0 Mg. Guillermo Friedrich UTN-FRBB

9/10/2007 24

Visualización no estructurada ETAPAS

La preparación de los datos consiste en:

• Leer los datos no estructurados desde distintos orígenes (.txt, .doc, .xls, e-mail, etc.)

• Buscar los ítems de datos que se necesita visualizar.

• En un área de trabajo se disponen palabras e índices– Las palabras son los que se debe visualizar– Los índices contienen el lugar de origen de las palabras

Page 25: Comp. Científica aplic. a la caract. del aire urbano, téc. GIS… Trazabilidad y Visualización no estructurada en DW 2.0 Mg. Guillermo Friedrich UTN-FRBB

9/10/2007 25

Visualización no estructurada ETAPAS

2. Una vez que las palabras han sido reunidas y procesadas, están listas para ser tratadas por el motor de visualización.

Page 26: Comp. Científica aplic. a la caract. del aire urbano, téc. GIS… Trazabilidad y Visualización no estructurada en DW 2.0 Mg. Guillermo Friedrich UTN-FRBB

9/10/2007 26

Visualización no estructurada ETAPAS

Dependiendo de sus necesidades, el analista puede:- eliminar palabras- editar palabras- retroceder hasta la raíz de la palabra- contar palabras- establecer un ranking de palabras

Page 27: Comp. Científica aplic. a la caract. del aire urbano, téc. GIS… Trazabilidad y Visualización no estructurada en DW 2.0 Mg. Guillermo Friedrich UTN-FRBB

9/10/2007 27

Visualización no estructurada ETAPAS

• Las palabras e índices son pasados a un SOM (Self Organizing Map) .

• Las palabras son presentadas en un ranking, de acuerdo a la cantidad de ocurrencias e importancia de cada una.

• El mapa puede ser recorrido y visualizado de diferentes maneras.

- los datos son organizados de acuerdo a los contenidos contenidos dentro de los documentos.

- el SOM establece y muestra las relaciones entre documentos.

Page 28: Comp. Científica aplic. a la caract. del aire urbano, téc. GIS… Trazabilidad y Visualización no estructurada en DW 2.0 Mg. Guillermo Friedrich UTN-FRBB

9/10/2007 28

Visualización no estructurada ETAPAS

• Ejemplo de visualización SOM

Page 29: Comp. Científica aplic. a la caract. del aire urbano, téc. GIS… Trazabilidad y Visualización no estructurada en DW 2.0 Mg. Guillermo Friedrich UTN-FRBB

9/10/2007 29

Visualización no estructurada ETAPAS

• SOM permite efectuar tareas diversas con agilidad:

- correlacionar por ejemplo: historias clínicas

- analizar en distintos grados de profundidad:

- Por ejemplo:- buscar registros de empleados- luego buscar por mujeres empleadas- luego buscar por mujeres empleadas graduadas- luego buscar por mujeres graduadas mayores de 50 años, etc.