completeness of information sources maría josé Álvarez flavia serra

Post on 26-Jan-2015

10 Views

Category:

Documents

0 Downloads

Preview:

Click to see full reader

TRANSCRIPT

Completeness of Information Sources

María José Álvarez

Flavia Serra

Agenda

Introducción Modelo de información Unión de resultados Definición de los factores de calidad, Cobertura

y Densidad Definición de la dimensión de calidad

Completitud Conclusiones Puntos fuertes y débiles

Introducción

Se describe un framework para medir la calidad de la información proporcionada por una fuente de datos o por un conjunto de fuentes de datos.

Considera los valores de los factores de calidad cobertura y densidad.

Introducción

Funciones de combinación– Estiman el valor de la calidad de la información

cuando los datos de diferentes fuentes son integrados.

Completitud– Se combinan los valores de los factores cobertura

y densidad

Modelo de información

Esquema– Consiste en un identificador (ID) y la unión de

todos los atributos que proveen las fuentes

IDs consistentes– Cada objeto tiene un único identificador que esta

asociado a las fuentes

Modelo de información

Superposición– Disjunción

Las fuentes no proveen IDs comunes.

– Contención Los IDs de una fuente son un subconjunto de los IDs de

otra fuente. Aunque los objetos sean los mismos, los atributos

podrían diferir.

– Independencia Cuando no se sabe si existe contención o disjunción, se

asume que existe independencia.

Ejemplo

Se presenta un meta servicio de información de stock (MSIS)

Es un sistema que provee información de cotización de acciones

A diferencia de un sistema de información de stock (SIS) común, un MSIS combina información de varios sistemas

El MSIS envía una solicitud a un conjunto de SISs para luego unir los resultados y presentarlos al usuario

Ejemplo

Se consideran los siguientes SIS:

Ejemplo

Consulta para IBM en un típico SIS

ID

Nombre de la compañía

Provisto por todos los SIS

Proveen información adicional y estadísticaNo están disponibles en los 7 SIS

Unión de resultados

Un sistema de información distribuye una consulta de usuario a múltiples fuentes.

Cuando recibe los resultados individuales, los mismos deben unirse en una respuesta común para el usuario.

Unión de resultados

Unión de resultados de múltiples fuentes contiene objetos donde:– Algunos atributos no son provistos – Algunos atributos son provistos por una fuente– Algunos atributos son provistos por más de fuente

Función de resolución

Unión de resultados

Para presentar la unión de los resultados como una respuesta completa a una consulta y no como simples atributos se definen operadores relacionales.

join-merge union-merge

Porción del mundo real que es cubierto por la fuente para un dominio determinado.

Cobertura de una fuente:

Cobertura

cantidad de objetos de la fuente

cantidad de objetos del mundo real

Cobertura de un conjunto de fuentes

Fuente disjuntas

Fuentes contenidas

Fuentes independientes

Porción de valores no nulos que contiene la fuente.

Densidad de un atributo

Densidad de una fuente

Densidad

Densidad

Densidad de una fuente

– Vector de densidad

Densidad de un conjunto de fuentes– Considera la cobertura para cada fuente

Completitud de una fuente de información es la relación de su información y la cantidad total de información del mundo real.

Completitud de una fuente

Completitud de una fuente utilizando cobertura y densidad

Completitud

Completitud

Cantidad de atributos no nulos =12

|W| = 40000, |A| = 9

|W||A|=40000*9 = 360000 y 12/360000 = 1/30000

c(yahoo) = 2/4000 = 1/2000

D(yahoo) = (1,0,1,1,1,1,1,0,0)

C(yahoo) = c(yahoo).d(yahoo) = 1/2000*2/3 = 1/30000

Conclusiones

Cuando se intenta decidir que fuentes o conjuntos de fuentes consultar este modelo ofrece una buena guía de selección del mejor conjunto de fuentes basándose en la calidad de la información esperada.

La medida de la completitud es útil para seleccionar el mejor plan de ejecución de la consulta sobre varias fuentes.

Conclusiones

Valores de cobertura y densidad altos parecen ser buenos, pero muchas veces aparece el problema de information overflow causado por el enorme tamaño de la Web.

Se busca reducir las respuestas a las consultas a un número razonable de objetos, devolviéndole al usuario los objetos más útiles y relevantes.

Cumple objetivos planteados Autocontenido Fácil de comprender y tiene ejemplos claros Plantea una solución aplicable Las definiciones y conceptos son reiterados

a lo largo del documento, lo que permite finalizar la lectura con una buena asimilación de los mismos.

Puntos fuertes

Puntos débiles

Referencia una cantidad de lemas, corolarios y teoremas que lo hacen engorroso

En algunos casos los ejemplos consideran valores que son traídos de otras secciones sin indicar las secciones de referencia.

¿Preguntas?

Muchas gracias!

top related