información semiestructurada mc beatriz beltrán martínez primavera 2014

22
Información Semiestructura da MC Beatriz Beltrán Martínez Primavera 2014

Upload: araceli-ybanez

Post on 29-Jan-2016

220 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Información Semiestructurada MC Beatriz Beltrán Martínez Primavera 2014

Información SemiestructuradaMC Beatriz Beltrán Martínez

Primavera 2014

Page 2: Información Semiestructurada MC Beatriz Beltrán Martínez Primavera 2014

Definición

• Lo que sea entre estructurado y no estructurado• Variables pobremente tipadas (x=1 es válido y

x=”hola” también es válido)• Un registro no necesariamente tiene que tener

todos sus atributos definidos. Mientras por ejemplo en una base de datos relacional un campo debe establecerse como NULL cuando no se tiene, en un ambiente de datos semiestructurados basta con omitir dicho atributo.

FCC

- BU

AP

Prim

aver

a 20

14M

C Be

atriz

Bel

trán

Mar

tíez

2

Page 3: Información Semiestructurada MC Beatriz Beltrán Martínez Primavera 2014

Definición

•Un atributo de un registro puede ser otro registro.•No existe necesariamente una diferencia entre un identificador de un campo y el valor mismo de este.•Ejemplos: documentos SGML y XML

FCC

- BU

AP

Prim

aver

a 20

14M

C Be

atriz

Bel

trán

Mar

tíez

3

Page 4: Información Semiestructurada MC Beatriz Beltrán Martínez Primavera 2014

Representación• Árboles:

FCC

- BU

AP

Prim

aver

a 20

14M

C Be

atriz

Bel

trán

Mar

tíez

4

Page 5: Información Semiestructurada MC Beatriz Beltrán Martínez Primavera 2014

Representación

• Texto indentado:

FCC

- BU

AP

Prim

aver

a 20

14M

C Be

atriz

Bel

trán

Mar

tíez

5

Page 6: Información Semiestructurada MC Beatriz Beltrán Martínez Primavera 2014

Representación

• Lenguaje de marcado:

FCC

- BU

AP

Prim

aver

a 20

14M

C Be

atriz

Bel

trán

Mar

tíez

6

Page 7: Información Semiestructurada MC Beatriz Beltrán Martínez Primavera 2014

XML

• La reciente proliferación de documentos XML para almacenar y organizar información textual ha originado una creciente demanda de recuperación de información efectiva sobre este tipo de documentos y que además utilice tanto la estructura como la información contenida en dicha estructura para devolver documentos o partes de los mismos como respuesta a una consulta.

FCC

- BU

AP

Prim

aver

a 20

14M

C Be

atriz

Bel

trán

Mar

tíez

7

Page 8: Información Semiestructurada MC Beatriz Beltrán Martínez Primavera 2014

XML

• En cuanto a los resultados, tradicionalmente las búsquedas de texto devuelven una lista de documentos con cierta información acerca de ellos y ordenados según algún criterio de relevancia.• En el contexto de la recuperación de información

se pone el énfasis principalmente en las búsquedas de texto, la manipulación de conjuntos de resultados, las relaciones de inclusión, las distancias y la ordenación por relevancia de los documentos obtenidos.

8

MC

Beat

riz B

eltr

án M

artín

ezFC

C - B

UAP

P

rimav

era

2014

Page 9: Información Semiestructurada MC Beatriz Beltrán Martínez Primavera 2014

XML

•La estructura de los documentos se utiliza para facilitar una focalización de las respuestas del sistema a unidades de documento más adecuadas.•Esta mayor adecuación está relacionada con la noción de especificidad del componente de documento en la consulta.

FCC

- BU

AP

Prim

aver

a 20

14M

C Be

atriz

Bel

trán

Mar

tíez

9

Page 10: Información Semiestructurada MC Beatriz Beltrán Martínez Primavera 2014

XML

• Además el problema de las estrategias de indexación de información estructurada es crítico para el diseño de tales estrategias de recuperación.• Sin embargo, si se basan en el uso explícito de la

estructura lógica o en la recuperación de pasajes, los modelos de recuperación que manejan documentos estructurados siguen siendo experimentales y hay una falta de experimentación extensiva en colecciones grandes.

FCC

- BU

AP

Prim

aver

a 20

14M

C Be

atriz

Bel

trán

Mar

tíez

10

Page 11: Información Semiestructurada MC Beatriz Beltrán Martínez Primavera 2014

Procesamiento

• Hablar de recuperación en XML es para muchos asociar un documento con sus respectivos metadatos.• De manera que únicamente se mantienen

algunos de los datos representativos del documento (ejemplo: la ficha bibliográfica) en alguno de los tipos de bases de datos mencionados anteriormente y el documento es almacenado en algún tipo de dispositivo de almacenamiento.

FCC

- BU

AP

Prim

aver

a 20

14M

C Be

atriz

Bel

trán

Mar

tíez

11

Page 12: Información Semiestructurada MC Beatriz Beltrán Martínez Primavera 2014

FCC

- BU

AP

Prim

aver

a 20

14M

C Be

atriz

Bel

trán

Mar

tíez

12

Procesamiento

Base de Datos

Sistema deArchivos

consulta

metadatos

Id Documento

Documento

Page 13: Información Semiestructurada MC Beatriz Beltrán Martínez Primavera 2014

Características

• Para atender las necesidades de esta comunidad, un lenguaje de consulta para XML debería poseer las cualidades comunes de los lenguajes de consulta de datos semiestructurados, tanto las puramente relacionales, como aquellas similares a las de los lenguajes de consulta de bases de datos orientados a objeto, tales como la navegación y el anidamiento.• A continuación se explican con mayor detalle las

principales particularidades deseables para la consulta de datos:

13

MC

Beat

riz B

eltr

án M

artín

ezFC

C - B

UAP

P

rimav

era

2014

Page 14: Información Semiestructurada MC Beatriz Beltrán Martínez Primavera 2014

• Operación de selección: elige un documento o elemento basándose en el contenido, estructura o atributos que satisfagan una condición específica. Estas consultas constan generalmente de 3 partes o cláusulas:• Patrón: equipara elementos anidados en el

documento de entrada y les asocia variables.• Filtro: testea que las variables asociadas cumplan

las condiciones establecidas.• Constructor: especifica el resultado en términos

de las variables asociadas, es decir qué formato ha de tener la respuesta.

14

MC

Beat

riz B

eltr

án M

artín

ezFC

C - B

UAP

P

rimav

era

2014Características

Page 15: Información Semiestructurada MC Beatriz Beltrán Martínez Primavera 2014

• Operación de filtrado: extrae determinados elementos de los documentos conservando la jerarquía y secuencia.• Operación de reducción: proyecta como salida

la poda de los elementos especificados en la selección que satisfacen las condiciones, en vez de devolver un subárbol con todos los elementos y atributos.• Acción de reestructuración: como por ejemplo

la agrupación de datos relacionados y la ordenación.

15

MC

Beat

riz B

eltr

án M

artín

ezFC

C - B

UAP

P

rimav

era

2014Características

Page 16: Información Semiestructurada MC Beatriz Beltrán Martínez Primavera 2014

• Operación de combinación de datos de diferentes porciones de documentos (correspondiente al “join” relacional) o combinación de diferentes partes del mismo documento (“semi-join”).• Uso de funciones de agregación. • Utilización de la cuantificación existencial y

universal.• Operaciones de inserción, borrado y

modificación. 16

MC

Beat

riz B

eltr

án M

artín

ezFC

C - B

UAP

P

rimav

era

2014Características

Page 17: Información Semiestructurada MC Beatriz Beltrán Martínez Primavera 2014

• Variables etiqueta o expresiones de camino para permitir peticiones sin conocimiento preciso de la estructura del documento y acceso a datos anidados de forma arbitraria. El lenguaje de consulta debe poder usarse aun cuando no se conozca un esquema (dtd o xml schema) a priori.• Operadores de navegación que simplifiquen el

manejo de datos con referencias [atributos id, idref(s)].• Manejo de tipos de datos, en particular los del

XML schema17

MC

Beat

riz B

eltr

án M

artín

ezFC

C - B

UAP

P

rimav

era

2014Características

Page 18: Información Semiestructurada MC Beatriz Beltrán Martínez Primavera 2014

Recuperación de pasajes

• La idea de recuperar partes de documentos no es nueva.• La recuperación de partes de documentos,

llamadas pasajes, es la propuesta más antigua y estudiada.• El principio, es bastante simple: dentro de los

documentos de texto, los pasajes son secuencias textuales de palabras consecutivas que presentan cierta homogeneidad en su temática y que, por lo tanto, pueden ser relevantes para el usuario.

18

MC

Beat

riz B

eltr

án M

artín

ezFC

C - B

UAP

P

rimav

era

2014

Page 19: Información Semiestructurada MC Beatriz Beltrán Martínez Primavera 2014

• Por “palabras consecutivas” entendemos una secuencia de palabras según el “orden de lectura” del documento.• Debido a que a priori se ignora la estructura

lógica oculta de los documentos, el problema principal es encontrar una “buena” segmentación de los documentos.• Un método clásico para localizar pasajes consiste

en analizar la distribución de las palabras dentro de una ventana de tamaño fijo que se va desplazando. 19

MC

Beat

riz B

eltr

án M

artín

ezFC

C - B

UAP

P

rimav

era

2014Recuperación de pasajes

Page 20: Información Semiestructurada MC Beatriz Beltrán Martínez Primavera 2014

• Los límites de los pasajes se encuentran cuando se observa un cambio significativo en la distribución del vocabulario local al compararlo con distribución previa.• También se han realizado propuestas basadas en

pasajes más cercanas a la noción de estructura lógica, pero este tipo de propuestas no pueden aprovechar al máximo de la estructura lógica de los documentos.

20

MC

Beat

riz B

eltr

án M

artín

ezFC

C - B

UAP

P

rimav

era

2014Recuperación de pasajes

Page 21: Información Semiestructurada MC Beatriz Beltrán Martínez Primavera 2014

Modelo de listas no solapadas

• Esta propuesta de Burkowski se basa en la división de cada documento en regiones de texto disjuntas pero que recubren todo el documento (índices densos), produciendo una lista.• El proceso se realiza para los distintos tipos de

regiones que aparecen en el documento, produciéndose múltiples listas: lista de capítulos, lista de párrafos, etc., de manera que no existe solapamiento entre regiones de una misma lista y si se puede producir entre regiones de listas diferentes.

21

MC

Beat

riz B

eltr

án M

artíe

zFC

C - B

UAP

P

rimav

era

2014

Page 22: Información Semiestructurada MC Beatriz Beltrán Martínez Primavera 2014

22

MC

Beat

riz B

eltr

án M

artíe

zFC

C - B

UAP

P

rimav

era

2014Modelo de listas no solapadas

Capítulo

Sección

Subsección

Subsubsección