coseno ajustado

26
Recuperación y Acceso a la Información Tema 1. Introducción Julián Urbano, Jorge Morato, Mónica Marrero, Sonia Sánchez-Cuadrado

Upload: jonathan-fernandez

Post on 21-Oct-2015

52 views

Category:

Documents


4 download

TRANSCRIPT

Page 1: coseno ajustado

Recuperación y Acceso a la

Información

Tema 1. Introducción

Julián Urbano, Jorge Morato, Mónica Marrero, Sonia Sánchez-Cuadrado

Page 2: coseno ajustado

Contenidos

Conceptos básicos de la recuperación de información

Modelos clásicos de recuperación

— Modelo Booleano

— Modelo Vectorial

— Modelo Probabilístico

— Comparativa

Recuperación y Acceso a la Información 2

Julián Urbano, Jorge Morato, Mónica Marrero, Sonia Sánchez-Cuadrado

Page 3: coseno ajustado

Conceptos básicos

Dada una colección de documentos.. ¿cómo podemos

recuperar la información relevante para nosotros?

¿Qué elementos van a ser representativos del contenido de

cada documento?

¿Va a tenerse en cuenta la estructura del documento o sólo su

contenido?

¿Cómo vamos a llevar a cabo la representación de ese

documento?

¿Cómo vamos a llevar a cabo la representación de nuestras

consultas?

¿Cuál va a ser la función que relaciona una consulta con un

conjunto de documentos relevantes?

¿Cuál va a ser la relevancia asociada a cada documento?

Recuperación y Acceso a la Información 3

Julián Urbano, Jorge Morato, Mónica Marrero, Sonia Sánchez-Cuadrado

Page 4: coseno ajustado

Modelo de

Recuperación de Información

Es una cuadrupla [D,Q,F,R(qi,dj)]

D: representaciones de los documentos de la colección que se

desea recuperar

Q: representaciones de las consultas que plasman las

necesidades de información del usuario

F: marco que permite establecer una relación entre las

representaciones de los documentos y las de las consultas

R(qi,dj): función de relevancia que asigna una valor al

documento i para una consulta dada j

4Recuperación y Acceso a la Información

Julián Urbano, Jorge Morato, Mónica Marrero, Sonia Sánchez-Cuadrado

Page 5: coseno ajustado

Esquema básico de un

motor de recuperación

Usuario

2. Comparación

Consulta

3. Documentos relevantes

(habitualmente ordenados)

Relación de documentos

Medidas Similitud

Documento/

Consulta

1. Indización

Automática

Documentos

5Recuperación y Acceso a la Información

BD

Procesamiento

Julián Urbano, Jorge Morato, Mónica Marrero, Sonia Sánchez-Cuadrado

Page 6: coseno ajustado

Representación de

documentos y consultas

Indización: proceso que tiene como objetivo la representación

de un documento o consulta mediante los conceptos o palabras

que lo componen.

— Indización manual: conceptos

— Indización automática: extracción de palabras

En los sistemas de recuperación, la representación documental

se realiza con estructuras llamadas índices inversos: relación

entre términos y documentos que los contienen

Recuperación y Acceso a la Información 6

Julián Urbano, Jorge Morato, Mónica Marrero, Sonia Sánchez-Cuadrado

Page 7: coseno ajustado

Índice inverso

Fuente: Manning C.; Raghavan P.; Schütze H. Information Retrieval, Cambridge University Press, 2008

Recuperación y Acceso a la Información 7

Julián Urbano, Jorge Morato, Mónica Marrero, Sonia Sánchez-Cuadrado

Page 8: coseno ajustado

Modelos clásicos de Recuperación

Modelos clásicos:

— Booleano

— Vectorial

— Probabilístico

Consideran que los documentos son descritos por una serie de

términos K= {k1…kn}

Los términos tienen asociados pesos, que varían según el

documento que describan. W1j= peso término 1 en documento j

Un documento es entonces descrito por: dj={w1j…wnj}

8Recuperación y Acceso a la Información

Julián Urbano, Jorge Morato, Mónica Marrero, Sonia Sánchez-Cuadrado

Page 9: coseno ajustado

Modelo Booleano

Basado en la lógica de proposiciones (Georges Boole, The Laws of

Though, 1854)

Asigna los pesos en función de si los términos están presentes o

no en un documento: pesos binarios

No hay relevancia parcial: son o no relevantes

Las consultas se llevan a cabo en lenguaje booleano:

— Operadores Booleanos

• And (+, &, Y, ∧)

• Or (o, |, ∨)

• not (no, and not, -, ¬)

• Además pueden tener paréntesis

9Recuperación y Acceso a la Información

Julián Urbano, Jorge Morato, Mónica Marrero, Sonia Sánchez-Cuadrado

Page 10: coseno ajustado

Modelo Booleano. Ejemplo

Documento 1: ‖los coches tienen ruedas y circulan por cualquier vía”

Documento 2: ‖por la autopista pueden circular coches, motos…”

K={coches, ruedas, vía, autopista, motos}

D1 = (1,1,1,0,0)

D2 = (1,0,0,1,1)

Q1 : ruedas AND (autopista OR coches) = D1

Q2 : coches AND motos = D2

10Recuperación y Acceso a la Información

Julián Urbano, Jorge Morato, Mónica Marrero, Sonia Sánchez-Cuadrado

Page 11: coseno ajustado

d1d2

d3

Consulta (q)

Mide qué documento tiene más distancia

con la consulta

11Recuperación y Acceso a la Información

Cada documento y cada consulta es representada por un

vector, con tantas dimensiones como términos en K

Se asignan pesos positivos y no binarios a los términos

La similitud entre un documento y una consulta se mide por la

distancia existente entre ambos vectores.

Para el cálculo del coeficiente de similitud se utilizan varias

funciones. El más utilizado es el coseno del ángulo entre los

dos vectores.

G. Salton et.al., "A Vector Space Model for Automatic Indexing," Communications of the

ACM, vol. 18-11, pp. 613–620, 1975.

Modelo Vectorial

Julián Urbano, Jorge Morato, Mónica Marrero, Sonia Sánchez-Cuadrado

Page 12: coseno ajustado

Modelo Vectorial. Similitud

mediante el producto escalar (I)

sim(dj,q) = dj•q = wij · wiq

— donde wij es el peso del término i en el documento j y wiq es el

peso del término i en la consulta

Si los pesos son 0 ó 1 el producto escalar es la suma de los

términos comunes entre documento y consulta

Si existe un rango más amplio de pesos, se sumarán los

productos de los pesos de los términos en común

t

i 1

12Recuperación y Acceso a la Información

Julián Urbano, Jorge Morato, Mónica Marrero, Sonia Sánchez-Cuadrado

Page 13: coseno ajustado

Modelo Vectorial. Similitud

mediante el producto escalar (y II)

Con pesos binarios (0 ó 1):

Con pesos no binarios: D1 = (2,3,1,0,2,1,0)

D2 = (3,7,0,0,0,1,1)

Q = (1,1,0,0,2,0,0)

sim(D1 , Q) = 2·1+3·1+2·2 = 9

sim(D2 , Q) = 3·1+7·1 = 10

sim(D, Q) = 3

coche carreteraasiento mar multa motor rueda

D 1 1 1 0 1 1 0

Q 1 0 1 0 0 1 1

13Recuperación y Acceso a la Información

Julián Urbano, Jorge Morato, Mónica Marrero, Sonia Sánchez-Cuadrado

Page 14: coseno ajustado

Modelo Vectorial. Similitud

mediante el coseno (I)

Recuperación y Acceso a la Información 14

Es el producto escalar de ambos vectores normalizado por la longitud de los mismos:

A diferencia del producto interno, el coseno varía entre 0 y 1

Ejemplo:

D1 = (2,3,1,0,2,1,0)

D2 = (3,7,0,0,0,1,1)

Q = (1,1,0,0,2,0,0)

Coseno: D1 es mejor que D2

Producto interno: D1 es peor que D2

t

i

t

i

t

i

ww

ww

qd

qd

iqij

iqij

j

j

1 1

22

1

)(

CosSim(dj, q) =

0.844)11)·(1419(49Q),cosSim(D1

0.534)11)·(1149(910Q),cosSim(D2

Julián Urbano, Jorge Morato, Mónica Marrero, Sonia Sánchez-Cuadrado

Page 15: coseno ajustado

Modelo Vectorial. Similitud

mediante el coseno (y II)

D1 = 0.2K1 + 0.7K2

Q = 0.4K1 + 0.8K2

0.98)0.7)·(0.20.8(0.4

(0.8·0.7)(0.4·0.2))sim(Q,D

22221

El máximo posible es 1, porque el coseno de 0º es 1

Ejemplo:

15Recuperación y Acceso a la Información

Julián Urbano, Jorge Morato, Mónica Marrero, Sonia Sánchez-Cuadrado

Page 16: coseno ajustado

Modelo Vectorial.

Medidas de similitud

Medida de similitud

Producto escalar

Coeficiente de Dice

Coseno

Coeficiente

de Jaccard

i

m

1i

i yx

m

1i

m

1i

2

i

2

i

i

m

1i

i

yx

yx2

m

1i

m

1i

2

i

2

i

i

m

1i

i

yx

yx

m

1i

m

1i

m

1i

ii

2

i

2

i

i

m

1i

i

yxyx

yx

YX

YX

YX2

YX

YX

YXYX

YX

16Recuperación y Acceso a la Información

Julián Urbano, Jorge Morato, Mónica Marrero, Sonia Sánchez-Cuadrado

Page 17: coseno ajustado

¿Cómo calcular los pesos?

Diferentes métodos, uno de los más utilizados el de frecuencias tf-idf

tf (term frequency): frecuencia de un término i en un documento j. Número de veces que un término aparece en un documento normalizado por la máxima frecuencia de cualquier término en ese documento.

tfi,j = freqi,j / max freqI,j

idf (inverse document frequency): frecuencia de un término i en el resto de la colección. Número de documentos de la colección (N) en los que aparece el término (ni).

idfi =log (N / ni)

Peso de un término i en un documento j según tf-idf:

wi,j = tfi,j · idfi = (freqi,j / max freqI,j) · log (N / ni)

17Recuperación y Acceso a la Información

Julián Urbano, Jorge Morato, Mónica Marrero, Sonia Sánchez-Cuadrado

Page 18: coseno ajustado

Modelo Vectorial. Problema

Calcular la similitud mediante la fórmula del coseno de los

siguientes documentos (sin tener en cuenta IDF)

— Doc1: ―Demasiado al Este es el Oeste‖

— Doc2: ‖Este Sol sale por el Este y se oculta por el Oeste‖

Si se calcula la semejanza entre

— Doc1: ―Un perro ataca a un niño con virus‖

— Doc 2: ―Virus ataca al perro de un niño‖

tendrán un 100% de semejanza. Para resolverlo hay que aplicar

búsqueda conceptual (mediante mejor identificación de

tokens) y PLN

18Recuperación y Acceso a la Información

Julián Urbano, Jorge Morato, Mónica Marrero, Sonia Sánchez-Cuadrado

Page 19: coseno ajustado

Modelo Probabilístico

Calcula la probabilidad de que un documento sea relevante a

una consulta, según los términos que aparecen en ambos

Es complejo y costoso en cuanto a computabilidad

— Pero es más robusto, al ser puramente teórico

Necesita un corpus de entrenamiento

— Podría ser online con relevance feedback

Asume la independencia de términos

— P(york)=P(york|new) P(pie)=P(pie|apple)

Asigna pesos a los términos

— Positivo: es probable que el documento sea relevante

— Negativo: es probable que el documento no sea relevante

Muchas alternativas y derivados, como Okapi MB25 y BM25F.S.E.Robertson y K.S.Jones, "Relevance weighting of search terms", Journal of the

American Society for Information Science, vol. 27-3, pp. 129–146, 1976.

Recuperación y Acceso a la Información 19

Julián Urbano, Jorge Morato, Mónica Marrero, Sonia Sánchez-Cuadrado

Page 20: coseno ajustado

Modelo Probabilístico.

Cálculo de pesos

I1 I2

O1

O2

Recuperación y Acceso a la Información 20

2)(N1)(n

1)(R0.5)(r

log

1)R-(N0.5)r-(n

1)(R0.5)(r

log

1)n-(N1)(n

0.5)r-(R0.5)(r

log

0.5r)-(R-n)-(N0.5)r-(n

0.5)r-(R0.5)(r

log

I1: La distribución de términos en documentos relevantes es independiente,

y en todos los documentos también.

I2: La distribución de términos en documentos relevantes es independiente,

y en no relevantes también.

O1: La probabilidad de relevancia se basa sólo en la presencia de los

términos de la consulta en el documento.

O2: La probabilidad de relevancia se basa en la presencia de los términos de

la consulta en el documento y en su ausencia.

N=número de documentos

R=número de relevantes

para la consulta

n=número de documentos

con el término

r=número de relevantes

con el término

Julián Urbano, Jorge Morato, Mónica Marrero, Sonia Sánchez-Cuadrado

Page 21: coseno ajustado

Modelo Probabilístico. Ejemplo

Q: ―oro plata camión‖

D1: ―envío de oro dañado en incendio‖

D2: ―entrega de plata en un camión de plata‖

D3: ―envío de oro en un camión‖

D2 y D3 son considerados relevantes

Recuperación y Acceso a la Información 21

oro plata camión

N 3 3 3

n 2 1 2

R 2 2 2

r 1 1 2

I1-O1 I2-O1 I1-O2 I2-O2

oro -0.079 -0.176 -0.176 -0.477

plata 0.097 0.301 0.176 0.477

camión 0.143 0.523 0.523 1.176

I1-O1 I2-O1 I1-O2 I2-O2

D1 -0.079 -0.176 -0.176 -0.477

D2 0.240 0.824 0.699 1.653

D3 0.064 0.347 0.347 0.699

D.A.Grossman y O.Frieder, ―Information Retrieval, algorithms and heuristics‖, Springer, 2004.

Julián Urbano, Jorge Morato, Mónica Marrero, Sonia Sánchez-Cuadrado

Page 22: coseno ajustado

Probabilístico + Vectorial (I)

Modelo de independencia no binaria

— Modelo vectorial, pero los pesos se calculan con el probabilístico

Tiene en cuenta la frecuencia de términos

Normaliza según el tamaño de los documentos

Calcula el peso con la probabilidad de que el término

aparezca, con una frecuencia, en un documento

Recuperación y Acceso a la Información 22

)fRP(

)fP(Rlog

i

i

oro plata camión

D1 1/6 0 0

D2 0 2/8 1/8

D3 1/6 0 1/6

0.301012

1log

61RP

61RP

woro,1

0.301012

1log

0RP

0RPwplata,1

?1

0log

0RP

0RPwcamión,1 ajustar ?

0

1log¿y

Julián Urbano, Jorge Morato, Mónica Marrero, Sonia Sánchez-Cuadrado

Page 23: coseno ajustado

Probabilístico + Vectorial (y II)

De nuevo, se ajusta para evitar inconsistencias:

Como suele haber pocas coincidencias de frecuencias entre

documentos, se hacen clases. Por ejemplo:

— [0,0.1),[0.1,0.2),…,[0.9,1]

Recuperación y Acceso a la Información 23

1)fRP(

0.5)fP(Rlog

i

i

oro plata camión

D1 log ½=-0.3010 log ½=-0.3010 log ¼=-0.6020

D2 log 1=0 log 1=0 log 1=0

D3 log ½=-0.3010 log ½=-0.3010 log 1=0

Julián Urbano, Jorge Morato, Mónica Marrero, Sonia Sánchez-Cuadrado

Page 24: coseno ajustado

Modelo booleano.

Ventajas e inconvenientesVentajas

— En sistemas de bases de datos relacionales

— Eficiente y simple

— Muchos experimentos

— Álgebra booleana

Desventajas

— No relevancia (relevante o no)

— No tiene en cuenta tf/idf

— Los usuarios tienen problemas con los operadores booleanos

— No matching parcial: si cumple algunos AND no lo muestra

— Con todos OR muchos resultados, con todos AND muy pocos

Extensiones

— Booleano extendido

— Conjuntos difusos

24Recuperación y Acceso a la Información

Julián Urbano, Jorge Morato, Mónica Marrero, Sonia Sánchez-Cuadrado

Page 25: coseno ajustado

Modelo vectorial.

Ventajas e inconvenientesVentajas

Mejores puntuaciones en experimentos, sobre todo con grandes

colecciones

Existen variaciones que permiten por ejemplo, relevance feedback

Tiene en cuenta tf/idf y longitud del documento

Grado de relevancia y matching parcial

Desventajas

Al igual que los otros dos modelos, necesita que consulta y

documento compartan igual terminología

No tiene en cuenta información de contexto, sintáctica, términos

ambiguos…

Extensiones

Vectorial generalizado

Latent semantic indexing

Redes neuronales

Recuperación y Acceso a la Información 25

Julián Urbano, Jorge Morato, Mónica Marrero, Sonia Sánchez-Cuadrado

Page 26: coseno ajustado

Modelo Probabilístico.

Ventajas en inconvenientes

Ventajas

Permite feedback

Ordena los resultados por relevancia

Sigue un razonamiento matemático basado en probabilidades, lo que

permite que tenga extensiones populares

Desventajas

Poco intuitivo y pobres resultados

No es posible conocer al principio el conjunto de documentos relevantes

Igual que el vectorial, presupone independencia de términos

Extensiones

Considerar la frecuencia de términos en los documentos

Redes bayesianas

Redes de inferencia bayesianas

26Recuperación y Acceso a la Información

Julián Urbano, Jorge Morato, Mónica Marrero, Sonia Sánchez-Cuadrado