coseno ajustado

Recuperación y Acceso a la

Información

Tema 1. Introducción

Julián Urbano, Jorge Morato, Mónica Marrero, Sonia Sánchez-Cuadrado

Contenidos

Conceptos básicos de la recuperación de información

Modelos clásicos de recuperación

— Modelo Booleano

— Modelo Vectorial

— Modelo Probabilístico

— Comparativa

Recuperación y Acceso a la Información 2

Conceptos básicos

Dada una colección de documentos.. ¿cómo podemos

recuperar la información relevante para nosotros?

¿Qué elementos van a ser representativos del contenido de

cada documento?

¿Va a tenerse en cuenta la estructura del documento o sólo su

contenido?

¿Cómo vamos a llevar a cabo la representación de ese

documento?

¿Cómo vamos a llevar a cabo la representación de nuestras

consultas?

¿Cuál va a ser la función que relaciona una consulta con un

conjunto de documentos relevantes?

¿Cuál va a ser la relevancia asociada a cada documento?

Modelo de

Recuperación de Información

Es una cuadrupla [D,Q,F,R(qi,dj)]

D: representaciones de los documentos de la colección que se

desea recuperar

Q: representaciones de las consultas que plasman las

necesidades de información del usuario

F: marco que permite establecer una relación entre las

representaciones de los documentos y las de las consultas

R(qi,dj): función de relevancia que asigna una valor al

documento i para una consulta dada j

4Recuperación y Acceso a la Información

Esquema básico de un

motor de recuperación

Usuario

2. Comparación

Consulta

3. Documentos relevantes

(habitualmente ordenados)

Relación de documentos

Medidas Similitud

Documento/

Consulta

1. Indización

Automática

Documentos

Procesamiento

Representación de

documentos y consultas

Indización: proceso que tiene como objetivo la representación

de un documento o consulta mediante los conceptos o palabras

que lo componen.

— Indización manual: conceptos

— Indización automática: extracción de palabras

En los sistemas de recuperación, la representación documental

se realiza con estructuras llamadas índices inversos: relación

entre términos y documentos que los contienen

Índice inverso

Fuente: Manning C.; Raghavan P.; Schütze H. Information Retrieval, Cambridge University Press, 2008

Modelos clásicos de Recuperación

Modelos clásicos:

— Booleano

— Vectorial

— Probabilístico

Consideran que los documentos son descritos por una serie de

términos K= {k1…kn}

Los términos tienen asociados pesos, que varían según el

documento que describan. W1j= peso término 1 en documento j

Un documento es entonces descrito por: dj={w1j…wnj}

Modelo Booleano

Basado en la lógica de proposiciones (Georges Boole, The Laws of

Though, 1854)

Asigna los pesos en función de si los términos están presentes o

no en un documento: pesos binarios

No hay relevancia parcial: son o no relevantes

Las consultas se llevan a cabo en lenguaje booleano:

— Operadores Booleanos

• And (+, &, Y, ∧)

• Or (o, |, ∨)

• not (no, and not, -, ¬)

• Además pueden tener paréntesis

Modelo Booleano. Ejemplo

Documento 1: ‖los coches tienen ruedas y circulan por cualquier vía”

Documento 2: ‖por la autopista pueden circular coches, motos…”

K={coches, ruedas, vía, autopista, motos}

D1 = (1,1,1,0,0)

D2 = (1,0,0,1,1)

Q1 : ruedas AND (autopista OR coches) = D1

Q2 : coches AND motos = D2

Consulta (q)

Mide qué documento tiene más distancia

con la consulta

Cada documento y cada consulta es representada por un

vector, con tantas dimensiones como términos en K

Se asignan pesos positivos y no binarios a los términos

La similitud entre un documento y una consulta se mide por la

distancia existente entre ambos vectores.

Para el cálculo del coeficiente de similitud se utilizan varias

funciones. El más utilizado es el coseno del ángulo entre los

dos vectores.

G. Salton et.al., "A Vector Space Model for Automatic Indexing," Communications of the

ACM, vol. 18-11, pp. 613–620, 1975.

Modelo Vectorial

Modelo Vectorial. Similitud

mediante el producto escalar (I)

sim(dj,q) = dj•q = wij · wiq

— donde wij es el peso del término i en el documento j y wiq es el

peso del término i en la consulta

Si los pesos son 0 ó 1 el producto escalar es la suma de los

términos comunes entre documento y consulta

Si existe un rango más amplio de pesos, se sumarán los

productos de los pesos de los términos en común

mediante el producto escalar (y II)

Con pesos binarios (0 ó 1):

Con pesos no binarios: D1 = (2,3,1,0,2,1,0)

D2 = (3,7,0,0,0,1,1)

Q = (1,1,0,0,2,0,0)

sim(D1 , Q) = 2·1+3·1+2·2 = 9

sim(D2 , Q) = 3·1+7·1 = 10

sim(D, Q) = 3

coche carreteraasiento mar multa motor rueda

D 1 1 1 0 1 1 0

Q 1 0 1 0 0 1 1

mediante el coseno (I)

Es el producto escalar de ambos vectores normalizado por la longitud de los mismos:

A diferencia del producto interno, el coseno varía entre 0 y 1

Ejemplo:

D1 = (2,3,1,0,2,1,0)

D2 = (3,7,0,0,0,1,1)

Q = (1,1,0,0,2,0,0)

Coseno: D1 es mejor que D2

Producto interno: D1 es peor que D2

CosSim(dj, q) =

0.844)11)·(1419(49Q),cosSim(D1

0.534)11)·(1149(910Q),cosSim(D2

mediante el coseno (y II)

D1 = 0.2K1 + 0.7K2

Q = 0.4K1 + 0.8K2

0.98)0.7)·(0.20.8(0.4

(0.8·0.7)(0.4·0.2))sim(Q,D

El máximo posible es 1, porque el coseno de 0º es 1

Ejemplo:

Modelo Vectorial.

Medidas de similitud

Medida de similitud

Producto escalar

Coeficiente de Dice

Coseno

Coeficiente

de Jaccard

¿Cómo calcular los pesos?

Diferentes métodos, uno de los más utilizados el de frecuencias tf-idf

tf (term frequency): frecuencia de un término i en un documento j. Número de veces que un término aparece en un documento normalizado por la máxima frecuencia de cualquier término en ese documento.

tfi,j = freqi,j / max freqI,j

idf (inverse document frequency): frecuencia de un término i en el resto de la colección. Número de documentos de la colección (N) en los que aparece el término (ni).

idfi =log (N / ni)

Peso de un término i en un documento j según tf-idf:

wi,j = tfi,j · idfi = (freqi,j / max freqI,j) · log (N / ni)

Modelo Vectorial. Problema

Calcular la similitud mediante la fórmula del coseno de los

siguientes documentos (sin tener en cuenta IDF)

— Doc1: ―Demasiado al Este es el Oeste‖

— Doc2: ‖Este Sol sale por el Este y se oculta por el Oeste‖

Si se calcula la semejanza entre

— Doc1: ―Un perro ataca a un niño con virus‖

— Doc 2: ―Virus ataca al perro de un niño‖

tendrán un 100% de semejanza. Para resolverlo hay que aplicar

búsqueda conceptual (mediante mejor identificación de

tokens) y PLN

Modelo Probabilístico

Calcula la probabilidad de que un documento sea relevante a

una consulta, según los términos que aparecen en ambos

Es complejo y costoso en cuanto a computabilidad

— Pero es más robusto, al ser puramente teórico

Necesita un corpus de entrenamiento

— Podría ser online con relevance feedback

Asume la independencia de términos

— P(york)=P(york|new) P(pie)=P(pie|apple)

Asigna pesos a los términos

— Positivo: es probable que el documento sea relevante

— Negativo: es probable que el documento no sea relevante

Muchas alternativas y derivados, como Okapi MB25 y BM25F.S.E.Robertson y K.S.Jones, "Relevance weighting of search terms", Journal of the

American Society for Information Science, vol. 27-3, pp. 129–146, 1976.

Modelo Probabilístico.

Cálculo de pesos

2)(N1)(n

1)(R0.5)(r

1)R-(N0.5)r-(n

1)(R0.5)(r

1)n-(N1)(n

0.5)r-(R0.5)(r

0.5r)-(R-n)-(N0.5)r-(n

0.5)r-(R0.5)(r

I1: La distribución de términos en documentos relevantes es independiente,

y en todos los documentos también.

I2: La distribución de términos en documentos relevantes es independiente,

y en no relevantes también.

O1: La probabilidad de relevancia se basa sólo en la presencia de los

términos de la consulta en el documento.

O2: La probabilidad de relevancia se basa en la presencia de los términos de

la consulta en el documento y en su ausencia.

N=número de documentos

R=número de relevantes

para la consulta

n=número de documentos

con el término

r=número de relevantes

con el término

Modelo Probabilístico. Ejemplo

Q: ―oro plata camión‖

D1: ―envío de oro dañado en incendio‖

D2: ―entrega de plata en un camión de plata‖

D3: ―envío de oro en un camión‖

D2 y D3 son considerados relevantes

oro plata camión

N 3 3 3

n 2 1 2

R 2 2 2

r 1 1 2

I1-O1 I2-O1 I1-O2 I2-O2

oro -0.079 -0.176 -0.176 -0.477

plata 0.097 0.301 0.176 0.477

camión 0.143 0.523 0.523 1.176

I1-O1 I2-O1 I1-O2 I2-O2

D1 -0.079 -0.176 -0.176 -0.477

D2 0.240 0.824 0.699 1.653

D3 0.064 0.347 0.347 0.699

D.A.Grossman y O.Frieder, ―Information Retrieval, algorithms and heuristics‖, Springer, 2004.

Probabilístico + Vectorial (I)

Modelo de independencia no binaria

— Modelo vectorial, pero los pesos se calculan con el probabilístico

Tiene en cuenta la frecuencia de términos

Normaliza según el tamaño de los documentos

Calcula el peso con la probabilidad de que el término

aparezca, con una frecuencia, en un documento

)fP(Rlog

oro plata camión

D1 1/6 0 0

D2 0 2/8 1/8

D3 1/6 0 1/6

0.301012

woro,1

0.301012

0RPwplata,1

0RPwcamión,1 ajustar ?

1log¿y

Probabilístico + Vectorial (y II)

De nuevo, se ajusta para evitar inconsistencias:

Como suele haber pocas coincidencias de frecuencias entre

documentos, se hacen clases. Por ejemplo:

— [0,0.1),[0.1,0.2),…,[0.9,1]

1)fRP(

0.5)fP(Rlog

oro plata camión

D1 log ½=-0.3010 log ½=-0.3010 log ¼=-0.6020

D2 log 1=0 log 1=0 log 1=0

D3 log ½=-0.3010 log ½=-0.3010 log 1=0

Modelo booleano.

Ventajas e inconvenientesVentajas

— En sistemas de bases de datos relacionales

— Eficiente y simple

— Muchos experimentos

— Álgebra booleana

Desventajas

— No relevancia (relevante o no)

— No tiene en cuenta tf/idf

— Los usuarios tienen problemas con los operadores booleanos

— No matching parcial: si cumple algunos AND no lo muestra

— Con todos OR muchos resultados, con todos AND muy pocos

Extensiones

— Booleano extendido

— Conjuntos difusos

Modelo vectorial.

Ventajas e inconvenientesVentajas

Mejores puntuaciones en experimentos, sobre todo con grandes

colecciones

Existen variaciones que permiten por ejemplo, relevance feedback

Tiene en cuenta tf/idf y longitud del documento

Grado de relevancia y matching parcial

Desventajas

Al igual que los otros dos modelos, necesita que consulta y

documento compartan igual terminología

No tiene en cuenta información de contexto, sintáctica, términos

ambiguos…

Extensiones

Vectorial generalizado

Latent semantic indexing

Redes neuronales

Modelo Probabilístico.

Ventajas en inconvenientes

Ventajas

Permite feedback

Ordena los resultados por relevancia

Sigue un razonamiento matemático basado en probabilidades, lo que

permite que tenga extensiones populares

Desventajas

Poco intuitivo y pobres resultados

No es posible conocer al principio el conjunto de documentos relevantes

Igual que el vectorial, presupone independencia de términos

Extensiones

Considerar la frecuencia de términos en los documentos

Redes bayesianas

Redes de inferencia bayesianas

coseno ajustado

Documents

grafica de funciones trigonometricas seno, coseno

seno coseno 10234

ley seno coseno

roma ajustado

catalogo ajustado copia

fbmicromaster 2021 ajustado

lineas seno, coseno y tangente cata

teorema del coseno por carlos fernández

tutorial tigre ajustado

la función coseno la función coseno, que se denota por f...

1 informe ajustado

transformada discreta del coseno (dct)

lineas seno, coseno y tangente

teorema del coseno

reporte semanal ajustado

micea ajustado claudia

teorema del seno y el coseno

lineas seno, coseno y tangente (3)

leyes de seno y coseno

seno e coseno