coseno ajustado
Post on 21-Oct-2015
53 Views
Preview:
TRANSCRIPT
Recuperación y Acceso a la
Información
Tema 1. Introducción
Julián Urbano, Jorge Morato, Mónica Marrero, Sonia Sánchez-Cuadrado
Contenidos
Conceptos básicos de la recuperación de información
Modelos clásicos de recuperación
— Modelo Booleano
— Modelo Vectorial
— Modelo Probabilístico
— Comparativa
Recuperación y Acceso a la Información 2
Julián Urbano, Jorge Morato, Mónica Marrero, Sonia Sánchez-Cuadrado
Conceptos básicos
Dada una colección de documentos.. ¿cómo podemos
recuperar la información relevante para nosotros?
¿Qué elementos van a ser representativos del contenido de
cada documento?
¿Va a tenerse en cuenta la estructura del documento o sólo su
contenido?
¿Cómo vamos a llevar a cabo la representación de ese
documento?
¿Cómo vamos a llevar a cabo la representación de nuestras
consultas?
¿Cuál va a ser la función que relaciona una consulta con un
conjunto de documentos relevantes?
¿Cuál va a ser la relevancia asociada a cada documento?
Recuperación y Acceso a la Información 3
Julián Urbano, Jorge Morato, Mónica Marrero, Sonia Sánchez-Cuadrado
Modelo de
Recuperación de Información
Es una cuadrupla [D,Q,F,R(qi,dj)]
D: representaciones de los documentos de la colección que se
desea recuperar
Q: representaciones de las consultas que plasman las
necesidades de información del usuario
F: marco que permite establecer una relación entre las
representaciones de los documentos y las de las consultas
R(qi,dj): función de relevancia que asigna una valor al
documento i para una consulta dada j
4Recuperación y Acceso a la Información
Julián Urbano, Jorge Morato, Mónica Marrero, Sonia Sánchez-Cuadrado
Esquema básico de un
motor de recuperación
Usuario
2. Comparación
Consulta
3. Documentos relevantes
(habitualmente ordenados)
Relación de documentos
Medidas Similitud
Documento/
Consulta
1. Indización
Automática
Documentos
5Recuperación y Acceso a la Información
BD
Procesamiento
Julián Urbano, Jorge Morato, Mónica Marrero, Sonia Sánchez-Cuadrado
Representación de
documentos y consultas
Indización: proceso que tiene como objetivo la representación
de un documento o consulta mediante los conceptos o palabras
que lo componen.
— Indización manual: conceptos
— Indización automática: extracción de palabras
En los sistemas de recuperación, la representación documental
se realiza con estructuras llamadas índices inversos: relación
entre términos y documentos que los contienen
Recuperación y Acceso a la Información 6
Julián Urbano, Jorge Morato, Mónica Marrero, Sonia Sánchez-Cuadrado
Índice inverso
Fuente: Manning C.; Raghavan P.; Schütze H. Information Retrieval, Cambridge University Press, 2008
Recuperación y Acceso a la Información 7
Julián Urbano, Jorge Morato, Mónica Marrero, Sonia Sánchez-Cuadrado
Modelos clásicos de Recuperación
Modelos clásicos:
— Booleano
— Vectorial
— Probabilístico
Consideran que los documentos son descritos por una serie de
términos K= {k1…kn}
Los términos tienen asociados pesos, que varían según el
documento que describan. W1j= peso término 1 en documento j
Un documento es entonces descrito por: dj={w1j…wnj}
8Recuperación y Acceso a la Información
Julián Urbano, Jorge Morato, Mónica Marrero, Sonia Sánchez-Cuadrado
Modelo Booleano
Basado en la lógica de proposiciones (Georges Boole, The Laws of
Though, 1854)
Asigna los pesos en función de si los términos están presentes o
no en un documento: pesos binarios
No hay relevancia parcial: son o no relevantes
Las consultas se llevan a cabo en lenguaje booleano:
— Operadores Booleanos
• And (+, &, Y, ∧)
• Or (o, |, ∨)
• not (no, and not, -, ¬)
• Además pueden tener paréntesis
9Recuperación y Acceso a la Información
Julián Urbano, Jorge Morato, Mónica Marrero, Sonia Sánchez-Cuadrado
Modelo Booleano. Ejemplo
Documento 1: ‖los coches tienen ruedas y circulan por cualquier vía”
Documento 2: ‖por la autopista pueden circular coches, motos…”
K={coches, ruedas, vía, autopista, motos}
D1 = (1,1,1,0,0)
D2 = (1,0,0,1,1)
Q1 : ruedas AND (autopista OR coches) = D1
Q2 : coches AND motos = D2
10Recuperación y Acceso a la Información
Julián Urbano, Jorge Morato, Mónica Marrero, Sonia Sánchez-Cuadrado
d1d2
d3
Consulta (q)
Mide qué documento tiene más distancia
con la consulta
11Recuperación y Acceso a la Información
Cada documento y cada consulta es representada por un
vector, con tantas dimensiones como términos en K
Se asignan pesos positivos y no binarios a los términos
La similitud entre un documento y una consulta se mide por la
distancia existente entre ambos vectores.
Para el cálculo del coeficiente de similitud se utilizan varias
funciones. El más utilizado es el coseno del ángulo entre los
dos vectores.
G. Salton et.al., "A Vector Space Model for Automatic Indexing," Communications of the
ACM, vol. 18-11, pp. 613–620, 1975.
Modelo Vectorial
Julián Urbano, Jorge Morato, Mónica Marrero, Sonia Sánchez-Cuadrado
Modelo Vectorial. Similitud
mediante el producto escalar (I)
sim(dj,q) = dj•q = wij · wiq
— donde wij es el peso del término i en el documento j y wiq es el
peso del término i en la consulta
Si los pesos son 0 ó 1 el producto escalar es la suma de los
términos comunes entre documento y consulta
Si existe un rango más amplio de pesos, se sumarán los
productos de los pesos de los términos en común
t
i 1
12Recuperación y Acceso a la Información
Julián Urbano, Jorge Morato, Mónica Marrero, Sonia Sánchez-Cuadrado
Modelo Vectorial. Similitud
mediante el producto escalar (y II)
Con pesos binarios (0 ó 1):
Con pesos no binarios: D1 = (2,3,1,0,2,1,0)
D2 = (3,7,0,0,0,1,1)
Q = (1,1,0,0,2,0,0)
sim(D1 , Q) = 2·1+3·1+2·2 = 9
sim(D2 , Q) = 3·1+7·1 = 10
sim(D, Q) = 3
coche carreteraasiento mar multa motor rueda
D 1 1 1 0 1 1 0
Q 1 0 1 0 0 1 1
13Recuperación y Acceso a la Información
Julián Urbano, Jorge Morato, Mónica Marrero, Sonia Sánchez-Cuadrado
Modelo Vectorial. Similitud
mediante el coseno (I)
Recuperación y Acceso a la Información 14
Es el producto escalar de ambos vectores normalizado por la longitud de los mismos:
A diferencia del producto interno, el coseno varía entre 0 y 1
Ejemplo:
D1 = (2,3,1,0,2,1,0)
D2 = (3,7,0,0,0,1,1)
Q = (1,1,0,0,2,0,0)
Coseno: D1 es mejor que D2
Producto interno: D1 es peor que D2
t
i
t
i
t
i
ww
ww
qd
qd
iqij
iqij
j
j
1 1
22
1
)(
CosSim(dj, q) =
0.844)11)·(1419(49Q),cosSim(D1
0.534)11)·(1149(910Q),cosSim(D2
Julián Urbano, Jorge Morato, Mónica Marrero, Sonia Sánchez-Cuadrado
Modelo Vectorial. Similitud
mediante el coseno (y II)
D1 = 0.2K1 + 0.7K2
Q = 0.4K1 + 0.8K2
0.98)0.7)·(0.20.8(0.4
(0.8·0.7)(0.4·0.2))sim(Q,D
22221
El máximo posible es 1, porque el coseno de 0º es 1
Ejemplo:
15Recuperación y Acceso a la Información
Julián Urbano, Jorge Morato, Mónica Marrero, Sonia Sánchez-Cuadrado
Modelo Vectorial.
Medidas de similitud
Medida de similitud
Producto escalar
Coeficiente de Dice
Coseno
Coeficiente
de Jaccard
i
m
1i
i yx
m
1i
m
1i
2
i
2
i
i
m
1i
i
yx
yx2
m
1i
m
1i
2
i
2
i
i
m
1i
i
yx
yx
m
1i
m
1i
m
1i
ii
2
i
2
i
i
m
1i
i
yxyx
yx
YX
YX
YX2
YX
YX
YXYX
YX
16Recuperación y Acceso a la Información
Julián Urbano, Jorge Morato, Mónica Marrero, Sonia Sánchez-Cuadrado
¿Cómo calcular los pesos?
Diferentes métodos, uno de los más utilizados el de frecuencias tf-idf
tf (term frequency): frecuencia de un término i en un documento j. Número de veces que un término aparece en un documento normalizado por la máxima frecuencia de cualquier término en ese documento.
tfi,j = freqi,j / max freqI,j
idf (inverse document frequency): frecuencia de un término i en el resto de la colección. Número de documentos de la colección (N) en los que aparece el término (ni).
idfi =log (N / ni)
Peso de un término i en un documento j según tf-idf:
wi,j = tfi,j · idfi = (freqi,j / max freqI,j) · log (N / ni)
17Recuperación y Acceso a la Información
Julián Urbano, Jorge Morato, Mónica Marrero, Sonia Sánchez-Cuadrado
Modelo Vectorial. Problema
Calcular la similitud mediante la fórmula del coseno de los
siguientes documentos (sin tener en cuenta IDF)
— Doc1: ―Demasiado al Este es el Oeste‖
— Doc2: ‖Este Sol sale por el Este y se oculta por el Oeste‖
Si se calcula la semejanza entre
— Doc1: ―Un perro ataca a un niño con virus‖
— Doc 2: ―Virus ataca al perro de un niño‖
tendrán un 100% de semejanza. Para resolverlo hay que aplicar
búsqueda conceptual (mediante mejor identificación de
tokens) y PLN
18Recuperación y Acceso a la Información
Julián Urbano, Jorge Morato, Mónica Marrero, Sonia Sánchez-Cuadrado
Modelo Probabilístico
Calcula la probabilidad de que un documento sea relevante a
una consulta, según los términos que aparecen en ambos
Es complejo y costoso en cuanto a computabilidad
— Pero es más robusto, al ser puramente teórico
Necesita un corpus de entrenamiento
— Podría ser online con relevance feedback
Asume la independencia de términos
— P(york)=P(york|new) P(pie)=P(pie|apple)
Asigna pesos a los términos
— Positivo: es probable que el documento sea relevante
— Negativo: es probable que el documento no sea relevante
Muchas alternativas y derivados, como Okapi MB25 y BM25F.S.E.Robertson y K.S.Jones, "Relevance weighting of search terms", Journal of the
American Society for Information Science, vol. 27-3, pp. 129–146, 1976.
Recuperación y Acceso a la Información 19
Julián Urbano, Jorge Morato, Mónica Marrero, Sonia Sánchez-Cuadrado
Modelo Probabilístico.
Cálculo de pesos
I1 I2
O1
O2
Recuperación y Acceso a la Información 20
2)(N1)(n
1)(R0.5)(r
log
1)R-(N0.5)r-(n
1)(R0.5)(r
log
1)n-(N1)(n
0.5)r-(R0.5)(r
log
0.5r)-(R-n)-(N0.5)r-(n
0.5)r-(R0.5)(r
log
I1: La distribución de términos en documentos relevantes es independiente,
y en todos los documentos también.
I2: La distribución de términos en documentos relevantes es independiente,
y en no relevantes también.
O1: La probabilidad de relevancia se basa sólo en la presencia de los
términos de la consulta en el documento.
O2: La probabilidad de relevancia se basa en la presencia de los términos de
la consulta en el documento y en su ausencia.
N=número de documentos
R=número de relevantes
para la consulta
n=número de documentos
con el término
r=número de relevantes
con el término
Julián Urbano, Jorge Morato, Mónica Marrero, Sonia Sánchez-Cuadrado
Modelo Probabilístico. Ejemplo
Q: ―oro plata camión‖
D1: ―envío de oro dañado en incendio‖
D2: ―entrega de plata en un camión de plata‖
D3: ―envío de oro en un camión‖
D2 y D3 son considerados relevantes
Recuperación y Acceso a la Información 21
oro plata camión
N 3 3 3
n 2 1 2
R 2 2 2
r 1 1 2
I1-O1 I2-O1 I1-O2 I2-O2
oro -0.079 -0.176 -0.176 -0.477
plata 0.097 0.301 0.176 0.477
camión 0.143 0.523 0.523 1.176
I1-O1 I2-O1 I1-O2 I2-O2
D1 -0.079 -0.176 -0.176 -0.477
D2 0.240 0.824 0.699 1.653
D3 0.064 0.347 0.347 0.699
D.A.Grossman y O.Frieder, ―Information Retrieval, algorithms and heuristics‖, Springer, 2004.
Julián Urbano, Jorge Morato, Mónica Marrero, Sonia Sánchez-Cuadrado
Probabilístico + Vectorial (I)
Modelo de independencia no binaria
— Modelo vectorial, pero los pesos se calculan con el probabilístico
Tiene en cuenta la frecuencia de términos
Normaliza según el tamaño de los documentos
Calcula el peso con la probabilidad de que el término
aparezca, con una frecuencia, en un documento
Recuperación y Acceso a la Información 22
)fRP(
)fP(Rlog
i
i
oro plata camión
D1 1/6 0 0
D2 0 2/8 1/8
D3 1/6 0 1/6
0.301012
1log
61RP
61RP
woro,1
0.301012
1log
0RP
0RPwplata,1
?1
0log
0RP
0RPwcamión,1 ajustar ?
0
1log¿y
Julián Urbano, Jorge Morato, Mónica Marrero, Sonia Sánchez-Cuadrado
Probabilístico + Vectorial (y II)
De nuevo, se ajusta para evitar inconsistencias:
Como suele haber pocas coincidencias de frecuencias entre
documentos, se hacen clases. Por ejemplo:
— [0,0.1),[0.1,0.2),…,[0.9,1]
Recuperación y Acceso a la Información 23
1)fRP(
0.5)fP(Rlog
i
i
oro plata camión
D1 log ½=-0.3010 log ½=-0.3010 log ¼=-0.6020
D2 log 1=0 log 1=0 log 1=0
D3 log ½=-0.3010 log ½=-0.3010 log 1=0
Julián Urbano, Jorge Morato, Mónica Marrero, Sonia Sánchez-Cuadrado
Modelo booleano.
Ventajas e inconvenientesVentajas
— En sistemas de bases de datos relacionales
— Eficiente y simple
— Muchos experimentos
— Álgebra booleana
Desventajas
— No relevancia (relevante o no)
— No tiene en cuenta tf/idf
— Los usuarios tienen problemas con los operadores booleanos
— No matching parcial: si cumple algunos AND no lo muestra
— Con todos OR muchos resultados, con todos AND muy pocos
Extensiones
— Booleano extendido
— Conjuntos difusos
24Recuperación y Acceso a la Información
Julián Urbano, Jorge Morato, Mónica Marrero, Sonia Sánchez-Cuadrado
Modelo vectorial.
Ventajas e inconvenientesVentajas
Mejores puntuaciones en experimentos, sobre todo con grandes
colecciones
Existen variaciones que permiten por ejemplo, relevance feedback
Tiene en cuenta tf/idf y longitud del documento
Grado de relevancia y matching parcial
Desventajas
Al igual que los otros dos modelos, necesita que consulta y
documento compartan igual terminología
No tiene en cuenta información de contexto, sintáctica, términos
ambiguos…
Extensiones
Vectorial generalizado
Latent semantic indexing
Redes neuronales
Recuperación y Acceso a la Información 25
Julián Urbano, Jorge Morato, Mónica Marrero, Sonia Sánchez-Cuadrado
Modelo Probabilístico.
Ventajas en inconvenientes
Ventajas
Permite feedback
Ordena los resultados por relevancia
Sigue un razonamiento matemático basado en probabilidades, lo que
permite que tenga extensiones populares
Desventajas
Poco intuitivo y pobres resultados
No es posible conocer al principio el conjunto de documentos relevantes
Igual que el vectorial, presupone independencia de términos
Extensiones
Considerar la frecuencia de términos en los documentos
Redes bayesianas
Redes de inferencia bayesianas
26Recuperación y Acceso a la Información
Julián Urbano, Jorge Morato, Mónica Marrero, Sonia Sánchez-Cuadrado
top related