indizacion de terminos

18
PRÁCTICA INDIZACIÓN DE TÉRMINOS CURSO 2010 FACULTAD DE DOCUMENTACIÓN ASIGNATURA: SISTEMAS AVANZADOS DE RECUPERACIÓN DE LA INFORMACIÓN PROFESOR: ALFONSO LÓPEZ BACA ALUMNO: ROBERTO CARLOS ÁLVARE DELGADO AÑO: 2009/2010

Upload: rober-c-alvarez

Post on 21-Mar-2016

212 views

Category:

Documents


0 download

DESCRIPTION

Práctica sobre indización de términos

TRANSCRIPT

Page 1: Indizacion de terminos

PRÁCTICA SARI: INDIZACIÓN DE TÉRMINOS

CURSO 2009/2010

ROBER C. ÁLVAREZ

PRÁCTICA INDIZACIÓN DE TÉRMINOS

CURSO 2010

FACULTAD DE DOCUMENTACIÓN ASIGNATURA: SISTEMAS AVANZADOS DE RECUPERACIÓN DE LA

INFORMACIÓN PROFESOR: ALFONSO LÓPEZ BACA

ALUMNO: ROBERTO CARLOS ÁLVARE DELGADO AÑO: 2009/2010

Page 2: Indizacion de terminos

PRÁCTICA SARI: INDIZACIÓN DE TÉRMINOS

CURSO 2009/2010

ROBER C. ÁLVAREZ

ÍNDICE

I. EJERCICIO 1. PONDERACIÓN DE LOS TÉRMINOS

a. Normalización según el número máximo de apariciones.

b. Normalización según la frecuencia inversa.

c. Ponderación de la señal y normalización.

II. EJERCICIO 2. SELECCIÓN DE LOS ÍNDICES MÁS SIGNIFICATIVOS

a. Términos más significativos según la Ley de Zipf.

b. Términos más significativos según la frecuencia inversa.

c. Términos más significativos según el principio de entropía.

III. EJERCICIO 3. CLUSTERING

a. Valores sin normalización.

b. Normalización según la frecuencia inversa.

Page 3: Indizacion de terminos

PRÁCTICA SARI: INDIZACIÓN DE TÉRMINOS

CURSO 2009/2010

ROBER C. ÁLVAREZ I. EJERCICIO 1. PONDERACIÓN DE LOS TÉRMINOS

Según el conjunto de documentos descritos en la tabla DxT, comprueba la efectividad de los siguientes métodos de ponderación de términos:

a. Normalización según el número máximo de apariciones.

b. Normalización según la frecuencia inversa.

c. Ponderación de la señal y normalización.

No olvides indicar los fundamentos y los objetivos de normalización empleados

así como los valores en los que se refleja. Muéstralos en gráficos que ayuden a

representar y argumentar los razonamientos expresados, elaborando una pequeña

memoria con los resultados y las conclusiones.

a. Normalización según el número máximo de apariciones.

FÓRMULA: TFij / MAX (TFij) Frecuencia de aparición de un término en el documento, en relación con el valor máximo de la frecuencia obtenida. Método:

Calcular el número máximo de cada término:

T D1 D2 D3 D4 D5 MÁXIMO 1 60 30 20 6 6 60 2 30 15 10 3 3 30 3 5 5 10 15 15 15 4 75 10 0 5 10 75 5 10 10 10 10 10 10 6 0 45 10 1 10 45 7 0 25 20 0 5 25 8 0 1 0 20 10 20 9 10 11 0 23 36 36

10 5 10 15 2 25 25

Page 4: Indizacion de terminos

PRÁCTICA SARI: INDIZACIÓN DE TÉRMINOS

CURSO 2009/2010

ROBER C. ÁLVAREZ

Cálculo del inverso 1/MAX

T D1 D2 D3 D4 D5 MÁXIMO 1/MÁX 1 60 30 20 6 6 60 0,01666667 2 30 15 10 3 3 30 0,03333333 3 5 5 10 15 15 15 0,06666667 4 75 10 0 5 10 75 0,01333333 5 10 10 10 10 10 10 0,1 6 0 45 10 1 10 45 0,02222222 7 0 25 20 0 5 25 0,04 8 0 1 0 20 10 20 0,05 9 10 11 0 23 36 36 0,02777778

10 5 10 15 2 25 25 0,04

Normalización según el número máximo de apariciones TF* 1/MAX

T D1 D2 D3 D4 D5

1 1,0 0,5 0,3 0,1 0,1

2 1,0 0,5 0,3 0,1 0,1

3 0,3 0,3 0,7 1,0 1,0

4 1,0 0,1 0,0 0,1 0,1

5 1,0 1,0 1,0 1,0 1,0

6 0,0 1,0 0,2 0,0 0,2

7 0,0 1,0 0,8 0,0 0,2

8 0,0 0,1 0,0 1,0 0,5

9 0,3 0,3 0,0 0,6 1,0

10 0,2 0,4 0,6 0,1 1,0

Normalización según núm máx de apariciones

0,0

0,20,4

0,6

0,81,0

1,2

1 2 3 4 5 6 7 8 9 10

D1

D2

D3

D4

D5

TF*1/MAX estamos normalizando los términos por el máximo de apariciones que

aparecen.

Page 5: Indizacion de terminos

PRÁCTICA SARI: INDIZACIÓN DE TÉRMINOS

CURSO 2009/2010

ROBER C. ÁLVAREZ

Conclusiones:

- Al realizar el proceso de normalización, los datos que en un primer momento

podrían destacar por su, puntual, elevada frecuencia de aparición, como el Término 4 en el Documento 1 y 75 repeticiones, se equiparan e igualan en importancia con otros, como el Término 1 o el Término 2, atenuando las diferencias.

- Si observamos los datos y comparamos las tablas destacan el descenso de las diferencias y el aumento del valor por aparición en varios documentos, frente al valor por aparición puntual en un solo documento.

El término 1 y 2 con valores dobles, se igualan tras la normalización. El término 5 es el más representativo, por aparecer en todos los

documentos. La constancia se valora más que la frecuencia de aparición puntual. Por eso el término 4 apenas dispone de presencia, tras la normalización.

- En definitiva este proceso de normalización prima la presencia repetida de los términos en diferentes documentos, frente a la aparición destacada en uno sólo, es decir, relativiza las frecuencias en función del valor máximo de la frecuencia del término alcanzado en los Documentos, lo que hace más representativa la palabra, dotándola de mayor importancia a la hora de formalizarla como término para la indización de los contenidos.

- Por otro lado, en este tipo de normalización será determinante la extensión

de los documentos. Estableciendo un umbral máximo de extensión sobre el que comparar los valores. Por el contrario los documentos de poca extensión quedarán penalizados por este motivo.

- Analizando el gráfico de normalización según el número máximo de apariciones podemos ver que el documento 1 queda mejor representado por los términos 1, 2, 4 y 5. El documento 2 por los términos 5, 6 y 7. El documento 3 por los términos 5, 3, 7, y 10. El documento 4 por los términos 3, 5, 8 y 9. Y por último el documento 5 por los términos 3, 5, 9 y 10.

b. Normalización según la frecuencia inversa.

FÓRMULA:

j2ijij IF

nLog*TFPeso

Page 6: Indizacion de terminos

PRÁCTICA SARI: INDIZACIÓN DE TÉRMINOS

CURSO 2009/2010

ROBER C. ÁLVAREZ Método:

Calcular el total de los documentos donde aparece el término. (IFj)

T D1 D2 D3 D4 D5 MÁXIMO 1/MÁX IFj 1 60 30 20 6 6 60 0,01666667 52 30 15 10 3 3 30 0,03333333 53 5 5 10 15 15 15 0,06666667 54 75 10 0 5 10 75 0,01333333 45 10 10 10 10 10 10 0,1 56 0 45 10 1 10 45 0,02222222 47 0 25 20 0 5 25 0,04 38 0 1 0 20 10 20 0,05 39 10 11 0 23 36 36 0,02777778 4

10 5 10 15 2 25 25 0,04 5 Se calcula el Índice de Frecuencia Inversa (IDF)

IDF = Log2(N) – Log (IF) +1

T D1 D2 D3 D4 D5 MÁXIMO 1/MÁX IFj IDF 1 60 30 20 6 6 60 0,01666667 5 12 30 15 10 3 3 30 0,03333333 5 13 5 5 10 15 15 15 0,06666667 5 14 75 10 0 5 10 75 0,01333333 4 1,321928095 10 10 10 10 10 10 0,1 5 16 0 45 10 1 10 45 0,02222222 4 1,321928097 0 25 20 0 5 25 0,04 3 1,736965598 0 1 0 20 10 20 0,05 3 1,736965599 10 11 0 23 36 36 0,02777778 4 1,32192809

10 5 10 15 2 25 25 0,04 5 1

Calculamos el peso. Multiplicar el TFij por el vvalor del IDF

T D1 D2 D3 D4 D5 1 60 30 20 6 6 2 30 15 10 3 3 3 5 5 10 15 15 4 99 13 0 7 13 5 10 10 10 10 10 6 0 59 13 1 13 7 0 43 35 0 9 8 0 2 0 35 17 9 13 15 0 30 48

10 5 10 15 2 25

Page 7: Indizacion de terminos

PRÁCTICA SARI: INDIZACIÓN DE TÉRMINOS

CURSO 2009/2010

ROBER C. ÁLVAREZ

Normalización según frecuencia inversa

020

4060

80100

120

1 2 3 4 5 6 7 8 9 10

D1

D2

D3

D4

D5

Conclusiones:

- A diferencia del proceso anterior, en este sí se tienen en cuenta las frecuencias puntuales, siendo estas inversamente proporcionales al número de apariciones del término en el conjunto de documentos, y directamente proporcional al número de apariciones en el documento.

- Los valores, ahora, vuelven a ser reforzados por el número original de

apariciones del término por documento.

- Por el contrario se hace más complicado el determinar que términos son más representativos del conjunto documental (cosa que anteriormente habíamos conseguido). Si tuviéramos los mismos términos repetidos en una gran mayoría de documentos, apenas se podría discriminar y la recuperación sería bastante complicada.

c. Ponderación de la señal y normalización Definición: La ponderación se realiza, por tanto, en función:

- de si un término aparece o no en un documento - del nº de veces que el término en cuestión aparece en el documento

Peso = TF*Señal Señal = [Log2 (TOTF) - Información] Información o Entropía = –∑ (Pk Log2Pk) TF= es la frecuencia de aparición del término en documento. TOTF = es el nº total de veces que aparece cada término Para poder realizar la normalización tenemos que calcular en primer lugar la tabla de valores de Pk: TF / TOTF

Page 8: Indizacion de terminos

PRÁCTICA SARI: INDIZACIÓN DE TÉRMINOS

CURSO 2009/2010

ROBER C. ÁLVAREZ

Calcular los valores TOTF

T D1 D2 D3 D4 D5 TOTF 1 60 30 20 6 6 122 2 30 15 10 3 3 61 3 5 5 10 15 15 50 4 75 10 0 5 10 100 5 10 10 10 10 10 50 6 0 45 10 1 10 66 7 0 25 20 0 5 50 8 0 1 0 20 10 31 9 10 11 0 23 36 80

10 5 10 15 2 25 57

Calculamos el Log2 de TOFT

T D1 D2 D3 D4 D5 TOTF LOG TOTF 1 60 30 20 6 6 122 6,93073734 2 30 15 10 3 3 61 5,93073734 3 5 5 10 15 15 50 5,64385619 4 75 10 0 5 10 100 6,64385619 5 10 10 10 10 10 50 5,64385619 6 0 45 10 1 10 66 6,04439412 7 0 25 20 0 5 50 5,64385619 8 0 1 0 20 10 31 4,95419631 9 10 11 0 23 36 80 6,32192809

10 5 10 15 2 25 57 5,83289001

Calculo de la información: -1*[(TFij/TFj) * Log2 (TFij/TFj)]

T D1 D2 D3 D4 D5 TOTF LOG TOTF Información1 60 30 20 6 6 122 6,93073734 1,856325332 30 15 10 3 3 61 5,93073734 1,856325333 5 5 10 15 15 50 5,64385619 2,170950594 75 10 0 5 10 100 6,64385619 1,191760155 10 10 10 10 10 50 5,64385619 2,321928096 0 45 10 1 10 66 6,04439412 1,293303957 0 25 20 0 5 50 5,64385619 1,360964058 0 1 0 20 10 31 4,95419631 1,09426599 10 11 0 23 36 80 6,32192809 1,80402492

10 5 10 15 2 25 57 5,83289001 1,94642185

Page 9: Indizacion de terminos

PRÁCTICA SARI: INDIZACIÓN DE TÉRMINOS

CURSO 2009/2010

ROBER C. ÁLVAREZ

Encontramos el valor de la señal. Log2 TOTF – Información

T D1 D2 D3 D4 D5 TOTF LOG TOTF Información señal 1 60 30 20 6 6 122 6,93073734 1,85632533 5,074412012 30 15 10 3 3 61 5,93073734 1,85632533 4,074412013 5 5 10 15 15 50 5,64385619 2,17095059 3,47290564 75 10 0 5 10 100 6,64385619 1,19176015 5,452096045 10 10 10 10 10 50 5,64385619 2,32192809 3,321928096 0 45 10 1 10 66 6,04439412 1,29330395 4,751090177 0 25 20 0 5 50 5,64385619 1,36096405 4,282892148 0 1 0 20 10 31 4,95419631 1,0942659 3,859930419 10 11 0 23 36 80 6,32192809 1,80402492 4,51790317

10 5 10 15 2 25 57 5,83289001 1,94642185 3,88646816

Se normalizan los términos según el peso de la señal.

T D1 D2 D3 D4 D5 1 304 152 101 30 152 2 122 61 41 12 61 3 17 17 35 52 17 4 409 55 0 27 55 5 33 33 33 33 33 6 0 214 48 5 214 7 0 107 86 0 107 8 0 4 0 77 4 9 45 50 0 104 50

10 19 39 58 8 39

Ponderación de la Señal

0

100

200

300

400

500

1 2 3 4 5 6 7 8 9 10

Serie1

Serie2

Serie3

Serie4

Serie5

Page 10: Indizacion de terminos

PRÁCTICA SARI: INDIZACIÓN DE TÉRMINOS

CURSO 2009/2010

ROBER C. ÁLVAREZ Conclusiones - A través de esta normalización, aumenta sensiblemente la precisión en la recuperación de información. La ponderación de los términos en relación con el conjunto de documentos se aproxima más a la realidad de cada término y a su significación en el conjunto documental. - A diferencia de la normalización por frecuencia inversa, la de la señal aún precisa más sobre la importancia de los términos en los documento porque ofrece valores menos generales y más exactos.

- Por ejemplo, el termino 5 que aparecía con valores altos en la normalización del máximo de apariciones, en cambio en la normalización por frecuencia inversa y en la de la señal queda representado con unos valores menos significativos. II. EJERCICIO 2. SELECCIÓN DE LOS ÍNDICES MÁS SIGNIFICATIVOS

Dado el conjunto de documentos del ejercicio anterior el alumno seleccionará los tres términos más representativos haciendo uso de la Ley de Zipf, la frecuencia inversa, y la entropía o cantidad de información.

Los valores obtenidos han ser analizados, determinado los índices con mayor poder de discriminación.

En cada caso se han de seleccionar los dos y tres términos más discriminativos para ser empleados en la realización de las gráficas ilustrativas de los resultados.

Los resultados obtenidos han de ser discutidos y reflejados en una breve memoria

a. Términos más representativos según la Ley de Zipf La ley de Zypf analiza los términos y su frecuencia de aparición. Los términos más representativos son aquellos que menos aparecen en el documento y viceversa. Para ello, tomamos los términos cuyos valores, según la teoría de la señal, son menos elevados, por lo que constituirán los términos que consideramos más representativos ya que aparecen menos. En este caso, podrían ser los términos 5 y 8 Zipf +

5 10 10 10 10 10 8 0 1 0 20 10

Page 11: Indizacion de terminos

PRÁCTICA SARI: INDIZACIÓN DE TÉRMINOS

CURSO 2009/2010

ROBER C. ÁLVAREZ En cuanto a los términos menos representativos, es decir, los que más aperecen tomamos por ejemplo los valores 1 y 4.

1 60 30 20 6 6 4 75 10 0 5 10

Ley de Zipf: relación de las palabras y su presencia en la representación de los documentos. A mayor numero de aparición menor relevancia.

ZIPF

0

20

40

60

80

0 10 20 30 40 50 60 70

Zipf +

Zipf -

Los términos más representativos según la ley de Zipf se mantienen más conectados que los términos menos representativos que aparecen más dispersos. b. Términos más significativos según la frecuencia inversa Este proceso de normalización consiste en estimar el número de veces que aparecen los términos en el conjunto total de documentos. Frecuencia inversa, frecuencia de concurrencia de los términos en el conjunto de documentos. Capacidad de recuperación de un término, será inversamente proporcional a la frecuencia en la colección de documentos. Los más relevantes serán aquellos que menos aparezcan en los documentos como pueden ser 7 y 8.

IDF+ 7 0 25 20 0 5 8 0 1 0 20 10

Los términos menos relevantes serán los que aparezcan en más documentos, como son 5 y 10.

IDF- 5 10 10 10 10 10

10 5 10 15 2 25

Page 12: Indizacion de terminos

PRÁCTICA SARI: INDIZACIÓN DE TÉRMINOS

CURSO 2009/2010

ROBER C. ÁLVAREZ La representación gráfica sería:

IDF

0

5

10

15

20

25

30

0 5 10 15 20 25 30

IDF +

IDF -

En este caso vemos que los documentos menos relevantes se concentran en la gráfica y los términos más relevantes están más dispersos. c. Términos más significativos según el principio de entropía Entropía o cantidad de información: el valor informativo de un término es inversamente proporcional a la probabilidad de ocurrencia de ese término dentro del documento. Los más representativos: Info +

1 60 30 20 6 6 4 75 10 0 5 10

Y los menos representativos: Info -

3 5 5 10 15 15 5 10 10 10 10 10

Page 13: Indizacion de terminos

PRÁCTICA SARI: INDIZACIÓN DE TÉRMINOS

CURSO 2009/2010

ROBER C. ÁLVAREZ

Entropía

0

20

40

60

80

0 10 20 30 40 50 60 70

Info +

Info -

En el gráfico, los puntos más dispersos muestran los términos más representativos del conjunto de documentos por el contrario, los que presentan un aspecto más homogéneo son los que representan menos al conjunto.

IV. EJERCICIO 3. CLUSTERING

Proceso de obtención de los clusters:

Objetivo: agrupar términos dotados de las mismas características

a. Valores sin normalización.

CLUSTERING T D1 D2 D3 D4 D5 1 60 30 20 6 6 2 30 15 10 3 3 3 5 5 10 15 15 4 75 10 0 5 10 5 10 10 10 10 10 6 0 45 10 1 10 7 0 25 20 0 5 8 0 1 0 20 10 9 10 11 0 23 36

10 5 10 15 2 25

Agrupación de los términos similares

Representación de los términos en torno al eje y la aproximación de los términos

jk,ik,jiescalar TT)T,(TD

Page 14: Indizacion de terminos

PRÁCTICA SARI: INDIZACIÓN DE TÉRMINOS

CURSO 2009/2010

ROBER C. ÁLVAREZ Matriz documento a documento:

D1 D2 D3 D4 D5 D1 3285 1725 1240 1860 D2 2000 788 1731 D3 440 975 D4 1508 D5

Valores umbrales, para 1500 y 2000

UMBRAL 1500 D1 D2 D3 D4 D5

D1 1 1 0 1 D2 1 0 1 D3 0 0 D4 1 D5 UMBRAL 2000

D1 D2 D3 D4 D5 D1 1 0 0 0 D2 1 0 0 D3 0 0 D4 0 D5

Representamos los valores umbrales y sus clases:

Umbral para 1500:

D1: D2, D3, D5

D2: D3, D5

D4: D5

Umbral para 2000:

D1:D2

D2:D1

Según las reglas de clustering en una clase determinada no se deben agrupar el

90% de los elementos de la colección.

D1

D3 D2

D5 D4

D1

D3 D2

Page 15: Indizacion de terminos

PRÁCTICA SARI: INDIZACIÓN DE TÉRMINOS

CURSO 2009/2010

ROBER C. ÁLVAREZ

Link de estrella: (umbral para 1500)

Dos clases

Clase1: D1, D2, D3, D5

Clase2: D4 ,D5

Cada elemento actúa de semilla para crear la categoría formada por los

elementos que le son similares.

Máximo Cliqué: (umbral para 1500)

D5

D1

D4

D3

D2

D4

D3

D2 D1

D5

Page 16: Indizacion de terminos

PRÁCTICA SARI: INDIZACIÓN DE TÉRMINOS

CURSO 2009/2010

ROBER C. ÁLVAREZ

C1= D1, D2, D3

C2= D5, D1, D2

C3= D5, D4

Todos los términos están relacionados entre sí.

b. Normalización según la frecuencia inversa.

Normalización de la frecuencia inversa

T D1 D2 D3 D4 D5 1 60 30 20 6 6 2 30 15 10 3 3 3 5 5 10 15 15 4 99 13 0 7 13 5 10 10 10 10 10 6 0 59 13 1 13 7 0 43 35 0 9 8 0 2 0 35 17 9 13 15 0 30 48

10 5 10 15 2 25

Aplicamos la fórmula de clustering:

Matriz documento a documento:

D1 D2 D3 D4 D5 D1 3928 1725 1692 2690 D2 3345 1088 2710 D3 447 1251 D4 2575 D5

Valores umbrales para 1500 y 2000:

UMBRAL 1500 D1 D2 D3 D4 D5

D1 1 1 1 1 D2 1 0 1 D3 0 0 D4 1 D5

jk,ik,jiescalar TT)T,(TD

Page 17: Indizacion de terminos

PRÁCTICA SARI: INDIZACIÓN DE TÉRMINOS

CURSO 2009/2010

ROBER C. ÁLVAREZ UMBRAL 2000

D1 D2 D3 D4 D5 D1 1 0 0 1 D2 1 0 1 D3 0 0 D4 1 D5

Umbral para 1500:

D1: D2, D3, D4, D5

D2: D3, D5

D4: D5

Umbral para 2000:

D1: D2, D5

D2: D3, D5

D4: D5

Las clases obtenidas ahora por normalización a través de la frecuencia inversa,

se aprecian más homogéneas.

Link de estrella: (umbral para 1500)

D1

D3 D2

D5 D4

D1

D3 D2

D5 D4

D5

D1

D4

D3

D2

Page 18: Indizacion de terminos

PRÁCTICA SARI: INDIZACIÓN DE TÉRMINOS

CURSO 2009/2010

ROBER C. ÁLVAREZ

Una clase

Clase1: D1, D2, D3, D4, D5

Máximo Cliqué: (umbral para 1500)

C1= D1, D2, D3

C2= D1, D2, D5

C3= D1, D4

Todos los términos están relacionados entre sí.

D4

D3

D2 D1

D5