variantes a la extracciÓn de vecinos semÁnticos y al algoritmo de predicaciÓn en corpus...

24
VARIANTES A LA EXTRACCIÓN DE VECINOS SEMÁNTICOS Y AL ALGORITMO DE PREDICACIÓN EN CORPUS CIENTÍFICOS Guillermo Jorge- Botana Ricardo Olmos Albacete José A. León Francisco Molinero

Upload: amancio-bula

Post on 02-Mar-2015

2 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: VARIANTES A LA EXTRACCIÓN DE VECINOS SEMÁNTICOS Y AL ALGORITMO DE PREDICACIÓN EN CORPUS CIENTÍFICOS Guillermo Jorge-Botana Ricardo Olmos Albacete José

VARIANTES A LA EXTRACCIÓN DE VECINOS SEMÁNTICOS Y AL ALGORITMO DE PREDICACIÓN EN CORPUS CIENTÍFICOS

Guillermo Jorge-Botana

Ricardo Olmos Albacete

José A. León

Francisco Molinero

Page 2: VARIANTES A LA EXTRACCIÓN DE VECINOS SEMÁNTICOS Y AL ALGORITMO DE PREDICACIÓN EN CORPUS CIENTÍFICOS Guillermo Jorge-Botana Ricardo Olmos Albacete José

•LSA puede:

+simular como puede estar representado el conocimiento

1. ¿Qué hace LSA?1. ¿Qué hace LSA?

Page 3: VARIANTES A LA EXTRACCIÓN DE VECINOS SEMÁNTICOS Y AL ALGORITMO DE PREDICACIÓN EN CORPUS CIENTÍFICOS Guillermo Jorge-Botana Ricardo Olmos Albacete José

• Pero:

+No es una teoría de procesamiento (Burguess, 2000)

+Es una representación estática de cómo se distribuye el conocimiento

+Para simular cualquier proceso:Como:

Juicios de semejanzas

Comprensión de estructuras textuales

Constricciones del contexto

+Es necesario formalizar algún tipo de operación sobre lo que LSA representa.

2. ¿Qué no hace LSA?2. ¿Qué no hace LSA?

Page 4: VARIANTES A LA EXTRACCIÓN DE VECINOS SEMÁNTICOS Y AL ALGORITMO DE PREDICACIÓN EN CORPUS CIENTÍFICOS Guillermo Jorge-Botana Ricardo Olmos Albacete José

3. Objetivos3. Objetivos

+Extraer términos vecinos de algunas palabras aisladas (estructura simple) y grupos de palabras (estructura compleja).

+Aplicar el algoritmo de predicación (Kintsch, 2001) a ciertas estructuras frecuentes en corpus científicos.

Page 5: VARIANTES A LA EXTRACCIÓN DE VECINOS SEMÁNTICOS Y AL ALGORITMO DE PREDICACIÓN EN CORPUS CIENTÍFICOS Guillermo Jorge-Botana Ricardo Olmos Albacete José

• Una forma:

+ Tomar el vector de una palabra y extraer una lista de sus n primeros vecinos semánticos.

+ Lista: se compara el vector de dicha palabra con todos los demás vectores-términos del espacio semántico.

+ Comparación: coseno del ángulo

µ Semejanza = Cos(A,I)

4. Extracción de contenidos4. Extracción de contenidos

A

I

Page 6: VARIANTES A LA EXTRACCIÓN DE VECINOS SEMÁNTICOS Y AL ALGORITMO DE PREDICACIÓN EN CORPUS CIENTÍFICOS Guillermo Jorge-Botana Ricardo Olmos Albacete José

• Un posible problema:

+ En ocasiones, los primeros términos de la lista son:

Términos de poca relevancia

Que sólo concurren con el término de referencia

Ejemplo: (A) Ciudad

(I) Deportiva(I)Condal(I) Real

(A)Ciudad

(I)País

(I)Transporte

(I)Alcalde

Y quizás también queremos

5. Extracción de contenidos5. Extracción de contenidos

Page 7: VARIANTES A LA EXTRACCIÓN DE VECINOS SEMÁNTICOS Y AL ALGORITMO DE PREDICACIÓN EN CORPUS CIENTÍFICOS Guillermo Jorge-Botana Ricardo Olmos Albacete José

• Una posible solución:

+ Ponderar el coseno del ángulo con la longitud de vector

Semejanza = Cos(A,I) x log (1 + longitudVector(I))

Longitud de Vector-término: puede denotar la importancia de un término dentro del dominio semántico.

6. Extracción de contenidos6. Extracción de contenidos

Page 8: VARIANTES A LA EXTRACCIÓN DE VECINOS SEMÁNTICOS Y AL ALGORITMO DE PREDICACIÓN EN CORPUS CIENTÍFICOS Guillermo Jorge-Botana Ricardo Olmos Albacete José

Nuestro corpus: psicopatología.

Page 9: VARIANTES A LA EXTRACCIÓN DE VECINOS SEMÁNTICOS Y AL ALGORITMO DE PREDICACIÓN EN CORPUS CIENTÍFICOS Guillermo Jorge-Botana Ricardo Olmos Albacete José

“Fobia”

Longitud de vector

Semejanza con “fobia”

7. Lista de “fobia”7. Lista de “fobia”

21 p

rim

eros

vec

inos

Coseno Coseno + long.vector

Page 10: VARIANTES A LA EXTRACCIÓN DE VECINOS SEMÁNTICOS Y AL ALGORITMO DE PREDICACIÓN EN CORPUS CIENTÍFICOS Guillermo Jorge-Botana Ricardo Olmos Albacete José

Longitud de vector

Semejanza con “tormentas”

8. Lista de “tormentas”8. Lista de “tormentas”21

pri

mer

os v

ecin

os

“Tormentas”

Coseno Coseno + long.vector

Page 11: VARIANTES A LA EXTRACCIÓN DE VECINOS SEMÁNTICOS Y AL ALGORITMO DE PREDICACIÓN EN CORPUS CIENTÍFICOS Guillermo Jorge-Botana Ricardo Olmos Albacete José

ESTRUCTURAS COMPLEJAS

(estructuras de dos términos)

Page 12: VARIANTES A LA EXTRACCIÓN DE VECINOS SEMÁNTICOS Y AL ALGORITMO DE PREDICACIÓN EN CORPUS CIENTÍFICOS Guillermo Jorge-Botana Ricardo Olmos Albacete José

+ Estructuras complejas: formadas por más de una palabra.

+ Estructuras predicativas: “Este partido es de centro”

+ Estructuras predicativas <<taxonómicas>>:

“Este pájaro es un pelícano”

9. Extracción del sentido de 9. Extracción del sentido de estructuras complejasestructuras complejas

Page 13: VARIANTES A LA EXTRACCIÓN DE VECINOS SEMÁNTICOS Y AL ALGORITMO DE PREDICACIÓN EN CORPUS CIENTÍFICOS Guillermo Jorge-Botana Ricardo Olmos Albacete José

“Fobia a las tormentas”

“Personalidad de la pistola”

+ Estructuras predicativas “taxonómicas” en corpus científicos:

10. Extracción del sentido de 10. Extracción del sentido de estructuras complejasestructuras complejas

P(A)

Personalidad (Pistola)

Fobia (Tormentas)

Page 14: VARIANTES A LA EXTRACCIÓN DE VECINOS SEMÁNTICOS Y AL ALGORITMO DE PREDICACIÓN EN CORPUS CIENTÍFICOS Guillermo Jorge-Botana Ricardo Olmos Albacete José

• Un forma: el centroide o la suma

Vector Predicado(Fobia) + Vector Argumento (tormentas)

11. Suma centroide11. Suma centroide

Page 15: VARIANTES A LA EXTRACCIÓN DE VECINOS SEMÁNTICOS Y AL ALGORITMO DE PREDICACIÓN EN CORPUS CIENTÍFICOS Guillermo Jorge-Botana Ricardo Olmos Albacete José

• Problema: el centroide

Gente

Social

Timidez

Precipicios

12. Suma centroide12. Suma centroide

Page 16: VARIANTES A LA EXTRACCIÓN DE VECINOS SEMÁNTICOS Y AL ALGORITMO DE PREDICACIÓN EN CORPUS CIENTÍFICOS Guillermo Jorge-Botana Ricardo Olmos Albacete José

• Necesitamos

13. Algoritmo de predicación13. Algoritmo de predicación

Page 17: VARIANTES A LA EXTRACCIÓN DE VECINOS SEMÁNTICOS Y AL ALGORITMO DE PREDICACIÓN EN CORPUS CIENTÍFICOS Guillermo Jorge-Botana Ricardo Olmos Albacete José

• LSA + Algoritmo de predicación (Kintsch, 2001)

14. Algoritmo de predicación14. Algoritmo de predicación

El sentido final de la predicación se forma sumando el predicado, el argumento y los n primeros vecinos del predicado pertinentes para el argumento.

Page 18: VARIANTES A LA EXTRACCIÓN DE VECINOS SEMÁNTICOS Y AL ALGORITMO DE PREDICACIÓN EN CORPUS CIENTÍFICOS Guillermo Jorge-Botana Ricardo Olmos Albacete José

(LSA + Algoritmo de predicación + Corrección con la longitud de vector)15. “Fobia a las tormentas”15. “Fobia a las tormentas”

Coseno + long.vectorCoseno

Con PredicaciónSin Predicación Sin Predicación Con Predicación

21 p

rim

eros

vec

inos

“fobia a las tormentas”: un fenómeno natural designa una fobia específica

Social

Público

Timidez

Precipicios

Serpientes

Específica

Social

SocialesEspecífica

Social

Serpientes

Subtipo

Específica

Timidez

Page 19: VARIANTES A LA EXTRACCIÓN DE VECINOS SEMÁNTICOS Y AL ALGORITMO DE PREDICACIÓN EN CORPUS CIENTÍFICOS Guillermo Jorge-Botana Ricardo Olmos Albacete José

“personalidad de la pistola”: un objeto designa personalidad antisocial

16. “Personalidad de la pistola”16. “Personalidad de la pistola”21

pri

mer

os v

ecin

os

Con PredicaciónSin Predicación Sin Predicación Con Predicación

(LSA + Algoritmo de predicación + Corrección con la longitud de vector)

Antisocial

Disocial

Navaja

Esquizoide

Esquizotípico

Límite

evitación

Antisocial

Esquizotípico

Esquizoide

Narcisista

Antisocial

Disocial

Robos

Violencia

Coseno + long.vectorCoseno

Page 20: VARIANTES A LA EXTRACCIÓN DE VECINOS SEMÁNTICOS Y AL ALGORITMO DE PREDICACIÓN EN CORPUS CIENTÍFICOS Guillermo Jorge-Botana Ricardo Olmos Albacete José

+LSA proporciona una representación objetiva y mensurable de conocimiento estático.

+LSA es una buena base para simular procesos mediante algoritmos que tengan en cuenta las constricciones del contexto.

+LSA y los algoritmos que provienen de la psicolingúística tiene muchas aplicaciones en el ámbito de la industria lingüística (buscadores, interpretadores de intenciones del usuario, web semántica, indexadores de información diagnóstica, visualización, etc) .

16. Conclusiones16. Conclusiones

Page 21: VARIANTES A LA EXTRACCIÓN DE VECINOS SEMÁNTICOS Y AL ALGORITMO DE PREDICACIÓN EN CORPUS CIENTÍFICOS Guillermo Jorge-Botana Ricardo Olmos Albacete José

18. Muchas gracias18. Muchas gracias

Page 22: VARIANTES A LA EXTRACCIÓN DE VECINOS SEMÁNTICOS Y AL ALGORITMO DE PREDICACIÓN EN CORPUS CIENTÍFICOS Guillermo Jorge-Botana Ricardo Olmos Albacete José

VARIANTES A LA EXTRACCIÓN DE VECINOS SEMÁNTICOS Y AL ALGORITMO DE PREDICACIÓN EN CORPUS CIENTÍFICOS

Guillermo Jorge-Botana

Ricardo Olmos Albacete

José A. León

Page 23: VARIANTES A LA EXTRACCIÓN DE VECINOS SEMÁNTICOS Y AL ALGORITMO DE PREDICACIÓN EN CORPUS CIENTÍFICOS Guillermo Jorge-Botana Ricardo Olmos Albacete José

Comparación de los listados con textos reales

Similitud de cada uno de los métodos con muestras de definiciones reales basados en DSM-IV ( Concepto general d fobia, Fobia social, Fobia específica Ansiedad generalizada)

"Fobia a las tormentas"

0

0,1

0,2

0,3

0,4

0,5

0,6

0,7

0,8

0,9

1

Fo

bia

F. S

oci

al

F.E

spec

ífic

a

A.G

ener

aliz

ada

Sin Corregir Corregido

PRE Sin Corregir PRE Corregido

Aux. Listados vs. definiciones Aux. Listados vs. definiciones realesreales

Page 24: VARIANTES A LA EXTRACCIÓN DE VECINOS SEMÁNTICOS Y AL ALGORITMO DE PREDICACIÓN EN CORPUS CIENTÍFICOS Guillermo Jorge-Botana Ricardo Olmos Albacete José

Comparación de los listados con textos reales

Similitud de cada uno de los métodos con muestras de definiciones reales basados en DSM-IV ( Concepto general d fobia, Fobia social, Fobia específica Ansiedad generalizada)

"Personalidad de la Pistola"

0

0,1

0,2

0,3

0,4

0,5

0,6

0,7

0,8

0,9

1

Per

son

alid

ad

P.E

squ

izo

ide

P.E

vita

ció

n

P.A

nti

soci

al

Sin Corregir Corregido

PRE Sin Corregir PRE Corregido

Aux. Listados vs. definiciones Aux. Listados vs. definiciones realesreales