extracción automática de patrones

27
Propuesta para la extracción Propuesta para la extracción automática de patrones automática de patrones sintáctico sintáctico - - semánticos y su semánticos y su alineación multilingüe alineación multilingüe Borja Navarro Colorado [email protected] Dto. Lenguajes y Sistemas Informáticos Universidad de Alicante

Upload: others

Post on 16-Jul-2022

6 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Extracción automática de patrones

Propuesta para la extracción Propuesta para la extracción automática de patrones automática de patrones sintácticosintáctico--semánticos y su semánticos y su alineación multilingüealineación multilingüe

Borja Navarro Colorado [email protected]

Dto. Lenguajes y Sistemas Informáticos Universidad de Alicante

Page 2: Extracción automática de patrones

ÍndiceÍndice

MotivaciónMotivaciónObjetivos del proyectoObjetivos del proyectoBreve estado de la cuestiónBreve estado de la cuestiónExtracción de patrones sintácticoExtracción de patrones sintáctico--semánticossemánticosAlineación multilingüe de patronesAlineación multilingüe de patronesDescripción del sistemaDescripción del sistemaDesarrollo actual del proyectoDesarrollo actual del proyecto

Page 3: Extracción automática de patrones

ÍndiceÍndiceMotivaciónMotivaciónObjetivos del proyectoObjetivos del proyectoBreve estado de la cuestiónBreve estado de la cuestiónExtracción de patrones sintácticoExtracción de patrones sintáctico--semánticossemánticos–– Planteamiento teóricoPlanteamiento teórico–– Método de extracciónMétodo de extracción–– Problemas y propuestas de soluciónProblemas y propuestas de solución

Alineación multilingüe de patronesAlineación multilingüe de patronesDescripción del sistemaDescripción del sistemaDesarrollo actual del proyectoDesarrollo actual del proyecto

Page 4: Extracción automática de patrones

ÍndiceÍndiceMotivaciónMotivaciónObjetivos del proyectoObjetivos del proyectoBreve estado de la cuestiónBreve estado de la cuestiónExtracción de patrones sintácticoExtracción de patrones sintáctico--semánticossemánticosAlineación multilingüe de patronesAlineación multilingüe de patrones–– Planteamiento teóricoPlanteamiento teórico–– Método de alineaciónMétodo de alineación–– Problemas y propuestas de soluciónProblemas y propuestas de solución

Descripción del sistemaDescripción del sistemaDesarrollo actual del proyectoDesarrollo actual del proyecto

Page 5: Extracción automática de patrones

ÍndiceÍndice

MotivaciónMotivaciónObjetivos del proyectoObjetivos del proyectoBreve estado de la cuestiónBreve estado de la cuestiónExtracción de patrones sintácticoExtracción de patrones sintáctico--semánticossemánticosAlineación multilingüe de patronesAlineación multilingüe de patronesDescripción del sistemaDescripción del sistemaDesarrollo actual del proyectoDesarrollo actual del proyecto

Page 6: Extracción automática de patrones

MotivaciónMotivaciónImportancia del módulo léxico Importancia del módulo léxico (Vázquez (Vázquez et al.et al. 2000, 2000,

2002)2002)::–– GB GB ((ChomskyChomsky 81)81), , FillmoreFillmore 1968, 1968, JackendoffJackendoff 1990, 1990,

GrimshawGrimshaw 1990, 1990, PustejovskyPustejovsky 1995.1995.–– LFG, GPSG, HPSG, etc.LFG, GPSG, HPSG, etc.

Lingüística computacional: necesidad de crear Lingüística computacional: necesidad de crear léxicos con más información lingüística.léxicos con más información lingüística.–– Información sintáctica: Información sintáctica: subcategorizaciónsubcategorización verbal,verbal,–– Información semántica: rasgos de selección Información semántica: rasgos de selección

semántica, papeles temáticos, alternancias de semántica, papeles temáticos, alternancias de diátesis verbales, etc.diátesis verbales, etc.

Dificultad de crear el módulo léxico Dificultad de crear el módulo léxico manualmente manualmente ((BriscoeBriscoe y y CarrolCarrol 1994)1994)..

Page 7: Extracción automática de patrones

ObjetivosObjetivos

Crear un Crear un sistema automáticosistema automático que:que:1.1. extraiga patrones sintácticoextraiga patrones sintáctico--semánticos de semánticos de

corpus no etiquetados,corpus no etiquetados,2.2. alinee los patrones entre distintas lenguas alinee los patrones entre distintas lenguas

(español e inglés).(español e inglés).

ResultadoResultado: una BD con patrones : una BD con patrones sintácticosintáctico--semánticos asociados a sentidos semánticos asociados a sentidos verbales y alineados entre el español y el verbales y alineados entre el español y el inglés.inglés.

Page 8: Extracción automática de patrones

Estado de la cuestiónEstado de la cuestión

Proyectos de creación de Proyectos de creación de léxicos léxicos computacionalescomputacionales::

–– ComlexComlex–– MultilexMultilex–– GenelexGenelex–– AcquilexAcquilex–– EurotraEurotra–– UnitranUnitran (TA)(TA)–– MEANINGMEANING

Page 9: Extracción automática de patrones

Estado de la cuestiónEstado de la cuestión

ExtracciónExtracción de patrones:de patrones:–– Extracción automática/Extracción automática/semisemi--automática de automática de

patrones de patrones de subcategorizaciónsubcategorización sintácticasintáctica: : BrentBrent1993, 1993, UshiodaUshioda et al.et al. 1993, 1993, ManningManning 1993, 1993, BriscoeBriscoey y CarrollCarroll 1994, etc.1994, etc.

–– Extracción y uso de información Extracción y uso de información semánticasemántica: : BoguraevBoguraev y y PustejovskyPustejovsky ((edseds.) 1996, .) 1996, DorrDorr et al.et al.1995, 1995, McCarthyMcCarthy 2000, Vázquez 2000, Vázquez et al.et al. 2000, etc.2000, etc.

Page 10: Extracción automática de patrones

Extracción de patrones sintácticoExtracción de patrones sintáctico--semánticos: Planteamiento teóricosemánticos: Planteamiento teórico

VerboVerbo: componente central de la oración.: componente central de la oración.–– Organiza la estructura sintáctica de la oración.Organiza la estructura sintáctica de la oración.–– Especifica la organización semántica de los Especifica la organización semántica de los

complementos.complementos.

En el verbo se muestra la relación entre En el verbo se muestra la relación entre sintaxis y semántica.sintaxis y semántica.

Page 11: Extracción automática de patrones

Extracción de patrones sintácticoExtracción de patrones sintáctico--semánticos: Planteamiento teóricosemánticos: Planteamiento teórico

Verbo:Verbo:–– Información sintáctica:Información sintáctica:

Especifica los complementos Especifica los complementos subcategorizadossubcategorizados..–– Qué tipo de complementos son: SN, SP, SA, etc.Qué tipo de complementos son: SN, SP, SA, etc.–– Con qué función actúan en la oración. Con qué función actúan en la oración.

–– Información semántica de los argumentos:Información semántica de los argumentos:Papeles temáticos: “agente”, “paciente”, “beneficiario”, Papeles temáticos: “agente”, “paciente”, “beneficiario”, “instrumento”, etc.“instrumento”, etc.Rasgos de selección semántica: “humano”, “objeto”, etc.Rasgos de selección semántica: “humano”, “objeto”, etc.Estructura Estructura eventivaeventiva ((PustejovskyPustejovsky 1995) y la alternancia de 1995) y la alternancia de diátesis (Vázquez 2000).diátesis (Vázquez 2000).

Page 12: Extracción automática de patrones

Extracción de información sintácticaExtracción de información sintácticaMétodoMétodoObjetivoObjetivo: extraer : extraer de cada sentido de un verbode cada sentido de un verbo los los complementos complementos argumentalesargumentales a él asociados.a él asociados.–– Los patrones de Los patrones de subcategorizaciónsubcategorización están relacionados con el están relacionados con el

sentido del verbo.sentido del verbo.–– El comportamiento sintáctico y semántico del verbo están El comportamiento sintáctico y semántico del verbo están

relacionados (relacionados (FillmoreFillmore 1968, 1968, GrimshawGrimshaw 1990, 1990, JackendoffJackendoff 1990).1990).

Ejemplo:Ejemplo:“Mi hermano pegó los adhesivos en el libro”“Mi hermano pegó los adhesivos en el libro”

SN SN pegarpegar ((sentidoSWNsentidoSWN_2_2) SN SP(en)) SN SP(en)“Mi hermano pegó a su amigo”“Mi hermano pegó a su amigo”SN SN pegar pegar ((sentidoSWNsentidoSWN_1) SP(a)_1) SP(a)

“Esta chaqueta no pega con los pantalones”“Esta chaqueta no pega con los pantalones”SN SN pegarpegar ((sentidoSWNsentidoSWN_1_1) SP(con)) SP(con)

Page 13: Extracción automática de patrones

Extracción de información sintácticaExtracción de información sintácticaMétodoMétodoHerramientasHerramientas–– POSPOS--taggertagger ananáálisis llisis lééxicoxico--morfolmorfolóógico.gico.–– WSD WSD ananáálisis llisis lééxicoxico--semsemáántico de los verbos y ntico de los verbos y

nnúúcleos de los complementos.cleos de los complementos.–– Analizador sintAnalizador sintááctico superficial ctico superficial especificaciespecificacióón de n de

patrones.patrones.

Proceso:Proceso:–– Cada vez que aparece un verbo se extrae su patrCada vez que aparece un verbo se extrae su patróón n

argumental.argumental.–– Se unifican todos los patrones extraSe unifican todos los patrones extraíídos para un sentido dos para un sentido

verbal.verbal.–– Se rechazan los que tengan un Se rechazan los que tengan un ííndice de frecuencia bajo.ndice de frecuencia bajo.

Page 14: Extracción automática de patrones

Extracción de información sintácticaExtracción de información sintácticaProblemas y solucionesProblemas y soluciones

1.1. Diferenciar entre complementos Diferenciar entre complementos argumentalesargumentales y adjuntos:y adjuntos:—— Técnicas estadísticas (Técnicas estadísticas (BriscoeBriscoe y y CarrolCarrol 1994).1994).

2.2. Problemas con el sistema de WSD:Problemas con el sistema de WSD:—— Trabajar por dominios de InternetTrabajar por dominios de Internet—— Rechazar las ambigüedades sin solución.Rechazar las ambigüedades sin solución.

3.3. Funciones sintácticas.Funciones sintácticas.

Page 15: Extracción automática de patrones

Extracción de información Extracción de información semántica. Métodosemántica. Método

ObjetivoObjetivo: Extraer las restricciones semánticas de : Extraer las restricciones semánticas de cada argumento del verbo.cada argumento del verbo.–– Para cada núcleo del complemento verbal, se crea un Para cada núcleo del complemento verbal, se crea un

vector de componentes con toda la cadena de vector de componentes con toda la cadena de hiperónimoshiperónimos de de EuroWordNetEuroWordNet..

–– Se comparan todos los vectores de componentes Se comparan todos los vectores de componentes extraídos para el mismo sentido verbal/patrón.extraídos para el mismo sentido verbal/patrón.

–– Se eliminan los Se eliminan los synsetssynsets más específicos que no coincidan más específicos que no coincidan y se mantienen los y se mantienen los hiperónimoshiperónimos en que coincidan todos en que coincidan todos los vectores para un mismo argumento.los vectores para un mismo argumento.

–– Estos Estos hiperónimoshiperónimos se toman como restricciones se toman como restricciones semánticas.semánticas.

Page 16: Extracción automática de patrones

Extracción de información Extracción de información semántica. Métodosemántica. Método

EjemploEjemplo::“Mi hermano pegó a su amigo”“Mi hermano pegó a su amigo”

Hermano: pariente > humano > ser vivoHermano: pariente > humano > ser vivoAmigo: humano > ser vivoAmigo: humano > ser vivo

“Muchos profesores pegan a sus alumnos”“Muchos profesores pegan a sus alumnos”Profesor: pedagogo > profesional > adulto > humano > ser vivoProfesor: pedagogo > profesional > adulto > humano > ser vivoAlumno: aprendiz > humano > ser vivoAlumno: aprendiz > humano > ser vivo

SN [Humano/ser vivo] SN [Humano/ser vivo] pegar_SentXpegar_SentX SP(a) [humano/ser vivo]SP(a) [humano/ser vivo]

Page 17: Extracción automática de patrones

Extracción de información Extracción de información semántica. Problemas y solucionessemántica. Problemas y soluciones

Ambigüedad semántica (WSD)Ambigüedad semántica (WSD)–– No se consideran los ambiguos no resueltosNo se consideran los ambiguos no resueltos

Falta de información sobre:Falta de información sobre:–– Papeles temáticos:Papeles temáticos:

No hay lista consensuadaNo hay lista consensuadaFalta de recursoFalta de recurso

–– Alternancia de diátesisAlternancia de diátesis

Patrones semPatrones semáánticos no restrictivosnticos no restrictivos

Page 18: Extracción automática de patrones

Alineación de patrones: Alineación de patrones: Planteamiento teóricoPlanteamiento teórico

En un nivel suficientemente abstracto, los En un nivel suficientemente abstracto, los patrones semánticos son patrones semánticos son interlingüísticosinterlingüísticos–– Cada lengua especifica ese patrón con una Cada lengua especifica ese patrón con una

estructura sintáctica determinada.estructura sintáctica determinada.

Si un patrón semántico es común a dos Si un patrón semántico es común a dos lenguas, se pueden alinear sus patrones lenguas, se pueden alinear sus patrones sintácticos asociados.sintácticos asociados.

Page 19: Extracción automática de patrones

Alineación de patrones: Alineación de patrones: MétodoMétodo

Los verbos ya están alineados a través del ILI Los verbos ya están alineados a través del ILI de EWN.de EWN.Si éstos tienen un patrón semántico igual, Si éstos tienen un patrón semántico igual, alinea el patrón sintáctico asociado.alinea el patrón sintáctico asociado.

Page 20: Extracción automática de patrones

Alineación de patronesAlineación de patronesMétodoMétodo

SynsetSynset EWNEWN

Psemántico_ESPPsemántico_ESP Psemántico_INGPsemántico_ING

Psintac_ESPPsintac_ESP Psintac_INGPsintac_ING

Page 21: Extracción automática de patrones

Alineación de patronesAlineación de patronesMétodoMétodo

SynsetSynset EWNEWN

Psemántico_ESPPsemántico_ESP == Psemántico_INGPsemántico_ING

Psintac_ESPPsintac_ESP Psintac_INGPsintac_ING

Page 22: Extracción automática de patrones

Alineación de patronesAlineación de patronesMétodoMétodo

SynsetSynset EWNEWN

Psemántico_ESPPsemántico_ESP == Psemántico_INGPsemántico_ING

Psintac_ESPPsintac_ESP Psintac_INGPsintac_ING

Page 23: Extracción automática de patrones

Alineación de patrones: Alineación de patrones: Problemas y solucionesProblemas y soluciones

Problemas de ambigüedad no resueltos por el Problemas de ambigüedad no resueltos por el sistema de WSD.sistema de WSD.Abstracción del patrón semántico: comprobar Abstracción del patrón semántico: comprobar si se alcanza un grado suficiente de si se alcanza un grado suficiente de abstracción para considerarlo independiente abstracción para considerarlo independiente de las lenguas:de las lenguas:–– Se extraen por separado para cada lengua.Se extraen por separado para cada lengua.–– Posición de los constituyentes.Posición de los constituyentes.–– Diferentes rasgos de selección semántica entre Diferentes rasgos de selección semántica entre

lenguas.lenguas.

Page 24: Extracción automática de patrones

Descripción del sistemaDescripción del sistema

Page 25: Extracción automática de patrones

Captura textosCaptura textosCaptura textos InternetInternetInternetMotor Motor búsquedabúsqueda

POS POS taggertagger

Análisis léxicoAnálisis léxicoAnálisis léxicoWSDWSD

Extracción de patrón sintácticoExtracción de Extracción de

patrón sintácticopatrón sintácticoAnalizador Analizador sintácticosintáctico

PatronajePatronajesintácticosintáctico

PatronesPatronesEWNEWN

PatronajePatronajesemánticosemántico

Extracción de patrón semánticoExtracción de Extracción de

patrón semánticopatrón semántico Analizador Analizador semánticosemántico

Page 26: Extracción automática de patrones

Desarrollo actual del proyectoDesarrollo actual del proyecto

Experimento con 13 verbos Experimento con 13 verbos desambiguadosdesambiguados (Suárez y Palomar 2002)(Suárez y Palomar 2002)

–– Comprobar la eficacia del sistema sin los Comprobar la eficacia del sistema sin los errores del WSD.errores del WSD.

–– A partir de los resultados, redefinir y A partir de los resultados, redefinir y mejorar el sistema de extracción.mejorar el sistema de extracción.

Aparición de problemas no considerados.Aparición de problemas no considerados.

Page 27: Extracción automática de patrones

Propuesta para la extracción Propuesta para la extracción automática de patrones automática de patrones sintácticosintáctico--semánticos y su semánticos y su alineación multilingüealineación multilingüe

Borja Navarro Colorado [email protected]

Dto. Lenguajes y Sistemas Informáticos Universidad de Alicante