![Page 1: Avaluació de Gramàtiques de Dependències de FreeLing](https://reader035.vdocuments.co/reader035/viewer/2022062807/56815068550346895dbe660f/html5/thumbnails/1.jpg)
Seminari Tractament Automàtic del Llenguatge — desembre 2009
Avaluació de Gramàtiques de Dependències de
FreeLing
Irene Castellón, Marina lloberesGRIAL
Universitat de Barcelona{icastellon,marina.lloberes}@ub.edu
Lluís PadróTALP
Universitat Politècnica de [email protected]
![Page 2: Avaluació de Gramàtiques de Dependències de FreeLing](https://reader035.vdocuments.co/reader035/viewer/2022062807/56815068550346895dbe660f/html5/thumbnails/2.jpg)
Seminari Tractament Automàtic del Llenguatge — desembre 2009
1. Gramàtiques de dependències de FL2. Bases per a l’avaluació3. Avaluació quantitativa4. Avaluació qualitativa5. Resultats dels primers experiments
![Page 3: Avaluació de Gramàtiques de Dependències de FreeLing](https://reader035.vdocuments.co/reader035/viewer/2022062807/56815068550346895dbe660f/html5/thumbnails/3.jpg)
Seminari Tractament Automàtic del Llenguatge — desembre 2009
Funcionament de les gramàtiques
TXALADependency Parser
Transformarchunks a
dependències
Construir arbressintàctics complets
Assignar funciósintàctica a cada
dependència
TACATShallow Parser
chunks
921 - ~grup-verb[mov]_$$ (sn,sp-de) top_left RELABEL - grup-verb subj d.label=sn* d.side=left
ARBRE DE DEPENDÈNCIES
![Page 4: Avaluació de Gramàtiques de Dependències de FreeLing](https://reader035.vdocuments.co/reader035/viewer/2022062807/56815068550346895dbe660f/html5/thumbnails/4.jpg)
Seminari Tractament Automàtic del Llenguatge — desembre 2009
Format output TXALA
El gato come pescado.
grup-verb/top/(come comer VMIP3S0 -) [ sn/subj/(gato gato NCMS000 -) [ espec-ms/espec/(El el DA0MS0 -) ] sn/dobj/(pescado pescado NCMS000 -) F-term/term/(. . Fp -)]
![Page 5: Avaluació de Gramàtiques de Dependències de FreeLing](https://reader035.vdocuments.co/reader035/viewer/2022062807/56815068550346895dbe660f/html5/thumbnails/5.jpg)
Seminari Tractament Automàtic del Llenguatge — desembre 2009
Potència informativa de les regles
1. Regles de base sintàctica
2. Admeten informació semàntica
921 - $$_grup-verb (sn,sp-de) RELABEL -top_left
grup-verb subj d.label=sn* d.side=right p.class=intr
grup-verb dobj d.label=grup-sp d.side=right d.lemma=a|al
d:sn.tonto=Human d:sn.tonto!=Building|Place p.class=trans
![Page 6: Avaluació de Gramàtiques de Dependències de FreeLing](https://reader035.vdocuments.co/reader035/viewer/2022062807/56815068550346895dbe660f/html5/thumbnails/6.jpg)
Seminari Tractament Automàtic del Llenguatge — desembre 2009
Objectius de l’avaluació
Precisar la robustesa i la profunditat
És suficient la informació sintàctica?
La combinació amb informació
semàntica millora la qualitat?
Les gramàtiques basades en regles
arriben a una qualitat acceptable?
Cal la intervenció de coneixement
estadístic?
▪ Apuntar les estratègies per ampliar les gramàtiques
▪ Determinar una metodologia empírica d’avaluació
![Page 7: Avaluació de Gramàtiques de Dependències de FreeLing](https://reader035.vdocuments.co/reader035/viewer/2022062807/56815068550346895dbe660f/html5/thumbnails/7.jpg)
Seminari Tractament Automàtic del Llenguatge — desembre 2009
Sistema d’avaluació
EsTxalaSpanish Dependency Grammar
Corpus d’avaluació▪ Ancora (Martí et al, 2007)▪ SenSem (Alonso et al, 2007)
Avaluació quantitativa(experiments)
Estadístiques'CoNLL-X Shared Task (2006) script
evaluation
Gold standardSystem analysis
Avaluació qualitativa(experiments)
Comparació amb altres parsers:MaltParser (Nivre et al, 2006)
![Page 8: Avaluació de Gramàtiques de Dependències de FreeLing](https://reader035.vdocuments.co/reader035/viewer/2022062807/56815068550346895dbe660f/html5/thumbnails/8.jpg)
Seminari Tractament Automàtic del Llenguatge — desembre 2009
Avaluació quantitativa
▪ Explicar els errors significatius (en número)
▪ ≈ Avaluació massiva de dades▪ Ancora: 100.000 frases
▪ Experiments programats▪ Llargada oració
▪ Mètriques observades:▪ Labeled Attachment (LA)
▪ Arbres amb assignació correcta del head i de la funció
▪ Unlabeled Attachment (UA)▪ Arbres amb assignació correcta del head
▪ Label Accuracy (LAcc)▪ Arbres amb assignació correcta de funció
![Page 9: Avaluació de Gramàtiques de Dependències de FreeLing](https://reader035.vdocuments.co/reader035/viewer/2022062807/56815068550346895dbe660f/html5/thumbnails/9.jpg)
Seminari Tractament Automàtic del Llenguatge — desembre 2009
Mapping Ancora i FL
▪ EsTxala i Ancora tenen granularitats diferents
▪ Resoldre divergències de criteris lingüístics▪ Llistat únic d’etiquetes de funció sintàctica
▪ Adaptació a FL de totes etiquetes de funció sintàctica d’Ancora▪ Fins i tot, criteris sobre l’estructura sintàctica
Ancora FreeLing
Noia
La corre
que
Noia
La que
corre
![Page 10: Avaluació de Gramàtiques de Dependències de FreeLing](https://reader035.vdocuments.co/reader035/viewer/2022062807/56815068550346895dbe660f/html5/thumbnails/10.jpg)
Seminari Tractament Automàtic del Llenguatge — desembre 2009
Correspondències 1 = 1
Ancora FreeLing
cd dobj
cpred pred
suj subj
▪ Transformació directa
![Page 11: Avaluació de Gramàtiques de Dependències de FreeLing](https://reader035.vdocuments.co/reader035/viewer/2022062807/56815068550346895dbe660f/html5/thumbnails/11.jpg)
Seminari Tractament Automàtic del Llenguatge — desembre 2009
Correspondències 1 < n (també n > 1)
▪ Tractament de l’etiqueta S (Ancora)
S és fill de NOM?
sí
subord-mod
no
S és fill de PREPOSICIÓ?
obj-prep …
sí no
![Page 12: Avaluació de Gramàtiques de Dependències de FreeLing](https://reader035.vdocuments.co/reader035/viewer/2022062807/56815068550346895dbe660f/html5/thumbnails/12.jpg)
Seminari Tractament Automàtic del Llenguatge — desembre 2009
Resolució de casos complexos
▪ Si no es pot adaptar algun criteri, s’adopta una forma híbrida entre FL i Ancora▪ Es conserva l’estructura d’Ancora▪ Es transformen les funcions d’Ancora a FL
Ancora FreeLing Resultat
amics(f0)
i(f0)
amics(f0)
i(coord/c)
familiars (grup.nom
)
amics (co-n)
familiars (co-
n)
i(co-n)
familiars (co-n)
![Page 13: Avaluació de Gramàtiques de Dependències de FreeLing](https://reader035.vdocuments.co/reader035/viewer/2022062807/56815068550346895dbe660f/html5/thumbnails/13.jpg)
Seminari Tractament Automàtic del Llenguatge — desembre 2009
Avaluació quantitativa: resultats
▪ Resultats obtinguts a partir de la versió actual del mapping
▪ Transoformació d’Ancora gold standard i system analysis amb la versió del mapping actual
▪ La finalització del mapping millorarà els resultats
Labeled attachment score: 25562 / 45817 * 100 = 55.79 %Unlabeled attachment score: 30742 / 45817 * 100 = 67.10 %Label accuracy score: 28109 / 45817 * 100 = 61.35 %
![Page 14: Avaluació de Gramàtiques de Dependències de FreeLing](https://reader035.vdocuments.co/reader035/viewer/2022062807/56815068550346895dbe660f/html5/thumbnails/14.jpg)
Seminari Tractament Automàtic del Llenguatge — desembre 2009
Avaluació qualitativa
▪ Detectar▪ Quins tipus fenòmens típicament fallen▪ Quina és la informació més apropiada per millorar la
gramàtica
▪ Avaluació controlada de les dades
▪ Mètriques observades:▪ Labeled Attachment (LA)▪ Unlabeled Attachment (UA)▪ Label Accuracy (LAcc)
DADES ANOTACIÓ CASTELLÀ
SenSem(Castellón et al., 2006)
GOLD STANDARD 25
SYSTEM ANALYSIS 25
Ancora(Martí et al., 2007)
GOLD STANDARD 25
SYSTEM ANALYSIS 25
TOTAL 100
![Page 15: Avaluació de Gramàtiques de Dependències de FreeLing](https://reader035.vdocuments.co/reader035/viewer/2022062807/56815068550346895dbe660f/html5/thumbnails/15.jpg)
Seminari Tractament Automàtic del Llenguatge — desembre 2009
Experiments avaluació qualitativa
▪ Aïllament de fenòmens lingüístics complexos de resoldre en PLN▪ Oracions complexes▪ Subcategorització verbal▪ PP-attachment▪ Coordinació (oracional, sintagmàtica, lèxica)▪ Restriccions de selecció
▪ Prova pilot per comprovar la viabilitat d’aquesta metodologia
![Page 16: Avaluació de Gramàtiques de Dependències de FreeLing](https://reader035.vdocuments.co/reader035/viewer/2022062807/56815068550346895dbe660f/html5/thumbnails/16.jpg)
Seminari Tractament Automàtic del Llenguatge — desembre 2009
E1. Oracions simples vs. complexes
EsTxala Accuracy Scores
![Page 17: Avaluació de Gramàtiques de Dependències de FreeLing](https://reader035.vdocuments.co/reader035/viewer/2022062807/56815068550346895dbe660f/html5/thumbnails/17.jpg)
Seminari Tractament Automàtic del Llenguatge — desembre 2009
E1. Oracions simples vs. complexes
EsTxala UA Accuracy
![Page 18: Avaluació de Gramàtiques de Dependències de FreeLing](https://reader035.vdocuments.co/reader035/viewer/2022062807/56815068550346895dbe660f/html5/thumbnails/18.jpg)
Seminari Tractament Automàtic del Llenguatge — desembre 2009
E1. Oracions simples vs. complexes
EsTxala LAcc F1
![Page 19: Avaluació de Gramàtiques de Dependències de FreeLing](https://reader035.vdocuments.co/reader035/viewer/2022062807/56815068550346895dbe660f/html5/thumbnails/19.jpg)
Seminari Tractament Automàtic del Llenguatge — desembre 2009
E2a. Subcategorització verbal
corpus LA UA LAcc
SenSem amb subcategorització
85.02 91.82 85.85
SenSem sense subcategorització
85.71 92.09 86.41
EsTxala Accuracy Scores
▪ Sembla que la subcategorització no empitjora ni millora les anàlisis
![Page 20: Avaluació de Gramàtiques de Dependències de FreeLing](https://reader035.vdocuments.co/reader035/viewer/2022062807/56815068550346895dbe660f/html5/thumbnails/20.jpg)
Seminari Tractament Automàtic del Llenguatge — desembre 2009
E2b. Subcategorització amb els verbs de SenSem
EsTxala Accuracy Scores
corpus LA UA LAcc
Verbs SenSem amb subcategorització
84.75 90.78 85.82
Verbs SenSem sense subcategorització
85.82 91.13 86.70
▪ Reformulació de l’experiment de subcategorització verbal
▪ Els resultats no són els esperats▪ Caldrà un estudi detallat de les anàlisis proposades per
EsTxala en relació amb la subcategorització verbal
![Page 21: Avaluació de Gramàtiques de Dependències de FreeLing](https://reader035.vdocuments.co/reader035/viewer/2022062807/56815068550346895dbe660f/html5/thumbnails/21.jpg)
Seminari Tractament Automàtic del Llenguatge — desembre 2009
E3. PP-attachment
V SN(N1) SP(PREP,N2)
Juan llenó [el vaso de agua]Juan llenó [ el vaso ] [ de agua ]
Juan llenó [ de agua] [ el vaso ]Juan llenó [ el vaso de alabastro ]Juan llenó [ el vaso ] [ de aceite ]Juan llenó [ el vaso de alabastro ] [ de aceite ]Juan llenó [ de aceite ] [ el vaso de alabastro ]Juan llenó [ el vaso de alabastro ] [ con aceite ]
![Page 22: Avaluació de Gramàtiques de Dependències de FreeLing](https://reader035.vdocuments.co/reader035/viewer/2022062807/56815068550346895dbe660f/html5/thumbnails/22.jpg)
Seminari Tractament Automàtic del Llenguatge — desembre 2009
E3. PP-attachment
http://beta.visl.sdu.dk/visl/es/parsing/automatic/trees.php
http://www.connexor.eu/technology/machinese/demo/syntax/
![Page 23: Avaluació de Gramàtiques de Dependències de FreeLing](https://reader035.vdocuments.co/reader035/viewer/2022062807/56815068550346895dbe660f/html5/thumbnails/23.jpg)
Seminari Tractament Automàtic del Llenguatge — desembre 2009
E3. PP-attachment
Experiment 1 PP (Merlo & Esteve 2006)
Objectiu1- Construcció d'un classificador que determini si un sp és
complement d'un N o d'un V2- Aplicar el resultat del classificador a les decisions de la
gramàtica
Corpus:
Sensem → per a construir el classificadorAncora → per a l'aplicació (un segment controlat)Ancora tot → per a obtenir mesures estadístiques de
coocurrències.
![Page 24: Avaluació de Gramàtiques de Dependències de FreeLing](https://reader035.vdocuments.co/reader035/viewer/2022062807/56815068550346895dbe660f/html5/thumbnails/24.jpg)
Seminari Tractament Automàtic del Llenguatge — desembre 2009
E3. PP-attachment
Experiment 1 PP1- Construcció d'un classificador
Informació extreta a partir d'un corpus analitzat
Patró: V SN(N1) SP(PREP,N2)
Objete: Sp
Proposta de trets
![Page 25: Avaluació de Gramàtiques de Dependències de FreeLing](https://reader035.vdocuments.co/reader035/viewer/2022062807/56815068550346895dbe660f/html5/thumbnails/25.jpg)
Seminari Tractament Automàtic del Llenguatge — desembre 2009
E3. PP-attachment
Experiment 1 PP1- Construcció d'un classificador
Proposta de trets - head {N1,V} - classe lèxica del sp(N2) {TCO} problema--> desambiguació - classe lèxica del sn(N1) {TCO}- classe lèxica del V {TCO}- subcat V inclou SP {0,1} →consulta a subcategoritzación - valor prep {forma de la preposició}- distància entre N2 i V {+1,+2..+n. en palabras?}- distància entre N2 i N1 {+1....+n}- deverbal N1 {0,1} - Mutual Information N1 y V / N1 y N2 ??
![Page 26: Avaluació de Gramàtiques de Dependències de FreeLing](https://reader035.vdocuments.co/reader035/viewer/2022062807/56815068550346895dbe660f/html5/thumbnails/26.jpg)
Seminari Tractament Automàtic del Llenguatge — desembre 2009
E3. PP-attachment
Experiment 1 PP1- Construcció d'un classificador
Recursos
Subcategorización : listas de la gramática (parciales)Head : corpus anotado sensem Clases léxicas N1 V N2 → Top Concept OntologyDeverbal N1 → llista extreta d'un diccionario. IM : corpus ancoraDistancia: corpus ancora
clases léxicas: Top Concept OntologyGroup, Part, Object, Substance,Gas,Liquid,Solid, Building,
Comestible,Container,Covering,FurnitureGarment,Instrument, Occupation, Place, Representation, Software, Vehicle, Artifact,
Natural,Animalcreature,Human,Plant, Cause, Communication, Condition, Existence, Experience,
Location, Manner, Mental, Modal,Physical,Possesion, Purpose, Quantity, Social, Time, Usage, Dynamic,Static.
![Page 27: Avaluació de Gramàtiques de Dependències de FreeLing](https://reader035.vdocuments.co/reader035/viewer/2022062807/56815068550346895dbe660f/html5/thumbnails/27.jpg)
Seminari Tractament Automàtic del Llenguatge — desembre 2009
E3. PP-attachment
Experiment 1 PP1- Construcció d'un classificador
→ Aplicació: weka
- Clasificador - selecció del mètode - Selecció de trets - Aplicació /interpretació de classes - Avaluació → una part del corpus ha de reservar-se per
avaluar el clasificador
![Page 28: Avaluació de Gramàtiques de Dependències de FreeLing](https://reader035.vdocuments.co/reader035/viewer/2022062807/56815068550346895dbe660f/html5/thumbnails/28.jpg)
Seminari Tractament Automàtic del Llenguatge — desembre 2009
E3. PP-attachment
Experiment 1 PP2- Aplicació del classificador en las decisions de la
gramàtica
- aplicació del classificador a l'oració per a analizar- Posar condicions a l'aplicació de les regles (freeling: integració no massa clara)
![Page 29: Avaluació de Gramàtiques de Dependències de FreeLing](https://reader035.vdocuments.co/reader035/viewer/2022062807/56815068550346895dbe660f/html5/thumbnails/29.jpg)
Seminari Tractament Automàtic del Llenguatge — desembre 2009
E3. PP-attachment
Experiment 2 PP Model lingüístic
- escollir una part de corpus limitat i amb vocabulari controlat (o bé crear-lo) → subcorpus
- construir una modelització nominal i nominalizació verbal
Recursos:
- Top Concept Ontology- Corpus sensem /ancora
![Page 30: Avaluació de Gramàtiques de Dependències de FreeLing](https://reader035.vdocuments.co/reader035/viewer/2022062807/56815068550346895dbe660f/html5/thumbnails/30.jpg)
Seminari Tractament Automàtic del Llenguatge — desembre 2009
E3. PP-attachment
Experiment 2 PP Model lingüístic
1) estudi de un subcorpus controlat (unitats verbals i nominals)
- Precisar quines classes semàntiques són compatibles amb els noms. (problema del sentit)
- Precisar quines classes semántiques són compatibles amb els verbs (problema del sentit)--> sensem/adesse
2) Construir un recurs/model que expliciti les combinatories de les classes semàntiques (generalizació)
3) implementar el model en les regles de txala (integració definible)
![Page 31: Avaluació de Gramàtiques de Dependències de FreeLing](https://reader035.vdocuments.co/reader035/viewer/2022062807/56815068550346895dbe660f/html5/thumbnails/31.jpg)
Seminari Tractament Automàtic del Llenguatge — desembre 2009
E4. Coordinació
Experiment Coordinació1)Avaluació controlada
Coordinació lèxicaCoordinació de sintagmesCoordinació oracional
Contruir un corpus amb oracions modéliques ordenades per complexitat--> objectiu avaluar la font de l'error
2) Millores Modelització de nuclis coordinats: - coherència temps i mode verbal ...