presentación de powerpoint -...
Post on 25-Sep-2018
230 Views
Preview:
TRANSCRIPT
Análisis,
Parsing GRAMÁTICAS FORMALES
U: U n i v e r s o d e t o d a s
l a s p o s i b l e s
c a d e n a s d e t e x t o
EL LENGUAJE NATURAL Y LAS
GRAMÁTICAS FORMALES
L: S u b c o n j u n t o
e s p e c í f i c o q u e
c o n f o r m a
p a l a b r a s c o n
s i g n i f i c a d o
G(L): G r a m á t i c a
f o r m a l q u e
d e s c r i b e u n
l e n g u a j e
f o r m a l
U: U n i v e r s o d e t o d a s
l a s p o s i b l e s
c a d e n a s d e t e x t o
EL LENGUAJE NATURAL Y LAS
GRAMÁTICAS FORMALES
L: S u b c o n j u n t o
e s p e c í f i c o q u e
c o n f o r m a
p a l a b r a s c o n
s i g n i f i c a d o
LN: E v o l u c i o na , s e
a d a p t a , t i e n e
e x c e p c i o ne s e n
s u d e f i n i c i ó n
f o r m a l
G(L): G r a m á t i c a
f o r m a l q u e
d e s c r i b e u n
l e n g u a j e
f o r m a l
U: U n i v e r s o d e t o d a s
l a s p o s i b l e s
c a d e n a s d e t e x t o
EL LENGUAJE NATURAL Y LAS
GRAMÁTICAS FORMALES
L: S u b c o n j u n t o
e s p e c í f i c o q u e
c o n f o r m a
p a l a b r a s c o n
s i g n i f i c a d o
LN: E v o l u c i o na , s e
a d a p t a , t i e n e
e x c e p c i o ne s e n
s u d e f i n i c i ó n
f o r m a l
G’(L): G r a m á t i c a s
f o r m a l e s q u e
a p r o x i me n u n
l e n g u a j e n a t u r a l
Los algoritmos de análisis de lenguaje natural no se pueden
basar en gramáticas que tengan características fijas definibles
como las de los lenguajes de programación.
…PERO… Algunos formalismos gramaticales son muy difíciles de analizar
computacionalmente, por lo que, se usa una aproximación libre
de contexto incluso si la estructura no es libre de contexto para
obtener una primera simplificación.
SIMPLIFICACIÓN
U n r i o d e s a n g re , V i o l e t a P a r r a .
Tipo 3: (regulares, RG) Tienen la estructura más sencilla.
No describen lenguajes sino morfologías de los componentes del lenguaje (tokens).
Tipo 2: ( l ibres del contexto, CFG) Se restringe la liber tad de la formación de reglas gramaticales.
El signif icado de una palabra es totalmente independiente de su posición en la frase.
Describen completamente lenguajes formales (ar tif iciales).
Tipo 1: (sensibles al contexto) Introducen algunas limitaciones en la formación de frases.
El signif icado de las palabras depende de su posición en la frase (contexto).
Muchos lenguajes ar tif iciales y naturales per tenecen realmente a este grupo, aunque gran par te de las reglas de su gramática pueden reducirse al tipo 2 más práctico.
Tipo 0: (recursivos) A estas gramáticas no se les impone restricción alguna.
El conjunto de los lenguajes de tipo 0 coincide con todos los posibles.
Computacionalmente más complejos de expresar y procesar.
h t t p : / / e s . w i k i p e d i a . o r g / w i k i / J e r a r q u % C 3 % A D a _ d e _ C h o m s k y
JERARQUÍA LENGUAJES
DE CHOMSKY
GRAMÁTICAS, LENGUAJES Y
MÁQUINAS
MAPA CONCEPTUAL
JERARQUÍA DE CHOMSKY
PROPIEDADES DE LAS GRAMÁTICAS
Análisis léxico: Identificación de tokens (unidades léxicas).
Gramáticas de tipo 3.
Indicado mediantes Expresiones Regulares.
Análisis sintáctico: Identificación de sentencias.
Creación de estructura de árbol.
Gramáticas de tipo 2 (o 1 simplificadas).
Indicado mediante reglas Backus-Naur Form (BNF).
FASES DEL ANÁLISIS
Los interpretas autómatas finitos.
Se describen con expresiones regulares.
Práctica:
Instalar Ultrapico Expresso (solo Windows)
http://www.ultrapico.com/Expresso.htm
Alternativa en la web:
http://gskinner.com/RegExr/
ANALIZADORES LÉXICOS
Un analizador sintáctico determina si una entrada puede ser
derivada desde el símbolo inicial, usando las reglas de una
gramática formal. Existen dos aproximaciones:
Descendente LL(k) (Top-Down-Parser):
Empiezan con el símbolo inicial para alcanzar la entrada, Ej: ANTLR,
JavaCC.
Ascendente LR, SLR, LALR (Bottom-Up-Parser):
Empezar con la entrada para alcanzar el símbolo inicial, Ej: Gold
Parser, Yacc.
Mixto (Earley, CYK, Chart): (demo CYK)
Es un Top-Down con momentos de Bottom-Up, Ej: NLTK.
ANALIZADORES SINTÁCTICOS
TOP-DOWN EN PROFUNDIDAD
TOP-DOWN EN ANCHURA
BOTTOM-UP
Top-Down (LL)
Ventajas:
No explora árboles que pueden llegar a ser S.
Los subárboles encajan entre si bajo S.
Desventajas:
Se pueden explorar demasiados árboles de manera infructuosa.
Puede “divagar” en el proceso.
Bottom-Up (LR)
Ventajas:
Todos los árboles explorados son consecuentes con la entrada.
Suele ser más directo.
Desventajas:
Se realiza la exploración aun cuando es imposible alcanzar S.
Se pueden desarrollar subárboles que puede que no acaben por combinar.
COMPARACIÓN DE APROXIMACIONES
Left-Corner
Ventajas:
Ambas aproximaciones puras tienen deficiencias.
Soluciona muchos de sus problemas.
Desventajas:
Recursividad por la izquierda (S-> S and S, NP->NP PP)
Parsing sobre el mismo subarbol varias pasadas.
Ambigüedad.
Dinámicos (Chart, EARLEY, …)
Ventajas:
Son Top-Down con lef t -corner o Bottom-up parciales.
Evita repetir la misma pasada (parsing sobre el mismo subárbol) .
Reduce t iempo de proceso.
Desventajas:
Es un reconocedor no un parser porque los pasos que real iza no apuntan a las reglas aplicadas.
COMPARACIÓN DE APROXIMACIONES
PARSING SOBRE MISMO SUBÁRBOL
[Old men] and women vs. Old [men and women]
Se desambigüiza con métodos estadísticos, semánticos o
conocimiento pragmático del contexto.
AMBIGÜEDAD
Argumenta cada regla con una probabilidad condicionada
A → α (p) P(A → α)
p representa la probabilidad de que dado un no terminal A
pueda ser expandido con la secuencia α .
La probabilidad del árbol de derivación es el producto de las
probabilidades de las reglas usadas en su construcción.
http://en.wikipedia.org/wiki/Stochastic_context-free_grammar
http://web.media.mit.edu/~havasi/MAS.S60/pcfg.pdf
GRAMÁTICAS LIBRES DE CONTEXTO
PROBABILÍSTICAS (PCFG)
GRAMÁTICAS LIBRES DE CONTEXTO
PROBABILÍSTICAS (PCFG)
EJEMPLO
P(T l) = 0.15*0.40*0.05* 0.05*0.35*0.75* 0.40*0.40*0.30* 0.40*0.50= 3.78*10 -7
P(Tr) = 0.15*0.40*0.40* 0.05*0.05*0.75* 0.40*0.40*0.30* 0.40*0.50= 4.32*10 -7
¿Cuál es la probabilidad
del árbol de derivación
alternativo?
GRAMÁTICAS LIBRES DE CONTEXTO
PROBABILÍSTICAS (PCFG)
GRAMÁTICAS LIBRES DE CONTEXTO
PROBABILÍSTICAS (PCFG)
GRAMÁTICAS LIBRES DE CONTEXTO
PROBABILÍSTICAS (PCFG)
EJEMPLO DE GRAMÁTICA
PROBABILÍSTICA
S → NP VP S → Aux NP VP S → VP NP → Pronoun NP → Proper-Noun NP → Det Nominal Nominal → Noun Nominal → Nominal Noun Nominal → Nominal PP VP → Verb VP → Verb NP VP → VP PP PP → Prep NP
Orig
inal
Gram
ma
r
Ch
om
sky N
orm
al
Form
S → NP VP S → X1 VP X1 → Aux NP S → book | include | prefer 0.01 0.004 0.006 S → Verb NP S → VP PP NP → I | he | she | me 0.1 0.02 0.02 0.06 NP → Houston | NWA 0.16 .04 NP → Det Nominal Nominal → book | flight | meal | money 0.03 0.15 0.06 0.06 Nominal → Nominal Noun Nominal → Nominal PP VP → book | include | prefer 0.1 0.04 0.06 VP → Verb NP VP → VP PP PP → Prep NP
0.8 0.1 0.1 0.2 0.2 0.6 0.3 0.2 0.5 0.2 0.5 0.3 1.0
0.8 0.1 1.0 0.05 0.03 0.6 0.2 0.5 0.5 0.3 1.0
PROBABILISTIC CKY PARSER
27
Book the flight through Houston
S :.01, VP:.1,
Verb:.5
Nominal:.03
Noun:.1
Det:.6
Nominal:.15
Noun:.5
None
NP:.6*.6*.15
=.054
PROBABILISTIC CKY PARSER
28
Book the flight through Houston
S :.01, VP:.1,
Verb:.5
Nominal:.03
Noun:.1
Det:.6
Nominal:.15
Noun:.5
None
NP:.6*.6*.15
=.054
VP:.5*.5*.054
=.0135
PROBABILISTIC CKY PARSER
29
Book the flight through Houston
S :.01, VP:.1,
Verb:.5
Nominal:.03
Noun:.1
Det:.6
Nominal:.15
Noun:.5
None
NP:.6*.6*.15
=.054
VP:.5*.5*.054
=.0135
S:.05*.5*.054
=.00135
PROBABILISTIC CKY PARSER
30
Book the flight through Houston
S :.01, VP:.1,
Verb:.5
Nominal:.03
Noun:.1
Det:.6
Nominal:.15
Noun:.5
None
NP:.6*.6*.15
=.054
VP:.5*.5*.054
=.0135
S:.05*.5*.054
=.00135
None
None
None
Prep:.2
PROBABILISTIC CKY PARSER
31
Book the flight through Houston
S :.01, VP:.1,
Verb:.5
Nominal:.03
Noun:.1
Det:.6
Nominal:.15
Noun:.5
None
NP:.6*.6*.15
=.054
VP:.5*.5*.054
=.0135
S:.05*.5*.054
=.00135
None
None
None
Prep:.2
NP:.16
PropNoun:.8
PP:1.0*.2*.16
=.032
PROBABILISTIC CKY PARSER
32
Book the flight through Houston
S :.01, VP:.1,
Verb:.5
Nominal:.03
Noun:.1
Det:.6
Nominal:.15
Noun:.5
None
NP:.6*.6*.15
=.054
VP:.5*.5*.054
=.0135
S:.05*.5*.054
=.00135
None
None
None
Prep:.2
NP:.16
PropNoun:.8
PP:1.0*.2*.16
=.032
Nominal:
.5*.15*.032
=.0024
PROBABILISTIC CKY PARSER
33
Book the flight through Houston
S :.01, VP:.1,
Verb:.5
Nominal:.03
Noun:.1
Det:.6
Nominal:.15
Noun:.5
None
NP:.6*.6*.15
=.054
VP:.5*.5*.054
=.0135
S:.05*.5*.054
=.00135
None
None
None
Prep:.2
NP:.16
PropNoun:.8
PP:1.0*.2*.16
=.032
Nominal:
.5*.15*.032
=.0024
NP:.6*.6*
.0024
=.000864
PROBABILISTIC CKY PARSER
34
Book the flight through Houston
S :.01, VP:.1,
Verb:.5
Nominal:.03
Noun:.1
Det:.6
Nominal:.15
Noun:.5
None
NP:.6*.6*.15
=.054
VP:.5*.5*.054
=.0135
S:.05*.5*.054
=.00135
None
None
None
Prep:.2
NP:.16
PropNoun:.8
PP:1.0*.2*.16
=.032
Nominal:
.5*.15*.032
=.0024
NP:.6*.6*
.0024
=.000864
S:.05*.5*
.000864
=.0000216
PROBABILISTIC CKY PARSER
35
Book the flight through Houston
S :.01, VP:.1,
Verb:.5
Nominal:.03
Noun:.1
Det:.6
Nominal:.15
Noun:.5
None
NP:.6*.6*.15
=.054
VP:.5*.5*.054
=.0135
S:.05*.5*.054
=.00135
None
None
None
Prep:.2
NP:.16
PropNoun:.8
PP:1.0*.2*.16
=.032
Nominal:
.5*.15*.032
=.0024
NP:.6*.6*
.0024
=.000864
S:.0000216
S:.03*.0135*
.032
=.00001296
PROBABILISTIC CKY PARSER
36
Book the flight through Houston
S :.01, VP:.1,
Verb:.5
Nominal:.03
Noun:.1
Det:.6
Nominal:.15
Noun:.5
None
NP:.6*.6*.15
=.054
VP:.5*.5*.054
=.0135
S:.05*.5*.054
=.00135
None
None
None
Prep:.2
NP:.16
PropNoun:.8
PP:1.0*.2*.16
=.032
Nominal:
.5*.15*.032
=.0024
NP:.6*.6*
.0024
=.000864
S:.0000216 Pick most probable
parse, i.e. take max to
combine probabilities
of multiple derivations
of each constituent in
each cell.
PCFG: CUANDO LO EVIDENTE NO LO
ES TANTO
LEXICAL PGFG (LPCFG): PROB. COND.
A PAPELES TEMÁTICOS (FILLMORE)
PCFG: TREE BANKS
Mediante aprendizaje supervisado, pasamos las
reglas de la gramática por un conjunto de
sentencias de aprendizaje y estimamos los
parámetros de probabilidad, con cierto suavizado.
.
.
.
Tree Bank
Supervised
PCFG
Training
S → NP VP
S → VP
NP → Det A N
NP → NP PP
NP → PropN
A → ε
A → Adj A
PP → Prep NP
VP → V NP
VP → VP PP
0.9
0.1
0.5
0.3
0.2
0.6
0.4
1.0
0.7
0.3
English
S
NP VP
John V NP PP
put the dog in the pen
S
NP VP
John V NP PP
put the dog in the pen
ESTIMACIÓN DE PROBABILIDADES
CONDICIONADAS
)count(
)count(
)count(
)count()|(
P
Dado un conjunto de sentencias, buscamos la gramática que
maximice la probabilidad de que haya sido generada por ella
misma.
Se realiza a nivel de:
1. Palabra: Yo lo haré mañana -> I will do it tomorrow
2. Frase: Yo lo haré mañana -> I will do it tomorrow
3. Árbol: Busca que la unidad léxica mantenga el mismo papel
sintáctico. Lo visto en el capítulo,
4. Significado: Doing -> do verb (does; doing; past did; past
part. done). Perform or carry out (an action), work on
(something) to bring it to completion or to a required state .
Busca la semántica de la unidad léxica para comprender su
función así identificar las papeles que intervienen.
TRADUCCIÓN (MT)
Jurafsky,D . & Mar t in , J . (2007) :
Speech and Language Processing
An Int roduct ion to Speech Recogni t ion , Computat ional L inguis t ics and Natural Language Processing ,
Second Edi t ion, New York , Pearson.
SUMARIO EN LA
BIBLIOGRAFÍA
I n m a ny la n g u a g es , g ro u p s o f c o n sec u t i ve wo r d s a c t a s a g ro u p o r a c o n s t i t u en t , w h ic h c a n b e
m o d e led by c o n tex t - f r ee g r a m m ar s ( a l so k n ow n a s p h r a se - s t r u c t u r e g r a m m a r s ) .
A c o n tex t - f r ee g r a m m a r c o n s i s t s o f a s e t o f r u les o r p ro d u c t io n s , ex p r essed ove r a set o f n o n -
te r m in a l s y m b o ls a n d a set o f te r m in a l s y m b o ls . Fo r m a l l y, a p a r t i c u la r c o n tex t - f r ee l a n g u ag e i s t h e
set o f s t r in g s w h ic h c a n b e d e r i ved f ro m a p a r t i c u la r c o n tex t - f r ee g r a m m a r.
A g e n er at i ve g r a m m a r i s a t r a d i t i o n a l n a m e in l i n g u is t i c s fo r a fo r m a l la n g u a g e w h ic h i s u sed to
m o d e l t h e g r a m m a r o f a n a t u r a l l a n g u a g e .
T h er e a r e m a ny s e n ten ce - leve l g r a m m a t ica l c o n s t r uc t io ns in E n g l i sh ; d ec la r a t ive , im p er a t i ve , yes -
n o - q u es t io n , a n d w h - q u es t io n a r e fo u r ve r y c o m m o n t y p es , w h ic h c a n b e m o d e led w i t h c o n tex t - f r ee
r u l es .
A n E n g l i sh n o u n p h r a se c a n h ave d ete r m in er s , n u m b er s , q u a n t i f i e r s , a n d a d jec t i ve p h r a ses
p r ec ed in g t h e h ea d n o u n , w h ic h c a n b e fo l l owed by a n u m b er o f p o s t m o d i f i e r s ; g e r u n d ive ,
i n f in i t i ves , a n d p a s t p a r t i c ip ia l a r e c o m m o n p o ss ib i l i t i es .
Tr ee b a n ks o f p a r sed sen ten c es ex i s t fo r m a ny g en r es o f E n g l i sh a n d fo r m a ny la n g u a g es . Tr ee
b a n k s c a n b e sea r c h ed u s in g t r ee - sea r c h to o l s .
A ny c o n tex t - f r ee g r a m m a r c a n b e c o nve r ted to C h o m sky n o r m a l f o r m , in w h ic h t h e r i g h t - h a n d - s ide
o f ea c h r u le h a s e i t h e r t wo n o n - te r m in a ls o r a s in g le te r m in a l .
SUMARIO CAPÍTULO 12
P a r s in g c a n b e v iewed a s a s e a r c h p r o b lem .
To p - down ( s t ar t in g w i t h t h e ro o t S a n d g row in g t r ees d ow n to t h e in p u t wo r d s ) a n d B o t to m -u p
( s t a r t in g w i t h t h e wo r d s a n d g row in g t r ees u p towa r d t h e ro o t S ) .
A m b ig u i t y a n d r ep ea ted p a r s in g o f su b - t r ees p o se p r o b lem s fo r s im p le b a c k t r a c k in g a lg o r i t h m s .
A sen ten c e i s s t r u c t u r a l l y a m b ig u o us i f t h e g r a m m a r a ss ig n s i t m o r e t h a n o n e p o ss ib le p a r se .
T h e d y n am ic p r o g r am m i n g p a r s i n g a l g o r i t h m s u se a t a b le o f p a r t ia l - p a r ses to e f f i c ien t ly p a r se
a m b ig u o u s sen ten c es . T h e C KY, E a r ley, a n d C h a r t - Pa r s in g a lg o r i t h m s a l l u se d y n a m ic p ro g r a m m in g
to so l ve t h e r ep ea ted p a r s in g o f su b t r ees p ro b lem .
T h e C K Y a l g o r i t hm r es t r i c t s t h e fo r m o f i t s g r a m m a r to C h o m sk y -No r m a l Fo r m ; t h e E a r l ey a n d C h a r t -
p a r se r s a c c ep t u n r es t r i c ted c o n tex t - f r ee g r a m m a r s .
P r a c t i c a l p ro b lem s in c lu d in g in fo r m a t io n ex t r a c t io n p ro b lem s c a n b e so l ved w i t h o u t f u l l p a r s in g .
P a r t ia l p a r s in g a n d c h u n k i n g a r e m et h o d s fo r i d en t i f y ing sh a l low sy n t a c t i c c o n s t i t u en t s in a tex t .
S h a l low p a r s i n g i s a n a n a l y s i s o f a sen ten c e w h ic h id en t i f i es t h e c o n s t i t u en t s ( n o u n g ro u p s , ve r b s ,
ve r b g ro u p s , e t c . ) , b u t d o es n o t sp ec i f y t h e i r i n te r n a l s t r u c t u r e , n o r t h e i r ro le in t h e m a in sen ten c e .
Ac c u r a c y p a r t ia l p a r s in g c a n b e a c h ieved e i t h e r t h ro u g h r u le - b a sed o r m a c h in e - lea r n in g m et h o d s .
SUMARIO CAPÍTULO 13
CONCLUSIONES SOBRE
PARSING ESTADÍSTICO
Consiguen una resolución adecuada de la ambigüedad.
Son un recurso a nuestro alcance en forma de Treebanks.
Necesita de una buena fase previa de “lexicalización”
(head words) para resolver ambigüedades y obtener
buenos resultados.
Los resultados actuales son adecuados pero no llegan al
nivel de un experto humano.
45
HERRAMIENTAS
JFLAP:
CYK
LL(1)
SLR(1)
GoldParser Builder:
Introducción
Gramáticas
ANTLR:
Introducción
FAQ
PARSERS
NLTK:
PARSERS
import n l tk
mygrammar = n l tk . parse_cfg ("" "
S -> N P VP
PP -> P N P
N P -> Det N | Det N PP | ' I '
VP -> V N P | VP PP
Det -> ' an ' | ' my ' | ' a ' | ' the '
N -> ' e lephant ' | 'pa jamas ' | 'dog ' | ' cat ' | ' cookie '
V -> ' shot ' | ' saw ' | 'ate '
P -> ' in ' | ' o n ' | 'by ' | 'w i th '
" "" )
sent = " I shot an e lephant in my pa jamas " .sp l i t ( )
parser = n l tk .ChartParser (mygrammar )
t rees = parser.nbest_parse (sent )
for t ree in t rees :
pr int t ree
parser = nl tk . Shi f tReduceParser (mygrammar, t race=2) sent = ‘ I saw a dog ' . sp l i t ( ) pr int parser.parse (sent ) parser = nl tk . Recurs iveDescentParser (mygrammar )
RESULTADO
Realizar con NLTK, Gold Parser, o ANTLR una gramática con reglas que
definan una estructura básica de frase. Capítulo 13 del libro de
referencia.
Recursos:
Phrase structure rules
Introduction to Syntactic Parsing (Roxana Girju)
Ayuda NLTK
EJERCICIO
http://www.ibm.com/developerworks/linux/library/l -
cpnltk/index.html
http://nltk.googlecode.com/svn/trunk/doc/book/ch08.html#
sec-context-free-grammar
http://nltk.googlecode.com/svn/trunk/doc/howto/parse.html
http://nltk.googlecode.com/svn/trunk/doc/book/ch10.html#
chap-semantics
top related