presentación de powerpoint -...

Análisis,

Parsing GRAMÁTICAS FORMALES

U: U n i v e r s o d e t o d a s

l a s p o s i b l e s

c a d e n a s d e t e x t o

EL LENGUAJE NATURAL Y LAS

GRAMÁTICAS FORMALES

L: S u b c o n j u n t o

e s p e c í f i c o q u e

c o n f o r m a

p a l a b r a s c o n

s i g n i f i c a d o

G(L): G r a m á t i c a

f o r m a l q u e

d e s c r i b e u n

l e n g u a j e

f o r m a l

c o n f o r m a

LN: E v o l u c i o na , s e

a d a p t a , t i e n e

e x c e p c i o ne s e n

s u d e f i n i c i ó n

f o r m a l

G(L): G r a m á t i c a

f o r m a l q u e

d e s c r i b e u n

l e n g u a j e

f o r m a l

c o n f o r m a

LN: E v o l u c i o na , s e

a d a p t a , t i e n e

e x c e p c i o ne s e n

s u d e f i n i c i ó n

f o r m a l

G’(L): G r a m á t i c a s

f o r m a l e s q u e

a p r o x i me n u n

l e n g u a j e n a t u r a l

Los algoritmos de análisis de lenguaje natural no se pueden

basar en gramáticas que tengan características fijas definibles

como las de los lenguajes de programación.

…PERO… Algunos formalismos gramaticales son muy difíciles de analizar

computacionalmente, por lo que, se usa una aproximación libre

de contexto incluso si la estructura no es libre de contexto para

obtener una primera simplificación.

SIMPLIFICACIÓN

U n r i o d e s a n g re , V i o l e t a P a r r a .

Tipo 3: (regulares, RG) Tienen la estructura más sencilla.

No describen lenguajes sino morfologías de los componentes del lenguaje (tokens).

Tipo 2: ( l ibres del contexto, CFG) Se restringe la liber tad de la formación de reglas gramaticales.

El signif icado de una palabra es totalmente independiente de su posición en la frase.

Describen completamente lenguajes formales (ar tif iciales).

Tipo 1: (sensibles al contexto) Introducen algunas limitaciones en la formación de frases.

El signif icado de las palabras depende de su posición en la frase (contexto).

Muchos lenguajes ar tif iciales y naturales per tenecen realmente a este grupo, aunque gran par te de las reglas de su gramática pueden reducirse al tipo 2 más práctico.

Tipo 0: (recursivos) A estas gramáticas no se les impone restricción alguna.

El conjunto de los lenguajes de tipo 0 coincide con todos los posibles.

Computacionalmente más complejos de expresar y procesar.

h t t p : / / e s . w i k i p e d i a . o r g / w i k i / J e r a r q u % C 3 % A D a _ d e _ C h o m s k y

JERARQUÍA LENGUAJES

DE CHOMSKY

GRAMÁTICAS, LENGUAJES Y

MÁQUINAS

MAPA CONCEPTUAL

JERARQUÍA DE CHOMSKY

PROPIEDADES DE LAS GRAMÁTICAS

Análisis léxico: Identificación de tokens (unidades léxicas).

Gramáticas de tipo 3.

Indicado mediantes Expresiones Regulares.

Análisis sintáctico: Identificación de sentencias.

Creación de estructura de árbol.

Gramáticas de tipo 2 (o 1 simplificadas).

Indicado mediante reglas Backus-Naur Form (BNF).

FASES DEL ANÁLISIS

Los interpretas autómatas finitos.

Se describen con expresiones regulares.

Práctica:

Instalar Ultrapico Expresso (solo Windows)

http://www.ultrapico.com/Expresso.htm

Alternativa en la web:

http://gskinner.com/RegExr/

ANALIZADORES LÉXICOS

Un analizador sintáctico determina si una entrada puede ser

derivada desde el símbolo inicial, usando las reglas de una

gramática formal. Existen dos aproximaciones:

Descendente LL(k) (Top-Down-Parser):

Empiezan con el símbolo inicial para alcanzar la entrada, Ej: ANTLR,

JavaCC.

Ascendente LR, SLR, LALR (Bottom-Up-Parser):

Empezar con la entrada para alcanzar el símbolo inicial, Ej: Gold

Parser, Yacc.

Mixto (Earley, CYK, Chart): (demo CYK)

Es un Top-Down con momentos de Bottom-Up, Ej: NLTK.

ANALIZADORES SINTÁCTICOS

TOP-DOWN EN PROFUNDIDAD

TOP-DOWN EN ANCHURA

BOTTOM-UP

Top-Down (LL)

Ventajas:

No explora árboles que pueden llegar a ser S.

Los subárboles encajan entre si bajo S.

Desventajas:

Se pueden explorar demasiados árboles de manera infructuosa.

Puede “divagar” en el proceso.

Bottom-Up (LR)

Ventajas:

Todos los árboles explorados son consecuentes con la entrada.

Suele ser más directo.

Desventajas:

Se realiza la exploración aun cuando es imposible alcanzar S.

Se pueden desarrollar subárboles que puede que no acaben por combinar.

COMPARACIÓN DE APROXIMACIONES

Left-Corner

Ventajas:

Ambas aproximaciones puras tienen deficiencias.

Soluciona muchos de sus problemas.

Desventajas:

Recursividad por la izquierda (S-> S and S, NP->NP PP)

Parsing sobre el mismo subarbol varias pasadas.

Ambigüedad.

Dinámicos (Chart, EARLEY, …)

Ventajas:

Son Top-Down con lef t -corner o Bottom-up parciales.

Evita repetir la misma pasada (parsing sobre el mismo subárbol) .

Reduce t iempo de proceso.

Desventajas:

Es un reconocedor no un parser porque los pasos que real iza no apuntan a las reglas aplicadas.

COMPARACIÓN DE APROXIMACIONES

PARSING SOBRE MISMO SUBÁRBOL

[Old men] and women vs. Old [men and women]

Se desambigüiza con métodos estadísticos, semánticos o

conocimiento pragmático del contexto.

AMBIGÜEDAD

Argumenta cada regla con una probabilidad condicionada

A → α (p) P(A → α)

p representa la probabilidad de que dado un no terminal A

pueda ser expandido con la secuencia α .

La probabilidad del árbol de derivación es el producto de las

probabilidades de las reglas usadas en su construcción.

http://en.wikipedia.org/wiki/Stochastic_context-free_grammar

http://web.media.mit.edu/~havasi/MAS.S60/pcfg.pdf

GRAMÁTICAS LIBRES DE CONTEXTO

PROBABILÍSTICAS (PCFG)

EJEMPLO

P(T l) = 0.15*0.40*0.05* 0.05*0.35*0.75* 0.40*0.40*0.30* 0.40*0.50= 3.78*10 -7

P(Tr) = 0.15*0.40*0.40* 0.05*0.05*0.75* 0.40*0.40*0.30* 0.40*0.50= 4.32*10 -7

¿Cuál es la probabilidad

del árbol de derivación

alternativo?

EJEMPLO DE GRAMÁTICA

PROBABILÍSTICA

S → NP VP S → Aux NP VP S → VP NP → Pronoun NP → Proper-Noun NP → Det Nominal Nominal → Noun Nominal → Nominal Noun Nominal → Nominal PP VP → Verb VP → Verb NP VP → VP PP PP → Prep NP

0.8 0.1 0.1 0.2 0.2 0.6 0.3 0.2 0.5 0.2 0.5 0.3 1.0

0.8 0.1 1.0 0.05 0.03 0.6 0.2 0.5 0.5 0.3 1.0

PROBABILISTIC CKY PARSER

Book the flight through Houston

S :.01, VP:.1,

Verb:.5

Nominal:.03

Noun:.1

Det:.6

Nominal:.15

Noun:.5

NP:.6*.6*.15

S :.01, VP:.1,

Verb:.5

Nominal:.03

Noun:.1

Det:.6

Nominal:.15

Noun:.5

NP:.6*.6*.15

VP:.5*.5*.054

=.0135

S :.01, VP:.1,

Verb:.5

Nominal:.03

Noun:.1

Det:.6

Nominal:.15

Noun:.5

NP:.6*.6*.15

VP:.5*.5*.054

=.0135

S:.05*.5*.054

=.00135

S :.01, VP:.1,

Verb:.5

Nominal:.03

Noun:.1

Det:.6

Nominal:.15

Noun:.5

NP:.6*.6*.15

VP:.5*.5*.054

=.0135

S:.05*.5*.054

=.00135

Prep:.2

S :.01, VP:.1,

Verb:.5

Nominal:.03

Noun:.1

Det:.6

Nominal:.15

Noun:.5

NP:.6*.6*.15

VP:.5*.5*.054

=.0135

S:.05*.5*.054

=.00135

Prep:.2

NP:.16

PropNoun:.8

PP:1.0*.2*.16

S :.01, VP:.1,

Verb:.5

Nominal:.03

Noun:.1

Det:.6

Nominal:.15

Noun:.5

NP:.6*.6*.15

VP:.5*.5*.054

=.0135

S:.05*.5*.054

=.00135

Prep:.2

NP:.16

PropNoun:.8

PP:1.0*.2*.16

Nominal:

.5*.15*.032

=.0024

S :.01, VP:.1,

Verb:.5

Nominal:.03

Noun:.1

Det:.6

Nominal:.15

Noun:.5

NP:.6*.6*.15

VP:.5*.5*.054

=.0135

S:.05*.5*.054

=.00135

Prep:.2

NP:.16

PropNoun:.8

PP:1.0*.2*.16

Nominal:

.5*.15*.032

=.0024

NP:.6*.6*

=.000864

S :.01, VP:.1,

Verb:.5

Nominal:.03

Noun:.1

Det:.6

Nominal:.15

Noun:.5

NP:.6*.6*.15

VP:.5*.5*.054

=.0135

S:.05*.5*.054

=.00135

Prep:.2

NP:.16

PropNoun:.8

PP:1.0*.2*.16

Nominal:

.5*.15*.032

=.0024

NP:.6*.6*

=.000864

S:.05*.5*

.000864

=.0000216

S :.01, VP:.1,

Verb:.5

Nominal:.03

Noun:.1

Det:.6

Nominal:.15

Noun:.5

NP:.6*.6*.15

VP:.5*.5*.054

=.0135

S:.05*.5*.054

=.00135

Prep:.2

NP:.16

PropNoun:.8

PP:1.0*.2*.16

Nominal:

.5*.15*.032

=.0024

NP:.6*.6*

=.000864

S:.0000216

S:.03*.0135*

=.00001296

S :.01, VP:.1,

Verb:.5

Nominal:.03

Noun:.1

Det:.6

Nominal:.15

Noun:.5

NP:.6*.6*.15

VP:.5*.5*.054

=.0135

S:.05*.5*.054

=.00135

Prep:.2

NP:.16

PropNoun:.8

PP:1.0*.2*.16

Nominal:

.5*.15*.032

=.0024

NP:.6*.6*

=.000864

S:.0000216 Pick most probable

parse, i.e. take max to

combine probabilities

of multiple derivations

of each constituent in

each cell.

PCFG: CUANDO LO EVIDENTE NO LO

ES TANTO

LEXICAL PGFG (LPCFG): PROB. COND.

A PAPELES TEMÁTICOS (FILLMORE)

PCFG: TREE BANKS

Mediante aprendizaje supervisado, pasamos las

reglas de la gramática por un conjunto de

sentencias de aprendizaje y estimamos los

parámetros de probabilidad, con cierto suavizado.

Tree Bank

Supervised

Training

S → NP VP

S → VP

NP → Det A N

NP → NP PP

NP → PropN

A → ε

A → Adj A

PP → Prep NP

VP → V NP

VP → VP PP

English

John V NP PP

put the dog in the pen

John V NP PP

put the dog in the pen

ESTIMACIÓN DE PROBABILIDADES

CONDICIONADAS

)count(

)count()|(

Dado un conjunto de sentencias, buscamos la gramática que

maximice la probabilidad de que haya sido generada por ella

misma.

Se realiza a nivel de:

1. Palabra: Yo lo haré mañana -> I will do it tomorrow

2. Frase: Yo lo haré mañana -> I will do it tomorrow

3. Árbol: Busca que la unidad léxica mantenga el mismo papel

sintáctico. Lo visto en el capítulo,

4. Significado: Doing -> do verb (does; doing; past did; past

part. done). Perform or carry out (an action), work on

(something) to bring it to completion or to a required state .

Busca la semántica de la unidad léxica para comprender su

función así identificar las papeles que intervienen.

TRADUCCIÓN (MT)

Jurafsky,D . & Mar t in , J . (2007) :

Speech and Language Processing

An Int roduct ion to Speech Recogni t ion , Computat ional L inguis t ics and Natural Language Processing ,

Second Edi t ion, New York , Pearson.

SUMARIO EN LA

BIBLIOGRAFÍA

I n m a ny la n g u a g es , g ro u p s o f c o n sec u t i ve wo r d s a c t a s a g ro u p o r a c o n s t i t u en t , w h ic h c a n b e

m o d e led by c o n tex t - f r ee g r a m m ar s ( a l so k n ow n a s p h r a se - s t r u c t u r e g r a m m a r s ) .

A c o n tex t - f r ee g r a m m a r c o n s i s t s o f a s e t o f r u les o r p ro d u c t io n s , ex p r essed ove r a set o f n o n -

te r m in a l s y m b o ls a n d a set o f te r m in a l s y m b o ls . Fo r m a l l y, a p a r t i c u la r c o n tex t - f r ee l a n g u ag e i s t h e

set o f s t r in g s w h ic h c a n b e d e r i ved f ro m a p a r t i c u la r c o n tex t - f r ee g r a m m a r.

A g e n er at i ve g r a m m a r i s a t r a d i t i o n a l n a m e in l i n g u is t i c s fo r a fo r m a l la n g u a g e w h ic h i s u sed to

m o d e l t h e g r a m m a r o f a n a t u r a l l a n g u a g e .

T h er e a r e m a ny s e n ten ce - leve l g r a m m a t ica l c o n s t r uc t io ns in E n g l i sh ; d ec la r a t ive , im p er a t i ve , yes -

n o - q u es t io n , a n d w h - q u es t io n a r e fo u r ve r y c o m m o n t y p es , w h ic h c a n b e m o d e led w i t h c o n tex t - f r ee

r u l es .

A n E n g l i sh n o u n p h r a se c a n h ave d ete r m in er s , n u m b er s , q u a n t i f i e r s , a n d a d jec t i ve p h r a ses

p r ec ed in g t h e h ea d n o u n , w h ic h c a n b e fo l l owed by a n u m b er o f p o s t m o d i f i e r s ; g e r u n d ive ,

i n f in i t i ves , a n d p a s t p a r t i c ip ia l a r e c o m m o n p o ss ib i l i t i es .

Tr ee b a n ks o f p a r sed sen ten c es ex i s t fo r m a ny g en r es o f E n g l i sh a n d fo r m a ny la n g u a g es . Tr ee

b a n k s c a n b e sea r c h ed u s in g t r ee - sea r c h to o l s .

A ny c o n tex t - f r ee g r a m m a r c a n b e c o nve r ted to C h o m sky n o r m a l f o r m , in w h ic h t h e r i g h t - h a n d - s ide

o f ea c h r u le h a s e i t h e r t wo n o n - te r m in a ls o r a s in g le te r m in a l .

SUMARIO CAPÍTULO 12

P a r s in g c a n b e v iewed a s a s e a r c h p r o b lem .

To p - down ( s t ar t in g w i t h t h e ro o t S a n d g row in g t r ees d ow n to t h e in p u t wo r d s ) a n d B o t to m -u p

( s t a r t in g w i t h t h e wo r d s a n d g row in g t r ees u p towa r d t h e ro o t S ) .

A m b ig u i t y a n d r ep ea ted p a r s in g o f su b - t r ees p o se p r o b lem s fo r s im p le b a c k t r a c k in g a lg o r i t h m s .

A sen ten c e i s s t r u c t u r a l l y a m b ig u o us i f t h e g r a m m a r a ss ig n s i t m o r e t h a n o n e p o ss ib le p a r se .

T h e d y n am ic p r o g r am m i n g p a r s i n g a l g o r i t h m s u se a t a b le o f p a r t ia l - p a r ses to e f f i c ien t ly p a r se

a m b ig u o u s sen ten c es . T h e C KY, E a r ley, a n d C h a r t - Pa r s in g a lg o r i t h m s a l l u se d y n a m ic p ro g r a m m in g

to so l ve t h e r ep ea ted p a r s in g o f su b t r ees p ro b lem .

T h e C K Y a l g o r i t hm r es t r i c t s t h e fo r m o f i t s g r a m m a r to C h o m sk y -No r m a l Fo r m ; t h e E a r l ey a n d C h a r t -

p a r se r s a c c ep t u n r es t r i c ted c o n tex t - f r ee g r a m m a r s .

P r a c t i c a l p ro b lem s in c lu d in g in fo r m a t io n ex t r a c t io n p ro b lem s c a n b e so l ved w i t h o u t f u l l p a r s in g .

P a r t ia l p a r s in g a n d c h u n k i n g a r e m et h o d s fo r i d en t i f y ing sh a l low sy n t a c t i c c o n s t i t u en t s in a tex t .

S h a l low p a r s i n g i s a n a n a l y s i s o f a sen ten c e w h ic h id en t i f i es t h e c o n s t i t u en t s ( n o u n g ro u p s , ve r b s ,

ve r b g ro u p s , e t c . ) , b u t d o es n o t sp ec i f y t h e i r i n te r n a l s t r u c t u r e , n o r t h e i r ro le in t h e m a in sen ten c e .

Ac c u r a c y p a r t ia l p a r s in g c a n b e a c h ieved e i t h e r t h ro u g h r u le - b a sed o r m a c h in e - lea r n in g m et h o d s .

SUMARIO CAPÍTULO 13

CONCLUSIONES SOBRE

PARSING ESTADÍSTICO

Consiguen una resolución adecuada de la ambigüedad.

Son un recurso a nuestro alcance en forma de Treebanks.

Necesita de una buena fase previa de “lexicalización”

(head words) para resolver ambigüedades y obtener

buenos resultados.

Los resultados actuales son adecuados pero no llegan al

nivel de un experto humano.

HERRAMIENTAS

JFLAP:

SLR(1)

GoldParser Builder:

Introducción

Gramáticas

ANTLR:

Introducción

PARSERS

import n l tk

mygrammar = n l tk . parse_cfg ("" "

S -> N P VP

PP -> P N P

N P -> Det N | Det N PP | ' I '

VP -> V N P | VP PP

Det -> ' an ' | ' my ' | ' a ' | ' the '

N -> ' e lephant ' | 'pa jamas ' | 'dog ' | ' cat ' | ' cookie '

V -> ' shot ' | ' saw ' | 'ate '

P -> ' in ' | ' o n ' | 'by ' | 'w i th '

" "" )

sent = " I shot an e lephant in my pa jamas " .sp l i t ( )

parser = n l tk .ChartParser (mygrammar )

t rees = parser.nbest_parse (sent )

for t ree in t rees :

pr int t ree

parser = nl tk . Shi f tReduceParser (mygrammar, t race=2) sent = ‘ I saw a dog ' . sp l i t ( ) pr int parser.parse (sent ) parser = nl tk . Recurs iveDescentParser (mygrammar )

RESULTADO

Realizar con NLTK, Gold Parser, o ANTLR una gramática con reglas que

definan una estructura básica de frase. Capítulo 13 del libro de

referencia.

Recursos:

Phrase structure rules

Introduction to Syntactic Parsing (Roxana Girju)

Ayuda NLTK

EJERCICIO

http://www.ibm.com/developerworks/linux/library/l -

cpnltk/index.html

http://nltk.googlecode.com/svn/trunk/doc/book/ch08.html#

sec-context-free-grammar

http://nltk.googlecode.com/svn/trunk/doc/howto/parse.html

http://nltk.googlecode.com/svn/trunk/doc/book/ch10.html#

chap-semantics

presentación de powerpoint -...

Documents

anÁlisis sintÁctico repaso general

introducción a la lingüística computacional -...

componente sintÁctico

curso de procesamiento del lenguaje natural -...

desarrollo del sistema sintÁctico

curso de procesamiento del lenguaje natural -...

anÁlisis sintÁctico

analizador sintáctico unidad 6

curso de procesamiento del lenguaje natural -...

introducción a la lingüística computacional -...

introducción a la lingüística computacional -...

los gatos de - césar antonio aguilar -...

curso de procesamiento del lenguaje natural -...

curso de procesamiento del lenguaje natural -...

curso de procesamiento del lenguaje natural -...

análisis sintáctico (parsing)

presentación de powerpoint -...

analizador sintáctico

análisis sintáctico 01

aulabierta - análisis sintáctico