universidad politÉcnica de valencia departamento de ... · de lenguaje híbrido tesis doctoral...

113
UNIVERSIDAD POLITÉCNICA DE VALENCIA DEPARTAMENTO DE SISTEMAS INFORMÁTICOS Y COMPUTACIÓN Estimación de gramáticas incontextuales estocásticas y su aplicación en un modelo de lenguaje híbrido Tesis Doctoral Presentada por Diego Luis Linares Ospina Directores: Dr. José Miguel Benedí Dr. Joan Andreu Sánchez

Upload: others

Post on 30-Apr-2020

12 views

Category:

Documents


0 download

TRANSCRIPT

UNIVERSIDAD POLITÉCNICA DE VALENCIA

DEPARTAMENTO DE SISTEMAS INFORMÁTICOS Y COMPUTACIÓN

Estimación de gramáticas incontextualesestocásticas y su aplicación en un modelo

de lenguaje híbrido

Tesis DoctoralPresentada por Diego Luis Linares Ospina

Directores: Dr. José Miguel BenedíDr. Joan Andreu Sánchez

UNIVERSIDAD POLITÉCNICA DE VALENCIA

Estimación de gramáticas incontextualesestocásticas y su aplicación en un modelo

de lenguaje híbrido

Presentada por

Diego Luis Linares Ospina

Trabajo realizado bajo la dirección de los DoctoresD. José Miguel Benedí y D. Joan Andreu Sánchez

para optar al título de Doctor en informática

Valencia, 2003

Agradecimientos

Mis mayores agradecimientos son para José Miguel Benedí y Joan Andreu Sánchez pororientarme en cada etapa de esta tesis. Gracias también por ser mis directores y a pesar de esomis amigos.

A la Pontificia Universidad Javeriana-Cali, por haberme otorgado su apoyo para mis estu-dios de doctorado. El soporte económico que me brindaron fue determinante para la culmina-ción de mis estudios.

Al Departamento de Sistemas Informáticos y Computación del la Universidad Politécnicade Valencia, por facilitarme su infraestructura física para efectuar mis estudios de doctorado.Muchas gracias por la confianza depositada en mi. Agradezco también al proyecto Dihana (TIC2002 /04103-C03-03) las subvenciones recibidas en el desarrollo de esta tesis. De igual manaraagradezco al Vicerrectorado de la Fundación de la Universidad Politécnica de Valencia, quienesfueron siempre solícitos en colaborarme en todo lo que estaba a su alcance.

En lo personal, a Camilo Rueda y a Andrés Jaramillo, quienes me obligaron a terminar esteaño so pena de tener que enviar otro informe de mis avances. También agradezco a mis amigosHugo y Alicia, con quienes compartimos muchos almuerzos agradables. A mi compañero decelda, Ramón, quien hizo que los agostos fueran amenos y menos solitarios. A Toni y al grupode marítima que aun están organizando la próxima cena selecta.

I

Dedicatoria

A mi compañera, amiga y esposa Claudia quién me dio consuelo y aliento para culminarmis estudios de doctorado.

A mi hija Laura, por alegrarme cada mañana y a quien debo resarcir muchos fines desemana que no compartí con ella.

A a mis padres, Tulio y María Lili, por su oración de cada día.

A todos ellos muchas gracias por su amor y por ser la alegría de mi vida.

III

Resumen

Esta tesis se centra en el estudio de las Gramáticas Incontextuales Estocásticas (GIE) ge-nerales. Principalmente se centra en los problemas de la estimación a partir de un corpus y desu integración como modelo de lenguaje en tareas reales.

En lo que se refiere a la estimación, se unifica en un solo marco todos los algoritmos deestimación para las GIE en formato general. Para ello se utiliza un conjunto de derivacionesque al ser restringido, utilizando información estadística y estructural de la muestra, permitedefinir tanto los algoritmos clásicos de estimación como algunos que proponemos.

Con respecto a la integración de las GIE en tareas reales, se utiliza un modelo de lenguajehíbrido. Este modelo se define como una combinación lineal de un modelo de n-gramas basadoen palabras, que se utiliza para capturar las relaciones locales entre palabras; y una gramáticaestocástica de categorías junto con una distribución de palabras en categorías, que se utilizapara representar las relaciones a largo término entre estas categorías. Igualmente se describe lamanera como se estiman e integran todos estos modelo, de manera que el modelo de lenguajehíbrido sea útil en tareas reales con grandes vocabularios.

Finalmente, se han realizado experimentos de evaluación tanto de los modelos estimadoscomo del modelo de lenguaje híbrido definido a partir de éllos. Estos experimentos se hanrealizado principalmente con el corpus de “UPenn Trebank”. Los resultados obtenidos se hanmedido en términos de la perplejidad de un conjunto de test y la tasa de error por palabra. Estosresultados se han comparado con otros modelos propuestos por otros autores.

V

Resum

Esta tesi es centra en l’estudi de les Gramàtiques Incontextuals Estocàstiques (GIE) ge-nerals. Principalment, es centra en els problemes de l’estimació a partir d’un corpus i la seuaintegració com a model de llenguatge en tasques reals.

En el que es refereix a l’estimació, s’unifica en un sol marc tots els algorismes d’estimacióper a les GIE en format general. Per a això s’utilitza un conjunt de derivacions que al serrestringit, utilitzant informació estadística i estructural de la mostra, permet definir tant elsalgorismes clàssics d’estimació com els algorismes nous que proposem.

Amb respecte a la integració de les GIE en tasques reals, s’utilitza un model de llenguatgehíbrid. Este és definit com una combinació lineal d’un model de n-grames basat en paraules,que s’utilitza per a capturar les relacions locals entre paraules, i una gramàtica estocàstica decategories junt amb una distribució de paraules en categories, que s’utilitza per a representar lesrelacions a llarg termini entre estes categories. Igualment es descriu la manera com s’estimen iintegren tots estos models, de manera que el model de llenguatge híbrid siga útil amb tasquesreals amb grans vocabularis.

Finalment, s’han realitzat experiments d’avaluació tant dels models estimats com del modelde llenguatje híbrid definit a partir d’ells. Estos experiments s’han realitzat principalment ambel corpus de “UPenn Trebank”. Els resultats obtinguts s’han mesurat en termes de la perplexitatd’un conjunt de test i la taxa d’error per paraula. Estos resultats s’han comparat amb altresmodels proposats per altres autors.

VII

Abstract

In this thesis we study general stochastic Context-free grammars (SCFG). We focus in theestimation problem from a corpus and its integration in real tasks of language modeling.

With respect to the estimation problem, classical estimation algorithms as the new oneswhich are proposes in this thesis are presented in a unified framework using a set of derivationsrestricted by means of structural and statistical information of the sample.

With regard to the integration of the GIE in real tasks, a hybrid language model was used.This it is defined as a combination of a word-based n-gram, which is used to capture the localrelations between words, and a category-based SCFG together with a word distribution intocategories, which is defined to represent the long-term relations between these categories. Wedescribe the way as these models are estimated and integrate, so that the hybrid language modelbe useful in real tasks with large vocabularies.

Finally, experiments with the estimated models and the hybrid language, using mainly the“UPenn Trebank” corpus are reported. These experiments have been carried out in terms ofthe test set perplexity and the word error rate. These result have been compared with modelsproposed by other authors.

IX

Índice general

1. Introducción 11.1. Interpretación de una cadena usando una GIE . . . . . . . . . . . . . . . . . . 31.2. Estimación de las probabilidades de una GIE . . . . . . . . . . . . . . . . . . 31.3. Integración de las GIE como modelos de lenguaje . . . . . . . . . . . . . . . . 51.4. Asuntos tratados en esta tesis . . . . . . . . . . . . . . . . . . . . . . . . . . . 5

2. Interpretación de una cadena mediante una GIE 72.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72.2. Notación y conceptos previos . . . . . . . . . . . . . . . . . . . . . . . . . . . 82.3. El algoritmo de Earley . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 112.4. Interpretaciones estocásticas basadas en el algoritmo de Earley . . . . . . . . . 13

2.4.1. Algoritmo de interpretación inner . . . . . . . . . . . . . . . . . . . . 182.4.2. Algoritmo de interpretación outer. . . . . . . . . . . . . . . . . . . . . 212.4.3. La mejor interpretación de una cadena . . . . . . . . . . . . . . . . . . 242.4.4. Interpretación estocástica usando forward . . . . . . . . . . . . . . . . 272.4.5. Aspectos de implementación del algoritmo inner . . . . . . . . . . . . 29

2.5. Conclusiones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31

3. Estimación de las GIE en formato general 333.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 333.2. Algoritmo de estimación inner-outer . . . . . . . . . . . . . . . . . . . . . . . 363.3. Algoritmo de estimación VS . . . . . . . . . . . . . . . . . . . . . . . . . . . 373.4. Estimación utilizando información estructural . . . . . . . . . . . . . . . . . . 38

3.4.1. Algoritmo inner parentizado . . . . . . . . . . . . . . . . . . . . . . . 403.4.2. Algoritmos de estimación inner-outerP . . . . . . . . . . . . . . . . . 423.4.3. Algoritmos de estimación VSP . . . . . . . . . . . . . . . . . . . . . 433.4.4. Aspectos de implementación del algoritmo innerP . . . . . . . . . . . 44

3.5. La inicialización de las GIE . . . . . . . . . . . . . . . . . . . . . . . . . . . 453.6. Conclusiones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48

XI

XII ÍNDICE GENERAL

4. Modelado del lenguaje 494.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 494.2. Un modelo de lenguaje híbrido . . . . . . . . . . . . . . . . . . . . . . . . . . 52

4.2.1. Aprendizaje de los modelos . . . . . . . . . . . . . . . . . . . . . . . 534.2.2. Integración del modelo estructural . . . . . . . . . . . . . . . . . . . . 54

4.3. Conclusiones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55

5. Experimentación 575.1. Estudio experimental de los algoritmos de estimación de GIE . . . . . . . . . . 57

5.1.1. Descripción del corpus UPenn Treebank . . . . . . . . . . . . . . . . . 585.1.2. Algoritmos de estimación inner-outer, VS, inner-outerP y VSP . . . . 60

5.2. Evaluación experimental del modelo de lenguaje híbrido . . . . . . . . . . . . 665.2.1. Experimentos de perplejidad . . . . . . . . . . . . . . . . . . . . . . . 675.2.2. Experimentos de tasa de error por palabra . . . . . . . . . . . . . . . . 73

5.3. Conclusiones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 76

6. Conclusiones y trabajos futuros 79

Bibliografía 83

Apéndice: Algunas demostraciones 91

Índice de figuras

2.1. Algoritmo de Earley. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 142.2. Esquema que muestra el valor outer β( j

i A→ λ · µ) como un complemento alvalor inner γ( j

i A→ ν · µ). . . . . . . . . . . . . . . . . . . . . . . . . . . . . 212.3. Distribución del valor outer de un ítem entre un par de ítemes que participaron

en el cálculo de su valor inner. . . . . . . . . . . . . . . . . . . . . . . . . . . 242.4. Esquema del algoritmo outer . . . . . . . . . . . . . . . . . . . . . . . . . . . 24

3.1. Derivaciones en las que ha seleccionado la regla A→ λ en la posición i. . . . . 373.2. Detalles del algoritmo inner parentizado. . . . . . . . . . . . . . . . . . . . . . 463.3. La cadena "This is Japan.” de un corpus tipo treebank y las reglas que se extraen

a partir de ella. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48

5.1. La frase “Pierre Vinken, 61 years old, will join the board as a nonexecutivedirector Nov. 29.” analizada y etiquetada en el proyecto Penn Treebank. . . . . 58

5.2. Comportamiento de las funciones optimizadas por los algoritmos inner-outer,VS, inner-outerP y VSP . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61

5.3. Diferencia entre la verosimilitud de la muestra y verosimilitud de la mejor de-rivación de la muestra utilizando los modelos generados por el algoritmo deestimación inner-outer. A la derecha detalles de la diferencia. . . . . . . . . . . 62

5.4. La diferencia entre la verosimilitud de la muestra y verosimilitud de la mejorderivación de la muestra utilizando los modelos generados por el algoritmo deestimación VS. A la derecha detalles de la diferencia. . . . . . . . . . . . . . . 63

5.5. Tallas de las gramáticas después de cada iteración cuando es estimada con elalgoritmo inner-outer y con el algoritmo VS. . . . . . . . . . . . . . . . . . . 64

5.6. Tamaño promedio de las listas de análisis de las cien primeras cadenas delUPenn Treebank generadas por el algoritmo inner-outer e inner-outerP . . . . . 65

5.7. Perplejidad del conjunto desarrollo dependiendo del valor α, para el modelode lenguaje híbrido usando la GIE inicial y la GIE final de cada algoritmo deestimación. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69

5.8. Perplejidad del conjunto desarrollo dependiendo del valor α para el modelo delenguaje híbrido usando la GIE inicial y la GIE final extraída y entrenada conel corpus Bllip. Las curvas coinciden en ambos casos. . . . . . . . . . . . . . . 72

XIII

Índice de tablas

5.1. Características del corpus UPenn Treebank después de la división en frases. . . 595.2. Características principales de los subconjuntos en que se dividió el corpus

UPenn Treebank. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 595.3. Características de la gramática inicial. . . . . . . . . . . . . . . . . . . . . . . 605.4. Perplejidad de los modelos estimados medido sobre el conjunto de desarrollo

y porcentaje de mejora respecto al modelo inicial. . . . . . . . . . . . . . . . . 665.5. Características principales del corpus Bllip. . . . . . . . . . . . . . . . . . . . 675.6. Principales características de los nuevos conjuntos de datos del UPenn Treebank. 685.7. Perplejidad del trigrama entrenado con el corpus UPenn Treebank. . . . . . . . 685.8. Perplejidad del conjunto de test usando un modelo de trigrama (Trig.) y el

modelo interpolado (Interp.). La columna α es el factor de peso usado en elmodelo interpolado. La ultima columna representa el porcentaje de mejora conrespecto al modelo de trigrama. . . . . . . . . . . . . . . . . . . . . . . . . . . 70

5.9. Características de perplejidad de las GIE inicial y estimada con el corpus Bllip. 715.10. Perplejidad del conjunto de test para un modelo de trigrama (Trig.) y perpleji-

dad de los modelos híbridos basados en las GIE Bllip (Interp.Bllip.). La colum-na α es el factor de peso usado en el modelo interpolado. La última columnarepresenta el porcentaje de mejora con respecto al modelo de trigrama. . . . . . 73

5.11. Resultados de la tasa de error por palabra para varios modelos, con diferentetalla de entrenamiento y vocabulario usando el mejor peso para el modelo delenguaje. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 75

5.12. Resultados de la tasa de error por palabra (WER) para el modelo de lenguajehíbrido estimado con el Bllip, usando el mejor peso para el modelo de lenguaje. 76

XV

Capítulo 1

Introducción

Las Gramáticas Incontextuales constituyen un importante formalismo de especificacióndentro del contexto del Reconocimiento Sintáctico de Formas (RSF) [GT78, Fu82, Ney92] ydel Procesamiento del Lenguaje [Che96, Cha01]; ya que permiten, de una parte, representar demanera eficiente restricciones sintácticas entre las primitivas del problema, y, de otra, establecerdependencias a largo término entre dichas primitivas. Una Gramática Incontextual Estocástica(GIE) es una extensión natural de una Gramática Incontextual que incorpora a ésta informaciónestocástica acerca de la utilización de cada una de las reglas [BT73, Wet80]. La incorporaciónde información estocástica a una gramática permite representar los fenómenos de variabilidadsiempre presentes en los problemas complejos [Fu82, Ney92].

Una GIE se compone básicamente de dos partes: un conjunto de reglas (gramática carac-terística) que conforman la parte estructural de la misma y unas funciones de distribución deprobabilidad (o simplemente probabilidades) asociadas a las reglas que constituyen su parteestocástica. Existen tres problemas esenciales relacionados con las GIE: la interpretación deuna cadena de símbolos, su aprendizaje para tareas reales, y su integración con otro tipo demodelos.

El problema de la interpretación de la cadena por una GIE, consiste en encontrar la probabi-lidad de que una cadena pertenezca al lenguaje generado por la GIE. Para gramáticas generaleseste problema se puede resolver con la adaptación del algoritmo de Earley [Ear70], que es cono-cida como el algoritmo inner [Sto95]. Para gramáticas en Forma Normal de Chomsky (FNC),existe también una solución que se basa en una adaptación al algoritmo de Cocker-Younger-Kasami (CYK) [You67], este algoritmo es conocido como inside [Bak79]. Más recientemente,se han hecho propuestas que, aunque no siempre garantizan encontrar la interpretación de unacadena, han dado buenos resultados en diversas tareas [CJ00, Roa01].

Para abordar el problema del aprendizaje existen, en general, dos aproximaciones: la de-ductiva y la inductiva. En la aproximación deductiva la información para construir la GIE seobtiene a partir del conocimiento que posee un experto humano sobre el lenguaje a representar.En la aproximación inductiva, la GIE se construye automáticamente a partir de un conjuntode ejemplos (muestra de aprendizaje). El conjunto de ejemplos puede pertenecer al lenguaje

1

2 CAPÍTULO 1. INTRODUCCIÓN

que se pretende representar o puede estar compuesto por ejemplos convenientemente etique-tados. El aprendizaje de modelos mediante la aproximación deductiva es una labor tediosa ycompleja, siendo inabordable en tareas reales donde se da una gran variabilidad. La aproxi-mación inductiva, por el contrario, puede ser apropiada si se dispone de algoritmos robustos yeficientes, y de muestras que recojan la variabilidad. Precisamente, una restricción de esta apro-ximación es la necesidad de disponer de grandes volúmenes de datos. En esta tesis seguiremosla aproximación inductiva para abordar el problema del aprendizaje de las GIE.

El proceso del aprendizaje de las GIE se descompone a su vez, en el aprendizaje de lagramática característica y la estimación de las probabilidades asociadas a sus reglas. Con elaprendizaje de la gramática característica se pretende recoger la información estructural pre-sente en la muestra; mientras que con la estimación de las probabilidades se intenta capturar lainformación estocástica.

Para el aprendizaje de la gramática característica, se han propuesto diversas técnicas deInferencia Gramatical [FB75a, Sak97] que hacen uso fundamentalmente de información es-tructural representada en la muestra [Sak92, M92]. Existen otras técnicas que combinan elaprendizaje de la gramática característica con el aprendizaje de las probabilidades de las reglasy que hacen uso tanto de la información estructural como de la estocástica para el proceso deaprendizaje: unas incorporan conceptos propios de la Teoría de la Información y de la Codifica-ción [CRA76, Che96], y otras lo hacen de la inferencia estadística [Mar74, Sto94]. Finalmente,algunos métodos utilizan técnicas de redes neuronales y algoritmos genéticos con resultadosprometedores, aunque todavía muy limitados [KL97, LGF00, PN02].

La estimación de las probabilidades de la GIE, se puede abordar desde un punto de vistaestadístico como un problema de estimación estocástica que hace uso únicamente de muestraspositivas. Para las GIE generales se han realizado interesantes trabajos de estimación estocás-tica [Sto95]; sin embargo, dado que su coste temporal es cúbico con relación a la cadena deentrada, algunos aspectos computacionales y de implementación deben ser resueltos. Para lasGIE en FNC podemos citar los métodos que optimizan cierta función de verosimilitud de lamuestra como el algoritmo inside-outside [Bak79, LY90], el algoritmo basado en el esquemade Viterbi [Ney92, Cas96], o algoritmos basados en la estimación a partir de un subconjuntode derivaciones [PS92, ABS99, SB99].

La aplicación de las GIE en tareas complejas de RSF para procesos de interpretación esun aspecto fundamental que ha cobrado interés en los últimos años [Ney92, JLM92]. En elproblema de modelado de lenguaje, se han propuesto las GIE para calcular la probabilidad dela siguiente palabra a partir de una secuencia de palabras vistas con anterioridad [JL91, Dup93,JWS+95, Sto95]. Los resultados logrados son competitivos con los resultados alcanzados conmodelos clásicos de n-gramas para tareas sencillas. Sin embargo, en tareas complejas resultainviable el uso de este tipo de modelos. Recientemente se han propuesto modelos que combinanmodelos de n-gramas con modelos estructurales [GW98, CJ00, Bel00, BS00, MKP00, Roa01].En esa dirección, en este trabajo vamos a proponer un modelo de lenguaje híbrido definidocomo una combinación de un n-grama de palabras y una GIE de categorías junto con unadistribución de palabras en categorías.

1.1. INTERPRETACIÓN DE UNA CADENA USANDO UNA GIE 3

En esta tesis vamos a trabajar con las GIE generales; y, por tanto, se estudiarán y desarro-llarán aspectos relacionados con la interpretación, el aprendizaje y la integración de las GIEcon otros modelos.

1.1. Interpretación de una cadena usando una GIE

Para abordar el problema de la interpretación de una secuencia de símbolos a partir deuna GIE, cabe considerar dos algoritmos: el algoritmo inner que es una versión estocásticadel algoritmo de Earley propuesta en [Sto95] para gramáticas generales, y el algoritmo insi-de [Bak79, LY90] que esta basado en el algoritmo CYK para gramáticas en FNC. El algoritmoinner realiza el cómputo de la probabilidad de la cadena de izquierda a derecha, produciendoanálisis parciales de distinta longitud, hasta analizar completamente la cadena. El algoritmo in-side por su parte, realiza el análisis similar de manera ascendente. Ambos algoritmos computande manera eficiente la probabilidad de una cadena mediante esquemas de Programación Diná-mica. Este tipo de algoritmos calculan la interpretación a partir de todos los posibles análisisque puede hacer la GIE de la cadena.

Un segundo problema, también de gran interés, es el cálculo de la probabilidad de la mejorinterpretación. Esta interpretación se puede conseguir modificando el algoritmo inner para GIEgenerales. Para las gramáticas en FNC también se puede modificar el algoritmo inside. Estasversiones siguen un esquema de Viterbi, que además de el valor de la probabilidad permiteextraer el mejor árbol de análisis (el más probable).

Asociado con el problema de la integración de las GIE y su uso en modelado del lenguaje,es necesario el cálculo de la probabilidad de una subcadena inicial. Para gramáticas en FNCésto se resuelve con una modificación del algoritmo CYK conocida como algoritmo LRI (Leftto Right Inside) [JL91]. Igualmente existe otra propuesta basada en el algoritmo de viterbillamada VLRI [SB97]. Una generalización al algoritmo LRI permite generar una versión paragramáticas generales [Sto95].

Los algoritmos de interpretación son vitales para el desarrollo de la estimación de las pro-babilidades de las GIE, lo mismo que para su incorporación en modelos de lenguaje; por eso,en el Capítulo 2 de esta tesis revisaremos en detalle estos algoritmos. Además, dado que sucoste computacional cúbico con respecto a la talla de la cadena limita su aplicación en tareascomplejas, revisaremos también algunos aspectos de implementación que pueden aliviar enparte este problema.

1.2. Estimación de las probabilidades de una GIE

El problema de la estimación estocástica de una GIE consiste en aprender las probabilida-des de sus reglas a partir de una muestra. Para abordar este problema se define alguna funcióncriterio dependiente de la muestra, y un marco para optimizarla. Las funciones a optimizar quehabitualmente se definen son la verosimilitud de la muestra [Bak79, LY90, Sto95] , la verosi-

4 CAPÍTULO 1. INTRODUCCIÓN

militud de la mejor derivación de la muestra [Ney92, Cas96, BS00], o la verosimilitud de unconjunto específico de derivaciones de la muestra [PS92, SB99].

Para GIE en FNC, la verosimilitud de una muestra puede ser maximizada mediante el algo-ritmo inside-outside [Bak79, LY90, Ney92, Cas96], mientras que la verosimilitud de la mejorderivación de la muestra puede ser maximizada mediante el algoritmo basado en las cuentas deViterbi (VS) [Ney92, Cas96]. Ambos algoritmos se pueden definir en el marco de las Transfor-maciones Creciente [Bau72]. Cada uno de ellos procede iterativamente incrementando el valorde la función hasta alcanzar un óptimo local. El algoritmo inside-outside maximiza la verosi-militud de la muestra de aprendizaje teniendo en cuenta la utilización de cada regla en todoslos árboles de derivación de cada cadena de la muestra. El algoritmo VS maximiza la verosi-militud del mejor árbol de análisis de cada cadena de la muestra considerando la utilización delas reglas en el árbol más probable de cada cadena de la muestra. Para tareas reales complejas,la estimación con el algoritmo inside-outside es un problema inviable por el coste computa-cional de cada iteración y por la cantidad de iteraciones que requiere para converger. Por suparte, el algoritmo VS converge más rápido, pero sus resultados son mucho más pobres quelos del inside-outside. Algunas propuestas para resolver el conflicto entre coste y resultados seencuentran ubicadas entre el algoritmo inside-outside y el VS. Estas consideran únicamente uncierto subconjunto de derivaciones en el proceso de estimación. Con el fin de seleccionar estesubconjunto se han considerado dos alternativas: una a partir de la información estructural con-tenida en una muestra parentizada [PS92, ABS99], y otra a partir de la información estadísticacontenida en las k mejores derivaciones [SB98].

Para las GIE generales, la verosimilitud de la muestra puede maximizarse mediante el al-goritmo inner-outer [Sto95], y la verosimilitud de la mejor derivación [Sto95, LBS03d]. Eneste trabajo se estudiarán en profundidad estos algoritmos, así como los aspectos de imple-mentación que inciden en el coste temporal de los mismos. Finalmente, y siguiendo una líneasimilar a las propuestas presentadas en [PS92, ABS99], en esta tesis propondremos algoritmosde estimación basados en información estructural para GIE generales.

Todos los algoritmos presentados optimizan una función criterio hasta que un óptimo seaalcanzado. Este método de optimización pertenece a la familia de algoritmos de descenso porgradiente, donde el óptimo local alcanzado depende en gran medida de la definición del modeloinicial.

Para las GIE en FNC, el método usual es construir un modelo ergódico a partir de todaslas posibles reglas que se pueden generar con un número de no terminales iniciales; las proba-bilidades son inicializadas aleatoriamente. Un problema que se presenta es que el número dereglas es cúbico con relación a los no terminales. En la práctica los resultados parecen indicarque se obtienen mejores resultados con un mayor número de no terminales [LY90, SB99].

Para GIE generales no hay muchos trabajos que traten profundidad el tema de la inicia-lización de los modelos. En general, existen tres grandes aproximaciones para obtener losmodelos iniciales: A partir de una GIE obtenida manualmente o por algún otro proceso si-milar [JWS+95]; mediante la aplicación de técnicas de inferencia gramatical[Sak97, NSB00];o mediante la GIE obtenida a partir de un gran corpus anotado (treebank) [Cha96, Joh98,

1.3. INTEGRACIÓN DE LAS GIE COMO MODELOS DE LENGUAJE 5

LBS03d]. En ese trabajo exploraremos esta última alternativa.

1.3. Integración de las GIE como modelos de lenguaje

La aproximación clásica para abordar el problema de la Modelización del Lenguaje sonlos modelos basados en n-gramas [BJM83]. En estos modelos se asume que la probabilidadde una palabra está condicionada por las n − 1 palabras anteriores. Una de sus ventajas esque la estimación de los parámetros es sencilla y robusta y la integración en los sistemas dereconocimiento puede realizarse de forma eficiente. Su utilización presenta también diversosinconvenientes. Uno de ellos es que el número de parámetros aumenta exponencialmente conel valor de n, por lo que es habitual trabajar con n = 2 (modelos de bigrama) o con n = 3 (mo-delo de trigramas). Otro de los inconvenientes es que al contemplar únicamente dependenciaslocales, no capturan las relaciones de largo término de las frases del lenguaje [JLM92].

Las GIE son un modelo alternativo para el modelado del lenguaje y sus ventajas respectoa los n-gramas han sido estudiadas en diferentes trabajos [JWS+95, Che96]. Estos modelosrepresentan mejor las relaciones a largo término que se establecen entre las diferentes partesde la secuencia de entrada y trabajan bien en tareas de dominio limitado de baja perplejidad.Sin embargo, las GIE no parecen apropiadas en tareas reales complejas de propósito general yaque tanto el aprendizaje de las GIE como el cálculo de la probabilidad de la siguiente palabrapresentan serios problemas computacionales.

La aplicación de las GIE para modelizar el lenguaje introduce una serie de problemas querequieren soluciones eficientes. En primer lugar, se plantean problemas de interpretación; esdecir, cómo determinar la relación entre las palabras del lenguaje. En segundo lugar, se in-troducen problemas de integración; es decir, cómo realizar la interpretación de forma eficiente.Para abordar el problema de la interpretación, se han realizado propuestas basadas en el cálculode la probabilidad del prefijo de una cadena, mientras que para tratar el problema de la integra-ción se ha propuesto un modelo de lenguaje híbrido. Este es definido como una combinaciónlineal de un modelo de n-gramas basado en palabras, que se utiliza para capturar las relacioneslocales entre palabras, y una gramática estocástica de categorías junto con una distribución depalabras en categorías, que se utiliza para representar las relaciones a largo término entre estascategorías. En el Capítulo 4 se estudiarán propuestas relacionadas con estos problemas

1.4. Asuntos tratados en esta tesis

El uso de las GIE en tareas de modelización de lenguaje ha sido dominada por las resul-tados obtenidos por las GIE en FNC. En este trabajo vamos a tratar el estudio y desarrollode algoritmos de estimación de GIE generales y su uso en un modelo de lenguaje híbrido. Enconcreto, los principales temas tratados son:

• Estimación de las GIE generales. En esta parte se propondrá un marco para realizarel proceso de optimización y se estudiarán algunas propiedades importantes; además,

6 CAPÍTULO 1. INTRODUCCIÓN

se propondrán algoritmos y soluciones concretas que ayuden a disminuir el coste poriteración de los algoritmos,

• Obtención de GIE iniciales a partir de un corpus treebank.

• Integración de una GIE en un modelo híbrido de lenguaje.

• Evaluación tanto de los algoritmos de estimación presentados como del modelo híbrido.

Para lograr estos objetivos los capítulos se han organizado de la siguiente manera: en elcapítulo segundo se presenta la notación y los conceptos introductorios que se utilizarán entoda la tesis, luego se describe el algoritmo de Earley y los algoritmos de interpretación esto-cástica que de él se derivan, finalmente, se dan algunos comentarios sobre la implementacióndel algoritmo inner. En el tercer capítulo se estudia el problema de la estimación utilizandotanto información estadística como estructural, al final del capítulo se trata el problema de lainicialización de las GIE generales. En el cuarto capítulo se estudia el problema del mode-lado de lenguaje y a continuación se presenta nuestro modelo híbrido que saca partido de sucapacidad de modelar relaciones de largo termino como una manera de remediar el problemade la localidad de los n-gramas. En el quinto capítulo se describen los distintos experimentospara evaluar tanto los modelos generados por cada uno de los algoritmos de estimación, comoel modelo de lenguaje híbrido. Los indicadores de evaluación utilizados son la perplejidad porpalabra y la tasa de errores por palabra. Las conclusiones finales de esta memoria y los trabajosfuturos que se proponen se presentan en el capítulo sexto.

Capítulo 2

Interpretación de una cadenamediante una GIE

Tal como lo indicamos en el capítulo anterior, la interpretación que hace una GIE de unacadena es un problema importante para la utilización de estos modelos en diversas tareas. Lasolución de este problema también es fundamental para resolver el problema del aprendizajeque abordaremos en el capítulo siguiente. En este capítulo nos dedicaremos al estudio de esteproblema para gramáticas generales.

2.1. Introducción

El problema de la interpretación consiste en determinar si una cadena x pertenece o noal lenguaje generado por una gramática. En general este problema es exponencial [AU72].En la literatura se han propuesto soluciones desde dos campos bien distintos: construcciónde traductores (compiladores) para lenguajes de programación [AU72] y el ReconocimientoSintáctico de Formas (RSF) [GT78].

En compilación, para evitar este coste exponencial, se imponen fuertes restricciones a lasgramáticas(LL(k), LR(K), las gramáticas de precedencia) [AU72]. Los algoritmos de análisispara estas gramáticas deterministas son lineales con la longitud de la cadena [AU72].

En el RSF, se suele trabajar con toda la clase de gramáticas incontextuales y se abordael problema de la interpretación aplicando estrategias de programación dinámica. Dos son losalgoritmos que se usan en este campo: el algoritmo Cocke-Younger-Kasami (CYK) y el algo-ritmo de Earley. Ambos algoritmos son tabulares y se caracterizan por tener un coste cúbico entiempo y cuadrático en espacio respecto a la talla de la cadena, y un coste lineal en tiempo yespacio respecto a la talla de la gramática.

Una ventaja del algoritmo de Earley es que, en general, éste es tan eficiente como el CYK,pero para gramáticas que no sean masivamente ambiguas, éste puede procesar la entrada enun tiempo inferior al coste cúbico [AU72]. Por su parte, el algoritmo CYK tiene como carac-terística que, para procesar las gramáticas, éstas deben estar en FNC. Convertir una gramática

7

8 CAPÍTULO 2. INTERPRETACIÓN DE UNA CADENA MEDIANTE UNA GIE

general a FNC puede elevar al cuadrado el número de reglas de la gramática, con lo que seeleva el coste computacional del algoritmo.

Dado que estamos interesados en trabajar en aplicaciones reales, que habitualmente presen-tan fenómenos de ruido y variabilidad, necesitamos generalizar nuestros modelos. En generalvamos a trabajar con modelos estocásticas y por lo tanto debemos extender la noción de in-terpretación a interpretación estocástica. Con lo cual, el problema ya no se resuelve con lapertenencia o no de una cadena al lenguaje generado por la gramática, sino calculando el valorde probabilidad de esa pertenencia.

En esta tesis abordaremos la interpretación estocástica utilizando una extensión del algo-ritmo de Earley, esto nos permitirá utilizar sus ventajas computacionales lo mismo que trabajarcon gramáticas generales.

Para ésto, inicialmente daremos unos conceptos y definiciones que nos servirán para estecapítulo y para el resto de la tesis, luego se presentará el algoritmo de Earley y las adaptacionesnecesarias para calcular las distintas posibilidades de calcular la interpretación de una cadenadada una GIE y al final se comentan algunos aspectos de implementación y se dan algunasconclusiones.

2.2. Notación y conceptos previos

En este apartado detallaremos algunas definiciones sobre las gramáticas y los lenguajes queéstas generan, junto con otras definiciones pertinentes al algoritmo de Earley. Estas definicionesserán herramientas útiles para desarrollar el tema que nos proponemos. Luego las extenderemosincluyendo la dimensión estocástica.

Definición 2.1. Un alfabeto Σ, es un conjunto finito de símbolos; los elementos de un alfabetoconstituyen las unidades básicas o primitivas de un lenguaje. Estos, a su vez, se agrupan encadenas.

Definición 2.2. Una cadena o palabra sobre un alfabeto Σ es una secuencia finita de elementosde Σ.

Si x y y son dos cadenas entonces a la cadena xy se le llama concatenación. Si tenemos lacadena xy, a x se le llama el prefijo de xy y a y el sufijo de xy. x, y y z son subcadenas de xyz.La longitud o la talla de una cadena x es el número de símbolos que tiene, y lo escribiremoscomo |x|. La cadena vacía es aquella que no posee ningún elemento y la denotaremos como ε(|ε| = 0). Denotaremos como Σ∗ el conjunto de todas las cadenas de longitud mayor o igualque 0 que se pueden formar con símbolos de Σ. Así mismo Σ+ denotará el conjunto de todaslas cadenas de longitud mayor o igual que 1 que se pueden formar con elementos de Σ, es decir,Σ+ = Σ∗ − ε.

Definición 2.3. Un lenguaje L sobre Σ es un subconjunto de Σ∗.

Un lenguaje se puede definir mediante un autómata formal que tiene un carácter de acep-tador de cadenas, o con una gramática formal que tiene un carácter de generador de cadenas.

2.2. NOTACIÓN Y CONCEPTOS PREVIOS 9

La relación entre ambos tipos de formalismos ha sido ampliamente estudiada y aparece recogi-da en diversos textos [GT78, HU79, Fu82]. En esta tesis utilizaremos las gramáticas formalescomo mecanismo de especificación de lenguajes formales.

Definición 2.4. Una gramática formal es una tupla (Σ, N, S, P ) donde:

− Σ un conjunto finito de símbolos llamados terminales,

− N es un conjunto finito de símbolos llamados no terminales, que cumple que N ∩ Σ = ∅,

− P es un conjunto finito de reglas o producciones. Cada regla es un par (α, β) que se repre-senta de la forma α → β donde α, β ∈ (N ∪ Σ)∗. A α se le llama antecedente y a βconsecuente,

− S ∈ N es el símbolo inicial o axioma de la gramática.

En el presente trabajo las primeras letras mayúsculas del abecedario denotarán no termina-les; λ, µ, δ, y σ representan cadenas en (N ∪ Σ)∗; las letras i, j, k se referirán a posicionesdentro de la cadena entrada.

Atendiendo a la forma de sus reglas, las gramáticas se clasifican en 4 tipos, regulares,incontextuales, sensibles al contexto y no restringida, [GT78, Fu82]. El poder expresivo decada gramática va en orden creciente, de ahí que cualquier tarea modelada por una gramáticaregular también puede ser modelada por una gramática incontextual, pero no todas las tareasmodeladas con una gramática incontextual pueden ser modeladas por una gramática regular.La clasificación de las gramáticas se extiende a los lenguajes modelados por estas. Asociado acada gramática están también los lenguajes que estas generan.

En el presente trabajo nos concentraremos exclusivamente en las gramáticas incontextua-les:

Definición 2.5.

Una gramática es incontextual si todas sus reglas son de la forma A→ α donde A ∈ N

Se dice que una gramática incontextual está en Forma Normal de Chomsky (FNC) si todassus reglas son de la forma A → BC o A → a donde A,B,C ∈ N y a ∈ Σ. Por otro ladouna gramática que no impone ningún tipo de formato a la parte derecha de sus reglas se diceque es general o que esta en formato general (FG) o que es general. En el presente trabajo nosconcentraremos en gramáticas generales. La única restricción que impondremos es que la partederecha de la regla sea no nula.

El siguiente conjunto de definiciones permiten establecer cómo se forman las cadenas quegenera una gramática formal.

Definición 2.6. Una derivación directa de γαϕ a γβϕ si r = (α → β) es una regla quepertenece a P y γ, ϕ ∈ (N ∪ Σ)∗, y se expresa como γαϕ

r⇒ γβϕ.

También suele decirse que γαϕ se reescribe en γβϕ, o que la regla r reescribe a α.

10 CAPÍTULO 2. INTERPRETACIÓN DE UNA CADENA MEDIANTE UNA GIE

Definición 2.7. Una derivación de α1 a α2, donde α1, α2 ∈ (N ∪ Σ)∗, y se expresa comoα1

∗⇒ α2 se produce, si existe una secuencia de formas sentenciales α1 = µ0, µ1, . . . , µm =

α2, m ≥ 0, con µ1, . . . , µm−1 ∈ (N ∪ Σ)∗ y una secuencia de reglas (r1, r2, . . . , rm) ∈ P talque:

α1 = µ0r1⇒ µ1

r2⇒ . . .rm⇒ µm = α2.

Si la secuencia de reglas es no vacía, es decir, m ≥ 1, entonces la expresión anterior se

escribe como α1+⇒ α2.

Definición 2.8. Una derivación a izquierdas de una cadena x ∈ L(G), dx, es una derivacióntal que µ0 = S y µm = x y ri, 1 ≤ i ≤ m, reescribe el no terminal más a la izquierda de µi−1.

Con la derivación izquierda dx queda definida la secuencia de reglas utilizadas. Eso sepuede lograr también utilizando su versión análoga de derivación derecha. En este trabajo soloutilizaremos las derivaciones izquierdas por lo que nos referiremos a ellas simplemente comoderivación.

Definición 2.9. El lenguaje generado por una gramática G, es el conjunto L(G) = x ∈ Σ∗ |

S∗⇒ x.

Definición 2.10. Se dice que una gramática es ambigua si para algún x ∈ L(G) existe más deuna derivación.

Las anteriores definiciones son de carácter general para las gramáticas y los lenguajes queestos generan, en esta parte presentaremos algunas definiciones específicas para el algoritmode Earley. El algoritmo de Earley que presentamos aquí se basa en la propuesta que se describeen [GHR80]. Esta propuesta necesita definir algunas relaciones entre los no terminales que lepermitan realizar dichos cálculos de manera eficiente.

Definición 2.11. Dos no terminales A y B están en relación left-corner y se denota A→L B,si A → Bλ ∈ P . Se define la clausura reflexiva y transitiva de la relación left-corner comoA

∗⇒L B sii A = B ó ∃ C ∈ N tal que A→L C y C

∗⇒L B.

Definición 2.12. Dos no terminales A y B están en relación unitaria y se denota A→U B, siA→ B ∈ P . Se define la clausura reflexiva y transitiva de la relación unitaria como A

∗⇒U B

sii A = B ó ∃ C ∈ N tal que A→U C y C∗⇒U B.

Estas relaciones dependen exclusivamente de la gramática por lo que pueden ser precalcu-ladas para una Gramática dada. La manera como son utilizadas estas relaciones es descrita enla siguiente sección, en donde explicaremos en detalle el algoritmo de Earley.

2.3. EL ALGORITMO DE EARLEY 11

2.3. El algoritmo de Earley

El algoritmo de Earley permite responder a la pregunta sobre si una determinada cadenapertenece o no al lenguaje generado por la gramática; formalmente, si x ∈ L(G) es verdaderoo falso [Ear70]. Adicionalmente, podemos extraer el resultado del proceso de análisis de unacadena [GHR80].

Una característica muy atractiva de este algoritmo es que al procesar la cadena de izquierdaa derecha, puede revisar algunos símbolos de la cadena más adelante de la entrada actual. Conesta información, puede restringir la continuación de los análisis que lleva en ese momento asólo aquellas que sean compatibles con aquellos símbolos vistos. Esto le permite para gramá-ticas no ambiguas reducir el coste temporal de cúbico a cuadrático, incluso para gramáticasdeterministas este coste puede ser lineal [AU72].

Para explicar el algoritmo, inicialmente se darán algunas definiciones en las que éste sebasa y luego se comentarán en detalle las partes que componen el proceso.

El algoritmo de Earley es un método tabular que va analizando la cadena de izquierda aderecha, este proceso se basa en dos conceptos básicos, el ítem y la lista de ítemes. Estos sedefinen así [AU72]:

Definición 2.13. Llamaremos ítem a un objeto de la forma:

jk A→ B1 . . . Bj ·Bj+1 . . . Bm,

donde A → B1 . . . BjBj+1 . . . Bm ∈ P, 0 ≤ k ≤ j ≤ n y el símbolo punto entre Bj yBj+1 no esta en N ∪ Σ.

El número j puede ser cualquier entero, incluyendo 0, en cuyo caso el símbolo punto es elprimer símbolo, o m en cuyo caso es el último. Informalmente el punto en el ítem indica que laparte de la regla ya ha sido analizada es A→ B1 . . . Bj , y qué falta por analizar Bj+1 . . . Bm.Los enteros k y j indican que este ítem ha dado cuenta de la subcadena ak+1 . . . aj .

El significado formal de un ítem se puede expresar con la definición de listas de análisis.

Definición 2.14. Una lista de análisis Lj , 0 ≤ j ≤ n es una lista que contiene sólo ítemes dela siguiente forma:

ji A→ λ · µ

donde para algún γ y δ se cumplen las siguientes condiciones:

1. S∗⇒ γAδ, γ

∗⇒ a1 . . . ai, y

2. λ∗⇒ ai+1 . . . aj .

La segunda condición nos muestra el significado de los índices en el ítem, el entero irepresenta el punto en la cadena de entrada donde la regla fue seleccionada para extender elanálisis, además i + 1 y j representan la porción la cadena de entrada que ha sido derivadapor la cadena λ. Obsérvese que el entero j muestra explícitamente la lista a la que pertenece el

12 CAPÍTULO 2. INTERPRETACIÓN DE UNA CADENA MEDIANTE UNA GIE

ítem. La primera condición sobre el ítem, indica simplemente que la regla fue seleccionada enun punto donde esta era consecuente con el análisis previo hecho de la cadena de entrada.

De esta manera el algoritmo construye secuencialmente las listas de análisis L0 . . . Ln. Alfinal del proceso x ∈ L(G) siysolosi, existe un ítem de la forma n

0 S → α· en Ln.Para ver como se cálcula cada lista veamos en detalle el proceso. En un momento dado, el

algoritmo necesita una operación que, dependiendo de los análisis parciales que se tenga en esemomento, introduzca los posibles ítemes que pueden continuarlos. Si es el inicio del procesosimplemente debe extender los análisis de la cadena vacía ε. Llamaremos a esta operaciónpredictor. Una vez con los nuevos ítemes en la lista se debe buscar avanzar el punto a la derechade su posición actual, para esto debemos considerar dos casos, aquellos ítemes que tienendespués del punto un terminal, y aquellos ítemes que después del punto tienen un no terminal.Para el primer caso se utilizará la operación que llamaremos scanner, y para el segundo laoperación que llamaremos completer. Es claro que al mover el punto en un ítem se crea unnuevo ítem con el indicador de lista incrementado, por lo tanto este nuevo ítem deberá serubicado adecuadamente en la lista correspondiente.

A continuación veremos en más detalle cada una de estas operaciones. La formaliza-ción que proponemos la realizaremos en términos de conjuntos, inspirados en el algoritmode [GHR80].

Predictor

Esta operación debe seleccionar entre todas las reglas que tiene la gramática, aquellas quepotencialmente puedan expandir los análisis parciales que están actualmente en la lista. Estoes, si se tienen un ítem de la forma j

k A→ λ · Cµ en la lista Lj se introducirán a la lista todoslos ítemes de la forma j

j B → ·σ, para todas aquellas reglas B → σ que estén en P y que seaaccesibles desde C a través de la relación left-corner. Formalmente:

Definición 2.15. El operador predictor para una lista Lj, j ≤ n es el conjunto:

predictor(Lj) = jj B → ·σ | B → σ ∈ P, j

k A→ λ · Cµ ∈ Lj ,

C∗⇒L B, 0 ≤ k ≤ j.

Scanner

La tarea de esta operación es buscar en la lista previamente procesada, todos aquellos íte-mes que puedan dar cuenta del símbolo de entrada actual, aquellos que cumplan esta condiciónse les avanza el punto a la derecha y se les ubica en la lista actual. Formalmente:

Definición 2.16. El operador scanner para una lista Lj , donde aj es el elemento actual en lacadena de entrada es:

scanner(Lj) = jk A→ λa · µ | j−1

k A→ λ · aµ ∈ Lj−1,

a = aj, 0 ≤ k < j.

2.4. INTERPRETACIONES ESTOCÁSTICAS BASADAS EN EL ALGORITMO DE EARLEY13

Completer

Esta operación busca en una lista previa todos los ítemes que tengan después del punto unno terminal para intentar correr este punto a la derecha. Para entender como realiza su tareavamos a suponer que se está procesando la lista Lj y que esta operación encontró en una listaprevia Li, el ítem i

k A→ λ · Bµ. Nos damos cuenta por los índices del ítem que éste generala subcadena ak+1 . . . ai. Para lograr su cometido la operación completer busca en la lista Lj

un conjunto de ítemes que puedan extender el no terminal B. Los ítemes que pueden cumpliresto son de la forma j

i C → σ·, donde C debe ser alcanzable a través de reglas unitarias por B.Obsérvese además que estos ítemes deben tener el punto al final del consecuente, lo que indicaque aceptan completamente la subcadena ai+1 . . . aj .

El nuevo ítem tendrá la forma jk A→ λB · µ y habrá unido dos soluciones parciales al

dar cuenta de la subcadena ak+1 . . . aj . Claramente este ítem debe ser guardado en la lista Lj .Formalmente el conjunto de ítemes generados por el completer se define como:

Definición 2.17. El operador completer para dos listas Li, Lj es:

completer(Li, Lj) = jk A→ λB · µ | i

k A→ λ ·Bµ ∈ Li,j

i C → σ· ∈ Lj,

B∗⇒U C, 0 ≤ k ≤ i ≤ j.

De las tres operaciones podemos decir que desde el punto de vista computacional la opera-ción completer es la más costosa y la que determina finalmente el coste global del algoritmo,esto es así al tener que efectuarse sobre todas las listas anteriores para cada lista que se esteprocesando. El trabajo de correr el punto a la derecha ya sea de un símbolo terminal o un noterminal es determinista una vez la operación predictor ha introducido los ítemes, por eso cual-quier esfuerzo que se haga en predictor para restringir el acceso de los ítemes al análisis se verárecompensado por un menor costo realizado por el scanner y el completer.

Para dar una visión de conjunto de cómo interactúan estas tres operaciones, en la Figura 2.1se muestra el algoritmo completo. En este algoritmo se ha incluido una regla muda 0

0$→ ·Sque no esta en P . Esta regla se usa solo para inicialización.

El coste temporal del algoritmo de Earley es O(n3|P |) y su coste espacial es O(n2|P |) [AU72,GHR80].

2.4. Interpretaciones estocásticas basadas en el algoritmo de Ear-ley

En este apartado extenderemos el concepto de la interpretación de una cadena por unagramática a la interpretación estocástica. Esta extensión es vital porque los eventos que se

14 CAPÍTULO 2. INTERPRETACIÓN DE UNA CADENA MEDIANTE UNA GIE

Algoritmo de Earley01. Entradas02. Gramática G = (N,Σ, S, P ), w = a1a2 . . . an ∈ Σ∗

03. salida04. secuencia de Listas: L0 . . . Ln

05. Método06. L0 ←

00$→ ·S

07. predictor(L0)08. para j ← 1 hasta n hacer09. Lj ← scanner(Lj−1 , aj)10. para i← j − 1 hasta 0 hacer10. Lj ← Lj ∪ completer(Li, Lj)12. fin para13. Lj ← Lj ∪ predictor(Lj )14. fin para15. si n

0$→ S· ∈ Ln entonces16. w ∈ L(G)17. si no18. w /∈ L(G)19. fin si20. Fin

Figura 2.1: Algoritmo de Earley.

presentan en la naturaleza de manera aleatoria frecuentemente siguen un patrón, esas regu-laridades pueden ser entonces capturadas por las probabilidades asociadas a las reglas. Estopermite que las GIE sean un modelo más robusto que una gramática que no incorpora este tipode información.

La interpretación estocástica que de una cadena hace una GIE se puede realizar computandola probabilidad de la cadena dada una GIE. En esta sección presentaremos varios algoritmospara realizar este cómputo. Para cada uno de ellos comentaremos los detalles de su cómputo ylas situaciones donde son útiles.

El primer algoritmo que estudiaremos será el algoritmo inner, que se caracteriza por seruna extensión directa del algoritmo de Earley. Con él se calcula justamente la probabilidad dela cadena, con lo que nuestra pregunta inicial quedará resuelta.

Otro algoritmo que describiremos es el algoritmo outer. Éste también computa la probabili-dad de la cadena. Este algoritmo junto con el algoritmo inner se aplican en tareas de estimaciónde gramáticas que veremos en el capítulo siguiente.

También estudiaremos un algoritmo que se basa en el esquema de viterbi el cual, basa elcálculo de la probabilidad en la mejor derivación. Además, cuando se modifica adecuadamente,se puede extraer la mejor interpretación de la cadena (la más probable).

2.4. INTERPRETACIONES ESTOCÁSTICAS BASADAS EN EL ALGORITMO DE EARLEY15

El último algoritmo que estudiaremos en esta sección es el algoritmo forward. Con estealgoritmo es posible computar la probabilidad de un prefijo, que es un valor de probabilidadimportante cuando se desea integrar las GIE en un modelo del lenguaje.

Antes de detallar cada algoritmo presentaremos algunos conceptos necesarios para exten-der las gramáticas con un componente estocástico. Al final de la sección revisaremos algunosaspectos de implementación.

Las definiciones de alfabeto y cadena no cambian, pero las definiciones de lenguaje, gramá-tica y derivación si deben ser retomados para revisar el componente estocástico que se asociaa ellos. Además se introducirá el concepto de la consistencia de una GIE, esta propiedad es laque permite aplicar correctamente las GIE como un descriptor de un lenguaje estocástico. Paraampliar las definiciones dadas aquí se puede ver [BT73, Wet80]

Definición 2.18. Un lenguaje estocástico sobre un alfabeto Σ es un par (L,Φ), donde L es unlenguaje formal y Φ : Σ∗ →

es una función estocástica computable sobre las cadenas de Σ∗.

La función de Φ satisface las siguientes condiciones:

1. x /∈ L⇒ Φ(x) = 0 para todo x ∈ Σ∗,

2. x ∈ L⇒ 0 < Φ(x) ≤ 1 para todo x ∈ Σ∗,

3.∑

x∈L Φ(x) = 1.

Dado que en este trabajo estamos interesados en modelos incontextuales, las definicionesque damos a continuación están referidas básicamente a las gramáticas incontextuales, aunquese pueden extender fácilmente a otros tipos de gramáticas [Mar74].

Definición 2.19. Una Gramática Incontextual Estocástica (GIE) Ge es un par (G, p) tal que Ges una gramática incontextual, denominada en este caso gramática característica, y p es unafunción p : P →]0, 1] que observa la siguiente propiedad:

∀A ∈ N,∑

(A→α)∈ΓA

p(A→ α) = 1,

donde ΓA representa el conjunto de reglas de la gramática cuyo antecedente es A.

Para cada x ∈ L(G), denotaremos por Dx el conjunto de todas las derivaciones de lacadena x. Con la expresión N(A → α, dx) se va a representar la cantidad de veces que laregla A → α ha sido usada en la derivación dx y con la expresión N(A, dx) denotaremos elnúmero de veces que el no terminal A ha sido derivado en dx. Es claro que la siguiente ecuaciónN(A, dx) =

∑nA

i=1 N(A→ αi, dx) se satisface.A continuación presentaremos las definiciones de los conceptos que calcularán los distintos

algoritmos que presentaremos en esta sección.

16 CAPÍTULO 2. INTERPRETACIÓN DE UNA CADENA MEDIANTE UNA GIE

Definición 2.20. La probabilidad de la derivación de la cadena x es:

Pr(x, dx | Gs) =∏

∀(A→α)∈P

p(A→ α)N(A→α,dx).

Definición 2.21. La probabilidad de la cadena x es:

Pr(x | Gs) =∑

∀dx∈Dx

Pr(x, dx | Gs).

Definición 2.22. La probabilidad de la mejor derivación es:

Pr(x | Gs) = max∀dx∈Dx

Pr(x, dx | Gs).

Definición 2.23. La derivación más probable o mejor derivación es:

dx = arg max∀dx∈Dx

Pr(x, dx | Gs).

De esta forma la probabilidad de la mejor derivación podemos expresarla también comoPr(x, dx | Ge).

Las definiciones (2.21) y (2.22) pueden extenderse a un número arbitrario de derivacionestal como se contempla en la siguiente definición.

Definición 2.24. Dada la cadena x y un conjunto de derivaciones de la misma ∆x ⊆ Dx, sedefine la probabilidad de la cadena con el conjunto ∆x como:

Pr(x,∆x | Ge) =∑

dx∈∆x

Pr(x, dx | Ge).

Observemos que la expresión de la definición anterior coincide con la expresión de la defi-nición (2.21) cuando el conjunto de derivaciones considerado coincide con el máximo posible.También coincide con la expresión de la definición (2.22) cuando la derivación considerada esaquella que tiene máxima probabilidad de entre todas las posibles derivaciones de una cadena.

Definición 2.25. El lenguaje generado por una GIE Ge se define como, L(Ge) = x ∈L(G)|Pr(x | Ge) > 0.

Dado un lenguaje estocástico (L,Φ) cualquiera, donde L es un lenguaje incontextual, po-dría pensarse que siempre es posible encontrar una GIE Ge = (G, p) tal que L = L(G) yΦ es computada en términos de la definición de la probabilidad de la cadena. Sin embargo,en [BT73] se muestra un contraejemplo sobre este supuesto.

De forma inversa podría pensarse que cualquier GIE Ge es capaz de generar un lenguajeestocástico (L,Φ) donde L = L(G) y Φ(x) = Pr(x | Ge). Esto tampoco es necesariamentecierto ya que la función de probabilidad definida debe cumplir la condición 3 de la definición(2.18).

2.4. INTERPRETACIONES ESTOCÁSTICAS BASADAS EN EL ALGORITMO DE EARLEY17

Definición 2.26. Una GIE Ge es consistente si y solo si:

x∈L(G)

Pr(x | Ge) = 1,

en cualquier otro caso la gramática no es consistente [Wet80, BT73].

Definición 2.27. Dada una GIE Ge consistente, el par (L(G),P) es un lenguaje incontextualestocástico, donde P es una función de probabilidad computada en términos de la expresiónde la definición (2.21).

La consistencia es un problema determinante en las GIE por lo que se han desarrolladointeresantes trabajos para demostrarla. Además, cuando una GIE es consistente se pueden es-tudiar algunas características del lenguaje que genera. En particular es posible determinar lalongitud esperada de las derivaciones y la longitud esperada de las cadenas generadas por laGIE. También se puede establecer el número esperado de veces que un terminal determinadoaparece en una cadena [Wet80, BT73]. En el Capítulo 3 comentaremos esta propiedad para losmodelos estimados en esta tesis.

De igual manera a como se definieron algunas relaciones entre los no terminales para elcálculo del algoritmo de Earley, a continuación presentaremos las respectivas extensiones es-tocásticas de la relación unitaria y left-corner, junto a estas definiremos la mejor relación esto-cástica unitaria, que sera útil para el cálculo de la mejor interpretación. Los valores de proba-bilidad de estas relaciones estarán representadas por matrices cuadradas cuyo tamaño es igualal número de no terminales de la GIE.

Dada una GIE Ge y un par de no terminales A y B en Ge:

Definición 2.28. Llamaremos la relación left-corner estocástica a:

PL(A,B) =∑

λ :A→ Bλ∈ P

p(A→ Bλ).

Definición 2.29. Llamaremos la relación estocástica reflexiva y transitiva left-corner a:

RL(A,B) = Pr(A∗⇒L B) =

∞∑

k=0

PL(A,B)k = (I − PL(A,B))−1.

Definición 2.30. Llamaremos relación unitaria estocástica a:

PU (A,B) = p(A→ B).

18 CAPÍTULO 2. INTERPRETACIÓN DE UNA CADENA MEDIANTE UNA GIE

Definición 2.31. Llamaremos la relación estocástica reflexiva y transitiva unitaria a:

RU (A,B) = Pr(A∗⇒U B) = (I − PU (A,B))−1.

Definición 2.32. Llamaremos la probabilidad de la mejor relación unitaria a:

RU (A∗⇒ B) = max ( p(A = B),

p(A→ B),

max∀C∈N

(p(A→ C)RU (C,B))).

Definición 2.33. Llamaremos la derivación unitaria más probable a:

DU (A,B) = arg max RU (A,B).

La existencia de las matrices RL(A,B) y RU (A,B) esta garantizada cuando la GIE esconsistente [JL91] (ver el Apéndice ).

La matriz estocástica RL(A,B) acumula la masa estocástica de todas las derivacionesparciales que van de un no terminal a otro a través de relaciones left-corner. Por su parteRU (A,B) acumula la masa estocástica de todas las derivaciones parciales que existen entrecualquier par de no terminales a través de reglas unitarias. Obsérvese que dado que las reglasunitarias pueden crear ciclos, la matriz RU (A,B) acumula también los posibles caminos delongitud infinita que se generen. Lo propio hace la matriz RL(A,B) con los ciclos que segeneran con las relaciones left-corner. Las relación RU (A

∗⇒ B) y DU (A,B), pueden calcularse

utilizando una modificación del algoritmo de Floyd que da el mejor camino entre cualquier parde nodos de un grafo.

Con estas definiciones podemos concentrarnos ahora en las diferentes versiones estocásti-cas que se derivan del algoritmo de Earley.

2.4.1. Algoritmo de interpretación inner

El algoritmo inner [Sto95] es el más importante de todos los que estudiaremos por variosmotivos: primero, este calcula de una manera directa la respuesta a la interpretación que es-tamos buscando; segundo, al ser un algoritmo que sigue el mismo esquema del algoritmo deEarley requiere menos modificaciones; y tercero, este constituye el algoritmo base para losdemás algoritmos estocásticos.

El algoritmo inner se basa en un valor de probabilidad que se le adjunta a cada ítem,este valor refleja exactamente la probabilidad de que el ítem haya generado la subcadena quedelimitan sus índices. El proceso sigue el mismo orden de operaciones que fueron ya descritaspara Earley, por lo que solo debemos concentrarnos en definir las expresiones que calculanel valor inner para cada ítem del conjunto generado por la respectiva operación. Para esto,primero se define la probabilidad inner de un ítem.

2.4. INTERPRETACIONES ESTOCÁSTICAS BASADAS EN EL ALGORITMO DE EARLEY19

Definición 2.34. Llamaremos probabilidad inner de un ítem a:

γ( ji A→ λ · µ) = Pr(A

∗⇒ ai+1 . . . aj|

ii A→ ·λµ).

Este valor acumula la probabilidad de que el ítem ji A→ λ · µ genere la parte de la entrada

correspondiente a ai+1 . . . aj condicionado al hecho de que justamente ese ítem fue seleccio-nado para extender la derivaciones en la posición i. De aquí en adelante nos referiremos aeste valor de probabilidad simplemente como inner. Si estamos interesados en computar laprobabilidad de que un no terminal genere una subcadena en particular debemos acumular laprobabilidad inner de todos los ítemes que generan exactamente esa subcadena. La expresiónes la siguiente:

Pr(A∗⇒ ai+1 . . . aj) =

σ : ji A→ σ·

ji A→ σ· . (2.1)

Antes de adjuntar el valor inner a cada ítem consideremos dos aspectos generales. El prime-ro es observar que el no determinismo del algoritmo es debido a la selección que de los ítemeshace la operación predictor. Como ya lo habíamos notado al analizar el algoritmo de Earley,las operaciones scanner y completer, simplemente mueven el punto a los ítemes ya presentesen las listas de análisis. La operación scanner lo hace para los terminales revisando el símbolode entrada y la operación completer para los no terminales buscando todos los posibles ítemesque puedan extenderlos.

El segundo aspecto es que la definición de los conjuntos hechos por las operaciones delalgoritmos de Earley involucraban la relación transitiva unitaria y la relación transitiva left-corner. En estos casos se debe hacer uso de las correspondientes versiones estocásticas paraambas relaciones (definidas en (2.31) y en (2.29)).

Con estos dos aspectos en claro, veamos como se realiza el cálculo del valor inner paracada operación.

Predictor

Desde el punto de vista del cálculo de inner, este es el punto inicial de un ítem y su proba-bilidad está asociada con su propia selección de entre todas las reglas con el mismo no terminalizquierdo dentro de la gramática; por eso su valor inner es igual a la probabilidad de la regla enla gramática. Por lo tanto para todos los ítemes que son generados por la operación predictorde acuerdo a la definición (2.15) su probabilidad inner se calcula así:

γ( jj A→ ·σ) = p(A→ σ). (2.2)

Scanner

Los ítemes de esta operación se crean a partir de todos los ítemes que están en la listaanterior y que tienen como siguiente símbolo a analizar un terminal que coincide con el símbolo

20 CAPÍTULO 2. INTERPRETACIÓN DE UNA CADENA MEDIANTE UNA GIE

de entrada. Dado que este nuevo ítem no involucra ningún tipo de selección de alternativas, suprobabilidad no se modifica con respecto al ítem generador. Por lo tanto los valores inner de losítemes generados por esa operación a partir de una lista anterior, tal como se definió en (2.16),se calculan como:

γ( ji A→ λa · σ) = γ( j−1

i A→ λ · aσ). (2.3)

La concepción determinista de esta operación puede cambiar si existe algún tipo de variabilidaden la información de entrada, o si el símbolo del ítem representa en realidad una clase y se debeevaluar el grado de pertenecía del símbolo de entrada a esta clase. Un ejemplo del primer casose puede ver en en [IB00], el segundo caso lo trataremos en el Capítulo 4.

Completer

Para una lista actual Lj y una lista Li, 0 ≤ i < j, esta operación revisará en una listaLi todos los ítemes que tengan a la derecha del punto un símbolo no terminal. Para un ítemque cumpla esta condición esta operación intenta mover el punto a la derecha. Al mover estepunto generará otro ítem que deberá incorporar al cálculo la probabilidad de las derivacionesparciales que se generan a partir de este no terminal.

La probabilidad de que un no terminal genere una subcadena puede ser calculada a partirde la expresión (2.1). Dado que pueden haber relaciones unitarias entre el no terminal del ítemen cuestión y los ítemes que extienden, se debe usar la relación unitaria estocástica RU (A,B).Por lo tanto, el valor inner para los ítemes generados con la operación completer tal como sedefinió en (2.17) se calcula con la expresión:

γ( jk A→ λB · µ) = γ( i

k A→ λ ·Bµ)∑

C

RU (B,C)∑

σ : ji C → σ·

γ( ji C → σ·). (2.4)

La anterior expresión deberá aplicarla el completer para todas las lista Li, 0 ≤ i < j. Estevalor queda más claro en la siguiente expresión donde se muestra el valor inner total para cadaítem:

γ( jj A→ ·σ) = p(A→ σ),

γ( jk A→ λδ · µ) =

γ( j−1k A→ λ · δµ) si δ = aj ,

∑j−1i=k γ( i

k A→ λ · δµ)∑

C RU (δ, C)∑

σ : ji C → σ·

γ( ji C → σ·) si δ ∈ N,

0 ≤ k < j ≤ n,

(2.5)

con esto, Pr(x|Ge) = γ( n0$→ S·).

Dado que el algoritmo inner procede en forma incremental, a cada ítem le va acumulandoprogresivamente su valor inner, por lo que el coste temporal del algoritmo se mantiene en

2.4. INTERPRETACIONES ESTOCÁSTICAS BASADAS EN EL ALGORITMO DE EARLEY21

O(n3|P |). Para el coste espacial debemos observar que cada ítem sólo es incrementado en uncampo para guardar el valor inner, por lo que este continua siendo O(n2|P |).

El algoritmo inner sigue la misma estructura del algoritmo Earley que se puede ver en laFigura 2.1, solo que cada operación deberá implementar los cálculos para cada ítem tal comose ha definido.

2.4.2. Algoritmo de interpretación outer.

Otro algoritmo de interpretación de la cadena usando una GIE es el algoritmo outer. Estealgoritmo cuando se combina con el algoritmo inner abre la interesante posibilidad de extraerinformación estadística sobre la cadena que se está procesando. Específicamente permite esti-mar el uso de las reglas y de los no terminales que son usados en las derivaciones de la cadena.

Para tal fin la probabilidad outer para cada ítem debe ser definida de manera tal que cubrael valor de probabilidad no cubierta por el valor inner del ítem. Para darnos una idea del valorque buscamos se puede ver la Figura 2.2.

A

PSfrag replacements

$

γ( ji A→ ν · µ)

β( ji A→ λ · µ)

a1, . . . . . .. . . ai, ai+1 aj , aj+1 an

ν µ

Figura 2.2: Esquema que muestra el valor outer β( ji A→ λ ·µ) como un complemento al valor

inner γ( ji A→ ν · µ).

Procedemos entonces a definir el valor de la probabilidad outer.

Definición 2.35. Llamaremos probabilidad outer de un ítem a:

β( ji A→ λ · µ) =

ν : ji A→ ν · µ

Pr(S∗⇒ a1 . . . aiAaj+1 . . . an |

ji A→ ν · µ)

Esto es, la probabilidad outer acumula la suma de las probabilidades de todas las deriva-ciones parciales que [Sto95]:

1. comienzan con el ítem inicial ( 00 $→ ·S),

2. generan el prefijo a1, . . . , ai,

22 CAPÍTULO 2. INTERPRETACIÓN DE UNA CADENA MEDIANTE UNA GIE

3. pasan a través del ítem ii A→ ·νµ, para algún ν,

4. generan el sufijo, aj+1 . . . an a partir del ítem ji A→ ν · µ, y

5. terminan en el ítem final ( n0 $→ S·).

De aquí en adelante nos referiremos al valor de la probabilidad outer simplemente comoouter.

Obsérvese que dado que outer es el complemento de inner, la probabilidad de seleccionarla regla no se acumula en outer pues este valor ya se acumuló para inner; de hecho, la definiciónno hace referencia a la parte izquierda del punto. Todos los ítemes con subíndices i, j, con elmismo no terminal izquierdo e igual parte derecha del punto, comparten la misma probabilidadouter. Un caso particular de esto son todos los ítemes punto final j

i A→ σ· para cualquier σ.Para estos ítemes, el cálculo de inner tuvo que acumular la probabilidad de las derivacionesparciales de la subcadena ai+1 . . . aj en cada ítem, por lo que su complemento, outer, es igualpara todos.

Otro caso particular es el valor outer para los ítemes con el punto al inicio del consecuente:

β( ii A→ ·λ) =

ii A→ ·λ

Pr(S∗⇒ a1 . . . aiAai+1 . . . an |

ii A→ ·λ)

= Pr(S∗⇒ a1 . . . aiAai+1 . . . an |

ii A→ ·λ), (2.6)

este valor es la probabilidad de todas las derivaciones de la cadena que pasan justo por el ítemi

i A→ ·λ.

Formalmente la siguiente definición recurrente computa el valor outer para cada ítem.

β( n0 $→ S·) = 1,

β( ji A→ λ · δµ) =

β( j+1i A→ λδ · µ) si δ = aj ,

∑nk=j+1 β( k

i A→ λδ · µ)∑

B RU (δ,B)

γ( kj B → σ·) si δ ∈ N,

∑B∈N

∑ik=0 γ( i

k B → σ · Cσ′)

β( jk B → σC · σ′)RU (C,A) si δµ = ε,

0 ≤ i < j ≤ n,

(2.7)

con esto, Pr(x|Ge) = β( n0$→ S·).

El coste espacial del algoritmo outer es O(n2|P |) y el coste temporal es O(n3|P |).

Desde el punto de vista de las tres operaciones de Earley, la primera parte de la expresióncorresponde a la inicialización, la segunda parte (si δ = aj ) se corresponde con una “inversa

2.4. INTERPRETACIONES ESTOCÁSTICAS BASADAS EN EL ALGORITMO DE EARLEY23

” del scanner; y las dos últimas subexpresiones corresponden a la distribución hecha en la“inversa” del completer (δ ∈ N y δµ = ε).

Para entender como se deben realizar estos cálculos para cada ítem veamos a continuaciónlos detalles de como se debe llevar a cabo el proceso.

Primero observemos que para el cálculo de la expresión (2.7) se necesita tener el valorinner, por lo que el algoritmo para outer se debe ejecutar a continuación del algoritmo deinner. Además, como el valor outer, es el complemento del valor inner para cada ítem, estealgoritmo debe “devolverse” calculando los respectivos complementos.

Desde la óptica de los ítemes, el algoritmo inner construye árboles partiendo de las hojas(ítemes con el punto al comienzo del consecuente ) hasta llegar a la raíz (ítemes con el puntoal final del consecuente). Obsérvese además que cada nuevo ítem es creado a partir de unsolo ítem predecesor (por la operación scanner) o por pares de ítemes predecesores (por laoperación completer). Con lo cual el árbol se construye como un árbol binario1 ascendente,donde los predecesores son los “hijos” y el ítem resultante es el “padre”.

Con este punto de vista, veamos que debe hacer cada operación en el algoritmo outer pararecorrer el árbol en forma descendente.

Inverso del predictor

Dado que esta operación introdujo los ítemes iniciales, estos se constituyen en las hojasdonde termina el proceso descendente, por lo que no es necesario realizar ninguna acción extra.

Inverso del scanner

En este caso, dado que tanto el ítem hijo como el ítem padre tienen el mismo valor innersu complemento es el mismo, por lo que el operador inverso del scanner devolverá al ítem hijosu mismo valor outer.

Inverso del completer

Dado que el valor inner para cada ítem padre fue calculado a partir de un conjunto deparejas hijos, esta operación debe distribuir el respectivo valor outer a cada pareja hijos. Elvalor distribuido a cada miembro de la pareja de hijos se calcula en términos del valor outerdel ítem padre y el valor inner del otro ítem hijo.

Consideremos un ejemplo sencillo de la operación inversa del completer, supongamos quese tienen dos ítemes con valores inner γ1 y γ2 respectivamente, supongamos además que estosítemes generaron un ítem padre. Este ítem padre tendrá un valor inner γp = γ1γ2R

γ1,γ2

U , dondeRγ1,γ2

U representa el valor estocástico de la relación unitaria utilizada por el completer paracalcular el valor inner al ítem padre. Si consideramos que el ítem padre recibe un valor outer,βp que debe distribuir entre sus dos ítemes hijos. Este asignará al primer ítem hijo el valorouter γ2βpR

γ1,γ2

U , y al segundo le asignará γ1βpRγ1,γ2

U . Obsérvese que si multiplicamos el

1En realidad es un grafo dirigido acíclico

24 CAPÍTULO 2. INTERPRETACIÓN DE UNA CADENA MEDIANTE UNA GIE

valor inner y outer para cada uno de los ítemes esta expresión tiene la misma forma para lostres:γ1γ2R

γ1,γ2

U βp. El ejemplo con más detalle se puede ver en en la Figura 2.3. Es importantenotar que en general cada ítem puede contribuir en el cálculo del valor inner de muchos otrosítemes, por lo tanto su valor outer final es un acumulado de todos los valores outer que computacon cada nodo padre.

PSfrag replacementsProceso inner Proceso outer

γ( ki A→ λ · Cµ) γ( j

k D → ν·)

γ( ji A→ λC · µ) = γ( k

i A→ λ · Cµ)γ( jk D → ν·)RU (C,D)

β( ji A→ λC · µ)

β( ki A→ λ · Cµ) = β( j

i A→ λC · µ)γ( jk D → ν·)RU (C,D)

β( jk D → ν·) =

β( ji A→ λC · µ)γ( k

i A→ λ · Cµ)RU (C,D)

Figura 2.3: Distribución del valor outer de un ítem entre un par de ítemes que participaron enel cálculo de su valor inner.

Respecto al ordenamiento de las operaciones dentro del algoritmo, estas se realiza de mane-ra similar al algoritmo de Earley, pero con los límites de los ciclos invertidos (ver Figura (2.4)).En esta figura, la operación completerInverso y scannerInverso hacen referencia a las opera-ciones inversas del scanner y del completer previamente discutidas.

β( n0$→ S·)← 1para j ← n hasta 1 hacer

para i← 0 hasta j − 1 hacerLi← Li ∪ completerInverso(Li , Lj)

fin paraLj−1← scannerInverso(Lj , aj)

fin para

Figura 2.4: Esquema del algoritmo outer

2.4.3. La mejor interpretación de una cadena

Encontrar el mejor análisis de una cadena en particular es considerado como la clave parala desambigüación de oraciones en el procesamiento del lenguaje natural, también se ha usadoen tareas de reconocimiento de habla [CJ98], y en tareas de etiquetado [Cha96, LBS03d].

2.4. INTERPRETACIONES ESTOCÁSTICAS BASADAS EN EL ALGORITMO DE EARLEY25

Para obtener la mejor interpretación de una cadena se puede seguir un esquema de viterbi.Para el caso de GIE generales, este algoritmo tiene el atractivo que se puede realizar con muypocas modificaciones a partir del algoritmo de inner. Obsérvese que tal como se planteo elalgoritmo de Earley, este precalcula las reglas unitarias, de igual manera lo hace el algoritmoinner, por lo que al seguir el algoritmo de la mejor interpretación el mismo esquema, tambiénlo hace. En este apartado explicaremos como extraer la mejor derivación de manera que seincluyan las reglas unitarias.

Al valor de probabilidad de la mejor derivación le llamaremos simplemente viterbi, dadoque es el nombre que se le da en [Sto95], en donde se definió esta cantidad para las GIEgenerales.

Para definir la expresión recurrente para el cálculo de viterbi debemos observar que sólo laoperación completer genera un ítem a partir de múltiples parejas, por lo que debe seleccionarentre todos los pares cual es el de máxima probabilidad; ni el predictor ni el scanner tienela opción de escoger entre varias alternativas para generar el mismo ítem. Por eso la únicavariación de la expresión para el calculo viterbi respecto al cálculo de inner se refleja en laoperación completer.

La expresión recurrente que define el cálculo de la probabilidad viterbi queda entoncesdefinida así [LBS03d]:

γ( jj A→ ·η) = p(A→ η),

γ( jk A→ λδ · µ) =

γ( j−1k A→ λ · δµ) si δ = aj,

maxi=k...j−1 γ( ik A→ λ · δµ)max∀C∈N RU (δ, C)

γ( ji C → σ·) si δ ∈ N,

0 ≤ k < j ≤ n.

(2.8)con esto, P r(x|Ge) = γ( n

0$→ S·).

La complejidad temporal y espacial de este algoritmo es la mismas que para el algoritmoinner; esto es: O(n3|P |) para el coste temporal y O(n2|P |) para el coste espacial.

En esta expresión la primera subexpresión corresponde al operador predictor, la segundasubexpresión corresponde al scanner (δ = aj) y la tercera con el completer (δ ∈ N ).

Este algoritmo, al igual que inner, sigue el mismo esquema del algoritmo de Earley pre-sentado en la Figura 2.1. Pero la operación completer se modifica de manera que, en lugar desumas, realice maximizaciones; y en lugar de utilizar la relación estocástica unitaria RU (A,B),use la probabilidad de la mejor relación unitaria RU (A,B).

Recuperación del mejor árbol de análisis

La mejor derivación para una GIE general tiene la forma de un árbol n-ario. En esta es-tructura los nodos internos son los no terminales y las hojas los terminales. Por esto se podría

26 CAPÍTULO 2. INTERPRETACIÓN DE UNA CADENA MEDIANTE UNA GIE

pensar que la recuperación del árbol utilizará un algoritmo para este tipo de árboles. Sin em-bargo, internamente lo que ha construido el algoritmo de viterbi es un árbol binario de ítemes.Esto es, cada nodo interno es un ítem que ha sido generado en algunos caso por un solo hijo (losgenerados por las operaciones predictor o scanner) o por dos hijos (generados en la operacióncompleter). En este árbol binario las hojas son los ítemes punto inicial, los nodos internos sonlos demás ítemes, y el nodo raíz es el ítem final ( n

0 $→ S·)2.Por lo tanto, la recuperación del árbol más probable de una cadena sigue el flujo de control

de un algoritmo de recorrido preorden para árboles binarios.Un detalle que debemos tener en cuenta es que el algoritmo viterbi que hemos presentado

agrupa las probabilidades y las derivaciones generadas por las reglas unitarias en la operacióncompleter. Cuando el algoritmo detecte que hay que incluir las reglas unitarias, hará uso delmejor camino estocástico entre cualquier par de no terminales. Para un par de no terminales Ay B DU (A,B) = A→ A1, A1 → . . . BK → B (Ver definición (2.33) ).

El proceso recurrente para extraer el árbol se inicializa con el último ítem generado: Mejor-Derivacion( n

0$→ S·). Si asumiendo que el parámetro de entrada es un ítem, ese se comportacomo se describe a continuación:

1. Si el ítem tiene su punto al comienzo del consecuente (ej: ii A→ ·λBµ), significa que

ya termino el análisis para la regla que este representa, entonces:retornar subárbol A

2. Si el símbolo izquierdo al punto es un terminal (ej: ik A→ λa · µ) entonces:

a) calcular recursivamente: T ←MejorDerivacion ( i−1k A→ λ · aµ).

b) retornar el árbol T con el terminal a como hijo más derecho.

3. Si el símbolo a la izquierda del símbolo es un no terminal (ej: jk A→ λB · µ) entonces:

a) calcular recursivamente: TG ←MejorDerivacion ( ik A→ λ ·Bµ)

b) encontrar el ítem ji C → σ· que lo completo.

c) calcular recursivamente: TC ←MejorDerivacion ( ji C → σ·)

d) si B = C entonces:retornar TG con el subárbol TC como su hijo más derecho. Si B 6= C entonces:

1) calcular las relaciones unitarias entre los dos: DU (B,C) = B → B1, B1 →. . . BK → C

2) colocar la secuencia de no terminales izquierdos de DU (B,C) como hijo másderecho de TG

3) colocar TC al final de la secuencia.

en ambos casos retorne el árbol TG

2Aquí de nuevo la estructura es un grafo dirigido acíclico

2.4. INTERPRETACIONES ESTOCÁSTICAS BASADAS EN EL ALGORITMO DE EARLEY27

2.4.4. Interpretación estocástica usando forward

En este apartado calcularemos la interpretación estocástica de la cadena realizando elcomputo incrementalmente a partir de los prefijos de la cadena. La probabilidad del prefijoes útil porque, entre otras cosas, conocido su valor de probabilidad es posible predecir estocás-ticamente la ocurrencia de la siguiente palabra de la cadena [JL91]. Esta predicción constituyeel problema central de la interpretación en el modelado de lenguaje.

Para calcular este valor debemos dar primero una definición en términos de ítemes, que sonlos objetos que maneja el algoritmo de Earley, y luego definiremos la expresión de cálculo paralos ítemes generados en cada operación.

Definición 2.36. Llamaremos probabilidad forward de un ítem a:

α( ji A→ λ · µ) = Pr(S

∗⇒ a1 . . . aj . . .| j

i A→ λ · µ).

Este valor corresponde a la la suma de las probabilidades de todas las derivaciones par-ciales que: comienzan con el ítem 0

0 $→ ·S, terminan con el ítem ji A→ λ · µ y generan la

subcadena inicial a1 . . . aj . . . La definición no hace referencia al índice i del ítem en cuestión,esto significa que todos los ítemes independientemente de este valor deberán llevar el acumula-do histórico de las derivaciones parciales que van desde el inicio hasta justo ese ítem. De aquíen adelante nos referiremos a este valor de probabilidad simplemente como forward.

Como estamos interesados en calcular la probabilidad de que la subcadena a1 . . . aj seael prefijo de una cadena generada por una GIE, entonces debemos acumular la suma de todaslas derivaciones parciales que van desde el inicio hasta llegar a aj . De acuerdo a la definiciónforward, este valor está representado en todos los ítemes que han generado la entrada hasta aj .Para acumularlos en un solo valor utilizaremos la siguiente expresión:

Pr(S∗⇒ a1 . . . aj . . .) =

i

λ, µ : ji A→ λaj · µ

α( ji A→ λaj · µ). (2.9)

Recordemos que en el algoritmo de Earley la operación encargada de correr el punto ala derecha de un terminal es la operación scanner, además sabemos que esta operación alincrementar el valor del índice j los ítemes los debe ubicar en una nueva lista. Por lo tanto, paracalcular este valor solo es necesario sumar todos los ítemes que estén en la lista Lj después dehaber ejecutado la operación scanner de símbolo aj de la cadena de entrada.

A continuación se detalla la expresión de cálculo para los ítemes generados por cada ope-ración:

Predictor

Dado que esta operación introduce los nuevos ítemes al análisis, éstos deben acumularla probabilidad histórica de las derivaciones parciales desde el origen hasta el punto en que

28 CAPÍTULO 2. INTERPRETACIÓN DE UNA CADENA MEDIANTE UNA GIE

ellos fueron escogidos. Para un ítem nuevo, los valores históricos se encuentran justamente enla probabilidad forward de los ítemes que él está intentando extender. Como algunos ítemespueden ser generados a través de la relación transitiva left-corner, esta operación hará uso dela respectiva versión estocástica definida en (2.29). La siguiente expresión computa el valorforward para todos estos nuevos ítemes:

α( jj A→ ·σ) =

j−1∑

k=0

λ, µ : jk B → λ · Cµ∈Lj

α( jk B → λ · Cµ) RL(C,A) p(A→ σ).

Scanner

Tal como se comentó al definir el valor inner, esta operación es determinista una vez losítemes han sido introducidos por el predictor y se tiene el símbolo actual en la cadena de en-trada. Por lo tanto, los nuevos ítemes generados con esta operación conservan el valor forwardde sus ítemes generadores:

α( ji A→ λa · σ) = α( j−1

i A→ λ · aσ).

Completer

Al igual que con el cálculo de la probabilidad inner, esta operación intenta correr el puntoa la derecha de un no terminal de un ítem. Para eso, debe incorporar al cálculo un factor conla probabilidad las las derivaciones parciales que se generan a partir de este no terminal. Estevalor es calculado con la expresión (2.1). Con la relación unitaria estocástica, RU (A,B), laoperación cubre las derivaciones parciales generadas por las reglas unitarias entre el par de noterminales. La expresión forward para los ítemes de esta operación queda así:

α( jk A→ λB · µ) = α( i

k A→ λ · Bµ)∑

C

RU (B,C)∑

σ : ji C → σ·

γ( ji C → σ·)

A manera de resumen se muestra la expresión recurrente que computa el valor forward paracada ítem:

α( jj A→ ·σ) =

∑j−1i=0

∑α( j

i B → λ · Cµ) RL(C,A) p(A→ σ),j

i B → λ · Cµ ∈ Lj

α( jk A→ λδ · µ) =

α( j−1k A→ λ · δµ) si δ = aj ,

∑j−1i=k α( i

k A→ λ · δµ)∑

C RU (δ, C)∑

γ( ji C → σ·) si δ ∈ N,

σ : ji C → σ·

0 ≤ k < j ≤ n,

(2.10)

2.4. INTERPRETACIONES ESTOCÁSTICAS BASADAS EN EL ALGORITMO DE EARLEY29

con esto, Pr(x|Ge) = α( n0$→ S·).

El coste temporal y espacial del algoritmo forward es O(n3|P |) y O(n2|P |) respectiva-mente.

2.4.5. Aspectos de implementación del algoritmo inner

Como es bien conocido, los algoritmos de interpretación para las GIE que utilizan técni-cas de programación dinámica bajan el coste temporal de un orden exponencial a un ordencúbico, sin embargo, este coste continua siendo aún muy alto para muchas tareas. Por eso, laimplementación para gramáticas incontextuales es un tema que ha sido estudiado por algu-nos autores [AU72, GHR80, Moo00, Val75]. Para gramáticas estocásticas se pueden encontraralgunos comentarios en [Sto95].

En esta sección comentaremos las operaciones predictor y completer, que son las opera-ciones que más pueden ayudar a bajar el coste empírico del algoritmo. Dado que el algoritmobase de todos es el inner las mejoras que se logren en este algoritmo son igualmente aplicablesa los otros algoritmos de interpretación.

Predictor

Esta operación es muy importante en la reducción de costes. Aquí comentaremos algunosmétodos básicos que contribuyen a ello. Estos métodos son aplicados para las gramáticas engeneral independientemente de si son o no estocásticas.

La mas conocida, es la técnica que se basa en revisar uno o más símbolos más adelantede la posición actual sobre la entrada y con ello restringir el ingreso de algunos ítemes alanálisis [AU72]. Con menos ítemes en el espacio de búsqueda, el trabajo para el scanner y elcompleter se reduce, incluso hasta afectar el coste global del algoritmo para algunas gramáticas.

Otra técnica se basa en encontrar de manera eficiente todo el conjunto de no terminales apartir de los cuales se pueden lanzar nuevas reglas en esta operación. Para ello se recorren todoslos ítemes de la lista registrando los no terminales a la derecha del punto, y luego se debencalcular la clausura transitiva de este conjunto. Este cálculo se realiza en orden cuadrático apartir de la relación A

∗⇒U B, pero si esta relación esta representada en forma de bits, se puede

realizar en orden “lineal” utilizando operaciones tipo AND [GHR80].También es útil notar que dado que el algoritmo inner hace uso de la relación estocástica

transitiva entre no terminales, no es necesario incluir en las listas de análisis las reglas unitarias,los valores de probabilidad de estas reglas ya están acumulados en esta relación.

Completer

En el algoritmo de Earley la operación completer es la que, en general, determina el costedel algoritmo. Aquí proponemos dos aspectos que permiten acelerar esta operación, uno es elorden para realizar los cálculos y el otro es la estructura de datos.

30 CAPÍTULO 2. INTERPRETACIÓN DE UNA CADENA MEDIANTE UNA GIE

Para el computo del completer nos basaremos en dos supuestos: primero, la operación paralos ítemes de una lista Lj , se realiza sucesivamente a partir de la lista inmediatamente anteriorhasta llegar a la lista L0; y segundo, que es posible precomputar y acumular las dos sumas queson factores en la expresión del completer entre dos listas.

En la siguiente expresión se muestran los factores que intentamos agrupar:

γ( jk A→ λB · µ) = γ( i

k A→ λ ·Bµ)∑

C

RU (B,C)∑

σ:j

i C → σ·

γ( ji C → σ·)

︸ ︷︷ ︸subcad(C,i)︸ ︷︷ ︸

acum(B)

.

En esta expresión subcad(C, i) es una tabla en donde para las entradas C e i, se acumularáel valor Pr(C

∗⇒ ai+1 . . . aj), y acum(B) es un vector en el que se acumulará la relación unita-

ria transitiva estocástica entre el no terminal B y todos los no terminales del factor subcad(C, i)para un determinado entero i.

Para acumular los valores de probabilidad de subcad para una lista Lj basta con revisartodos los ítemes con el punto al final del consecuente que se generen mientras se crea la propialista. Esto es, cada vez que se genera un ítem por scanner o por completer se revisa si tiene elpunto al final del consecuente, de ser así su probabilidad se acumula en la respectiva casilla dela tabla.

Es importante notar que el orden en el que se procesan las listas garantiza que cuando Lj

se vaya a procesar con una lista anterior Li, en la tabla subcad ya se encuentre completamenteacumulada la probabilidad de la subcadena ai+1 . . . aj , para todo no terminal. Para entender es-te hecho se debe observar que los ítemes en las listas Lk, con k < i no generan subcadenas quecomiencen en i + 1 y por lo tanto no aportarán masa de probabilidad a los valores previamenteacumulados.

Con lo anterior, lo único que se requiere ahora es el cómputo del vector acum. Esto selogra calculando la siguiente expresión:

acum(B) =∑

C

RU (B,C)subcad(C, k).

El coste temporal del calculo de esta expresión es O(|N |2).Con el vector acum, el computo de la expresión del completer entre listas para un ítem se

ve reducido a una consulta en un vector y a una multiplicación.

Respecto a la estructura de datos, debemos considerar que el operador completer necesitarecorrer cada lista previa en busca de iteres que serán insertados en la lista actual, es importanteque los recorridos y las búsquedas en las listas previas sean eficientes y que las inserciones enla lista actual también lo sean. Una solución para cumplir ambos requisitos es utilizar dos tiposdistintos de estructuras de datos: una para las listas anteriores y otra para la lista actual.

Para la lista actual, se puede utilizar una matriz de tamaño |P ′| filas por n columnas, dondeP ′ es la cantidad de ítemes que tiene la gramática, y n es la talla de la cadena. Para utilizar

2.5. CONCLUSIONES 31

la matriz basta numerar los ítemes que generan las reglas de la gramática. En cada casilla seacumulará la probabilidad, accediendo por el número asignado al ítem y por el primer índicede este.

Para las listas anteriores se puede utilizar una estructura de datos compacta, dado que estasno serán modificadas. Para esto es recomendable utilizar vectores dinámicos. De esta formacada identificador de ítem tendrá un vector de parejas de tamaño l, cada pareja guardará elvalor de la probabilidad y el primer indicador del ítem, el valor l , estará determinado por lacantidad de ítemes con k distintos que tiene el ítem en cuestión.

Cada vez que se termine de procesar la lista Lj , los valores de la matriz se acumulan enla estructura de datos anterior, dejando la matriz lista para procesar Lj+1. Para no tener querecorrer todas las casillas de la matriz, es útil marcar aquellos identificadores de ítemes quetienen algún valor en ella.

En unas pruebas preliminares, se utilizó una gramática masivamente ambigua de 500 reglas,con 14 no terminales y 45 terminales. Con estas modificaciones al cálculo del completer seprodujo una disminución del 50% en tiempo respecto a cuando se utilizaba la misma estructurade datos para todas las listas y no se optimizaba el cálculo de la probabilidad de cada ítem.

2.5. Conclusiones

En este capítulo hemos estudiado el problema de la interpretación de una cadena dada unagramática. Para resolver este problema para gramáticas generales se estudio el algoritmo deEarley.

El Algoritmo de Earley fue presentando en termino de tres operaciones clásicas, pero éstasse definieron en términos de conjuntos. Esto permitió extender fácilmente el algoritmo a unaversión estocástica.

Se formaliza el cómputo de la interpretación estocástica para los algoritmos de estimacióninner, outer, viterbi y forward.

Se comentaron algunos aspectos de implementación que pueden ayudar a reducir el tiempode procesamiento de una cadena utilizando el algoritmo de inner. Dado que este algoritmo esla base para los otros, los demás algoritmos también se ven beneficiados.

Algunas formalizaciones sobre las expresiones de cómputo de los algoritmos de interpre-tación fueron presentadas por el autor en [LBS03d].

En el siguiente capítulo nos concentraremos en el problema de la estimación para las GIEgenerales, como veremos el algoritmos inner y el outer, ayudarán a definir la expresión decálculo que resuelve este problema.

Capítulo 3

Estimación de las GIE en formatogeneral

En este capítulo presentaremos varios métodos para estimar las probabilidades de las GIEgenerales a partir de la estimación de sus probabilidades. Todos estos algoritmos serán presen-tados de manera unificada bajo el marco clásico de las transformaciones crecientes. Para ellose derivará la expresión de cómputo para estimar las GIE generales. También se revisará elproblema de la inicialización y la consistencia para éstos modelos.

3.1. Introducción

El objetivo de la estimación de una GIE es encontrar un conjunto de probabilidades para lasreglas de la gramática que más se ajuste a la función de distribución de probabilidades definidapor una muestra estocástica. Este problema lo podemos formalizar como sigue:

Dado un lenguaje estocástico Le = (L,Φ) donde L es un lenguaje y Φ una función dedistribución de probabilidad sobre L, y dado una muestra de entrenamiento Ω; el proceso deestimación consiste en inferir los parámetros p de Ge con el objeto de representar a Φ pormedio de la probabilidad de cada cadena de la muestra (Definición 2.21). Asumiendo que Ωes una muestra representativa hecha a partir de un multiconjunto de L en concordancia con Φ,y asumiendo que Φ puede ser representada por Ge, la estimación de los parámetros p se puederealizar por medio de la siguiente expresión:

p = arg maxp

fp(Ω), (3.1)

donde fp() es una función criterio a optimizar dependiente de la muestra, y definida en términosdel conjunto de probabilidades. Así pues, para abordar el problema de la estimación debemosdefinir dicha función criterio, y algún método de optimización que nos permita obtener p. Paranuestros propósitos usaremos el marco de las transformaciones crecientes [BS68, Cas96] paraoptimizar la función objetivo. Este método tiene como ventaja que se puede definir fácilmenteuna expresión para estimar las probabilidades de una GIE y que garantiza el incremento de la

33

34 CAPÍTULO 3. ESTIMACIÓN DE LAS GIE EN FORMATO GENERAL

función a optimizar. Por otro lado, este método es una técnica de descenso por el gradientey por lo tanto no garantiza un máximo global; además, el máximo que obtiene depende engran medida de los valores iniciales. El marco de las transformaciones crecientes se basa en elsiguiente teorema:

Teorema 3.1.1 ([BE67]). Sea P (Θ) un polinomio homogéneo con coeficientes no negativosde grado d en sus variables Θ = Θij. Sea θ = θij un punto del dominio estocásticoD = θij | θij ≥ 0,

∑qi

j=1 θij = 1, i = 1, . . . , p i j = 1, . . . , qi, y sea Q(Θ) un punto de Ddefinido como:

Q(Θ)ij =θij(∂P/∂Θij)θ∑qi

k=1 θik(∂P/∂Θik)θ,

tal que ∀i∑qi

k=1 θik(∂P/∂Θik)θ 6= 0. Entonces, P (Q(θ)) > P (θ) excepto si Q(θ) = θ.

Obsérvese que las funciones de probabilidad sobre las reglas que definen la GIE cumplenla condición de dominio estocástico asociado a D y por lo tanto son un caso particular delteorema (3.1.1).

Respecto a la función a optimizar, esta se define para una GIE Ge, una muestra Ω y unconjunto de derivaciones ∆Ω como:

Pr(Ω,∆Ω | Ge) =∏

x∈Ω

Pr(x,∆x | Ge). (3.2)

Esta expresión define una familia de funciones dependientes del conjunto ∆x. Si este con-junto contiene todas las derivaciones de todas las cadenas de la muestra, la función que seoptimiza es la verosimilitud de la muestra; si ∆x solo contiene el mejor análisis de cada cade-na, la función que se optimiza es la verosimilitud de la mejor derivación. Además se puedendefinir otros conjuntos de derivaciones en función de ∆x. En este trabajo se definirán algunosconjuntos basados en la información estructural que pueda estar presente en la muestra.

Definamos ahora el conjunto GGIE(G) = Ge|Ge = (G, p). Puesto que la función (3.2)es un polinomio que cumple las condiciones del Teorema (3.1.1), se puede definir una trans-formación creciente: QT : GGIE(G)→ GGIE(G), en la siguiente forma:

Q(Pr(A→ α)) = Pr(A→ α) =Pr(A→ α)

(∂ ln Pr(Ω|Ge)

∂p(A→α)

)

∑(A→α)∈ΓA

p(A→ α)(

∂ ln Pr(Ω|Ge)∂p(A→α)

) .

Derivando la expresión anterior y utilizando (2.20) y (2.21) la expresión que define la trans-formaciones crecientes [BS68, Cas96] para la función (3.2) es la siguientes (ver el Apéndice):

p(A→ λ) =

∑x∈Ω

1Pr(x,∆x|Ge)

∑∀dx∈∆x

N(A→ α, dx) Pr(x, dx | Ge)∑

x∈Ω1

Pr(x,∆x|Ge)

∑∀dx∈∆x

N(A, dx) Pr(x, dx | Ge). (3.3)

El método de las transformaciones crecientes nos permite obtener la estimación de lasprobabilidades de una GIE Ge = (G, p) a partir de la expresión (3.3). Adicionalmente, la

3.1. INTRODUCCIÓN 35

convergencia de éste proceso de estimación, está garantizada ya que el incremento de la funciónde mérito, (Pr(Ω,∆Ω | Ge) ≥ Pr(Ω,∆Ω | Ge)), fue demostrado en [BS68].

De esta manera, el método de estimación consiste en la aplicación iterativa de la anteriortransformación sobre una GIE inicial hasta que se logre un máximo local. Dado que éste es unmétodo de estimación de descenso por gradiente, las probabilidades iniciales tienen una granincidencia sobre el máximo logrado. En cada paso, el conjunto ∆x es computado para cadax ∈ Ω, de acuerdo al criterio seleccionado.

Utilizando la expresión (3.3) se pueden definir distintos algoritmos de estimación depen-diendo de cómo se defina el conjunto ∆x. Así cuando ∆x está compuesto por todas las posiblesderivaciones de la muestra, podemos definir el algoritmo inner-outer [Sto95]. Cuando ∆x estácompuesto por la mejor derivación entre todas las posibles, entonces se define el algoritmoVS [LBS03d]. Cuando se dispone de una muestra parentizada, entones se puede definir unalgoritmo similar al inner-outer que tiene en cuenta los paréntesis para seleccionar las deri-vaciones [LBS03c], y un algoritmo similar al VS que igualmente considera la información delos paréntesis para seleccionar las mejores derivaciones [LBS03c]. Esos algoritmos son des-critos en detalle en las siguientes secciones. Antes de eso comentaremos la propiedad de laconsistencia.

La consistencia de los modelos estimados

Una cuestión fundamental relacionada con cualquier mecanismo de aprendizaje de las GIEy en particular con los algoritmos de estimación es garantizar que los modelos obtenidos gene-ran un lenguaje incontextual estocástico; esto es, que las GIE son consistentes. El cumplimientode esta propiedad es esencial ya que no sólo confirma la validez de los modelos estimados, sinotambién la de los propios algoritmos de estimación.

En [Mar74, CPG83] se demostró el cumplimiento de esta propiedad en condiciones muyrestrictivas, esto es, para gramáticas no ambiguas cuyas probabilidades eran estimadas a partirde las frecuencias relativas obtenidas a partir de una muestra. En [Sán99] se demostró estamisma propiedad de una manera lo suficientemente amplia para cubrir las GIE generales.

Teorema 3.1.2. Sea Ge = (G, p) una GIE y sea Ω una muestra de L(G). Si Ge = (G, p) esuna GIE obtenida a partir de Ge aplicando la transformación descrita en (3.3), entonces Ge esconsistente.

En este teorema es importante resaltar que la propiedad de la consistencia se cumple des-de la primera iteración. Además, con este resultado se pueden derivar algunas propiedadesimportantes que relacionan la muestra de aprendizaje con el lenguaje generado por el mode-lo [Sán99].

Corolario 3.1.1. Sea una GIE Ge = (G, p) y sea Ω una muestra de L(G). Si Ge = (G, p)es una GIE que ha sido obtenida a partir de Ge aplicando la transformación descrita en (3.3),entonces se cumplen las siguiente ecuaciones:

36 CAPÍTULO 3. ESTIMACIÓN DE LAS GIE EN FORMATO GENERAL

1. La longitud esperada de una cadena en la derivación generada por Ge es:

LEDGe(Ω) =

∑x∈Ω

1Pr(x,∆x|Ge)

∑dx∈δx

Pr(x, dx | Ge)|dx|

|Ω|.

2. La longitud esperada de una cadena generada por Ge es:

LECGe(Ω) =

∑x∈Ω |x|

|Ω|.

Esto es, LECGe(Ω) es igual a la longitud promedio de las cadenas en Ω.

3. El número esperado de veces que un terminal aparece en las cadenas generados por Ge

se conoce como densidad relativa del terminal y se define como:

δ(ai,Ω) =

∑x∈Ω N(ai, x)∑

x∈Ω |x|.

donde N(ai, x) representa el número de veces que el terminal ai aparece en la cadena x.Esto es δ(ai,Ω), es igual al número promedio de veces que el terminal aparece en Ω

3.2. Algoritmo de estimación inner-outer

En este apartado definiremos un algoritmo de estimación que considera todas las derivacio-nes de la muestra a partir de la expresión (3.3). Para ello definimos el conjunto de derivaciones∆ = Dx. La expresión que derivaremos se basa en los algoritmos del Capítulo 2.

Para definir la expresión de estimación es importante notar que en la expresión (3.3), el nu-merador representa el valor esperado de la utilización de una determinada regla en la derivaciónde una cadena, y su denominador representa el valor esperado de la utilización del antecedentede la misma regla en la derivación de la cadena. Por eso vamos a revisar primero la utilizaciónde la regla en una posición i para todas las derivaciones de la cadena y luego extenderemos laexpresión resultante para todas las posiciones de la cadena.

Consideremos que tenemos una regla A→ λ ∈ Ge, y un conjunto de derivaciones Dx endonde se encuentra seleccionada esta regla. Supongamos que el algoritmo inner seleccionó laregla en la posición i para extender las derivaciones a partir de la posición i + 1 de la cadenade entrada (ver Figura 3.1) y para tal efecto introdujo el ítem i

i A→ ·λ al análisis.La probabilidad de seleccionar este ítem en la posición i es:

Pr(S∗⇒ a1, . . . aiAai+1 . . . an|

ii A→ ·λ)p(A→ λ).

El primer factor de esta expresión se corresponde con la expresión que se derivó de ladefinición de probabilidad outer para un ítem inicial (ver expresión (2.6) y la definición deprobabilidad outer para un ítem en (2.35)). El segundo factor por su parte se corresponde conla probabilidad inner de un ítem inicial, por lo tanto:

3.3. ALGORITMO DE ESTIMACIÓN VS 37

PSfrag replacements

$→ ·S A→ ·λ $→ S·

a1 ai ai+1 an. . . . . .

. . .

. . . . . .

. . .. . .

. . .

...

...

...

...

Figura 3.1: Derivaciones en las que ha seleccionado la regla A→ λ en la posición i.

Pr(S∗⇒ a1 . . . aiAai+1 . . . an|A→ λ)p(A→ λ). = β( i

i A→ ·λ)γ( ii A→ ·λ).

Esta expresión acumula la suma de todas las probabilidades de todas las derivaciones deDx que seleccionaron la regla A→ λ en la posición i. Si se suma para todas las posiciones sepuede reescribir el numerador de la expresión (3.3); y si se suma para todas las posiciones ypara todas las reglas con el mismo no terminal izquierdo, se puede reescribir el denominador.La expresión (3.3) para toda regla en Ge queda reescrita como :

p(A→ λ) =

∑x∈Ω

1Pr(x|Ge)

∑n−1i=0 β( i

i A→ ·λ)γ( ii A→ ·λ)

∑x∈Ω

1Pr(x,|Ge)

∑λ′

∑n−1i=0 β( i

i A→ ·λ′)γ( ii A→ ·λ′)

. (3.4)

Dado que este algoritmo utiliza las definiciones inner y outer nos referiremos a la expre-sión (3.4) como estimación inner-outer. Una explicación que llega a esta misma expresión sepresenta en [Sto95], el método utilizado para derivarlo fue el algoritmo E-M.

Para computar la expresión inner-outer solo es necesario revisar las listas de análisis com-putando los valores inner y outer de los ítemes generados por la operación predictor.

El coste computacional de la transformación (3.4) es O(n|P |). Por otro lado, dado que esnecesario computar el algoritmo inner y a continuación el algoritmo outer para cada cadena dela muestra, el coste total de la estimación inner-outer es O(|Ω|n3|P |), donde n = max∀x∈Ω |x|.

Extraer la expresión para inner-outer a partir de la expresión (3.3) nos garantiza la conver-gencia [BS68] a un mínimo local y la consistencia de los modelos generados.

3.3. Algoritmo de estimación VS

En esta sección definiremos un algoritmo de estimación que se basa en la mejor derivaciónde la cadena. Para esto podemos definir el conjunto ∆x con la mejor derivación de entre losposibles análisis de cada cadena de la muestra, con lo cual la función a optimizar (3.2) se puedereescribir como:

38 CAPÍTULO 3. ESTIMACIÓN DE LAS GIE EN FORMATO GENERAL

Pr(Ω | Ge) =∏

x∈Ω

Pr(x, dx | Ge).

Como esta función de probabilidad sobre las reglas también cumple la condición de domi-nio estocástico del Teorema (3.1.1), podemos utilizar un razonamiento similar al que se hizocon la definición del algoritmo de estimación inner-outer, con lo que la expresión (3.3) sepuede reescribir como:

p(A→ λ) =

∑x∈Ω N(A→ λ, dx)∑

x∈Ω N(A, dx). (3.5)

Esta expresión coincide completamente con la definida para las GIE en FNC [Ney92], yse conoce como estimación VS (del ingles, Viterbi Score), por lo que utilizaremos el mismonombre para referirnos a la expresión (3.5) para las GIE generales.

Tal como se estudió en el capítulo anterior, el algoritmo de interpretación de la mejor de-rivación permite extraer la derivación más probable de la cadena y a partir de esta se puedecalcular directamente el uso de reglas y no terminales para computar la expresión (3.5).

El coste temporal y espacial del algoritmo de estimación VS, está determinado por el al-goritmo de análisis de viterbi y la talla de la muestra, esto es su coste es O(|Ω|n3|P |) donden = max∀x∈Ω |x|. A pesar de tener la misma expresión de coste que el algoritmo inner-outer,es claro que la constante de implementación es menor al solo requerir un proceso de costecúbico.

3.4. Estimación utilizando información estructural

En este apartado estudiaremos otras propuestas para definir el conjunto ∆x basados en lainformación estructural que puede estar presente en la muestra. Este tipo de propuestas ya hansido estudiadas para las GIE en FNC [PS92, ABS99], pero para las GIE generales, en [Sto95]sólo se plantea un algoritmo recurrente para calcular el valor inner acorde con la parentizaciónde la muestra.

Dado que los algoritmos de estimación tienen un coste computacional de orden cúbico, esimportante definir métodos menos costosos. Para las GIE en FNC, este tipo de métodos handemostrado su eficacia para acelerar la convergencia de los algoritmos e incluso para encon-trar mejores modelos que los estimados por los algoritmos que no usan este tipo de informa-ción [PS92, ABS99, LBS03c].

La información estructural se incorpora a la muestra por medio de análisis automáticoso manuales que se le hace a cada cadena de acuerdo a criterios, básicamente sintácticos ysemánticos. El registro se hace regularmente en forma de paréntesis.

En este trabajo estudiaremos dos propuestas: una versión modificada del algoritmo inner-outer que utilizará para definir el conjunto ∆x, de la función de optimización (3.2), todas lasderivaciones que sean compatibles con los paréntesis de la muestra; y una versión modificadadel algoritmo VS, que utilizará solo la mejor derivación compatible con los paréntesis de la

3.4. ESTIMACIÓN UTILIZANDO INFORMACIÓN ESTRUCTURAL 39

muestra. Las bondades de estas propuestas para las GIE generales las evaluaremos empírica-mente en el Capítulo (5).

Antes de definir las expresiones para las nuevas propuestas, comentaremos algunas defini-ciones y notaciones básicas, luego se hará un análisis para cada operación y se definirá, cuandosea necesario, restricciones específicas para los ítemes generados por éstas.

Conceptos y definiciones para muestras con información estructural

En primer lugar, vamos a introducir la notación precisa que nos permitirá trabajar conmuestras parentizadas. La idea intuitiva consiste en definir una serie de índices sobre la cadena,que se corresponden dos a dos; estas parejas de índices representan paréntesis en la cadena. A suvez el conjunto de paréntesis sobre una cadena representa la estructura sintáctica de la cadena.Sobre estos índices se impone ciertas restricciones que eviten solapamientos no deseados. Lapresentación que seguimos aquí esta inspirada en las definiciones que para GIE en FNC sepresentan en [PS92]. Para gramáticas generales proponemos un indicador de cuantas vecesestos agrupamientos están anidados. A continuación presentamos las definiciones formales:

Definición 3.1. Dada una cadena x, llamaremos expansión de x a un trio (i, j, r) con 1 ≤ i ≤j ≤ |x|, r > 0, que delimita la subcadena xi . . . xj utilizando r parejas de paréntesis alrededorde xi . . . xj . Al tercer elemento de la tupla nos referiremos como la aridad de la expansión.

Diremos que la expansión e1 = (i, j, r) es coherente con e2 = (k, l, r ′) si estas no seintersectan o al intersectarsen cumplen que i ≤ k ≤ l ≤ j, o bien, k ≤ i ≤ j ≤ l (esto es, unaesta contenida dentro de la otra).

Definición 3.2. Llamaremos una parentización B de una cadena x a un conjunto finito deexpansiones de la cadena x tal que cualquier par de expansiones son coherentes.

Llamaremos muestra parentizada Ω a un conjunto de pares c = (x,B) donde x es unacadena y B es una parentización de la cadena.

Dada una cadena parentizada, cualquier análisis que se realice sobre la cadena debe respetarlos límites definidos por los paréntesis. Los siguientes conceptos establecen las condicionespara que una derivación de una cadena x sea compatible con una parentización definida sobrela misma. Para ello, vamos a definir la parentización que proporciona una derivación.

Definición 3.3. Sea (x,B) una cadena parentizada y dx una derivación de x con la GIE Ge.Si la GIE no contiene símbolos inútiles entonces cada no terminal que aparece en cada formasentencial de la derivación da cuenta de una subcadena xi . . . xj de x, 1 ≤ i ≤ j ≤ |x|, ydefine una expansión (i, j, r), r > 0.

Una derivación de x es compatible con B si todas las expansiones que define son coherentesen las expansiones de B.

Para adaptar los algoritmo inner-outer y VS con muestras parentizadas se define las si-guientes funciones auxiliar para cada par (x,B) de la muestra [PS92]:

40 CAPÍTULO 3. ESTIMACIÓN DE LAS GIE EN FORMATO GENERAL

Definición 3.4.

c(i, j) =

1 si (i, j, r), r > 0, es coherente con b,∀b ∈ B,0 en cualquier otro caso.

(3.6)

Esta definición nos permitirá filtrar aquellos ítemes cuyas derivaciones, no sean compa-tibles con la parentización definida sobre la muestra, por lo tanto se le aplicará a cada ítemgenerado en el proceso de análisis.

Otra función auxiliar que nos será útil es contabilizar la longitud de las expansiones ge-neradas por reglas unitarias, estas se ven reflejadas por las expansiones con aridad mayor queuno:

Definición 3.5.

l(i, j) =

r − 1 si (i, j, r) ∈ B0 en cualquier otro caso.

Esto es, si hay r parentizaciones anidadas, es porque hay una expansión de r − 1 reglasunitarias.

En los siguientes apartados analizaremos las operaciones de los algoritmos inner y outer yveremos como aprovechar estas funciones auxiliares junto con otras definidas específicamentepara cada operación.

3.4.1. Algoritmo inner parentizado

Para las gramáticas en FNC, el filtro c(i, j) es suficiente para restringir las derivacionesque no son compatibles con la parentización de la cadena [PS92]. Sin embargo, para las GIEgenerales este filtro no es suficiente. Dos son los casos en los cuales se debe aplicar más filtrospara restringir las derivaciones de las GIE: el primer caso lo constituye los paréntesis anidadosen la cadena de entrada que deben restringir las derivaciones parciales generadas por reglasunitarias; y el segundo lo constituyen los paréntesis alrededor de un solo elemento de la cadenade entrada, que debe restringir las derivaciones parciales que no incluyan una regla que decuenta sólo de ese elemento.

A continuación revisaremos qué restricciones debe imponer cada operación para que losítemes que se incluyen en sus respectivos conjuntos, sean compatibles con la información es-tructural presente en la muestra.

Predictor

Desde el punto de vista teórico esta operación no requiere ninguna modificación dado quesu única función es lanzar nuevas hipótesis que las demás operaciones deben “evaluar”. Es claroque ningún ítem de esta operación solapa los paréntesis de la muestra. Sin embargo, desde elpunto de vista práctico los paréntesis delimitan subproblemas, así que ningún ítem que tengaen su consecuente más elementos que el subproblema que intenta resolver deberá ingresar alanálisis. Este tipo de ítemes sólo ampliarán el espacio de búsqueda para las demás operacionesencareciendo el proceso.

3.4. ESTIMACIÓN UTILIZANDO INFORMACIÓN ESTRUCTURAL 41

Scanner

Esta operación debe ser modificada para tener en cuenta las parentizaciones alrededor deun sólo elemento en la cadena de entrada. Estos al no cruzarse con ningún otro par de paréntesisno son tenidos en cuenta por el filtro c(i, j). Dado que este tipo de parentización representanun subproblema de tamaño uno, debe ser resuelto por reglas que tengan sólo un terminal comoconsecuente.

Para resolver este problema simplemente se adiciona un filtro que ayude a identificar lasreglas con un solo elemento en la derecha cuando hay presencia de paréntesis alrededor delelemento de la entrada. Esta función auxiliar se puede definir así:

Definición 3.6.

d(j, σ) =

0 si (j − 1, j) ∈ B y σ 6= ε,1 en cualquier otro caso.

Con esta definición la operación Scanner queda definida así:

γp(j

k A→ λa · µ) = γp(j−1

k A→ λ · aµ)c(k + 1, j)d(j, λµ),

siendo el símbolo a el j-esimo elemento de la cadena de entrada.

Completer

Esta operación puede sacar partido de las restricciones impuestas en la muestra con parenti-zaciones de aridad mayor a uno. Este tipo de aridad ayudan a limitar las derivaciones sucesivasproducidas por reglas unitarias que puede ser generadas por una GIE generales.

Para ver esto con mas detalle, supongamos que se tiene un ítem de la forma ik A→ λ ·Bµ

y un conjunto de ítemes de la forma ji C → σ· que expandió el no terminal B. Sin información

estructural, la suma de la probabilidad de las derivaciones parciales a través de reglas unitariaentre B y C , se encuentra acumulada en la relación unitaria estocástica RU (B,C). Si hayinformación estructural, la longitud de estas derivaciones entre estos dos no terminales puedeser restringida por el valor de la aridad de la expansión (i+1, j, r). Si hay r paréntesis anidadosen la cadena de entrada, debe haber una derivación de reglas unitarias de longitud mínima iguala r − 1. Las probabilidad de las derivaciones parciales de longitud menor a ese valor debenrechazarse, o lo que es lo mismo no aportar masa de probabilidad.

La masa de probabilidad de las derivaciones parciales unitarias cuya longitud es mayor oigual a un valor r se calcula con la siguiente expresión (ver Apéndice).

Definición 3.7.∞∑

k=r

P kU (B,C) = P k

U (B,C)RU (B,C),

donde PU (B,C) = p(B → C) es la relación unitaria estocástica definida en (2.30).

42 CAPÍTULO 3. ESTIMACIÓN DE LAS GIE EN FORMATO GENERAL

Con esto, el completer queda definido:

γp(j

k A→ λB · µ) = γp(j

k A→ λ · Bµ)∑

C

Pl(i+1,j)

U (δ, C)RU (δ, C)γp(j

i C → σ·)c(k, j)

Obsérvese que cuando no hay paréntesis o sólo hay uno, no hay restricciones a las reglasunitarias. En ambos casos, la función l retorna 0 y el cálculo se hace utilizando únicamente larelación RU .

Incorporando las anteriores definiciones al completer, el inner parentizado queda finalmen-te definido así:

γp(j

j A→ ·σ) = p(A→ σ),

γp(j

k A→ λδ · µ) =

γp(j−1

k A→ λ · δµ)c(k + 1, j)d(j, λµ) si δ = aj,

∑j−1i=k γp(

ik A→ λ · δµ)

∑C P

l(i+1,j)U (δ, C)RU (δ, C)γp(

ji C → σ·)c(k, j) si δ ∈ N,

0 ≤ k < j ≤ n,

(3.7)

El coste temporal de este algoritmo es igual a la versión origina, esto es el coste temporalpara un corpus parcialmente parentizado es O(n3|P |) y su coste espacial es O(n2|P |). Sinembargo, en una muestra completamente parentizada es posible implementar el análisis con uncoste temporal lineal a la longitud de la cadena de entrada [Sto94].

3.4.2. Algoritmos de estimación inner-outerP

Con el conjunto ∆x definido con las derivaciones de cada cadena que son compatiblescon la información estructural y teniendo definido el algoritmo innerp sólo nos resta definir laversión parentizada del algoritmo outer (outerP )para tener todos los elementos necesarios paracalcular la expresión (3.3).

Para definir el algoritmo outerP , debemos simplemente utilizar las funciones que hemosutilizado para calcular el innerP , esto es, debemos utilizar el filtro c(i, j) para evitar los sola-pamientos incorrectos de las derivaciones con las parentizaciones, el filtro d(j, σ) que ayudaa identificar las situaciones donde sólo se admiten reglas con un elemento terminal en el con-

secuente y Pl(i,j)U (B,C)RU (B,C) que permite computar las derivaciones unitarias mayores

a una determinada longitud. Estos se integra a la respectiva función inversa. Con lo cual laexpresión para el outerP es:

3.4. ESTIMACIÓN UTILIZANDO INFORMACIÓN ESTRUCTURAL 43

βp(n

0 $→ S·) = 1,

βp(j

i A→ λ · δµ) =

βp(j+1

i A→ λδ · µ)c(i + 1, j)d(j + 1, λµ) si δ = aj ,

∑nk=j+1 βp(

ki A→ λδ · µ)

∑B P

l(j+1,k)U (δ,B)RU (δ,B)γp(

kj B → σ·)c(i, j) si δ ∈ N,

∑B∈N

∑ik=0 γp(

ik B → σ · Cσ′)

βp(j

k B → σC · σ′)Pl(i+1,j)U (C,A)RU (C,A)c(i + 1, j) si δµ = ε,

0 ≤ i < j ≤ n,

(3.8)

Al igual que la versión parentizada del inner, el coste temporal del outerP para muestrasparcialmente parentizadas no se modifica, esto es O(n3|P |) y su coste espacial es O(n2|P |).

Para realizar la estimación con estas versiones parentizadas se puede utilizar la mismatransformación definida en (3.4). En esta expresión sólo es necesario reemplazar los factoresinner y outer por sus correspondientes versiones parentizadas. Llamaremos a este algoritmode estimación inner-outerP , para diferenciarlo de su versión no parentizada. El coste de latransformación no se ve afectada en modo alguno.

En el Capítulo 5 mostraremos algunos experimentos que indicarán que este algoritmo deestimación tiene algunas características que lo hacen eficiente sin sacrificar la bondad de losmodelos estimados.

3.4.3. Algoritmos de estimación VSP

Llamaremos VSP al algoritmo de estimación que define para el conjunto ∆x la mejorderivación que respete las restricciones impuestas por la información estructural presente en lamuestra. La definición de este algoritmo tiene un objetivo doble que son: eficiencia y bondadde sus modelos. Desde el punto de vista de la eficiencia se busca que cada iteración sea másrápida y además que el número de iteraciones necesarias para que el algoritmo converja seamenor. Respecto a la bondad de los modelos, al usar información estructural se busca que susmodelos sean competitivos con las versiones que utilizan muchas más derivaciones para definirel conjunto ∆x.

Para definir esta versión utilizaremos las mismas funciones auxiliares que se usaron para

44 CAPÍTULO 3. ESTIMACIÓN DE LAS GIE EN FORMATO GENERAL

definir innerP :

γp(j

j A→ ·η) = p(A→ η),

γp(j

k A→ λδ · µ) =

γp(j−1

k A→ λ · δµ)c(k + 1, j)d(j, λµ) si δ = aj,

maxi=k...j−1γp(i

k A→ λ · δµ)

max∀CQl(i+1,j)U (δ, C)γp(

ji C → σ·) si δ ∈ N,

0 ≤ k < j ≤ n.

(3.9)

En esta expresión el factor Ql(i,j)

U (B,C) es la probabilidad del mejor camino a través dereglas unitarias entre el no terminal B y el no terminal C de longitud igual al valor dado por lafunción l(i, j). En esta expresión QU (B,C) se diferencia de RU (ver definición (2.32)) en queesta última no impone restricciones a la longitud del mejor camino.

El coste temporal de VSP es igual al VS, esto es O(n3|P |) y su coste espacial es O(n2|P |).Si la muestra está completamente parentizada es posible realizar una implementación de costetemporal lineal con relación a la talla de la cadena [Sto95].

Las operaciones de este algoritmo restringen de la misma manera los ítemes y sus probabi-lidades de la misma manera que lo hace el algoritmo innerP .

Para realizar la estimación VSP se utiliza la expresión (3.5), la misma usada para la esti-mación VS, pero utilizando para el conteo la mejor derivación compatible con la parentizaciónde la cadena de entrada.

La evaluación de este algoritmo de estimación la haremos en el Capítulo 5, donde losobjetivos de eficiencia y bondad en los modelos que fueron planteados inicialmente para estealgoritmo se cumplen razonablemente.

3.4.4. Aspectos de implementación del algoritmo innerP

En esta sección presentaremos un algoritmo iterativo para computar el valor innerP . Ini-cialmente daremos una descripción del comportamiento general del algoritmo y luego presen-taremos el esquema en la Figura 3.2.

En general este algoritmo procede de igual manera que el algoritmo de Earley, pero cambiasu comportamiento ante la presencia de paréntesis en la cadena de entrada. El comportamientodel algoritmo está inspirado en la evaluación de una expresión aritmética utilizando una pila.Así, cuando el análisis encuentra un paréntesis izquierdo, sabe que comienza un subproblemaen esa posición, y para recordarlo pone esa posición en el tope de la pila. Cuando el procesoencuentra un paréntesis derecho sabe que el subproblema ha terminado, en cuyo caso sólo esnecesario “recordar” los ítemes que analizaron completamente ese subproblema (los ítemescon el punto al final del consecuente); los demás ítemes del subproceso pueden ser desechados.Obsérvese que cada operación completer que se haga con una lista anterior deberá respetar loslimites impuestos por el paréntesis izquierdo registrado en el tope de la pila.

En el algoritmo, además de las operaciones definidas para Earley, se usan las funciones parapila y tres funciones auxiliares: una es la función que retorna la talla del vector que contiene

3.5. LA INICIALIZACIÓN DE LAS GIE 45

la cadena de entrada (talla), otra es la función que retorna el conjunto de ítemes de una listaque tienen el punto al inicio del consecuente (soloPuntoInicial) y también hay una función queretorna el conjunto de ítemes de que tienen el punto al final del consecuente (soloPuntoFinal).

El proceso evalúa el vector de entrada revisando las tres posibles opciones que puede en-contrar en él, y para cada caso realiza la acción respectiva.

3.5. La inicialización de las GIE

En los apartados anteriores nos hemos centrado en discutir cómo aprender la parte esto-cástica de la GIE, en esta apartado nos centraremos en la gramática inicial. La importancia deeste modelo radica en que cualquier algoritmo de estimación aprende la gramática a partir dela muestra y el modelo inicial. Sin este componente no es posible la estimación.

La construcción de una gramática inicial es un problema que es estudiado por la inferen-cia gramatical, pero a pesar de los numerosos trabajos para las Gramáticas [Hor69, FB75b,CRA76, Sak92, M92], los resultados prácticos son moderados.

Para las gramáticas en FNC existe un método bien conocido que se basa en técnicas deinicialización heurística [LY90]. Con esta técnica se construye un modelo ergódico exhaustivoa partir de todas las posibles reglas que se pueden generar con un número de no terminalesiniciales.

Dado que con esta técnica se crea un número cúbico de reglas con relación a los no termi-nales, el número de estos debe mantenerse bajo en tareas de estimación. Sin embargo, algunosresultados muestran que en la práctica los resultados mejoran con el incremento de los noterminales [LY90, Sán99].

Para las gramáticas generales, el modelo inicial se puede obtener con dos alternativas dis-tintas: a partir de técnicas de inferencia gramatical y a partir de corpus treebank

A continuación revisaremos estas dos alternativas:

Gramáticas reversibles

Sakakibara propone un algoritmo de inferencia que utiliza la información parentizada de lamuestra. Este algoritmo infiere la mínima gramática reversible que es consistente con la infor-mación estructural presente en la muestra [Sak92, M92]. El algoritmo se basa en la definiciónde gramática reversible.

Definición 3.8. Se dice que una gramática incontextual es reversible si:

1. A→ α y B → α están en P implica A = B,

2. A→ αBβ y A→ αCβ implica B = C .

El algoritmo procede de la siguiente manera: en un paso inicial, crea una regla para cadanodo interno de los arboles de la muestra donde cada palabra es un terminal y a cada nodointerno se le asigna un identificador de no terminal.

46 CAPÍTULO 3. ESTIMACIÓN DE LAS GIE EN FORMATO GENERAL

Algoritmo InnerP

01. Entradas02. Ge = (N,Σ, S, P ), wi ∈ Σ+ ∪ (, )03. salida04. Pr(w|Ge)05. Método06. L0 ← ( 0

0$→ ·S, [1,0])07. initPila(P)08. predictor(L0)09. j ← 010. adicPila(P, j)11. para i← 0 hasta talla(W ) hacer12. si W (i) = “(“ entonces13. adicPila(P, j)14. continue # continua con el ciclo sin evaluar el resto15. sino si W (i) = ")"entonces16. Lj ← soloPuntoFinal(Lj )17. k ← j18. j ← infoPila(P) + 119. elimPila(P)20. Lj ← Lk # comprime las listas21. sino # es un simbolo22. j ← j + 123. Lj ← scanner(Lj−1 , aj)24. fin si25. posIni = infoPila(P)26. para k ← j − 1 hasta posIni+1 hacer27. Lj ← Lj ∪ completer(Lk , Lj)28. fin para29. Lj ← Lj ∪ completer(soloPuntoInicial(nLk ),Lj)30. Lj ← Lj ∪ predictor(Ln)31. fin para32. si ( n

0$→ S·, [γp]) ∈ Lj entonces33. retornar γp

34. sino35. retornar 0,036. fin si37. Fin

Figura 3.2: Detalles del algoritmo inner parentizado.

3.5. LA INICIALIZACIÓN DE LAS GIE 47

Luego, realiza un proceso de búsqueda de los no terminales que no cumplen las dos con-diciones establecidas. Primero evalúa la primera condición: si dos reglas tienen el mismo noterminal izquierdo, estos son representados como un nuevo no terminal. Segundo se revisa sidos reglas tienen el mismo consecuente, excluyendo un par de no terminales, entonces el parexcluido tienen que ser mezclados. Finalmente las dos condiciones deben ser evaluadas repeti-damente hasta que no hayan nuevas mezclas.

La gramática que se obtiene identifica un lenguaje reversible que incluye la muestra [Sak92].Este algoritmo tiene un coste temporal O(n2) [M92], donde n es el número interno de nodosde las estructuras de la muestra.

Una versión estocástica se propuso en [NSB00]. Esta propuesta consiste en calcular lafrecuencia de la aparición de los subárboles en la muestra. Para computar las probabilidadesde las reglas, el algoritmo procede como sigue: primero, cuando cada regla inicial es creada,se le adjunta un contador que es inicializado a uno. Segundo, si en el proceso de mezcla dosno terminales son mezclado, entonces el contador de reglas es acumulado. Este nuevo valor esasignado a la nueva regla. Una vez el proceso de mezcla ha terminado, se realiza un proceso denormalización de las frecuencias de cada regla con el mismo no terminal izquierdo.

Una limitante de este método es el alto número de reglas que genera, por lo que se utilizalimitando considerablemente las longitudes de las cadenas de aprendizaje [NSB00].

Las gramáticas treebank

Este método hace uso de los corpus tipo treebank para obtener el modelo inicial. Un corpustipo treebank es una colección de textos con información lingüística. Cada frase del corpus esrepresentada por esqueletos de árboles de análisis que representan su estructura y cada parte dela oración puede estar anotada con información léxica y sintáctica.

Los corpus treebank son construidos haciendo uso de distintas técnicas. En general se co-mienza con la anotación manual de una porción relativamente pequeña del corpus y luegoutilizando esa parte se entrenan modelos que generan automáticamente las anotaciones de unaporción mayor del corpus. En una tarea posterior se pueden hacer revisiones de tipo manual.

Con este método, las reglas son simplemente leídas directamente de la estructura de lasfrases anotadas en corpus, las etiquetas sintácticas se corresponden con los no terminales y lasetiquetas léxicas con los terminales [Cha96] (ver Figura 3.3).

Para las probabilidades iniciales, a cada regla se le adjunta un contador de su frecuenciaen el corpus y al final del proceso todas las reglas con el mismo no terminal izquierdo sonnormalizadas por la frecuencia de este no terminal [Cha96, Joh98].

Estos métodos para extraer gramáticas se benefician con las nuevas técnicas automáticaspara etiquetado de corpus, de esta manera el tamaño de los corpus generados sólo esta limitadopor los costes computacionales de los algoritmos de etiquetado.

Dada la sencillez para extraer los modelos a partir de corpus, los resultado prometedoresque se han presentado en distintas tareas [Cha96, LBS03d] y la existencia de algunos corpusde este tipo [MSM93, Cha00]; en esta tesis utilizaremos este método para extraer los modelosiniciales.

48 CAPÍTULO 3. ESTIMACIÓN DE LAS GIE EN FORMATO GENERAL

( (S(NP (DT This ) )(VP (VBZ is )

(NP (NNP Japan) ) )(. ? ) ) )

1 S –> NP VP .1 NP –> DT1 VP –> VBZ NP1 NP –> NNP

Figura 3.3: La cadena "This is Japan.” de un corpus tipo treebank y las reglas que se extraen apartir de ella.

3.6. Conclusiones

En este capítulo se ha estudidado el problema de la estimación de gramáticas. Se presenta-ron de manera unificada dos algoritmos que utilizan información estadística para la estimacióny se propusieron dos algoritmos que además hacen uso de la información estructural de lamuestra. Todos los algoritmos fueron presentados en un marco unificado, utilizando para estouna función de optimización que hace uso de un conjunto de derivaciones ∆x.

Los dos algoritmos propuestos fueron el algoritmo inner-outerP y el algoritmo VSP , elprimero utiliza todas las derivaciones de la cadenas que son compatibles con la parentizaciónde la muestra; y el segundo utiliza sólo la mejor derivación compatible con la informaciónestructural de la muestra.

También se mostró que los algoritmos de estimación aquí estudiados son una reformulaciónde la expresión de las transformadas crecientes. Este resultado es importante pues garantiza quelos algoritmos de estimación tras cada iteración, mejoraran el modelo estimado en términos dela función a optimizar. Además garantiza que este proceso convergerá a un máximo local.

Finalmente se comentaron aspectos sobre la obtención de un modelo inicial. Con relacióna este punto, en [LBS03d] presentamos algunos resultados preliminares de estimación queutilizan como modelo inicial una gramática extraída de un corpus tipo treebank.

En el siguiente capítulo estudiaremos como integrar las GIE en un modelo de lenguajehíbrido, estos modelos junto con las gramáticas estimadas las evaluaremos experimentalmenteen el capítulo 5.

Capítulo 4

Modelado del lenguaje

El modelo de n-gramas es, sin lugar a dudas, el modelo de lenguaje más utilizado ac-tualmente. No obstante, enfrenta varios problemas, uno de ellos es la incapacidad de modelarrelaciones a largo término. Aprovechando la capacidad inherente de las GIE para modelar es-tas relaciones de largo término, propondremos un modelo de lenguaje híbrido combinando unmodelo de n-gramas y un modelo gramatical estocástico. Las GIE por su parte, presentan im-portantes problemas para su uso en la modelización del lenguaje en tareas reales complejas.En este capítulo se estudiarán estos problemas y se presentarán propuestas de solución quepermitan usar las GIE en un modelo de lenguaje.

4.1. Introducción

Como modelo de lenguaje se entiende cualquier formalismo que restringa de manera ade-cuada las secuencias de palabras de un lenguaje. Su importancia surge a partir de los años 70,cuando un grupo de investigación de IBM lograron importantes mejoras cuando lo incorporóen un sistema de reconocimiento automático de habla (RAH) [Jel76].

Actualmente, los modelos de lenguajes se utilizan con éxito en tareas de: (RAH) [Jel76,BBdSM89, Bel98]; modelización de secuencias de ARN [Sak90, DEKM98]; reconocimientode caracteres; adquisición de información [PC98]; en correctores ortográficos [KCG90]; reco-nocimiento de escritura manuscrita [ScB92]; traducción automática [BPPM93]; entre otras.

Desde el punto del teorema de Bayes, si se tiene una cadena de palabras W = w1 . . . wn,donde wi ∈W y W es un vocabulario, entonces Pr(W ) se puede expresar como:

Pr(w1 . . . wN ) = Pr(w1)N∏

k=2

Pr(wk|w1 . . . wk−1), (4.1)

en donde,Pr(wk|w1 . . . wk−1), (4.2)

representa la probabilidad de que wk sea la siguiente palabra, si hasta el momento se ha ob-servado la secuencia de palabras w1 . . . wk−1. Esta formación permite un procesamiento de

49

50 CAPÍTULO 4. MODELADO DEL LENGUAJE

izquierda a derecha sobre la entrada del texto; además, el proceso puede ser visto como unoráculo que predice la siguiente palabra una vez se conoce el texto anterior. En esta expresión,a la secuencia w1 . . . wk−1 se le conoce como la historia de Wk y se le denota hk .

Para calcular estas probabilidades condicionales, es necesario realizar cálculos estadísticossobre grandes corpus. Estos cálculos deben dar cuenta de la frecuencia con que aparece unapalabra dada una historia. Sin embargo, la cantidad de parámetros que se deben calcular parauna palabra w dada una historia de longitud k − 1 es | W |k eventos, donde | W | es la talladel vocabulario, con lo cual el problema es computacionalmente intratable.

Una aproximación extendida para resolver este problema es agrupar las historias en clasesde equivalencias. Si denotamos la clase de equivalencia de hk por Φ(hk), la expresión (4.2) sepuede aproximar así:

Pr(w1 . . . wN ) ≈n∏

k=1

Pr(wk | Φ(hk)).

De esta manera, definiendo distintas clases de equivalencias se definen distintos modelosde lenguaje.

La más popular clase de equivalencia es la de agrupar las clases considerando solo unnúmero limitado de palabras predecesoras; es decir, asumir que de toda la historia solo lasúltimas palabras tienen efecto sobre la siguiente palabra. A este tipo de modelos se les llama n-gramas, donde los valores de n son 2, 3, 4 . . .; por lo que se les llama respectivamente bigramas,trigramas, cuatrigramas, etc. De todos los n-gramas, el trigrama ha sido históricamente el másusado. Con un valor de n igual a tres, la predicción de la siguiente palabra se realiza utilizandosolo las dos palabras anteriores. Para los trigramas la expresión ((4.1)) queda reducida a laexpresión:

Pr(w1 . . . wN ) =N∏

k=2

Pr(wk|wk−2wk−1),

y el cómputo de la siguiente palabra se puede realizar fácilmente con un estimador de máximaverosimilitud en base a frecuencias:

Pr(wk|wk−2wk−1) =N(wk−2wk−1wk)

N(wk−2wk−1),

en donde N(wk−2wk−1wk) y N(wk−2wk−1) es el número de veces que la subcadena wk−2wk−1wk

y wk−2wk−1 aparecen en el corpus de entrenamiento.

Las ventajas que tienen estos modelos son:

• La sencillez de su formulación,

• la facilidad para establecerlos automáticamente a partir de un conjunto de muestras dellenguaje,

• su capacidad para modelar restricciones locales propias del lenguaje,

4.1. INTRODUCCIÓN 51

• la flexibilidad para integrarse en sistemas de RAH.

No obstante, este modelo no está exento de problemas, tanto computacionales como decapacidad de modelado. Algunas de sus limitaciones son:

• con una dependencia local limitada a tres palabras, el trigrama es incapaz de modelarrelaciones que se presenten en una secuencia de palabras que estén más allá de estevalor. Esto es conocido como el problema de la localidad,

• a pesar de la reducción que supone una restricción en la historia hk a solo dos palabras,el número de parámetros a estimar aún crece de manera cúbica con relación a la talla delvocabulario. Un vocabulario de diez mil palabras tendrá que estimar 10,0003 parámetros.Esto hace que muchos trigramas nunca sean observados, así el corpus de datos sea muygrande. Esto es conocido como el problema de la dispersión.

Para resolver estos problemas, se han propuesto diferentes enfoques: técnicas de suavizado,tales como Good-Turing [Goo53], Back-off [Kat87], descuento absoluto [NEK94] e interpola-ción lineal por mencionar sólo algunos pocos; clases de n-gramas [BdM+92, JA93]; n-gramasvariables [SO00]; usar n-gramas de longitudes largas [Goo01]; y combinaciones que se tratande sacar beneficio de distintos modelos [Jel98, SR99].

Todos éstos métodos pueden de alguna manera reducir el problema de la dispersión, y ladisminución de parámetros, esto, aún a expensas del rendimiento del sistema. Sin embargo,queda aún un problema sin tratar: la incapacidad de los trigramas para predecir utilizandodependencias largas e información estructural.

Varias alternativas de solución al problema de la localidad de los n-gramas se ha propuestoen los últimos años. La mayoría de éstas combinan varios modelos para, de esta manera, cubrirtanto las dependencias locales como las de largo término. Una de estas, se basa en el principiode máxima entropía. Bajo este principio se pueden desarrollar modelos de lenguaje de máxi-ma entropía condicionales que permiten combinar bajo un mismo marco, la información queproviene de diferentes fuentes, tanto la de larga distancia como la local [AB01].

Otras alternativas consisten en combinar los modelos n-gramas y modelos estructuralesque tengan en cuenta la estructura sintáctica del lenguaje.

Dentro de esta tendencia se agrupan algunos trabajos que se basan en analizadores sintácti-cos como modelos de lenguaje [Roa01, CJ00]. Muchos de ellos utilizan algoritmos de análisisdescendentes o algoritmos de análisis ascendentes, pero todos procesan la entrada de izquierdaa derecha. Algunos de estos utilizan técnicas de búsqueda tales como primero el mejor o A∗, ypara ello utilizan funciones heurísticas que orienten la búsqueda. Un ejemplo de este enfoquees el modelo de lenguaje estructurado que se presenta en [CJ00], el cual combina un trigramay un modelo estructural que se basa en un analizador shift-reduce. Otro ejemplo, lo constitu-ye un analizador descendente presentado en [Roa01]. En este analizador se usa un algoritmode búsqueda utilizando una función heurística formulada en términos de la probabilidad de laderivación parcial y un valor de verosimilitud.

52 CAPÍTULO 4. MODELADO DEL LENGUAJE

En [Bel00] se realiza una combinación de un trigrama con un modelo basado en análisissemántico latente. Este obtuvo una mejora satisfactoria de perplejidad con respecto al modelode trigramas puro. Otros trabajos, que también combinan un modelo estructural y un trigramase puede ver en [MKP00, GW98].

Una clase de modelos que tienen la capacidad de dar cuenta de las relaciones de depen-dencia a largo término que se establecen entre las distintas unidades lingüísticas son las GIE.Además de su potencia expresiva, estos modelos al ser estocásticos permiten modelar la varia-bilidad presente en tareas complejas.

Las GIE han sido usadas de manera exitosa como modelos de lenguaje en tareas de bajaperplejidad con dominios limitado, sin embargo, cuando las GIE se han usado como modelosde lenguaje en tareas con vocabularios grandes, sus resultados han sido pobres. Los principalesproblemas que presenta este formalismo son:

• El aprendizaje de la GIE. Ésto incluye el aprendizaje de la parte estructural represen-tada en las reglas de la gramática característica y la estimación de la parte estocásticarepresentada en las probabilidades de las reglas y

• la integración en un modelo de lenguaje.

Respecto al aprendizaje de la parte estructural de las GIE, este aspecto fue tratado en elApartado 3.5. En ésa sección se planteó que si se tiene un corpus tipo treebank es posibleextraer directamente una GIE general [Cha96].

Para la estimación automática de las probabilidades, en el capítulo anterior se estudiaroncuatro métodos distintos para realizar la estimación. Como se vio, todos estos métodos conver-gen a un mínimo local y, gracias a la propiedad de la consistencia, los modelos estimados sonválidos para el modelado de un lenguaje incontextual estocástico.

Con respecto al problema de la integración de las GIE como modelo de lenguaje, esta eltrabajo presentado por [JWS+95]; donde se muestran mejoras en tasas de error por palabrarespecto a los bigramas cuando se uso una GIE hecha a mano en combinación con los bigra-mas. Más recientemente, en [BS00] se muestra una reducción importante en la perplejidad delmodelo de lenguaje cuando interpolan trigramas con una GIE en FNC.

4.2. Un modelo de lenguaje híbrido

En la misma línea de [CJ00, BS00] definimos aquí un modelo de lenguaje híbrido. Éste sedefine como una combinación lineal de un modelo n-grama de palabras, el cual es usado paracapturar las relaciones locales entre palabras; y un modelo gramatical estocástico de palabrasMe, que es usado para representar las relaciones globales entre las distintas estructuras sintác-ticas. Este permite generalizar el modelo de n-gramas. De esta manera, la expresión (4.2) paraeste modelo queda expresado como:

4.2. UN MODELO DE LENGUAJE HÍBRIDO 53

Pr(wk|w1 . . . wk−1) = α Pr(wk|wk−n+1 . . . wk−1)

+ (1− α) Pr(wk|w1 . . . wk−1,Me), (4.3)

donde 0 ≤ α ≤ 1 es un factor de ponderación entre los dos modelos dependiente de la ta-rea. Otros autores también han presentado trabajos en la misma línea para diferentes modelosestructurales [GW98, MKP00, Cha01, Roa01, BS03].

El primer término de la expresión (4.3) es la probabilidad de la palabra wk dado por el mo-delo de n-grama de palabras. Los parámetros de este modelo pueden ser fácilmente estimadosy la expresión Pr(wk|wk−n+1 . . . wk−1) puede ser eficientemente computada [BJM83, Jel98].

Para capturar las relaciones entre las distintas estructuras sintácticas y para resolver el pro-blema derivado de las tareas complejas con vocabularios grandes, se propone el modelo estruc-tural estocástico Me como una combinación de dos distintos modelos: Una GIE en FormatoGeneral basada en categorías (Gc) y un modelo estocástico que distribuya las palabras en cate-gorías (Cw). Con lo cual la segunda expresión de (4.3) puede ser escrita así:

Pr(wk|w1 . . . wk−1, Gc, Cw). (4.4)

En los siguientes apartados revisaremos dos aspectos importantes para la funcionalidadcompleta de nuestro modelo: primero, como definir y estimar los modelos GC y Cw; y comointegrarlos para computar la expresión (4.4).

4.2.1. Aprendizaje de los modelos

Los parámetros de los modelos Gc y Cw son estimados a partir de un conjunto de frasesde una muestra de entrenamiento. En esta tesis se trabajó con corpus tipo treebank, donde cadapalabra de la frase es etiquetada con una etiqueta léxica (un POStag). De aquí en adelante, estasetiquetas léxicas serán consideradas como una categoría de palabra Cw, y se constituyen en lossímbolos terminales de la GIE Gc.

Los parámetros de la distribución de palabras en categorías, Cw = Pr(w|c) se computanfácilmente con la siguiente expresión:

Pr(w|c) =N(w, c)∑w′ N(w′, c)

, (4.5)

donde N(w, c) es el número de veces que la palabra w ha sido etiquetada como c. Es importantenotar que cada palabra w puede pertenecer a diferentes categorías. Además, puede que unapalabra en el conjunto de evaluación no aparezca en el conjunto de entrenamiento, por lo quela probabilidad Pr(w|c) no está definida. Para resolver este problema se adicionó el términoPr(UNK|c) para cada categoría, donde Pr(UNK|c) es la probabilidad de los palabras novistas en el conjunto de evaluación.

Para el cómputo de esta probabilidad, conjeturamos que las palabras desconocidas no sedistribuían de manera equiprobable en las categorías, y se estimó su probabilidad basado en

54 CAPÍTULO 4. MODELADO DEL LENGUAJE

la clasificación de las palabras en el conjunto de entrenamiento y en el conjunto de desarro-llo. Para las eventos no vistos en este par de conjuntos, asignamos una pequeña cantidad deprobabilidad ε que fuera un orden menor al menor valor de probabilidad encontrado en cadaclase.

Respecto al aprendizaje de la GIE de categorías, en el capítulo anterior se presentaroncuatro algoritmos de estimación: Inner-Outer, VS, Inner-OuterP , VSP . Dado los buenos resul-tados que se han logrado para tareas reales [LBS03a], utilizaremos todos estos algoritmos paraaprender Gc.

4.2.2. Integración del modelo estructural

Para integrar los modelos GC y Cw, podemos reescribir la expresión ((4.4)) de la siguientemanera:

Pr(wk|w1 . . . wk−1, Gc, Cw) =Pr(w1 . . . wk . . . |Gc, Cw)

Pr(w1 . . . wk−1 . . . |Gc, Cw), (4.6)

donde,

Pr(w1 . . . wk . . . |Gc, Cw), (4.7)

representa la probabilidad de generar una subcadena inicial dado Gc y Cw. Esto es, la pro-babilidad de la siguiente palabra, dado nuestro modelo estructural se calcula a partir de laprobabilidad del prefijo generado por este modelo estructural.

Nuestra propuesta consiste en modificar el algoritmo forward [Sto95], de manera que tengaen cuenta los modelos Gc y Cw.

Para realizar esta modificación debemos recordar que las clases son terminales en la GIEde categorías, por lo que es la operación scanner la encargada de mover el punto a la derechade la clase en cada ítem. Así, cuando esta operación esté procesando una lista de ítemes, a cadaítem que le mueva el punto a la derecha, le asignará un valor de probabilidad q. Este valor deprobabilidad q, se computa como el producto del valor forward del ítem que lo genera por laprobabilidad Pr(w|c), donde c es el terminal al lado derecho del punto en el ítem y w es lapalabra en la cadena de entrada.

Incorporando este nuevo computo al cálculo el valor forward para nuestro modelo estruc-tural [LBS03c] tenemos que:

4.3. CONCLUSIONES 55

α′( 00 $→ ·S) = 1,

α′( jj A→ ·σ) =

j−1∑

i=0

Bλµ:j

i B → λ · Cµ∈Lj

α′( jk B → λ · Cµ) RL(C,A) p(A→ σ),

α′( jk A→ λδ · µ) =

α′( j−1k A→ λ · δµ) Pr(w|δ) si w ∈ δ,

∑j−1i=k α′( i

k A→ λ · δµ)∑

C RU (δ, C)

γ( ji C → σ·) si δ ∈ N,

0 ≤ k < j ≤ n,

Con lo cual Pr(w1 . . . wn | Gc, Cw) = α′( n0 $→ S·).

Esta modificación no altera los costes computacionales, que para este algoritmo son O(n3|P |)para el tiempo y O(n2|P |) para el espacio.

Finalmente, el valor de la probabilidad de que el modelo estructural genere un prefijo secalcula de manera similar a la expresión (2.9) que fue definida para las GIE:

Pr(w1 . . . wk . . . |Gc, Cw) =

k∑

i=0

A, λ, µ : ki A→ λc · µ

α′( ki A→ λc · µ).

Con esta expresión queda definido el modelo estructural como modelo de lenguaje. La com-binación de este modelo en el modelo de lenguaje híbrido esta definido por la expresión (4.3).

4.3. Conclusiones

En este capítulo hemos propuesto un modelo de lenguaje híbrido que se definió comouna combinación lineal de un modelo de n-grama y un modelo gramatical. Para resolver elproblema de los vocabularios grandes presentes en las tareas reales, el modelo gramatical seconstituyó con una GIE en formato general, basada en categorías, y una distribución de palabrasen categorías.

En la integración del modelo estructural se propuso una modificación al algoritmo forward.Esta modificación permitió realizar el computo del prefijo a partir de la GIE de categorías y dela distribución de palabras en categorías.

Algunos resultados preliminares con este modelo de lenguaje híbrido fueron presentadospor el autor en [LBS03c]. En este trabajo los modelos fueron estimados con los algoritmos deestimación VS e Inner-OuterP .

En el siguiente capítulo, evaluaremos este modelo de lenguaje híbrido utilizando para laestimación de la GIE cada uno de los algoritmos de estimación estudiados en el Capítulo 3.

Capítulo 5

Experimentación

Hemos estudiado en el Capítulo 3 varios algoritmos de estimación para las GIE generales.Sabemos que cumplen importantes propiedades teóricas como la convergencia de los mismos yque los modelos estimados son consistentes. Sin embargo, desde un punto de vista práctico, esimportante evaluar la bondad de los modelos estimados y si esta estimación se puede realizar enun tiempo prudencial con unos costes razonables. De igual manera, estudiamos en el Capítulo4 las ventajas teóricas de los modelos de lenguaje que se pueden definir a partir de ellos, por loque también sería útil evaluar su bondad al integrarlo en tareas reales.

Con el ánimo de cubrir estos aspectos prácticos que se resuelven a través de la experimen-tación, en este capítulo hemos dividido los experimentos en dos grupos. En un primer grupo,se revisarán algunas características de los algoritmos de estimación y de los modelos que estosgeneran, considerando la inicialización a partir de un corpus treebank. Esta información nosservirá para conocer el comportamiento de cada algoritmo de estimación y la viabilidad parautilizarlos con grandes corpus.

En un segundo grupo de experimentos, evaluaremos el modelo de lenguaje híbrido y locompararemos con los modelos de otros autores. Esta evaluación la haremos primero, en tér-minos de la perplejidad por palabra y luego en términos de la tasa de error por palabra.

Comenzamos estos experimentos con la evaluación de algunas características de los algo-ritmos de estimación y de los modelos que estos generan.

5.1. Estudio experimental de los algoritmos de estimación de GIE

En este grupo de experimentos estudiaremos algunas características importantes de losalgoritmos de estimación y de la bondad de los modelos estimados. Se evaluará el compor-tamiento de las funciones optimizadas junto con la cantidad de iteraciones necesarias para laconvergencia. También comparemos los costes computacionales empíricos de estimar con cadauno de los distintos algoritmos. Otra propiedad que estudiaremos es la capacidad que tienenestos algoritmos para acumular masa estocástica en la mejor derivación. Finalmente compa-raremos la bondad de cada modelo estimado. Aunque algunas de estas características ya han

57

58 CAPÍTULO 5. EXPERIMENTACIÓN

sido estudiadas para las GIE en FNC [LY91, PS92, Sán99], aquí las evaluaremos para las GIEgenerales usando como modelo inicial una GIE extraída de un corpus treebank.

Antes de realizar los experimentos describiremos el corpus que se utilizó para el aprendi-zaje y la gramática inicial que se uso en este experimento.

5.1.1. Descripción del corpus UPenn Treebank

El corpus utilizado es la parte del corpus del Wall Street Journal procesada en el proyectoPenn Treebank1 [MSM93]. Estos datos son una colección de textos de ediciones de finales dela década de los 80 del periódico Wall Street Journal. El conjunto de datos comprende un mi-llón de palabras. Este corpus está analizado y etiquetado automáticamente, y revisado de formamanual tal como se describe en [MSM93] (ver un ejemplo de la primera frase del corpus enla Figura 5.1). Existen dos clases de etiquetado: un etiquetado de partes del habla que llama-remos etiquetado léxico (en inglés POStag) y un etiquetado sintáctico. El etiquetado léxico ysintáctico está compuesto de 45 y 14 etiquetas respectivamente2 . La talla del vocabulario es demás de 49,000 palabras.

( (S(NP-SBJ

(NP (NNP Pierre) (NNP Vinken) )(, ,)(ADJP

(NP (CD 61) (NNS years) )(JJ old) )

(, ,) )(VP (MD will)

(VP (VB join)(NP (DT the) (NN board) )(PP-CLR (IN as)(NP (DT a) (JJ nonexecutive) (NN director) ))

(NP-TMP (NNP Nov.) (CD 29) )))(. .) ))

Figura 5.1: La frase “Pierre Vinken, 61 years old, will join the board as a nonexecutive directorNov. 29.” analizada y etiquetada en el proyecto Penn Treebank.

Este corpus lo seleccionamos por varias razones: primero, este es un corpus suficientementegrande que permite probar el desempeño de los algoritmos en tareas de cierta envergadura;segundo, está analizado y etiquetado de acuerdo con las características de la experimentaciónque se deseaba realizar; y tercero, los modelos estimados aquí los podemos aprovechar paraintegrar el modelo de lenguaje híbrido de palabras que evaluaremos en el segundo grupo deexperimentos.

1La versión 2 de este conjunto de datos puede obtenerse a través del Linguistic Data Consortium con númerode catálogo LDC94T4B (http://www.ldc.upenn.edu/ldc/noframe.html).

2Algunas etiquetas sintácticas está acompañadas de otra información que indica la función de la parte sintáctica.

5.1. ESTUDIO EXPERIMENTAL DE LOS ALGORITMOS DE ESTIMACIÓN DE GIE 59

Para trabajar con este corpus, el conjunto de datos se dividió en frases, considerando paraello una frase como una secuencia de etiquetas que terminaban con la etiqueta “.”, con final depárrafo (marcado con una secuencia de signos “=” en el corpus original), o con final de fichero.Las estadísticas básicas de este corpus se pueden ver en la Tabla 5.1.

Tabla 5.1: Características del corpus UPenn Treebank después de la división en frases.

Número de Longitud Desviación Longitud Longitudcadenas media típica mínima máxima

54,393 23.75 11.31 1 249

El corpus de datos está organizado en 25 directorios (del 00 al 24), los cuales se dividieronde la siguiente manera: El conjunto de entrenamiento se compuso de los directorios del 00 al20, el conjunto de desarrollo se compuso de los directorios 21 y 22 y el conjunto de test fuecompuesto por los directorios 23 y 24. Estas divisiones las realizamos de esta manera parahacerlas compatibles con las divisiones hechas por otros autores [CJ00, Roa01, BS03]. Estonos permitirá contrastar nuestros modelos con los modelos de estos autores.

Las siguientes restricciones se impusieron para el proceso de entrenamiento:

dado que el vocabulario del corpus es demasiado grande, para este primer grupo deexperimentos, se decidió trabajar con las etiquetas léxicas,

se restringieron las cadenas del corpus de entrenamiento a una longitud menores o igua-les a 50. Otros trabajos también imponen restricciones similares [Che96, BS03]. Estomejora el tiempo de computo y no supone una perdida mayor, ya que más del 98 % delas frases del conjunto de entrenamiento cumplen con esta restricción.

En la Tabla 5.2 se muestran las características finales del corpus con que realizaremos esteprimer grupo de experimentos.

Tabla 5.2: Características principales de los subconjuntos en que se dividió el corpus UPennTreebank.

Conj. de datos Directorios No. de frases. No. de Palabras

Entrenamiento 00-20 41,315 959,390Desarrollo 21-22 3,371 80,156

Test 23-24 3,762 89,537

Obtención de la GIE inicial

En esta sección comentaremos los detalles de la gramática inicial que utilizaremos en losprocesos de estimación de este experimento.

60 CAPÍTULO 5. EXPERIMENTACIÓN

Como modelo inicial, utilizamos una gramática tipo treebank, extraída del conjunto deentrenamiento. Para esto se utilizó la herramienta de software desarrollada por Mark John-son3[Joh98]. Esta herramienta lee como entrada un corpus tipo treebank y realiza el conteode las subestructuras sintácticas de cada frase. Como salida escribe las regla asociada a cadasubestructura y la cantidad de veces que aparecen éstas dentro del corpus. La herramienta ig-nora todas las palabras de las frases del corpus, y solo utiliza las etiquetas léxicas y sintácticasanotadas en la frase. Las primeras se corresponden con los terminales y las segundas con losno terminales de la gramática (ver Figura 3.3 del Capítulo 3).

Dado que en la gramática resultante las reglas vienen con su frecuencia de ocurrencia, sóloes necesario aplicarle un proceso de normalización. Esto es, dividir el número de veces que seencontró la regla por el número de veces que se encontró su no terminal izquierdo.

Los detalles de la gramática resultante se muestran en la Tabla 5.3. Para revisar la cober-tura se evaluó la tasa de rechazos con el conjunto de desarrollo, los cuales fueron 0 para estagramática.

Tabla 5.3: Características de la gramática inicial.No. de No. de No. dereglas no terminales de terminales

15664 27 45

Una vez obtenido el modelo inicial, se procedió a estimarla con cada uno de los algoritmosde estimación revisados en el Capítulo 3. Para la estimación se utilizó el conjunto de entrena-miento.

5.1.2. Algoritmos de estimación inner-outer, VS, inner-outerP y VSP

Las características que vamos a revisar en estos algoritmos de estimación son tres: la con-vergencia, la acumulación de masa de probabilidad en la mejor derivación y el coste computa-cional empírico de cada algoritmo. Estas características han sido estudiados por otros autorespara GIE en FNC [PS92, Sán99]. Aquí revisaremos estas características usando un GIE ge-neral inicializada y entrenada a partir de un corpus treebank. Para la bondad de los modelosestimados utilizaremos el indicador de perplejidad.

La convergencia

Un aspecto conocido en los algoritmos de estimación y en general de todos los que utilizantécnicas de descenso por gradiente, es que la convergencia depende del modelo inicial. Deesta manera cuando se han estudiado las GIE en FNC con gramáticas inicializadas de maneraheurística, se ha comprobado que la convergencia del algoritmo inside-outside es lenta, por loque su utilización es limitada en tareas con corpus grandes [Sán99]. Con este experimento esde esperarse que al tener el modelo inicial más riqueza estructural, los métodos de estimación

3Disponible en http://www.cog.brown.edu/∼mj/ Software.htm

5.1. ESTUDIO EXPERIMENTAL DE LOS ALGORITMOS DE ESTIMACIÓN DE GIE 61

considerados en el capítulo 3 utilicen menos iteraciones para converger. En la Figura 5.2 semuestra el comportamiento de las respectivas funciones optimizadas por cada algoritmo.

-2.6e+06

-2.55e+06

-2.5e+06

-2.45e+06

-2.4e+06

-2.35e+06

-2.3e+06

-2.25e+06

-2.2e+06

-2.15e+06

10 20 30 40 50

PSfrag replacements

Iteraciones

inner-outer

VS

inner-outerP

VSP

Figura 5.2: Comportamiento de las funciones optimizadas por los algoritmos inner-outer, VS,inner-outerP y VSP .

Como se puede apreciar en la Figura5.2, en este experimento todas las funciones conver-gieron con un número de iteraciones relativamente pequeño.

El algoritmo que utilizó menos iteraciones para converger fue el VSP , que se estabilizódespués de la tercera iteración. Los algoritmos VS, inner-outerP e inner-outer utilizaron res-pectivamente 8, 12 y 14 iteraciones para converger.

Algunos aspectos que vale la pena resaltar son: primero, este resultado es consecuente conlos obtenidos para GIE en FNC, donde se ha encontrado que, en general, cuanto menos deri-vaciones utilice el algoritmo para la estimación, menos iteraciones se requieren para lograr laconvergencia del algoritmo [Sán99, BS03]. Segundo, la rápida convergencia de todos los algo-ritmos podría encontrase en el hecho de que el modelo inicial no es suficientemente ambiguo ylos parámetros fueron ajustados rápidamente. En tercer lugar, cabe destacar el enorme esfuerzocomputacional que supuso realizar estos experimentos a pesar de las restricciones impuestas ala cadena.

Acumulación de la masa de probabilidad

Esta característica es útil en tareas que utilicen la mejor derivación de la cadena dentrode un determinado proceso. Algunos ejemplos son la desambigüación, el etiquetado de cor-

62 CAPÍTULO 5. EXPERIMENTACIÓN

pus [Cha96, LBS03d] y en sistemas de reconocimiento automático del habla [Roa01]. Aunqueya está demostrado empíricamente que este tipo de algoritmos concentran su mayor masa deprobabilidad en la mejor derivación [Sán99], aquí nos concentraremos en ver cuál de los dosalgoritmos, inner-outer o VS, lo hace mejor.

Para revisar qué masa de probabilidad se concentra en la mejor derivación respecto al totalde las derivaciones, evaluamos para un modelo estimado, la verosimilitud de toda la muestra yla contrastamos contra la verosimilitud de la mejor derivación. Esto lo haremos para todos losmodelos de inner-outer y VS.

La curva que genera la verosimilitud de la muestra (Pr(Ω | Ge)) y la curva que genera laverosimilitud de la mejor derivación (Pr(Ω | Ge)) para cada modelo estimados tras cada ite-ración, por el algoritmo inner-outer, se muestran en la Figura 5.3. De igual manera se muestraen la Figura 5.4 el resultado para los modelos generados por VS.

PSfrag replacements

Diferencia

Iteraciones

ln Pr(Ω | Ge)ln Pr(Ω | Ge)

500, 000

−500, 000

−1, 0e + 06

−1, 5e + 06

−2, 0e + 06

−2, 5e + 06

−3, 0e + 06

140, 000120, 000100, 00080, 00060, 000

10 20 30 40 50 60

PSfrag replacements

Diferencia

Iteraciones

ln Pr(Ω | Ge)ln Pr(Ω | Ge)

500, 000−500, 000−1, 0e + 06−1, 5e + 06−2, 0e + 06−2, 5e + 06−3, 0e + 06

140, 000

120, 000

100, 000

80, 000

60, 000

10 20 30 40 50 60

Figura 5.3: Diferencia entre la verosimilitud de la muestra y verosimilitud de la mejor deriva-ción de la muestra utilizando los modelos generados por el algoritmo de estimación inner-outer.A la derecha detalles de la diferencia.

Para este experimento se pudo observar que ambos modelos concentran la mayor partede la masa de probabilidad en la mejor derivación, pero el algoritmo VS logra una diferenciamás pequeña (ver parte derecha de las Figuras 5.3 y 5.4). Esta diferencia fue del 5% para elinner-outer y del 2,7% para los modelos del VS.

Evaluación empírica del coste de los algoritmos

Tener una relación entre los coste empíricos de los distintos algoritmo de estimación noes una tarea fácil. La complejidad algorítmica nos da una función teórica que para el caso detodos los algoritmos de estimación discutidos en el capítulo 3 es igual, lo que no nos permitediscernir entre cada algoritmo de estimación.

En este apartado comentaremos algunos aspectos que pueden ayudarnos a establecer unajerarquía de costes entre los distintos algoritmos.

Entre los algoritmos inner-outer y VS parece claro que el VS puede ser más rápido que

5.1. ESTUDIO EXPERIMENTAL DE LOS ALGORITMOS DE ESTIMACIÓN DE GIE 63

PSfrag replacements

Diferencia

Iteraciones

ln Pr(Ω | Ge)ln Pr(Ω | Ge)

500, 000

−500, 000

−1, 0e + 06

−1, 5e + 06

−2, 0e + 06

−2, 5e + 06

−3, 0e + 06

140, 000120, 000100, 00080, 00060, 000

2 4 6 8 10 12 14 16 18 20

PSfrag replacements

Diferencia

Iteraciones

ln Pr(Ω | Ge)

ln Pr(Ω | Ge)500, 000−500, 000−1, 0e + 06−1, 5e + 06−2, 0e + 06−2, 5e + 06−3, 0e + 06

140, 000

120, 000

100, 000

80, 000

60, 000

2 4 6 8 10 12 14 16 18 20

Figura 5.4: La diferencia entre la verosimilitud de la muestra y verosimilitud de la mejor deri-vación de la muestra utilizando los modelos generados por el algoritmo de estimación VS. Ala derecha detalles de la diferencia.

inner-outer. Algunos factores que influyen en este menor coste son: VS converge con menositeraciones, esto no solo es cierto con inicializaciones tipo treebank, sino que se ha visto coninicializaciones aleatorias en GIE en FNC [Sán99]. La formulación del algoritmo VS utilizaun proceso de orden cúbico, mientras que inner-outer utiliza dos procesos de ese orden. Engeneral, VS estima modelos más pequeños que inner-outer. Esto es así pues al usar VS solo lamejor derivación para estimar, muchas reglas desaparecen después de la primera iteración; enel caso de inner-outer las reglas se mantienen casi todas o se imponen criterios de poda paraaquellas reglas que no tienen un aporte real a la probabilidad de la cadena. A este respecto, enla Figura 5.5 se muestran las tallas de la gramática cuando se utilizó un umbral de 10e − 11para podar las reglas del análisis en ambos algoritmos. En esa gráfica se observa que la talla dela gramática de VS se redujo en casi la mitad después de la primera iteración.

Respecto a los algoritmos parentizados, estos se ven beneficiados al restringir internamentelos ítemes que se procesan de acuerdo a la información estructural que tienen del corpus. Altener menos ítemes, estos algoritmos deben realizar un menor número de cómputos.

Para ver esto en más detalle, podemos revisar la parte más costosa de los algoritmos basadosen Earley: la operación completer. Las entradas a esta operación son las listas de ítemes, por loque un buen referente sobre el coste computacional de esta operación nos la dan las tallas delas listas que deben procesar.

Para realizar el experimento, se seleccionaron las cien primeras cadenas del conjunto deentrenamiento. Luego con los algoritmos de estimación inner-outer e inner-outerP

4, se proce-dió a registrar el tamaño de cada lista para cada cadena de entrada. Al finalizar se calcularon lasmedias de estos valores. Las curvas que formaron estos valores se pueden ver en la Figura 5.6.

En esta gráfica hay dos aspectos que vale la pena destacar: primero, el crecimiento linealde la tallas de las listas del algoritmo de estimación inner-outer. Esta curva representa apro-

4Es claro que VS genera el mismo número de ítemes, solo que en lugar de sumar, selecciona el de mayorprobabilidad. Igual relación tienen VSP e inner-outerP .

64 CAPÍTULO 5. EXPERIMENTACIÓN

7000

8000

9000

10000

11000

12000

13000

14000

15000

16000

0 10 20 30 40 50 60

PSfrag replacements

Iteraciones

Talla

inner-outerVS

VS

Figura 5.5: Tallas de las gramáticas después de cada iteración cuando es estimada con el algo-ritmo inner-outer y con el algoritmo VS.

ximadamente el 10% del máximo teórico de las listas de ítemes. La GIE que se usó generaaproximadamente unos 80, 000 ítemes, por lo que para la lista 45 el máximo teórico es 80, 000por 45. Este valor supera los tres millones de ítemes. En la gráfica 5.6 se observa que el va-lor real estuvo alrededor de los 350, 000 ítemes. Esta diferencia pudo deberse en parte, a larestricción que del ingreso de los ítemes hace la operación predictor.

El segundo aspecto a destacar, fue el comportamiento casi constante de las tallas de laslistas del algoritmo inner-outerP . Si tenemos en cuenta que para construir una nueva lista eloperador completer debe revisar todas las listas anteriores, vemos que en este experimentoel algoritmo inner-outerP revisó una menor cantidad de ítemes que el algoritmo inner-outer.Esta cantidad para la última lista fue inferior al 3% de los ítemes revisados por el algoritmoinner-outer.

Resumiendo, en estos experimentos los algoritmos mostraron una rápida convergencia. Es-to pudo deberse a que la gramática inicial extraída del corpus treebank fue poco ambigua, loque tal vez evitó una excesiva búsqueda en el espacio de parámetros de la gramática. Respectoa la acumulación de masa de probabilidad en la mejor derivación, en el experimento se obser-vo que tanto inner-outer como VS, concentraron gran parte de la masa de probabilidad en lamejor derivaciones de cada cadena. Respecto al coste, se comentó que el algoritmo VS tienecaracterísticas que pueden incidir para que éste tenga, en la práctica, un coste temporal menoral de inner-outer. También se comentó que los algoritmos que utilizan información parentizada

5.1. ESTUDIO EXPERIMENTAL DE LOS ALGORITMOS DE ESTIMACIÓN DE GIE 65

0

50000

100000

150000

200000

250000

300000

350000

0 5 10 15 20 25 30 35 40 45

No parentizada

Parentizada

PSfrag replacements

Listas de análisis

Figura 5.6: Tamaño promedio de las listas de análisis de las cien primeras cadenas del UPennTreebank generadas por el algoritmo inner-outer e inner-outerP .

manejan un menor número de ítemes en sus listas lo que les permite reducir considerablementelos tiempos de cómputo en la práctica.

Bondad de los modelos estimados

Un problema presente en cualquier proceso de estimación es la evaluación de los modelosobtenidos. En este apartado utilizaremos la perplejidad por palabra que es una medida habitualpara medir la bondad de formalismos gramaticales y modelos de lenguajes [BJM83, Jel98].Con esta medida también evaluaremos el modelo de lenguaje híbrido en los experimentos queabordaremos más adelante.

La perplejidad es una medida atractiva porque, el mejor modelo para cualquier fuente dedatos tiene siempre el menor valor de perplejidad; así pues, un menor valor de perplejidaden nuestros modelos es un indicativo de lo cerca que están del modelo real. Esta medida seevalúa sobre un conjunto de datos que no han sido utilizados en el proceso de entrenamientodenominado conjunto de test. Cuando el modelo es una GIE esta medida se define como:

PP (Ts,Ge) = e−

P

x∈Ts log Pr(x|Ge)P

x∈Ts |x| .

Esta medida la aplicaremos a cada uno de los modelos estimados por los distintos algorit-mos de estimación que estamos estudiando. Los resultados obtenidos para el conjunto de datosde desarrollo se pueden ver en la Tabla 5.4.

66 CAPÍTULO 5. EXPERIMENTACIÓN

Tabla 5.4: Perplejidad de los modelos estimados medido sobre el conjunto de desarrollo yporcentaje de mejora respecto al modelo inicial.

Algoritmo de estimaciónInicial inner-outer VS inner-outerP VSP

13.15 9.78 10.91 10.54 11.11Mejora ( %) - 27.28 18.8 21.6 17.39

Como habría de esperarse el algoritmo inner-outer al incluir las probabilidades de todaslas derivaciones de las cadenas del corpus en la estimación, logró que el modelo final tuvierael mayor descenso en la perplejidad. Sin embargo, los demás algoritmos también lograronmejoras considerables, incluyendo el algoritmo VSP , que es el que mayor restricciones imponea las derivaciones a la hora de estimar sus modelos.

5.2. Evaluación experimental del modelo de lenguaje híbrido

En este apartado describimos la evaluación experimental del modelo de lenguaje híbridoque definimos en el Capitulo 4. Las evaluaciones las vamos a realizar con dos indicadores: laperplejidad por palabra y la tasa de errores por palabra. Para el entrenamiento de los distintosmodelos que se compone el modelo de lenguaje híbrido se utilizarán dos corpus el UPennTreebank, y el corpus Bllip. Antes de proceder con los experimentos describiremos el corpusBllip.

El corpus Bllip

El corpus Bllip 1987-89 WSJ contiene una colección de historias tomadas del Wall StreetJournal de los años 1987 al 19895 [Cha00]. El conjunto comprende aproximadamente unos40 millones de palabras. Los textos fueron analizados y etiquetados por medio de métodosautomáticos que generan análisis al estilo de los corpus treebank. Para esto se usó un analizadorestocástico generador de árboles de análisis desarrollado por Charniak [Cha00]. Este analizadorlogra un 90.1 % de precisión/recall para cadenas de hasta 40 palabras y un 89.5 % para cadenasde talla menor o igual a 100 palabras. Algunas características estadísticas del Bllip se puedenver en la Tabla 5.5.

Este corpus fue seleccionado básicamente por dos características: primero, al ser analizadoy etiquetado al mismo estilo que el UPenn Treebank, podemos extraer a partir de el un modeloinicial; segundo, al ser un corpus de gran tamaño permite probar nuestro modelo híbrido en ta-reas con un gran volumen de datos y un amplio vocabulario. Para aprovechar esta gran cantidadde datos utilizaremos todos los años para el entrenamiento de los distintos modelos.

5La versión 1 de este conjunto de datos puede obtenerse a través del Linguistic Data Consortium con númerode catálogo LDC2000T43 (http://www.ldc.upenn.edu/Catalog/CatalogEntry.jsp?catalogId=LDC2000T43)

5.2. EVALUACIÓN EXPERIMENTAL DEL MODELO DE LENGUAJE HÍBRIDO 67

Tabla 5.5: Características principales del corpus Bllip.Año No. de frases Long máx. Long. mín Media

1987 863,994 70 1 24.241988 729,244 70 2 24.261989 203,141 70 1 23.39

Total 1,796,379 70 1 24.15

Un aspecto que debe ser tenido en consideración con este corpus, es que al ser creado auto-máticamente y entrenado a partir del corpus UPenn Treebank, éste tiene un mayor porcentajede error que el UPenn Treebank que fue revisado manualmente.

Una vez definido los corpus de trabajo, UPenn Treebank y Bllip, describiremos primero losexperimentos de perplejidad por palabra con ambos corpus y luego los experimentos de tasa deerror por palabra.

5.2.1. Experimentos de perplejidad

En esta parte nos centraremos en evaluar el modelo híbrido utilizando la perplejidad porpalabra. Inicialmente presentaremos el experimento y los resultados con el corpus UPenn Tree-bank y luego el experimento y los respectivos resultados utilizando el corpus Bllip.

Resultados con el corpus UPenn Treebank

Con el ánimo de comparar nuestro modelo de lenguaje híbrido con el de otros autores,realizaremos los experimentos sobre este corpus teniendo en cuenta las mismas restriccionesconsideradas en otros trabajos [CJ00, Cha01, Roa01]. Estas restricciones son las siguientes:

• el conjunto de entrenamiento se constituyo con los directorios del 00 al 20, el conjunto dedesarrollo se compuso de los directorios 21 y 22, y el conjunto de test fue compuesto porlos directorios 23 y 24. Las frases de estos directorios no fueron restringidas en longitudy se utilizó el corpus a nivel de palabra (ver Tabla 5.6). Estos datos fueron usados paraevaluar el modelo de lenguaje híbrido;

• todas las palabras con etiqueta CD (número cardinales [MSM93]) fueron reemplazadospor un símbolo especial el cual no aparece en el vocabulario.

• todas las letras mayúsculas fueron convertidas a minúsculas

• el vocabulario se compuso de las 10, 000 palabras más frecuentes.

Tal como se comentó en el capítulo anterior el cálculo del modelo híbrido, representado porla expresión (4.3), requiere estimar tres tipos de modelos, un trigrama, una GIE de categorías,Gc, y una distribución de las palabras en categorías, Cw. A continuación se describe como sellevó a cabo la estimación para cada modelo y posteriormente mostraremos los resultados quese obtuvieron.

68 CAPÍTULO 5. EXPERIMENTACIÓN

Tabla 5.6: Principales características de los nuevos conjuntos de datos del UPenn Treebank.Conj. de datos Directorios No. de frases No. de palabras

Entrenamiento 00-20 42,075 1,004,073Desarrollo 21-22 3,371 80,156

Test 23-24 3,762 89,537

Aprendizaje de los modelos

Para el modelo de trigrama, los parámetros fueron estimados utilizando la herramienta desoftware descrito en [Ros95]6. Se evaluaron diferentes técnicas de suavizado, pero escogimosaquella cuyo valor de perplejidad del conjunto de test fuera similar al presentado en [CJ00,Cha01, Roa01, BS03]. La técnica de suavizado utilizada fue descuento lineal utilizando losparámetros que la herramienta trae predeterminados. Los resultados de perplejidad para estemodelo se observan en la Tabla 5.7.

Tabla 5.7: Perplejidad del trigrama entrenado con el corpus UPenn Treebank.conjunto perplejidad

Desarrollo 160.26Test 167.30

Este valores de perplejidad del trigrama, los utilizamos como modelo de referencia paraconstatar nuestro modelo híbrido.

Los parámetros de la distribución de palabras en categorías, Cw = Pr(w|c), fueron com-putados con la parte de las etiquetas léxicas y las palabras del corpus de entrenamiento. Las pa-labras que no aparecieron en el conjunto de entrenamiento fueron considerados como la mismapalabra UNK y se procedió a adicionar el termino Pr(UNK|c) para cada categoría. Para esti-mar este valor, se consideró que la distribución de las palabras desconocidas no se distribuíande manera uniforme en todas las clases y se estimaron los respectivos valores de probabilidadbasados en la distribución de palabras no vistas en los conjuntos de entrenamiento y desarrollo.El porcentaje de palabras desconocidas del conjunto de entrenamiento fue del 4, 47% distribui-das entre 31 categorías y en el conjunto de desarrollo este porcentaje de palabras desconocidasfue del 5,53%, las cuales estaban distribuidas en 23 categorías. Adicionalmente, se le asignoun valor ε a cada categoría del corpus de entrenamiento y de test. Este valor fue un orden demagnitud menos que el menor valor de probabilidad Pr(w|c) obtenido para cualquier clase.

Finalmente, para la GIE de categorías se utilizaron las gramáticas de la sección 5.1 estima-das con cada uno de los algoritmos de estimación: inner-outer, VS, inner-outerP y VSP .

6Versión 2.05 disponible en http://svr-www.eng.cam.ac.uk/∼ prc14/toolkit.html.

5.2. EVALUACIÓN EXPERIMENTAL DEL MODELO DE LENGUAJE HÍBRIDO 69

Evaluación del modelo híbrido

Una vez los parámetros de todos los modelos que componen el modelo híbrido fueronestimados, se aplicó la expresión (4.3). Para establecer el mejor valor α obtenido para el modelohíbrido, se utilizó el conjunto de desarrollo descrito en la Tabla 5.6. Los resultados se puedenver en la Figura 5.7.

125

130

135

140

145

150

155

160

165

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1

PSfrag replacements

Trigrama

VSPIOP

VS

IO

Inicial

Figura 5.7: Perplejidad del conjunto desarrollo dependiendo del valor α, para el modelo delenguaje híbrido usando la GIE inicial y la GIE final de cada algoritmo de estimación.

De esta figura tres aspectos merecen ser resaltados: primero, los resultados obtenidos conlas GIE estimadas fueron mejores que los resultados de la GIE inicial; a su vez todos losmodelos híbridos superaron en un amplio rango de α los valores del trigrama de referencia. Elmejor modelo híbrido se obtuvo con la GIE estimada con el algoritmo inner-outer que logró unamejora del 17,8% frente al trigrama. Segundo, los pesos de la GIE respecto al trigrama oscilaentre un 33% y un 35% lo que significa que el modelo estructural es un componente importantedentro del modelo híbrido. Finalmente, cabe destacar que el modelo de lenguaje híbrido queutiliza el algoritmo inner-outerP casi coincide en los valores con el modelo que utiliza VSP .Una explicación a este comportamiento puede estar en la tendencia que tienen estos algoritmosde estimación de acumular la mayor masa de probabilidad en la mejor derivación de cadacadena.

Una vez encontrado el mejor peso α, para el modelo de lenguaje híbrido generado concada GIE, procedimos a comparar estos modelos con otros de naturaleza similar, propuestospor otros autores [CJ00, Roa01, BS00]. En la Tabla 5.8 se muestran nuestros resultados, junto

70 CAPÍTULO 5. EXPERIMENTACIÓN

con los resultados de los otros autores.La primera fila de la Tabla 5.8 corresponde al modelo de lenguaje estructural propuesto

en [CJ00], como comentamos en el Capítulo 3 este utiliza una combinación de un trigrama yun analizador shift-reduce; la segunda fila corresponde a los resultados del analizador descen-dente que fue usado como modelo de lenguaje en [Roa01]; la tercer fila corresponde al modelopropuesto por [BS00], con los mejores resultados publicados en [GSB03]; este modelo com-bina una GIE en FNC en lugar de una GIE general. Las restantes filas se corresponden connuestro modelo de lenguaje híbrido, para la GIE inicial y cuando la GIE fue estimada con elalgoritmo inner-outer, VS, inner-outerP y VSP respectivamente.

Tabla 5.8: Perplejidad del conjunto de test usando un modelo de trigrama (Trig.) y el modelointerpolado (Interp.). La columna α es el factor de peso usado en el modelo interpolado. Laultima columna representa el porcentaje de mejora con respecto al modelo de trigrama.

Modelo Perplejidad α %Trig. Interp. mejora

CJ00 167.14 148.90 0.4 10.9R01 167.02 137.26 0.4 17.8BS00 167.30 142.29 0.65 14.9MLH-0 167.30 145.14 0.72 13.5MLH-IO 167.30 138.55 0.66 17.2MLH-VS 167.30 140.41 0.67 16.1MLH-IOP 167.30 142.12 0.67 15.1MLH-VSP 167.30 142.00 0.68 15.1

De los resultados es importante comentar tres aspectos: primero, los modelos inner-outer yVS fueron mejores que inner-outerP y VSP ; esto pudo deberse a que el modelo inicial fue pocoambiguo y por lo tanto la estimación considera muy poca información, también pudo influirel hecho de que HLM-VS no usa la información parentizada de la muestra y pudo seleccionarderivaciones con alta probabilidad que no son compatibles con la parentización de la cadena.Segundo, el peso de nuestro modelo estructural es inferior al de los otros autores, esto puededeberse a que nuestro modelo no utiliza ninguna tipo de información léxica. Finalmente, yrelacionado con el segundo aspecto, es importante resaltar que nuestros resultados son buenosy competitivos con los de los demás autores, sobre todo si consideramos que tanto los modeloscomo la técnica de estimación son simples y bien consolidados.

Resultados con el corpus Bllip

En este apartado describimos los resultados de perplejidad obtenidos cuando los paráme-tros del modelo de lenguaje híbrido fueron estimados utilizando todo el corpus Bllip. Igualque en apartado anterior, utilizaremos el conjunto de desarrollo y test presentados en la Ta-

5.2. EVALUACIÓN EXPERIMENTAL DEL MODELO DE LENGUAJE HÍBRIDO 71

bla 5.6. Presentaremos los detalles de la estimación de los modelos que componen el modelode lenguaje híbrido antes de presentar los resultados.

Aprendizaje de los modelos

Para estimar el trigrama, la nueva distribución de palabras en categorías Pr(w|c) y la gra-mática inicial se procedió de la siguiente forma: Los trigramas se entrenaron con el mismosoftware [Ros95], y con los mismos parámetros que se utilizaron para entrenar los trigramascon el UPenn Treebank. Los resultados de perplejidad de los trigramas con esta nuevo corpusfueron de 148,19 para el conjunto de desarrollo y 140,92 para el conjunto de test. Se debenotar que estos valores constituyen una mejora en perplejidad de más del 10% con respecto altrigrama estimado con el corpus UPenn Treebank.

Respecto a la nueva distribución de palabras en categorías, Cw, se utilizó un vocabulariode 20, 000 palabras, y el tratamiento de los eventos no vistos fue el mismo que para el corpusUPenn Treebank.

Para la gramática de categorías, se decidió extraer una gramática nueva a partir de todo elcorpus Bllip, utilizando nuevamente la herramienta de Mark Johnson [Joh98]. Considerandoel volumen de datos del corpus se decidió estimar la GIE inicial utilizando el algoritmo VSP .Éste fue el algoritmo que convergió con menos iteraciones y cuyo coste por iteración fue menorcuando la gramática fue extraída y estimada con el corpus UPenn Treebank (ver apartado 5.1).A pesar de las ventajas del algoritmo VSP , cada iteración tardó tres semanas hasta finalizar.Las características tanto de la GIE inicial como la GIE estimada se observan en la Tabla 5.9.

Tabla 5.9: Características de perplejidad de las GIE inicial y estimada con el corpus Bllip.Gramática Talla Desarrollo

Inicial 96,283 12.34Estimada 73662 12.26

En esta tabla se puede observar que la talla de la gramática extraída a partir del corpusBllip fue considerablemente mayor que la talla de la gramática extraída por el corpus UPennTreebank. Esta misma relación se mantiene para la gramática estimada.

De la perplejidad cabe destacar la diferencia de perplejidad respecto al experimento deestimación que se hizo con el corpus UPenn Treebank (ver Figura 5.4). Podemos observar quela perplejidad del modelo inicial en este experimento (12.34) fue mayor que en aquel (13.15),sin embargo, la mejora en este experimento fue menor (12.26 del bllip frente a 11.11 ). Larazón de ello pudo deberse a la enorme cantidad de datos que se utilizaron para obtener estemodelo inicial, con lo que las probabilidades iniciales estaban mejor aprendidas.

Con todos los modelos ya estimados presentamos los resultados obtenidos con estos mo-delos.

72 CAPÍTULO 5. EXPERIMENTACIÓN

Evaluación del modelo híbrido

Para evaluar el modelo debemos calcular el mejor peso α, para combinar el modelo detrigrama con el modelo estructural. Para ajustar este valor se utilizó el conjunto de desarro-llo definido para el corpus UPenn Treebank (ver Tabla 5.6). Los resultado se muestran en laFigura 5.8.

125

130

135

140

145

150

155

160

165

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1

PSfrag replacements

Trigrama

Figura 5.8: Perplejidad del conjunto desarrollo dependiendo del valor α para el modelo delenguaje híbrido usando la GIE inicial y la GIE final extraída y entrenada con el corpus Bllip.Las curvas coinciden en ambos casos.

En este experimento el modelo híbrido nuevamente exhibió mejoras con respecto al tri-grama, para un amplio rango de valores de α Sin embargo, dos aspectos llaman la atención:primero, que el peso del modelo estructural fue menor en este experimento que con los los rea-lizados con el corpus UPenn Treebank. Mientras con la GIE del UPenn Treebank el peso delmodelo estructural era levemente superior al 30 %, con esta GIE el peso del modelo estructuralfue aproximadamente del 20 %; La causa de esto pudo ser que el corpus UPenn Trebank utili-zado antes fue revisado manualmente, por lo que su información contiene menos errores queel Bllip. El segundo, que la gramática estimada no mejoró el modelo inicial, ya que las evalua-ciones para ambas GIE coincidieron en la gráfica. Esto pudo deberse a que el analizador quese utilizó para generar el corpus Bllip, fue previamente entrenado con el corpus UPenn Tree-bank, por lo que al extraer de este corpus una GIE, ésta ya viene con sus parámetros ajustados,dejando poco o ningún margen para realizar mejoras.

En la Tabla 5.10 se muestran los valores de perplejidad evaluados sobre el conjunto de testutilizando como peso α, el valor que mejores resultados obtuvo en la evaluación anterior.

5.2. EVALUACIÓN EXPERIMENTAL DEL MODELO DE LENGUAJE HÍBRIDO 73

Tabla 5.10: Perplejidad del conjunto de test para un modelo de trigrama (Trig.) y perplejidadde los modelos híbridos basados en las GIE Bllip (Interp.Bllip.). La columna α es el factor depeso usado en el modelo interpolado. La última columna representa el porcentaje de mejoracon respecto al modelo de trigrama.

Modelo Perplejidad α %Trig. Interp.Bllip mejora

MLH-0 140.92 126.61 0.82 10.15MLH-VSP 140.92 126.48 0.82 10.24

En esta tabla vale resaltar que a pesar de que la estimación no mejoró el modelo extraído delcorpus UPenn Treebank, el modelo híbrido si logró una mejora del 10% respecto al trigramade referencia. Este valor también es bueno si lo comparamos con los resultados logrados conel modelo híbrido estimado sobre el corpus UPenn Treebank.

5.2.2. Experimentos de tasa de error por palabra

En esta apartado evaluaremos el modelo de lenguaje híbrido con el indicador de tasa deerror por palabra. Para ello, primero comentaremos algunos aspectos de este indicador y delo experimentos que realizaremos; y luego presentaremos los resultados de dos experimentos:uno que utiliza el modelo de lenguaje híbrido entrenado con el corpus UPenn Treebank y otroque utiliza el modelo de lenguaje híbrido entrenado con el corpus Bllip.

La tasa de error por palabra

El mejor método de evaluación para un modelo de lenguaje es integrarlo directamente enun sistema de RAH y revisar la mejora que se logra. Para hacer esto es necesario tener todo unsistema completo, junto con una gran cantidad de datos para entrenar cada parte del sistema.Esto puede llegar a consumir mucho más tiempo del que se quisiera invertir para evaluar labondad de un modelo.

Habitualmente se usan dos alternativas más sencillas: una utiliza el modelo de lenguajepara orientar la búsqueda de la mejor decodificación acústica dentro del grafo que representa elmodelo acústico (lattice rescoring) [CJ00], y la otra utiliza el modelo de lenguaje para reordenaruna lista con N decodificaciones acústicas (N -mejores) [Roa01].

Aprovechando que se dispone de una lista de decodificaciones acústicas de un experimentode reconocimiento automático del habla, decidimos utilizar el método de las N -mejores. Estoademás nos permitirá comparar nuestros resultados con los de otros autores [CJ00, Roa01,GSB03].

Una desventaja de usar éste método es que se evalúa sobre un número limitado de hipóte-sis, por lo que las mejoras en tasa de error por palabra que exhibe el modelo de lenguaje son

74 CAPÍTULO 5. EXPERIMENTACIÓN

inferiores que cuando se utiliza el reordenamiento directamente en el grafo del modelo acús-tico. Para contrarrestar parte de este efecto, es útil tener un elevado número de hipótesis en lalista [CJ00].

Para ordenar las N -mejores decodificaciones, cada hipótesis de la lista se combina con elmodelo de lenguaje. En la combinación de los dos modelos se utiliza una constante positiva quemultiplica al modelo de lenguaje. Este valor no esta teóricamente justificado en la literatura,pero es utilizado por muchos autores al mejorar en la práctica los resultados [CJ00].

Una vez ha sido reordenada la lista de hipótesis, se calcula la tasa de error por palabraentre la mejor hipótesis de la lista, y la transcripción de referencia. El valor se calcula con lasiguiente expresión:

WER =NS + NB + NI

NP100,

donde NS , NB y NI son el número de sustituciones, borrados e inserciones necesarias parahacer coincidir la hipótesis con la frase de referencia. El valor NP es el número de palabras dela transcripción de referencia.

Descripción del experimento

Este experimento usa el corpus DARPA ’93 HUB1 test setup que consiste en 213 pronun-ciaciones leídas del Wall street Journal con un total de 3,446 palabras. El corpus viene con unmodelo de trigramas de referencia, el cual usa 20,000 palabras de vocabulario.

Para comparar nuestros modelos de lenguaje en términos de la tasa de errores por palabras,vamos a reproducir el experimento descrito en [CJ00, Roa01, GSB03]. El experimento consisteen reordenar una lista de las mejores 50 hipótesis proporcionadas por el decodificador A∗ delreconocedor del habla descrito en [CJ00] 7.

Desafortunadamente en muchos casos, no se obtuvieron todas las 50 hipótesis, por lo queel promedio de hipótesis para cada frase de referencia fue de sólo 22,9.

Los resultados los presentamos a continuación:

Resultados con el corpus UPenn Treebank

Para ordenar la lista con las n mejores hipótesis, en este apartado utilizaremos el modelo delenguaje híbrido entrenado con el corpus UPenn Treebank. Para el modelo estructura utiliza-remos cada una de las GIE que estimamos con este corpus usando los algoritmos: inner-outer,VS, inner-outerP VSP .

Los resultados obtenidos se pueden ver en la Tabla 5.11 para diferentes modelos de len-guajes. La primera fila, (Trig. Lat.), corresponde al trigrama de la lattice, que provee el corpusHUB1. Este modelo al ser entrenado con 40 millones de palabras, no es comparable con losotros modelos; sin embargo, ofrece un valor de referencia deseable para alcanzar. La segun-da fila, (CJ00), corresponde al modelo estructural propuesto por [CJ00]. El resultado no fue

7Esta lista fue proporcionada por Brian Roark

5.2. EVALUACIÓN EXPERIMENTAL DEL MODELO DE LENGUAJE HÍBRIDO 75

computado sobre una lista sino, directamente sobre la lattice. La tercera fila, (RO1), corres-ponde al resultado obtenido por el analizador léxico descendente propuesto por [Roa01]. Lacuarta fila corresponde al modelo propuesto por [BS00], con los mejores resultados publica-dos en [GSB03]. La quinta fila, (Trig. Ref.) corresponde al trigrama de referencia. La sextafila corresponde a los resultados usando solo el modelo acústico sin utilizar ningún modelode lenguaje. La séptima, octava, novena y décima fila se corresponden con los resultados denuestro modelo de lenguaje híbrido usando cada GIE generadas por los distintos algoritmos deestimación [LBS03b].

Tabla 5.11: Resultados de la tasa de error por palabra para varios modelos, con diferente tallade entrenamiento y vocabulario usando el mejor peso para el modelo de lenguaje.

Talla Talla PesoModel Entren. Voc. ML WER

Trig. Lat. 40M 20K 16 13.7CJ00 20M 20K 16 13.0R01 1M 10K 15 15.1BS00 1M 10K 6 16.0Trig. Ref. 1M 10K 5 16.6No LM 16.8MLH-IO 1M 10k 6.1 16.2MLH-VS 1M 10K 6.4 16.2MLH-IOp 1M 10k 6.1 16.2MLH-VSp 1M 10K 5.4 16.2

En esta Tabla se muestra que nuestro modelo híbrido logró una mejora pequeña respecto altrigrama de referencia en relación a las mejoras obtenidas por los modelos de otros autores.

Se nota que a pesar de que el modelo híbrido con cada GIE lograba mejoras distintas deperplejidad estas no se virón reflejadas en este experimento. Adicionalmente, los demás au-tores con perplejidad del mismo orden de magnitud que la nuestra lograron mejores resulta-dos [Roa01].

Los buenos resultados que son presentados en [CJ00] pueden deberse a que utilizan uncorpus mayor para el entrenamiento de sus modelos y a que calcula la tasa de error por palabradirectamente de la lattice. Si comparamos nuestro modelo híbrido con los autores que utilizaroncorpus con la misma talla para el entrenamiento, se puede observar que nuestros resultadosfueron similares a los presentados en [GSB03] en tasa de error por palabra (columna WER) y enel peso del modelo de lenguaje (columna Peso ML). Sin embargo, si nos comparamos con losresultados presentados en [Roa01], estos fueron mejores en tasa de error por palabra y el pesode su modelo fue mayor. Esto puede deberse a que nuestros modelos no son suficientementericos estructuralmente, mientras que los presentados en [Roa01] utilizan información léxica.

76 CAPÍTULO 5. EXPERIMENTACIÓN

Resultados con el corpus Bllip

A continuación describimos los resultados con el modelo de lenguaje híbrido que fue esti-mado con todo el corpus Bllip. El modelo estructural de este modelo utiliza una GIE estimadacon el algoritmo VSP (ver Tabla 5.9).

En la Tabla 5.12 se muestran las mejores tasa de error por palabra respecto al peso quetiene el trigrama en el modelo de lenguaje híbrido.

Tabla 5.12: Resultados de la tasa de error por palabra (WER) para el modelo de lenguaje híbridoestimado con el Bllip, usando el mejor peso para el modelo de lenguaje.

Talla Talla PesoModel Entren. Voc. ML WER

Trig. Ref. 40M 20K 19.6 11.3MLH-VSp 40M 20K 19.6 11.2

En esta tabla se observa que el peso del modelo de lenguaje se incrementó, siendo inclusomayor (columna Peso ML) que el presentado por otros autores ( ver Tabla 5.11 ). Esto pudodeberse a que al ser el modelo entrenado con más datos, la gramática recogió más información.

Por otro lado las mejoras en tasa de error por palabra son muy pequeñas. Sin embargo,hay que notar que el trigrama de referencia bajó varios puntos respecto al trigrama usado en elcorpus UPenn Treebank.

5.3. Conclusiones

En este capítulo se revisaron experimentalmente algunas características de los algoritmosde estimación de las GIE y del modelo híbrido que se generan a partir de las GIE.

Respecto a los algoritmos de estimación, en el experimento que se realizó, los algoritmosconvergieron en un número pequeño de iteraciones, en especial el algoritmo VSP ; por otro lado,se observo que los modelos estimados acumularon la mayor parte de la masa de probabilidaden la mejor derivación. Respecto al coste empírico de cada algoritmo, se comentaron algunosfactores que pueden influir en el menor coste empírico del algoritmo VS respecto al inner-outer; también se observó un menor tamaño en las listas de ítemes que generan los algoritmosque utilizan información estructural. Esto podría ser el factor que favorece su menor costerespecto a los que utilizan sólo información estadística.

Respecto al modelos de lenguaje híbrido, este se evalúo con los indicadores de perpleji-dad por palabra y tasa de error por palabra. En la perplejidad, todos los modelos estimadosobtuvieron mejoras notables respecto al trigrama de referencia. Además, sus resultados fueroncompetitivos respecto a los presentados por otros autores. Con el indicador de tasa de error

5.3. CONCLUSIONES 77

por palabras también se consiguieron mejoras respecto al trigrama, aunque estas fueron menossignificativas.

Para validar el modelo híbrido en tareas reales con grandes vocabularios, los componentesdel modelo híbrido fueron estimados con dos corpus: el corpus UPenn Treebank, que tiene unmillón de palabras y lo utilizamos con un vocabulario de 10, 000 palabra; y el corpus Bllip, quetiene aproximadamente 40 millones de palabras y lo utilizamos con un vocabulario de 20, 000palabras.

Capítulo 6

Conclusiones y trabajos futuros

Conclusiones

En esta tesis se han estudiado las GIE generales, en particular se estudió la inicializacióna partir de un corpus tipo treebank, su estimación a partir de un subconjunto de derivaciones ysu integración en tareas de modelización del lenguaje.

Respecto a la inicialización de las GIE utilizando un corpus treebank, se encontró que estosmodelos son ricos estructuralmente lo que permite que el ajuste de sus parámetros se puedarealizar con pocas iteraciones de un algoritmo de estimación. Cuando estos modelos inicialesfueron evaluados en términos de la perplejidad por palabra, sus resultados fueron satisfactorios,y produjeron algunas mejoras respecto a los trigramas en los modelos híbridos en las que seintegraron.

Respecto a la estimación de las GIE generales:

1. Se unificó en un solo marco todos los algoritmos de estimación estudiados: inner-outer,VS, nner-outerP y VSP . Para esto se definió un conjunto de derivaciones que al restrin-girse adecuadamente representaba a cada algoritmo de estimación.

2. Se definieron algoritmos que utilizan la información estructural para realizar el procesode estimación. Para ello se presentaron un conjunto de funciones auxiliares que per-mitieron restringir el conjunto de derivaciones de una GIE general a aquellas que soncompatibles con la información estructural presente en las cadenas del corpus. Con elconjunto que solo utiliza la mejor derivación compatible con la muestra se definió el al-goritmo VSP , y con el conjunto que utiliza todas las derivaciones generadas por la GIEcompatibles con esta información estructural se definió el algoritmo inner-outerP .

También se revisó experimentalmente la estimación de las GIE generales. En el experimen-to que se realizó los algoritmos convergieron en un número pequeño de iteraciones, en especialel algoritmo VSP ; por otro lado, los modelos estimados acumularon la mayor parte de la ma-sa de probabilidad en la mejor derivación. Respecto al coste empírico de cada algoritmo, se

79

80 CAPÍTULO 6. CONCLUSIONES Y TRABAJOS FUTUROS

comentaron algunos factores que pueden influir en el menor coste empírico del algoritmo VSrespecto al inner-outer; también se observó un menor tamaño en las listas de ítemes que gene-ran los algoritmos que utilizan información estructural, esto podría ser el factor que favorecesu menor coste respecto a los que utilizan sólo información estadística.

Respecto a la incorporación de las GIE en tareas de modelización del lenguaje se propu-so un modelo híbrido como una combinación lineal de un trigrama y un modelo estructural.Para resolver el problema que tienen las GIE con los vocabularios grandes el modelo estruc-tural se definió como una combinación de una GIE de categorías y un modelo estocástico dedistribución de palabras en categorías.

Los resultados de este modelo híbrido fueron satisfactorios, este mostró mejoras respecto alos trigramas, y sus resultados fueron competitivos con los modelos de lenguaje de otros auto-res. Los mejores resultados se obtuvieron con el indicador de perplejidad por palabra. Cuandose evaluó su bondad con el indicador de tasa de error por palabra, se obtuvieron pequeñasmejoras.

Las tareas para evaluar tanto los modelos de lenguaje como los algoritmos de estimaciónfueron el UPenn Treebank y el corpus Bllip, el tamaño de estos corpus permitió comprobar laviabilidad del modelo híbrido en tareas reales de modelado de lenguaje.

Trabajos futuros

Existen algunos temas no desarrollados en esta tesis respecto a las GIE generales que seríainteresante cubrir:

Un aspecto a estudiar es el comportamiento de las GIE generales con otro tipo de ini-cialización. En una línea similar a la propuesta aquí está el trabajo de [NBS01] conGIE una extraídas de un corpus usando el algoritmo de Sakakibara y luego convertidaa FNC. También se pueden explorar otros métodos inductivos de la inferencia gramati-cal [Mar74, Che96].

Una debilidad que se le atribuye a las GIE es su incapacidad para expandir una determi-nada regla dependiente de las palabras del contexto. En ese campo, el enriquecimientode las GIE con información léxica ha permitido obtener resultados importantes en tareasde modelización del lenguaje [CJ00, Roa01]. La manera más común de lexicalizar unaGIE es marcando cada no terminal de la GIE con el constituyente principal de la frase.Otra manera de tener modelos más “contextualizados” es construir las reglas utilizandopara la parte derecha de la regla, la información de un nodo padre o más informaciónextra. El ajuste de los parámetros de este tipo de reglas es un trabajo que se puede hacerde manera sencilla con los algoritmos de estimación descritos en esta tesis.

En cuanto al modelo de lenguaje híbrido, éste se ha definido como una simple com-binación lineal entre el modelo estructural y un n-grama. En esta parte se pueden ex-plorar otras posibilidades de combinación de estos modelos en la línea de otros auto-res [JWS+95, Roa01].

81

También sería interesante explorar las GIE estimadas en otras tareas como la desam-biguación léxica, o el etiquetado de corpus. Algunas resultados preliminares sobre eti-quetado de corpus utilizando una GIE general estimadas con el algoritmo VS fueronpublicadas por el autor en [LBS03d], otro trabajo es el de [Cha96]. Sin embargo, esnecesario un estudio más profundo para lograr éxito en estas tareas.

Publicaciones derivadas de esta investigación

Algunas de las aportaciones de esta tesis han sido ya publicadas:

Todos las publicaciones utilizaron la inicialización treebank, pero este tipo de inicializa-ción se evalúa con más detalle en [LBS03d].

La estimación de las GIE utilizando información estructural se reporta en [LBS03a].

La aplicación de las GIE como modelo de lenguaje evaluada en términos de perplejidady tasa de error por palabra se reporto en [LBS03c]

La experimentación del modelo híbrido utilizando los cuatro algoritmos de estimaciónestudiados aquí se presentaron en [LBS03b]

Bibliografía

[AB01] F. Amaya and J.M. Benedí. Improvement of a whole sentence maximum entropylanguage model using grammatica features. In proc. of the 39th mmeting of theassociation for computational linguistics. ACL, 2001.

[ABS99] F. Amaya, J.M. Benedí, and J.A. Sánchez. Learning of stochastic context-freegrammars from bracketed corpora by means of reestimation algorithms. In M.I.Torres and A. Sanfeliu, editors, Proc. VIII Spanish Symposium on Pattern Recog-nition and Image Analysis, pages 119–126, Bilbao, España, May 1999. AERFAI.

[AU72] A.V. Aho and J.D. Ullman. The theory of parsing, translation, and compiling.Volumen I: parsing. Prentice-Hall, 1972.

[Bak79] J.K. Baker. Trainable grammars for speech recognition. In Klatt and Wolf, edi-tors, Speech Communications for the 97th Meeting of the Acoustical Society ofAmerica, pages 31–35. Acoustical Society of America, June 1979.

[Bau72] L.E. Baum. An inequality and associated maximization technique in statisticalestimation for probabilistic functions of markov processes. Inequalities, 3:1–8,1972.

[BBdSM89] L.R. Bahl, P.E. Brown, P.V. de Souza, and R.L. Mercer. A tree based statisticallanguage model for natural language speech recognition. IEEE Trans. Speechand Audio Processing, 37(7):1001–1008, 1989.

[BdM+92] P.F. Brown, P.V. deSouza, R.L. Mercer, V.J.Della Pietra, and J.C. Lai. Class-basedn-gram models of natural language. Computational Linguistics, 18(4):467–479,1992.

[BE67] L.E. Baum and J.A. Eagon. An inequality with applications to statistical predic-tion for functions of markov chains. Bull. Amer. Math. Soc., 73:360–363, 1967.

[Bel98] J.R. Bellegarda. A multispan language modeling framework for large vocabularyspeech recognition. IEEE Trans. Speech and Audio Processing, 6(5):456–476,1998.

83

84 BIBLIOGRAFÍA

[Bel00] J.R. Bellegarda. Large vocabulary speech recognition with multispan statisticallanguage models. IEEE Transactions on Speech and Audio Processing, 8(1):76–84, 2000.

[BJM83] L.R. Bahl, F. Jelinek, and R.L. Mercer. A maximum likelihood approach to con-tinuous speech recognition. IEEE Trans. Pattern Analysis and Machine Intelli-gence, PAMI-5(2):179–190, 1983.

[BPPM93] P.F. Brown, S.A. Della Pietra, V.J. Della Pietra, and R.L. Mercer. The mathe-matics of statistical machine translation: parameter estimation. ComputationalLinguistics, 19(2):263–311, 1993.

[BS68] L.E. Baum and G.R. Sell. Growth transformation for functions on manifolds.Pcific J. Mathematics, 27(2):211–227, 1968.

[BS00] J.M. Benedí and J.A. Sánchez. Combination of n-grams and stochastic context-free grammars for language modeling. In Proceedings of COLING, pages 55–61,Saarbrücken, Germany, 2000. International Committee on Computational Lin-guistics.

[BS03] J.M. Benedí and J.A. Sánchez. Estimation of stochastic context-free grammarsand their use as language models. Computer Speech and Language, 2003. Inrevision.

[BT73] T.L. Booth and R.A. Thompson. Applying probability measures to abstract lan-guages. IEEE Transactions on Computers, C-22(5):442–450, May 1973.

[Cas96] F. Casacuberta. Growth transformations for probabilistic functions of stochasticgrammars. IJPRAI, 10(3):183–201, 1996.

[Cha96] E. Charniak. Tree-bank grammars. Technical report, Departament of ComputerScience, Brown University, Providence, Rhode Island, January 1996.

[Cha00] E. Charniak. A maximum-entropy-inspired parser. In Proceedings of NAACL,pages 132–139, Seattle, WA, 2000.

[Cha01] E. Charniak. Immediate-head parsing for language models. In Proceedings ofthe 39th Annual Meeting of the Association for Computational Linguistics, pages116–123, Toulouse, July 2001. Association for Computational Linguistics.

[Che96] S.F. Chen. Bayesian Grammar Induction for Language Modeling. Ph. d. disser-tation, Harvard University, 1996.

[CJ98] C. Chelba and F. Jelinek. Exploiting syntactic structure for language modeling.In Proc. COLING, pages 225–231, Montreal, Canada, 1998. International Com-mittee on Computational Linguistics.

BIBLIOGRAFÍA 85

[CJ00] C. Chelba and F. Jelinek. Structured language modeling. Computer Speech andLanguage, 14:283–332, 2000.

[CPG83] R. Chaudhuri, S. Pham, and O.N. Garcia. Solution of an open problem on proba-bilistic grammars. IEEE Transactions on Computers, C-32(8):748–750, August1983.

[CRA76] C.M. Cook, A. Rosenfeld, and A.R. Aronson. Grammatical inference by hillclimbing. Informational Sciences, 10:59–80, 1976.

[DEKM98] R. Durbin, S. Eddy, A. Krogh, and G. Mitchison. Biological sequence analysis:probabilistic models of proteins and nucleic acids. Cambridge University Press,1998.

[Dup93] P. Dupont. Efficient integration of context-free grammars based language mo-dels in continuous speech recognition. In New Advances and Trends in SpeechRecognition and Coding, pages 179–182. NATO ASI, 1993.

[Ear70] J. Earley. An efficient context-free parsing algorithm. Communications of theACM, 8(6):451–455, 1970.

[FB75a] K.S. Fu and T.L. Booth. Grammatical inference: Introduction and survey–part i.IEEE Trans. on System, Man and Cybernetics, SMC-5(1):95–111, January 1975.

[FB75b] K.S. Fu and T.L. Booth. Grammatical inference: Introduction and survey–part ii.IEEE Trans. on System, Man and Cybernetics, SMC-5(4):409–423, July 1975.

[Fu82] K.S. Fu. Syntactic Pattern Recognition and Applications. Prentice-Hall, 1982.

[GHR80] Susan L. Graham, Michael A. Harrison, and Walter L. Ruzzo. An improvedcontext-free recognizer. ACM Transactions on Programming Languages and Sys-tems, 2(3):415–462, 1980.

[Goo53] I.J. Good. The population frequencies of species and the estimation of populationparameters. Biometrika, 40(3 and 4):237–264, 1953.

[Goo01] J.T. Goodman. A bit of progress in language modeling. Computer Speech anLangauage, pages 403–434, 2001.

[GSB03] J. García, J.A. Sánchez, and J.M. Benedí. Performance and improvements of alanguage model based on stochastic context-free grammars. In IbPRIA: IberianConference on Pattern Recognition and Image Analysis, June 2003.

[GT78] R.C. González and M.G. Thomason. Syntactic Pattern Recognition: an Introduc-tion. Addisson-Wesley, 1978.

86 BIBLIOGRAFÍA

[GW98] J. Gilet and W. Ward. A language model combining trigrams and stochasticcontext-free grammars. In In 5th International Conference on Spoken LanguageProcessing, pages 2319–2322, Sidney, Australia, 1998.

[Hor69] J. J. Horning. A Study of Grammatical Inference. Ph. d. dissertation, Dep. Com-put. Sci. Stanford Univ., Stanford, Calif., 1969.

[HU79] J.E. Hopcroft and J.D. Ullman. Introduction to Automata Theory, Languages andComputation. Addison-Wesley, 1979.

[IB00] Y.A. Ivanov and A.F. Bobick. Recognition of visual activities and interactions bystochastic parsing. IEEE Transactions on Pattern Analysis and Machine Intelli-gence, 22(8), 2000.

[JA93] Michele Jardino and Gilles Adda. Automatic word classification using simulatedannealing. In ICASSP’93, Minneapolis, USA, 1993.

[Jel76] F. Jelinek. Continuous speech recognition by statistical methods. IEEE,64(4):532–556, 1976.

[Jel98] F. Jelinek. Statistical Methods for Speech Recognition. MIT Press, 1998.

[JL91] F. Jelinek and J.D. Lafferty. Computation of the probability of initial subs-tring generation by stochastic context-free grammars. Computational Linguistics,17(3):315–323, 1991.

[JLM92] F. Jelinek, J.D. Lafferty, and R.L. Mercer. Basic methods of probabilistic context-free grammars. In P. Laface and R. De Mori, editors, Speech Recognition andUnderstanding. Recent Advances, pages 345–360. Springer-Verlag, 1992.

[Joh98] M. Johnson. PCFG models of linguistic tree representations. ComputationalLinguistics, 24(4):613–632, 1998.

[JWS+95] D. Jurafsky, C. Wooters, J. Segal, A. Stolcke, E. Fosler, G. Tajchman, and N. Mor-gan. Using a stochastic context-free grammar as a language model for speechrecognition. In Proc. ICASSP-95, pages 189–192, 1995.

[Kat87] Slava M. Katz. Estimation of probabilities from sparse data for the language mo-del component of a speech recognizer. IEEE Transactions on Acoustics, Speechand Signal Processing, ASSP-35(3):400–401, 1987.

[KCG90] Mark D. Kernighan, Kenneth W. Church, and William A. Gale. A spelling correc-tion program based on a noisy channel model. In In Proceedings of COLING-90,pages 205–210, 90.

[KL97] B. Keller and R. Lutz. Learning stochastic context-free grammars from corporausing a genetic algorithm. In Proceedings International Conference on ArtificialNeural Networks and Genetic Algorithms (ICANNGA-97), 1997.

BIBLIOGRAFÍA 87

[LBS03a] D. Linares, J.M. Benedí, and J.A. Sánchez. Earley-based stochastic context-freegrammar estimation from bracketed corpora and its use in a hybrid language mo-del. In Proceeding of the SEPLN: XIX Congreso de la Sociedad Española parael Procesamiento del Lenguaje Natural, pages 183–190, Septiembre 2003.

[LBS03b] D. Linares, J.M. Benedí, and J.A. Sánchez. A hybrid language model based on acombination of n-grams and stochastic context-free grammars. Recent Advancesin Statistical Language Modeling Beyond N-grams. Special issue of ACM Tran-sactions on Asian Language Information Processing (TALIP), 2003. submitted.

[LBS03c] D. Linares, J.M. Benedí, and J.A. Sánchez. A hybrid language model basedon stochastic context-free grammars. In C. de la Higuera, P. Adriaans, M. VanZaanen, and J. Oncina, editors, Proceeding of the Workshop and tutorial on Lear-ning context-free grammars, pages 41–52. 14th European Conference on Machi-ne Learnig and 7th European conference on Principles and Practice on Knowled-ge Discovery in Databases, September 2003.

[LBS03d] D. Linares, J.M. Benedí, and J.A. Sánchez. Learning of stochastic context-freegrammars by means of estimation algorithms and initial treebank grammars. InIbPRIA: Iberian Conference on Pattern Recognition and Image Analysis, pages403–410, June 2003.

[LGF00] Steve Lawrence, C. Lee Giles, and Sandiway Fong. Natural language grammati-cal inference with recurrent neural networks. IEEE Transactions on Knowledgeand Data Engineering, 12(1):126–140, 2000.

[LY90] K. Lari and S.J. Young. The estimation of stochastic context-free grammars usingthe inside-outside algorithm. Computer, Speech and Language, 4:35–56, 1990.

[LY91] K. Lari and S.J. Young. Applications of stochatic context-free grammars usingthe inside-outside algorithm. Computer, Speech and Language, pages 237–257,1991.

[M92] E. Mäkinen. On the structural grammatical inference problem for some classesof context-free grammars. Information Processing Letters, April(42):1–5, 1992.

[Mar74] F. J. Maryanski. Inference of Probabilistic Grammars. Ph. d. dissertation, Dep.Elec. Eng. and Comput. Sci. Univ. Connecticut Storrs, Ct, July 1974.

[MKP00] S.C. Martin, A. Kellner, and T. Portele. Interpolation of stochastic grammar andword bigram models in natural language understanding. In International Confe-rence on Spoken Language Processing, Beijing, China, 2000.

[Moo00] Robert C. Moore. Improved left-corner chart parsing for large context-free gram-mars. In Bunt, Carroll, and Satta, editors, New Developments in Parsing Techno-logy, pages 171–182, trento, italy, 2000. Sixth International Workshop on ParsingTechnologies, IWPT.

88 BIBLIOGRAFÍA

[MSM93] M.P. Marcus, B. Santorini, and M.A. Marcinkiewicz. Building a large annotatedcorpus of english: the Penn Treebank. Computational Linguistics, 19(2):313–330, 1993.

[NBS01] F. Nevado, J.M. Benedí, and J.A. Sánchez. Lexical decoding based on the com-bination of category-based stochastic models and word-category distribution mo-dels. In J.S. Sánchez and F. Pla, editors, Proc. IX Spanish Symposium on PatternRecognition and Image Analysis, pages 183–188, Castelló, España, May 2001.AERFAI.

[NEK94] H. Ney, U. Essen, and R. Knesser. On structuring probabilistic dependences instochastic language modelling. Computer, Speech and Language, 8:1–38, 1994.

[Ney92] H. Ney. Stochastic grammars and pattern recognition. In P. Laface and R. DeMori, editors, Speech Recognition and Understanding. Recent Advances, pages319–344. Springer-Verlag, 1992.

[NSB00] F. Nevado, J.A. Sánchez, and J.M. Benedí. Combination of estimation algorithmsand grammatical inference techniques to learn stochastic context-free grammars.In Arlindo L. Oliveira, editor, Grammatical Inference and Applications, LNAI1891, pages 196–206. Springer-Verlag, 2000.

[PC98] Jay M. Ponte and W. Bruce Croft. A language modeling approach to informationretrieval. In Research and Development in Information Retrieval, pages 275–281,1998.

[PN02] P. Pawar and G. Nagaraja. Regular grammatical inference: A genetic algorithmapproach. In Proceedings of AFSS International Conference on Fuzzy System,pages 429–435, Calcutta, 2002. Springer-Verlag.

[PS92] F. Pereira and Y. Schabes. Inside-outside reestimation from partially bracketedcorpora. In Proceedings of the 30th Annual Meeting of the Association for Com-putational Linguistics, pages 128–135. University of Delaware, 1992.

[Roa01] B. Roark. Probabilistic top-down parsing and language modeling. ComputationalLinguistics, 27(2):1–24, 2001.

[Ros95] R. Rosenfeld. The cmu statistical language modeling toolkit and its use in the1994 arpa csr evaluation. In ARPA Spoken Language Technology Workshop, Aus-tin, Texas, USA, 1995.

[Sak90] Y. Sakakibara. Learning context-free grammars from structural data in polyno-mial time. Theoretical Computer Science, 76:223–242, 1990.

[Sak92] Y. Sakakibara. Efficient learning of context-free grammars from positive structu-ral examples. Information and Computation, 97:23–60, 1992.

BIBLIOGRAFÍA 89

[Sak97] Y. Sakakibara. Recent advances of grammatical inference. Theroetical ComputerScience, 185:15–45, 1997.

[SB97] J.A. Sánchez and J.M. Benedí. Computation of the probability of the best deriva-tion of an initial substring from a stochastic context-free grammar. In A. Sanfe-liu, J.J. Villanueva, and J. Vitrià, editors, Proc. VII Spanish Symposium on PatternRecognition and Image Analysis, pages 181–186, Barcelona, España, April 1997.AERFAI.

[SB98] J.A. Sánchez and J.M. Benedí. Estimation of the probability distributions of sto-chastic context-free grammars from the k-best derivations. In In 5th InternationalConference on Spoken Language Processing, pages 2495–2498, Sidney, Austra-lia, 1998.

[SB99] J.A. Sánchez and J.M. Benedí. Learning of stochastic context-free grammars bymeans of estimation algorithms. In Proc. EUROSPEECH’99, volume 4, pages1799–1802, Budapest, Hungary, 1999.

[ScB92] Rohini Srihari and charlotte Baltus. Combining statistical and syntactic methodsin recognizing handwritten sentences. In In AAAI symposium: Probabilistic Ap-proaches to Natural Language, pages 121–127, 1992.

[SO00] M. Siu and M. Ostendorf. Variable n-grams and extensions for conversatio-nal speech language modeling. IEEE Trans. on Speech and Audio Processing,8(1):63–75, 2000.

[SR99] C. Samuelsson and W. Reichl. A class-based language model for large-vocabulary speech recognition extracted from part-of-speech statistics. In Pro-ceedings of ICASSP, pages 537–540, 1999.

[Sto94] A. Stolcke. Bayesian Learning of Probabilistic Language Models. PhD thesis,University of California, Berkeley, CA., 1994.

[Sto95] A. Stolcke. An efficient probabilistic context-free parsing algorithm that compu-tes prefix probabilities. Computational Linguistics, 21(2):165–200, 1995.

[Sán99] J.A. Sánchez. Estimación de gramáticas incontextuales probabilísticas y su apli-cación en modelización del lenguaje. Ph. d. dissertation, Universidad Politécnicade Valencia, 1999.

[Val75] L.G. Valiant. General context-free recognition in less than cubic time. Journal ofComputer and System Sciences, 2(10):308–315„ 1975.

[Wet80] C.S. Wetherell. Probabilistic languages: A review and some open questions.Computing Surveys, 12(4):361–379, 1980.

90 BIBLIOGRAFÍA

[You67] D. H. Younger. Recogniton and parsing of context-free languages in time n3.Information and Control, 10(2):189–208, 1967.

Algunas demostraciones

Cálculo y existencia de las matrices RU y RL

A continuación vamos a demostrar que el cálculo de la definición 2.29 y 2.31 es posible sila GIE no tiene símbolo inútiles. La demostración que presentamos aquí es similar a la que sepresenta en [Sto95]:

Dado que ambos cálculos y demostraciones son idénticas sólo demostraremos la propiedadpara la relación estocástica transitiva left-corner, RL(A,B) = Pr(A

∗⇒L B).

La definición de este cálculo está representado por la suma infinita:

Pr(A∗⇒L B) = p(A = B)

+ p(A→L B)

+∑

C1

p(A→L C1)p(C1 →L B)

+∑

C1,C2

p(A→L C1)p(C1 →L C2)p(C2 →L B)

+ · · ·

La anterior expresión se puede expresar de manera recurrente:

Pr(A∗⇒L B) = δ(A,B) +

C

p(A→L C) Pr(C∗⇒L B),

donde δ(x, y) = 1 si X = Y y δ(x, y) = 0 si X 6= Y .

También se puede expresar en forma matricial:

RL = I + PLRL

que se resuelve como:RL = (I − PL)−1.

Propidad: Si G es una GIE sin símbolo inútiles, entonces los valores de la matriz P nL

tienden a cero cuando n tiende a infinito.

91

92

DemostraciónDada la matriz PL = (pij), 1 ≤ i, j ≤ |N |, pij representa la probabilidad de que el

no terminal Ai derive directamente el no terminal Aj como no terminal más a la izquierda

en una de sus reglas. De forma análoga, en la matriz P nL = (p

(n)ij ), n ≥ 1, p

(n)ij representa

la probabilidad de que el no terminal Ai derive el no terminal Aj como no terminal más a

la izquierda con n − 1 no terminales intermedios. Si la GIE no contiene símbolo inútiles p(n)ij

tiende a cero cuando n tiende a infinito, por lo que la suma PL +P 2L +P 3

L + · · · es convergente.

Cálculo de la expresión de la definición 3.7

En esta sección vamos a demostrar la expresión que se presenta en la definición 3.7:

∞∑

k=r

P kU (B,C) = P k

U (B,C)RU(B,C).

Dada la matriz PU = (pij), 1 ≤ i, j ≤ |N |, pij representa la probabilidad de que el noterminal Ai derive directamente directamente al no terminal Aj , sea S la suma que estamosinteresados en encontrar:

S = P kU + P k+1

U + · · ·

SPU = P k+1U + P k+2 · · ·

S − SPU = P kU

S(I − PU ) = P kU

S = P k(I − PU )−1.

Utilizando la definición de relación unitaria estocástica (ver apartado anterior):

S = P kURU .

Expresión de la tranformación para la función de verosimilitud dela muestra

En esta sección derivaremos la expresión 3.3 utilizando el hecho de que la función deverosimilitud de una muestra es un polinomio definido en los términos de Teorema 3.1.1.

93

Sea Ge = (G, p) una GIE, y sea Ω una muestra de L(G), es decir, un conjunto de cadenasde L(G) en el cual puede haber cadenas repetidas. El logaritmo de la función de verosimilitudde la muestra Ω dada la GIE Ge se define como:

ln Pr(Ω | Ge) = ln∏

x∈Ω

Pr(x | Ge). (6.1)

Puesto que esta función es un polinomio que cumple las condiciones del Teorema 3.1.1, sepuede definir una transformación ∀(A→ α) ∈ P como:

p(A→ α) =p(A→ α)

(∂ ln Pr(Ω|Ge)

∂p(A→α)

)

∑(A→α)∈ΓA

p(A→ α)(

∂ ln Pr(Ω|Ge)∂p(A→α)

) .

Por el Teorema 3.1.1 esta transformación permite obtener una GIE Gp = (G, p) tal que Pr(Ω |Gp) > Pr(Ω | Ge) a no ser que p = p.

Resolviendo parcialmente la expresión anterior la transformación que obtenemos ∀(A →α) ∈ P es:

p(A→ α) =

∑x∈Ω

1Pr(x|Ge)p(A→ α)

(∂ Pr(x|Ge)∂p(A→α)

)

∑x∈Ω

1Pr(x|Ge)

∑(A→α)∈ΓA

p(A→ α)(

∂ Pr(x|Ge)∂ Pr(A→α)

) . (6.2)

Para resolver la expresión anterior vamos a resolver previamente parte de su numeradorhaciendo uso de las expresiones de las definiciones 2.20 y 2.21:

p(A→ α)

(∂ Pr(x | Ge)

∂p(A→ α)

)= p(A→ α)

dx∈Dx

(∂ Pr(x, dx | Ge)

∂p(A→ α)

)

=∑

dx∈Dx

N(A→ α, dx) Pr(x, dx | Ge).

Resolvemos a continuación parte del denominador de (6.2) haciendo uso de la expresiónanterior y teniendo en cuenta que el número de veces que el no terminal A ha sido derivado endx es N(A, dx) =

∑(A→α)∈ΓA

N(A→ α, dx) :

(A→α)∈ΓA

p(A→ α)

(∂ Pr(x | Ge)

∂p(A→ α)

)

=∑

(A→α)∈ΓA

dx∈Dx

N(A→ α, dx) Pr(x, dx | Ge)

=∑

dx∈Dx

N(A, dx) Pr(x, dx | Ge).

Finalmente, la expresión (6.2) queda ∀(A→ α) ∈ P como:

p(A→ α) =

∑x∈Ω

1Pr(x|Ge)

∑dx∈Dx

N(A→ α, dx) Pr(x, dx | Ge)∑

x∈Ω1

Pr(x|Ge)

∑dx∈Dx

N(A, dx) Pr(x, dx | Ge). (6.3)