universidad politØcnica de valencia · universidad politØcnica de valencia departamento de...

Universidad Politécnica de ValenciaDepartamento de Sistemas Informáticos y Computación

Desambiguación en procesamiento del lenguajenatural mediante técnicas de aprendizaje automático

Antonio Molina Marco

Memoria para optar al grado de Doctor en Informática

bajo la dirección de

Dra. Lidia Ana Moreno Boronat

Dra. Encarnación Segarra Soriano

Valencia, enero de 2004

A Isabel, Anabel y Nuria

Agradecimientos

Esta tesis es el resultado del trabajo realizado en el grupo de Procesamiento del LenguajeNatural del Departamento de Sistemas Informáticos y Computación de la UniversidadPolitécnica de Valencia. Terminarla no hubiera sido posible sin el ánimo, la colaboracióny el apoyo de muchas personas.

En primer lugar quisiera agradecer a Lidia Moreno y Encarna Segarra, mis directorasde tesis, por su apoyo, dedicación, consejos y observaciones durante la realización de estatesis. Lidia fue quien me introdujo en el campo del procesamiento del lenguaje naturalhace ya más de diez años y también gracias a ella comencé a impartir mis primeras clasesen este departamento.

También quisiera agradecer su apoyo a todos los componentes de este grupo de in-vestigación Nati Prieto, Emilio Sanchis, Paolo Rosso, Empar Bisbal y Ferran Pla. Es-pecialmente a éste último pues esta tesis no habría sido posible sin su labor previa deinvestigación, su estrecha colaboración y sus sugerencias. Hemos compartido muchashoras delante del ordenador implementando, lanzando experimentos, con muchas equi-vocaciones y algunos aciertos. Un recuerdo para todos los compañeros de la universidadde Alicante con los que hemos colaborado en diversos proyectos de investigación.

Por último, un cariñoso agradecimiento a las personas más cercanas, mis amigos ymi familia, a los que a partir de ahora podré dedicarles algo más de mi tiempo. A mimadre, por su esfuerzo y apoyo durante tantos años. A Isabel por su paciencia y aliento,a Anabel siempre esperando que su papá acabe la tesis y a la recién llegada Nuria.

Índice General

1 Introducción 1

1.1 Aproximaciones basadas en corpus . . . . . . . . . . . . . . . . . . . . . . . 4

1.2 Evaluación . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10

1.3 Objetivos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11

1.4 Esquema de la Tesis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13

2 Modelos ocultos de Markov 15

2.1 Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15

2.1.1 Modelos de Markov . . . . . . . . . . . . . . . . . . . . . . . . . . . 16

2.2 Descripción de un MM . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19

2.3 Probabilidad de una secuencia de observaciones . . . . . . . . . . . . . . . 21

2.4 Secuencia de estados más probable . . . . . . . . . . . . . . . . . . . . . . . 24

2.5 Estimación de los parámetros del modelo . . . . . . . . . . . . . . . . . . . 27

2.5.1 Entrenamiento no supervisado . . . . . . . . . . . . . . . . . . . . . 27

2.5.2 Entrenamiento supervisado . . . . . . . . . . . . . . . . . . . . . . . 29

2.5.3 Métodos de suavizado . . . . . . . . . . . . . . . . . . . . . . . . . . 30

2.5.4 Suavizado de las probabilidades de emisión. Tratamiento de pala-bras desconocidas . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35

2.6 Aplicaciones de los MM en PLN . . . . . . . . . . . . . . . . . . . . . . . . 38

3 Modelos de Markov Especializados 39

3.1 Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39

3.2 Construcción de un Modelo de Markov Especializado . . . . . . . . . . . . 43

3.2.1 Función de selección de los rasgos de entrada��

. . . . . . . . . . . 44

3.2.2 Función de especialización del conjunto de etiquetas de salida��

. 46

3.2.3 Etiquetado simultáneo . . . . . . . . . . . . . . . . . . . . . . . . . . 48

vii

viii Índice General

3.3 Ejemplo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48

3.4 Descripción del sistema de etiquetado . . . . . . . . . . . . . . . . . . . . . 53

3.4.1 Fase de aprendizaje . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54

3.4.2 Fase de etiquetado . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60

3.4.3 Resumen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61

4 Etiquetado morfosintáctico 63

4.1 Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63

4.2 Aproximaciones al etiquetado morfosintáctico de textos . . . . . . . . . . . 64

4.2.1 Reglas de Transformación (Transformation-based Learning, TBL) . . . 65

4.2.2 Máxima Entropía (ME) . . . . . . . . . . . . . . . . . . . . . . . . . . 65

4.2.3 Aprendizaje basado en memoria ( Memory-based learning, MBL) . . 65

4.2.4 Modelos ocultos de Markov (MM) . . . . . . . . . . . . . . . . . . . 66

4.3 MME para el etiquetado morfosintáctico . . . . . . . . . . . . . . . . . . . . 67

4.4 Resultados experimentales . . . . . . . . . . . . . . . . . . . . . . . . . . . . 70

4.4.1 Etiquetado del corpus Wall Street Journal . . . . . . . . . . . . . . . 70

4.4.2 Comparación de los MME con otras aproximaciones . . . . . . . . 76

4.4.3 Efecto de la especialización sobre las palabras difíciles . . . . . . . 78

4.4.4 Una comparativa más exhaustiva entre MME y ME . . . . . . . . . 78

4.4.5 Utilización de recursos lingüísticos . . . . . . . . . . . . . . . . . . . 80

4.4.6 Etiquetado del corpus español LexEsp . . . . . . . . . . . . . . . . . 82

4.5 Resumen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 83

5 Análisis sintáctico parcial 85

5.1 Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 85

5.2 Problemas de un analizador sintáctico completo . . . . . . . . . . . . . . . 86

5.3 Análisis sintáctico parcial . . . . . . . . . . . . . . . . . . . . . . . . . . . . 88

5.3.1 Definición de análisis parcial . . . . . . . . . . . . . . . . . . . . . . 89

5.3.2 Ventajas del análisis parcial . . . . . . . . . . . . . . . . . . . . . . . 90

5.3.3 Tipos de representación del análisis superficial. . . . . . . . . . . . 91

5.3.4 Medidas de evaluación de analizadores parciales . . . . . . . . . . 93

5.3.5 La tarea compartida sobre análisis superficial (CoNLL00) . . . . . . 94

5.4 Aproximaciones al análisis parcial . . . . . . . . . . . . . . . . . . . . . . . 99

5.4.1 Aproximaciones basadas en conocimiento . . . . . . . . . . . . . . 100

Índice General ix

5.4.2 Aproximaciones basadas en corpus . . . . . . . . . . . . . . . . . . 107

5.5 MME para la tarea de análisis superficial . . . . . . . . . . . . . . . . . . . 115

5.6 Comparación con otras aproximaciones . . . . . . . . . . . . . . . . . . . . 127

5.7 Una aproximación basada en conocimiento . . . . . . . . . . . . . . . . . . 129

5.7.1 Formato de los patrones sintácticos . . . . . . . . . . . . . . . . . . 130

5.7.2 Construcción de un AFD a partir de una ER . . . . . . . . . . . . . 130

5.7.3 Formatos de las cadenas de entrada y la salida de cada nivel . . . . 133

5.7.4 Algoritmo reconocedor de patrones . . . . . . . . . . . . . . . . . . 136

5.7.5 Compilación de estructuras de rasgos . . . . . . . . . . . . . . . . . 136

5.7.6 Niveles sintácticos definidos para el castellano . . . . . . . . . . . . 140

5.7.7 Resultados experimentales . . . . . . . . . . . . . . . . . . . . . . . 142

5.7.8 Comparativa con la aproximación de MME . . . . . . . . . . . . . . 144

5.8 Resumen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 147

6 Identificación de cláusulas 149

6.1 Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 149

6.2 La tarea compartida sobre detección de cláusulas (CoNLL01) . . . . . . . . 152

6.3 MME para la detección de cláusulas . . . . . . . . . . . . . . . . . . . . . . 158

6.3.1 Detección de comienzos y finales de cláusula . . . . . . . . . . . . . 160

6.3.2 Detección de cláusulas anidadas . . . . . . . . . . . . . . . . . . . . 164

6.3.3 Resumen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 168

7 Desambiguación del sentido de las palabras 171

7.1 Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 171

7.2 Senseval . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 172

7.3 Recursos disponibles para WSD . . . . . . . . . . . . . . . . . . . . . . . . . 175

7.3.1 WordNet . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 176

7.3.2 El corpus SemCor . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 180

7.4 Aproximaciones a WSD . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 181

7.4.1 Aproximaciones basadas en corpus . . . . . . . . . . . . . . . . . . 181

7.4.2 Aproximaciones basadas en conocimiento . . . . . . . . . . . . . . 187

7.5 MME para WSD . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 188

7.5.1 Resultados sobre SemCor . . . . . . . . . . . . . . . . . . . . . . . . . 190

7.5.2 Resultados sobre la tarea all-words de Senseval-2 . . . . . . . . . . . 195

x Índice General

7.6 Resumen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 196

8 Conclusiones y trabajos futuros 197

8.1 Aportaciones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 197

8.2 Trabajos futuros . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 200

A Descripción de los corpora 201

A.1 Corpus LexEsp . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 201

A.1.1 Estructura completa de las categorías morfosinácticas Parole . . . . 201

A.1.2 Categorías morfosintácticas Parole . . . . . . . . . . . . . . . . . . . 204

A.2 Corpus Wall Street Journal . . . . . . . . . . . . . . . . . . . . . . . . . . . . 205

A.2.1 Categorías morfosintácticas del Penn Treebank . . . . . . . . . . . . 205

A.2.2 Categorías sintácticas del Penn Treebank . . . . . . . . . . . . . . . . 206

A.2.3 Ejemplo de anotación de frase . . . . . . . . . . . . . . . . . . . . . 207

B Listados de palabras especializadas 209

B.1 Etiquetado morfosintáctico del WSJ . . . . . . . . . . . . . . . . . . . . . . 209

B.1.1 Criterio BIG-WHF . . . . . . . . . . . . . . . . . . . . . . . . . . . . 209

B.1.2 Criterio TRI-WHF . . . . . . . . . . . . . . . . . . . . . . . . . . . . 210

B.1.3 Criterio WCC . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 210

B.1.4 Criterio WTE . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 210

B.2 Etiquetado morfosintáctico de LexEsp . . . . . . . . . . . . . . . . . . . . . 210

B.2.1 Criterio WCC . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 210

B.3 Análisis parcial . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 211

B.3.1 Criterio WCC . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 211

B.3.2 Criterio WHF . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 211

B.3.3 Criterio WTE . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 211

B.3.4 Criterio WCH . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 212

B.3.5 Criterio WHF-BA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 212

B.4 Detección de cláusulas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 212

B.5 Desambiguación de sentidos de las palabras . . . . . . . . . . . . . . . . . 213

C Resultados adicionales de la experimentación 215

C.1 Etiquetado morfosintáctico . . . . . . . . . . . . . . . . . . . . . . . . . . . 215

Índice de Figuras

2.1 Modelo de Markov de 3 estados. . . . . . . . . . . . . . . . . . . . . . . . . 16

2.2 Modelo de Markov para predecir la secuencia de etiquetas morfosintácti-cas en un SN. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16

2.3 Modelo oculto de Markov para predecir la secuencia de etiquetas morfo-sintácticas en un SN. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19

2.4 Ejemplo de trellis para un MM ergódico. . . . . . . . . . . . . . . . . . . . . 22

2.5 Paso de inducción: la probabilidad �� se calcula sumando el productode las probabilidades de transición �� por la probabilidad forward del nodoorigen � . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23

2.6 Secuencia de operaciones requerida para calcular la probabilidad de atra-vesar un arco desde �� a �� en un instante � , ( �� ). . . . . . . . . . . . . . 28

2.7 Modelo de Markov expandido para el cómputo del factor de ponderación � . 32

3.1 Oración anotada con diversa información lingüística. . . . . . . . . . . . . 40

3.2 Ejemplo de reetiquetado del conjunto de entrenamiento para la tarea deanálisis superficial. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42

3.3 Efecto de la aplicación de la función de selección sobre la emisión de sím-bolos en los estados del modelo. . . . . . . . . . . . . . . . . . . . . . . . . 45

3.4 Precisión del etiquetado morfosintáctico después de añadir de 0 a 10 ras-gos binarios de forma aleatoria. . . . . . . . . . . . . . . . . . . . . . . . . . 46

3.5 Efecto de la aplicación de la función de especialización sobre la estructuradel modelo. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47

3.6 Modelos básico y especializados sin suavizado. . . . . . . . . . . . . . . . . 50

3.7 Trellis de programación dinámica. No se ha tenido en cuenta el suavizadodel modelo. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51

3.8 Procesos involucrados en la fase de aprendizaje. . . . . . . . . . . . . . . . 55

3.9 Esquema del proceso de etiquetado. . . . . . . . . . . . . . . . . . . . . . . 60

xi

xii Índice de Figuras

4.1 Efecto de la especialización sobre la topología de un MM de primer ordenpara el etiquetado morfosintáctico. . . . . . . . . . . . . . . . . . . . . . . . 69

4.2 Rendimiento del MME utilizando el criterio WHF y variando la talla delconjunto de palabras especializadas ( �� ) sobre el conjunto de desarrollo. 72

4.3 Intervalos de confianza para los modelos comparados en la validación cru-zada sobre el corpus WSJ (secciones 00 a 19) con un nivel de confianza del95%. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 75

4.4 Intervalos de confianza para las aproximaciones comparadas con un nivelde confianza del 95% . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77

5.1 Ejemplos de análisis completos y análisis parcial de "Luis ve al hombre conel telescopio". . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 89

5.2 Segmentación en chunks de la oración “El cartero da al hombre una carta.”utilizando distintos tipos de representación. . . . . . . . . . . . . . . . . . . 92

5.3 Bosque de análisis generado por Fidditch para la oración “’We have ap-proached them about a new venue for the meeting”. . . . . . . . . . . . . . 100

5.4 Proceso de análisis de la oración "the woman in the lab coat thought youwere sleeping". . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 103

5.5 Ejemplo de análisis sintáctico del analizador basado en AFD de Chanod. . 104

5.6 Ejemplo del resultado de aplicar la función�

sobre una muestra del corpusde entrenamiento. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 116

5.7 Evolución del factor F � sobre el conjunto de desarrollo, variando el con-junto de palabras seleccionadas �� en función de la frecuencia de apa-rición en el conjunto de entrenamiento, para los criterios

�� y�� . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 119

5.8 Evolución del factor F � sobre el conjunto de desarrollo, variando el con-junto �� en función de la frecuencia de aparición de las palabras enel conjunto de entrenamiento, para los criterios

�� y��

�� . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 120

5.9 Incremento en valor absoluto del factor F � para ciertos chunks sobre el con-junto de prueba utilizando MME. . . . . . . . . . . . . . . . . . . . . . . . . 123

5.10 Evolución del factor F � sobre el conjunto de prueba (sección 20 del WSJ),utilizando conjuntos de entrenamiento de diferente talla. . . . . . . . . . . 126

5.11 Esquema del analizador sintáctico parcial APOLN. . . . . . . . . . . . . . . 129

5.12 Esquema de definición de niveles. . . . . . . . . . . . . . . . . . . . . . . . 130

5.13 Ejemplo de definición de patrones sintácticos. . . . . . . . . . . . . . . . . . 131

Índice de Figuras xiii

5.14 Construcción del AFD correspondiente al patrón NSN -> (NC | NP)* (NC| NP). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 134

5.15 Ejemplos de AFDs generados. . . . . . . . . . . . . . . . . . . . . . . . . . . 135

5.16 Oración analizada por APOLN. . . . . . . . . . . . . . . . . . . . . . . . . . 136

5.17 Ejemplo de AFD modificado para almacenar la información del rasgo mor-fológico. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 139

5.18 Ejemplo de redefinición de patrones incluyendo compatibilidad y herenciade rasgos. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 140

6.1 Ejemplo de oración extraída del corpus WSJ anotada con las etiquetas POS,etiquetas de chunk y etiquetas de cláusula. . . . . . . . . . . . . . . . . . . . 155

6.2 Ejemplo del resultado de aplicar el mejor criterio (� �� ,

�� ) sobre una muestra del corpus de entrenamiento. . . . . . . . . 160

6.3 Factor F �� sobre el conjunto de desarrollo (sección 20 del corpus WSJ)para la Parte 1 y la Parte 2 de la tarea de detección de cláusulas combinandodistintos criterios de selección total y de especialización total. . . . . . . . 161

6.4 Factor F � sobre el conjunto de desarrollo (sección 20 del corpus WSJ) parala Parte 1 y la Parte 2 de la tarea de detección de cláusulas considerandocriterios de selección parcial y de especialización parcial sobre el rasgo �� .163

6.5 Factor F �� utilizando el conjunto de desarrollo (sección 20 del corpusWSJ) para la Parte 3 de la tarea de detección de cláusulas combinando dis-tintos criterios de selección total y de especialización total. . . . . . . . . . 166

6.6 Factor F � utilizando el conjunto de desarrollo (sección 20 del corpus WSJ)para la Parte 3 de la tarea de detección de cláusulas considerando crite-rios de selección parcial y de especialización parcial sobre el rasgo �� yenumeración de etiquetas de cláusula. . . . . . . . . . . . . . . . . . . . . . 167

7.1 Sentidos para la palabra tree en WordNet 1.6. . . . . . . . . . . . . . . . . . 179

7.2 Precisión del MME de primer orden variando la talla del conjunto de lemas( � ��

) tenidos en cuenta en la especialización. . . . . . . . . . . . . . . . 193

xiv Índice de Figuras

Índice de Tablas

2.1 Elementos de un MM. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20

3.1 Ejemplos de distintas secuencias de entrenamiento. . . . . . . . . . . . . . 49

4.1 Resultados de precisión de los diferentes criterios de especialización utili-zando bigramas y trigramas sobre el corpus WSJ en la partición de desarrollo. 74

4.2 Resultados de precisión media para la validación cruzada de los diferentescriterios de especialización utilizando bigramas y trigramas sobre el cor-pus WSJ (secciones 00 a 19). . . . . . . . . . . . . . . . . . . . . . . . . . . . 74

4.3 Precisión de etiquetado total, para las palabras conocidas y para las desco-nocidas para MM y MME sobre el corpus WSJ (conjunto de entrenamiento:secciones 00 a 19; conjunto de prueba: secciones 23 y 24). . . . . . . . . . . 76

4.4 Comparación entre diferentes etiquetadores sobre el corpus WSJ (conjuntode entrenamiento: secciones 00 a 19; conjunto de prueba: secciones 23 y 24). 77

4.5 Comparativa del error de etiquetado para las palabras con mayor error ab-soluto de etiquetado sobre el conjunto de prueba, para las diferentes apro-ximaciones. Sólo se muestran las palabras cuyo error absoluto disminuyecuando se utiliza el modelo TRI-WHF con respecto al modelo TRI. . . . . 79

4.6 Comparativa del error de etiquetado para las palabras con mayor ratiode error sobre el conjunto de prueba, para las diferentes aproximaciones.Sólo se muestran las palabras cuyo error absoluto no disminuye cuandose utiliza el modelo TRI-WHF con respecto al modelo TRI. . . . . . . . . . 80

4.7 Resultados de precisión media para la validación cruzada para las aproxi-maciones TRI, TRI-WHF y ME sobre el corpus WSJ (secciones 00 a 19). . . 81

4.8 Resultados de precisión para MM y MME, utilizando el Lexicón, sobre elcorpus WSJ (conjunto de entrenamiento: secciones 00 a 19; conjunto deprueba: secciones 23 y 24). . . . . . . . . . . . . . . . . . . . . . . . . . . . . 82

4.9 Precisión media de etiquetado sobre el corpus LexEsp utilizando MM yMME con el criterio WCC. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 83

xv

xvi Índice de Tablas

5.1 Cantidad de constituyentes básicos de cada tipo en el conjunto de apren-dizaje (secciones 15 a 18 del corpus WSJ). . . . . . . . . . . . . . . . . . . . 96

5.2 Resultados de los diferentes sistemas participantes en la tarea de detecciónde unidades sintácticas de CoNLL00. . . . . . . . . . . . . . . . . . . . . . . 99

5.3 Características de distintos sistemas de análisis parcial basados en cono-cimiento (I=Inglés; F=Francés; C=Castellano; Ch=Chunks; Cl=Cláusulas;R=Roles). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 106

5.4 Resumen de las distintas aproximaciones al análisis sintáctico superficialy parcial. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 115

5.5 Factor F � � � sobre el conjunto de desarrollo para la tarea de chunking combi-nando distintos criterios de selección y de especialización total utilizandoMM de primer orden. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 117

5.6 Factor F �� sobre el conjunto de desarrollo para la tarea de chunking com-binando distintos criterios de selección y de especialización total utilizandoMM de segundo orden. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 117

5.7 Factor F � sobre el conjunto de desarrollo para los criterios� ��

y�� , variando los conjuntos �� y �� . . . . . . . . 120

5.8 Resultados de chunking sobre el conjunto de desarrollo para el mejor cri-terio de selección (

�� ) y variando el criterio de especialización(�� ) utilizando modelos de segundo orden. . . . . . . . . 121

5.9 Incremento relativo de F � para los distintos criterios de selección y de es-pecialización definidos para modelos de segundo orden y guiados por laestrategia de búsqueda. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 121

5.10 Resultados de chunking sobre el conjunto de prueba para el mejor criteriode selección (

� �� ) y variando el criterio de especialización (��

�� ). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 122

5.11 Resultados de chunking para cada tipo de chunk sobre el conjunto de prue-ba (sección 20 del WSJ) utilizando el criterio WHF-BA. . . . . . . . . . . . 123

5.12 Incremento relativo sobre el factor F � para cada tipo de chunk sobre el con-junto de prueba (sección 20 del WSJ). . . . . . . . . . . . . . . . . . . . . . . 124

5.13 Mejores modelos para cada tipo de chunk según el resultado sobre el con-junto de desarrollo y diferencia respecto al criterio WHF-BA. . . . . . . . 124

5.14 Resultados de la combinación de distintos modelos mediante métodos ba-sados en votación. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 125

5.15 Resultados de chunking sobre el conjunto de prueba utilizando el conjuntode entrenamiento grande (secciones 00 a 19 del WSJ) e incremento respectoal conjunto de entrenamiento pequeño. . . . . . . . . . . . . . . . . . . . . 127

Índice de Tablas xvii

5.16 Factor� � obtenido por diferentes sistemas de análisis superficial y una

comparación de la información considerada por cada uno de ellos en elproceso de aprendizaje. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 128

5.17 Reglas para calcular �� , �� y �� . . . . . . . . . . . . 133

5.18 Resultados de precisión (P) y cobertura (C) para una tarea de chunking so-bre el corpus Pirapides. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 143

5.19 Resultados de precisión (P) y cobertura (C) para una tarea de chunking so-bre el corpus LexEsp. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 143

5.20 Gramática de chunks definida para el inglés. . . . . . . . . . . . . . . . . . . 145

5.21 Resultados de chunking para cada tipo de chunk sobre el conjunto de prue-ba (sección 20 del WSJ) utilizando el analizador parcial basado en e.r.. . . . 146

5.22 Comparación de las prestaciones (F � � � ) entre el analizador parcial basadoen e.r. y los MME sobre el conjunto de prueba (sección 20 del WSJ). . . . . 146

6.1 Resultados ofrecidos por los diferentes sistemas para el conjunto de pruebaen la Parte 1 –detección de comienzos– de la tarea de detección de cláusulas.156

6.2 Resultados ofrecidos por los diferentes sistemas para el conjunto de pruebaen la Parte 2 –detección de finales– de la tarea de detección de cláusulas. . 156

6.3 Resultados ofrecidos por los diferentes sistemas para el conjunto de pruebaen la Parte 3 –detección de cláusulas anidadas– de la tarea de detección decláusulas. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 157

6.4 Resultados de precisión, cobertura y factor F �� utilizando el conjunto dedesarrollo (sección 20 del corpus WSJ) ofrecidos por los mejores criteriosde selección y especialización. . . . . . . . . . . . . . . . . . . . . . . . . . . 163

6.5 Iteraciones con la estrategia de búsqueda para la Parte 1 y la Parte 2 de latarea de detección de cláusulas. . . . . . . . . . . . . . . . . . . . . . . . . . 164

6.6 Iteraciones con la estrategia de búsqueda para la Parte 3 de la tarea dedetección de cláusulas. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 168

6.7 Mejores criterios de selección y especialización para las tres partes de la tareade detección de cláusulas. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 169

6.8 Resultados de precisión, cobertura y factor F � sobre los conjuntos de desa-rrollo (sección 20 del corpus WSJ) y de prueba (sección 21 del corpus WSJ)ofrecidos por los mejores criterios de selección y especialización. . . . . . . 169

7.1 Resumen sobre la participación en Senseval-2 en las tareas lexical-sample(LS) y all-words (AW). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 173

7.2 Resultados de los sistemas participantes en la tarea all-words de Senseval-2. 175

xviii Índice de Tablas

7.3 Estadísticas sobre sentidos en WordNet 1.6. . . . . . . . . . . . . . . . . . . 179

7.4 Estadísticas sobre el corpus SemCor. . . . . . . . . . . . . . . . . . . . . . . 180

7.5 Precisión sobre SemCor con criterios de selección y de especialización totalutilizando MME de distinto orden. Las palabras vacías no se tienen encuenta en la especialización. . . . . . . . . . . . . . . . . . . . . . . . . . . . 191

7.6 Precisión sobre SemCor con criterios de selección y de especialización totalutilizando MME de distinto orden. Las palabras vacías se tienen en cuentaen la especialización. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 191

7.7 Precisión sobre SemCor de distintos modelos de bigramas especializados yno especializados. Las palabras vacías no se tienen en cuenta en la espe-cialización. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 193

7.8 Precisión sobre SemCor de distintos modelos de bigramas especializados yno especializados. Las palabras vacías se tienen en cuenta en la especiali-zación. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 194

7.9 Precisión sobre SemCor de distintos modelos de primer orden utilizando ladistribución de probabilidades de emisión extendida. Las palabras vacíasse tienen en cuenta en la especialización. . . . . . . . . . . . . . . . . . . . . 194

7.10 Precisión sobre SemCor de distintos modelos de primer orden utilizando ladistribución de probabilidades de emisión extendida. Las palabras vacíasno se tienen en cuenta en la especialización. . . . . . . . . . . . . . . . . . . 194

7.11 Precisión para la tarea all-words sobre los datos de prueba proporcionadospor Senseval-2 para el inglés. . . . . . . . . . . . . . . . . . . . . . . . . . . . 195

C.1 Resultados de precisión de la validación cruzada para los diferentes crite-rios de especialización utilizando bigramas sobre el corpus WSJ (secciones00 a 19). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 215

C.2 Resultados de precisión de la validación cruzada para los diferentes crite-rios de especialización utilizando trigramas sobre el corpus WSJ (secciones00 a 19). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 216

C.3 Resultados de precisión para cada una de las diez particiones de la valida-ción cruzada para los modelos MM, MME y ME. . . . . . . . . . . . . . . . 216

C.4 Resultados de precisión para cada una de las diez particiones de la valida-ción cruzada para el modelo básico TRI. . . . . . . . . . . . . . . . . . . . . 217

C.5 Resultados de precisión para cada una de las diez particiones de la valida-ción cruzada para el modelo TRI-WHF. . . . . . . . . . . . . . . . . . . . . 217

C.6 Resultados de precisión para cada una de las diez particiones de la valida-ción cruzada para la aproximación de ME. . . . . . . . . . . . . . . . . . . . 218

Capítulo 1

Introducción

El procesamiento del lenguaje natural (PLN) se define como una parte esencial de la In-teligencia Artificial que investiga y formula mecanismos computacionalmente efectivosque faciliten la interrelación hombre-máquina (Moreno et al., 1999). Un sistema de PLNsimula de forma parcial el comportamiento lingüístico humano. Para ello debe mode-lizar tanto las estructuras propias de lenguaje, como el conocimiento general acerca deluniverso del discurso, además de establecer mecanismos de razonamiento.

Un sistema de PLN debe ser capaz de manejar distintas fuentes de conocimiento lin-güístico: fonética, morfología, sintaxis, semántica, pragmática o conocimiento del dis-curso y conocimiento del mundo. Estas fuentes de conocimiento no son independientesentre sí, por lo que la interpretación final de una oración es el resultado de la interrelaciónde todas ellas. No obstante, los sistemas de PLN tienden a diseñarse con una estructuramodular. Es decir, a dividirse en componentes más o menos independientes entre sí, loque permite abordar el procesamiento de una oración a través de una serie de niveles deanálisis. La modularidad permite que el sistema sea flexible y que cada nivel pueda serabordado por la técnica más adecuada en cada caso.

Conceptualmente, un sistema de PLN divide el análisis de una oración en los siguien-tes niveles, en cada uno de los cuales utilizará alguna de las fuentes de conocimientomencionadas anteriormente:

� Análisis morfológico-léxico: transforma la cadena de caracteres de entrada en unasecuencia de unidades léxicas significativas (o tokens) haciendo uso del diccionarioy de reglas morfológicas.

� Análisis sintáctico: analiza la secuencia de unidades léxicas, de acuerdo a una gramá-tica o modelo previamente definido, y produce una representación de su estructurasintáctica (en forma de árbol sintáctico, relaciones de dependencia, etc.).

� Análisis semántico: a partir de la representación sintáctica genera otra estructura que

1

2 Capítulo 1. Introducción

representa el significado o sentido de una oración. Esta estructura semántica puedeser una forma lógica, una estructura de huecos, etc.

� Análisis contextual o pragmático: a partir de la representación semántica y teniendoen cuenta las circunstancias del contexto genera la interpretación final de la oración.

Los sistemas de PLN se pueden clasificar en dos grandes grupos dependiendo dela forma de modelar el conocimiento: sistemas deductivos basados en el conocimiento ysistemas inductivos basados en técnicas de aprendizaje automático (o basados en corpus). Enlos primeros, el conocimiento lingüístico es modelado por un experto utilizando algúnformalismo gramatical. Los segundos construyen un modelo computacional utilizandométodos de aprendizaje o métodos estadísticos a partir de ejemplos que pueden estaranotados con información lingüística (métodos supervisados) o no (métodos no supervisados).

Los sistemas basados en el conocimiento suelen ofrecen buenos resultados cuando setrabaja sobre una tarea restringida sintáctica y semánticamente, como es el caso de lossistemas de interrogación a bases de datos. Sin embargo, cuando se trata de aplicacionesde amplia cobertura estos sistemas no pueden resolver problemas concretos de forma efi-caz y robusta. Es el caso de aplicaciones como la traducción automática, la recuperaciónde información o la extracción de información, que trabajan sobre grandes volúmenes deinformación sin ningún tipo de restricción.

En la actualidad, el desarrollo y aplicación de técnicas inductivas está en un momen-to de auge, debido a dos factores tecnológicos. Por un lado, la disponibilidad cada vezmayor de recursos en formato electrónico, entre los que se encuentran desde bases dedatos léxicas o diccionarios, hasta grandes colecciones de datos (corpus) que pueden estaranotadas con información lingüística o no, como sería el caso de Internet. Por otro lado,la creciente evolución de los ordenadores que ha permitido el procesamiento eficiente deestos recursos. Estos motivos, junto a las dificultades de los sistemas basados en cono-cimiento para procesar texto no restringido, y las altas prestaciones alcanzadas por losmétodos inductivos en algunas tareas de PLN ha motivado un cambio en la tendenciageneral en favor de estos últimos.

Los principales atractivos de estos métodos son que permiten procesar de forma ro-busta grandes cantidades de texto pertenecientes a dominios no restringidos, puedenadaptarse fácilmente a distintas tareas de desambiguación y a los cambios de dominioo de lengua. Además, uno de los problemas principales en PLN como es la resoluciónde la ambigüedad se resuelve de forma aceptable usando el modelo estimado a partir decorpus, sin necesidad de recurrir a otras fuentes de conocimiento.

Dentro de cada uno de los niveles de análisis de PLN se pueden desarrollar distintascomponentes que aborden tareas más sencillas. Esta descomposición facilita la consecu-ción de los distintos niveles de análisis. Además, esas tareas son útiles en aplicacionesfinales en las que, o bien no es necesario realizar un análisis completo de la oración, o

3

bien por tratarse de aplicaciones no restringidas el grado de acierto de un análisis com-pleto sería demasiado bajo (es el caso de los sistemas de extracción o de recuperaciónde información, clasificación de documentos, traducción automática, etc). La mayoría deestas tareas pueden reducirse a un problema de clasificación (o etiquetado) por lo quepueden abordarse con éxito mediante métodos de aprendizaje cuyo objetivo es asignar(o etiquetar) un ejemplo a una clase (o etiqueta con información lingüística). Entre estastareas se encuentran las siguientes:

� Etiquetado morfosintáctico: consiste en asignar a una unidad léxica su categoría oetiqueta morfosintáctica, que contiene información sobre la categoría gramatical(nombre, verbo, adjetivo, etc.) e información morfológica (género, número, perso-na, etc.).

� Análisis sintáctico parcial: consiste en recuperar la información sintáctica de interésde un texto, sin necesidad de obtener un análisis sintáctico completo. Cuando laoración se segmenta en sintagmas básicos también se habla de análisis superficial ode chunking.

� Identificación de cláusulas: el objetivo es identificar las cláusulas dentro de una ora-ción. Existen distintos grados de dificultad ya que pueden identificarse simplemen-te los comienzos y finales de las cláusulas o también pueden detectarse cláusulasanidadas.

� Desambiguación del sentido de las palabras: es el problema de decidir cuál es el signifi-cado correcto de una palabra en un contexto determinado.

� Reconocimiento de entidades: consiste en identificar y clasificar las entidades o nom-bres propios de un texto.

� Resolución de la anáfora: consiste en identificar en un contexto oracional a qué enti-dad (o referente) alude un elemento de la oración (elemento anafórico).

Entre las técnicas inductivas aplicadas para resolver estas tareas de desambiguaciónse puede encontrar el aprendizaje basado en ejemplos, aprendizaje basado en reglas detransformación, inferencia gramatical, y aproximaciones estadísticas basadas en modelosde máxima entropía o en modelos de Markov. Estos últimos se han utilizado ampliamen-te en el campo del reconocimiento automático del habla tanto para el modelado acústicocomo para la construcción de modelos del lenguaje para el reconocimiento, tanto de pa-labras aisladas, como del discurso continuo. El éxito en estos sistemas y la disponibilidadde recursos ha permitido su extensión a los sistemas de PLN.


1.1 Aproximaciones basadas en corpus

El método propuesto en este trabajo, los Modelos de Markov Especializados (MME), pue-de considerarse un método de aprendizaje supervisado ya que estima un modelo a partirde un conjunto de datos o ejemplos etiquetados con la información lingüística necesaria.A continuación se describen brevemente otros métodos de aprendizaje supervisado queson tradicionales en otros campos de la Inteligencia Artificial o en sistemas de reconoci-miento del habla, pero que también se han aplicado con éxito a problemas de desambi-guación en PLN. Los fundamentos teóricos de los modelos de Markov se describen endetalle en el Capítulo 2.

Basado en ejemplos

El aprendizaje basado en ejemplos (o Memory-based Learning, MBL)1 es un tipo de apren-dizaje supervisado basado en el principio de similitud. La fase de aprendizaje consisteen guardar en memoria un conjunto de ejemplos o casos obtenidos del conjunto de datosde entrenamiento. Cada ejemplo se representa mediante un vector de características quedetermina una clase o categoría. El proceso de clasificación de un ejemplo nuevo obtienelos

�vectores más parecidos al vector del ejemplo a clasificar asignándole la clase más

frecuente entre esos�

vectores.

Para que esta aproximación sea eficiente, es necesario definir correctamente varios as-pectos: la estructura de datos para almacenar los ejemplos y la medida de similitud paracomparar los distintos casos. (Daelemans et al., 1996b) utiliza árboles de decisión comoestructura de datos para clasificar eficientemente los ejemplos y acceder a la informaciónalmacenada mediante un algoritmo eficiente de compresión (IGTree). Daelemans definevarias métricas de similitud, entre ellas el algoritmo IB-1G que tiene en cuenta la distan-cia entre valores de un cierto rasgo � �� y los pondera con la ganancia de informaciónde dicho rasgo � . Sea � � � �� e � � � �� dos vectores de características ladistancia entre ellos se expresa como:

� � � � � � � �� (1.1)

� �� si� � �

otro caso(1.2)

1Este método de aprendizaje se conoce de diversas formas: basado en ejemplos, basado en similitud,basado en memoria, etc.

1.1. Aproximaciones basadas en corpus 5

El aprendizaje basado en ejemplos se ha utilizado en distintas tareas de PLN comoel etiquetado morfosintáctico (Daelemans et al., 1996b), el análisis sintáctico superficial(Daelemans et al., 1999) y la desambiguación de sentidos (Hoste et al., 2002).

Basado en reglas de transformación

El aprendizaje basado en reglas de transformación guiado por el error (Transformation-based Error-Driven learning, TBL) fue introducido por Brill (1992). Es un método super-visado que consiste en el aprendizaje de un conjunto de reglas de transformación instan-ciando un conjunto de patrones o plantillas de reglas definidas previamente. Estas reglastienen en cuenta un contexto limitado de rasgos y son de la forma:

Si � entonces cambia � por � �

Es decir, la etiqueta o clase inicial ( � ) de una palabra debe cambiarse por otra ( � � )si la palabra se da en un contexto � . Un ejemplo de regla para la tarea de etiquetadomorfosintáctico del inglés sería, "Si la palabra situada dos posiciones a la derecha es asentonces cambia la etiqueta preposición por adverbio".

El proceso de aprendizaje parte del conjunto de datos de entrenamiento en el que seha realizado un etiquetado inicial (por ejemplo, se asigna a cada palabra o token la etique-ta más probable). El corpus así etiquetado se compara con el corpus de referencia. Si unapalabra no se ha clasificado correctamente, se instancia el patrón de regla correspondien-te. Las reglas aprendidas de esta forma se ordenan de manera que su aplicación posteriorproduzca el mejor etiquetado posible. Este proceso se repite iterativamente hasta que lasmejoras en el etiquetado estén por debajo de un determinado umbral.

El proceso de clasificación o etiquetado de nuevos datos aplica el mismo criterio deinicialización sobre los datos. A continuación, se aplica el conjunto de reglas aprendidassiguiendo el orden establecido en la fase de aprendizaje.

Este método se aplicó inicialmente al problema del etiquetado morfosintáctico (Brill,1992) y, posteriormente, a otras tareas como el análisis sintáctico (Brill, 1993b), ligamientopreposicional (Brill y Resnik, 1994) y análisis sintáctico superficial (Ramshaw y Marcus,1995). Una de las desventajas de este método es el elevado coste computacional del pro-ceso de aprendizaje, ya que en cada iteración debe determinarse cuál es la mejor reglainstanciando todos los patrones. Por ello se han propuesto mejoras que reducen estecoste, como el Fast-TBL (Ngai y Florian, 2001), sin que disminuyan las prestaciones delmétodo.


Máxima entropía

Esta aproximación estadística se basa en el principio de Máxima Entropía (ME), que fueaplicado previamente por Rosenfeld (1996) en tareas de modelización del lenguaje y, pos-teriormente, en sistemas de reconocimiento automático del habla. El modelo subyacentede este paradigma tiene como objetivo maximizar la entropía de una distribución de pro-babilidad sujeta a ciertas restricciones. El modelo del lenguaje debe ser consistente con loseventos observados en el entrenamiento y debe satisfacer las restricciones introducidas.No se asume ningún conocimiento acerca de los eventos no vistos en el entrenamiento.Se formula como un modelo exponencial:

� ��

� � �� (1.3)

donde�

es una constante de normalización, � � � � � � � � � y�

, son parámetros del modeloy� � � � � � � � � son características que pueden tomar los valores 0 o 1. Cada parámetro � �

se corresponde con una característica� � . El valor de una característica para predecir una

clase � viene determinado por el contexto o historia�

. Los parámetros del modelo seestiman mediante el método Generalized Iterative Scaling de manera que se maximice laprobabilidad del conjunto de entrenamiento.

Un ejemplo de característica para el problema de etiquetado morfosintáctico sería lasiguiente:

� � �� si � “the” y � “DT”� otro caso

que indica que� � toma el valor 1 si en la historia

� la palabra ( � ) es the y está etiquetadacomo un determinante (DT).

El trabajo de Máxima Entropía más relevante fue desarrollado por Ratnaparkhi (1996)y aplicado al etiquetado morfosintáctico. También se ha utilizado en la determinación delligamiento preposicional (Ratnaparkhi et al., 1994), al análisis sintáctico parcial (Osborne,2000) y a la desambiguación de sentidos (Suárez y Palomar, 2002).

Árboles de decisión

Los métodos basados en árboles de decisión se han utilizado ampliamente dentro delárea de la Inteligencia Artificial para abordar distintos problemas de clasificación. Enun árbol de decisión un nodo representa una pregunta acerca de un determinado rasgo,un arco toma uno de los valores correspondientes al rasgo del nodo origen y una hojase corresponde con una de las posibles clases. Los árboles de decisión se construyen


automáticamente a partir de los datos de entrenamiento. El proceso de clasificación deun ejemplo nuevo consiste en recorrer el árbol desde el nodo raíz hasta un nodo hojaque determina la clase a asignar. La implementación más conocida es el algoritmo C4.5(Quinlan, 1993). Los árboles de decisión se han aplicado al etiquetado morfosintáctico(Schmid, 1994; Màrquez, 1999), análisis sintáctico (Magerman, 1995) y desambiguaciónsemántica (Mooney, 1996; Pedersen y Bruce, 1997a).

Winnow

Otro método que ha sido aplicado con éxito a tareas de PLN es la arquitectura SNoW(Muñoz et al., 1999), que se basa en el algoritmo Winnow (Littlestone, 1988). Este es unalgoritmo de aprendizaje adecuado para dominios en los cuales el número potencial decaracterísticas que deben considerarse para tomar una decisión es muy elevado (muchasde estas características pueden ser irrelevantes, pero esto no se conoce a priori), como esel caso de los problemas de desambiguación en PLN. Esta arquitectura consiste en unared de nodos que pueden ser de dos tipos: nodos de entrada que se corresponden con lascaracterísticas asociadas a la oración de entrada; cada nodo de entrada se conecta conun arco ponderado a un nodo destino que representa una predicción potencial respecto aun determinado rasgo de entrada. Los rasgos de entrada activan un determinado nododestino si la suma de los pesos supera un cierto umbral. Esta red se define en la fasede aprendizaje: se construye un nodo de entrada para un rasgo, si éste aparece en elconjunto de datos de entrenamiento; se establece un arco ponderado entre un nodo deentrada para un rasgo i y un nodo destino t, si i aparece etiquetado con t. El algoritmoWinnow computa los pesos de los arcos utilizando una regla de actualización dirigidapor el error: si la suma de pesos de los arcos activos asociados a un nodo destino t nopredicen la etiqueta t cuando ésta es la correcta, todos los pesos de los arcos activosse incrementan por igual aplicando un factor � mayor que 1; si la suma de pesos delos arcos activos asociados a un nodo destino t predicen la etiqueta t cuando ésta no esla correcta, todos los pesos de los arcos activos se decrementan por igual aplicando unfactor � menor que 1. Winnow es un clasificador binario que solamente discrimina entredos clases posibles. La arquitectura SNoW permite extenderlo a problemas multi-clase alencadenar y combinar de manera coherente el resultado proporcionado por predictoresindividuales.

El algoritmo Winnow, o alguna de sus variantes, ha sido utilizado en tareas como ladetección de sintagmas nominales (Muñoz et al., 1999), el análisis sintáctico superficial(Li y Roth, 2001; Zhang et al., 2001) y la desambiguación de sentidos (Escudero et al.,2000).


Boosting

Los métodos de boosting combinan una serie de clasificadores, que se denominan débilesporque no es necesario que sean muy precisos, dando lugar a un clasificador que mejoralas prestaciones de cada uno de los clasificadores débiles. Los clasificadores débiles seentrenan de manera iterativa sobre los ejemplos que son más difíciles de clasificar porel clasificador de la iteración precedente. El clasificador final se construye mediante unacombinación lineal de los clasificadores aprendidos en cada iteración � :

� ��

� � � � �� (1.4)

Un ejemplo�

se clasifica en la clase�

que maximice� ��

, donde � es el númerototal de iteraciones, � � es un factor de ponderación para cada iteración y

� � �� es la

predicción de que la clase�

corresponda al ejemplo�

según el clasificador � .La implementación del algoritmo de boosting más conocida es AdaBoost desarrollada

por Schapire y Singer (1998) y que fue aplicada al filtrado de documentos. Posteriormenteha sido utilizada para resolver problemas de desambiguación en PLN como la identifica-ción de cláusulas (Carreras y Màrquez, 2001) y la desambiguación semántica (Escuderoet al., 2000).

Soporte Vectorial

La técnica de aprendizaje basada en soporte vectorial (Support Vector Machine, (SVM)) esadecuada para resolver problemas de clasificación binaria, en los que se decide si unainstancia pertenece o no a una clase. La idea es encontrar el hiperplano que separe losejemplos positivos de los negativos, maximizando el margen existente entre dos clases.Su generalización a problemas multi-clase se puede realizar construyendo tantos clasi-ficadores como clases y combinando los resultados de todos los clasificadores mediantealgún método de combinación. El análisis superficial es una tarea multi-clase y para re-solverla se utiliza la técnica de clasificación pairwise. Esta técnica se ha aplicado a la reso-lución del análisis superficial (Kudo y Matsumoto, 2000, 2001) con excelente resultados,al análisis sintáctico de dependencias (Yamada y Matsumoto, 2003) y a la desambigua-ción de sentidos (Cabezas et al., 2001).

Métodos combinados

Bajo esta aproximación se agrupan aquellos sistemas que utilizan alguna técnica paracombinar el resultado proporcionado por distintos clasificadores. Esta técnica se aplicó


inicialmente en sistemas de etiquetado morfosintáctico (Van Halteren et al., 1998), y pue-de aplicarse de forma similar a cualquier otra tarea de desambiguación que pueda serplanteada como un problema de etiquetado o clasificación.

La técnica más utilizada para combinar la salida de varios clasificadores para selec-cionar la clase o etiqueta correcta es la de votación. Ésta consiste en asignar un pesoa la etiqueta proporcionada por cada clasificador para un determinado token y escogeraquella etiqueta cuya suma de pesos sea mayor. Existen diversas propuestas para la asig-nación de pesos a las etiquetas:

� Mayoría simple: es la más sencilla y consiste en asignar un peso uniforme (1) a cadaetiqueta.

� Precisión total: la idea es dar más peso al etiquetador de mayor calidad. Para ello seasigna como peso la precisión total del etiquetador. Esta precisión se debe calcularpreviamente sobre un conjunto de desarrollo.

� Precisión por etiqueta: en este caso se da más peso al etiquetador de mayor calidaden la identificación de un tipo determinado de etiqueta. Para ello se pondera con laprecisión del etiquetador para esa etiqueta.

� Precisión-Cobertura por etiqueta: se tiene en cuenta también cuánto falla el etiqueta-dor al reconocer la etiqueta correcta. El peso se calcula sumando a la precisión deletiquetador para una etiqueta determinada, la probabilidad de que los otros etique-tadores fallen al detectar esa etiqueta, es decir, el peso es precisión + (1 - cobertura).

� Pairwise: en lugar de considerar la información de cada etiquetador de forma indi-vidual, se examina ésta por parejas. Sobre un conjunto de desarrollo se calcula laprobabilidad de que la etiqueta correcta sea � cuando dos etiquetadores proponen�� y �� , respectivamente. La votación se realiza por parejas ponderando con esaprobabilidad.

Los sistemas combinados se han aplicado en análisis sintáctico superficial (Tjong KimSang, 2000b), detección de cláusulas y análisis sintáctico completo (Tjong Kim Sang,2002). Los sistemas de clasificación binaria, como los SVM, pueden utilizar alguna técni-ca de votación para poder generalizar su aplicación a la resolución de problemas multi-clase.

N-gramas e inferencia gramatical

En los sistemas de reconocimiento automático del habla es necesaria la incorporación deun modelo contextual o modelo del lenguaje que sea capaz de capturar las restriccionesque existen en la combinación de las palabras, para dar lugar a las distintas frases de una


lengua. Los modelos del lenguaje pueden definirse sobre las posibles concatenaciones depalabras u otras unidades lingüísticas como categorías morfosintácticas o sintácticas. Elmodelo de lenguaje estadístico más utilizado se denomina modelo de �� (Bahlet al., 1983) y captura las concatenaciones de unidades lingüísticas en la frase dentro deun contexto de longitud � . Un modelo de �� aproxima la probabilidad de unafrase � de longitud

�según la formula:

� � � ��

� �� (1.5)

Dependiendo del valor de � se habla de modelos de unigramas ( � �), bigramas ( � �

), trigramas ( � ��), etc. El principal inconveniente de los �� es la falta de

muestras suficientes para poder estimar los parámetros del modelo en contextos de granlongitud. El valor de � es normalmente bajo (bigramas o trigramas) por lo que estosmodelos no reflejan adecuadamente la estructura completa de la frase, de manera queno se capturan dependencias a larga distancia entre unidades lingüísticas. Además, paragarantizar la cobertura del lenguaje es necesario aplicar algún método de suavizado quepermita asignar una probabilidad a los sucesos no vistos. Por ejemplo, un modelo debigramas de palabras debe suavizarse para que la probabilidad entre cualquier par depalabras sea distinta de cero.

Desde el punto de vista de la teoría de lenguajes se han desarrollado aproximacionesgramaticales que, a partir de datos, tratan de inferir una gramática regular (García y Vi-dal, 1990; Segarra, 1993) o incontextual (Lari y Young, 1991) para modelizar el lenguaje.Algunas de estas técnicas de inferencia gramatical se han adaptado a problemas de de-sambiguación. Es el caso del algoritmo ECGI (Rulot et al., 1989) que se ha utilizado entareas de etiquetado morfosintáctico y análisis sintáctico superficial (Pla, 2000).

1.2 Evaluación

Las medidas más usuales para evaluar los sistemas de desambiguación son dos: precisióny cobertura (o recall):

�� # constituyentes desambiguados correctamente por el clasificador# constituyentes desambiguados por el clasificador

� � � � � �� # constituyentes desambiguados correctamente por el clasificador

# constituyentes en el corpus de referencia

donde la interpretación de un constituyente depende del problema a tratar. Pueden serpalabras o unidades léxicas, en el caso del etiquetado morfosintáctico, o unidades sintác-ticas en el caso del análisis sintáctico.

1.3. Objetivos 11

También se utilizan medidas que combinan ambos parámetros como el factor� � , que

inicialmente se utilizó para evaluar las prestaciones de los sistemas de recuperación deinformación (van Rijsbergen, 1979), y que se define como:

� � ��

Con esta medida, y variando el valor de � , se puede dar más peso a un parámetroque a otro. Si ��

se está dando más peso a la precisión, y si �� a la cobertura.

Normalmente se consideran ambas medidas por igual ( � �).

La evaluación de las prestaciones de los diferentes métodos de clasificación o etique-tado basados en corpus se suele realizar de dos maneras. Cuando se dispone de unacantidad de datos etiquetados suficiente se separa una parte (90%) para aprender el mo-delo, datos de entrenamiento, y el resto (10%) para probar y evaluar el modelo, datos deprueba. Además, si durante la estimación del modelo se necesita determinar cuáles sonlos parámetros o rasgos que producen un modelo más preciso, entonces de los datos deentrenamiento se extrae un conjunto de datos de desarrollo para que los datos de pruebano intervengan en el proceso de estimación.

Cuando se quiere realizar una estimación más exhaustiva, o cuando los datos de prue-ba disponibles no son suficientes para que la estimación sea significativa, entonces se ha-ce un experimento de validación cruzada (n-fold cross validation). Éste consiste en dividirlos datos en � particiones y cada experimento está formado por � � �

particiones paraentrenamiento y

�partición para prueba. Los conjuntos de prueba son completamente

diferentes para los distintos experimentos lo que asegura que la totalidad del corpus seutiliza como conjunto de prueba. Los resultados se computan haciendo la media sobrelos � conjuntos de prueba. La evaluación será más exhaustiva cuantas más particiones serealicen.

1.3 Objetivos

Este trabajo tiene como objetivo general la resolución de diversos problemas de ambigüe-dad en lenguaje natural mediante la utilización de un formalismo común: los Modelosde Markov Especializados (MME). En particular, se van a desarrollar en las siguienteslíneas:

� Generalización de la técnica de lexicalización de modelos de Markov propuestapor Pla (2000). Esta generalización permite la incorporación en el modelo de in-formación disponible en los datos de entrenamiento, para adaptarlo a la tarea dedesambiguación. Se propone también una estrategia para guiar la determinación


de la información o características relevantes durante el proceso de aprendizaje delos Modelos de Markov Especializados.

� Evaluación de la técnica propuesta con modelos de distinto orden para distintastareas de desambiguación con características y grados de dificultad diferentes:

– Etiquetado morfosintáctico: esta tarea consiste en asignar la categoría mor-fosintáctica más probable a cada palabra de la oración. La desambiguaciónmorfosintáctica se realiza a partir de un número reducido de características,normalmente, las palabras de la oración y su información morfológica. El nú-mero de categorías morfosintácticas suele ser bastante reducido (alrededor de50 etiquetas). Por ello, el número de parámetros que deben estimarse en elaprendizaje de los modelos es reducido y éstos suelen ofrecen unas altas pres-taciones.

– Análisis sintáctico superficial: es una tarea de segmentación, que consiste enla identificación en la oración de constituyentes sintácticos básicos, tales comosintagmas nominales o sintagmas verbales que a su vez no incluyan a otrosconstituyentes. El conjunto de categorías también es bastante reducido, perola desambiguación debe considerar varias fuentes de conocimiento como laspalabras de la oración y sus etiquetas morfosintácticas.

– Identificación de cláusulas: es otro problema de análisis sintáctico que con-siste en segmentar la oración en cláusulas, pero en las cuales sí que puedeexistir anidamiento, es decir, la definición de una cláusula puede incluir otras.Para resolver esta tarea debe combinarse diversa información lingüística: laspalabras, las etiquetas morfosintácticas, los constituyentes sintácticos, etc. Lasdependencias a larga distancia también dificultan la correcta detección de lascláusulas, por lo que las prestaciones de los sistemas de desambiguación sobreesta tarea son inferiores a las que se ofrecen para el etiquetado morfosintácticoo el análisis superficial.

– Desambiguación del sentido de las palabras: consiste en asignar la categoríasemántica o sentido más probable a las palabras con contenido semántico de laoración. Aunque su formulación es similar a la del etiquetado morfosintácticopresenta una serie de dificultades añadidas como son el elevado número decategorías y, por lo tanto, de parámetros del modelo que se deben estimar y laescasez de datos de entrenamiento.

� Comparación de las prestaciones de los Modelos de Markov Especializados respec-to a otras técnicas de aprendizaje utilizadas en PLN. Para que esta comparativa seafiable y rigurosa se utilizarán, en la medida lo posible, los datos proporcionados enconferencias o competiciones internacionales llevadas a cabo sobre las tareas abor-dadas.

1.4. Esquema de la Tesis 13

� Implementación y evaluación de un analizador sintáctico parcial basado en el co-nocimiento y comparación de sus prestaciones con la propuesta de Modelos deMarkov Especializados sobre una misma tarea.

1.4 Esquema de la Tesis

El desarrollo de esta memoria se estructura en la siguiente forma.

En el Capítulo 2 se presentan los fundamentos teóricos del formalismo de los Mode-los de Markov. Se describen el algoritmo de análisis y los métodos de estimación y desuavizado de los modelos comúnmente utilizados, tomando como ejemplo ilustrativo elproblema del etiquetado morfosintáctico.

En el Capítulo 3 se describe la aproximación propuesta, los Modelos de Markov Espe-cializados. Se describe la técnica propuesta para especializar los modelos y se muestranlos efectos sobre la topología de los mismos. También se define la estrategia de aprendi-zaje diseñada para determinar los criterios de especialización que maximicen las presta-ciones del modelo.

En el Capítulo 4 se evalúan experimentalmente los MMEs para la tarea de etiquetadomorfosintáctico sobre datos en inglés y en castellano. Además, se hace una comparativade las prestaciones obtenidas sobre datos en inglés con tres de las aproximaciones másrelevantes en la literatura: aprendizaje basado en transformación, basado en ejemplos ymodelos de máxima entropía.

En el Capítulo 5 se presenta en detalle la problemática y aplicaciones del análisis sin-táctico superficial, haciendo además una extensa revisión bibliográfica de las distintasaproximaciones inductivas y deductivas. Se evalúan los distintos criterios de especiali-zación definidos para los MMEs sobre datos en inglés. Se describe la aproximación alanálisis parcial basada en conocimiento desarrollada y se evalúa para diversas tareas encastellano. Finalmente, se comparan ambas aproximaciones sobre datos en inglés.

En el Capítulo 6, tras una breve revisión bibliográfica, se evalúan las prestaciones dedistintos MMEs al abordar el problema de la detección de cláusulas para una tarea eninglés.

En el Capítulo 7 se presenta la construcción y evaluación de MMEs para la desambi-guación del sentido de las palabras. Dicha evaluación se realiza para tareas en inglés.

Finalmente, en el Capítulo 8 se presentan las conclusiones de este trabajo y se pro-ponen una serie de líneas futuras a desarrollar. En los apéndices se detalla informaciónadicional sobre los corpora utilizados, la definición de categorías morfosintácticas y sin-tácticas y algunos detalles adicionales relativos a la experimentación realizada.

Capítulo 2

Modelos ocultos de Markov

En este capítulo se presenta el formalismo conocido como los modelos ocultos de Mar-kov, que se ha utilizado en diversos campos, entre los cuales se encuentra el PLN, comométodo de aprendizaje de modelos estocásticos a partir de datos. La descripción del for-malismo, de los métodos de estimación de los parámetros de los modelos y de las técnicasde suavizado de los mismos se ha extraído principalmente del tutorial de Rabiner (1989),“A Tutorial on Hidden Markov Models and Selected Applications in Speech Recognition”, y delos capítulos 5, 9 y 10 del libro de Manning y Schütze (1999) “Foundations of Statistical Na-tural Language Processing”. Para clarificar algunos aspectos de la teoría se han utilizadoejemplos de un problema de desambiguación bien conocido en PLN como es el etiqueta-do morfosintáctico de textos.

2.1 Introducción

Los modelos ocultos de Markov (MM) son un método estocástico que permite modelizarprocesos aleatorios cuyas propiedades pueden variar en el tiempo. La teoría de los mo-delos de Markov fue desarrollada inicialmente por Andrei A. Markov (1913) y su primeraaplicación fue de propósito lingüístico: modelizar la secuencia de letras en los textos dela literatura rusa. Pero es a finales de los años 60 cuando Baum (1972) desarrolló la teo-ría actual de los MM, y a comienzos de los 70 cuando se utilizó en aplicaciones reales, enconcreto, sistemas de reconocimiento del habla implementados por Baker (1975) en CMUy por Jelinek (1976) en IBM.

Los MMs son adecuados cuando se quiere modelizar una secuencia de variables alea-torias que no son independientes, y cuyo valor depende de algunos elementos previos enla secuencia. Este es el caso de muchos sistemas para los cuales es razonable asumir queno es necesario tener en cuenta el valor de todas las variables pasadas en la secuenciapara predecir el valor de la siguiente variable. Por ejemplo, si se considera una varia-

15

16 Capítulo 2. Modelos ocultos de Markov

a12 a21

a11

a31

a33

a22

a32a23

a13s 1 s 3

s 2

Figura 2.1: Modelo de Markov de 3 estados.

DT

ADJ

NC

0,1 0,70,5

0,2

0,2

0,6 0,30,1

0,3

Figura 2.2: Modelo de Markov para predecir lasecuencia de etiquetas morfosintácticas en unSN.

ble aleatoria que indica la evolución del clima, para saber si hoy va a llover puede serútil la información del día de ayer. Sin embargo, la información de semanas o mesesanteriores será poco útil. Otro ejemplo, dentro del campo de PLN, sería el del etique-tado morfosintáctico. Para predecir la categoría morfosintáctica de una palabra es útilconocer la categoría de la palabra previa: si ésta es un determinante lo más probable esque la palabra actual sea un adjetivo o un nombre, pero difícilmente podrá ser un verbo.En principio, las categorías de las palabras que se encuentran en oraciones anteriores noaportan ninguna información.

2.1.1 Modelos de Markov

Considérese un sistema que, en cada instante de tiempo, puede estar en un estado � perteneciente al conjunto � �� . El sistema cambia de estado transcurridoun periodo de tiempo determinado y de acuerdo a un conjunto de probabilidades aso-ciadas con cada estado llamadas probabilidades de transición. Los instantes de tiempoasociados con cambios de estado se representan como � � � � �� , y el estado en elinstante de tiempo actual � como � � . Este sistema puede modelizarse mediante una cade-na o modelo de Markov1 como el que muestra la Figura 2.1 para el caso particular en queel número de estados ( � ) es 3.

Una cadena de Markov presenta las siguientes propiedades:

� Horizonte limitado: la probabilidad de estar en un estado depende de un númerolimitado � de estados predecesores. Se dice entonces que la cadena de Markov es

1En la presente descripción se considerarán en todo momento modelos discretos ergódicos, es decir, mo-delos en los cuales existe un arco entre cualquier par de estados. Existen otras topologías que pueden serútiles para cierto tipo de aplicaciones, pero que no se van a describir, y de las cuales se puede encontrarinformación detallada en el tutorial de Rabiner.

2.1. Introducción 17

de orden � . Para cadenas de Markov de primer orden ( � �o bigrama) se tiene

que:

� � � � � � � � � �� (2.1)

donde la parte derecha de la expresión, � � � � �� , representa la probabili-dad de transición entre dos estados del modelo.

� Tiempo invariante o estacionario: además se asume que la probabilidad de tran-sición entre dos estados es independiente del instante de tiempo y, por lo tanto, elconjunto de probabilidades de transición puede representarse mediante una matriz� � � � � donde:

� �� (2.2)

Estas probabilidades de transición cumplen las restricciones estocásticas estándar,es decir, las probabilidades de transición desde un estado deben sumar 1:

� �� (2.3)��

� �� (2.4)

Además, es necesario especificar la probabilidad de que un estado sea el estadoinicial, mediante la distribución � � � � donde cada componente se define:

� � � � � � �� cumpliéndose igualmente las restricciones

� �� y��

� �El proceso estocástico así descrito se denomina modelo de Markov observable, ya que la

salida del proceso es un conjunto de estados para cada instante de tiempo y cada estadose corresponde con un único evento observable. Por lo tanto, en todo momento se conocela secuencia de estados que se ha atravesado.

La probabilidad que el modelo asigna a una secuencia observada � � � � � �� se calcula mediante el producto de las probabilidades de transición. Si se considera unmodelo de primer orden esta probabilidad se expresa según la ecuación (2.6).

� � � � � � � � � ��

� �� (2.6)


Ejemplo 1: si se quiere especificar un modelo de Markov para predecir la secuenciade etiquetas morfosintácticas dentro de un sintagma nominal (SN), los estados de dichomodelo deben corresponderse con cada una de las etiquetas morfosintácticas posibles.Por ejemplo, � � , determinante (DT); � � , adjetivo (ADJ); � � , nombre común (NC). El siste-ma cambiará de estado cada vez que se avance una palabra en la oración, es decir, cadapalabra o posición en la oración vendrá caracterizada por uno de los estados definidos.La Figura 2.2 muestra un posible modelo de Markov con las probabilidades de transiciónentre estados del modelo. Como se indicó anteriormente estas probabilidades puedenexpresarse como la matriz

�y, además, es necesario expresar las probabilidades de que

un estado sea estado inicial ( � ):

� �� DT ADJ NC

DT � � � � � � � ��ADJ � � � � � � � ��NC � � � � ��

�� DT ADJ NC� �� Dado este modelo, la probabilidad de que se produzca la secuencia de observaciones

� DT ADJ NC, es decir, la probabilidad de que un SN esté formado por las etiquetasDT ADJ NC, se calcula aplicando la ecuación (2.6):

� �DT ADJ NC �Modelo

� �DT

� �ADJ �DT

� �NC �ADJ

�� DT �ADJ

� � ADJ �NC

� �� Los modelos de Markov observables son demasiado limitados para modelizar mu-

chos problemas de interés. Cada estado tiene asociado un único evento observable.Cuando la observación en un estado es una función probabilística dependiente del es-tado, el modelo resultante se denomina modelo oculto de Markov (MM). Se trata de unproceso doblemente estocástico con un proceso no observable (oculto), que solamentepuede ser observado a través del proceso estocástico visible que produce la secuencia deobservaciones.

Ejemplo 2: El problema del etiquetado morfosintáctico puede modelizarse con unMM. El problema consiste en asignar a las palabras de una oración las categorías mor-fosintácticas correspondientes. Nuevamente los estados del modelo son las categoríaso etiquetas morfosintácticas, pero los sucesos observables son las palabras. En cada es-tado (categoría) se emitirá un suceso (palabra) según una función de probabilidad. UnMM que predice la secuencia de etiquetas morfosintácticas asociadas a una secuencia de

2.2. Descripción de un MM 19

1)=b NC,1P(p

2)=b NC,2P(p

DT

ADJ

NC

0,1 0,70,5

0,2

0,2

0,6 0,30,1

0,3

2)=b DT,2P(p1)=b DT,1P(p

MP(

pA

DJ,

M)=

b

2)=b

AD

J,2

P(p1)=

bA

DJ,

1P(

p

MP(p NC,M)=bMP(p )=b DT,M

Figura 2.3: Modelo oculto de Markov para predecir la secuencia de etiquetas morfosintácticas enun SN.

palabras es el que muestra la Figura 2.3. En cada estado �� puede emitirse cada una delas palabras (� � ), pertenecientes a un vocabulario de talla

�, con una cierta probabilidad

( �� ).

2.2 Descripción de un MM

Un MM se define, siguiendo la notación presentada en Rabiner (1989), como una 5-tupla� � � ��

��

, donde � es el conjunto de estados de talla � ,�

es el vocabulario oalfabeto de símbolos emitidos en los estados (observaciones) de talla

�, � es la distribu-

ción de probabilidad de estado inicial, � la distribución de probabilidades de transiciónentre estados, y

�la distribución de probabilidad de emisión de símbolos en cada estado.

La notación se resume en la Tabla 2.1, donde � � y � � se corresponden con el estado y elsímbolo observado en un instante de tiempo � .

En el caso del etiquetado morfosintáctico y considerando un MM de primer orden setiene que:

� En lugar de hablar de instantes de tiempo, se habla de posiciones de las palabrasdentro de la oración.

� Cada estado � tiene asociada una categoría morfosintáctica� , y el número de esta-

dos, � , coincide con el número de categorías morfosintácticas.


Conjunto de estados: � � � � � � � �� Alfabeto de símbolos:

� �� Probab. de estado inicial: � � � � � ��

cumpliéndose que:� � � � ��

��

� �Probab. de transición: � � � ��

� �� cumpliéndose que:

� ��

� � �� Probab. de emisión:

� � � � � � � � � �� cumpliéndose que:

� � � � � � � � ��

��

� � � � � ��

Tabla 2.1: Elementos de un MM.

� El alfabeto de símbolos,�

, es el diccionario. Cada� � es una palabra del diccionario,

cuya talla es�

. Un secuencia de observaciones, � � � � � �� , es una oraciónformada por � palabras.

� Dada una oración, � �� , la probabilidad de que la palabra en la posición � � �tenga asociada la categoría

� � , habiendo visto que la palabra en � , � � � � � � �,

tiene asociada la categoría� es la probabilidad de transitar del estado �� al estado

� � (es decir, �� ).

� La probabilidad de emisión � � � � � es la probabilidad de que dada una categoríagramatical

� � , la palabra� � pertenezca a esa categoría.

Para especificar completamente un MM deben determinarse los siguientes paráme-tros: el tamaño del conjunto de estados y del alfabeto de símbolos, y las tres distribu-ciones de probabilidad � ,

�y � . Generalmente, en problemas reales, tanto los estados

del modelo como los símbolos son conocidos a priori. Por ello, se utilizará la notación� � � ��

�

para indicar los parámetros de un modelo.

2.3. Probabilidad de una secuencia de observaciones 21

Existen tres cuestiones fundamentales que deben resolverse para que un MM sea útilen aplicaciones reales:

1. Dada una secuencia de observaciones, � � � � � �� , y un MM � � � �� ,

¿cómo se calcula de forma eficiente la probabilidad con que el modelo genera esasecuencia de observaciones, � � � � � ?

2. Dada una secuencia de observaciones, � �� , y un MM � � � �� ,

¿cómo se obtiene la secuencia de estados,� �� , que maximiza la pro-

babilidad de esa observación?

3. Dada una secuencia de observaciones, � �� , ¿cómo se ajustan los pa-rámetros de un modelo � � � ��

�

para maximizar la probabilidad con que segenera esa observación, � � � � � ?

2.3 Probabilidad de una secuencia de observaciones

Dado un modelo � y una secuencia de observaciones � � � � � �� , la forma másinmediata de calcular � � � � � , es enumerando todas las secuencia de estados de longitud� ,

� � � � � � �� . La probabilidad de que � genere la secuencia � se calcula sumandola probabilidad de que ocurran simultaneamente � y

�para todas las secuencias posibles

de estados:

� � � � � ��

�� (2.7)

donde � � � � � � � es el resultado del productorio de las probabilidades de emisiónasumiendo que las observaciones son independientes estadísticamente entre sí:

� � � � � � � ��

� � � � � � � � �� (2.8)

y � � � � � es la probabilidad de la secuencia de estados�

:

� � � � � �� (2.9)

Por lo tanto,

� � � � � ��

��

� ��

� �� (2.10)


s 2

s 3

s 1

s N

1 2 3 T

Instantes de tiempo

Est

ados

Figura 2.4: Ejemplo de trellis para un MM ergódico.

El cálculo de la ecuación (2.10) es sencillo ya que simplemente consiste en sumar lasprobabilidades de la observación en cada secuencia posible de estados. Sin embargo,el coste computacional, si se tiene en cuenta que existen � �

secuencias de estados delongitud � , es del orden de

� � � �operaciones2, lo que hace que sea muy ineficiente para

aplicaciones reales.

La forma de reducir la complejidad de la ecuación (2.7) es la utilización de técnicasde programación dinámica. El proceso de programación dinámica suele describirse me-diante un grafo multietapa o trellis como ilustra la Figura 2.4. Un trellis es una matriz� � � sobre la cual se computan las probabilidades de estar en un estado en un instantede tiempo en términos de las probabilidades de haber estado en cada uno de los estadosen el instante de tiempo anterior. Un trellis guarda en un nodo

� � � � la probabilidad delos caminos que terminan en un estado � en un instante determinado � . La probabili-dad de caminos de mayor longitud puede obtenerse a partir de los caminos de menorlongitud sin necesidad de ser calculada de nuevo.

El algoritmo forward calcula la probabilidad hacia delante de una secuencia, y se des-cribe en términos de la variable forward definida así:

� � �� (2.11)

2Exactamente, �� multiplicaciones y � �� sumas

2.3. Probabilidad de una secuencia de observaciones 23

s 1

s 2

αt (2)

s N

αt (N)

s j

αt+1 (j)

aNj

αt (1)

t t+1

a2j

1ja

Figura 2.5: Paso de inducción: la probabilidad �� se calcula sumando el producto de lasprobabilidades de transición �� por la probabilidad forward del nodo origen �� .

La variable �� se almacena en el nodo� � � � del trellis y expresa la probabilidad

de la observación parcial que finaliza en el estado � en un tiempo � . Esta probabilidadse calcula sumando todas las probabilidades de los caminos que llegan a dicho nodoutilizando el siguiente procedimiento recursivo:

1. Inicialización: � � �� 2. Inducción:

� ��

� � �� (2.12)

3. Terminación: � � � � � ��

� ��

En el paso 1) se inicializan las probabilidades forward para cada uno de los estadosen el instante inicial � �

. El paso de inducción, ilustrado en la Figura 2.5, computa laprobabilidad de una secuencia de observaciones parcial hasta el instante � � �

y para unestado � � . El sumando de la ecuación (2.12) expresa que el estado � � puede ser alcanzado,con una probabilidad � �� , desde cualquiera de los � estados alcanzados en el instante� . Para obtener la probabilidad de la observación en el instante � � �

, debe computarsetambién la probabilidad de emisión, � � � �� . Finalmente, en el paso 3) se suman todaslas formas posibles de producir la secuencia de observación, es decir, la suma de todaslas variables forward para � � .


En cuanto a la complejidad computacional de este algoritmo es del orden de � � � .Dicho coste3 es mucho menor que el coste exponencial del cálculo directo,

� � � �.

De forma similar se puede definir la variable backward, � � �� , o probabilidad haciaatrás de una observación:

� � �� (2.13)

La variable � � �� expresa la probabilidad de la observación parcial desde � � �hasta

� dado el estado � en un tiempo � . Su valor se calcula utilizando un procedimientorecursivo similar al forward:

1. Inicialización: � ��

2. Inducción:

� � ��

� �� (2.14)

3. Terminación: � � � � � ��

� ��

El cómputo de � � � � � utilizando el procedimiento backward también es del orden de� � � operaciones. Por tanto, tanto el método forward como el backward son igualmenteeficientes para calcular la probabilidad de una observación.

2.4 Secuencia de estados más probable

El cálculo de la secuencia de estados más probable para una observación se aborda comoun problema de maximización. Existen varias formas de resolverlo dependiendo delcriterio de maximización escogido. Un criterio consiste en considerar los estados que sonindividualmente más probables en cada instante � . Para ello, considérese � � �� como la probabilidad de estar en el estado � en un instante � , dada la secuenciade observaciones � y el modelo � . Esta probabilidad se puede expresar en función de lasprobabilidades forward y backward:

��

� � ��

�� (2.15)

3Exactamente: multiplicaciones del paso 1); en el paso 2) la suma involucra multiplicaciones másuna de la probabilidad de emisión, que se realizan para �� hasta y para �� hasta � � � , lo que dalugar a � �� multiplicaciones; � � �� sumas en el paso 1) y � � sumas en el paso 3).

2.4. Secuencia de estados más probable 25

El factor de normalización � � � � � asegura que � � �� sea una medida de probabilidad

con lo que��

�� . La secuencia de estados más probables se obtiene escogiendo el

estado �� que maximiza esta probabilidad en cada instante de tiempo � :

�� (2.16)

La ecuación (2.16) maximiza el número de estados correctos, pero puede dar lugara secuencias de estados poco probables si se escogen caminos con transiciones de bajaprobabilidad. Por ello, el criterio más utilizado consiste en computar la secuencia com-pleta de estados más probable, es decir, el camino más probable en el trellis que maximiza� � � � � � � , lo que es equivalente a maximizar � � � � � � � para una secuencia � dada. Elalgoritmo que computa de forma eficiente esta maximización se denomina algoritmo deViterbi y utiliza técnicas de programación dinámica (Viterbi, 1967; Forney, 1973). El algo-ritmo se construye a partir de la definición de dos variables:

� � ��

� � � � � � �� (2.17)

que almacena en el nodo del trellis correspondiente al estado � la probabilidad del ca-mino más probable que alcanza ese nodo después de las � primeras observaciones. Y lacorrespondiente variable � � �� que guarda el nodo del que llega el arco del camino demayor probabilidad. Esto permite recuperar la secuencia de estados que maximiza 2.17.El algoritmo de Viterbi se expresa de forma recursiva como sigue:

1. Inicialización � � ��

2. Inducción

� � ��

� ��

� � ��

� ��

3. Terminación� � ��

� � � ��

��


4. Recuperación de la secuencia de estados más probable

�� La eficiencia del algoritmo de Viterbi puede mejorarse de varias formas:

� Las probabilidades se calculan multiplicando números reales de valor muy peque-ño. Esto puede dar lugar a problemas en la maximización cuando los valores com-parados pueden tender a cero. Para solventar este problema de coma flotante setoma el logaritmo de la probabilidad. En ese caso, en lugar de multiplicacionesse realizan sumas, lo que además aumenta la rapidez del proceso, ya que el costecomputacional de las sumas es menor. El proceso de maximización se formularíaasí:

��

� � � � � �� En algunas aplicaciones reales pueden establecerse restricciones en la emisión de

símbolos en los estados. Un tipo de restricción es conocer a priori dado un símboloen qué estados se puede emitir. Por ejemplo, para el caso del etiquetado morfosin-táctico, se puede utilizar un diccionario o un analizador morfológico que proporcio-na las categorías morfosintácticas a las que puede pertenecer una palabra. De estaforma, en cada paso de programación dinámica se alcanzan solamente aquellos es-tados que pueden emitir el símbolo. El coste del algoritmo se reduce de � � � a� � � donde � es el número de estados alcanzados en cada etapa de programacióndinámica, siendo �� .

� Por último, el tiempo de procesamiento también puede reducirse introduciendo latécnica de corte o beam search, utilizada habitualmente en problemas de programa-ción dinámica. Esta técnica consiste en excluir en cada etapa aquellos caminos queno superen un cierto umbral de probabilidad. Aunque esta solución no asegurala obtención del camino óptimo, una correcta elección del umbral no disminuyesignificativamente la precisión, pero a cambio puede incluso duplicar la rapidez.

También se pueden introducir variantes en el algoritmo para:

� Trabajar con las � mejores secuencias de estados, almacenando en cada nodo losmejores estados previos, en lugar de guardar únicamente el mejor.

� Utilizar modelos de orden superior. El algoritmo de Viterbi de (2.18) se ha descritoconsiderando un MM de primer orden. Para implementar un MM de segundoorden puede considerarse pares de estados y como transiciones válidas las que sedan entre dos pares de estados

� �� y� � � � � � .

2.5. Estimación de los parámetros del modelo 27

2.5 Estimación de los parámetros del modelo

A partir de una secuencia de observaciones es posible encontrar los parámetros de unmodelo � � � ��

que mejor explique la secuencia observada. Esta secuencia deobservaciones se denomina secuencia de entrenamiento. Por ello al proceso de estimaciónde parámetros también se le conoce como entrenamiento del modelo. Existen dos formas deentrenar un modelo: entrenamiento supervisado y entrenamiento no supervisado. En el primercaso, se dispone de una secuencia de observaciones en la que cada símbolo emitido en uninstante � está anotado con el estado � � que lo emite. Se asume además que esta anotaciónes correcta. En el segundo caso, solamente se dispone de la secuencia de observaciones.Para el caso del etiquetado morfosintáctico, un entrenamiento supervisado se realizaríaa partir de un conjunto de frases o corpus en las que cada palabra está etiquetada consu categoría gramatical. El entrenamiento no supervisado se realizaría desde un corpusde frases no etiquetado. A continuación se describen los algoritmos más habituales paraabordar estas dos formas de estimación, y en especial el entrenamiento supervisado porser el que se ha utilizado en la experimentación realizada en esta tesis.

2.5.1 Entrenamiento no supervisado

El procedimiento más utilizado para realizar un entrenamiento no supervisado es el al-goritmo Baum-Welch, también conocido como forward-backward. Es un procedimiento ite-rativo de maximización que permite obtener un máximo local. Por ello este método noproporciona el modelo óptimo, pero puede aproximarse a él con una buena inicializacióndel algoritmo. La idea básica es que, a partir de una inicialización de los parámetros delmodelo, pueden computarse aquellos sucesos que son más probables (transiciones entreestados y emisiones de símbolos). Se incrementa la probabilidad de estos sucesos y seconstruye un nuevo modelo que de una mayor probabilidad a la secuencia de observa-ciones. Se procede iterativamente hasta que no se obtenga un modelo mejor.

Se define la variable � � �� como la probabilidad de estar en el estado �� en el instante� y en el estado � � en el instante � � � , dado el modelo � y la secuencia de observaciones � .Es decir, �� expresa la probabilidad de atravesar un arco en el trellis como se ilustraen la Figura 2.6.

� � �� (2.23)

Esta probabilidad puede expresarse mediante las variables forward y backward así:


t(i)α

SjSi

aijbj(ot+1)

t t+1 t+2t−1βt+1(j)

Figura 2.6: Secuencia de operaciones requerida para calcular la probabilidad de atravesar un arcodesde �� a � � en un instante � , ( �� ).

� � ��

� � ��

� � ��

��

��

En la ecuación (2.15) se ha definido � � �� como la probabilidad de estar en el estado � en el instante � , dados una la secuencia de observación y un modelo. Por tanto, la variable

� � �� se puede expresar como � � ��

�� .

La expresión� ��

�� computa la cantidad esperada de veces que el estado � es vi-

sitado.� �� indica el número esperado de veces que se transita del estado � al

�� .

Dado un modelo inicial � � � �� la reestimación de los parámetros puede reali-

zarse mediante las ecuaciones siguientes:

�� (2.24)

��

�� (2.25)


��

� � � � � � ��

��

�� (2.26)

El significado de estas ecuaciones es el siguiente:

� �� es el número esperado de veces que en el entrenamiento el estado � es un estadoinicial ( � �

).

� �� es la relación entre el número de transiciones que van del estado � al estado � �y el número total de transiciones que parten del estado � .

� �� es la relación entre el número de veces que se ha observado el símbolo� � en

el estado � � y el número de veces que se ha transitado por el estado � � .El proceso de reestimación es un proceso iterativo que construye un nuevo modelo �� ,

y que se repite mientras � � � � �� .La principal ventaja que presentan los métodos no supervisados es que pueden cons-

truir un modelo a partir de datos no etiquetados. El principal inconveniente está en la de-finición de un modelo inicial, ya que de esta inicialización depende una estimación fiabledel modelo. El algoritmo no garantiza la obtención del mejor modelo y puede detenerseen la consecución de un máximo local. Por ello, es importante que la inicialización esté lomás cerca posible del máximo global. En la práctica parece más determinante una buenainicialización de las probabilidades de emisión (

�), mientras que las probabilidades de

transición ( � y � ) pueden inicializarse de forma aleatoria. También se obtienen mejoresresultados si se dispone de un corpus pequeño previamente etiquetado, que se utilicepara estimar el modelo inicial mediante algún método de entrenamiento supervisado.

2.5.2 Entrenamiento supervisado

Cuando se dispone de datos etiquetados los parámetros del modelo pueden estimarsepor máxima verosimilitud 4, a partir de las frecuencias relativas de aparición de los eventosen el corpus. En un corpus etiquetado se relaciona una secuencia de observaciones, � � � � � �� , con una secuencia de estados,

� � � � � � �� .

Las probabilidades de transición � �� se obtienen contando las veces que se transita delestado �� al estado � � y dividiendo por las veces que se transita por el estado � . Consi-derando que

� � � representa la frecuencia con que aparece el suceso �� en el corpus de4La aproximación por máxima verosimilitud estima los parámetros del modelo que proporciona la pro-

babilidad más alta para el conjunto de entrenamiento.


entrenamiento, las probabilidades de transición en un modelo de primer orden (bigra-mas) se expresarían así:

� ��

� � � � �� (2.27)

Para un modelo de segundo orden (trigramas), la fórmula se expresaría como sigue:

� ��

� � � � �� (2.28)

Las probabilidades de emisión se obtienen contando las veces que un símbolo (� � ) ha

sido emitido en un estado ( � � ) y dividiendo por las veces que se ha transitado por dichoestado:

� � � � � � � ��

� � � � � � (2.29)

2.5.3 Métodos de suavizado

Un problema asociado con la estimación de los parámetros de un MM, tanto para mé-todos supervisados como no supervisados, es la escasez de datos de aprendizaje (sparsedata). Esto da lugar a que muchos sucesos, tanto transiciones entre estados como emisio-nes de símbolos, no sean observados durante la fase de entrenamiento5 y, por tanto, elvalor de su probabilidad en el modelo sea cero:

� Transiciones no vistas. En aplicaciones reales es normal que en el corpus de entrena-miento no aparezcan todos los posibles de pares (bigramas) o tripletes (trigramas)de estados. Si no aparece el par

� � � �� el proceso de aprendizaje asigna a la proba-bilidad de transición � �� el valor 0. Esto puede originar que el algoritmo de análisisrechace todos los caminos que transiten entre � y � � , o incluso que no pueda ob-tener un camino válido para ciertas secuencias de observaciones. Por ello, debeasignarse un valor de probabilidad, aunque sea pequeño, a todas las transicionesdel modelo.

� Símbolos no vistos. En una secuencia de observaciones es posible que aparezcansímbolos que, o bien, no se han visto en el entrenamiento y, por tanto, no son emi-tidos en ningún estado, o bien, no se emiten en todos los estados del modelo. Estotambién impide encontrar un camino para la observación, por lo que es necesarioasignar un valor de probabilidad a los símbolos desconocidos.

5También puede ocurrir que estos sucesos no aparezcan con la suficiente frecuencia para que tenganrelevancia estadística.


Un ejemplo que ilustra el problema de la escasez de datos es el siguiente. El corpusWall Street Journal tiene un vocabulario (

�) de aproximadamente 20,000 palabras diferen-

tes. El número de pares distintos sería � � � � , es decir 400 millones de bigramas distintos.El tamaño del corpus es de un millón de palabras aproximadamente con las cuales sola-mente se cubre un 2.5% del total de los bigramas. En un modelo de trigramas el efectosería todavía peor.

Los métodos que tratan de contrarrestar el efecto de los sucesos no vistos se denomi-nan métodos de suavizado (smoothing methods). Un método básico consiste en asignar unacierta probabilidad al espacio de sucesos no vistos, mediante la aplicación de la Ley deLaplace, que consiste en incrementar la frecuencia de todos los sucesos en una unidad6.La probabilidad de un suceso �� se define como expresa la ecuación (2.30).

�

� � � � � � � �

�� (2.30)

De acuerdo con esta ley, las probabilidades � �� y � � � � � se aproximarían como sigue:

� ��

� � � � �� (2.31)

� � � � � ��

� � � � � � � � � � (2.32)

La estimación que proporciona la ley de Laplace es muy dependiente del tamaño delvocabulario y reserva una probabilidad demasiado elevada para los sucesos no vistos,es decir, sobreestima los sucesos no vistos. Una solución comúnmente adoptada es in-crementar la frecuencia de los sucesos en una cantidad positiva

�inferior a 1, lo que se

conoce como Ley de Lidstone, es decir,

�

� � � � � � � �

��

� � � �� (2.33)

Sin embargo, esta aproximación tiene dos problemas: primero, la elección de un va-lor de

�adecuado y, segundo, que todos los sucesos no vistos se estiman con la misma

probabilidad. Para solucionar estos problemas se suelen utilizar métodos que combinandiferentes distribuciones de probabilidad.

Cuanto más alto es el orden � del modelo, éste es más específico y más adaptado alos los datos de entrenamiento, pero es más fácil que aparezcan sucesos no vistos y, porlo tanto, la cobertura del modelo es menor. Si el orden del modelo es menor la cobertura

6Esta aproximación también se conoce como “Añadir uno” (Adding one).


’

λ

1−λs∼

µ

µ

Figura 2.7: Modelo de Markov expandido para el cómputo del factor de ponderación � .

es mayor, pero el modelo es más general. Los métodos que se utilizan para suavizar lasprobabilidades de transición en un MM son los mismos que se aplican para el suavizadode los modelos de � � � � � � � . Éstos se pueden clasificar básicamente en dos grupos:Interpolación Lineal y Back-off. Mientras el primero tiene en cuenta todas las distribucionesde probabilidad disponibles para la estimación de un determinado suceso, el segundo,selecciona una de ellas como la más adecuada para cada situación. Estos métodos sedescriben en los apartados siguientes.

Interpolación Lineal

Una forma de solucionar el problema de la escasez de datos de entrenamiento es combi-nar el modelo estimado con otros modelos más generales, para los cuales esa cantidad dedatos sea suficiente para dar una buena estimación. La interpolación de las funciones deprobabilidad de cada modelo da lugar a una nueva función de probabilidad que asignaun valor de probabilidad a todos los sucesos. Si se han estimado los parámetros de dosmodelos, uno más específico (

�) y otro más general (

��), el modelo interpolado resultante

es:

�� (2.34)

donde los parámetros de cada modelo se ponderan de forma que la suma de los factoresde ponderación sea igual a 1. Un aspecto clave es la elección de un valor óptimo para� que dependerá de la cantidad de datos de entrenamiento. Intuitivamente, se puedeentender que si la cantidad de datos aumenta, el modelo más específico (

�) estará mejor

estimado y el valor de � se acercará a 1. De forma similar, si los datos son escasos el valorde � tenderá a 0.

Existen diversos procedimientos para estimar los valores de los pesos. Uno de ellosconsiste en aplicar el algoritmo forward-backward (Jelinek y Mercer, 1985), interpretandola fórmula de interpolación como un modelo expandido como el que muestra la figura


2.7. Para entrenar este modelo expandido se divide el conjunto de entrenamiento en dospartes. Una de ellas, normalmente el 90% de los datos, se utiliza para estimar los modelos�

y� �

, y el 10% restante para estimar las probabilidades de transitar a esos modelos ( � )desde el estado inicial �� . Este método también se conoce como deleted interpolation.

Para interpolar un modelo de � � � � � �� , por ejemplo un modelo de trigramas ( � =3),la Interpolación Lineal Simple es la forma más básica y viene determinada por la ecuación2.35, en la que la distribución de probabilidad del modelo más específico ( � � � � � � � � � ) secombina con las distribuciones de probabilidad de los modelos más generales (bigrama,� � � � � � � , y unigrama, � � � � ). Los pesos son constantes e independientes de la observa-ción � � y de la historia previa

� � � � � .

� ��

� � �(2.35)

También puede definirse un modelo de Interpolación Lineal General en el que cadafactor de ponderación dependa de la observación � � (Ney y Kneser, 1991, 1994) o de lahistoria previa. En este caso conviene agrupar las historias en clases de equivalencia parareducir el número de parámetros a estimar (Bahl et al., 1983; Chen y Goodman, 1996).

La aplicación directa de este método de suavizado para un modelo de trigramas uti-lizado para el etiquetado morfosintáctico se describe en Brants (2000). Brants escoge elmodelo de interpolación lineal simple y estima los valores de ponderación, � , mediantedeleted interpolation. La técnica elimina sucesivamente cada trigrama del corpus de entre-namiento y estima los mejores valores de � para el resto de �� en el corpus. Elalgoritmo utiliza las frecuencias de los distintos � � � � � � � y les resta 1 para tener encuenta los sucesos no vistos, evitando así la sobreestimación del modelo. El algoritmo 1aumenta el valor de � dependiendo de la frecuencia de aparición del

� � � � � � respectoa los �� correspondientes de distinto orden. Si algún valor queda indefinido elresultado de la expresión es 0. � es el tamaño del corpus y

� representa una categoríamorfosintáctica.

Brants indica que, para el caso del etiquetado morfosintáctico, la interpolación linealsimple ofrece mejores resultados que una interpolación general, en la que los valores deponderación dependan de la frecuencia de los sucesos. En este sentido, Brants cita dosexperimentos: en el primero considera un conjunto de � s para cada valor de frecuenciade trigramas y, en el segundo, particiona los sucesos en intervalos de frecuencia. Ningunade estas aproximaciones mejora los resultados de la interpolación simple.


Algoritmo 1 Cálculo de los factores � mediante deleted interpolation (Brants, 2000).� � � � � � �para todo trigrama

� � �� con� � � � �� hacer

Calcular los cocientes � � � � � � � �� , � � � � �� y � � �� si � � � � � � � �� es el máximo entonces

� � � � � � � � � �� si no si � � � � �� es el máximo entonces

� � � � � � � � � �� si no si � � �� es el máximo entonces

�� fin si

fin paraNormalizar � � � � � � � �

Back-off

La combinación de modelos mediante Back-off consiste en escoger el modelo más apro-piado para el contexto actual. Esta técnica puede verse como un caso particular de in-terpolación lineal en el que, para cada suceso, sólo un factor de ponderación puede serdistinto de cero.

Los modelos de Back-off de n-gramas fueron propuestos por Katz (1987). Estos esti-man la probabilidad de un � � � � � � a partir de los sucesos de orden menor que � , segúnse expresa en la ecuación (2.36).

� ��

� � � � �� (2.36)

Si la frecuencia de un � � � � � � en el entrenamiento es mayor que un determinadoumbral

�, determinado experimentalmente, la probabilidad se estima por máxima vero-

similitud. Para los sucesos de baja frecuencia, es decir, los se han visto un número deveces inferior a

�, el valor su probabilidad se calcula aplicando un descuento,

��, que res-

ta una cierta masa de probabilidad a los sucesos vistos para repartirla entre los no vistos.Si el �� no se ha visto en el entrenamiento, entonces su probabilidad se estima apartir del � � � � � � de orden inmediatamente inferior. Esta probabilidad debe multipli-carse por un factor de normalización, � , que reparte la masa de probabilidad descontadaentre los sucesos de baja frecuencia.

Existen varias propuestas en la literatura para calcular la función de descuento�.

Katz (1987) utilizó el estimador Good-Turing (Good, 1953). Ney y Kneser (1994) proponen


el descuento lineal y el descuento absoluto.

2.5.4 Suavizado de las probabilidades de emisión. Tratamiento de palabrasdesconocidas

El suavizado de las probabilidades de emisión de un MM puede ser más crítico queel de las probabilidades de transición, debido a que es muy probable encontrar nuevasobservaciones que no han aparecido previamente en los datos de entrenamiento.

La aproximación más sencilla para suavizar las probabilidades de emisión es la apli-cación directa de la Ley de Laplace o “Añadir Uno” comentada anteriormente:

� � � � � �� suavizada � � � � � � � � � � � � ��

� � � � � � � � � � (2.37)

Un MM que modelice algún problema de PLN tendrá normalmente secuencias depalabras como observaciones. En aplicaciones de PLN es muy habitual que en una fraseaparezcan palabras desconocidas, sobretodo si el dominio de la aplicación es distinto aldominio de aprendizaje. Las palabras se consideran como desconocidas porque no apa-recen en el corpus de entrenamiento o, incluso, no aparecen en el diccionario de la aplica-ción. Es por ello que el rendimiento de los sistemas de desambiguación morfosintáctica,sintáctica o semántica viene determinado en gran medida por un correcto tratamientode las palabras desconocidas. La desambiguación morfosintáctica o etiquetado de textossuele ser el primer proceso en un sistema de PLN, por ello es en ese campo donde se haprofundizado en mayor medida en el tratamiento de las palabras desconocidas.

El modelo más simple consistiría en asumir que una palabra desconocida puede per-tenecer a cualquier categoría morfosintáctica abierta (nombres, verbos, adjetivos y adver-bios) con la misma probabilidad. Pero existen aproximaciones que intentan modelizar deforma más precisa el comportamiento de las palabras desconocidas en cada categoríadefiniendo una distribución de probabilidad para las mismas.

Demartas y Kokkinakis (1995) realizan un estudio experimental en el que concluyenque “la distribución de probabilidad de las palabras desconocidas es muy similar al de aquellaspalabras que aparecen con frecuencia

�y, además, es muy diferente a la distribución de las palabras

conocidas”. Basándose en esta hipótesis, la estimación de estas probabilidades se hacemediante la ecuación (2.38), donde � es una palabra y

� una categoría morfosintáctica.

� � � desconocida � � � � � � � desconocida � � � � desconocida � � �

� � � � � � menos probable � � � � desconocida � � � (2.38)


� � � � � menos probable y � � � se calculan a partir del conjunto de entrenamiento utili-zado. � � � desconocida se estima a partir de textos abiertos, distintos al de entrenamiento,observando las palabras que están fuera del léxico aprendido y viendo a qué categoríapertenecen. Finalmente, todas las probabilidades se normalizan para garantizar la consis-tencia estocástica del modelo (ecuación 2.39), donde

�representa la talla del vocabulario

y � el número de categorías morfosintácticas.��

� � � conocida� � � � � � � desconocida � � � � � � � � � � (2.39)

Merialdo (1994) define una función de distribución de probabilidad uniforme, paracada categoría

� , que cumple que es inversamente proporcional al número de palabrasen cada categoría �

� � (ecuación 2.40). Esta distribución se interpola linealmente con lade las palabras conocidas mediante la ecuación (2.41).

� uniforme � � � � � �

�� (2.40)

� � � � � � � � � � � � � � � � � � � � � � � uniforme � � � � � (2.41)

El estudio de la información morfológica contenida en las palabras puede ser de granayuda. Por ejemplo, es más probable que una palabra sea desconocida si comienza pormayúscula. En leguas flexivas, existen determinados sufijos (o prefijos) característicosde ciertas categorías, por ejemplo en el castellano una palabra acabada en -mente es muyprobable que sea un adverbio. En este sentido, una de las primeras propuestas para elinglés es la de Weischedel et al. (1993), que estima las probabilidades de emisión de unapalabra a partir de tres tipos de información: la probabilidad de que una categoría emitauna palabra desconocida (en el caso de las categorías cerradas esta probabilidad es cero);la probabilidad de que una categoría emita palabras que comiencen en mayúscula; y laprobabilidad de que una categoría emita palabras con ciertos sufijos o finales caracterís-ticos (-ing, -ed, -s, -ion, -ly, -able, ...) o que contengan guiones. La probabilidad de emitiruna palabra � en una categoría

� viene expresada por la ecuación (2.42), donde � es unfactor de normalización.

� � � ��

�palabra desconocida � � � � �

mayúscula � � � � �finales y guiones � �

(2.42)

Charniak (1993) propone un modelo alternativo que utiliza tanto sufijos como pre-fijos. Franz (1997) considera que la asunción de independencia para algunos rasgos esincorrecta. Por ejemplo, es más probable que una palabra sea desconocida si está en ma-yúscula, por lo tanto, los rasgos “mayúsculas”y “palabra desconocida” que aparecen enla ecuación de Weischedel no son independientes.


Una tercera aproximación consiste en computar la distribución de probabilidad paraun sufijo de una determinada longitud, a partir de todas las palabras del entrenamientoque compartan dicho sufijo. Esta es la solución que adopta Brants (2000) en su etique-tador TnT. El término sufijo se utiliza en el sentido de “secuencia final de letras en unapalabra”, lo que no tiene un significado necesariamente lingüístico.

Las probabilidades se suavizan por abstracción sucesiva según la fórmula recursiva(2.43), que calcula la probabilidad de una etiqueta

� � dadas las últimas�

letras ( � ) deuna palabra de � letras, para

� � �� .

� � � � � � �� (2.43)

La estimación de probabilidad, �� , para un sufijo de longitud�

serealiza por máxima verosimilitud:

�� (2.44)

El tamaño del sufijo,�

, depende de la palabra, tomando siempre el sufijo más largoque aparece en el conjunto de entrenamiento, hasta un máximo determinado empírica-mente (que Brants establece en 10 letras).

El valor de los pesos � corresponde a la desviación estándar, según se argumenta en(Samuelsson, 1993), y es independiente para todo

� � �� . Para un conjunto de �

categorías:

� �

� � � ��

� ��

��

� �� (2.45)

Brants también argumenta que la distribución de probabilidad de los sufijos de laspalabras poco frecuentes se aproximará mejor a la de las palabras desconocidas. Por ello,sólo tiene en cuenta aquellas palabras cuya frecuencia en el entrenamiento es menor queun cierto umbral que empíricamente establece en 10.

La aproximación basada en sufijos suele tener un buen comportamiento en lenguaspoco flexivas, como es el caso del inglés. Para otras lenguas, como por ejemplo el caste-llano, la problemática de las palabras desconocidas es mucho más compleja, y para resol-verla se suelen utilizar analizadores morfológicos que proporcionan para cada palabrasus posibles categorías morfosintácticas, utilizando la información obtenida de una va-riedad de recursos (como grandes diccionarios, lematizadores, etc.). A partir de la salidadel analizador morfológico se pueden seguir varias estrategias para asignar a la palabradesconocida la probabilidad de pertenencia a cada categoría (todas las probabilidadespor igual, probabilidad de la categoría, etc.).


2.6 Aplicaciones de los MM en PLN

Los MMs se aplicaron inicialmente en sistemas de reconocimiento automático del habla,tanto en sistemas de reconocimiento de palabras aisladas (Rabiner et al., 1983), como deldiscurso continuo (Baker, 1975; Jelinek, 1976). Este mismo formalismo se aplicó poste-riormente al problema del etiquetado morfosintáctico de textos. Los primeros trabajosson los desarrollados por Bahl y Mercer (1976), Derouault y Merialdo (1984), Church(1988) y DeRose (1988). Durante la década de los 90 se siguió investigando en este campocon trabajos significativos en los cuales se utilizaba entrenamiento supervisado (Merial-do, 1994; Weischedel et al., 1993; Brants, 2000) o no supervisado (Kupiec, 1992; Cuttinget al., 1992; Samuelsson, 1993). Los MMs, en algunos casos con algunas modificaciones,permiten abordar otras tareas de desambiguación siempre que puedan formularse comoproblemas de etiquetado. Es el caso del análisis sintáctico superficial (Church, 1988; Skuty Brants, 1998b; Pla et al., 2000b; Zhou et al., 2000; Molina y Pla, 2002), la detección decláusulas (Molina y Pla, 2001) o el reconocimiento de entidades (Malouf, 2002). Tambiénse han aplicado en problemas más complejos como la desambiguación del sentido delas palabras (Loupy et al., 1998; Molina et al., 2002c), aunque en este caso las limitacio-nes del modelo para manejar un elevado número de parámetros y la escasez de corpusetiquetados impide conseguir resultados realmente satisfactorios.

Capítulo 3

Modelos de Markov Especializados

En este capítulo se propone una formulación unificada de los Modelos de Markov Espe-cializados que fueron introducidos por Pla (2000) para su aplicación al etiquetado morfo-sintáctico. Con esta aproximación los MM pueden aplicarse a problemas de desambigua-ción de PLN, siempre que estos problemas puedan reducirse a un proceso de etiquetado.La técnica propuesta permite incorporar en un modelo información adicional, disponi-ble en el conjunto de datos de entrenamiento, mejorando así las prestaciones de los MMbásicos.

3.1 Introducción

En el capítulo 2 se presentó el formalismo de MM como una aproximación inductiva quepermite estimar un modelo estocástico a partir de secuencias de observaciones. Tras serestimado, dicho modelo puede utilizarse para determinar cuál es la secuencia de esta-dos más probable para una secuencia de observaciones dada. Cuando la secuencia deobservaciones se corresponde con secuencias de palabras de una lengua y los estadosdel modelo representan categorías morfosintácticas, el MM estimado puede utilizarsepara resolver la ambigüedad léxica categorial. Dada una secuencia de palabras (obser-vaciones), y utilizando el algoritmo de Viterbi, el modelo proporciona la secuencia decategorías más probable (el camino de mayor probabilidad en el modelo). Esta tareade desambiguación puede verse como un proceso de etiquetado en el que cada palabrase etiqueta con su categoría morfosintáctica (etiquetado morfosintáctico o Part-of-speechtagging).

Para poder llevar a cabo otras tareas de desambiguación en PLN utilizando mode-los de Markov es necesario abordar cada una de éstas como problemas de etiquetado.Además del etiquetado morfosintáctico, otros problemas como son el análisis sintácticosuperficial o la desambiguación del sentido de las palabras, también pueden reducirse a

39

40 Capítulo 3. Modelos de Markov Especializados

PAL POS CH CL S

You PRP B-NP (will MD B-VP will%2:42:00start VB I-VP start%2:30:00to TO I-VPsee VB I-VP see%2:39:03shows NNS B-NP show%1:04:03where WRB B-ADVP (viewers NNS B-NP ( viewer%1:18:01program VBP B-VP program%2:32:00the DT B-NPprogram NN I-NP )) program%1:10:01. . O )

Figura 3.1: Oración anotada con diversa información lingüística.

un problema de etiquetado. Por ejemplo, en la tarea de análisis superficial o chunking,el análisis de una oración puede representarse mediante etiquetas que indican a qué sin-tagma pertenece una palabra. En este caso, la secuencia de observaciones pueden seretiquetas morfosintácticas y los estados del modelo representan etiquetas de sintagma ode chunk. En caso de considerarse un análisis más complejo, como es el caso de la de-tección de cláusulas, pueden utilizarse etiquetas estructuradas que marquen el nivel deanidamiento de la palabra dentro del análisis. La desambiguación semántica puede versecomo la asignación de la secuencia más probable de etiquetas semánticas (o sentidos) alas palabras de una oración.

En estas tareas de desambiguación intervienen distintas fuentes de información, quebásicamente puede ser morfosintáctica, sintáctica y semántica. La figura 3.1 muestra unejemplo1 de una oración cuyas palabras (PAL) están anotadas con etiquetas morfosintác-ticas (POS)2, sintagmas básicos o chunks (CH)3, cláusulas (CL) y sentidos de la base dedatos léxica WordNet (S)4. Por ejemplo, para realizar el análisis sintáctico superficial sepueden considerar como observaciones las palabras, las etiquetas gramaticales o ambas.

Para que la resolución de estos problemas de ambigüedad mediante el uso de mode-los de Markov pueda realizarse con un grado de acierto aceptable y de forma eficiente esnecesario abordar los siguiente problemas:

1La mayoría de las oraciones de ejemplo utilizadas en este trabajo están en inglés porque están extraídasde los corpora disponibles para las distintas tareas, que en su mayoría son en lengua inglesa.

2La descripción de las etiquetas morfosintácticas se encuentra en el apéndice A.3Las etiquetas de chunk se definen en el capítulo 5.4La codificación de sentidos en WordNet se describe en el capítulo 7.


� Seleccionar qué información disponible en la secuencia de observaciones de entra-da es relevante para cada tarea. Por ejemplo, para el análisis sintáctico superficialpodría ser suficiente considerar la etiqueta mofosintáctica pero, como se demostraráexperimentalmente en el capítulo 5, si se consideran algunas palabras de la entradase mejoran las prestaciones del modelo. A este proceso le llamaremos selección.

� Definir un MM con un conjunto de estados adecuado al problema y que evite la so-bregeneralización presente en los MM básicos. En principio, cada estado se corres-ponde con una etiqueta o categoría, pero a veces, el conjunto de etiquetas definidopara una determinada tarea siguiendo criterios lingüísticos es demasiado reducidoy, por lo tanto, el modelo aprendido es demasiado general para producir buenos re-sultados ya que el grado de ambigüedad es demasiado elevado. La redefinición delas etiquetas, y por tanto del conjunto de estados del modelo, mediante la incorpo-ración de la información de entrada disponible puede ayudar a conseguir modelosque produzcan menos sobregeneralización y, por consiguiente sean más precisos.Por otra parte, ha de tenerse en cuenta que un número de etiquetas demasiado ele-vado puede dar lugar a problemas de estimación del modelo, si no se dispone dedatos de entrenamiento suficientes. Llamaremos especialización al proceso de rede-finición del conjunto de etiquetas de salida.

Llamaremos Modelo de Markov Especializado (MME) a un MM que se construye a partirde la redefinición de los datos de entrenamiento mediante la aplicación de los procesosde selección y especialización. La metodología propuesta en esta tesis pretende abordar demanera uniforme el aprendizaje de modelos para resolver cualquier tarea de desambi-guación que pueda formularse como un problema de etiquetado.

Para utilizar una terminología más cercana a la del etiquetado de textos, a partir deahora hablaremos de: información o rasgos de entrada al sistema como la secuencia de pa-labras de la oración, junto a otros rasgos asociados, que deben ser etiquetados (y que secorresponden con la secuencia de observaciones); categorías o etiquetas de salida como lainformación con que se etiqueta una oración (y que se corresponden generalmente conlos estados del modelo estimado).

Esta metodología no modifica los procesos de aprendizaje y de análisis (etiquetado)presentados para los modelos de Markov clásicos en el capítulo 2. Básicamente consisteen una redefinición del conjunto de entrenamiento, previa al proceso de aprendizaje,mediante las siguientes fases:

1. Selección de la información o rasgos de entrada relevantes para la tarea.

2. Especialización de las etiquetas de salida a partir de la información de entrada dis-ponible.


� ��

You PRP B-NP PRP PRP � B-NPwill MD B-VP MD MD � B-VPstart VB I-VP VB VB � I-VPto TO I-VP TO TO � I-VPsee VB I-VP VB VB � I-VPshows NNS B-NP NNS NNS � B-NPwhere WRB B-ADVP where �WRB where �WRB � B-ADVPviewers NNS B-NP NNS NNS � B-NPprogram VBP B-VP VBP VBP � B-VPthe DT B-NP DT DT � B-NPprogram NN I-NP NN NN � I-NP. . O . . �O

Figura 3.2: Ejemplo de reetiquetado del conjunto de entrenamiento para la tarea de análisis su-perficial.

3. Reetiquetado del conjunto de entrenamiento según la información determinada apartir de la aplicación de los puntos 1 y 2.

La figura 3.2 muestra cómo se podría redefinir una muestra del conjunto de entrena-miento para la tarea de análisis superficial para la oración. La información disponibleen la entrada está formada por dos rasgos: palabras ( �� ) y etiquetas morfosintácticas( �� ). Las etiquetas de salida son las etiquetas de chunk (

�). La información que se

selecciona como entrada (�

) son las etiquetas morfosintácticas y algunas palabras quepueden ser significativas (p.e. ’where’). Las etiquetas de salida se redefinen añadiendo lainformación proporcionada por las etiquetas morfosintácticas y también por ciertas pa-labras (

��). De esta manera se consigue un modelo mucho más adecuado a la tarea como

se verá a continuación.

Los MME permiten codificar, a través del uso del contexto en la definición de losestados del modelo, la información disponible a la entrada del sistema de etiquetado.De esta forma se modifica la topología del modelo para que capture ciertas restriccionescontextuales. Pero, por otra parte, como la redefinición de etiquetas puede multiplicarde forma prohibitiva el número de estados del modelo, es necesario llevar a cabo unaselección de aquellos rasgos que se consideren relevantes.

3.2. Construcción de un Modelo de Markov Especializado 43

3.2 Construcción de un Modelo de Markov Especializado

A continuación se describe la técnica que permite construir los MME mediante los proce-sos de selección y especialización del corpus de entrenamiento. Cada una de estas técnicasse presenta con ejemplos que ilustran el efecto que se produce sobre los modelos que segeneran. Sean los conjuntos:

�� , el conjunto de categorías o etiquetas de salida. En un MMbásico cada etiqueta se corresponde con un estado del modelo.

� � � � � �� , el alfabeto correspondiente a un rasgo de entrada formadopor

� símbolos ( � ). Ejemplos de rasgos de entrada son palabras, lemas, etiquetamorfosintácticas, etiqueta de chunk, sentidos, etc.

��

� �� , el conjunto de tuplas de los � rasgos posibles de entrada ala aplicación. En un MM básico � es igual a 1.

�� , el conjunto de entrenamiento o aprendizaje constituido por secuen-

cias de tuplas de� � �

.

Ejemplo 1: Si consideramos que ��

, donde � � es el conjunto de palabras(Este, río, está, seco, ., ...), � � es el conjunto de etiquetas morfosintácticas (DT, NC, V, ADJ,Fp, ...) y

�es el conjunto de etiquetas de chunk (B-SN, I-SN, B-SV, B-SADJ, O, ...), una

posible cadena de � sería:

�Este, DT, B-SN � río, NC, I-SN � está, V, B-SV � seco, ADJ, B-SADJ � ., Fp, O

Para estimar los MME es necesario preprocesar el corpus de entrenamiento � paradefinir adecuadamente los vocabularios de entrada y salida, seleccionando la informa-ción relevante en la entrada y redefiniendo las etiquetas de salida. Este proceso, previoa la fase de entrenamiento, genera un nuevo conjunto de entrenamiento

�� ,

mediante la aplicación de la función�

que se define sobre el conjunto de entrenamientooriginal, � , y produce el nuevo conjunto de entrenamiento

�� :

�� (3.1)

donde � � � � � � � es una tupla perteneciente a� � �

,� � � � �

� � �� es un

elemento de

y �� es una categoría de�

.

La función�

consiste en la aplicación de la función de selección (� �

) sobre los rasgosde entrada y en la aplicación de la función de especialización (

� �) sobre las etiquetas de

salida.


3.2.1 Función de selección de los rasgos de entrada � �La función de selección,

� �, se define sobre el conjunto de tuplas de entrada,

, y propor-

ciona una nueva entrada,�

:

� � � � ��

� � ��

��

� � ��

� �� (3.2)

La nueva entrada,�

, se forma mediante la operación de concatenación de cadenas(que se denota por

�) sobre aquellos rasgos que son significativos para una determinada

tarea. Con la restricción de que al menos debe seleccionarse un rasgo de la entrada.

Para cada rasgo de entrada se considera un subconjunto � � � � � que estará formadopor los símbolos o valores relevantes para ese rasgo. Si todos los valores posibles paraun rasgo determinado se consideran relevantes ( � � � � ), entonces diremos que se harealizado una selección total para dicho rasgo. En caso contrario, hablaremos de selecciónparcial ( � � � � ).

Para cada conjunto de rasgos, � , se define una función,� � � , que determina si el valor

del rasgo es relevante o no, es decir, si ese valor se concatenará a la entrada.

� � � � � � � � � ��

� � si ��

� si �� (3.3)

Ejemplo 2: Si sobre el conjunto de entrenamiento mostrado en el Ejemplo 1 se aplicacomo criterio de selección que todas las etiquetas morfosintácticas son relevantes y delconjunto de palabras sólo consideramos la palabra río, es decir, � �

� �

río � y � � � � ,

la cadena resultante en el conjunto de entrenamiento (�� ) sería:

�DT, B-SN � río

�NC, I-SN � V, B-SV � ADJ, B-SADJ � Fp, O

La aplicación de la función de selección permite incorporar al modelo cierto conoci-miento determinado a priori que ayuda a resolver algunas ambigüedades. Por ejemplo,en la figura 3.3 se puede observar que, en el modelo previo a la selección, el símbolo � � �� puede ser emitido en los estados � � y � � . Considérese como criterio de selecciónque � �

� � � y � �

� � � � �� y supóngase que los símbolos � � y �� aparecen en las

tuplas de entrenamiento junto al símbolo �� . Después de aplicar la función de selección


fS

O2

...

...

r

r

1

1

1

M

O1

...

...

r

r

1

1

1

M

r1

r1

·

O1

r2p

...

...

r

r

1

1

1

k

M

r1

·r2q

O2

...

...

r

r

1

1

1r1

M

kk k

Figura 3.3: Efecto de la aplicación de la función de selección sobre la emisión de símbolos en losestados del modelo.

� � solamente puede ser emitido en el estado � � si se considera junto a � � o en el estado� � si se considera junto a � � .

Una correcta selección de los rasgos de entrada puede determinar las prestacionesdel modelo. Si bien podría considerarse que toda la información de entrada puede serrelevante, y que cuanta más información se tenga en cuenta mejor será el rendimiento delsistema, esto no siempre es así por varios motivos. Por un lado, cuanta más informaciónse considere, más datos de entrenamiento serán necesarios para obtener un modelo fiable,y no siempre se dispone de cantidades suficientes de datos. Por otro lado, es posible quesolamente un conjunto reducido de símbolos de un determinado alfabeto o rasgo seanrealmente relevantes para una tarea, y por lo tanto conviene determinarlos a priori. Esdecir existen símbolos que pueden contener información relevante para clasificar unatupla dentro de una categoría, pero otros que no, y que pueden tener una influencianegativa en el proceso de etiquetado, sobretodo si el número de rasgos a la entrada eselevado.

Para ilustrar la capacidad de los MM para manejar información poco relevante se haescogido el problema del etiquetado morfosintáctico. Para esta tarea el único rasgo a laentrada son palabras. Se han añadido a los conjuntos de entrenamiento y de prueba entre1 y 10 rasgos irrelevantes, cuyos símbolos pertenecen al alfabeto {0,1}, de forma aleato-ria. El resultado de precisión obtenido para un modelo de segundo orden (trigramas),utilizando diferentes tamaños del conjunto de entrenamiento (250, 500 y 1000 kw) y unconjunto de prueba de 90 kw, se puede ver en la figura 3.4. Las prestaciones del mode-lo disminuyen conforme se añaden rasgos irrelevantes y esto es más acusado cuando sedispone de menos datos de entrenamiento.


60

65

70

75

80

85

90

95

100

0 2 4 6 8 10

PR

EC

ISIÓ

N (

%)

Número de Rasgos Irrelevantes

250 kw500 kw

1000 kw

Figura 3.4: Precisión del etiquetado morfosintáctico después de añadir de 0 a 10 rasgos binariosde forma aleatoria.

3.2.2 Función de especialización del conjunto de etiquetas de salida � �

La función de especialización,� �

, se define sobre las tuplas formadas por los rasgos deentrada,

, y las etiquetas de salida

�, y proporciona un nuevo conjunto de etiquetas de

salida,��

, que es el resultado de redefinir las etiquetas de salida (o un subconjunto deellas) añadiendo información disponible en la entrada.

Sea el conjunto��

��

� �� la función� �

se define comosigue.

� � � � � � ��

� � ��

��

� � ��

� �� (3.4)

De forma similar a como se define la función de selección, para cada rasgo de entradase considera un subconjunto � � � que incluirá los símbolos relevantes para especializar laetiqueta de salida. Si todos los valores posibles para un rasgo determinado se consideranrelevantes ( � � � � ), entonces diremos que se ha realizado una especialización total paradicho rasgo. En caso contrario, hablaremos de especialización parcial ( � � � � ).

Para cada conjunto de rasgos, � , se define una función,�� , que determina si el valor

se utiliza para redefinir la etiqueta de salida o no.


1O

fE

O1

...

r1

1r1

...

r1 k

...1

...r1 M

r1

r1 k−1

r1

r1

k+1

M k

1r1 k

O·

Figura 3.5: Efecto de la aplicación de la función de especialización sobre la estructura del modelo.

� � � � � � � � � �� s� � �� q � � � � � � � � � � � � � ��

� � � � � � � si �

� � � � �� si �

� � � � � (3.5)

Además, el conjunto de etiquetas de salida puede redefinirse añadiendo cierta in-formación conocida sobre la entrada o los datos de entrenamiento. Esto se represen-ta mediante la función

� � ��

. Aunque, por lo general, se considera que� � �

� �� .

Ejemplo 3: Si sobre el Ejemplo 1, además de la selección anteriormente aplicada, consi-deramos como criterio de especialización � �

� � � y � �

� � , el conjunto de entrena-

miento resultante sería el siguiente:

�DT, DT

�B-SN � río

�NC, NC

�I-SN � V, V

�B-SV � ADJ, ADJ

�B-SADJ � Fp, Fp

�O

En la figura 3.5 se puede observar el efecto producido sobre la estructura del modelocuando se aplica la función de especialización. En este caso se ha considerado como cri-terio de especialización que � �

� � � � � . En el nuevo modelo aparece un nuevo estado

por cada símbolo especializado y por cada uno de los estados que pueden emitir dichosímbolo. En este nuevo estado, � � � � � , solamente se puede emitir el símbolo especializa-do. Esto permite modelizar un contexto particular para el símbolo escogido ( � � ) en unadeterminada etiqueta de salida ( � � ).


3.2.3 Etiquetado simultáneo

Los MME pueden utilizarse para llevar a cabo varias tareas de análisis simultáneamente.Si las etiquetas de salida se especializan con algún rasgo que no se tenga en cuenta enel proceso de selección, es decir, � � �� , el proceso de análisis pro-porciona como etiqueta de salida una tupla en la que cada una de sus componentes esel resultado de un proceso de desambiguación. Por ejemplo, tomando como entrada laspalabras y definiendo las etiquetas de salida como tuplas formadas por pares de etique-tas morfosintácticas y etiquetas de chunk podría realizarse al mismo tiempo etiquetadomorfosintáctico y chunking. Aunque este proceso simultáneo es posible, los modelos ge-nerados tienen una talla muy elevada y, por tanto, requieren de una gran cantidad dedatos de entrenamiento para obtener resultados aceptables.

3.3 Ejemplo

El ejemplo que se presenta a continuación pretende ilustrar el efecto producido sobre losmodelos de Markov aprendidos siguiendo los procesos de selección y de especializacióndescritos anteriormente. Partiendo de un conjunto de entrenamiento inicial � , se definennuevos conjuntos de entrenamiento sobre los cuales se han aplicado distintos criterios deselección y especialización y se indican las mejoras que presentan los modelos especiali-zados respecto al modelo básico.

Sean los conjuntos de rasgos de entrada � � y � � , y el conjunto de etiquetas de salida�, definidos así:

� � � ={a,b,c,d}

� � � ={x,y,z}

��

={L,M}

A partir del conjunto de entrenamiento original � � � � �se van a construir los

conjuntos de entrenamiento que pueden verse en la tabla 3.1 y que se definen según lossiguientes criterios de selección y especialización:

�

��

� � � � �

� � � � � �

� � . Este conjunto de entrenamiento da

lugar al modelo de Markov básico.

�

��

� � � � � �

� � � � �

� � � � � � �

� � . En el modelo correspondien-

te se han especializado las etiquetas de salida asociadas al símbolo de entrada �(especialización parcial sobre � � ).

�

��

� � � � �

� � � � � �

� � . En el modelo resultante se han

especializado todas las etiquetas de salida (especialización total sobre � � ).

3.3. Ejemplo 49

� �� b x L b L b L b b � L b � x L b � x La x M a M a a �M a a �M a � x M a � x Mc z L c L c L c c � L c � z L c L

b y M b M b M b b �M b � y M b � y Ma x L a L a a � L a a � L a � x L a � x Lb y M b M b M b b �M b � y M b � y M

c z L c L c L c c � L c � z L c Ld x M d M d M d d �M d � x M d � x Ma x L a L a a � L a a � L a � x L a � x L

b y M b M b M b b �M b � y M b � y Md z M d M d M d d �M d � z M d Ma x L a L a a � L a a � L a � x L a � x L

d z M d M d M d d �M d � z M d Md x M d M d M d d �M d � x M d � x Mc z L c L c L c c � L c � z L c L

Tabla 3.1: Ejemplos de distintas secuencias de entrenamiento.

�

��

� �

� � ��

� � . En este caso, se seleccionan todos

los símbolos de los dos rasgos disponibles en la entrada (selección total).

�

��

� � ��

��

� � . El modelo resultante contempla

la selección de los símbolos�

e�

del rasgo � � (selección parcial sobre � � ).

En la figura 3.6 se muestran los modelos de Markov de primer orden que se genera-rían a partir del conjunto de entrenamiento correspondiente definido en la tabla 3.1. Enestos modelos se representan las probabilidades de emisión asociadas a cada estado y lasprobabilidades de transición entre estados, calculadas ambas a partir de las frecuenciasde aparición en la muestra de entrenamiento correspondiente. Los estados etiquetadoscon � � � y � � � se corresponden con los estados inicial y final del modelo, respectiva-mente. Para facilitar la explicación de los ejemplos no se van a considerar las transicionesde probabilidad cero o las transiciones de suavizado que deberían aparecer en todos es-tos modelos. A continuación se analiza el comportamiento de cada uno de los modelosrespecto a la entrada b a c, que se corresponde con una de las muestras vistas en elconjunto de entrenamiento.

A partir del conjunto de entrenamiento�� se aprende el modelo básico de la figura


<s>

a·M

a 1/11/1

b·L

2/5

1/5

1/5

1/1

1/3

1/3

2/4

b 1/1

b·M

1/3

1/3

b 3/3

1/3 2/3

a 3/3

c·L

d·M

</s>

a·L

1/5

2/3

d 4/4

1/4

1/4

c 3/3

<s> </s>

L

3/5

5/8

2/8

1/8

3/7

4/7

a 1/8b 3/8d 4/8

c 3/7b 1/7a 3/7

2/5

M 3/5

2/7

c 3/4b 1/4

</s>

1/7

a 1/1

a 3/31/3

2/3

1/4

1/1

3/7

<s>

2/5 2/4

1/4

d 4/7b 3/7

1/7

M

a·M

a·L

L

<s> </s>

L

2/5

3/51/8

4/7

b·x 1/7a·x 3/7

c·z 3/7

M

2/8

3/7

d·z 2/8a·x 1/8b·y 3/8

5/8

d·x 2/8

T1~

a) Modelo básico ( ). T2~

b) Modelo con especialización parcial ( ).

T4~

d) Modelo con selección total ( ).T3~

c) Modelo con especialización total ( ).

T5~

e) Modelo con selección parcial ( ).

<s> </s>

L

2/5

3/51/8

4/7

b·x 1/7a·x 3/7

M

2/8

3/7

d 2/8a·x 1/8b·y 3/8

5/8

d·x 2/8

c 3/7

Figura 3.6: Modelos básico y especializados sin suavizado.

3.3. Ejemplo 51

<s> b a c </s>

<s> b a c </s>

T3~

c) Modelo con especialización total ( ).

T1~

a) Modelo básico ( ). T2~

b) Modelo con especialización parcial ( ).

T4~

d) Modelo con selección total ( ).

<s> b·x a·x c·z </s>

<s>

</s>

L

M

T5~

</s>

<s>

d·M

a·M

a·L

c·L

b·M

<s> b a c </s>

<s>

</s>

L

M

</s>

M

<s>

a·M

L

a·L

b·L

<s> b·x a·x c </s>

<s>

</s>

L

M

e) Modelo con selección parcial ( ).

Figura 3.7: Trellis de programación dinámica. No se ha tenido en cuenta el suavizado del modelo.


3.6.a. Para la frase b a c existen dos caminos posibles en el modelo, como pueden verseen el trellis de programación dinámica mostrado en la figura 3.7.a. La elección del me-jor camino vendrá determinada por las distribuciones de probabilidad del modelo y elcálculo de esta probabilidad se realiza fácilmente a partir de la ecuación (2.10).

� � � � � � � � � � � � � � � � � � � ��

� ��

�� (3.6)

Estos caminos son:

� Camino 1: es el que pasa por los estados L M L y su probabilidad es la siguiente

� � � � ��

� � � � � � � � � � ��

� � � � � � � � � � ��

� � � � � � � � � � � � � � � � � � � � � � � � � � � �� Camino 2: es el que pasa por los estados M M L y su probabilidad es la siguiente

� � � � ��

� � � � � � � � � � ��

� � � � � � � � � � � � � � � � � � � � � � � � � � � � �

Como se observa la probabilidad del Camino 2 es mayor que la del Camino 1, cuandoel camino correcto según el conjunto de entrenamiento es el Camino 1. Se puede observartambién que el modelo reconoce todas las cadenas que se pueden formar con los símbolosde entrada, excepto aquellas que tengan más de una c consecutiva.

En el modelo especializado aprendido a partir del conjunto de entrenamiento�� (fi-

gura 3.6.b), en el cual se ha elegido el símbolo � para especializar el modelo, se puedeobservar que:

1. Aparecen dos nuevos estados � � � y � � � que emiten el símbolo a de manera quela modelización contextual se hace más rica. Por ejemplo, el símbolo � sólo puedeetiquetarse con

�en un determinado contexto.

2. El modelo generaliza menos que el modelo básico. Por ejemplo, y sin tener encuenta el suavizado del modelo, este modelo especializado no admite cadenas conmás de una � consecutiva, que sí que eran reconocidas por el modelo básico (y aligual que en el modelo básico, tampoco admite cadenas con más de una

�conse-

cutiva). Hay que tener en cuenta que con la aplicación del suavizado las cadenasinicialmente no admitidas serían reconocidas, pero con una probabilidad muy baja.

3.4. Descripción del sistema de etiquetado 53

3. En este caso sólo existe un camino posible para la cadena b a c (figura 3.7.b). Estecamino se corresponde con la secuencia de etiquetas de salida correcta según losdatos de entrenamiento.

La selección de rasgos de entrada también ayuda a resolver ciertas ambigüedades. Enel conjunto de entrenamiento

�� se han seleccionado todos los símbolos de los dos rasgosde entrada, � � y � � . El modelo aprendido, figura 3.6.d, presenta la misma topologíaque el modelo básico distinguiéndose de éste en los símbolos emitidos en los estados.El símbolo � se emite en el estado � si va acompañado del símbolo

�, y en el estado

�si va acompañado de

�. Para la frase b a c, que en este caso sería b

�x a�x c�z, sólo

existe un camino posible en el modelo, figura 3.7.d, que se corresponde con la secuenciade etiquetas de salida correcta, según los datos de entrenamiento. En algunos casos,esta selección puede ser parcial, como ilustra el ejemplo

�� , en el que seleccionando unsubconjunto de valores de � � se obtienen los mismos resultados que con la seleccióntotal.

Estos ejemplos ilustran cómo se pueden obtener modelos más adaptados a las mues-tras de entrenamiento y menos afectados por la sobregeneralización que presenta el mo-delo básico.

3.4 Descripción del sistema de etiquetado

Un sistema de etiquetado que se basa en métodos inductivos consta de dos fases: lafase de aprendizaje y la fase de análisis o etiquetado. Durante la fase de aprendizaje sedeben ajustar los parámetros del modelo a la tarea. En el caso de los MME, se debedeterminar cuáles son los mejores criterios de selección y de especialización. La aplicaciónde estos criterios sobre los datos de entrenamiento proporciona un nuevo conjunto dedatos, a partir del cual se pueden estimar los parámetros del modelo. Solamente debetenerse en cuenta que, tanto las observaciones como los estados, se representan mediantela concatenación de símbolos pertenecientes a distintos alfabetos (rasgos de entrada yetiquetas de salida). La estimación de las probabilidades de emisión y de transición entreestados puede realizarse por máxima verosimilitud según se expresa en las ecuaciones(2.27) y (2.29).

El modelo que proporciona mejores prestaciones se utiliza durante la fase de etique-tado: a partir de la secuencia de tuplas de rasgos de entrada, se aplica la función de selec-ción de los rasgos relevantes y ésta es la entrada al proceso de desambiguación. Medianteel algoritmo de Viterbi, y utilizando el MME aprendido, se proporciona la secuencia deetiquetas de salida más probable.


3.4.1 Fase de aprendizaje

Los algoritmos de aprendizaje automático tienen en cuenta un número determinado decaracterísticas que a priori puede ser muy elevado. De todas estas características debenseleccionarse aquellas que sean realmente relevantes para la tarea. En caso de que to-das lo fueran, las restricciones de los propios métodos de aprendizaje u otros factores,como la cantidad de datos disponibles, obligan a seleccionar aquellas que maximicen lasprestaciones del proceso de clasificación o etiquetado.

Un algoritmo de selección de características es un procedimiento iterativo que pruebacon diferentes subconjuntos de características hasta encontrar un óptimo (Aha y Bankert,1994). El algoritmo busca maximizar el resultado proporcionado por una función de eva-luación para cada subconjunto de características. Con el subconjunto óptimo, el que ma-ximiza dicha función, se entrena el clasificador. Esta estrategia se denomina estrategia defiltro (filter). Si se utiliza como función de evaluación el propio algoritmo de clasificación,entonces se habla de estrategia envolvente (wrapper). De esta forma se obtienen mejoresresultados, ya que no hay diferencias de comportamiento entre la función de evaluacióny el proceso de clasificación.

En tareas en las que interviene un número elevado de características, se parte de unsubconjunto de características inicial y, mediante alguna estrategia predeterminada, seañaden o eliminan características buscando mejorar dicho subconjunto. Estas estrate-gias de búsqueda se clasifican en tres grupos que son variantes de la técnica hill-climbing:búsqueda secuencial hacia adelante, búsqueda secuencial hacia atrás y búsqueda bidirec-cional.

En la búsqueda secuencial hacia adelante se parte de un conjunto de características vacío,se evalúan los subconjuntos formados por una característica, y se selecciona el que ofrecemejores resultados como conjunto actual. A continuación se prueban los subconjuntos detalla 2 que contienen al conjunto actual. Se selecciona el mejor de ellos y, así, se procedesucesivamente hasta que no se consiguen mejoras al extender el conjunto actual.

La búsqueda secuencial hacia atrás parte del conjunto formado por todas las caracterís-ticas. En una primera iteración se evalúan los conjuntos con una característica menos.Se escoge como conjunto actual el que maximiza la función de evaluación. El proceso serepite hasta que no se consiguen mejoras al reducir el tamaño del conjunto actual.

Estas dos aproximaciones pueden llevar a la consecución de subóptimos locales. Parareducir la posibilidad de que se produzca un óptimo local, se puede utilizar una búsquedabidireccional que añade y elimina al mismo tiempo una característica.

En el caso de los MM básicos no es necesario este proceso ya que las observacionesen los estados se corresponden con un único símbolo (un único rasgo de entrada) y cadaestado se corresponde con un elemento del conjunto de clases o etiquetas de salida. Sola-mente es necesario determinar cuál es el orden del modelo (bigramas, trigramas, etc) que


MME

4 6

5

3

ENTRENAMIENTODATOS de

DESARROLLODATOS de

Nuevos datos

el Modelo el Modelo

Etiquetar

EvaluarAprender

Entrenamiento

LEXICÓN

SeleccionarRasgos

Relevantes

EspecializarEtiquetasde Salida

f E

∼Τ

Τ D

Oración I∼

F

ID

O

DO

Oración

∼

D

desambiguadaDde entrada

Criterio de

Criterio deespecialización (2)

ER

Sf

βselección (1)SR

Figura 3.8: Procesos involucrados en la fase de aprendizaje.

ofrece mejores prestaciones según la cantidad de datos disponibles y las características dela tarea de desambiguación. Por el contrario, como se ha descrito a lo largo del capítulo,los MME manejan varias características a la entrada y añaden información a las etique-tas de salida. Es por lo tanto necesario un proceso iterativo en el cual se seleccionen lascaracterísticas relevantes, criterios de selección y de especialización, para una determinadatarea de desambiguación. Para la estimación de los MME se ha optado por la estrategiaenvolvente, ya que el coste computacional del proceso de etiquetado no es muy elevado.En este caso, se trata de maximizar el valor de alguna de las medidas de evaluación ha-bituales, como la precisión, la cobertura, o el factor

� � , sobre un conjunto de datos dedesarrollo.

Por otro lado, en las tareas de desambiguación del lenguaje natural tratadas, no se ma-neja un número elevado de características, siempre y cuando se trabaje con un contextolimitado. Por ejemplo, para el análisis superficial se tienen en cuenta palabras y etique-tas morfosintácticas, y para el problema de la detección de cláusulas se utiliza además laetiqueta de chunk. El número de subconjuntos diferentes no es elevado y, por lo tanto, noes costoso probar con los diferentes subconjuntos de rasgos para determinar cuáles sonlos mejores criterios de selección y de especialización total. Sin embargo, para determinarsi algún tipo de selección o especialización parcial es relevante, sí que es necesario seguirun estrategia que reduzca el coste de estimación del MME.

El aprendizaje de un MME es por lo tanto un proceso iterativo en el cual se va ajus-tando el MME a la tarea de desambiguación. El modelo se aprende a partir de conjuntode datos � y se ajusta en función de los resultados proporcionados sobre un conjunto de


desarrollo � . Los procesos principales involucrados en el aprendizaje de un MME sonlos que se muestran en la figura 3.8:

1. Se escogen unos criterios de selección ( � � ��

�� ) de rasgos rele-

vantes para la tarea.

2. Se escogen unos criterios de especialización ( � � ��

�� ) para rede-

finir las etiquetas de salida.

3. Se aplican las funciones de selección,� �

, y de especialización,� �

, sobre el conjuntode entrenamiento original ( � ) para producir un nuevo conjunto

�� .

4. Se aprende un MME a partir de�� . La estimación del modelo se realiza por máxima

verosimilitud, a partir de las secuencias de pares de entrada � �� .

5. Se etiqueta (desambigua) el conjunto de desarrollo,��

, utilizando el modelo apren-dido y se produce la salida

�� .

6. Se evalúan las prestaciones del sistema comparando la salida producida,�� , con

la referencia del conjunto de desarrollo, en términos del factor� � .

Los criterios de selección y de especialización definidos dependen de la tarea de desam-biguación. Generalmente se basan en criterios de frecuencia de aparición de los símbolosde un rasgo en el corpus de entrenamiento, símbolos con mayor error de etiquetado,símbolos pertenecientes a determinadas categorías, etc. Por ejemplo, para el caso deletiquetado morfosintáctico, se han probado criterios de especialización basados en laspalabras más frecuentes, palabras con mayor error de etiquetado, palabras pertenecien-tes a categorías cerradas, etc. En los capítulos siguientes se describirán los criterios deselección y de especialización utilizados en concreto para cada tarea de desambiguaciónabordada.

Para cada rasgo de entrada debe determinarse si se aplica selección total o parcial.Sobre el rasgo más relevante se aplicará selección total, mientras que sobre el resto sedecidirá cuál es la selección que ofrece mejores prestaciones. Por ejemplo, para la tareade detección de cláusulas el rasgo que ofrece mejores prestaciones es la etiqueta morfo-sintáctica, luego la etiqueta de chunk y, por último, las palabras. Por lo tanto, sobre elrasgo etiqueta morfosintáctica se aplicará selección total, y sobre el resto de rasgos se de-terminará cuál es el mejor criterio. De igual forma se determinan los mejores criterios deespecialización.

La estrategia diseñada para llevar a cabo el aprendizaje de MME es una estrategiasecuencial hacia adelante. El coste de esta estrategia es O(

� � ), donde�

es el número decaracterísticas. En nuestro caso

�sería la talla del alfabeto para un determinado rasgo. Si

la talla es muy elevada este coste puede ser prohibitivo. Considérese por ejemplo, el caso


de las palabras que constituyen un vocabulario alrededor de 20,000 palabras diferentespara el corpus WSJ. El efecto de la especialización (o selección) de muchas de ellas puedeser irrelevante o incluso disminuir las prestaciones del modelo al aumentar el númerode parámetros a estimar. Para reducir los costes del proceso de aprendizaje secuencial sehan realizado las siguientes simplificaciones:

� Los símbolos de cada rasgo están ordenados según el criterio escogido (p.e. si elrasgo son las palabras se pueden considerar palabras más frecuentes, palabras conmás error, etc.).

� Se prueban con diferentes subconjuntos de símbolos variando la talla en función delcriterio de ordenación. El subconjunto que ofrece mejores prestaciones determinael umbral de corte � . Sobre este conjunto �� se aplica la búsqueda hacia adelante.

� La aplicación de la búsqueda hacia adelante determina los símbolos de � que per-miten mejorar las prestaciones del modelo. En cada iteración, en lugar de añadirúnicamente el mejor símbolo al conjunto actual ( �� ), se añaden todos los símbo-los que ofrecen mejoras en el modelo. Los detalles de esta búsqueda están en elalgoritmo 3.

Otra decisión que debe tomarse es el orden en la determinación de los criterios de se-lección y de especialización. Para ello se ha tenido en cuenta que los criterios de seleccióninfluyen de forma más determinante en las prestaciones del modelo y, además, que unMME solamente se especializa con aquellos símbolos que previamente se han selecciona-do, según se indica en la ecuación (3.5). Por ello se ha establecido la siguiente estrategia,que se describe con detalle en el algoritmo 2.

1. En una primera iteración se prueba cada rasgo como criterio de selección to-tal. Se determina cuál ofrece mejores prestaciones. También se determina si debeespecializarse el modelo con ese rasgo, mediante la búsqueda hacia adelante.

2. Después, para cada rasgo diferente de los seleccionados en las etapas previas, sedeterminan los mejores criterios de selección y de especialización, que podrá sertotal o parcial. Se añaden como criterios de selección y especialización los de aquelrasgo que maximice las prestaciones del modelo.

3. Se vuelve al paso 2, hasta que no queden rasgos por probar o hasta que las presta-ciones del modelo no mejoren.

Esta estrategia se implementa en el algoritmo 2 que partiendo de un conjunto de en-trenamiento � y un conjunto de desarrollo � , proporciona la lista de criterios de selección( � ) y de especialización ( � ) que ofrece mejores prestaciones sobre � .


Algoritmo 2 Estrategia de aprendizaje de los MME.Entrada��

conjunto de entrenamiento�� , cada� ordenado según criterio definido a priori (frecuencia, error

de etiquetado, ...)�� conjunto de desarrollo

Salida� � �� Criterios de selección�� Criterios de especialización

Método !#"%$ �'& ; S !#"%$ � E !#"%$ � ( ;) �+* � ��, �-(;) �.* �� , �-(

para todo rasgo�

hacer� � , �-� ; eval / = evaluar_criterio(�

,�

,� �

,� �

);� � , �'� ; eval 0 = busqueda_adelante(�

,�

,� �

,� �

,�,E,eval / );

si (eval 0 > eval / > !1"�$ ) entonces

!#"%$ � eval 0 ; 2 �43 � �; E !1"�$ �'� � , ; S !1"�$ �'� � , ;

si no si (eval / > !1"�$ ) entonces

!#"%$ � eval / ; 2 �43 � �; S !#"%$ �'� � , ; E !#"%$ �'( ; finsi

finsi� � , �'(;� � , �-(

;fin para) �15� 2 �43 * � ��, �-( ; ) �#5� 2 �43 * �� , �'( ;� ��687:9 � / !#"%$ ; �� 687:9 � 0 !#"%$ ;Marcar rasgo 2 �43repetir

eval_ant� !1"�$ ;

para todo rasgo�

no marcado hacereval / � eval 0 �'& ; � � , �'� ;eval / =búsqueda_adelante(

�,�

,� �

,� �

,�,S, !#"%$ );

si (eval / > !1"�$ ) entonces !#"%$ � eval / ; � � , �;� � , ; //Especialización con los rasgos previamente selecciona-

doseval 0 =búsqueda_adelante(

�,�

,� �

,� �

,�,E, !#"%$ );

si (eval 0 > !#"%$ ) entonces

!1"�$ =eval 0 ;si no

�<� , �-(;

fin sisi no� ��, �'(

;fin si

fin paraMarcar rasgo

�si maximiza

!#"%$ ;hasta (Todo rasgo

�está marcado) || (

!#"%$>= eval_ant)


Algoritmo 3 búsqueda_adelante.Entrada��

conjunto de entrenamiento�� conjunto de desarrollo� � ��

Criterios de selección�� Criterios de especialización�

, rasgo sobre el que se realiza la selección o la especialización/+0 , / si se selecciona o 0 si se especializaeval_ref, valor de referencia

Salidaeval , resultado de la evaluación sobre

�(��

)Método

// Primero se determina el umbral de corteInicializa umbral � � ; eval � =0;mientras �� = � !#"%$ !�� hacer� � � , �

{símbolos de� que superan � ��

eval �� =evaluar_criterio(�

,�

,� �

,��

)si (eval �� > eval � ) entonces

��#�'� � � ,; eval � � eval � ;fin si

Incrementar umbral ��fin mientras// Búsqueda adelante de símbolos que maximizan eval� � � , � (

;� � � " � �-( ; �� " � ( ; eval_mejor=eval_ref;

repetirpara todo � �� " � hacer� � � , �'� � � ,�� ;

eval � = evaluar_criterio(�

,�

,� �

,� �

)si (eval � > eval_mejor) entonces

�� " �'�� " �� ; fin si //Se añaden todos los símbolosque mejoran las prestaciones� � � , �'� � � "��

fin paraeval_ba=evaluar_criterio(

�,�

,� �

,��

);si (eval_ba > eval_mejor) entonces eval_mejor = eval_ba;

� � � " � �'� � " ; finsihasta (eval_mejor eval_ba)si (eval � >eval_ba) entonces eval =eval � ;

� � � , �'� �si no eval =eval_ba;

� � � , �'�� "finsi


Algoritmo 4 evaluar_criterio.Entrada��

conjunto de entrenamiento�� conjunto de desarrollo� � ��

Criterios de selección�� Criterios de especialización

Salida� �sobre

�Método�� ;�� =� � � ��

;�

=aprender_modelo( �� ); // Estimación por Máxima Verosimilitud�� =etiquetar(

�, �� ); // Algoritmo de Viterbi� �

=evaluar(� �

, �� );

3.4.2 Fase de etiquetado

La fase de etiquetado o de desambiguación toma como entrada una oración (�), en la

que cada token es una tupla formada por � rasgos ( � � � �� ). A cada tupla

de entrada se le aplica la función de selección escogida en la fase de aprendizaje, queproporciona la secuencia de entrada (

��) al proceso de etiquetado.

SR

Criterio de MME

Etiquetar

LEXICÓN

SeleccionarRasgos

Relevantes

selección

Oración de entradaoriginal

I

Oraciónde entrada

~I

Oración desambiguada

< I, O >~ ~

f S

Figura 3.9: Esquema del proceso de etiquetado.

El proceso de etiquetado se realiza, como se ha mencionado en el capítulo 2, median-te el algoritmo de Viterbi que proporciona la secuencia de estados más probable en elMME dada la secuencia de entrada (

��). Dicha secuencia de estados especializados se

corresponde con una secuencia de etiquetas de salida (�� ).

Durante el proceso de etiquetado puede utilizarse un diccionario o lexicón que pro-porciona para cada elemento de la entrada sus posibles categorías. Este diccionario de-pende de la tarea de desambiguación que se lleve a cabo:

� En el etiquetado morfosintáctico el diccionario proporciona las posibles categoríasmorfosintácticas de una palabra. En lugar de diccionario también puede utilizarse


un analizador morfológico que segmente los textos de entrada en unidades léxicas(tokens) y proporcione todas sus posibles categorías morfosintácticas.

� En la desambiguación del sentido de las palabras, también existen diccionarios obases de datos léxicas que proporcionan los posibles sentidos de una palabra.

� En las tareas de análisis sintáctico parcial y detección de cláusulas, no tiene sentidola utilización de este recurso, ya que no existe una relación directa entre las palabrasy las estructuras sintácticas utilizadas.

3.4.3 Resumen

En este capítulo se ha propuesto una formulación unificada que permite abordar dis-tintas tareas de desambiguación en PLN mediante el formalismo de MM de una formasistemática. Se han presentado ejemplos que ilustran cómo la técnica propuesta permiteincorporar en un modelo información adicional, disponible en el conjunto de datos de en-trenamiento, para mejorar las prestaciones de los MM básicos. Finalmente se ha diseñadouna estrategia que permite guiar el proceso de selección de características relevantes parala construcción de un MME adaptado a una determinada tarea de desambiguación.

Capítulo 4

Etiquetado morfosintáctico

En este capítulo se presentan los resultados de la aplicación de los MME al problemadel etiquetado morfosintáctico, tanto para el inglés como para el castellano. Además serealiza una comparativa experimental con tres de las aproximaciones principales en laliteratura que muestra que los MME mejoran las prestaciones de los MM básicos, y quesuperan o igualan el rendimiento de etiquetadores basados en otros paradigmas.

4.1 Introducción

Una de las primeras tareas de análisis en PLN es el análisis morfosintáctico de las pala-bras de la oración. Esta tarea debe resolver uno de los principales problemas de ambi-güedad del lenguaje natural: la ambigüedad léxica categorial. Este problema consiste en ladeterminación de la categoría o función sintáctica que la palabra desempeña en la ora-ción (nombre común, nombre propio, adjetivo, etc.), que además puede acompañarse coninformación morfológica (género, número, persona, etc.). Esta información se puede re-coger en una etiqueta o part-of-speech (POS) y por ello se habla de etiquetado morfosintácticode textos (POS tagging). Un etiquetador morfosintáctico asigna la etiqueta morfosintácticamás probable a una palabra, teniendo en cuenta el contexto oracional en el que aparecedicha palabra. Normalmente, el conjunto de etiquetas morfosintácticas para una lenguaviene determinado a priori por un experto humano.

Un etiquetador morfosintáctico tiene diferentes aplicaciones. Generalmente, se utilizacomo un preproceso para otras tareas en sistemas de PLN. Así se simplifican otras fasesde análisis, como el análisis sintáctico o la desambiguación de sentidos, que ya no tienenque tratar oraciones con ambigüedad léxica categorial. Pueden incorporarse en sistemasque manejen textos no restringidos como los de extracción de información, recuperaciónde información, generación de resúmenes, traducción automática, etc. También, los sis-temas de reconocimiento automático del habla pueden reducir el número de parámetros

63

64 Capítulo 4. Etiquetado morfosintáctico

del modelo del lenguaje utilizando categorías morfosintácticas en lugar de palabras. To-das estas aplicaciones pueden beneficiarse del etiquetado morfosintáctico para mejorarsu rendimiento, tanto en precisión como en eficiencia computacional.

Durante la última década un gran número de investigadores ha dedicado sus esfuer-zos al desarrollo o mejora de etiquetadores morfosintácticos. El rendimiento alcanzadopor un etiquetador individual (entre 96% y 97% de precisión de etiquetado para el in-glés) todavía deja un pequeño margen para la mejora. Además, la construcción de recur-sos lingüísticos para otras lenguas, tales como corpora anotados morfosintácticamente,mantiene el interés en el desarrollo y mejora de estas herramientas.

La comparación entre las diferentes aproximaciones es difícil debido a múltiples fac-tores: la lengua, el número de etiquetas, la talla del vocabulario, el grado de ambigüedad,la dificultad de los conjuntos de prueba, la talla de los conjuntos de entrenamiento y prue-ba, etc. Por ello para realizar una comparativa fiable es necesario recurrir a un conjuntode datos que se haya utilizado ampliamente. En este sentido, la mayoría de etiquetadoresse han evaluado para el inglés y, fundamentalmente, sobre el corpus Wall Street Journal(WSJ) (Marcus et al., 1993), alcanzándose precisiones de etiquetado entre el 96% y el 97%.

Algunos experimentos comparativos se han llevado a cabo para contrastar de formarigurosa las diferentes aproximaciones. Es el caso de los trabajos de Brill y Wu (1998),Van Halteren et al. (1998) o Zavrel y Daelemans (1999) y más recientemente Van Halte-ren et al. (2001). Aunque la mayoría de estos estudios concluyen que los etiquetadoresbasados en MM alcanzan resultados inferiores a los ofrecidos por otros paradigmas, seha demostrado recientemente que pueden alcanzar prestaciones similares a las de otrosetiquetadores (Brants, 2000; Pla y Molina, 2001). Solamente los métodos combinados me-joran ligeramente las prestaciones de los mejores etiquetadores individuales, según losexperimentos realizados por Brill y Wu (1998) y Van Halteren et al. (2001).

4.2 Aproximaciones al etiquetado morfosintáctico de textos

Las principales aproximaciones al etiquetado morfosintáctico basadas en técnicas de apren-dizaje automático, introducidas en el capítulo 1, son las siguientes: MM (Church, 1988;Weischedel et al., 1993; Merialdo, 1994; Brants, 2000), TBL (Brill, 1995), MBL (Daelemanset al., 1996b), árboles de decisión (Magerman, 1996; Màrquez et al., 2000), ME (Ratnapark-hi, 1996), inferencia gramatical (Pla y Prieto, 1998), etc. Entre los trabajos que combinandiferentes etiquetadores mediante algún método de votación se encuentran (Brill y Wu,1998) y (Van Halteren et al., 2001).

A continuación se describen brevemente aquellas aproximaciones que se han consi-derado más representativas, respecto a las cuales se comparará la propuesta de MME:TBL, MBL, ME y MM lexicalizados.

4.2. Aproximaciones al etiquetado morfosintáctico de textos 65

4.2.1 Reglas de Transformación (Transformation-based Learning, TBL)

El método de aprendizaje TBL fue desarrollado y aplicado al etiquetado morfosintácticopor Brill (1992). Brill define dos tipos de reglas: las reglas léxicas, que se utilizan parapredecir la etiqueta más probable para una palabra desconocida teniendo en cuenta in-formación morfológica (prefijos, sufijos, mayúsculas, etc.), y las reglas contextuales, que seutilizan para mejorar la precisión del etiquetado según el contexto y son de la forma t cambia por t� si P. Es decir, la etiqueta inicial ( �� ) de una palabra debe cambiarse por otra( � � ) si la palabra se da en un contexto � . El contexto considerado por Brill está formadopor la palabra foco, las dos palabras a su izquierda, la etiqueta de la palabra foco y lasdos etiquetas a su izquierda.

4.2.2 Máxima Entropía (ME)

La aplicación más relevante de este modelo al etiquetado morfosintáctico fue desarrolla-da por Ratnaparkhi (1996). Consiste en definir un conjunto de plantillas de características(feature-templates) que tienen en cuenta la información que aparece en el contexto dispo-nible de cada palabra. El contexto considerado para una palabra foco � está formadopor palabras ( � , las dos palabras precedentes � �� , y las dos posteriores � �� )y por etiquetas morfosintácticas asociadas a las palabras que preceden a � (se tienen encuenta bigramas y trigramas de etiquetas). Si la palabra es desconocida o poco frecuente,las características también incluyen información morfológica (prefijos, sufijos, números,mayúsculas, símbolos especiales, etc.). La inferencia del modelo consiste en la estimaciónde los parámetros que combinan estas características maximizando la entropía. El proce-so de etiquetado consiste en encontrar la secuencia de etiquetas de mayor probabilidadpara la oración de entrada. Este proceso se realiza básicamente mediante un algoritmo depoda que en cada paso de programación dinámica considera las � secuencias candidatascon mayor probabilidad.

4.2.3 Aprendizaje basado en memoria ( Memory-based learning, MBL)

Este método ha sido aplicado por Daelemans et al. (1996b). Utiliza los algoritmos IGTree,para clasificar y acceder a los ejemplos, y IB-1G para calcular la similitud entre dos ejem-plos. Para el etiquetado morfosintáctico distingue dos casos base según la palabra seaconocida o desconocida. Para palabras conocidas considera como características la clasede ambigüedad de la palabra foco, la clase de ambigüedad de la palabra posterior y laetiqueta morfosintáctica desambiguada de las dos palabras precedentes. Para palabrasdesconocidas considera sufijos (las tres últimas letras), la primera letra de la palabra, laetiqueta de la palabra precedente y la clase de ambigüedad de la palabra posterior.


4.2.4 Modelos ocultos de Markov (MM)

El paradigma de MM se ha descrito detalladamente en el capítulo 2. Existen diversostrabajos que utilizan esta aproximación estadística para el etiquetado morfosintáctico detextos. El proceso de aprendizaje puede realizarse a partir de corpora anotados con eti-quetas morfosintácticas –métodos supervisados– (Church, 1988; Weischedel et al., 1993)o desde un corpus no anotado –métodos no supervisados– (Cutting et al., 1992; Chanody Tapanainen, 1995). En el primer caso, el modelo se estima por máxima verosimilitud apartir de las frecuencias relativas observadas en el corpus de entrenamiento. En el segun-do caso, se utiliza el algoritmo Baum-Welch a partir de un etiquetado inicial del corpus(Merialdo, 1994). Aunque los métodos no supervisados presentan como principal venta-ja que no necesitan datos anotados, en la práctica sus resultados son inferiores a los queofrecen los métodos supervisados (Elworthy, 1994).

El etiquetador TnT desarrollado por Brants (2000) es el que mejores prestaciones ofre-ce. TnT estima los parámetros del modelo por máxima verosimilitud a partir de un cor-pus etiquetado. Para resolver problemas de estimación para eventos poco frecuentes, TnTaplica la técnica de suavizado de interpolación lineal combinando unigramas, bigramasy trigramas. Los parámetros de la interpolación se calculan mediante deleted interpolationsegún se ha descrito en el apartado 2.35. Para el tratamiento de palabras desconocidasconstruye el modelo probabilístico basado en la información de los sufijos de las palabrasdescrito en el apartado 2.5.4. Este modelo ofrece un buen resultado para el inglés, peropara otras lenguas como el castellano, que tiene más riqueza morfológica, no parece tanadecuado.

Modelos de Markov Lexicalizados

En la aproximación de MM, la relación entre las palabras en una oración no se capturadirectamente en la topología del modelo, ya que ésta representa las relaciones existentesentre las categorías morfosintácticas. Esto significa que ciertas relaciones relevantes entrepalabras, o entre palabras y etiquetas, no son modelizadas. Mediante técnicas de lexica-lización se puede incorporar en los estados del modelo esta información. Una lexicaliza-ción total del modelo incrementaría su número de parámetros de forma excesiva, por loque éstos no podrían estimarse correctamente. Se han desarrollado diversas técnicas paraintroducir las palabras en el contexto. En este sentido, Kim et al. (1999) presenta un méto-do de lexicalización selectiva sobre un MM de primer orden (bigramas) que considera unconjunto de palabras poco comunes, es decir, palabras cuya distribución de probabilidaddentro de una categoría es diferente del resto. Para esas palabras se crea un nuevo estadoen el modelo (estado lexicalizado). De esta forma se incrementa la precisión del etiquetadorde 95.79% a 95.99%, según la experimentación realizada sobre el corpus Brown.

La propuesta de MME desarrollada en esta tesis es una generalización de la técnica de

4.3. MME para el etiquetado morfosintáctico 67

lexicalización de MM introducida por Pla (2000). En ese trabajo se aplica una función deespecialización

� � para lexicalizar los estados de un modelo de primer orden utilizandolas palabras más frecuentes ( � � ) del conjunto de entrenamiento. El modelo obtenidose evaluó sobre el corpus WSJ consiguiendo unas mejoras en la precisión de etiquetadocercanas al 5%.

� � � � � � ��

� � � � � � � � �� si � � � �� si � � � �

Otros paradigmas permiten incorporar las palabras de forma natural en el modelo,como una característica más a tener en cuenta. Ratnaparkhi (1996) define plantillas decaracterísticas específicas para ciertas palabras difíciles (aquellas que tienen un elevadoratio de error), pero su modelo de ME no ofrece mejoras significativas. La aproximaciónMBL puede incorporar la palabra foco como característica, pero el incremento de losparámetros dificulta su correcta estimación. Solamente para algunas lenguas, la inclusiónde las palabras más frecuentes incrementa ligeramente las prestaciones del etiquetador(Zavrel y Daelemans, 1999). Finalmente, el método TBL (Brill, 1995) también mejora laprecisión de las palabras conocidas cuando las considera en las reglas contextuales (deun 97.0% a un 97.2%).

La lexicalización puede verse como un caso particular en los MME, para el cual seescoge un conjunto de palabras que especializan las etiquetas de salida, en este caso lasetiquetas morfosintácticas.

4.3 MME para el etiquetado morfosintáctico

Un MME se construye a partir de la información disponible en el corpus de entrenamien-to. En el caso del etiquetado morfosintáctico solamente hay un rasgo de entrada que sonlas palabras (

�� ) y las etiquetas de salida (�

) son las etiquetas morfosintácticas.Por eso el único criterio de selección posible consiste en seleccionar todas las palabras( �� ). Además, la especialización de los modelos equivale a una lexicaliza-ción, ya que la única información que se puede añadir a las etiquetas de salida, y por lotanto a los estados del modelo, es la información de la palabra.

A continuación se presenta un ejemplo que clarifica el proceso de especialización so-bre una muestra del conjunto de entrenamiento, y las diferencias entre un modelo es-pecializado y un modelo no especializado. Para facilitar la comprensión del ejemplo, semuestra el resultado de la especialización sobre un MM de primer orden (figura 4.1). Es-te ejemplo muestra diferentes contextos donde la palabra that puede aparecer con una


función sintáctica distinta, es decir, como conjunción subordinante (IN) o como deter-minante (WDT). La palabra that se ha incluido en el conjunto de palabras a especializar( �� ={that}). En este ejemplo, el conjunto de entrenamiento � , anotado con las eti-quetas morfosintácticas utilizadas en el proyecto Penn Treebank cuya descripción puedeconsultarse en el apéndice A, contiene las siguientes oraciones:

�We,PRP

�believe,VBP

�that,IN

�tagging,NN

�is,VBZ

�difficult,JJ

�.,.

�It,PRP

�is,VBZ

�known,VBN

�that,IN

�words,NNS

�are,VBP

�ambiguous,JJ

�

.,.

�Words,NNS

�that,WDT

�are,VBP

�ambiguous,JJ

�are,VBP

�difficult,JJ

�to,TO

�

tag,VB �

.,.

�I,PRP

�read,VBP

�the,DT

�book,NN

�that,WDT

�won,VBD

�the,DT

�

award,NN �

.,.

�This,DT

�is,VBZ

�the,DT

�key,NN

�of,IN

�the,DT

�house,NN

�.,.

�He,PRP

�is,VBZ

�in,IN

�the,DT

�house,NN

�.,.

�She,PRP

�is,VBZ

�from,IN

�Valencia,NNP

�.,.

�The,DT

�tagger,NN

�has,VBZ

�known,VBN

�which,WDT

�tag,NN

�to,TO

�

assign,VB �

.,.

En este caso, la aplicación de la función de especialización� � sobre � , definido el con-

junto �� , produce un nuevo conjunto de entrenamiento (�� ) donde el par <that,IN>

se sustituye por <that,that�IN>, y el par <that,WDT> se sustituye por <that,that

�WDT>.

La figura 4.1(a) muestra un ejemplo del MM de primer orden obtenido a partir de � .Para clarificar el ejemplo solamente se muestran las transiciones correspondientes a loscontextos de tamaño uno a izquierda y derecha de las palabras etiquetadas con IN o WDT(marcados en itálica en el ejemplo). Por el mismo motivo, no se representan las transicio-nes de suavizado que estarían presentes en el modelo real. Los estados sombreados secorresponden con la categorías morfosintácticas asociadas con la palabra that en el cor-pus de entrenamiento. La figura 4.1(b) muestra cómo se modifica el modelo cuando seaprende a partir del nuevo conjunto de entrenamiento

�� . El estado IN se divide en dosestados: un estado especializado that

�IN, que sólo emite la palabra that con probabili-

dad de emisión igual a 1, y el estado original IN que ahora no emite la palabra that. Deforma similar se divide el estado correspondiente a la categoría WDT. Así, el modelo es-pecializado puede distinguir entre los diferentes contextos locales donde puede aparecerthat, por ejemplo, entre VBP that

�IN NN y NN that

�WDT VBP. En el primer caso, that

se etiquetaría como IN, y en el segundo como WDT. Por lo tanto, puede deducirse queel MME representa una modelización más específica para ciertos contextos en los cualesaparece la palabra seleccionada.

4.3. MME para el etiquetado morfosintáctico 69

DTfrominofthat

NNthe

is

VBZ

NNP

IN

VBN

NNS

VBP

VBD

known

wordswonthat

which

taggingbookkeytag

believeare

WDT

Valencia

(a) MM no especializado

DT frominof

VBP

believeare

NN

taggingbookkeytag

VBN

known

words

NNS

VBD

won

the

is

VBZ

NNP

which

that

thatIN

that

WDTthat

Valencia

IN WDT

(b) MM especializado

Figura 4.1: Efecto de la especialización sobre la topología de un MM de primer orden para eletiquetado morfosintáctico.


4.4 Resultados experimentales

En este apartado se presenta la evaluación de las prestaciones de la propuesta de MMEdescritos anteriormente para el etiquetado morfosintáctico. La experimentación realiza-da tiene tres objetivos: Primero, se pretende contrastar los MM frente a los MME, tantopara modelos de primer orden (bigramas) como de segundo orden (trigramas). Los cri-terios de especialización que se han definido son independientes de la lengua, y se hanprobado para el inglés (sobre el corpus Wall Street Journal) y para el castellano (sobre elcorpus LexEsp). Segundo, se realiza una comparativa experimental con las aproximacio-nes al etiquetado morfosintáctico más relevantes, que se han descrito en el apartado 4.2.Finalmente, se estudia la influencia sobre la precisión de etiquetado del uso de recursoslingüísticos como diccionarios o analizadores morfológicos.

Con el objetivo de mostrar que la especialización mejora las prestaciones de cualquieretiquetador basado en MM, en la experimentación llevada a cabo se ha utilizado el eti-quetador TnT1 (Brants, 2000).

La medida de evaluación utilizada es la precisión de etiquetado (o accuracy) definidacomo:

precisión de etiquetado (P) # tokens desambiguados correctamente por el etiquetador

# tokens en el corpus de referencia(4.1)

Esta medida coincide con las ya definidas precisión y cobertura (apartado 1.2), ya queun constituyente en este caso se corresponde con una palabra o token, y el etiquetadorsiempre propone una etiqueta para cada token.

4.4.1 Etiquetado del corpus Wall Street Journal

En este apartado experimental se ha utilizado la parte del corpus Wall Street Journal (WSJ)que ha sido procesada en el proyecto Penn Treebank versión 2 (Marcus et al., 1993). En elapéndice A se describe con más detalle dicho corpus y los conjuntos de etiquetas que seutilizaron para su anotación. El total de etiquetas morfosintácticas diferentes es de 45. Entodos los experimentos se utilizó como conjunto de entrenamiento las secciones 00 a 19(956,549 palabras) y como conjunto de prueba las secciones 23 y 24 (89,529 palabras).

A partir del conjunto de entrenamiento se aprendieron los modelos de bigramas(BIG) y de trigramas (TRI) con el etiquetador TnT. La precisión sobre el conjunto deprueba fue 96.28% para bigramas y 96.58% para trigramas. Estos resultados se conside-ran como el valor de referencia respecto al cual se contrastan los modelos especializados.

1TnT se encuentra disponible en http://www.coli.uni-sb.de/~thorsten/tnt.

4.4. Resultados experimentales 71

Criterios de especialización

Los criterios que determinan el conjunto de palabras que se usan para especializar par-cialmente los modelos son los siguientes.

� Criterio WHF (Words with High Frecuency): se basa en la frecuencia de aparición delas palabras en el conjunto de entrenamiento. Se escogen aquellas palabras cuyafrecuencia en el conjunto de entrenamiento supera un cierto umbral. No se con-sideran algunas palabras tales como nombres propios, símbolos de puntuación onúmeros por dos motivos: en primer lugar porque incrementan el número de pa-rámetros del modelo sin mejorar los resultados de etiquetado y, en segundo lugar,porque se buscan palabras que sean muy comunes y que puedan aparecer en otroscorpora.

� Criterio WCC (Words that belong to Closed Categories): considera aquellas palabrasdel conjunto de entrenamiento que pertenecen a categorías cerradas. Se escoge estecriterio ya que estas palabras apareceran frecuentemente en cualquier otro corpus.

� Criterio WTE (Words with high Tagging Error): se tienen en cuenta aquellas palabrascon mayor número de errores de etiquetado, con el fin de crear estados especialesque ayuden a su desambiguación.

Para el caso del etiquetado morfosintáctico la estrategia de aprendizaje definida en elalgoritmo 2 consiste únicamente en determinar qué palabras deben especializar el mo-delo, ya que solamente se dispone de ese rasgo a la entrada. En los experimentos que sedetallan a continuación se presentan resultados parciales de esa estrategia, en concretola determinación del umbral que maximiza el rendimiento de los modelos. La estrategiacompleta de búsqueda hacia adelante se ha aplicado sobre las palabras determinadas enel criterio WHF (WHF-BA). Para escoger el mejor conjunto de palabras para especializarel modelo se realiza un experimento de ajuste sobre una partición de desarrollo con con-juntos de palabras de diverso tamaño. Para ello, se dividen los datos de entrenamientoen dos particiones: el 90% se utiliza para estimar el modelo y el 10% restante forma elconjunto de desarrollo sobre el que se ajustan los parámetros del modelo. La forma deescoger estos conjuntos es tomar, de cada diez frases consecutivas, las nueve primeraspara entrenamiento y la última para prueba.

En la figura 4.2 se muestran los resultados obtenidos con los modelos especializa-dos sobre el conjunto de desarrollo. El resultado para � �� =0 se corresponde con losmodelos no especializados (96.13% para bigramas y 96.44% para trigramas). Se observaque la precisión para BIG-WHF y TRI-WHF es mejor que BIG y TRI, respectivamente.El mejor resultado para BIG-WHF es de 96.43% utilizando 286 palabras (aquellas cuyafrecuencia es superior a 250 en el conjunto de entrenamiento). En el caso de TRI-WHFla precisión es del 96.66% utilizando 31 palabras (aquéllas cuya frecuencia es superior a


96

96.1

96.2

96.3

96.4

96.5

96.6

96.7

0 50 100 150 200 250 300 350 400

Pre

cisi

ón (

%)

# Palabras especializadas

TRI−WHFBIG−WHF

Figura 4.2: Rendimiento del MME utilizando el criterio WHF y variando la talla del conjunto depalabras especializadas ( �� ) sobre el conjunto de desarrollo.

2000). En el apéndice B se listan las palabras seleccionadas para la especialización de losmodelos para cada uno de los criterios escogidos. Se puede observar que con pocas pala-bras (alrededor de 30), los modelos especializados obtienen mejoras sobre el conjunto dedesarrollo (una reducción del 6.2% en el error de etiquetado utilizando trigramas). Porotro lado, la curva indica que la inclusión de más palabras en los modelos reduce la pre-cisión de etiquetado. Esto se debe a que el número de parámetros del modelo aumentaconsiderablemente y, por lo tanto, su estimación es más pobre dado el mismo conjuntode entrenamiento. Además, debido al hecho de que la selección de las palabras se realizasolamente en base a su frecuencia en el conjunto de entrenamiento, podría haber palabrasque no aparezcan con la suficiente frecuencia sobre el conjunto de desarrollo como paraproducir mejoras significativas.

La principal desventaja de este criterio es que la determinación del umbral es muydependiente de los conjuntos de entrenamiento y desarrollo escogidos, y esto sólo puededeterminarse mediante un experimento previo de ajuste. A pesar de esta desventaja,se puede observar que el conjunto de palabras escogido (ver apéndice B) corresponde apalabras de uso común y que podrán aparecer fácilmente en cualquier otro corpus. Porejemplo, de las palabras utilizadas en el criterio TRI-WHF (un total de 31 palabras), 14 de


ellas coinciden con las palabras más frecuentes en el corpus Brown2. De las 17 restantes,15 se encuentran entre las 60 más frecuentes y, solamente una palabra no aparece entrelas 2000 palabras más frecuentes del Brown.

Una vez determinado el umbral de frecuencia, según la estrategia de aprendizaje defi-nida según el algoritmo 2, se realiza una selección de �� incluyendo aquellas palabrasque minimizan el error de etiquetado. La talla de �� en el modelo TRI-WHF es sola-mente de 31 palabras y la aplicación de la estrategia completa no ofrece ninguna mejora.Por ello, se ha probado con las palabras �� escogidas para especializar el modelo debigramas (un total de 286 palabras). De esta forma se consigue una precisión de 96.84%para trigramas (con 130 palabras) y 96.55% para bigramas (con 121 palabras).

El criterio WCC se basa en propiedades más generales. En concreto, sólo tiene encuenta las palabras extraídas del conjunto de entrenamiento que pertenecen a categoríasmorfosintácticas cerradas 3. Un total de 200 palabras cumplen este criterio y la preci-sión obtenida es 96.34% para bigramas (BIG-WCC) y 96.60% para trigramas (TRI-WCC).Aunque estos resultados son ligeramente inferiores a los obtenidos utilizando el criterioWHF (96.43% para BIG-WHF y 96.66% para TRI-WHF), el criterio WCC es más generaly puede establecerse de antemano sin necesidad de realizar un experimento de ajuste.

Como tercer criterio (WTE), se consideran aquellas palabras del conjunto de desarro-llo cuyo número de errores es mayor que un determinado valor. Este número de erroresse calcula sobre el etiquetado de la partición de desarrollo realizado con el modelo básicode trigramas. Los mejores resultados (96.38% para bigramas y 96.68% para trigramas)se obtienen especializando con las palabras cuya frecuencia de error es mayor que 5 (untotal de 98 palabras).

En la tabla 4.1 se resumen los resultados en esta fase de aprendizaje del modelo. Paracontrastar mejor los diferentes criterios, se realizó un experimento de validación cruzadacon 10 particiones. Se ha escogido como �� las palabras determinadas en cada uno delos criterios sin realizar ningún experimento de ajuste para cada una de las particiones.De esta forma se comprueba la validez de este conjunto de palabras y su comportamientoen un conjunto de prueba mayor.

La tabla 4.2 muestra los resultados de la validación cruzada para bigramas y trigra-mas (los resultados detallados para cada partición pueden consultarse en el apéndice C).En ambos casos el modelo WHF alcanza diferencias significativas con respecto a sus res-pectivos modelos no especializados con un grado de confianza del 95%4. En la figura 4.3

2La lista de palabras más frecuentes del corpus Brown se ha obtenido dehttp://www.edict.com.hk/textanalyser/

3Las categorías morfosintácticas cerradas utilizadas en el Penn Treebank son: CC, DT, MD, POS, PP$, RP,TO, WDT, WP$, EX, IN, PDT, PRP, WP, WRB.

4El cálculo del intervalo de confianza se ha realizado mediante la fórmula ��

�� , donde � es laprecisión media y � es la varianza.


Modelo �BIG 96.13%BIG-WCC 96.34%BIG-WHF 96.43%BIG-WHF-BA 96.55%BIG-WTE 96.38%

TRI 96.44%TRI-WCC 96.60%TRI-WHF 96.66%TRI-WHF-BA 96.84%TRI-WTE 96.68%

Tabla 4.1: Resultados de precisión de los diferentes criterios de especialización utilizando bigramasy trigramas sobre el corpus WSJ en la partición de desarrollo.

Modelo � ErrorBIG 96.04% � 0.11BIG-WCC 96.25% � 0.10BIG-WHF 96.35% � 0.09BIG-WHF-BA 96.35% � 0.10BIG-WTE 96.26% � 0.10

TRI 96.38% � 0.09TRI-WCC 96.55% � 0.08TRI-WHF 96.58% � 0.08TRI-WHF-BA 96.58% � 0.08TRI-WTE 96.53% � 0.09

Tabla 4.2: Resultados de precisión media para la validación cruzada de los diferentes criterios deespecialización utilizando bigramas y trigramas sobre el corpus WSJ (secciones 00 a 19).


95.8

96

96.2

96.4

96.6

96.8

Pre

cisi

ón (

%)

MODELO

TRI

TRI−WHF TRI−BATRI−WCC

TRI−WTE

BIG

BIG−WHF BIG−BA

BIG−WCCBIG−WTE

Figura 4.3: Intervalos de confianza para los modelos comparados en la validación cruzada sobreel corpus WSJ (secciones 00 a 19) con un nivel de confianza del 95%.

pueden verse los intervalos de confianza para los distintos criterios.

Finalmente, se probó el MME sobre un conjunto de prueba, diferente al conjunto dedesarrollo, con dos objetivos: primero, comprobar el comportamiento de los distintos cri-terios sobre un nuevo conjunto de datos y, segundo, disponer de una referencia respectoa la cual se pudieran comparar otras aproximaciones de etiquetado. El conjunto de prue-ba está formado por las secciones 23 y 24 del WSJ. Los modelos se reestimaron aplicandolos mejores criterios de especialización sobre la totalidad del corpus de entrenamiento(secciones 00 a 19 del WSJ) . Puede observarse en la tabla 4.3 que la especialización mejo-ra la precisión de etiquetado en todos los casos. La tabla también muestra el tamaño delconjunto de etiquetas especializado (

�� ) y el total de palabras especializadas ( � �� ).

Los mejores resultados se obtienen utilizando el criterio WHF, con el cual se reduce elerror de etiquetado en un 11.6%, para bigramas, y un 6.4%, para trigramas. Los criteriosBIG-WHF-BA y TRI-WHF-BA no ofrecen las mejoras que sí que ofrecían sobre la parti-ción de desarrollo. Una validación cruzada para determinar las palabras que mejoran laprecisión sobre todo el corpus podría ofrecer mejores resultados, pero se ha desestimadopor su alto coste computacional.

En el caso de los modelos de bigramas5, este incremento es superior al que presentanotras aproximaciones de lexicalización más sofisticadas. En concreto, el resultado se hacomparado con el publicado por Kim et al. (1999) que utiliza un método basado en elcálculo de vectores de transición desde cada estado del modelo. Aunque la cantidad

5Para trigramas no se presentan resultados en la literatura respecto a los cuales se pueda comparar.


Modelo Total Palabras Palabras � �� de palabras conocidas desconocidas

BIG 96.28% 96.60% 84.67% 45 0BIG-WCC 96.52% 96.86% 83.92% 535 200BIG-WHF 96.71% 97.04% 84.46% 831 286BIG-WTE 96.50% 96.83% 84.42% 342 98

TRI 96.58% 96.90% 85.17% 45 0TRI-WCC 96.77% 97.09% 85.29% 535 200TRI-WHF 96.80% 97.10% 85.38% 144 31TRI-WTE 96.74% 97.06% 85.21% 342 98

Tabla 4.3: Precisión de etiquetado total, para las palabras conocidas y para las desconocidas paraMM y MME sobre el corpus WSJ (conjunto de entrenamiento: secciones 00 a 19; conjunto deprueba: secciones 23 y 24).

de datos utilizada por Kim es similar, los resultados no son directamente comparablesporque utilizó un corpus diferente (Brown). Además su trabajo experimental no estáexplicado con el suficiente detalle para poder reproducirlo, dando la impresión de quelos resultados publicados se optimizaron sobre el conjunto de prueba. Kim consigue unareducción alrededor del 5% para bigramas, que es inferior a la que se consigue con MME.

4.4.2 Comparación de los MME con otras aproximaciones

Los resultados presentados en el apartado 4.4.1 son similares a los mejores resultadosaparecidos en la literatura para el corpus WSJ. Sin embargo, esta comparativa no puedeinterpretarse de una manera fiable, ya que las condiciones experimentales son diferentes.Por ello, en este apartado se presenta una comparativa experimental para contrastar lasprestaciones de los MME respecto a las aproximaciones más relevantes y bajo las mismascondiciones experimentales. Se ha utilizado el mismo conjunto de datos de entrenamien-to y de prueba definido en el apartado 4.4.1. Los parámetros de todos los etiquetadoresse fijaron para optimizar la precisión de etiquetado, pero no los tiempos de entrenamien-to y de etiquetado. Los experimentos para TRI-WHF, TBL 6 y ME7 se ejecutaron en unordenador Pentium 266 Mhz con 256 MB de RAM y sistema operativo Linux. Los resul-tados para MBL fueron proporcionados por Walter Daelemans en las mismas condicionesexperimentales.

La tabla 4.4 muestra los resultados de la comparación entre los diferentes etiqueta-dores. Se ha calculado la precisión de etiquetado (para las palabras conocidas, descono-cidas y el total), el tiempo de entrenamiento y la velocidad de etiquetado, en palabras

6Disponible en ftp://ftp.cs.jhu.edu/pub/brill/Programs/.7Disponible en ftp://ftp.cis.upenn.edu/pub/adwait/jmx/.


Etiquetador Total Conocidas Desconocidas Tiempo Entren. Velocidad Etiq.TRI-WHF 96.80% 97.10% 85.38% 20 s. 18000 p/sME 96.92% 97.24% 85.29% 1 día 70 p/sTBL 96.47% 96.84% 83.12% 9 días 750 p/sMBL 96.45% 96.82% 83.18% 4.5 min. 11200 p/s

Tabla 4.4: Comparación entre diferentes etiquetadores sobre el corpus WSJ (conjunto de entrena-miento: secciones 00 a 19; conjunto de prueba: secciones 23 y 24).

96.2

96.4

96.6

96.8

97

97.2

Pre

cisi

ón (

%)

Etiquetador

TRI−WHF

ME

TBL MBL

TRI−WHF

ME

TBL MBL

TRI−WHF

ME

TBL MBL

TRI−WHF

ME

TBL MBL

TRI−WHF

ME

TBL MBL

TRI−WHF

ME

TBL MBL

TRI−WHF

ME

TBL MBL

TRI−WHF

ME

TBL MBL

TRI−WHF

ME

TBL MBL

TRI−WHF

ME

TBL MBL

TRI−WHF

ME

TBL MBL

TRI−WHF

ME

TBL MBL

TRI−WHF

ME

TBL MBL

TRI−WHF

ME

TBL MBL

TRI−WHF

ME

TBL MBL

TRI−WHF

ME

TBL MBL

TRI−WHF

ME

TBL MBL

Figura 4.4: Intervalos de confianza para las aproximaciones comparadas con un nivel de confianzadel 95% .

por segundo (p/s), (incluyendo el tiempo de entrada/salida). Se observa que los MMEmejoran las prestaciones de las aproximaciones TBL y MBL alcanzando diferencias sig-nificativas considerando un 95% de nivel de confianza8. Solamente ME alcanza una pre-cisión (96.92% � 0.11%) que es ligeramente mejor que la obtenida con el MME (96.80%� 0.11%), pero que no es significativa para ese nivel de confianza (ver figura 4.4). Puedeobservarse que ME alcanza una precisión más alta que MME para las palabras conocidas(97.24% frente a 97.10%), pero para las palabras desconocidas las prestaciones son ligera-mente menores (85.38% frente a 85.29%). Por otro lado, los tiempos de entrenamiento yetiquetado son mucho más altos para ME que para MME. Este aspecto es importante sise tiene en cuenta que un etiquetador morfosintáctico puede integrarse en un sistema dePLN, ya que la velocidad de etiquetado debe ser alta para poder construir aplicaciones

8Si el experimento consta de una sola ejecución, el intervalo de confianza se estima utilizando la fórmula

� � �� , donde � es la precisión y es el número de muestras en el conjunto de prueba.


eficientes y que se ejecuten en tiempo real.

4.4.3 Efecto de la especialización sobre las palabras difíciles

También se ha hecho un pequeño estudio sobre el efecto que la especialización tiene sobrelas palabras de mayor error de etiquetado en el conjunto de prueba. Para cada una de lasaproximaciones comparadas, se indica el error absoluto de etiquetado de estas palabras.

Las palabras cuyo ratio de error se reduce al utilizar el MME se muestran en la tabla4.5, y las palabras cuyo ratio de error no se mejora se listan en la tabla 4.6. En ambastablas, las tres primeras columnas muestran las palabras y su frecuencia de aparición enlos conjuntos de entrenamiento y de prueba. El resto de las columnas indican el errorabsoluto de etiquetado producido por cada uno de los etiquetadores comparados. Res-pecto a las palabras pertenecientes a �� , se observa que that y as decrementan suerror, mientras que para las palabras do y on no se obtienen mejoras. Otras palabras di-fíciles, tales como about, ago, as, out, up, etc., se desambiguan mejor que respecto a losmodelos no especializados. Las diferencias en precisión del MME respecto al MM se de-be principalmente a las mejoras obtenidas en las palabras presentadas en la tabla 4.5. Engeneral, el número de errores producido por los MMEs es similar o menor que el resto deaproximaciones comparadas.

4.4.4 Una comparativa más exhaustiva entre MME y ME

A la vista de los resultados presentados en la sección anterior se consideró necesariorealizar una comparación más detallada entre las dos aproximaciones que alcanzaban losmejores resultados, es decir, ME y el MME con el criterio TRI-WHF. Para contrastar mejorestos dos sistemas, se realizó un experimento de validación cruzada con 10 particiones(en las mismas condiciones descritas en la sección 4.4.1).

En los resultados de la tabla 4.7 (que están más detallados en el apéndice C) se puedeobservar, por una parte, que el modelo TRI-WHF reduce el error de etiquetado respectoal MM básico (TRI), alrededor de un 6%. Por otra parte, las diferencias en la precisióntotal de etiquetado entre TRI-WHF (96.58%) y ME (96.63%) son insignificantes al 95% deconfianza. Esta diferencia se mantiene tanto para las palabras conocidas como para lasdesconocidas.


Palabras FrecEntren FrecPrueba TRI TRI-WHF TBL ME MBT’s 9341 903 16 12 17 14 15about 2063 258 104 93 104 90 98ago 452 55 17 14 17 15 16airlines 32 31 20 19 19 16 18as 4242 461 48 17 15 28 24back 439 50 23 20 14 10 16both 375 48 14 11 10 13 10called 277 35 11 10 6 8 8capital-gains 75 17 15 14 2 3 4close 307 43 11 10 6 8 10communications 50 18 11 9 6 8 7down 697 94 51 46 52 39 51ended 299 26 11 8 8 10 11estimated 201 19 8 3 3 6 2firm 457 50 9 7 8 6 5further 244 28 10 9 12 13 10had 1749 175 8 6 9 7 8late 297 27 14 10 6 7 6no 722 79 9 6 8 4 7off 508 62 14 12 21 14 15one 1410 149 11 8 10 8 13out 1011 98 39 21 16 19 29proposed 211 20 11 10 6 9 7right 250 28 9 7 4 8 4securities 418 73 18 17 13 14 15selling 245 43 9 6 10 7 10so 628 79 20 11 12 14 11that 8063 831 88 60 62 94 73trading 1065 97 20 16 16 14 15up 1696 146 46 33 36 51 38

Tabla 4.5: Comparativa del error de etiquetado para las palabras con mayor error absoluto deetiquetado sobre el conjunto de prueba, para las diferentes aproximaciones. Sólo se muestran laspalabras cuyo error absoluto disminuye cuando se utiliza el modelo TRI-WHF con respecto almodelo TRI.


Palabras FrecEntren FrecPrueba TRI TRI-WHF TBL ME MBTall 1065 113 13 17 13 14 14around 259 36 8 9 9 13 9chief 537 58 16 16 15 15 18deficit-reduction 19 13 8 8 6 4do 940 104 9 11 8 8 8executive 539 60 13 17 17 13 13farmers 60 17 14 14 14 13 10half 253 24 11 13 11 11 11in 15379 1641 24 24 24 18 22less 365 39 8 11 10 13 11machines 93 25 9 9 9 7 8markets 379 61 10 10 6 6 4more 1905 198 33 35 35 43 42most 792 104 13 13 13 15 7much 662 75 19 21 22 23 20only 930 86 8 8 8 8 5on 5162 507 13 17 11 11 18over 879 82 8 9 5 5 8p.m. 43 15 9 9 9 4 8sell 466 55 8 8 6 7 7

Tabla 4.6: Comparativa del error de etiquetado para las palabras con mayor ratio de error sobre elconjunto de prueba, para las diferentes aproximaciones. Sólo se muestran las palabras cuyo errorabsoluto no disminuye cuando se utiliza el modelo TRI-WHF con respecto al modelo TRI.

4.4.5 Utilización de recursos lingüísticos

Es bien conocido que el uso de diccionarios mejora la precisión de los etiquetadores, yaque proporcionan las categorías morfológicas permitidas para una palabra. El procesode análisis de la oración se simplifica si en cada etapa de programación dinámica del al-goritmo de Viterbi, solamente se puede transitar a aquellos estados que se correspondancon las categorías listadas en el diccionario para la palabra actual.

Al no disponer de un diccionario del inglés que proporcione las categorías morfo-sintácticas utilizadas en el Penn Treebank, se incorporó al sistema el lexicón supervisadoutilizado por Màrquez et al. (2000). Este diccionario fue construido extrayendo de la tota-lidad del corpus Penn TreeBank las etiquetas morfosintácticas asociadas a cada palabra ycorrigiendo manualmente las entradas erróneas originadas por los errores de anotacióndel corpus. En concreto, se supervisaron y corrigieron manualmente las entradas en ellexicón para las 200 palabras más frecuentes (estas palabras cubren casi la mitad de laspalabras que aparecen en el corpus). También se completaron las entradas del lexicónen las que faltaba alguna etiqueta morfosintáctica. El uso de este recurso es equivalen-


Modelo Total Conocidas DesconocidasTRI 96.38% � 0.09 96.75% � 0.09 85.22% � 0.39TRI-WHF 96.58% � 0.08 96.96% � 0.07 85.48% � 0.42ME 96.63% � 0.10 97.00% � 0.08 85.53% � 0.69

Tabla 4.7: Resultados de precisión media para la validación cruzada para las aproximaciones TRI,TRI-WHF y ME sobre el corpus WSJ (secciones 00 a 19).

te a disponer de un analizador morfológico ideal que proporcione al etiquetador todaslas posibles etiquetas para una palabra conocida. Esta asunción, que mejora significa-tivamente el rendimiento del etiquetador, ya había sido tomada anteriormente en otrostrabajos como (Màrquez et al., 2000) o (Pla et al., 2000a).

Este diccionario no incluye estadísticas en lo que se refiere a frecuencia de palabras, decategorías, de palabras por categoría, etc. Esta información, que se extrajo del conjuntode entrenamiento, se modificó según la información proporcionada por el diccionariocorregido de la siguiente forma:

� Si la palabra � es conocida, es decir, aparece en el conjunto de entrenamiento:

1. Si el diccionario proporciona para � una etiqueta morfosintáctica � que no seha visto en el conjunto de entrenamiento, entonces se considera que

� � � � � �y� � � � � � � �

.

2. Si en el conjunto de entrenamiento aparece una palabra � con una etiqueta �y esta entrada no existe en el diccionario, entonces se considera que

� � � � � � � � � � � � y

� � � � � � .

� Si la palabra es desconocida, no aparece en el conjunto de entrenamiento, solamentese consideran como posibles las categorías indicadas en el diccionario.

En la tabla 4.8 se puede ver cómo el uso del lexicón mejora la precisión del etiquetadoen todos los experimentos realizados. La mejora está alrededor del 0.2% en todos los mo-delos cuando se utiliza el lexicón únicamente para las palabras conocidas. Si se consultauna palabra desconocida en el lexicón se puede comprobar que el grado de ambigüedades muy bajo (cercano a una etiqueta por palabra). Esto se debe a que no es un diccionarioreal y completo. Por eso, si se aplica el diccionario también a las palabras desconocidas,éstas se desambiguan con una precisión cercana al 100%. Por supuesto esto no es unasituación real, y por lo tanto no puede considerarse un resultado significativo.


Modelo Total de Palabras Palabraspalabras conocidas desconocidas

Lexicón aplicado sólo a las palabras conocidasBIG 96.47% 96.80% 84.79%BIG-WCC 96.72% 97.08% 83.88%BIG-WHF 96.93% 97.27% 84.33%BIF-WTE 96.69% 97.03% 84.38%

TRI 96.79% 97.11% 85.29%TRI-WCC 96.98% 97.31% 85.33%TRI-WHF 96.99% 97.31% 85.38%TRI-WTE 96.95% 97.27% 85.33%Lexicón aplicado a palabras conocidas y desconocidasBIG-WHF 97.33% 97.28% 99.21%TRI-WHF 97.38% 97.32% 99.25%

Tabla 4.8: Resultados de precisión para MM y MME, utilizando el Lexicón, sobre el corpus WSJ(conjunto de entrenamiento: secciones 00 a 19; conjunto de prueba: secciones 23 y 24).

4.4.6 Etiquetado del corpus español LexEsp

Para demostrar que la técnica de especialización y que los criterios definidos son inde-pendientes de la lengua. Se ha realizado una experimentación similar para el español. Eneste caso se ha utilizado el corpus LexEsp, que aunque está etiquetado morfosintáctica-mente en su totalidad, solamente una parte está supervisada (un total de 96,000 palabras).Está etiquetado con un conjunto de etiquetas morfosintácticas estructuradas, definido enel proyecto Parole, y su descripción puede consultarse en el apéndice A. En estos expe-rimentos se ha tomado solamente la parte correspondiente a la categoría gramatical (untotal de 62 etiquetas). El porcentaje de palabras ambiguas en el corpus es del 39.26% yla ambigüedad media es de 2.63 etiquetas/palabra para las palabras ambiguas (1.64 paratodas).

Debido al escaso conjunto de datos, se ha escogido como criterio de especializaciónWCC (palabras del conjunto de entrenamiento que pertenecen a categorías cerradas). Eltotal de palabras es de 45 y están listadas en el apéndice B.

Los experimentos realizados, una validación cruzada con 10 particiones, se resumenen la tabla 4.9. Se indica la precisión media para el total de las palabras, para las conocidasy desconocidas, utilizando MMs de distinto orden. La precisión total es inferior a laque se obtiene para el caso del inglés, debido principalmente a la alta tasa de error paralas palabras desconocidas. Esto se debe a dos factores: primero la escasez de datos deentrenamiento y, segundo, el método basado en análisis de sufijos que es válido para elinglés no lo es para lenguas como el castellano de morfología más compleja.

4.5. Resumen 83

Sin MACO+ Con MACO+Modelo Total de Palabras Palabras Total de Palabras Palabras

palabras conocidas desconocidas palabra conocidas desconocidasBIG 95.2% 97.4% 84.0% 96.8% 97.3% 94.2%BIG-WCC 95.3% 97.5% 84.3% 96.9% 97.5% 94.0%TRI 95.4% 97.4% 85.4% 96.9% 97.4% 94.7%TRI-WCC 95.5% 97.5% 85.1% 97.0% 97.4% 94.8%

Tabla 4.9: Precisión media de etiquetado sobre el corpus LexEsp utilizando MM y MME con elcriterio WCC.

Para solventar este problema se puede utilizar un recurso lingüístico como un lexicóno un analizador morfológico, que dada una palabra proporcione sus posibles categoríasmorfosintácticas. En este caso, se ha utilizado el analizador morfológico del españolMACO+ (Carmona et al., 1998). La utilización de este recurso mejora significativamentelas prestaciones del etiquetador.

Como se observa en la tabla 4.9, las mejoras ofrecidas por los MME no son significati-vas. Esto es debido a la insuficiente cantidad de datos de entrenamiento. Sería necesariauna mayor cantidad de datos de entrenamiento para asegurar que la especialización real-mente mejora las prestaciones de los modelos.

4.5 Resumen

En este capítulo se han aplicado los MME al problema del etiquetado morfosintácticohaciendo una evaluación exhaustiva sobre corpora de dos lenguas distintas, inglés (WSJ)y castellano (LexEsp). Se han propuesto varios criterios de especialización que ofrecenmejoras respecto al MM. Con el mejor de los criterios (WHF) se consigue una precisióndel 96.80% sobre datos de prueba no vistos, lo que reduce el error de etiquetado en un 6%.Esta reducción es superior a la que ofrecen otras propuestas de lexicalización de los MM.También se han evaluado los MME respecto a los sistemas de etiquetado más relevantes(ME, MBL y TBL), mostrando que no existen diferencias significativas con el mejor deellos (ME). Además, el coste temporal de los procesos de aprendizaje y etiquetado de losMM es inferior al coste de las otras aproximaciones.

Respecto a los resultados ofrecidos sobre el corpus LexEsp, aunque se observan pe-queñas mejoras, la escasez de datos impide hacer una evaluación más significativa.

Capítulo 5

Análisis sintáctico parcial

En este capítulo se describen las dos aproximaciones al análisis sintáctico parcial aborda-das en esta tesis: la aproximación inductiva basada en MME y la aproximación deductivabasada en máquinas de estados finitos organizadas en cascada. En primer lugar, se pre-senta el análisis sintáctico parcial como una alternativa al análisis sintáctico completo. Serevisan las distintas técnicas aplicadas al análisis parcial, tanto desde las aproximacionesbasadas en conocimiento, como de las basadas en corpus. Los MME se evalúan sobre unatarea de detección de sintagmas básicos del inglés. La aproximación deductiva se evalúapara el castellano sobre el corpus LexEsp utilizando una gramática basada en patrones oexpresiones regulares. Finalmente, se comparan ambas aproximaciones para una tareadel inglés.

5.1 Introducción

El análisis sintáctico de una oración escrita en lenguaje natural consiste en recuperar laestructura sintáctica o árbol sintáctico asociado a esa oración. Para ello se utiliza una gra-mática que describe la estructura sintáctica del lenguaje, y un algoritmo que determinacuál es el árbol sintáctico de la oración mediante una estrategia de búsqueda a partir dela gramática definida.

Los algoritmos que llevan a cabo el análisis sintáctico completo de una oración propor-cionan la estructura asociada cuando ésta pertenece al lenguaje definido por la gramática.En caso contrario, cuando la oración no pertenece al lenguaje definido por la gramática,el proceso de análisis no proporciona ninguna solución. En (Allen, 1995) se puede en-contrar una descripción de distintos algoritmos ‘clásicos’ que realizan análisis sintácticocompleto. Estos algoritmos ofrecen buenos resultados para un lenguaje restringido, esdecir, definido por una gramática de cobertura limitada.

El principal problema de un analizador sintáctico completo radica en seleccionar el

85

86 Capítulo 5. Análisis sintáctico parcial

análisis sintáctico correcto de una oración de entre todos los posibles. Así surgen proble-mas de ambigüedad estructural que son más difíciles de resolver cuanto más complejaes la gramática. Sin embargo, no todas las aplicaciones de PLN requieren un análisiscompleto de la oración. Por ejemplo, en aplicaciones como extracción de información,generación de resúmenes, recuperación de información o búsqueda de respuestas, es su-ficiente encontrar determinados elementos sintácticos y/o semánticos tales como agente,objeto, lugar, tiempo, etc. Para ello puede ser suficiente con determinar sintagmas nomi-nales o verbales sencillos y algunas relaciones entre éstos.

El análisis sintáctico parcial, que consiste en identificar en una oración sólo unas deter-minadas estructuras sintácticas, se ha mostrado como una técnica útil tanto en dominiosdel lenguaje hablado como escrito y una alternativa al análisis completo. Existen multi-tud de aplicaciones que pueden beneficiarse del uso de un analizador parcial, por ejem-plo, los analizadores parciales se integran en sistemas de traducción automática del lengua-je hablado, como el desarrollado en el proyecto Verbmobil (Wahlster, 2000), para aumentarla robustez del sistema. También sirven para simplificar la labor de los analizadores com-pletos, como el desarrollado por Collins (1996), ya que reducen el espacio de búsqueda.Los sistemas de búsqueda de respuestas (question answering) utilizan analizadores parcialespara poder procesar grandes cantidades de documentos y extraer relaciones sintácticasbásicas (Srihari y Li, 1999; Vicedo, 2002). Otras aplicaciones como los sistemas de ex-tracción de información, generación de resúmenes, generación de índices o recuperaciónde información, también hacen uso de un analizador parcial. Además, los analizadoresparciales se utilizan como preproceso en la construcción de colecciones de datos o corpo-ra anotados con información sintáctica (bases de datos de árboles sintácticos o treebanks)que, posteriormente, pueden servir como fuente de información para el aprendizaje enaproximaciones inductivas. El analizador parcial reduce el coste de anotación del corpuspor parte del experto lingüista, el cual interactúa con el analizador corrigiendo y com-pletando los análisis propuestos. De esta forma se anotó sintácticamente una parte delcorpus WSJ en el proyecto Penn Treebank (Marcus et al., 1993). En la actualidad se estállevando a cabo el proyecto 3lb cuyo objetivo es anotar sintáctica y semánticamente unaparte del corpus español LexEsp.

En definitiva, los analizadores parciales son útiles en aquellas aplicaciones que ne-cesiten analizar grandes cantidades de texto y que, por razones computacionales o derobustez, no puedan ser procesadas por un analizador completo que use una gramáticade gran cobertura.

5.2 Problemas de un analizador sintáctico completo

La utilización de algoritmos de análisis completo en el procesamiento de textos no res-tringidos presenta diversos problemas: la definición de la gramática, la cobertura de la

5.2. Problemas de un analizador sintáctico completo 87

gramática, el tratamiento de la ambigüedad estructural, la robustez y la eficiencia delanalizador.

Para poder procesar texto no restringido, ya sea hablado o escrito, es necesaria lautilización de una gramática de amplia cobertura que recoja todas las estructuras dellenguaje. La definición de estas gramáticas por expertos lingüistas es una tarea costosaque, además, presenta otros problemas (Briscoe, 1994) como:

1. La dificultad en la obtención de una correcta segmentación en oraciones o unidadescuyos elementos mantengan una relación sintáctica en un texto.

2. La falta de cobertura de la gramática (undergeneration). Esto es debido a la com-plejidad de construir una gramática que reconozca todas las estructuras existentesen una lengua, que se ve sometida a continuos cambios y que puede adoptar di-ferentes formas dependiendo de factores como el entorno, el dominio, el grado deformalidad, etc. Además, por la propia naturaleza evolutiva de la lengua siempreexistirán oraciones cuya estructura gramatical no se pueda derivar a partir de lagramática, o en las que simplemente aparezcan palabras desconocidas que impi-dan que el análisis continúe. También puede producirse el fenómeno contrario, esdecir, que la gramática reconozca estructuras no pertenecientes a la lengua comocorrectas (overgeneration).

3. La ambigüedad sintáctica estructural. Una oración pueden tener varios árboles deanálisis distintos y el analizador debe proporcionar el correcto. Cuanto mayor esla cobertura de una gramática, mayor es la ambigüedad que se produce. Para vo-cabularios o dominios restringidos pueden aplicarse métodos, como el uso de pre-ferencias léxicas o de restricciones seleccionales, para escoger el árbol de análisiscorrecto entre todos los posibles (Moreno et al., 1999). Sin embargo, estas técnicasno son directamente aplicables en dominios no restringidos, ya que necesitan codi-ficar una gran cantidad de conocimiento léxico, sintáctico y/o semántico, lo cual esuna tarea realmente difícil y costosa.

La falta de cobertura gramatical está relacionada directamente con la robustez del al-goritmo de análisis. Si la gramática no es completa, el analizador no puede proporcionarel árbol sintáctico de cualquier oración, sobretodo cuando trabaja con textos de sintaxisno restringida o con lenguaje hablado. En este caso, o bien el analizador no proporcionaningún análisis o bien debe proponer, al usuario o a la aplicación, una solución aunquesea parcial. Otro aspecto que puede afectar a la robustez del analizador es la apariciónde palabras desconocidas. Este problema puede solventarse en algunos casos con la uti-lización de un etiquetador morfosintáctico que proporcione la categoría gramatical másprobable para la palabra desconocida. Aunque el etiquetador puede introducir errores


que se pueden propagar a la fase de análisis sintáctico1, su uso permite que el analizadorsintáctico gane en robustez.

En cuanto a la eficiencia, los algoritmos de análisis ’clásicos’ (Allen, 1995) suelen pre-sentar un coste computacional cúbico respecto a la longitud de la frase ( ��

�, donde

� es una constante que depende del algoritmo y � es la longitud de la frase). Este costepuede ser prohibitivo en aplicaciones que manejan gran cantidad de datos o que trabajenen tiempo real.

Una alternativa para disminuir los costes de codificación de gramáticas de gran co-bertura o de la información léxico-semántica necesaria para implementar métodos deresolución de la ambigüedad efectivos es la utilización de métodos inductivos. Por ello,en los últimos años se vienen utilizando técnicas de aprendizaje automático que permitenresolver distintos tipos de ambigüedad: léxico–categorial, léxico–semántica, estructural,etc. Estos métodos, algunos de los cuales se han presentado brevemente en el capítulo 1,construyen modelos que representan el conocimiento sintáctico del lenguaje a partir decorpora anotados con la información necesaria. Por contra, estas aproximaciones presen-tan como desventaja el elevado coste de anotación de los corpora.

También se han desarrollado técnicas estadísticas para construir analizadores sintác-ticos completos a partir de la información codificada en bases de datos sintácticas o tree-banks. Ejemplos de estos analizadores son la gramática probabilística de Charniak (1997),el analizador basado en dependencias de Collins (1996) y el analizador basado en mode-los de máxima entropía de Ratnaparkhi (1997). Recientemente, también se han aplicadootros métodos de aprendizaje como los SVM (Yamada y Matsumoto, 2003).

5.3 Análisis sintáctico parcial

Una posibilidad para abordar el análisis de textos no restringidos, y garantizar que éstesea robusto y llevado a cabo de forma eficiente, consiste en aplicar técnicas de análisisparcial. El análisis parcial permite obtener la segmentación de la oración en unidadessintácticas de manera rápida y con una alta fiabilidad. Como se ha comentado en elapartado 5.1 son muchas las aplicaciones que no necesitan de un análisis completo de lostextos de entrada y, por lo tanto, pueden beneficiarse del uso de estas técnicas. Es el casode tareas como la extracción de información, recuperación de información, generación deresúmenes, generación de índices, etc.

1Como se indica en el capítulo 4 el ratio de error de un etiquetador morfosintáctico está alrededor del 3%.

5.3. Análisis sintáctico parcial 89

5.3.1 Definición de análisis parcial

Abney (1997) define el análisis sintáctico parcial como aquella técnica de análisis que tiene co-mo objetivo recuperar información sintáctica de forma eficiente y fiable, desde texto no restringido,sacrificando la completitud y profundidad del análisis completo. Es decir, un analizador parcialdebe ser una herramienta robusta que sea capaz de obtener la mayor cantidad de infor-mación sintáctica de un texto, aunque no sea posible proporcionar un árbol sintácticocompleto.

NP

S

Nprop

VP

V OD

CONT NP

N PREP NP

PP

DET N

telescopioel conhombre alveLuis

a) Análisis sintáctico completo 1

NP

S

Nprop

VP

V OD

CONT NP

N


PP

PREP NP

DET N

b) Análisis sintáctico completo 2

V

CONT NP

N


PP

PREP NP

DET NNprop

NP PP

c) Análisis Parcial

Figura 5.1: Ejemplos de análisis completos y análisis parcial de "Luis ve al hombre con el telesco-pio".

Mientras la salida proporcionada por un analizador completo es el árbol sintácticode análisis, si la oración es correcta gramaticalmente, un analizador parcial produce un


bosque de subárboles no entrelazados. Cada subárbol se corresponde con la estructurasintáctica de un constituyente oracional. Por ejemplo, en la oración “Luis ve al hombrecon el telescopio”, un analizador completo proporcionaría alguno de los análisis sintácti-cos de las figuras 5.1a) y 5.1b). Un analizador parcial proporciona solamente el análisis deaquellos constituyentes que puede identificar, según muestra la figura 5.1c). Las decisio-nes de ligamiento entre constituyentes podrían resolverse a posteriori aplicando heurís-ticos, modelos probabilísticos, preferencias léxicas, etc., en caso de que fueran necesariaspara la aplicación.

Dentro del análisis parcial se pueden encontrar distintos tipos dependiendo de losobjetivos del analizador o de la profundidad del análisis. El análisis superficial (shallowparsing o chunking) consiste en dividir el texto en segmentos no solapados que se co-rresponden con ciertas estructuras sintácticas no recursivas denominadas chunks (Abney,1991). Por tanto, el análisis superficial se corresponde con el análisis sintáctico de másbajo nivel, y puede servir como preproceso para analizadores completos. Por ejemplo,se pueden identificar sintagmas nominales no recursivos o básicos (NP-chunks), que sonsintagmas nominales que no contienen a otros sintagmas. Otras estructuras sintácticas enlas cuales se puede segmentar un texto son sintagmas verbales básicos, que se correspon-den con los núcleos verbales, sintagmas adjetivos básicos, sintagmas adverbiales básicos,etc.. Existen analizadores superficiales que segmentan completamente el texto según unconjunto de sintagmas básicos previamente definidos (entonces se dice que estos anali-zadores realizan chunking o text chunking). Pero también existen analizadores específi-cos para determinados sintagmas, por ejemplo, una tarea de especial importancia es ladetección de sintagmas nominales (NP-chunking), porque es el sintagma más frecuente,presenta una extensa variedad sintáctica, y contiene información útil para aplicacionescomo la extracción de información.

5.3.2 Ventajas del análisis parcial

Las principales ventajas que presenta un analizador parcial frente a un analizador com-pleto son:

� Utiliza algoritmos de análisis robustos, lo que significa que independientemente de laestructura de la oración de entrada se obtendrá una representación sintáctica de lamisma, aunque sea parcial. Esto permite procesar cualquier texto no restringido.

� Los algoritmos de análisis son más eficientes y menos costosos computacionalmenteque los algoritmos de análisis completo. Por ejemplo, el proceso de análisis de unaoración utilizando el algoritmo de Viterbi sobre un MM presenta un coste linealrespecto a la longitud de la oración.


� Un analizador parcial presenta una alta fiabilidad ya que se construye específica-mente para la detección de determinados elementos sintácticos.

� Una combinación adecuada de los resultados ofrecidos por analizadores parcialesespecíficos permitiría conseguir un análisis completo de gran calidad. Entre las ta-reas específicas que puede realizar un analizador parcial están: la segmentación deltexto en unidades sintácticas básicas, la detección de unidades sintácticas más com-plejas, el ligamiento preposicional entre sintagmas, la segmentación de la oraciónen cláusulas, la identificación de roles sintácticos (sujeto, complementos, adjuntos,etc.), el reconocimiento de entidades, etc.

A este respecto cabe destacar las conclusiones expuestas por Li y Roth (2001) despuésde comparar las prestaciones de un analizador sintáctico parcial (Punyakanok y Roth,2001) y un analizador completo (Collins, 1997): el analizador parcial es más preciso ymás robusto que el analizador completo. Para constatar esta afirmación, ambos analiza-dores se entrenaron con frases del corpus WSJ y se evaluaron sobre dos corpora distintos:el propio WSJ y el corpus Switchboard, que contiene errores sintácticos ya que está forma-do por transcripciones de conversaciones telefónicas. En ambas situaciones el analizadorparcial ofreció mejores prestaciones: precisión y cobertura mayores (F � de 94.64 del ana-lizador parcial frente a 91.96 del completo) y mayor robustez, ya que el análisis parcial sedegradó menos que el completo al procesar el corpus con errores (un 7% del analizadorparcial frente a un 11% del completo). Esto indica que un analizador parcial puede ofre-cer más garantías cuando trabaja con texto de baja calidad (transcripciones de lenguajehablado, textos con errores gramaticales, etc.). Este trabajo apunta hacia una direccióninteresante que es la construcción de analizadores parciales siguiendo una metodologíaincremental, que permita construir analizadores más completos con alta fiabilidad.

Otra ventaja es que el coste de construcción de un analizador parcial siempre serámenor, ya que no necesita de un corpus anotado con la estructura sintáctica completa.

5.3.3 Tipos de representación del análisis superficial.

La segmentación de un texto en sintagmas básicos o chunks puede representarse agru-pando entre paréntesis, o corchetes, aquellas secuencias de palabras que forman partedel mismo constituyente oracional. Por ejemplo, en la siguiente oración se han marcadolos sintagmas básicos2:

[� � El cartero ] [

��da ] [

� � al ] [� � hombre ] [

� � una carta ] .

El problema del análisis superficial puede verse también como un problema de eti-quetado o clasificación (Ramshaw y Marcus, 1995). En este caso, la identificación de

2SN: Sintagma Nominal, SV: Sintagma Verbal, SP: Sintagma Preposicional.


IOB1 IOB2 IOE1 IOE2 O CEl I-SN B-SN I-SN I-SN (SNcartero I-SN I-SN I-SN E-SN )SNda I-SV B-SV I-SV E-SV (SV )SVal I-SP B-SP I-SP E-SP (SP )SPhombre I-SN B-SN E-SN E-SN (SN )SNuna B-SN B-SN I-SN I-SN (SNcarta I-SN I-SN I-SN E-SN )SN. O O O O O O

Figura 5.2: Segmentación en chunks de la oración “El cartero da al hombre una carta.” utilizandodistintos tipos de representación.

chunks consiste básicamente en asignar a cada palabra la etiqueta del chunk correspon-diente. El tipo de representación utilizado es importante sobretodo en las aproximacio-nes basadas en métodos de aprendizaje automático que aprenden a partir de un corpusetiquetado. La elección del tipo de representación puede influir incluso en las presta-ciones de los analizadores, como se expone en algunos trabajos. En (Tjong Kim Sang yVeenstra, 1999) se describen distintos tipos de representación para identificar sintagmasnominales básicos, utilizando el siguiente conjunto de etiquetas: I si la palabra está den-tro de un SN; O si la palabra está fuera de un SN; B si la palabra da comienzo a un SN;E si la palabra finaliza un SN. Los distintos tipos de representación se diferencian en eltratamiento que dan a las palabras que marcan el inicio o el final del SN. Se proponen lossiguientes:

IOB1: Solamente la primera palabra de un SN básico que está inmediatamente acontinuación de otro SN básico recibe la etiqueta B.

IOB2: Todas las palabras que inician un SN básico reciben la etiqueta B.

IOE1: Solamente la última palabra de un SN básico que precede inmediatamente aotro SN básico recibe la etiqueta E.

IOE2: Todas las palabras que finalizan un SN básico reciben la etiqueta E.

Los sistemas de clasificación también pueden trabajar con la notación de paréntesis(Tjong Kim Sang, 2000a). En ese caso, se suelen entrenar dos clasificadores: uno queasigna paréntesis abiertos (Open bracket) y otro que asigna paréntesis cerrados (Closedbracket). Después debe utilizarse algún mecanismo para combinar estos dos etiquetadosde manera que el parentizado sea consistente.

Cuando se consideran más unidades sintácticas, se debe ampliar el conjunto de eti-quetas de la forma: I-X, B-X, E-X, para indicar que una palabra pertenece al chunk X.


Las distintas formas de representar el análisis superficial de la oración “El cartero da alhombre una carta” se muestran en la figura 5.2.

Esta forma de representar la segmentación en chunks de una oración presenta las si-guientes ventajas:

� Permite abordar la tarea de chunking como un problema de etiquetado o clasifica-ción.

� Reduce la posibilidad de que se produzcan inconsistencias en el etiquetado, que porotro lado serían habituales utilizando una representación basada en el parentizado.

� Un mismo método de aprendizaje puede ofrecer distintas prestaciones según el ti-po de representación escogido. Siempre se puede buscar aquella representaciónmás adecuada para un determinado método, o utilizar algún sistema de combina-ción, a partir de las salidas proporcionadas por los clasificadores para cada tipo derepresentación, que mejore las prestaciones de éstos.

5.3.4 Medidas de evaluación de analizadores parciales

Las prestaciones ofrecidas por los analizadores sintácticos suelen evaluarse con las me-didas PARSEVAL (Black et al., 1991): precisión (precision), cobertura (recall), y el ratio deparéntesis cruzados (crossing brackets).

El ratio de paréntesis cruzados, es el número de constituyentes que violan las marcas ofronteras de constituyente respecto a algún constituyente del corpus de referencia. Estamedida por sí sola no es muy significativa. Por ejemplo, un analizador que marcara so-lamente los comienzos y finales de las oraciones ofrecería un 0% de paréntesis cruzados.Por ello suelen utilizarse las otras dos medidas que se definen como sigue.

�� # constituyentes desambiguados correctamente por el analizador# constituyentes desambiguados por el analizador

� � � � �� # constituyentes desambiguados correctamente por el analizador

# constituyentes en el corpus de referencia

donde un constituyente correctamente desambiguado es aquél que tiene asignada la mis-ma categoría sintáctica (o chunk) y cubre la misma secuencia de tokens que el constituyentede referencia.

Estas medidas son las que habitualmente se utilizan para evaluar los sistemas de re-cuperación de información (van Rijsbergen, 1979). Mediante la precisión se mide el gradode corrección de los constituyentes detectados, mientras que la cobertura mide si éstoscubren el conjunto que se pretende detectar. Aunque no existe una relación matemática


estricta entre estos dos parámetros, estudios empíricos parecen indicar que están inver-samente relacionados de manera que, cuando aumenta el número de elementos recupe-rados por el sistema, aumenta la cobertura disminuyendo la precisión. Esto hace que nosea fácil comparar estos dos parámetros a la vez, por lo que se han propuesto diversasmedidas que tengan en cuenta ambos parámetros. Como se indicó en el capítulo 1 la másusada es el factor

� � que se define como:

� � ��

Normalmente se toma � igual a 1, que significa que precisión y cobertura tienen el mismopeso, con lo que

� � � � � � ��

� � constituyentes correctosconstituyentes proporcionados � constituyentes en la referencia

El análisis superficial puede representarse como una secuencia de etiquetas de chunk,como se explica en el apartado 5.3.3. Por ello también puede utilizarse la medida deprecisión de etiquetado (accuracy) definida como:

�� # tokens correctamente etiquetados por el analizador# tokens en el corpus de referencia

Sin embargo, esta medida no es suficientemente significativa ya que asigna valorespositivos a las palabras que se han identificado correctamente fuera de un constituyenteo dentro de un constituyente incompleto. Y, además, para notaciones distintas produciríaresultados diferentes. Por ello, se puede decir que no existe una relación directa entrela precisión de etiquetado y el factor

� � . La ventaja de la precisión de etiquetado respectoal factor

� � es que puede usarse para determinar si la diferencia entre dos valores deprecisión de etiquetado es significativa o no. Por contra, este cálculo no es inmediatoen el caso del factor

� � . En (Yeh, 2000) se presenta un método para calcular si existendiferencias significativas entre varios valores de

� � usando muestras aleatorias obtenidasde los distintos conjuntos de prueba. El coste computacional de esta aproximación eselevado y además requiere disponer de los de datos de prueba etiquetados con la salidade cada uno de los sistemas que se van a comparar.

5.3.5 La tarea compartida sobre análisis superficial (CoNLL00)

En estos últimos años ha surgido un interés creciente en la aplicación de técnicas deaprendizaje automático para el desarrollo de analizadores parciales. Una muestra deesto es la celebración del taller anual sobre el aprendizaje computacional del lenguaje


natural: Computational Natural Language Learning, (CoNLL) promovido por el SIGNLL 3

(Special Interest Group of the Association for Computational Linguistics on Machine Learning ofLanguage). En este taller, además de presentarse trabajos teóricos y prácticos sobre apro-ximaciones de aprendizaje automático para tratar distintas tareas de PLN, se celebra unacompetición o tarea compartida (shared task) que se evalúan distintos sistemas sobre unasubtarea de análisis parcial. La edición celebrada en el año 19994 se dedicó a la detecciónde sintagmas nominales recursivos, en 20005 se abordó la tarea de detección de sintagmasbásicos (text chunking), la edición de 20016 se dedicó a la detección de cláusulas, y las dosúltimas ediciones, en 2002 y 2003, al reconocimiento de entidades7. En estas tareas compar-tidas se presentan distintas aproximaciones que se evalúan sobre un mismo conjunto dedatos, por lo que suponen un punto de referencia fundamental para nuevos desarrollossobre este tema. Otra reseña importante es el número especial sobre análisis superficialpublicado recientemente por la revista Journal on Machine Learning Research (Hammertonet al., 2002) que recoge algunos de los últimos trabajos en los cuales se abordan tareas deanálisis parcial, principalmente detección de sintagmas básicos y detección de cláusulas,mediante métodos de aprendizaje automático.

La tarea compartida celebrada en la edición de 2000 de la conferencia CoNLL tuvocomo objetivo la evaluación de diferentes aproximaciones inductivas o de aprendizajeautomático sobre la tarea de detección de sintagmas básicos y sobre un mismo conjuntode datos. Estos sintagmas pueden ser nominales, verbales, preposicionales, adverbialesy adjetivos. Por ejemplo, la oración “You will start to see shows where viewers program theprogram” puede segmentarse en sintagmas básicos como se muestra a continuación.

(NP You) (VP will start to see) (NP shows) (ADVP where) (NP viewers)(VP program) (NP the program) .

El conjunto de datos utilizado en esta tarea se ha extraído del corpus WSJ y coincidecon el utilizado por Ramshaw y Marcus (1995) en la tarea de detección de SN básicos.Consta de las secciones 15, 16, 17 y 18 del WSJ como conjunto de aprendizaje (211,727palabras) y la sección 20 como conjunto de prueba (47,377 palabras). Las unidades sin-tácticas básicas se han obtenido a partir del corpus WSJ mediante un programa escritopor Sabine Buchholz8 de la Universidad de Tilburg (The Netherlands) que deriva el análi-sis superficial de una oración del corpus a partir de su análisis completo (en el apéndiceA se presenta un ejemplo de esta transformación). Además, para simular una situación

3http://www.aclweb.org/signll4http://lcg-www.uia.ac.be/conll99/npb/5http://lcg-www.uia.ac.be/conll2000/chunking/6http://lcg-www.uia.ac.be/conll2001/clauses/7http://lcg-www.uia.ac.be/conll2002/ y http://lcg-www.uia.ac.be/conll2003/8http://ilk.kub.nl/~sabine/chunklink/


Tipo de constituyente CantidadNoun Phrase (NP) 55,081 (51%)Verb Phrase (VP) 21,467 (20%)Prepositional Phrase (PP) 21,281 (20%)Adverb Phrase (ADVP) 4,227 (4%)Subordinated clause (SBAR) 2,207 (2%)Adjective Phrase (ADJP) 2,060 (2%)Particles (PRT) 556 (1%)Conjunction Phrase (CONJP) 56 (0%)Interjection (INTJ) 31 (0%)List marker (LST) 10 (0%)Unlike Coordinated Phrase (UCP) 2 (0%)

Tabla 5.1: Cantidad de constituyentes básicos de cada tipo en el conjunto de aprendizaje (seccio-nes 15 a 18 del corpus WSJ).

real, en la que normalmente un analizador sintáctico toma como entrada la salida propor-cionada por un etiquetador morfosintáctico, las categorías gramaticales de las palabrasse han obtenido con el etiquetador de Brill (Brill, 1994), por lo que se observan ciertoserrores de etiquetado (aproximadamente del

��respecto al etiquetado supervisado del

WSJ) como correspondería a un caso real.

La evaluación de los sistemas se realiza en términos de precisión y cobertura, utilizan-do el factor

� �� como medida para comparar las prestaciones de los distintos sistemasparticipantes. Una descripción más detallada de la tarea y de las características de lasunidades sintácticas consideradas se puede encontrar en (Tjong Kim Sang y Buchholz,2000).

La tabla 5.1 muestra los distintos tipos de constituyentes sintácticos considerados enla tarea y la frecuencia de aparición para cada uno de ellos. Se observa que los chunksmás frecuentes son NP, VP y PP (91% del total), por lo que las prestaciones de un sistemavendrán determinadas por las prestaciones sobre esos tipos de chunk. Estas unidadessintácticas se basan en parte de las categorías sintácticas definidas en el corpus WSJ. Enciertos casos, existen dificultades para convertir la notación de árbol, utilizada en el WSJ,en unidades sintácticas básicas (chunks). Por eso, para definir cada una de las unidadessintácticas consideradas se tomaron ciertas decisiones que se enumeran a continuación.

NP (Noun Phrase)

La definición de los sintagmas nominales básicos (NP) es muy similar a la utilizada en(Ramshaw y Marcus, 1995). Se ha considerado algunas asunciones como las siguientes:


� La coordinación de NPs se trata tal y como aparece en el WSJ.

� Las construcciones de NP posesivas se dividen en dos

(NP Eastern Airlines’ creditors)� [ � � Eastern Airlines] [ � � ’ creditors]

� Los constituyentes ADJP dentro de un NP se toman como parte de este último

(NP The (ADJP most volatile) form )� [ � � The most volatile form].

VP (Verb Phrase)

� En la notación del WSJ los sintagmas verbales básicos (VP) presentan un elevadogrado de anidamiento, que para la tarea se consideran como uno solo:

((S(NP-SBJ-3 Mr. Icahn) (VP may not (VP want (S (NP-SBJ*-3) (VP to (VP sell...))))) . ))� [ � � Mr. Icahn] [

� � may not want to sell ] ...

Esto no impide que aparezcan VP consecutivos:

[ � � The impression] [ � � I] [� � have got] [

� � is] [ � � they] ...

� Adverbios y frases adverbiales permanecen como parte del VP, si aparecen delantedel verbo principal:

(VP could (ADVP very well) (VP show ...))� [

� � could very well show] ...

� Sin embargo, los adjetivos predicativos de los verbos no forman parte del VP:

[ � � they] [� � are] [ � �� unhappy] ...

� En frases invertidas, el verbo auxiliar no forma parte de un VP, como ocurre en elWSJ:

((S(SINV (CONJP Not only) does (NP-SBJ-1 your product) (VP have (S (NP-SBJ*-1)(VP be (ADJP-PRD excellent)))))), but ...� [ � � � � � Not only] does [ � � your product ] [

� � have to be ] [� �� excellent ] ,but ...


ADVP y ADJP (Adverb Phrase y Adjective Phrase)

La mayor parte de los sintagmas adverbiales básicos (ADVP) y sintagmas adjetivos bási-cos (ADJP) se corresponden con la definición del WSJ. Sin embargo, los ADVP que estándentro de un ADJP se consideran parte de dicho constituyente. También los ADVP den-tro de VP, si van delante del verbo principal, como se dijo en el apartado anterior.

� Los ADVP y los ADJP que contienen un NP se desdoblan en dos:

(ADVP-TMP (NP a year) earlier)� [ � � a year][ � � � � earlier]

(ADJP-PRD (NP 68 years) old)� [ � � 68 years][� �� old]

PP y SBAR (Prepositional Phrase y Subordinate clause)

Ya que la tarea consiste en la detección de chunks, los sintagmas preposicionales bási-cos (PP) contienen solamente la preposición que introduce el sintagma preposicional. Lamayor parte están formados por sólo una palabra (una preposición cuya etiqueta morfo-sintáctica es IN). Esto no significa que sea una tarea trivial, puesto que con esta categoría,aparecen otros constituyentes (SBAR) y, además, ciertos PP se componen de más de unapalabra, como por ejemplo, such as, because of, due to, even in, etc..

De igual forma los chunks de oraciones subordinadas (SBAR) constan únicamente dela conjunción subordinante. Principalmente están formados por una palabra con la cate-goría IN, pero también pueden incluir más de una palabra, por ejemplo, so that, as if, onlyif, etc..

CONJP, PRT, INTJ, LST, UCP

Estos tipos de chunk se corresponden con estructuras poco habituales.

� Las conjunciones (CONJP) pueden estar formadas por más de una palabra como:as well as, instead of, but also, ... Algunas palabras que son conjunciones (and, or) noestán anotadas como tales en el WSJ, por lo que no se han considerado en la tarea.

� La etiqueta PRT (Particle) se asigna a las preposiciones ligadas a los verbos queforman los phrasal verbs del inglés. Aunque en principio son fáciles de reconocer,puesto que llevan asociada la etiqueta morfosintáctica RP, ciertos errores de etique-tado (aparecen con etiquetas IN y RB), dificultan su detección.

� INTJ representa interjecciones como oh, hello, good grief!, etc..

5.4. Aproximaciones al análisis parcial 99

Aproximaciones Precisión Cobertura F��

Kudo y Matsumoto 93.45% 93.51% 93.48Van Halteren 93.13% 93.51% 93.32Tjong Kim Sang 94.04% 91.00% 92.50Zhou et al. 91.99% 92.25% 92.12Déjean 91.87% 91.31% 92.09Koeling 92.08% 91.86% 91.97Osborne 91.65% 92.23% 91.94Veenstra y Van den Bosch 91.05% 92.03% 91.54Pla et al. 90.63% 89.65% 90.14Johansson 86.24% 88.25% 87.23Vilain y Day 88.82% 82.91% 85.76Sistema de Referencia 72.58% 82.14% 77.07

Tabla 5.2: Resultados de los diferentes sistemas participantes en la tarea de detección de unidadessintácticas de CoNLL00.

� LST se utiliza para marcar listas enumeradas (1., 2., a), b), ...)

� UCP es una estructura de coordinación poco habitual en la cual se coordinan cons-tituyentes que pertenecen a distinta categoría sintáctica. Suele estar formada porconjunciones como and y or.

En CoNLL00 participaron una totalidad de 11 sistemas que pueden clasificarse encuatro grupos: sistemas de aprendizaje de reglas (Vilain y Day; Johansson; Déjean), apren-dizaje basado en ejemplos (Veenstra y Van den Bosch), métodos estadísticos (Koeling;Osborne; Pla et al.; Zhou et al.) y combinados (Kudo y Matsumoto; Van Halteren; TjongKim Sang)9. Los sistemas que ofrecieron mejores prestaciones fueron los combinados co-mo se observa en la tabla 5.2. Se tomó como sistema de referencia aquél que asigna laetiqueta de chunk más probable. Una breve descripción de estos sistemas se presentaráen el apartado 5.4.2.

5.4 Aproximaciones al análisis parcial

Desde principios de los 90 se han desarrollado diversas aproximaciones para llevar acabo análisis parcial y superficial. Al igual que en otros campos de la Lingüística Com-putacional, como es el caso del etiquetado morfosintáctico de textos, estas aproximacio-nes pueden clasificarse en dos grupos principales: las aproximaciones lingüísticas o basadas

9El sistema de ?? se ha clasificado como método combinado porque necesita combinar el resultado dedistintos clasificadores binarios basados en soporte vectorial.


NP Aux VP

PP

N

venue

new

a N

NPabout

PP

NPfor

the

meeting

Nwe have approached

them

NP

S

Main

Figura 5.3: Bosque de análisis generado por Fidditch para la oración “’We have approached themabout a new venue for the meeting”.

en conocimiento, que utilizan reglas gramaticales definidas manualmente por un expertomediante algún formalismo, y aproximaciones basadas en corpus que utilizan métodos deaprendizaje automático. Las distintas técnicas no solamente difieren en el método ensí, sino también en cuanto a la información que manejan: algunas técnicas únicamen-te tienen en cuenta la información de la categoría gramatical, otras utilizan informaciónmorfológica, la propia palabra o su lema, la distancia entre palabras, las dependenciasexistentes entre núcleos y modificadores, etc. Muchas aproximaciones no son directa-mente comparables entre sí debido a que trabajan sobre distintos corpora, no identificanlos mismos tipos de sintagmas, la profundidad del análisis varía, etc. Algunas aproxi-maciones también asignan roles o funciones sintácticas a los sintagmas nominales. Acontinuación se enumeran los distintos trabajos aparecidos en la literatura, dentro de lasaproximaciones principales, haciendo énfasis en la técnica utilizada.

5.4.1 Aproximaciones basadas en conocimiento

Estas aproximaciones definen un conjunto de reglas gramaticales que representan la es-tructura sintáctica de la lengua objeto de análisis mediante algún formalismo gramaticaly aplican algún método de análisis que permita procesar textos no restringidos de mane-ra robusta. Aunque la mayoría de estos trabajos se basan en técnicas de estados finitos,también pueden encontrarse aproximaciones que utilizan otros formalismos gramatica-les y algoritmos de análisis clásicos (chart ascendente, shift-reduce, análisis descendente,etc.) convenientemente modificados para realizar un análisis parcial robusto.

El analizador sintáctico para el inglés Fidditch (Hindle, 1983) fue uno de los prime-ros analizadores parciales que se desarrolló y que ofrece unas buenas prestaciones. Está


especialmente diseñado para analizar texto no restringido o texto resultante de transcrip-ciones de lenguaje hablado. Es un analizador determinista muy rápido (hasta 5,600 p/sen una estación de trabajo SGI). Es capaz de identificar cláusulas, sujetos y predicados.Aquellas frases o cláusulas que no reconoce o que no puede ligar con el resto de constitu-yentes no forman parte del árbol final de análisis. La estructura resultante es un bosquede subárboles, como se muestra en el ejemplo de la figura 5.3. La anotación sintácti-ca del corpus del inglés WSJ dentro del proyecto Penn Treebank se realizó corrigiendo ycompletando de forma manual la salida proporcionada por Fidditch (Marcus et al., 1993).

Voutilainen (1993) construye el analizador NPtool, basado en gramáticas de restric-ciones, para el reconocimiento de SN básicos. Mediante este formalismo se expresanrestricciones que invalidan la formación de un SN. Son restricciones del tipo “un deter-minante no puede preceder inmediatamente a un verbo”. Los SN identificados son elresultado de la intersección de dos modos de análisis: amigable (en caso de ambigüedad,el sistema marca el segmento candidato como SN) y hostil (en caso de ambigüedad nolo marca como SN). Los resultados de precisión que ofrece están comprendidos entre el95% y el 98% y la cobertura entre el 98.5% y el 100%. Aunque estos resultados seríanlos mejores en la literatura para la detección de SN, han sido criticados en trabajos pos-teriores (Ramshaw y Marcus, 1995) a la vista de ciertas incongruencias observadas en losejemplos proporcionados como salida del analizador.

En (McDonald, 1992) se presenta un algoritmo de análisis parcial basado en un chartascendente (Sparser). El chart se modifica mediante la incorporación de una serie de heu-rísticas que permiten que el análisis continúe ante palabras o estructuras desconocidas.Un ejemplo de estas heurística es: “un determinante marca el comienzo de un SN y unverbo el final”, de forma que si el analizador tiene como entrada una oración como “thegold mining company was ...” donde “gold mining” es desconocido, entonces el segmen-to “the gold mining company” se considera como un SN.

También se han desarrollado aproximaciones para el castellano. En concreto, el ana-lizador parcial SUPP se integra en sistemas para la resolución de la anáfora (Ferrándezet al., 1998) y sistemas de extracción de información (Peral et al., 1999). Dicho analiza-dor define la gramática parcial siguiendo un formalismo lógico basado en unificación,denominado Slot Unification Grammars (SUG), que es una extensión de las gramáticas decláusulas definidas. Así se define una gramática para el castellano que identifica sintag-mas nominales y preposicionales (básicos y coordinados), conjunciones, pronombres yverbos.

El analizador sintáctico TACAT (Atserias et al., 1998) permite realizar análisis parcialde textos en castellano. Este sistema utiliza un analizador tipo chart que, cuando no pue-de realizar el análisis completo, proporciona la secuencia de sintagmas de mayor longi-tud. Utiliza una gramática incontextual que reconoce grupos nominales, preposicionales,adjetivos y algunos tipos de coordinación.


Aproximaciones basadas en máquinas de estados finitos

Las técnicas basadas en máquinas de estados finitos se han utilizado en diversas fases delprocesamiento del lenguaje natural, principalmente en análisis morfológico y sintáctico.A continuación se presentan algunos de los trabajos más relevantes. Es difícil realizaruna comparativa de estos trabajos, ya que presentan características diversas: analizandistintas lenguas, se han evaluado sobre corpora diferentes o identifican distintos consti-tuyentes sintácticos.

En (Ejerhed, 1988) se utilizan técnicas de estados finitos para el reconocimiento decláusulas dentro de oraciones. Concretamente, se definen unas expresiones regularesque usan etiquetas morfosintácticas para el reconocimiento de cláusulas del inglés. Sedefine una cláusula como una proposición del lenguaje que constituye una unidad designificado y que puede identificarse solamente por criterios sintácticos, es decir, aquellasproposiciones que contienen un núcleo verbal y sus modificadores. Ejerhed realizó laexperimentación sobre el corpus Brown obteniendo un ratio de error del 13%. La salidaproporcionada por el reconocedor de cláusulas es la oración parentizada, como ilustra elejemplo extraído de (Ejerhed, 1988):

[ the/AT Fulton/NP County/NN Grand/JJ Jury/NN said/VBD Friday/NR an/AT inves-tigation/NN of/IN Atlanta/NP ’s/ recent/JJ primary/NN election/NN produced/VBDno/AT evidence/NN ] [ that/CS any/DTI irregularities/NNS took/VBD place/NN./. ]

Como se observa se identifican las cláusulas, pero no se analiza la estructura internade éstas. La única información interna es la etiqueta morfosintáctica asociada a cadapalabra.

Los primeros trabajos de Abney (1991) introducen la noción de chunk y en ellos imple-menta el primer analizador que procesa oraciones según una gramática de chunks. Abneydefine chunk como "el centro (core) no recursivo de un constituyente intraoracional, y quese extiende desde su comienzo hasta el núcleo (head), sin incluir post-modificadores". Loschunks se definen sobre las estructuras sintácticas principales: sintagma nominal, prepo-sicional, adjetivo, verbal y adverbial. Por ejemplo, un chunk de SN sería la secuencia depalabras que va desde el comienzo del sintagma hasta el núcleo (determinantes + pre-modificadores + núcleo). También define simplex clause como una cláusula que contieneestructuras sintácticas (chunks) no anidadas, es decir, entre las cuales no se establece li-gamiento. Por ejemplo, una oración simple o una oración subordinada son consideradascomo una ’simplex clause’. El analizador se compone de un chunker que identifica loschunks, utilizando el algoritmo de análisis LR, y un attacher que enlaza los segmentos se-gún las restricciones seleccionales impuestas por los núcleos y, en caso de ambigüedad,utiliza una serie de heurísticos.

Abney (1996) presenta una técnica incremental basada en máquinas de estados finitosque denomina Cascadas de Estados Finitos. Una Cascada de Estados Finitos consiste


T � : {NP –> D? N* NVP –> V-tns | Aux V-ing }

T � : { PP –> P NP }T�: {S –> PP* NP PP* VP PP* }

L3 _______________________________________S __________________S

L2 ___________NP ________________PP VP NP ___________VP

L1 ___________NP P _____________NP VP NP ___________VP

L0 D N P D N N V-tns Pron Aux V-ingthe woman in the lab coat thought you were sleeping

Figura 5.4: Proceso de análisis de la oración "the woman in the lab coat thought you were slee-ping".

en una secuencia de niveles y, en cada uno de ellos, se reconocen unas determinadasestructuras sintácticas o chunks. Las frases en un nivel se construyen a partir de las frasesdel nivel anterior y no existe recursión, es decir, las frases nunca contienen frases delmismo nivel o de niveles posteriores. Esta propiedad permite definir un chunk mediantepatrones o expresiones regulares. Cada nivel se define mediante uno o varios patrones.Un patrón consiste en una categoría y la expresión regular que define esa categoría. Cadapatrón se compila en un autómata de estados finitos determinista (AFD) y la unión de losautómatas produce un único AFD, que representa un nivel de análisis, y en él cada estadofinal se asocia con un único patrón.

La oración “The woman in the lab coat thought you were sleepin” se analizaría comomuestra la figura 5.4, según la definición de chunks de los niveles � � y � � , y la definiciónde cláusula del nivel � � . El nivel inicial recibe como entrada la secuencia de etiquetasmorfosintácticas asociada a la oración ( � � ). Un nivel � recibe la entrada � �� y generala salida � (que a su vez es la entrada del nivel siguiente). Los símbolos de la entradadeterminan las transiciones en el autómata del nivel � . Si el reconocedor empareja unasecuencia de símbolos con el patrón se emite la categoría correspondiente. Si no alcan-za un estado final se emite el símbolo de la entrada y se prosigue a partir del siguientesímbolo. En caso de ambigüedad en el proceso de análisis se utiliza la regla de empare-jamiento de mayor longitud (longest matching), es decir, si a partir de una posición haydos o más cadenas de símbolos que emparejan con un patrón se toma la cadena de máslongitud.

Los patrones son extendidos para incluir acciones, que permiten representar la estruc-tura interna de las oraciones y la herencia de rasgos sintácticos entre símbolos. Un ejem-


Forma base Morfológico-léxica SintácticaL’ InvGen SG Def Det Cap NounPrModenquête Fen SG Noun Subjectavoir IndI SG P3 Verb Auxi MainVégalement Adv Adverbialpermettre PaPrt Masc InvPL Verb PastPart [cb]de Prepinterpeller Inf Verb Infinun Masc SG Indef Det NounPrModéleveur Masc SG Noun DirCompde Prepcheval Masc PL Noun PPObjde Prepcourse Fem SG Noun PPObj [cb]qui Nom InvGen InvPL Rel Int Pro Subject...

Figura 5.5: Ejemplo de análisis sintáctico del analizador basado en AFD de Chanod.

plo es el patrón Subj -> [NP n= D? n= [N1 A* n= N ]] V donde los símbolos[ y ] representan acciones para emitir los marcadores de los límites de las estructurassintácticas. La acción de asignación n= representa la herencia de rasgos, lo que significaque los rasgos de un símbolo deben copiarse al patrón actual, para utilizarse en nivelesposteriores. La implementación de este analizador (Cass2) es capaz de analizar hasta1,600 p/s sobre una Sparcstation ELC. La precisión está alrededor del 88% y la cobertu-ra alrededor del 87%, respecto a una muestra de 1000 oraciones previamente analizadasmanualmente.

Chanod y Tapanainen (1996) construyen un analizador basado en autómatas finitospara el francés. Utiliza las técnicas de estados finitos en todas las fases de análisis: tokeni-zador, análisis léxico y sintáctico. El analizador asigna etiquetas morfosintácticas a cadapalabra y marca las cláusulas en la oración. No produce un análisis en forma de árbol,sino que asigna una categoría sintáctica o funcional a cada palabra. Es un análisis par-cial ya que no establece relaciones entre las palabras, ni construye estructuras sintácticas.Las etiquetas sintácticas que asigna son del tipo: verbo principal, sujeto, premodificador,postmodificador, complemento directo, etc.

En una primera fase genera una red de estados finitos que representa todas las posi-bles interpretaciones léxicas asociadas a cada token o unidad léxica. Mediante expresio-nes regulares, que se compilan en AFDs, se expresan reglas y restricciones sintácticas. Lasreglas se definen como restricciones locales del tipo “un verbo sólo puede tener

un sujeto”. Las restricciones son condiciones lógicas de combinación de símbolos


dentro de la oración: características morfosintácticas, etiquetas morfosintácticas, etique-tas funcionales, símbolos de puntuación o límites de cláusulas. Así se pueden expresarrestricciones como “un determinante no puede ir seguido inmediatamente

por un verbo”. Los análisis posibles resultan de la intersección de la red inicial deinterpretaciones léxicas con las redes de reglas y restricciones. Utilizando reglas y restric-ciones pueden resolverse algunos fenómenos lingüísticos como la coordinación, la con-cordancia verbo/sujeto o nombre/adjetivo o la aposición. La salida proporcionada porel analizador está formada por la forma base, información morfológica y léxica, etiquetasintáctica y límites de cláusula, como se ilustra en la figura 5.5.

Aït-Mokhtar y Chanod (1997) presentan otra arquitectura incremental consistente enuna secuencia de transductores que toma como entrada la secuencia de etiquetas morfo-sintácticas proporcionada por un etiquetador morfosintáctico. Cada transductor lleva acabo una tarea lingüística determinada, como reconocer estructuras sintácticas o segmen-tos (sintagmas nominales, preposicionales, verbales), identificación de sujetos u objetos,etc. Los transductores se construyen a partir de la compilación de expresiones regula-res. Cada transductor añade información sintáctica (parentizado y nombres de funcionessintácticas) mediante el uso del operador de reemplazamiento (Replace Operator): sustituyela secuencia de palabras que empareja con el patrón por esa misma secuencia más la in-formación sintáctica añadida. Los transductores se ordenan de forma que las tareas mássencillas se realizan en primer lugar, y la información añadida en un nivel se utiliza parala definición de niveles posteriores. La arquitectura del analizador es la siguiente:

1. Segmentación Primaria: consiste en el reconocimiento de segmentos básicos (que secorresponderían con la noción de chunk), que son definidos mediante expresionesregulares y marcados con el parentizado de la oración. Reconoce los siguientessegmentos no recursivos:

� Frases Adverbiales (ADVP): [ADV+ [[COORD|COMMA] ADV+]*]� Frases Adjetivas (AP): [(ADVP) ADJ (COMMA [(ADVP) ADJ COMMA]+)

(COORD (ADVP) ADJ)]

� Sintagmas Nominales (NP): se marcan todos los posibles comienzos y finalesde NP; luego, utilizando el operador de reemplazamiento, inserta los límitesde NP englobando la secuencia más larga que contiene un comienzo de NPposible seguido de un final de NP posible.

� Sintagmas Preposicionales (PP): en dos pasos de forma similar a como se iden-tifican los NPs.

� Verb Chunk (VC), marcando primero las construcciones más sencillas: Infi-nitivos y Participio Presente mediante expresiones regulares; luego las formaconjugadas siguiendo la idea del marcado de NPs.


Sistema Técnica Lengua Nivel Precisión CoberturaFidditch LR parser I Ch/Cl/R – –NPtool CG I NPs 95% 98%Sparser Chart Ascendente I Ch – –SUPP DCGs Descendente C Ch/Cl/R – –Cass2 ER AFD I Ch/Cl 88% 87%Chanod ER AFD F Ch/Cl/R – –Mokhtar ER AFD F Ch/R 93% 83%Gala ER AFD C Ch/Cl/R 82% 75% (sujetos)Grefenstette ER AFD I Ch/R 80% –TACAT Chart Ascendente C Ch – –

Tabla 5.3: Características de distintos sistemas de análisis parcial basados en conocimiento(I=Inglés; F=Francés; C=Castellano; Ch=Chunks; Cl=Cláusulas; R=Roles).

2. Marcado de Funciones Sintácticas: Aplica un conjunto de restricciones para determi-nar las funciones sintácticas de sujeto, objeto directo, complemento preposicional,etc. Se realiza en dos pasos: primero, se marcan los segmentos candidatos a realizarla función sintáctica; después, se aplican las restricciones para eliminar candidatos.

3. Expansión de Segmentos Verbales: Expande los VC incluyendo los segmentos a laderecha del verbo. Esto proporciona buenos resultados en textos escritos en un len-guaje ’controlado’, como textos técnicos, pero el número de ligamientos incorrectosaumenta en textos de estilo libre, como artículos de prensa o literatura.

La precisión es del 99.2% en textos técnicos y del 92.6% en artículos de prensa. La cober-tura es del 97.8% en textos técnicos y del 82.6% en artículos de prensa. Esta evaluaciónse hizo de forma manual sobre un conjunto reducido de oraciones. Esta aproximación sedesarrolló para el francés y, posteriormente, se presentó una arquitectura similar para elcastellano (Gala, 1999).

También en (Grefenstette, 1996) se presenta una arquitectura basada en traductores deestados finitos que procesan texto previamente etiquetado con información léxica y mor-fológica: identifican grupos nominales y verbales, marcan los núcleos de estas agrupacio-nes, y establecen relaciones sintácticas entre núcleos. El sistema se evaluó manualmentesobre textos periodísticos alcanzando un 80% de precisión en la extracción de relacionessinácticas.

A modo de resumen la tabla 5.3 muestra la técnica utilizada, la lengua tratada, elnivel de análisis, y las prestaciones ofrecidas para cada uno de los sistemas comentados.Como se observa no pueden extraerse resultados de esta comparativa por las diferenciasen cuanto a la lengua tratada y el nivel de análisis abordado por cada sistema. Además,no todos ellos están evaluados y, si lo están su evaluación ha sido realizada mediante


supervisión manual de un conjunto reducido de oraciones.

5.4.2 Aproximaciones basadas en corpus

Las técnicas de aprendizaje automático construyen una representación del conocimien-to sintáctico a partir de corpora parentizados y etiquetados morfosintácticamente. Lamayoría de las aproximaciones que se van a presentar abordan el problema de análisissuperficial como una extensión del problema del etiquetado morfosintáctico. Aparte delas particularidades propias de cada método, su efectividad depende fundamentalmentede dos factores: la determinación de los parámetros o características que son relevantespara el problema del análisis parcial y la delimitación del tamaño del contexto en tornoa la palabra foco. La mayoría de los métodos consideran como características relevanteslas palabras, las etiquetas morfosintácticas y las etiquetas de chunk, en un contexto de doso tres posiciones alrededor de la palabra foco. También existen otros métodos que incor-poran otros tipos de información como el lema, distancia entre palabras, aspectos estruc-turales de la frase, etc. A continuación se presentan distintas aproximaciones haciendoénfasis principalmente en qué información consideran relevante y cómo determinan estainformación.

La primera aproximación al análisis superficial fue el modelo estadístico de Church(1988) para la detección de sintagmas nominales no recursivos. A partir de un corpus eti-quetado con etiquetas morfosintácticas y parentizado semiautomáticamente, se calculauna matriz de probabilidades que indica cuál es la probabilidad de que ocurra un delimi-tador de SN, bien sea comienzo (‘[’) o final (‘]’), entre dos etiquetas morfosintácticas. Elmétodo de análisis inserta los comienzos o finales de SN más probables en la secuenciade etiquetas morfosintácticas de entrada, utilizando un algoritmo de programación diná-mica basado en el algoritmo de Viterbi. Aunque Church presenta buenos resultados, laevaluación realizada no es comparable con otros trabajos por tres motivos: la definiciónde chunk de sintagma nominal es diferente a la que aparece en el corpus WSJ, la evalua-ción se ha realizado sobre una muestra pequeña de chunks extraídos del corpus Brown(solamente 243 SN) y, finalmente, la entrada presenta un error de etiquetado morfosin-táctico alrededor del 0.5% lo cual no se corresponde con una situación real.

Modelos de Markov

En (Skut y Brants, 1998b) se presenta una aproximación estocástica basada en MM, pa-ra el reconocimiento de sintagmas nominales de profundidad limitada. La informaciónestructural se codifica en una etiqueta ( � ) que expresa la relación entre una palabra � ysu antecesora � �� . Así, se indica si � y � �� tienen el mismo nodo padre o si el nodopadre de alguna de ellas es a su vez ancestro de la otra. Además, el modelo se enrique-ce con la información de la categoría morfosintáctica ( � ) y la categoría sintáctica de la


palabra (� ). El análisis parcial se resuelve como un problema de etiquetado que asigna

la secuencia más probable de etiquetas estructurales � � � �� a la secuencia de

etiquetas morfosintácticas � � � �� , donde cada etiqueta estructural � es una

tupla� � � �� . A partir de los datos de entrenamiento se estima un modelo de trigra-

mas, interpolado con bigramas y unigramas, y restringido para reconocer estructuras deprofundidad menor o igual a 3. La evaluación se realiza sobre el corpus del alemán NE-GRA10 y el corpus inglés WSJ. Los resultados para el inglés son de una precisión entre el86% y el 89% para sintagmas de profundidad menor o igual a 3 , pero hay que tener encuenta que las oraciones analizadas no presentan errores de etiquetado morfosintáctico.

Otra aproximación que combina técnicas de MM con reglas incontextuales se presen-ta en (Brants, 1999). El análisis se realiza en cascada, siguiendo una arquitectura similara la desarrollada en los trabajos de Abney, pero la estructura de cada nivel se representamediante un MM estimado a partir de un corpus analizado sintácticamente. Cada nivelde análisis proporciona como salida las � mejores hipótesis según el modelo, representa-das mediante un grafo en el cual los nodos son posiciones de las palabras en la oración ylos vértices son categorías morfosintácticas o sintácticas. El nivel 0 de análisis toma comoentrada la secuencia de palabras y produce el etiquetado morfosintáctico. Los nivelesposteriores toman como entrada el grafo de posibles hipótesis y se resuelven aplican-do una modificación del algoritmo de Viterbi. El nivel 1 se corresponde con la tarea desegmentado en chunks. Los estados de cada MM pueden representar categorías morfo-sintácticas o categorías no-terminales (sintagmas o frases). En el primer caso, los estadosemiten palabras; en el segundo caso, los estados emiten árboles parciales de análisis, quese corresponden con una estructura sintáctica determinada, y la probabilidad de emisiónse corresponde con la probabilidad de la correspondiente regla incontextual. Las pro-babilidades de transición entre estados se estiman de la forma habitual. Respecto a laevaluación se realizó sobre el corpus alemán NEGRA y no hay resultados para el inglés.

En (Pla et al., 2000b) se utiliza un MM lexicalizado que realiza el etiquetado morfosin-táctico y el análisis superficial al mismo tiempo. El modelo se estructura en dos niveles.El nivel superior representa la estructura oracional y está formado por estados que se co-rresponden, o bien con una etiqueta de chunk, o bien con etiquetas morfosintácticas quecaen fuera de cualquier chunk; a cada estado del nivel superior que representa un chunkle corresponde un modelo de nivel inferior cuyos estados se corresponden con etiquetasmorfosintácticas y, por lo tanto, llevan a cabo el etiquetado morfosintáctico dentro de ca-da chunk. La ventaja de esta aproximación es que realiza el etiquetado morfosintácticoy el chunking en una misma fase de análisis, asegurando además el balanceado correctodel análisis sintáctico. Este sistema se ha evaluado en tareas de chunking obteniendo unasprestaciones de F � cercanas a 90 para el inglés en CoNLL00.

Zhou et al. (2000) incorporan información contextual en un MM basado en bigramas

10http://www.coli.uni-sb.de/sfb378/negra-corpus/.


mediante la definición de un vocabulario de entrada compuesto por: la palabra actual(si pertenece a ciertas categorías morfosintácticas), la etiqueta morfosintáctica actual y laanterior, un descriptor de la categoría sintáctica y una etiqueta de relación estructural queindica si dos palabras adyacentes tienen el mismo padre. El modelo se refina medianteuna técnica de aprendizaje dirigida por el error que considera solamente aquellas pala-bras cuyo ratio de error disminuye cuando son incorporadas al modelo. Además, aplicaun método de aprendizaje de secuencias basado en memoria (memory-based sequence lear-ning) para incorporar probabilidades de patrones de chunk, con lo que consigue pequeñasmejoras, alcanzando un F � de 92.12 en CoNLL00.

Máxima entropía

En (Skut y Brants, 1998a) se aplica el método de estimación de ME, el cual permite com-binar distintos parámetros o fuentes de conocimiento para estimar el modelo contextual.Es una aproximación estadística similar a la presentada en (Skut y Brants, 1998b). Aligual que en ese trabajo se utilizan las etiquetas estructurales, � , definidas de la forma� � � �� . Pero, mientras en la aproximación de MM la estimación de las probabilidadesdel modelo contextual considera las etiquetas como una unidad y no puede aprovecharinformación parcial, la aproximación basada en ME sí que lo permite: teniendo en cuen-ta un modelo de � -gramas ( � � �

) se define un conjunto de patrones de parámetrosextrayendo los atributos del contexto del � -grama que sean relevantes. Esto da lugar a� -gramas parciales en los que no se tienen en cuenta todos los atributos de las etiquetasestructurales. Esta aproximación mejora el rendimiento del modelo de trigramas utiliza-do en (Skut y Brants, 1998b), aunque se observa que ambos métodos ofrecen prestacionessimilares cuando crece el tamaño del conjunto de entrenamiento. Al igual que en (Skut yBrants, 1998b), sólo se evalúa para sintagmas nominales y para el corpus alemán NEGRA.

Osborne (2000) utilizó el etiquetador morfosintáctico basado en ME implementadopor Ratnaparkhi (1996) para realizar chunking. Para ello, la entrada al etiquetador se re-define como una concatenación (configuration) de diferentes contextos que son útiles parala tarea. Además, el chunking se realiza en dos pasos: primero, se aplica un modelo que seha aprendido a partir de configuraciones en las cuales intervienen solamente las palabrasy la etiqueta morfosintáctica actual. Este modelo proporciona un etiquetado de chunkinicial. El etiquetado definitivo se obtiene mediante un modelo aprendido con configu-raciones que también consideran esa etiqueta de chunk inicial. También obtienen algunasmejoras incorporando información acerca de los prefijos y sufijos de las palabras. Laaproximación de ME de Koeling (2000) construye un modelo que tiene en cuenta tantorasgos individuales como rasgos complejos mediante la combinación de etiquetas mor-fosintácticas y de chunk. Estas dos aproximaciones de ME obtienen resultados similares(F � alrededor de 92) en la tarea CoNLL00.


Reglas de transformación

En (Ramshaw y Marcus, 1995) se aplica el método TBL desarrollado por Brill (1993a) parala detección de SN básicos. Es el primer trabajo en el cual se plantea al análisis superficialcomo una técnica de etiquetado, representando la segmentación de la oración medianteel conjunto de etiquetas IOB1: una palabra se puede etiquetar como I (si pertenece a unSN), O (si está fuera de un SN) o B (si es principio de SN, siendo la palabra anterior unfinal de SN).

El conjunto de datos utilizado para la evaluación de esta aproximación se ha conver-tido en el ’estándar’ respecto al cual se evalúan los nuevos sistemas, de manera que lacomparación de prestaciones se puede realizar de forma sencilla y fiable. Estos datos sonlas siguientes secciones del corpus WSJ: secciones 15, 16, 17 y 18 para entrenamiento, ysección 20 para prueba.

Con esta aproximación se obtienen buenos resultados en la detección de SN básicos(F � alrededor del 92) incluyendo información léxica en las reglas de transformación. Elprincipal problema de esta aproximación radica en el elevado coste computacional delproceso de aprendizaje, a la hora de establecer el mejor orden de aplicación de las reglas.

Una modificación de este algoritmo de aprendizaje (Ngai y Florian, 2001) permitesolventar este problema sin mermar sus prestaciones. La modificación se basa en el man-tenimiento en memoria de las reglas generadas junto a la puntuación asignada, y enla actualización de este valor en cada iteración solamente sobre las muestras de entre-namiento afectadas por la aplicación de la regla. Este algoritmo se aplicó a tareas dechunking obteniendo un F � del 92.3, disminuyendo hasta en 100 veces el tiempo de entre-namiento.

Aprendizaje basado en ejemplos

Existen varios trabajos que utilizan la aproximación conocida como Memory-based Lear-ning (MBL), normalmente como una generalización de las técnicas de etiquetado morfo-sintáctico (Daelemans et al., 1996b) (Daelemans et al., 1996a).

Veenstra (1998) aplica MBL para la detección de sintagmas nominales básicos. Enconcreto, se utiliza el algoritmo IGTree (Daelemans et al., 1997), implementado en el pa-quete de software TiMBL11, que compacta los ejemplos en árboles y permite recuperarla información desde éstos. Los vectores de rasgos almacenan la palabra foco, dos pala-bras a la izquierda de la palabra foco y una palabra a la derecha, además de la etiquetamorfosintáctica asociada a cada una de estas palabras. La salida de este clasificador (IG-Tree1) puede corregirse aplicando un nuevo clasificador (IGTree2) cuyo modelo constade los siguientes rasgos: etiqueta morfosintáctica y etiqueta de chunk de la palabra foco,

11http://ilk.kub.nl/software.html#timbl


de dos palabras a su izquierda y de una palabra a su derecha. En (Daelemans et al., 1999),se aplica MBL para la detección de sintagmas nominales y verbales básicos. En este ca-so, se considera como contexto cinco palabras y etiquetas morfosintácticas a la izquierdade la palabra foco y tres a su derecha. En (Veenstra, 1999) se amplía el trabajo anteriorpara la detección de sintagmas preposicionales básicos. Los resultados de precisión ycobertura alcanzan valores entre el 94% y el 95%, pero éstos se obtienen partiendo deletiquetado correcto proporcionado por el WSJ, en lugar de tomar la salida proporcionadapor un etiquetador morfosintáctico, como se realiza en otras aproximaciones. El algo-ritmo IB1-IG se utiliza en (Tjong Kim Sang y Veenstra, 1999), aplicado a la detección desintagmas nominales básicos. Además, en este trabajo se estudia cómo afecta el forma-to de representación de los chunks (IOB1, IOB2, IOE1, IOE2) sobre las prestacionesdel clasificador. En este caso, la utilización de etiquetas IOB1 es la que ofrece mejoresresultados. Finalmente, Veenstra y Van den Bosch (2000) evaluaron cómo se comporta elalgoritmo de aprendizaje basado en memoria para la tarea de chunking de CoNLL00. Losmejores resultados (

� � =91.5) se obtienen utilizando el algoritmo de cálculo de distanciaIB1-IG y modificando la métrica de la distancia para el rasgo etiqueta morfosintáctica.

Argamon et al. (1998) utiliza el algoritmo Memory-Based Sequence Learning para la de-tección de sintagmas nominales básicos. En la fase de entrenamiento, en lugar de co-dificar el contexto, se almacenan todas las subcadenas o secuencias de categorías quecontienen un chunk teniendo en cuenta un contexto limitado. Para cada subcadena secontabilizan las evidencias positivas (aquéllas que contienen un delimitador de chunk) ylas negativas (la misma secuencia de categorías, pero que no contienen el delimitador dechunk o éste aparece en otra posición). Para cada oración de entrada todos los parentiza-dos son posibles y se selecciona aquél que tenga una mayor puntuación. Una secuenciade categorías que contiene un delimitador de chunk es un tile. Cada hipótesis candidatapuede verse como varios tiles conectados. La puntuación de cada hipótesis depende deuna serie de parámetros: la frecuencia de evidencias positivas frente al total de cada tile,el número de diferentes combinaciones de tiles que cubren la hipótesis, el solapamientoentre tiles, etc.

Winnow

El algoritmo Winnow modificado para su aplicación a problemas multi-clase ha sido uti-lizado en diversos trabajos. Muñoz et al. (1999) lo aplica bajo la arquitectura SNoW ala detección de sintagmas nominales básicos. En este trabajo se estudia cómo afecta so-bre las prestaciones del analizador, el tipo de representación utilizada para marcar loschunks: se obtienen mejores resultados usando los marcadores corchete abierto/cerrado(Open/Close Predictors) en lugar de las etiquetas IOB (Inside/Outside Predictors). Para elloutiliza un clasificador que propone corchetes abiertos y, un segundo clasificador, quetomando la información del primero, propone corchetes cerrados. Cada predicción se


acompaña de un valor de confianza que es utilizado por un módulo que las combinapara obtener un parentizado consistente. Los rasgos considerados son conjunciones depalabras (con unas ventanas de contexto de tamaños 1 y 2, a izquierda y derecha de lapalabra foco) o de etiquetas morfosintácticas (con contextos entre 1 y 4, a izquierda y de-recha a la palabra foco). La incorporación de la información morfosintáctica mejora en 2puntos los resultados en la segmentación de sintagmas nominales básicos (F �� mejorade 90.6 a 92.8).

Posteriormente se generalizó esta técnica aplicándose a la tarea de chunking (Li y Roth,2001). En este caso, el sistema consiste en un conjunto de clasificadores (uno para cada ti-po de chunk). La salida de todos los clasificadores se combina de manera que se satisfaganalgunas restricciones previamente establecidas, como por ejemplo la restricción de no so-lapamiento, haciendo uso de los valores de confianza proporcionados para cada etiquetade chunk. Li y Roth (2001) utiliza los mismos rasgos definidos en Muñoz et al. (1999)obteniendo unas prestaciones alrededor del 93 de F � para los datos de CoNLL00. Unode los problemas que presenta el algoritmo Winnow es que no garantiza la convergenciacuando maneja datos que son linealmente dependientes. Zhang et al. (2001) presenta unamodificación del algoritmo (regularized Winnow) que resuelve este problema, obteniendolas mejores prestaciones sobre los datos de la tarea de chunking de CoNLL00 (F �� =93.51).Zhang también incorpora información lingüística adicional, relativa al tipo de chunk, con-siguiendo una mejora significativa de los resultados (F �� =94.13). Esta información vieneproporcionada por la salida de un analizador sintáctico basado en reglas, de manera que,en este caso, el método de aprendizaje transforma o corrige la salida del analizador.

Sistemas basados en reglas

En este apartado se hace referencia a una serie de trabajos que tratan de aprender o refinaruna gramática, a partir de los datos contenidos en un corpus etiquetado.

La aproximación descrita en (Cardie y Pierce, 1998) identifica sintagmas nominalesbásicos aplicando las reglas gramaticales extraídas del corpus anotado con estos sintag-mas. En primer lugar se obtiene, directamente desde el corpus de entrenamiento, unagramática inicial para SN. El método de análisis es sencillo: se emparejan secuencias deetiquetas morfosintácticas con las reglas gramaticales; si puede aplicarse más de una re-gla se escoge aquélla que cubra un número mayor de etiquetas morfosintácticas (longestmatching). Para mejorar las prestaciones de la gramática, se utiliza un método de podade reglas eliminando aquéllas cuya precisión esté por debajo de un determinado umbral.En esta aproximación solamente se tiene en cuenta la información proporcionada por laetiqueta morfosintáctica.

Osborne (1999) implementa un método inductivo, basado en el principio de longitudde descripción máxima, para aumentar la cobertura de una gramática de cláusulas definidas


probabilística que identifica sintagmas nominales complejos, partiendo de un conjuntoinicial de reglas escritas a mano.

El sistema ALLiS (Déjean, 2000) se basa en el refinamiento de teorías (refinement theory).Aplica un método de corrección y mejora sobre una gramática previamente aprendidautilizando los operadores de lexicalización y contextualización. Este método solamente tie-ne en cuenta un determinado contexto si el valor de confianza para una cierta etiquetamorfosintáctica esta bajo un cierto umbral. Calcula el ratio entre el número de ocurren-cias de la etiqueta morfosintáctica en un determinado chunk y el número de ocurrenciasde dicha etiqueta en el corpus de entrenamiento. Si el ratio es mayor que cierto umbral,entonces asigna la correspondiente etiqueta de chunk. Si no, tiene en cuenta el contex-to a la izquierda y a la derecha de dicha etiqueta (contextualization) y la palabra actual(lexicalización).

El sistema presentado por (Johansson, 2000) utiliza reglas incontextuales y sensiblesal contexto para transformar secuencias de etiquetas morfosintácticas en chunks. El sis-tema toma la etiqueta de chunk más probable para un contexto dado, asumiendo que elcontexto más largo (si ha sido visto en el conjunto de entrenamiento) sustituye la etique-ta de chunk propuesta por un contexto menor. Como contexto se considera la etiquetamorfosintáctica actual y etiquetas tanto a la derecha como a la izquierda.

Aprendizaje basado en soporte vectorial

Kudo y Matsumoto (2000) combinan varios clasificadores binarios basados en SVM. Ca-da clasificador pueden determinar si una instancia pertenece a una clase o no. El análisissuperficial es una tarea multi-clase y para resolverla se utiliza la técnica de clasificaciónpairwise. Ésta consiste en entrenar un clasificador para cada par de etiquetas de chunkdiferentes (para

�chunks se deben aprender

� � � � � � �clasificadores; en el caso de

la tarea de chunking de CoNLL00 el número de clasificadores necesario fue de 231). Elresultado de cada uno de los clasificadores se combina mediante un algoritmo de progra-mación dinámica. Posteriormente, Kudo y Matsumoto (2001) mejoraron los resultadossobre el mismo conjunto de datos mediante combinación basada en votación ponderada(F � =93.91).

Métodos híbridos

Algunos trabajos combinan la aproximación lingüística con los métodos de aprendizajeautomático. En (Voutilainen y Padró, 1997), se combina un modelo de � -gramas con unconjunto de restricciones sintácticas contextuales para la detección de sintagmas nomi-nales. Se utiliza el método de Relajación: dado un conjunto de etiquetas, de variables yde restricciones obtiene la combinación de etiquetas asociadas a cada variable que ma-


ximiza el valor de ‘consistencia global’. Las restricciones que intervienen en el modeloson bigramas, trigramas y restricciones lingüísticas definidas manualmente. En (Chen yChen, 1995) se construye un sistema que extrae algunos tipos de sintagmas nominalesrecursivos. Inicialmente, segmenta el texto en sintagmas nominales básicos utilizandoun analizador probabilístico basado en bigramas. Posteriormente, conecta los segmentosmediante un gramática regular definida manualmente.

Sistemas combinados

Bajo esta aproximación se agrupan aquellos sistemas que utilizan alguna técnica paracombinar el resultado proporcionado por distintos analizadores. Esta técnica se apli-có inicialmente en sistemas de etiquetado morfosintáctico (Van Halteren et al., 1998), ypuede aplicarse de forma similar a cualquier otra tarea de etiquetado como puede ser elchunking.

Tjong Kim Sang (2000a) combina el resultado de cinco clasificadores que, basados enel algoritmo de MBL, identifican sintagmas nominales básicos. Cada uno de ellos tra-baja sobre un tipo de representación de chunks diferente (IOB1, IOB2, IOE1, IOE2,

O+C). Los resultados obtenidos mejoran las prestaciones en comparación con cada eti-quetador individual, aunque la forma de asignación de los pesos no influye de formasignificativa.

Tjong Kim Sang et al. (2000) aplica esta misma aproximación utilizando analizado-res parciales basados en distintos paradigmas y para diferentes chunks (Tjong Kim Sang,2000b): en este caso, el sistema realiza la tarea de análisis en dos pasos: primero, identifi-ca los límites de chunk y luego, asigna la etiqueta de chunk. En el primer paso consideracomo rasgos las etiquetas morfosintácticas y las palabras y, en el segundo, se añade elcontexto del chunk proporcionado en el primer paso. Tjong Kim Sang (2002) tambiéncombina la salida de varios analizadores que se ejecutan en cascada, y que permiten ladetección de sintagmas nominales complejos e, incluso, el análisis sintáctico completo.

Van Halteren (2000) utiliza una técnica de combinación más sofisticada llamada Weig-hted Probability Distribution Voting. Se combinan 5 analizadores estableciendo diferentespesos para cada uno de ellos. Ya que la salida puede producir algunos errores sistemáti-cos, éstos se corrigen utilizando un modelo basado en la misma técnica de combinaciónpara cada tipo de error.

A modo de resumen en la tabla 5.4 se clasifican las distintas aproximaciones según elmétodo de aprendizaje utilizado y el nivel de análisis que llevan a cabo.

5.5. MME para la tarea de análisis superficial 115

Método Detección de SNs Análisis Superficial Análisis Parcial

MM (church88) (pla2000c) (zhou00) (skut98b) (brants99)ME (osborne00) (koe-

ling00)(skut98b)

TBL (ramshaw95) (ngai01)MBL (veenstra98) (arga-

mon98) (sang99)(daelemans99) (veens-tra00)

SVM (kudo2001) (kudo00) (kudo2001)Winnow (munoz99) (li2001) (zhang01)

(zhang02)Reglas (cardie98) (dejean00) (johans-

son00)(osborne99)

Combinados (sang00a) (sang00b) (vanhalteren00)(sang00c)

(sang02)

Híbridos (voutilainen97) (chen95)

Tabla 5.4: Resumen de las distintas aproximaciones al análisis sintáctico superficial y parcial.

5.5 MME para la tarea de análisis superficial

En este apartado se presenta la experimentación realizada para determinar cuál es elMME que ofrece mejores prestaciones en la tarea de chunking. Se han utilizado los datosde aprendizaje y de prueba que fueron proporcionados por la tarea compartida CoNLL00descrita en el apartado 5.3.5. La información disponible en el conjunto de datos de entre-namiento es la siguiente:

Rasgos de entrada �� , donde:

� �� palabras o unidades léxicas que forman las oraciones de entrada � . En losdatos de entrenamiento utilizados aparecen 19,122 palabras distintas.

� �� etiquetas morfosintácticas asociadas a las palabras de entrada propor-

cionadas por el etiquetador de Brill � . Estas 44 etiquetas son las utilizadas en elproyecto Penn Treebank y están descritas en el apéndice A.

Etiquetas de salida:

��

etiquetas de chunk asociadas a las palabras de entrada � . Se correspondencon los 11 tipos de chunk que se han descrito en el apartado 5.3.5. Estas etiquetasestán definidas siguiendo la notación IOB2, a cada chunk X le corresponden un parde etiquetas I-X y B-X, por lo que en total hay 22 etiquetas diferentes.


� ��

� � ��

� / �� / �� / � ��

You PRP B-NP PRP PRP � B-NPwill MD B-VP MD MD � B-VPstart VB I-VP VB VB � I-VPto TO I-VP TO TO � I-VPsee VB I-VP VB VB � I-VPshows NNS B-NP NNS NNS � B-NPwhere WRB B-ADVP where �WRB where �WRB � B-ADVPviewers NNS B-NP NNS NNS � B-NPprogram VBP B-VP VBP VBP � B-VPthe DT B-NP DT DT � B-NPprogram NN I-NP NN NN � I-NP. . O . . �O

Figura 5.6: Ejemplo del resultado de aplicar la función�

sobre una muestra del corpus de entre-namiento.

La experimentación se centra en la determinación de forma experimental de los me-jores criterios de selección y de especialización para construir el modelo. En la figura 5.6 semuestra un ejemplo de cómo se redefiniría una oración del conjunto de entrenamientoa partir de los criterios de selección �� y �� , y los criterios deespecialización �� y �� .

Los resultados experimentales se van a detallar de la siguiente manera: 1) se pre-sentan los resultados para criterios de selección y especialización total tanto para bigramascomo para trigramas; 2) se definen los criterios de selección y especialización parcial sobre elrasgo �� ; 3) se determina el umbral en aquellos criterios en los que ha sido necesario; 4)la estrategia de aprendizaje definida en el algoritmo 2 se aplica sobre uno de los criteriosdefinidos (WHF).

En esta tarea no se proporcionó un conjunto de datos de desarrollo, por lo que paraajustar el modelo se dividió el conjunto de aprendizaje original (secciones 15 a 18 delWSJ) en dos partes: un 90% como conjunto de entrenamiento y un 10% como conjuntode desarrollo. Esto se hizo tomando nueve oraciones consecutivas del conjunto originalpara entrenamiento y la décima oración para el conjunto de desarrollo.


Bigramas Especialización ( �� )Selección ( �� )

� �� / � � �� / � �

�� 83.42 88.53 82.81 82.99�� / 83.86 88.65 —- —-

�� / 85.94 89.31 85.20 85.36

Tabla 5.5: Factor F�� sobre el conjunto de desarrollo para la tarea de chunking combinando dis-

tintos criterios de selección y de especialización total utilizando MM de primer orden.

Trigramas Especialización ( �� )Selección ( �� )

� �� / � � �� / � �

�� 83.78 89.33 83.09 83.00�� / 84.34 90.20 —- —-

�� / 86.18 90.28 85.53 85.47

Tabla 5.6: Factor F�� sobre el conjunto de desarrollo para la tarea de chunking combinando dis-

tintos criterios de selección y de especialización total utilizando MM de segundo orden.

Criterios de selección y especialización total

En las tablas 5.5 y 5.6 se presentan los resultados obtenidos mediante la selección y laespecialización total de los distintos rasgos de entrada, es decir, �� y�� , utilizando modelos de primer y de segundo orden. Sobre estosresultados cabe comentar:

� No se ofrecen resultados de aquellos criterios en los cuales se especializa con in-formación que no se ha tenido en cuenta en el criterio de selección. Por ejemplo,� �� y

�� indicaría que se especializan las etiquetas de salida coninformación ( �� ) que no se tiene en cuenta en la entrada al sistema.

� Los modelos de segundo orden ofrecen mejores prestaciones que los modelos deprimer orden, si bien en algunos casos las diferencias no son significativas. Se ob-serva que conforme aumenta el número de etiquetas las diferencias entre los mo-delos de primer y segundo orden disminuyen. Esto se debe a que el conjunto deentrenamiento, en estos casos, no es suficiente para hacer una estimación fiable delos parámetros de los modelos de segundo orden.

� En cuanto al criterio de selección, si se consideran los rasgos de forma individual, elmás relevante es la etiqueta �� . La selección de �� y �� mejora claramentelos resultados para cualquier tipo de especialización.

� El rasgo �� es el más importante como criterio de especialización. Cuando se aña-de �� las prestaciones disminuyen considerablemente. Como se presentará a


continuación, una especialización parcial sobre �� sí que puede mejorar las pres-taciones.

Criterios de selección y especialización parcial

Una vez fijado el rasgo que aporta más información como criterio de selección y especiali-zación total ( � �� ), se incorporan el resto de rasgos. La especialización parcial utilizando elrasgo � �� no ofrece mejoras sobre la total, es decir, todas la etiquetas morfosintácticasson relevantes para la tarea. Se han definido los siguientes criterios sobre el rasgo ��que se consideran bastante generales e independientes del corpus.

WCC: Palabras que pertenecen a categorías morfosintácticas cerradas ({CC, DT, EX,

IN, MD, POS, PDT, PP$ PRP, RP, TO, WDT, WP, WP$, WRB}). La ma-yoría de estas palabras aparecerán frecuentemente en cualquier corpus.

WHF: Palabras cuya frecuencia de aparición en el corpus de entrenamiento sea superior aun cierto umbral. Para determinar qué umbral maximiza las prestaciones del mo-delo, este se ajustó en función de los resultados obtenidos sobre la partición de de-sarrollo. La figuras 5.7 y 5.8 muestran la evolución del factor F � al incorporar ��como criterio de selección y especialización, respectivamente. Aunque este criteriopueda considerarse, en un principio, muy dependiente del corpus, si se observanestas palabras (apéndice B) la mayoría corresponden a palabras pertenecientes acategorías cerradas y a nombres, adjetivos y verbos de propósito general. Para estecriterio se ha aplicado completamente la estrategia de búsqueda (BA) para especia-lizar el modelo con aquellas palabras que aportan una mejora en los resultados.

WTE: Palabras difíciles de etiquetar, es decir, aquellas cuyo número de errores en la asig-nación de la etiqueta de chunk supera un cierto umbral. Estas palabras fueron ex-traídas a partir del etiquetado del conjunto de desarrollo utilizando el modelo quemejores prestaciones ofrecía utilizando selección y especialización total (

� �� ,�� ). Las mejores prestaciones se obtienen para aquellas cuyo número deerrores es superior a 2 sobre el conjunto de desarrollo.

WCH: Con este criterio se seleccionan palabras que pertenecen a chunks entre los que sue-len producirse bastantes casos de ambigüedad. Los mejores resultados se obtienenseleccionando las palabras pertenecientes a los chunks SBAR, PP y las palabras másfrecuentes pertenecientes al chunk VP .

En primer lugar estudiaremos el efecto sobre las prestaciones del analizador cuandose realiza una selección parcial sobre el rasgo �� ordenado según el criterio WHF. Lafigura 5.7 muestra la evolución del factor

� � sobre el conjunto de datos de desarrollo en


89

89.5

90

90.5

91

91.5

92

92.5

93

0 50 100 150 200 250 300

Fβ=

1

Umbral de frecuencia en el conjunto de entrenamiento (Fr)

trigramabigrama

Figura 5.7: Evolución del factor F�

sobre el conjunto de desarrollo, variando el conjunto de pala-bras seleccionadas �� en función de la frecuencia de aparición en el conjunto de entrenamien-to, para los criterios �� / y �� / � � .

función del umbral que deben superar las frecuencias de aparición de las palabras queforman �� en el corpus de entrenamiento. El umbral � equivale a considerar todaslas palabras como relevantes ( �� ). Se observa que las prestaciones de los mo-delos de primer y segundo orden mejoran cuando se seleccionan determinadas palabrasdel conjunto de entrenamiento. Para el modelo de trigramas el mejor resultado se obtieneseleccionando aquellas palabras cuya frecuencia es superior a 23, lo que supone un totalde 945 palabras, y

� � = 92.36. Se observa también que no todas las palabras aportan in-formación al modelo, ya que si se consideran palabras de baja frecuencia las prestacionesde éste disminuyen.

El estudio de la especialización parcial se realiza según los criterios definidos ante-riormente. Los resultados para el criterio WHF se resumen en la tabla 5.7. La espe-cialización parcial se ha combinando con diversos criterios de selección: (1) tomandoel criterio de selección total ( �� ), (2) tomando el mejor criterio de selec-ción parcial (� � ��

) determinado en el experimento anterior, (3) seconsidera como criterio de selección solamente aquellas palabras con que se especializa( �� ) y (BA) se aplica la búsqueda dirigida por el error al criterio de espe-cialización. Las mejores prestaciones se obtienen aplicando la búsqueda a partir de losmejores criterios de selección ( �� ) y de especializaciónparcial (� � �� ).


86

87

88

89

90

91

92

93

0 50 100 150 200 250 300 350 400

Fβ=

1

Umbral de frecuencia en el conjunto de entrenamiento (Fr)

PALS=PALEPALS=PAL

PALS Fr=23


sobre el conjunto de desarrollo, variando el conjunto �� en función de la frecuencia de aparición de las palabras en el conjunto de entrenamiento, para loscriterios �� / y �� / � � .

�� F��

(1) �� 16,725 16,900 85.47(0 317 90.28

� � �� 1�� 150 1,020 90.85(2) � � �� 1�� 945 3,719 91.26(

0 317 92.36� �� 1�� &�& 88 769 92.69

(3) �� 1�� & � 175 1,153 92.08(BA) � � �� 1�� &�& 41 561 93.17

Tabla 5.7: Factor F�

sobre el conjunto de desarrollo para los criterios �� / y �� / � � , variando los conjuntos �� y �� .


�� precisión cobertura F�� (

92.44% 92.28% 92.36 317 0WCC 92.54% 92.51% 92.52 830 154WHF 92.61% 92.76% 92.69 769 88WTE 92.71% 92.64% 92.67 592 38WCH 92.23% 92.67% 92.45 1,305 217WHF-BA 93.19% 93.16% 93.17 561 41

Tabla 5.8: Resultados de chunking sobre el conjunto de desarrollo para el mejor criterio de selec-ción ( �� / ) y variando el criterio de especialización ( �� / � � ) utilizandomodelos de segundo orden.

�� F� � � �

total �� 83.78

�� 83.09 -0.8%�� / �

84.34 0.7%�� / �

� / � � 90.20 7.7%parcial �� / �

� / � � 92.36 10.2%�� / �� / � � 93.17 11.2%

Tabla 5.9: Incremento relativo de F�

para los distintos criterios de selección y de especializacióndefinidos para modelos de segundo orden y guiados por la estrategia de búsqueda.

En la gráfica 5.8 se muestra la evolución de las prestaciones del modelo según varíala frecuencia de las palabras especializadas y variando el criterio de selección.

Los resultados de este proceso de ajuste sobre el conjunto de desarrollo medido entérminos de precisión, cobertura y

� � se muestra en la tabla 5.8. Además, se muestrala talla del conjunto de etiquetas de salida ( � �� ) y la talla del conjunto de palabras es-pecializadas ( � �� ). Aunque cada criterio de especialización considera un conjunto depalabras distinto para especializar el modelo (con un número de palabras que varía entre38 y 217), los criterios WHF y WTE consiguen resultados similares, mientras que los cri-terios WCC y WCH ofrece unas prestaciones ligeramente inferiores. Todos ellos mejoranlas prestaciones del modelo en el cual no se consideran las palabras como criterio de es-pecialización ( �� ). La aplicación completa de la estrategia de búsqueda completaBA permite incrementar las prestaciones del modelo respecto al criterio WHF.

La estrategia de aprendizaje definida en el algoritmo 2 sigue el orden indicado en latabla 5.9, donde se muestran los incrementos relativos de los distintos modelos especia-lizados, respecto al modelo básico (

� �� ,��

). Una vez fijado como rasgo deselección y especialización total � �� , se lleva a cabo, primero la selección parcial sobre�� y posteriormente la especialización parcial. La mejora ofrecida por el mejor modelo


�� precisión cobertura F�� (

91.91% 92.05% 91.98 319 0WCC 92.02% 92.47% 92.24 845 154WHF 92.09% 92.46% 92.27 769 88WTE 92.25% 92.52% 92.38 598 38WCH 91.90% 92.50% 92.20 1,305 217WHF-BA 92.39% 92.66% 92.53 565 41

Tabla 5.10: Resultados de chunking sobre el conjunto de prueba para el mejor criterio de selección( �� / ) y variando el criterio de especialización ( �� / � � ).

especializado es del 11.2% respecto al modelo básico. De esta mejora, el 7.7% se debe a lainclusión de las etiquetas morfosintácticas en los criterios de selección y especialización,el resto (3.5%) se debe a la incorporación de las palabras en el modelo.

Resultados sobre un conjunto de datos no visto

Para llevar a cabo una evaluación fiable de las prestaciones del modelo, ésta debe rea-lizarse sobre datos de prueba no vistos, es decir, que no formen parte del conjunto deentrenamiento, o del proceso de ajuste de parámetros del modelo. Como conjunto deprueba se ha tomado la sección 20 del corpus WSJ como se proporcionó en la tarea com-partida de CoNL2000. El modelo se ha entrenado con los mejores criterios de selección yespecialización obtenidos en el proceso de ajuste descrito anteriormente sobre el total dedatos de entrenamiento (secciones 15 a 18 del corpus WSJ). La tabla 5.10 muestra que elsistema tiene un comportamiento similar en el conjunto de prueba. Los mejores resulta-dos se obtienen también utilizando el criterio WHF-BA, lo que sugiere que un modeloque incluya estos parámetros de especialización podría ser aplicado con éxito a otrasoraciones no vistas.

Los resultados de precisión, cobertura y factor F � para cada uno de los chunks consi-derados para el mejor criterio se resumen en la tabla 5.11. El factor F � se mejora para cadachunk respecto a los criterios < �� > y < �� >. La figura 5.9 muestra el deta-lle de estas mejoras para cada tipo de chunk. El incremento más destacado se produce enlos chunks SBAR y PRT (ver tabla 5.12). Esto se debe a que la mayoría de las palabras in-cluidas en el modelo ( �� y �� ) pertenecen a estas categorías sintácticas (apéndiceB).

En este proceso de aprendizaje se busca el modelo especializado que mejore resultadomedio ofrezca para la detección de todos los tipos de chunk. Sin embargo, es posible en-contrar modelos que, aunque sus prestaciones globales sean menores, se adapten mejor aun determinado tipo de chunk. En la tabla 5.13 se indican cuáles son estos modelos y la di-


chunk precisión cobertura F��

ADJP 74.15% 69.41% 71.70ADVP 78.22% 79.21% 78.71CONJP 33.33% 44.44% 38.10INTJ 33.33% 50.00% 40.00NP 92.94% 93.25% 93.09PP 96.27% 96.99% 96.62PRT 71.05% 76.42% 73.64SBAR 85.88% 81.87% 83.83VP 92.58% 93.15% 92.86todos 92.39% 92.66% 92.53

Tabla 5.11: Resultados de chunking para cada tipo de chunk sobre el conjunto de prueba (sección20 del WSJ) utilizando el criterio WHF-BA.

Figura 5.9: Incremento en valor absoluto del factor F�

para ciertos chunks sobre el conjunto deprueba utilizando MME.


chunk < �� / � �

> < �� / �

�� / � � >

ADJP 18.7% 28.2%ADVP 5.7% 13.2%NP 6.4% 8.1%PP 4.0% 9.3%PRT 9.3% 144.3%SBAR 297.3% 631.5%VP 6.9% 8.4%todos 6.2% 9.7%

Tabla 5.12: Incremento relativo sobre el factor F�

para cada tipo de chunk sobre el conjunto deprueba (sección 20 del WSJ).

Chunk �� F� �

ADJP �� / �� / � � Fr(p )>23 BA 72.17 0%ADVP �� / �� / � � Fr(p )>23 Fr(p )>150 81.87 1.3%NP �� / �� / � � Fr(p )>23 BA 93.98 0%PP �� / �� / � � �� Fr(p )>150 97.14 0.5%PRT �� / �� Fr(p )>15 85.15 10.3%SBAR �� Fr(p )>70 84.15 7.3%VP �� / �� / � � Fr(p )>23 BA 93.71 0%

Tabla 5.13: Mejores modelos para cada tipo de chunk según el resultado sobre el conjunto dedesarrollo y diferencia respecto al criterio WHF-BA.


Combinación (1) Combinación (2)Votación P C F

�P C F

�Mayoría Simple 92.46% 92.80% 92.63 92.65% 93.05% 92.85Precisión Total 92.48% 92.80% 92.64 92.65% 93.05% 92.85Precisión por Etiq. 92.46% 92.80% 92.63 92.61% 93.10% 92.85Prec-Cob por Etiq. 92.44% 92.78% 92.61 92.58% 93.05% 92.82Pairwise 92.26% 92.84% 92.55 92.51% 93.07% 92.79Mayoría Frec. 92.47% 92.79% 92.63 92.86% 93.08% 92.97

Tabla 5.14: Resultados de la combinación de distintos modelos mediante métodos basados envotación.

ferencia respecto al resultado ofrecido por el modelo que se comporta mejor globalmente(BA). Se puede observar que en algunos chunks como PRT y SBAR se obtienen mejorassignificativas. Esto indica que podría realizarse una especialización más específica paraalgunos chunks y que quizás podrían mejorarse los resultados de dos maneras:

� Realizando un proceso de análisis en cascada, de manera que en cada nivel se apli-cara el mejor modelo para un determinado chunk.

� Utilizando algún método de combinación de clasificadores que tome como entradalas salidas proporcionadas por el mejor modelo para cada chunk.

Combinación de clasificadores

Se han evaluado los métodos combinados basados en votación presentados en el aparta-do 1.112. Se han hecho dos experimentos: (1) la combinación de los modelos especializa-dos para los distintos criterios comparados en la sección 5.5 (WCC, WHF, WTE, WCH yWHF-BA) y, (2), la combinación de los mejores modelos para cada tipo de chunk presen-tados en la tabla 5.13.

Los resultados de todos los tipos de combinación mejoran las prestaciones del mejoranalizador (BA, F � =92.53), como puede verse en la tabla 5.14. Los mejores resultados seobtienen mediante la combinación (2), posiblemente porque las diferencias de etiquetadoentre los distintos modelos son mayores que en la combinación (1). El método que ofrecemejores prestaciones es Mayoría Frec., que se diferencia del método de Mayoría Simple enque mientras éste último, en caso de empate, escoge la etiqueta proporcionada por eletiquetador más preciso sobre los datos de desarrollo, el primero toma la etiqueta másfrecuente en el corpus de entrenamiento.

12Para ello se ha utilizado el paquete desarrollado por Erik Tjong Kim Sang disponible en http://lcg-

www.uia.ac.be/~erikt/npcombi/


90

90.5

91

91.5

92

92.5

93

93.5

94

100 200 300 400 500 600 700 800 900 1000

Fbe

ta

# PALABRAS x 1,000

Fbeta


sobre el conjunto de prueba (sección 20 del WSJ), utilizandoconjuntos de entrenamiento de diferente talla.

Evaluación para un conjunto de entrenamiento mayor

Debido a que el número de parámetros del modelo que debe estimarse aumenta, los mo-delos especializados se estimarían mejor cuanto mayor sea el conjunto de entrenamiento.Para confirmar esto, se ha realizado una serie de experimentos en los cuales se va incre-mentando el tamaño del conjunto de entrenamiento. El conjunto de entrenamiento estáformado por las secciones de la 0 a la 19 del corpus WSJ y el conjunto de prueba por lasección 20. Como criterios de selección y de especialización se escogen los mejores criteriosaprendidos para el conjunto de entrenamiento formado por las secciones 15 a 18 del WSJ,según lo descrito en el apartado anterior. Es decir,

� �� ,�� ,

con �� palabras con frecuencia mayor que 23 en el conjunto de entrenamiento � y�� palabras del criterio WHF-BA � .

La figura 5.10 muestra que el factor F � mejora conforme aumenta el tamaño del con-junto de entrenamiento, alcanzando el valor 93.25 con un conjunto de entrenamientoformado por 950,000 palabras y 1,960 etiquetas de salida. La tabla 5.15 se detallan los re-sultados para cada tipo de chunk. Aunque el incremento global en el factor F � es sólo del1%, se mejoran las prestaciones para todos los chunks, especialmente para aquellos en losque suelen aparecer las palabras escogidas para especializar el modelo (un incrementodel 6.4% para PRT y del 5.4% para SBAR).

En este punto cabría realizar una experimentación más exhaustiva, realizando unnueva estimación de los criterios de selección y especialización a partir del conjunto deentrenamiento grande.

5.6. Comparación con otras aproximaciones 127

chunk precisión cobertura F��

ADJP 78.54% 71.00% 74.58 4.0ADVP 81.85% 79.68% 80.75 2.6CONJP 40.00% 66.67% 50.00 31.2INTJ 50.00% 50.00% 50.00 25.0NP 93.52% 93.43% 93.48 0.4PP 96.77% 97.73% 97.25 0.7PRT 75.00% 82.08% 78.38 6.4SBAR 88.70% 88.04% 88.37 5.4VP 93.33% 93.73% 93.53 0.7Todos 93.25% 93.24% 93.25 0.8

Tabla 5.15: Resultados de chunking sobre el conjunto de prueba utilizando el conjunto de entre-namiento grande (secciones 00 a 19 del WSJ) e incremento respecto al conjunto de entrenamientopequeño.

5.6 Comparación con otras aproximaciones

En este apartado se realiza una comparativa con aquellos sistemas de chunking que utili-zan técnicas de aprendizaje y que han presentado resultados para los conjuntos de datosdefinidos en la tarea compartida de CoNLL00. La comparativa se centra principalmenteen la cantidad y el tipo de información utilizada por cada método y en los resultados pro-porcionados medidos en términos de F � . No se ha realizado una comparativa en cuantoa la eficiencia puesto que este dato no suele aparecer en los trabajos estudiados.

En la tabla 5.16 se han resumido los parámetros o rasgos que cada aproximación tie-ne en cuenta y el factor F � publicado en la edición de la tarea compartida celebrada enCoNLL00 o en trabajos posteriores. La tabla indica si un modelo utiliza alguno de los si-guientes rasgos: la palabra actual ( � ), la etiqueta morfosintáctica actual (� ), las palabras ala izquierda ( � � � ) y a la derecha( � � � � ), las etiquetas morfosintácticas a la izquierda (� �� )y a la derecha (� � � � ) y la etiqueta de chunk a la izquierda (

� � � ). Algunos sistemas utili-zan información adicional: Osborne (2000) considera prefijos y sufijos de las palabras yel chunk actual; Koeling (2000) incorpora rasgos complejos mediante la concatenación derasgos individuales; Zhou et al. (2000) incluye relaciones estructurales entre palabras ydescriptores de la categoría sintáctica; Tjong Kim Sang (2000b) también considera contex-tos formados por dos etiquetas de chunk a la izquierda y a la derecha; Zhang et al. (2001)incorpora rasgos de segundo orden formados por pares de rasgos.

Como se deduce de la tabla 5.16 los sistemas combinados proporcionan mejores pres-taciones en cuanto a factor F � que los sistemas individuales. Hay 6 sistemas que están enuna franja entre 91.5 y 92.5. El resultado de los MME (92.53) es superior al del resto declasificadores individuales y similar a alguno de los métodos combinados.


Sistema Método � � �� (Zhang01) Winnow x 2 2 x 2 2 2 94.13(Kudo01) SVM(Comb) x 2 2 x 2 2 2 93.91(Halteren00) WPDV(Comb) x 1-5 1-5 x 3-5 3 2 93.32(Lee01) Winnow x 3 3 x 3 3 93.02MME MM x 2 x 2 2 92.53(sang00) MBL(Comb) x 4 4 x 4 4 92.50(Zhou00) MM + MBL x 1 x 1 1 92.12(Dejean00) Reglas x x 1 1 92.09(Koeling00) ME x 1 1 x 3 2 3 91.97(Osborne00) ME x 2 2 x 2 2 2 91.94(Veenstra00) MBL x 5 3 x 5 3 91.54(Pla00) MM x 1 x 1 1 90.14(Johansson00) Reglas x 0-3 0-3 87.23

Tabla 5.16: Factor� �

obtenido por diferentes sistemas de análisis superficial y una comparaciónde la información considerada por cada uno de ellos en el proceso de aprendizaje.

Respecto a la información que manejan los distintos clasificadores, aquellos que ofre-cen mejores prestaciones son los que son capaces de manejar más cantidad de informa-ción. Los MME no codifican tanta información durante el proceso de entrenamiento (sólomanejan información a la izquierda del token actual, limitada a una (bigramas) o dos (tri-gramas) posiciones). Sin embargo, por las características del proceso de análisis podríaconsiderarse que se tiene en cuenta información de la frase completa. Dicho proceso deanálisis, que se realiza mediante el algoritmo de programación dinámica de Viterbi, obtie-ne la segmentación de la oración de mayor probabilidad y este proceso de maximizaciónse realiza sobre toda la frase.

Dos de estas aproximaciones presentan similitudes con la aproximación de MME: laaproximación de ME de Osborne (2000) y la de MM de Zhou et al. (2000). Ambas sonaproximaciones estadísticas que, al igual que los MME, definen etiquetas estructuradas oconcatenaciones como vocabulario de entrada. Sin embargo, consiguen resultados peoresa pesar de codificar más información. Además, ambas necesitan llevar a cabo varios ni-veles de análisis que permiten corregir los errores producidos en el etiquetado propuestopor el primer nivel.

5.7. Una aproximación basada en conocimiento 129

In

1i

n

(Nivel 1)

Conjunto Ordenado

de Patrones

In−1i−1IReconocedor(Nivel n)

Niveles de Análisis

Reconocedor(Nivel i)

Oración

Morfológico

Etiquetador

OraciónParentizada

IiIReconocedor 1

AFDAFD

AFD

OraciónEtiquetada

I0

Compilador

de e.r.

Figura 5.11: Esquema del analizador sintáctico parcial APOLN.

5.7 Una aproximación basada en conocimiento

En el marco de esta tesis se ha desarrollado un analizador parcial de oraciones en lengua-je natural (APOLN) para el castellano basado en conocimiento. Este analizador permiteel análisis sintáctico de oraciones en lenguaje natural escrito no restringido. Está cons-truido utilizando técnicas de máquinas de estados finitos en una arquitectura similar ala propuesta por S. Abney, y que se describe en el apartado 5.4.1. Es un analizador in-cremental, es decir, su funcionamiento es una secuencia de pasos o niveles de análisis,en los que la entrada de un nivel es la salida del nivel inmediatamente anterior. En cadauno de los niveles se reconoce una estructura o constituyente sintáctico. Cada constitu-yente se define mediante un patrón o expresión regular (e.r.). La entrada al analizador esuna oración en castellano previamente etiquetada morfológicamente, según el conjuntode categorías morfológicas Parole (Martí et al., 1998). La salida consiste en la oración pa-rentizada en la que se agrupan las secuencias de categorías morfosintácticas reconocidaspor un determinado patrón sintáctico.

El esquema de APOLN se muestra en la figura 5.11. El analizador recibe como entradala oración en lenguaje natural y un conjunto de patrones sintácticos ordenados en nivelesde análisis. El proceso de análisis es el siguiente:

� El conjunto de patrones se compila en un conjunto de Autómatas Finitos Determi-nistas (AFD). Se genera un AFD para cada nivel de análisis. Esta transformación serealiza siguiendo el algoritmo descrito en (Aho et al., 1990) y que se presentará enel apartado 5.7.2.

� La oración (�

� ) está previamente etiquetada con la categoría morfosintáctica.


Si r y s son dos e.r.Concatenación: r sClausura: r*Clausura positiva: r+Unión: r|sCero o un caso: r?

Nivel�

p � -> r �p -> r ...p � -> r �

Figura 5.12: Esquema de definición de niveles.

� El procedimiento Reconocedor de patrones para un nivel de análisis�

recibe como en-trada la oración parentizada en el nivel anterior (

� �� ) y el autómata reconocedorde ese nivel (AFD ). La salida será la oración (

� ) en la cual se parentizan las secuen-cias de símbolos (etiquetas morfosintácticas y patrones) que concuerdan con algúnpatrón del nivel

�.

5.7.1 Formato de los patrones sintácticos

Los patrones representan las estructuras sintácticas que se quieren reconocer sobre la ora-ción de entrada. Los patrones se definen en base a un alfabeto de símbolos. Los símbolospermitidos para definir un patrón en un nivel

�son: las categorías morfosintácticas y los

patrones definidos en un nivel previo. De esta forma la definición de patrones es no recur-siva, es decir, en la definición de un nivel no pueden utilizarse patrones que se definan enel mismo nivel o en niveles superiores. Esto permite el análisis incremental por niveles.

La notación utilizada es la misma que se utiliza en (Aho et al., 1990). Los operadoresimplementados son la concatenación, la clausura de Kleene (*), la clausura positiva (+), launión (|) y el operador uno o ningún caso (?), además del uso de paréntesis. La sintaxisde definición de cada nivel se muestra en la figura 5.12. En cada nivel

�pueden definirse

� patrones (p � ,� � � � � ). p � es el nombre de una estructura sintáctica a reconocer

que se define mediante la e.r. r � utilizando los operadores indicados y con la restricciónde no recursividad mencionada anteriormente. La figura 5.7.5 muestra un ejemplo dedefinición por niveles.

5.7.2 Construcción de un AFD a partir de una ER

El algoritmo utilizado para la construcción del AFD es el descrito en el capítulo 3 del librode Aho et al. (1990). Este algoritmo construye un AFD directamente a partir de una ex-presión regular sin necesidad de construir un AF no determinista (AFND) intermedio.Para ello se basa en la construcción de subconjuntos de Thompson.

En primer lugar se construye un árbol sintáctico � para la expresión regular aumen-


Nivel 1 // patrones para núcleos nominales y verbalesNSN -> (NC | NP)+NSV -> (VM | VA VMP)

Nivel 2 // patrones para sintagmas nominalesSN -> TD? AQ* NSN AQ*

Nivel 3 // patrones para sintagmas preposicionalesSPR -> SP SN

Nivel 4 // patrones para sintagmas verbalesSV -> NSV (SN | SPR)*

Figura 5.13: Ejemplo de definición de patrones sintácticos.

tada� �� . Este árbol es similar al árbol que se puede construir a partir de una expresión

aritmética. Los nodos del árbol se corresponden con los operadores de la e.r.. Las hojasdel árbol se etiquetan con un símbolo del alfabeto o con � . Las hojas no etiquetadas con �se numeran con un entero que indica la posición de un símbolo en el árbol. Los símbolosnumerados se corresponderían con los estados significativos de un AFND. Mediante laconstrucción de subconjuntos se identifican aquellos que contienen los mismos estadossignificativos. Cada símbolo de la cadena de entrada empareja con una única posición enel árbol sintáctico. A un símbolo en una determinada posición solamente pueden seguirledeterminados símbolos. La función � � � � � �� proporciona el conjunto de posicio-nes

�, tales que existe una cadena de entrada

� �, de manera que a

�le corresponde esa

aparición del símbolo�

y�

a esta aparición de�. Cada uno de estos subconjuntos da

lugar a un estado del AFD equivalente.

La función � � � � � �� se calcula a partir de � �� , �� y �� ha-ciendo recorridos sobre el árbol � . Estas funciones se definen en la tabla 5.17. Cuando enla e.r. aparece el operador clausura positiva, la expresión

� � � se sustituye por su equiva-lente

� � � � � � . Asimismo las expresiones de la forma� �� se sustituyen por

� � � � � .La función � � � � � �� se calcula haciendo un recorrido en profundidad de �

mediante las siguientes reglas:

1. Si � es un nodo concatenación (� � � � � ) e

�es una posición dentro de �� ,

entonces todas las posiciones de �� están en � � � � � �� .2. Si � es un nodo clausura e

�es una posición dentro de �� , entonces todas

las posiciones de �� están en � � � � � �� .

El algoritmo 5 construye � � � � � � � el conjunto de estados del AFD � , y � � � � , la tablade transición de � . Los estados dentro de �� son conjuntos de posiciones. Cadaestado está al principio como “no marcado”, y un estado se convierte en “marcado” justo


Algoritmo 5 Construir un AFD � .Entrada

es una expresión regularSalida

AFD � : � ��

� � Método

Construir el árbol sintáctico � a partir de� ��

Construir las funciones �� , �� , �� y � � � � � �� recorriendo� en profundidad�� raíz de �

está no marcado

� � � � � � �� raíz de �

mientras exista un estado sin marcar�

en � � � � � � � hacermarcar

�

para todo símbolo � de hacer��

para todo posición � en�

tal que el símbolo en � es � hacer��

fin parasi� � �

y� � � � � � � � � entonces

� � � � � � �� {�

no está marcado}fin si� ��

� � � � � � �fin para

fin mientrasEl estado inicial es �� raíz de �

Los estados finales son los que contienen una posición asociada con #


Nodo � � �� es una hoja eti-quetada con �

cierto� �

� es una hojaetiquetada con laposición

�falso

� �

� es un nodounión (

� � � � � )� �� o� ��

��

��

� es un nodo con-catenación (

� � � � � )� �� y� ��

Si � �� entonces�� sino��

Si � �� entonces�� si-no ��

� es un nodoclausura (

� � � )cierto ��

Tabla 5.17: Reglas para calcular �� , � � � 2 �� y � � � � 2 � �� .

antes de considerar sus transiciones de salida. El estado inicial es �� raíz de �,

y los estados finales son todos los que contienen la posición asociada con el marcadorfinal #.

En la figura 5.14 se muestra un ejemplo de construcción del AFD correspondiente alpatrón NSN -> (NC | NP)* (NC | NP). Cada nodo

�del árbol sintáctico se ha anotado a

la izquierda con el resultado de primerapos(i), y a la derecha con ultimapos(i).

En caso de que se definan varios patrones en un mismo nivel, se realiza la unión delos autómatas. En los estado del autómata se codifican los distintos patrones de los queforma parte. El estado final alcanzado durante la fase de reconocimiento determinaráel patrón sintáctico reconocido. Puede ocurrir que a una misma secuencia de etiquetasle corresponda más de un patrón dentro de un mismo nivel de procesamiento. En esecaso el analizador simplemente escoge el primer patrón según el orden en que se hayandefinido dentro del nivel. De esta forma cada nivel viene representado por un únicoAFD. Los AFD para los niveles 1 y 2 definidos en la figura 5.7.5 se muestran en la figura5.15.

5.7.3 Formatos de las cadenas de entrada y la salida de cada nivel

Los textos de entrada y salida de cada nivel de procesamiento están en formato paren-tizado: una secuencia de símbolos � � � � �� , donde cada �� puede ser una categoría


{1,2} * {1,2}

1 2{1} NC {1} {2} NP {2}

{1,2} | {1,2}1 2

{3} NC {3} {4} NP {4}

{3,4} | {3,4}

{1,2,3,4} · {3,4} {5} # {5}

{1,2,3,4} · {5}

* (NC | NP)NSN −> (NC | NP)

posiciones siguientepos

1

4

3

2

5 −−

{1,2,3,4}

{1,2,3,4}

{5}

{5}

q0={1,2,3,4}

q1={1,2,3,4,5}

{1,2,3,4} NC {1,2,3,4,5}

{1,2,3,4,5} NC {1,2,3,4,5}

{1,2,3,4} NP {1,2,3,4,5}

{1,2,3,4,5} NP {1,2,3,4,5}

tranD

estadosD

q0 q1

NC

NP

NC

NP

Figura 5.14: Construcción del AFD correspondiente al patrón NSN -> (NC | NP)* (NC | NP).


q0,q’0

q1NSN

q’2

q 2

q’1

q’2

q’1NSV

NC

NP

NC

NP

VM

VA

VMP

NSN −−> (VM | VA VMP)

SN −−> TD? AQ* NSN AQ*

q 0

q 1TD

AQ

NSN

AQ

NSN

AQ

q’0

VA

VM

VMP

NSN −−> (NC | NP) +

q0 q1

NC

NP

NC

NP

Figura 5.15: Ejemplos de AFDs generados.


Nivel 1 La TD [ crisis NC ] NSN de SP [ Mayo NP ] NSN del SP 68 Z [ producir VMI] NSV ciertos AQ [ cambios NC ] NSN relevantes AQ en SP los TD [ centrosNC ] NSN de SP [ interés NC ] NSN de SP la TD [ política NC ] NSN culturalAQ . Fp

SN −> DT? AQ* NSN AQ*

Nivel 2 [ La TD [ crisis NC ] NSN ] SN de SP [ [ Mayo NP ] NSN ] SN del SP 68 Z [producirá VMI ] NSV [ ciertos AQ [ cambios NC ] NSN relevantes AQ ] SN enSP [ los TD [ centros NC ] NSN ] SN de SP [ [ interés NC ] NSN ] SN de SP [ laTD [ política NC ] NSN cultural AQ ] SN . Fp

Figura 5.16: Oración analizada por APOLN.

morfosintáctica, un patrón definido en un nivel previo o una marca de comienzo�o final�

de patrón. Un símbolo de patrón aparece siempre detrás de la marca de final de patrón.Así, dada la secuencia de símbolos de entrada �� , un patrón � , y suponiendo queexiste una secuencia de

�símbolos que concuerda con � desde la posición

�, la salida re-

sultante será la secuencia: � � � � �� . La entrada al primer nivelde procesamiento es la secuencia de categorías léxicas, proporcionada por el etiquetador.La salida del último nivel es el resultado del análisis parcial. La figura 5.16 muestra unejemplo de frase etiquetada después de los niveles 1 y 2 definidos en la figura 5.7.5.

5.7.4 Algoritmo reconocedor de patrones

El algoritmo 6 lleva a cabo el reconocimiento de patrones, mediante � niveles deprocesamiento, sobre la secuencia de etiquetas morfosintácticas de entrada I. El procedi-miento reconocer_patron( � � � , I, S � � � � � � , S � � � � � , � � ) busca en I a partir del símboloactual, S � � � � � � , la secuencia de símbolos más larga reconocida por el � � � . Devuelveel símbolo final del de la secuencia, S � � � � � , y la etiqueta del patrón

�reconocido en el

nivel�, � � .

5.7.5 Compilación de estructuras de rasgos

Con el fin de mejorar las prestaciones del analizador parcial se ha modificado la cons-trucción de los AFD para permitir el manejo de estructuras de rasgos. Estas estructurascontienen información que puede estar presente en la oración de entrada. Por ejemplo,las etiquetas morfosintácticas contienen información morfológica que puede ser útil enel proceso de análisis. Esta información debe codificarse en los estados de los autóma-


Algoritmo 6 Analizador Parcial.Entrada

I: � � � � �� secuencia de etiquetas morfosintácticas�� organizados en � niveles no recursivos

SalidaO: � � � � �� secuencia de etiquetas morfosintácticas analizada parcialmente según��

Métodoi � 1; // Contador de nivelesrepetir� � leer_patron(i, PATRONES);� � � � ConstruirAFD(� );s � � � � � � � 1;mientras no es_símbolo_final(S � � � � � � ) hacer

reconocer_patron( � � � , I, S � � � � � � , S � � � � � , � � );si S � � � � � � �

S � � � � � entoncesañadir_símbolo(S � � � � � � , O);

si noañadir_patrón(S � � � � � � , S � � � � � , p � , O);

fin siS � � � � � � � S � � � � � +1;

fin mientrasañadir_símbolo(S � � � � � � , O);nivel � nivel + 1;I � O;

hasta nivel>N


tas. Además se debe permitir que esta información se propague durante el proceso deanálisis entre niveles de procesamiento.

Verificación de concordancias

La información morfológica es necesaria para realizar un análisis sintáctico correcto delas oraciones. Por ejemplo, los premodificadores y los adjetivos del núcleo de un sin-tagma nominal deben concordar con éste en género y número; el sujeto oracional debeconcordar con el verbo principal, etc. Además, las concordancias ayudan a resolver algu-nos problemas de análisis, como se ilustra en los ejemplos siguientes:

Ejem. 1 El TD río NC grandes AQ montañas NC atraviesa VM.Aplicando el patrón SN -> TD? AQ* NC AQ*[ El TD río NC grandes AQ ]

�� [ montañas NC ]

�� atraviesa VM.

Ejem. 2 Juan NP da VM a SP un TI amigo NC consejos NCAplicando el patrón NSN -> (NP | NC)+[Juan NP ]

� �� da VM a SP un TI [ amigo NC consejos NC ]

� �� El parentizado del Ejemplo 1 no es correcto ya que SN � incluye como modificador el

adjetivo grandes, que debería formar parte del SN � . En el Ejemplo 2 amigo consejos formaincorrectamente el núcleo nominal NSN � . Ambos errores se han producido porque enla definición de los patrones no se ha tenido en cuenta información morfológica y, porlo tanto, no se verifica la concordancia entre adjetivo y nombre (Ejemplo 1), o entre dosnombres que forman un núcleo (Ejemplo 2).

Una solución sería trabajar con las categorías morfosintácticas completas, que incor-poren la información morfológica. Esto obligaría a definir tantos patrones como combi-naciones entre rasgos morfológicos sean posibles. Por ejemplo, los siguientes patronesreconocen sintagmas nominales formados por artículo, adjetivo y nombre común, y queconcuerdan en género y número.

SN -> TDMS? AQMS* NCMS AQMS*SN -> TDFS? AQFS* NCFS AQFS*SN -> TDMP? AQMP* NCMP AQMP*��

La solución que se propone en este trabajo es la intercalación de acciones en la defini-ción de la e.r. Esto supone que la transición entre dos estados del AFD sólo se realizará sise verifica cierta condición (por ejemplo, la concordancia en género y número). Cada es-tado almacena los rasgos del símbolo (categoría) mediante el cual se ha alcanzado dichoestado. Una transición será posible si los rasgos almacenados en un estado son compati-bles con los rasgos del siguiente símbolo. No todos los patrones necesitan que se realicealguna comprobación de concordancia (por ejemplo, un sintagma preposicional defini-do como SPR -> SP SN). Para marcar aquellos patrones en los cuales se desea realizar


(q1,r1)(q0,r0)

NC

NPNP

NC

&NSN −−> (NC | NP)+

Figura 5.17: Ejemplo de AFD modificado para almacenar la información del rasgo morfológico.

verificación de rasgos se utilizará el símbolo ’&’. Por ejemplo, &NSN -> (NC | NP)+indica que en el reconocimiento del patrón NSN se debe verificar la compatibilidad derasgos entre sus categorías componentes, en este caso entre NC y NP. Aquellos patronesmodificados mediante ’&’ se deberán compilar adecuadamente.

Esto obliga a aumentar el concepto de estado y redefinir la función de transición delAFD. El estado debe contener la estructura de rasgos y la transición entre estados. ElAFD extendido se define como una 5-tupla ( � ,Q, (q � ,r � ),F,

�), donde

� � , es el alfabeto del lenguaje (en este caso categorías morfosintácticas y nombres depatrones)

� Q, es el conjunto de estados. Cada estado es una tupla (q ,r ), donde q identifica elestado y r es la Estructura de Rasgos asociada al estado.

� (q � , r � ) � Q, es el estado inicial, que almacena una estructura de rasgos r � .

� F�

Q, el conjunto de estados finales.

��, es la función de transición que se define como

� �Q � � � Q

�((q ,r ),s) = (q� , rme(r ,rasgo(s))) si compatible(r , rasgo(s)),

(q , r ), (q� , r� ) � Q, s � � ,

rasgo(s) devuelve la estructura de rasgos asociada al símbolo s

rme(r , r� ) devuelve el rasgo más específico entre r y r�compatible(r ,r� ) verifica la compatibilidad entre los rasgos r y r� .

Para el patrón &NSN -> (NC | NP)+ el AFD resultante se muestra en la figura 5.17y su función de transición sería:

�((q � ,r � ),NP) = (q � , rme(r � ,rasgo(NP))) si compatible(r � ,rasgo(NP))�((q � ,r � ),NC) = (q � , rme(r � ,rasgo(NC))) si compatible(r � ,rasgo(NC))�((q � ,r � ),NP) = (q � , rme(r � ,rasgo(NP ))) si compatible(r � ,rasgo(NP))�((q � ,r � ),NP) = (q � , rme(r � ,rasgo(NC ))) si compatible(r � ,rasgo(NC))


Nivel 1 // patrones para núcleos nominales y verbales&NSN -> ($NC | $NP)+NSV -> ($VM | VA $VMP)

Nivel 2 // patrones para sintagmas nominales&SN -> TD? AQ* $NSN AQ*

Nivel 3 // patrones para sintagmas preposicionalesSPR -> SP SN

Nivel 4 // patrones para sintagmas verbalesSV -> $NSV (SN | SPR)*

Figura 5.18: Ejemplo de redefinición de patrones incluyendo compatibilidad y herencia de rasgos.

Esta técnica permite realizar la verificación morfológica a partir de los rasgos que con-forman las etiquetas morfosintácticas. Aunque en este caso solamente se trabaja con in-formación morfológica, el método es aplicable para cualquier tipo de rasgo. Por ejemplo,si las etiquetas contuvieran información semántica, se podría verificar la compatibilidadsemántica entre constituyentes, redefiniendo adecuadamente la función compatible.

Herencia de rasgos

En algunas ocasiones es útil o necesario que los patrones que se definen hereden rasgosde alguno de sus componentes. Es decir, a patrones identificados en un nivel deben aso-ciarse rasgos que se tendrán en cuenta en niveles superiores. Se considera que los rasgosheredados serán los asociados al constituyente principal o núcleo. Por ejemplo, un SNpuede heredar la información morfológica asociada al núcleo del sintagma (NSN) pararealizar comprobaciones en fases de análisis posteriores (como puede ser concordanciacon el verbo). El operador utilizado para propagar los rasgos entre niveles de procesa-miento se identifica con el símbolo $.

Por ejemplo, dada la definición de patrones de la figura y la oración del Ejemplo 1, elanálisis correcto sería:

[El TD [ río NC]� ��

]��

[grandes AQ [montañas NC]� ��

]��

[atraviesa VM] NSV .

Para ello, el patrón NSN definido debe heredar los rasgos de alguno de sus constitu-yentes, en este caso del NC.

5.7.6 Niveles sintácticos definidos para el castellano

La definición de patrones puede guiarse por motivos lingüísticos o no, siempre y cuan-do no violen la restricción de no recursividad. Es decir, los patrones definidos puedencorresponderse con estructuras sintácticas, como sintagma nominal, sintagma preposi-


cional, sintagma adjetivo, etc., o pueden utilizarse para identificar determinadas ocu-rrencias, como fechas, entidades, expresiones específicas, lo cual es útil en sistemas deextracción de información. La definición propuesta se basa en el concepto de chunk, quese ha extendido para el caso del castellano, para que se permita que algunas unidadesbásicas incluyan elementos después del núcleo. Este sería el caso de los sintagmas no-minales básicos que pueden incluir postmodificadores de tipo adjetivo. Así, se consideraque un chunk es el centro de un constituyente intraoracional, que se extiende desde sucomienzo hasta el núcleo, incluyendo aquellos postmodificadores definidos no recursi-vamente sobre dicho chunk u otros chunks de nivel inferior. A continuación se describenlos patrones propuestos siguiendo los anteriores criterios.

Nivel 1

En el primer nivel de análisis se identifican núcleos de sintagmas: núcleos de sintagmasnominales (NSN); núcleos de sintagmas verbales (NSV) que incluyen formas simples,compuestas, perifrásticas e infinitivos (NSVI); y frases adjetivas (SADJ).

NSV -> ((VMI|VMS|VMC|VMM|VAI|VAS|VAC|VAM) CS(VMN|VAN)(VMG|VMP)?) |( PP?PP?(((VMI|VMS|VMC|VMM)(((VMN|VAN)(VMG|VAG|VMP)?) | (VMG|VAG))?) |((VAI|VAS|VAC|VAM) (VMP|VAP|VMN|VAN)*(VMG|VAG)?))) |(VMG|VAG)

NSVI -> (VMN|VAN)(((CC|Fc) (VMN|VAN))* CC (VMN | VAN))?& SADJ -> RG? (AQ | VMP) (((CC|Fc) RG? (AQ | VMP))* CC RG? (AQ | VMP))?& NSN -> (($NP (((CC|Fc) $NP)*(CC $NP))?) | ($NC (((CC|Fc) $NC)*(CC

$NC))?))+

Nivel 2

En este nivel se reconocen Sintagmas Nominales no recursivos (SN), cuyos constituyentesson determinantes, artículos, sintagmas adjetivos, cifras, NSN o pronombres.

&SN -> (TD (PX|PI) (AQ|VMP)?) | (DI (PP|PI|PD|P0)) |((DD|DP|DT|DE|DI|D0|TD|TI|(MC* (CC MC)?)|MO)* (SADJ? |Z? | RG) NSN SADJ?) |((PP|PD|PX|PI|PT|P0)|((DD|DP|DT|DE|DI|D0|TD|TI) P0)) |((DD|DP|DT|DE|DI|D0|TD|TI|MO)* (Z| W | MC* (CC MC)?)) |(TD SADJ)


Nivel 3

En el tercer nivel pueden identificarse aquellos constituyentes que estén compuestos porsintagmas nominales no recursivos. Por ejemplo, los Sintagmas Preposicionales (SPR).En este caso el patrón de definición es más simple:

SPR -> SP ((TD? (PP|PI) D0) | SN | SADJ | NSVI)

Nivel 4

En el último nivel se identifican, por una parte conjunciones y pronombres relativos(SUB) y, por otra, sintagmas adverbiales (SADV).

SUB -> (SP? CS) | (SP? TD? PR)

SADV -> (SP RG) | (RG RG?)

5.7.7 Resultados experimentales

Para evaluar el analizador parcial construido se han escogido dos corpus en castellano:

� El corpus Pirapides13 formado por 800 oraciones en castellano de estructura simple,con un longitud media de 7 palabras por frase. Este corpus esta etiquetado morfo-sintácticamente con las etiquetas Parole y analizado sintácticamente. Ambos nivelesde análisis están supervisados.

� El corpus del castellano LexEsp etiquetado morfosintácticamente según se describeen el apéndice ??. Las frases del corpus son complejas y de una longitud mediade 20 palabras por frase. Se ha elegido este corpus porque es el único anotado coninformación morfosintáctica y , actualmente, una parte del mismo se está anotandotambién con información sintáctica y semántica en el marco del proyecto PROFIT“3lb: Creación de una Base de Datos de árboles sintáctico semánticos (FIT-150500-2003-411)”. Para evaluar el analizador parcial se supervisaron manualmente unsubconjunto de 100 oraciones (aprox. 3000 palabras).

Para verificar la robustez del sistema frente a errores de etiquetado se han realizadodos tipos de experimentos:

� Etiquetado Corregido (EC), que toma como etiquetas morfosintácticas las propor-cionadas por el corpus, por lo que no existen errores de etiquetado (salvo los quese hubieran producido en el proceso de supervisión manual).

13El corpus Pirapides utilizado en esta experimentación fue cedido por la Universidad de Barcelona.


EC ENCPirapides P C P CNSV 99.6 97.7 99.6 97.1NSVI 100.0 100.0 100.0 100.0SN 99.0 98.5 98.5 97.6SUB 100.0 94.7 94.1 84.2SPR 99.0 98.7 98.3 95.5SADJ 100.0 66.7 66.7 66.7SADV 95.2 95.2 94.7 85.7

Tabla 5.18: Resultados de precisión (P) y cobertura (C) para una tarea de chunking sobre el corpusPirapides.

EC ENCLexEsp P C P CNSV 97.6 97.6 94.3 94.7NSVI 100.0 100.0 85.7 100.0SN 98.9 97.5 92.0 89.4SUB 100.0 100.0 99.4 100.0SPR 96.3 95.8 92.9 92.4SADJ 77.6 80.9 64.2 72.3SADV 100.0 97.6 95.0 92.7

Tabla 5.19: Resultados de precisión (P) y cobertura (C) para una tarea de chunking sobre el corpusLexEsp.

� Etiquetado No Corregido (ENC), que toma la salida del etiquetador morfológico.Este experimento simula una situación real, en la cual aparecen errores de etique-tado. En el caso del corpus LexEsp, el error de etiquetado está alrededor del 3%,mientras que para el corpus Pirapides solamente es del 1%.

En las tablas 5.18 y 5.19 se muestran los resultados de precisión y cobertura para loscorpus Pirapides y LexEsp, respectivamente. El analizador ofrece unas prestaciones bas-tante altas para la detección de chunks sin errores de etiquetado (EC). Los errores máscomunes se deben a la incorrecta identificación de frases adverbiales (SADV), algunos ti-pos de frase adjetivas (SADJ), nombres y adjetivos coordinados. Algunos de estos erroresde análisis son de difícil solución porque sería necesaria la incorporación de más fuentesde conocimiento (información semántica y contextual). Evidentemente, cuando se utilizala salida del etiquetador (ENC) el rendimiento del analizador disminuye. Los principa-les errores de etiquetado se deben a confusiones entre adjetivos y nombres, adjetivos yverbos, y adjetivos y adverbios. Esto influye principalmente en los ratios obtenidos paralas frases adjetivas (SADJ). Los resultados para las frases adverbiales (SADV) también se


ven afectados porque la negación se considera como un constituyente verbal, mientrasque en los patrones definidos se ha considerado como una frase adverbial. Para solventareste problema la gramática debería estar lexicalizada.

5.7.8 Comparativa con la aproximación de MME

En este apartado se comparan experimentalmente las dos aproximaciones al análisis par-cial desarrolladas en esta tesis. Para poder realizar esta comparación existían dos opcio-nes: 1) estimar un MME para un corpus del castellano anotado con información sintác-tica, que estuviera supervisado y con una cantidad de datos suficiente, o 2) definir unagramática parcial para el inglés y analizar el corpus WSJ. La primera opción fue descar-tada porque, como se ha comentado anteriormente, el corpus LexEsp no estaba anotadosintácticamente. Se optó por la segunda opción, aunque ésta presenta la dificultad dela definición de una gramática inglesa cuyas estructuras sintácticas no difieran de lasutilizadas en la anotación del WSJ.

La gramática inglesa mostrada en la tabla 5.20 se definió para reconocer los chunksde la tarea CoNLL00. La construcción de las reglas se realizó utilizando como guía lasestructuras sintácticas definidas en el corpus WSJ (en concreto las secciones 15 a 18 quefueron utilizadas para el entrenamiento de los MME). Se extrajeron del corpus las se-cuencias de etiquetas morfosintácticas correspondientes a cada chunk. A partir de lassecuencias más frecuentes se construyeron las expresiones regulares, que se organizaronen un único nivel, ya que corresponden a chunks no solapados.

Los resultados para la sección 20 del corpus se muestran en la tabla 5.21. Algunos delos chunks (CONJP y SBAR) no son detectados porque su definición es muy similar a lade otros chunks y, la única manera de desambiguarlos sería utilizando información de lapalabra (es decir, lexicalizando la gramática) y teniendo en cuenta información de chunksadyacentes.

Estos resultados son muy similares a los que ofrece un MM de primer orden en el quelos estados, que representan las etiquetas de chunk, emiten etiquetas morfosintácticas(modelo <POS,O> en la tabla 5.22). Sin embargo, estos resultados son inferiores a los queofrece el mejor MME (WHF-BA).


chunk precisión cobertura F� � �

ADJP 47.87% 61.64% 53.89ADVP 59.05% 70.44% 64.24CONJP 00.00% 00.00% 00.00INTJ 100.00% 50.00% 66.67NP 82.86% 86.85% 84.81PP 83.29% 97.01% 89.63PRT 98.97% 90.57% 94.58SBAR 00.00% 00.00% 00.00VP 83.60% 88.84% 86.14todos 81.41% 86.24% 83.76

Tabla 5.21: Resultados de chunking para cada tipo de chunk sobre el conjunto de prueba (sección20 del WSJ) utilizando el analizador parcial basado en e.r..

chunk APOLN MME-BA <POS,O>ADJP 53.89 71.70 47.86ADVP 64.24 78.71 66.58CONJP 00.00 38.10 00.00INTJ 66.67 40.00 80.00NP 84.81 93.09 85.46PP 89.63 96.62 88.82PRT 94.58 73.64 39.44SBAR 00.00 83.83 00.00VP 86.14 92.86 85.27todos 83.76 92.53 83.86

Tabla 5.22: Comparación de las prestaciones (F�� ) entre el analizador parcial basado en e.r. y los

MME sobre el conjunto de prueba (sección 20 del WSJ).

5.8. Resumen 147

5.8 Resumen

Se ha realizado una evaluación exhaustiva de los MME sobre la tarea de análisis super-ficial o chunking. Para ello se han utilizado los datos proporcionados por la competiciónCoNLL00 extraídos del corpus WSJ, respecto a los cuales suelen compararse las distintasaproximaciones al análisis superficial.

La experimentación ha consistido en la determinación de los mejores criterios de se-lección y especialización del modelo. Se ha demostrado que para esta tarea una correctaelección de estos criterios ofrece mejoras significativas respecto a un modelo básico. Enlos modelos de segundo orden el factor F � se incrementa desde un 83.78, para un MMbásico que emite palabras, hasta un 92.53. El mejor modelo considera como rasgos rele-vantes a la entrada un subconjunto de palabras y todas las etiquetas morfosintácticas. Lasetiquetas de chunk deben redefinirse añadiendo información de la etiqueta morfosintácti-ca y de algunas palabras relevantes. El resultado obtenido está en la línea de los resulta-dos que ofrecen los mejores sistemas individuales sobre la misma tarea. Esto demuestraque el formalismo de MME es un método eficaz para tratar tareas de segmentación ensintagmas no recursivos.

También se ha desarrollado un analizador sintáctico parcial para el castellano basadoen conocimiento. Este analizador permite el análisis parcial de texto no restringido deoraciones etiquetadas morfosintácticamente. Su evaluación se ha realizado sobre doscorpus del castellano (LexEsp y Pirapides), aunque ésta no ha podido ser muy exhaustivaya que no se dispone de un corpus de referencia analizado sintácticamente. Para podercomparar las prestaciones del analizador basado en conocimiento con los MME se hadefinido una gramática para el inglés. La comparativa indica que con poco esfuerzopuede definirse una gramática que ofrezca unas prestaciones similares a las de un MMbásico, pero, por otro lado, muestra la necesidad de la incorporación de más informaciónen el analizador parcial.

Capítulo 6

Identificación de cláusulas

6.1 Introducción

La detección de las cláusulas de que consta una oración o un texto es otra tarea más dentrodel análisis sintáctico de oraciones. La identificación de estas estructuras puede ser degran utilidad en aplicaciones relacionadas tanto con el discurso escrito como hablado(Ejerhed, 1996). Algunas de estas aplicaciones son las siguientes:

� Síntesis del habla: en sistemas de conversión de texto a voz se puede mejorar laentonación tomando como guía la segmentación en cláusulas.

� Reconocimiento del habla: los reconocedores pueden tomar la entrada segmentadaen cláusulas.

� Análisis de textos: tomando la segmentación en cláusulas como un paso previo alanálisis de oraciones.

� Traducción automática: la cláusulas pueden considerarse como unidades de tra-ducción.

� Adquisición de conocimiento: las cláusulas delimitan fragmentos oracionales en loscuales se puede localizar información léxica de interés como preferencias léxicas,restricciones seleccionales, etc.

La detección de cláusulas es un problema de análisis sintáctico que tiene como difi-cultad añadida que no existe una definición consensuada de cláusula. Por lo que respectaa la gramática inglesa, Collins (1992) da una definición muy simple de cláusula: un grupode palabras que contienen un verbo. Pero esta definición, no incluye un tipo especial de cláu-sulas que son las que no contienen verbo. Por ejemplo, la oración “If necessary, he willtake notes for you” presenta dos cláusulas en la primera de las cuales (“If necessary”) se

149

150 Capítulo 6. Identificación de cláusulas

ha omitido el verbo. En el libro sobre gramática inglesa Comprehensive grammar of Englishlanguage (Quirk et al., 1985) se identifican tres tipos principales de cláusulas:

� Cláusulas conjugadas (“finite clauses”): cláusulas que contienen un verbo conjuga-do. Por ejemplo, “You can borrow my car if you need it” (“Puedes tomar prestadomi coche si lo necesitas”).

� Cláusulas no conjugadas (“non-finite clauses”): cláusulas que contienen un verbono conjugado. Por ejemplo, “Visiting many cities makes me tired” (“Visitar muchasciudades me cansa”).

� Cláusulas sin verbo: cláusulas que no contienen un elemento verbal y que se usannormalmente para facilitar la comunicación. Por ejemplo, “If necessary, he will takenotes for you” (“Si es necesario, él tomará notas por ti”).

Ejerhed (1988) describe una cláusula básica como una estructura oracional importantetanto desde el punto de vista sintáctico como semántico:

“una cláusula básica es una unidad estructural superficial estable y fácilmen-te reconocible, que es un resultado parcial importante y un componente enla construcción de representaciones lingüísticas más ricas que abarcan tantoelementos sintácticos como semántica y estructura del discurso.”

En algunas ocasiones la aparición de determinados indicadores en la oración simpli-fica el proceso de detección de cláusulas (Quirk et al., 1985). Es el caso de las cláusulasadverbiales, como en “You can borrow my car if you need it” donde la cláusula viene in-troducida por la conjunción if, o las cláusulas de relativo, como en la oración “You canborrow the car that belongs to my sister” (“Puedes tomar prestado el coche que pertenece ami hermana”) donde se introduce por el pronombre relativo that. Sin embargo, en muchasocasiones no aparecen estos marcadores en la oración, por lo cual es necesario tener encuenta restricciones sintácticas o incluso semánticas. Por ejemplo, la oración “The bookhe had described Rome” (“El libro que él tenía describía Roma”) puede ser analizada co-rrectamente si se considera que los dos verbos had y described deben tener un sujeto. Enotros casos, la dificultad para discernir si se trata de una oración simple o una oraciónque contiene una cláusula es mucho mayor y es necesario el uso de información semán-tica. Por ejemplo, las siguientes dos oraciones tienen una estructura sintáctica similar:“The professor is teaching” (El profesor está enseñando) y “The problem is teaching” (Elproblema es enseñar). Sin embargo, la primera se considera una oración simple y la se-gunda contiene una cláusula. Finalmente, otro ejemplo que ilustra la dificultad de estatarea es una oración como “Problems show up if you love money” (Los problemas apare-cen si amas el dinero) que tiene una sola interpretación, pero si se invierte el orden de


sus elementos puede tener diversas interpretaciones válidas, dependiendo de donde semarque el comienzo de la cláusula (Leffa, 1998):

- “If you love money problems show up” (Si amas el dinero, los problemas aparecen)

- “If you love money problems show up” (Si amas los problemas de dinero, aparecen)

- “If you love money problems show up” (Si amas, los problemas de dinero aparecen)

Ejerhed (1988) realizó uno de los primeros experimentos sobre detección de cláusu-las. En este trabajo se detectaban cláusulas básicas (“basic clauses”), es decir, cláusulas noanidadas que no pueden contener a su vez otras cláusulas. El objetivo final era la integra-ción en un sistema de conversión de texto a voz desarrollado por AT&T. La división encláusulas debería mejorar el sistema ya que el discurso sonaría más natural si los cambiosde entonación y las pausas se insertaran en los límites de las cláusulas. Ejerhed comparódos aproximaciones: una aproximación basada en reglas y un método estocástico. Losresultados en la detección de cláusulas básicas fueron muy elevados (una precisión entreel 95% y el 99%), con un redimiento ligeramente mejor para la aproximación estocástica.Sin embargo, las reglas definidas no permiten detectar cláusulas anidadas.

El algoritmo de detección de cláusulas desarrollado por Leffa (1998) forma parte de unsistema inglés/portugués de traducción automática. Esta aproximación considera que,para procesar oraciones complejas, es imprescindible que se identifiquen correctamentelas cláusulas y que se conozca su función sintáctica. Una vez identificadas las cláusulas,dependiendo de su función en la oración, puede reducirse a un nombre, adjetivo o ad-verbio independientemente del número de palabras o de cláusulas anidadas que puedacontener, lo cual simplifica las oraciones y puede ayudar al proceso de traducción. Leffahace un estudio bastante exhaustivo de los tipos de cláusula que aparecen en textos rea-les extraídos de varios corpora. El objetivo de este estudio es identificar cuáles son loselementos oracionales que indican un límite de cláusula. A partir de esta información,define manualmente un conjunto de reglas para detectar los distintos tipos de cláusula.Los resultados de cobertura obtenidos en la segmentación en cláusulas fueron del 98%.

Papageorgiou (1997) utiliza la segmentación en cláusulas como una tarea previa alproceso de alineación de textos paralelos. Esta aproximación también se basa en un con-junto de reglas definidas manualmente y obtiene unos resultados de precisión del 93%.

Finalmente, Orasan (2000) propone un sistema híbrido en el que la salida proporcio-nada por un método de aprendizaje basado en ejemplos (MBL) es corregida mediante laaplicación de varios tipos de reglas: la eliminación de falsos positivos (p.e. una cláusulano puede comenzar dentro de un sintagma verbal) y la corrección de falsos negativos(p.e. cada cláusula debe tener un verbo, por lo tanto entre dos sintagmas verbales debehaber un límite de cláusula). Este sistema obtuvo un resultado de

� � =85.0 sobre el corpusen inglés Susanne.


La comparación de los resultados ofrecidos por estos sistemas, o la elección de algunode ellos como punto de referencia, presenta varios inconvenientes. Por una parte, en cadatrabajo se consideró una definición de cláusula diferente. Por otra parte, la evaluación delas prestaciones de estos sistemas se realizó de forma manual sobre un conjunto reducidode frases. Además, los corpora utilizados son distintos en cada caso. Es por ello quela tarea compartida definida en CoNLL01 puede considerarse como un buen punto dereferencia para evaluar cualquier sistema de detección de cláusulas que trabaje con textosen inglés.

6.2 La tarea compartida sobre detección de cláusulas (CoNLL01)

El objetivo de la tarea compartida celebrada en la edición de 2001 de la conferenciaComputational Natural Language Learning (CoNLL01) fue evaluar distintos métodosde aprendizaje automático aplicados a la identificación de las cláusulas contenidas entextos no restringidos del inglés. La tarea se dividió en tres partes: Parte 1, detecciónde comienzos de cláusulas; Parte 2, detección de finales de cláusulas y Parte 3, detecciónde cláusulas anidadas. Se estructuró de esta manera para que aquellos sistemas que nopudieran realizar la Parte 3 directamente, pudieran abordarla de forma ascendente apro-vechando los resultados proporcionados por las dos primeras partes.

En esta tarea, el conjunto de datos que sirve como referencia se extrajo del corpus eninglés Penn Treebank (Marcus et al., 1993). Una descripción completa de las guías segui-das para anotar el corpus Penn Treebank que indica, entre otro tipo de anotaciones usadas,cómo se segmenta el corpus en cláusulas, se encuentra en (Bies et al., 1995). El siguien-te ejemplo muestra una oración extraída de dicho corpus en la cual se marca medianteparéntesis la segmentación en cláusulas. La etiqueta situada junto a los paréntesis in-dica el tipo de cláusula. La etiqueta S indica que es una oración o cláusula declarativay SBAR marca una oración de relativo o subordinada. Además, cada etiqueta de cláu-sula se acompaña con su función gramatical (NOM indica que funciona como sintagmanominal) o su rol semántico (PRP indica propósito o razón).

(S Coach them in(S-NOM handling complaints)(SBAR-PRP so that

(S they can resolve problems immediately)).

)

En el corpus Penn Treebank se distinguen varios tipos de cláusula (Bies et al., 1995) quese dividen en dos grupos: básicas (S, SINV, SBAR, SBARQ, SQ, S-CLF, FRAG) y combi-nadas, que son las que contienen otras cláusulas relacionadas mediante la coordinación,

6.2. La tarea compartida sobre detección de cláusulas (CoNLL01) 153

la subordinación o el uso de citas. A continuación se describe brevemente cada tipo decláusula.

Cláusula S

Las cláusulas etiquetadas con S incluyen las oraciones declarativas simples, pasivas, im-perativas, interrogativas con estructura declarativa, infinitivas, de participio y de gerun-dio. Por ejemplo, (S Casey threw the ball) es una oración con una cláusula declarativasimple. La oración (S Casey wants (S to throw the ball)) contiene una cláusula de infinitivoy la oración (S (S-ADV Running toward Casey) Willie caught the ball) contiene una cláusu-la de gerundio con función adverbial. Cuando se coordinan varias cláusulas, todas ellasaparecen en el mismo nivel de análisis junto al elemento coordinante. Por ejemplo, (S (SCasey threw the ball) and (S Willie caught it)).

Cláusula SINV

La etiqueta SINV se utiliza para marcar las cláusulas declarativas en las cuales se hainvertido el orden del sujeto. Por ejemplo, (SINV Never had I seen such a place).

Cláusula SBAR

SBAR indica que la cláusula puede ser de alguno de los tipos siguientes: de relativo (SThe person (SBAR who (S threw the ball)) is very athletic), subordinada (S Willie knew(SBAR that (S Casey threw the ball))) o una pregunta indirecta (S Willie asked (SBAR who(S threw the ball))).

Algunas cláusulas de relativo no aparecen marcadas como tales en el corpus. Es elcaso de las cláusulas de relativo reducido, en las cuales se elide el pronombre de relativo,como en (S I bought a car (VP built by Mazda)).

Cláusula SBARQ y SQ

Para anotar las oraciones o cláusulas interrogativas tipo “wh-question” se utiliza la eti-queta SBARQ. La parte de la cláusula formada por el sujeto, verbo auxiliar, verbo y com-plementos se etiqueta como SQ. Por ejemplo, (SBARQ Who (SQ threw the ball)). La etiquetaSQ también se utiliza para anotar las oraciones interrogativas tipo sí/no: (SQ Did Caseythrow the ball).


Cláusula S-CLF y SQ-CLF

Las oraciones declarativas “it-clefts” son una construcción especial que introduce unacláusula de relativo (SBAR) mediante el pronombre it, el verbo be y un sintagma nominal.Por ejemplo, (S-CLF It was Casey (SBAR who threw the ball)). También aparecen en modointerrogativo: (SQ-CLF Was it Casey (SBAR who threw the ball)).

Cláusula FRAG

Algunas construcciones pueden considerarse como cláusulas aunque carecen de algunoselementos sintácticos esenciales. Es el caso de las respuestas a preguntas como en laoración (SBARQ Who threw the ball ?) (FRAG Casey, yesterday).

Citas

La citas (“quotations”) también se consideran como una cláusula que es argumento delverbo que la introduce: (S Casey said “ (S Willie caught the ball)”).

Como se observa en los ejemplos anteriores, las cláusulas aparecen anidadas y existeuna gran variabilidad sintáctica. Por ello, la tarea de detección de cláusulas es bastantemás compleja que la tarea de chunking (en la cual se identifican chunks no anidados). Parasimplificar esta tarea, en CoNLL01 no se tiene en cuenta la información sobre el tipo decláusula, su función gramatical o su rol semántico. De manera que todas las cláusulas delcorpus utilizado se han marcado únicamente con la etiqueta S. Los sistemas participantesen la tarea deben proporcionar únicamente los comienzos, finales o etiquetas de cláusulasin indicar su tipo. No se ha tenido en cuenta las cláusulas de tipo FRAG ni las cláusulasde relativo reducido por la dificultad en diferenciarlas de las frases verbales, ya que seintroducen con la misma etiqueta (VP).

Los datos utilizados en esta tarea son básicamente los utilizados en los experimen-tos realizados por Ramshaw y Marcus (1995) para la detección de sintagmas nominalesbásicos. Es decir, las secciones 15, 16, 17 y 18 del corpus WSJ como conjunto de datosde entrenamiento, la sección 20 como conjunto de datos de desarrollo para ajustar losparámetros del sistema y la sección 21 como conjunto de datos de prueba. Las oracionesde estos conjuntos de datos están formadas por tokens (palabras y símbolos de puntua-ción), delimitadas por blancos y anotadas con los límites de cláusula. Además, se añadela etiqueta morfosintáctica y la etiqueta de chunk. La primera se asignó de forma auto-mática mediante el etiquetador morfosintáctico de Brill (1994) y la segunda mediante elanalizador superficial basado en métodos combinados desarrollado por Tjong Kim Sang(2000b). De esta manera se asegura que la experimentación realizada se asemeja más aun caso real, en el cual nunca se dispondría de un etiquetado supervisado como es el casodel corpus Penn Treebank.


Palabra POS Chunk Parte 1 Parte 2 Parte 3You PRP B-NP S X (S*will MD B-VP X X *start VB I-VP X X *to TO I-VP X X *see VB I-VP X X *shows NNS B-NP X X *where WRB B-ADVP S X (S*viewers NNS B-NP S X (S*program VBP B-VP X X *the DT B-NP X X *program NN I-NP X E *S)S). . O X E *S)

Figura 6.1: Ejemplo de oración extraída del corpus WSJ anotada con las etiquetas POS, etiquetasde chunk y etiquetas de cláusula.

En la Figura 6.2 se muestra un ejemplo de oración extraída del conjunto de datos deentrenamiento, que está anotada con la información morfosintáctica (POS), las etiquetasde chunk y las etiquetas utilizadas en cada una de las partes que fueron abordadas en latarea.

La anotación de los chunks siguió la notación BIO, es decir, B-X marca el primer tokendel chunk X, I-X indica que un token está dentro del chunk X y que no es el primero, y O

marca un token que no pertenece a ningún chunk.

La anotación de las cláusulas se realizó siguiendo dos esquemas de marcado distin-tos1:

� Las etiquetas S, E y X indican si un token es un comienzo de cláusula, un final decláusula o no es ni comienzo ni fin de cláusula, respectivamente. Estas etiquetassirven para abordar la Parte 1 y la Parte 2 de la tarea, es decir, la detección de co-mienzos y de finales de cláusula.

� El anidamiento de cláusulas se indica mediante el uso de paréntesis. La etiqueta(S* indica que comienza una cláusula, *S) marca el final de una cláusula y * in-dica que el token no es ni comienzo ni fin de cláusula. En un mismo token puedenaparecer varias de estas etiquetas. Por ejemplo, la etiqueta (S*S) indica que en eltoken correspondiente empieza y acaba una cláusula. La etiqueta *S)S) indica que

1El marcado de cláusulas se puede obtener directamente del corpus Penn Treebank II uti-lizando el programa Perl desarrollado por Sabine Buchholz, que se encuentra disponible enhttp://ilk.kub.nl/~sabine/chunklink/


finalizan dos cláusulas. Estas etiquetas se utilizan en la Parte 3 de la tarea, es decir,en la detección de cláusulas anidadas.

Las medidas utilizadas para evaluar las prestaciones de los sistemas de identificaciónde cláusulas son las mismas que se utilizan en otras tareas como el chunking: precisión,cobertura y factor

� � . Dependiendo de la tarea, la precisión mide el porcentaje de eti-quetas de comienzos, de finales o de cláusulas detectadas correctamente respecto al totalde etiquetas propuestas por el sistema. La cobertura mide el porcentaje de etiquetas decomienzos, de finales o de cláusulas detectadas correctamente respecto a las que apare-cen en el corpus de referencia. Finalmente, los sistemas se ordenaron según la prestaciónindicada por el factor

� �� . El valor de� � fijado como referencia (baseline) se calculó con-

siderando que una oración contiene una única cláusula que comienza en el primer tokende la oración y termina en el último.

sistema precisión cobertura F� � �

Carreras y Màrquez 93.96% 89.59% 91.72Tjong Kim Sang 92.91% 85.08% 88.82MME 90.50% 84.90% 87.61Déjean 93.76% 81.90% 87.43Patrick y Goyal 89.79% 84.88% 87.27referencia 98.44% 36.58% 53.34

Tabla 6.1: Resultados ofrecidos por los diferentes sistemas para el conjunto de prueba en la Parte1 –detección de comienzos– de la tarea de detección de cláusulas.


Carreras y Màrquez 90.04% 88.41% 89.22Tjong Kim Sang 84.72% 79.96% 82.28Patrick y Goyal 80.11% 83.47% 81.76MME 80.87% 76.28% 78.51Déjean 99.28% 48.90% 65.47referencia 98.44% 48.90% 65.34

Tabla 6.2: Resultados ofrecidos por los diferentes sistemas para el conjunto de prueba en la Parte2 –detección de finales– de la tarea de detección de cláusulas.

En las tablas 6.1, 6.2 y 6.3 se muestran los resultados obtenidos por los diferentes sis-temas que participaron en la competición. Se puede observar que todos ellos superaronel valor de referencia.

Un total de seis sistemas participaron en la tarea de detección de cláusulas. Los siste-mas participantes aplicaron distintas técnicas de aprendizaje: boosting, redes neuronales,



Carreras y Màrquez 84.82% 73.28% 78.63MME 77.47% 62.70% 69.30Tjong Kim Sang 76.91% 60.61% 67.79Patrick y Goyal 73.75% 60.00% 66.17

Déjean 72.56% 54.55% 62.77Hammerton 55.81% 45.99% 50.42referencia 98.44% 31.48% 47.71

Tabla 6.3: Resultados ofrecidos por los diferentes sistemas para el conjunto de prueba en la Parte3 –detección de cláusulas anidadas– de la tarea de detección de cláusulas.

aprendizaje basado en memoria, aproximaciones simbólicas y estadísticas. Las principa-les características de estos sistemas se resumen a continuación.

� Hammerton (2001) utiliza una arquitectura basada en redes neuronales recursivas(long short-term memory), que le permite mantener en los nodos información acercade la cláusula que se está procesando. El alto coste computacional de este algoritmohace que sólo pueda entrenar con un subconjunto de datos (2000 oraciones).

� El sistema ALLiS, que ya fue utilizado en la tarea de chunking (ver apartado 5.4.2),se aplica por Déjean (2001) para aprender un conjunto de reglas que marquen loscomienzos y los finales de cláusula. Combinando los comienzos y finales medianteuna serie de heurísticas se determina el anidamiento de cláusulas.

� Patrick y Goyal (2001) aplican un algoritmo de boosting para mejorar el rendimientode los grafos de decisión. Un grafo de decisión es una extensión de los árboles dedecisión que permite que un nodo del árbol tenga más de un padre, evitando losproblemas de duplicidad o fragmentación que presentan los árboles de decisión.

� Tjong Kim Sang (2001) utiliza la aproximación de aprendizaje basada en memo-ria. La información disponible por el sistema (palabras, etiquetas POS, etiquetas dechunk) se combina de diferentes formas, a la vez que se varía el tamaño de la ven-tana de contexto (entre 0 y 3). El sistema resuelve de forma aceptable la detecciónde comienzos y finales de cláusula, pero es incapaz de detectar cláusulas anidadasya que necesitaría trabajar con ventanas de tamaño mucho mayor. Por ello, paraabordar la parte 3 combina los resultados de las partes 1 y 2 mediante una serie deheurísticas que producen un parentizado consistente de la oración.

� Carreras y Màrquez (2001) combina varios clasificadores basados en árboles de de-cisión mediante técnicas de boosting. Esto les permite descomponer el problema dela detección de cláusulas en una combinación de decisiones binarias. El algorit-mo proporciona una lista de cláusulas candidatas de las cuales se extraen aquellas


que tienen un mayor valor de confianza siempre que el parentizado de la oraciónsea consistente. Una parte importante del éxito de esta aproximación radica enla selección de rasgos relevantes para la tarea, que fueron diseñados teniendo encuenta conocimiento lingüístico. En concreto, se consideran varios tipos de rasgos:etiqueta morfosintáctica, las palabras etiquetadas con determinadas etiquetas mor-fosintácticas, etiquetas de chunk, patrones de oración (que representan estructurasoracionales relevantes para distinguir cláusulas) y rasgos de oración (que cuentanocurrencias de ciertos elementos relevantes para la tarea).

� Nuestro sistema utiliza la aproximación de MME según se describe a continuación.

6.3 MME para la detección de cláusulas

Para la construcción del MME que lleva a cabo la detección de cláusulas, se va a conside-rar la información definida en la tarea compartida CoNLL01 descrita en el apartado 6.2.La información disponible en el conjunto de datos de entrenamiento es la siguiente:

Rasgos de entrada ��

, donde:

� �� palabras o tokens que forman las oraciones de entrada � . � �� = 19,122palabras distintas.

� �� etiquetas morfosintácticas asociadas a las palabras de entrada por el eti-quetador de Brill � . � �� = 44 etiquetas distintas.

� � � �etiquetas de chunk asociadas a las palabras de entrada por el analizador

parcial de Sang � . � � � � = 18 etiquetas distintas.

Etiquetas de salida, que son específicas para cada parte de la tarea:

��

S,X � . Los tokens en los cuales comienza una cláusula tienen asociada laetiqueta S, el resto se etiquetan con X. Estas etiquetas se utilizan en la Parte 1 de latarea.

��

� �

E,X � . Los tokens en los que finaliza una cláusula tienen asociada la etiquetaE, el resto se etiquetan con X. Estas etiquetas se utilizan en la Parte 2 de la tarea.

��

(S*, *S), *, (S(S*, ... � . Mediante el parentizado se expresael anidamiento de cláusulas. Todos los tokens se etiquetan con *. Si en un tokencomienza una cláusula se concatena la etiqueta (S por la izquierda, y si finalizauna cláusula se concatena por la derecha la etiqueta S). La talla de este conjuntodepende del nivel máximo de anidamiento. En el corpus de entrenamiento el nivelmáximo es de 7 cláusulas anidadas, lo que proporcionaría un conjunto potencial de

6.3. MME para la detección de cláusulas 159

64 etiquetas de cláusula distintas. Sin embargo, en el corpus sólo se observan 20etiquetas.

La Parte 1 y la Parte 2 de la tarea se han abordado como problemas de etiquetado dela forma habitual. Es decir, dada una oración de entrada

�, el proceso de análisis de

�

proporciona la secuencia de estados de máxima probabilidad en el modelo. Las etiquetasasociadas a estos estados indicarán si en una palabra comienza (Parte 1) o acaba (Parte 2)una cláusula.

La Parte 3 se ha abordado de dos formas distintas:

� Combinando las etiquetas de comienzos y finales de cláusula proporcionadas por elsistema mediante un conjunto de reglas o heurísticas que aseguren un parentizadoconsistente. Este método fue aplicado en CoNLL01 por aquellos sistemas que nopodían abordar directamente esta parte de la tarea (Tjong Kim Sang, 2001)(Déjean,2001). Las reglas que proporcionan un parentizado consistente son:

1. Se asume que exactamente una cláusula comienza en cada posición de comien-zo de cláusula.

2. Se asume que exactamente una cláusula acaba en cada posición de final decláusula, pero

(a) se ignoran los finales de cláusula cuando no hay una cláusula abierta, y

(b) se ignoran los finales de cláusula que intentan cerrar la cláusula princi-pal (la que comienza en la primera palabra de la oración) cuando no seencuentran en la posición final de la oración.

3. Si hay cláusulas abiertas, que no se cierran al final de la oración, entonces seañaden los finales de cláusula necesarios en el penúltimo token de la oración(justo antes del símbolo de puntuación final).

� Como un problema de etiquetado, utilizando las etiquetas� �

. Como se explicaráen el apartado 6.3.2 esto puede dar lugar a parentizados inconsistentes que debencorregirse con heurísticas similares a las citadas anteriormente.

En la figura 6.2 se observa cuál sería el efecto de la aplicación de los mejores criteriosde selección y especialización sobre una muestra del corpus de entrenamiento para la Parte3 de detección de cláusulas anidadas.

En las tres partes de la tarea los modelos de segundo orden (trigramas) ofrecen mejo-res prestaciones que los modelos de primer orden (bigramas). Por ello, los resultados quese presentan en los apartados siguientes se refieren siempre a modelos de segundo orden.Los experimentos para cada una de las partes de la tarea se detallan como sigue: 1) semuestran los resultados que se obtendrían con las distintas combinaciones de criterios


� ��

� � ��

� / �� / �� / � � � � � � � �

You PRP B-NP (S* PRP PRP � (S1*will MD B-VP * will �MD MD � *1start VB I-VP * VB VB � *1to TO I-VP * to � TO TO � *1see VB I-VP * VB VB � *1shows NNS B-NP * NNS NNS � *1where WRB B-ADVP (S* where �WRB WRB � (S2*viewers NNS B-NP (S* NNS NNS � (S3*program VBP B-VP * VBP VBP � *3the DT B-NP * the �DT DT � *3program NN I-NP *S)S) NN NN � *S3)S2). . O *S) . O � *S1)

Figura 6.2: Ejemplo del resultado de aplicar el mejor criterio ( �� / , �� / � � � )sobre una muestra del corpus de entrenamiento.

de selección y especialización total, 2) se muestran los resultados de la especializaciónparcial sobre �� y 3) se detallan los resultados de la estrategia de búsqueda definidaen el algoritmo 2 en cada una de sus iteraciones.

6.3.1 Detección de comienzos y finales de cláusula

Criterios de selección y de especialización total

En las tablas de la figura 6.3 se recogen los resultados obtenidos sobre el conjunto dedesarrollo, en términos de F � , para la Parte 1 y la Parte 2 de la tarea, respectivamente. De-bido a que el vocabulario del conjunto �� es demasiado elevado, una especializacióntotal sobre las palabras ( �� ) produce modelos con un número excesivo deestados lo cual impide una correcta estimación de los mismos. Por ello, se ha considera-do únicamente una especialización parcial sobre �� . A la vista de estos resultados sepuede deducir que:

� La detección de comienzos de cláusula (F � =89.24) es más sencilla que la detecciónde finales (F � =79.05).

� En la detección de finales de cláusula, la combinación de varios rasgos de entrada


Parte 1 Especialización (�� )

Selección (��

)� � � � ��

�� 69.93 83.97 79.35 84.32� � � 61.49 83.30 76.08 83.77�� 61.88 76.41 78.85 79.28�� 77.43 86.15 82.45 86.80�� 70.57 85.15 81.09 85.85� � �� 75.56 88.46 83.22 89.24�� 77.34 85.92 82.67 86.92

Parte 2 Especialización (�� )

Selección (��

)� � � � ��

�� 66.82 75.23 70.97 74.21� � � 64.39 79.05 75.14 78.43�� 63.91 73.25 73.79 75.48�� 66.99 75.60 72.05 74.99�� 67.07 75.57 71.34 74.34� � �� 65.11 78.68 74.87 78.41�� 67.07 75.05 71.45 74.76

60

65

70

75

80

85

90

PAL POS CH PAL·CH PAL·POS POS·CH PAL·POS·CH

Fβ=

1

Criterio de Selección

Crit. EspecializaciónO1

POS·O1CH·O1

POS·CH·O160

65

70

75

80


Fβ=

1



POS·O2CH·O2

POS·CH·O2

Figura 6.3: Factor F� � � sobre el conjunto de desarrollo (sección 20 del corpus WSJ) para la Parte 1

y la Parte 2 de la tarea de detección de cláusulas combinando distintos criterios de selección totaly de especialización total.


no mejora sustancialmente las prestaciones del modelo. Por ejemplo, en la columna�� que se corresponde con el modelo en el cual no se han especializado las etique-

tas de salida, no existen diferencias significativas cuando se considera como criteriode selección �� (F � =66.82), �� (F � =67.07) o ��

(F � =67.07). Elrasgo más determinante es la etiqueta morfosintáctica ( �� ): se observa que paracualquier criterio de selección el mejor resultado se obtiene cuando se especializanlas etiquetas de salida con � �� . Igualmente, para un criterio de especialización de-terminado el mejor resultado se obtiene cuando se considera �� como criterio deselección.

� En la detección de comienzos de cláusula, la combinación de varios rasgos comocriterio de selección sí que mejora los resultados. Nuevamente se observa que elrasgo que más información aporta es � �� , pero si se combina con � �

se obtienenpequeñas mejoras: para cualquier criterio de selección el mejor resultado se obtieneespecializando con �� y � �

; para cualquier criterio de especialización el mejorresultado se obtiene considerando a la entrada �� y � �

.

� La incorporación de las palabras ( �� ) en el modelo no mejora los resultados yen muchos casos los empeora. Sin embargo, a la vista de los resultados propor-cionados por los modelos en los cuales no se especializan las etiquetas de salida(columnas

� � y�

� ), se puede decir que el rasgo �� (o su combinación junto aotros rasgos) aporta cierta información. Esto se debe a que estos modelos tienenúnicamente dos estados, correspondientes a las dos etiquetas de cláusula, y por lotanto, el etiquetado depende principalmente de las probabilidades de emisión endichos estados.

Criterios de selección y de especialización parcial

Como se ha comentado anteriormente, la incorporación de las palabras en los modeloscomo criterio de selección no ofrece mejoras significativas ni en la detección de comien-zos ni en la detección de finales de cláusula. Si se especializara con todas las palabras elnúmero de estados se incrementaría de tal forma, que no se dispondrían de datos sufi-cientes para entrenar un modelo fiable. Por ello, se ha procedido a la selección de ciertaspalabras, que pueden ser relevantes para la tarea. � �� está formado por las palabrasque pertenecen a categorías morfosintácticas que están relacionadas con los límites decláusula: CC, DT, EX, IN, MD, PDT, WDT, WP, WP$, WRB ( � �� =128). Se ob-serva que esta “lexicalización” de los modelos apenas mejora las prestaciones. Las tablasParte 1 y Parte 2 de la figura 6.4 indican que solamente se obtienen diferencias significa-tivas en la detección de comienzos de cláusula (de F � =89.24 a F � =89.75), mientras que elincremento en la detección de finales es menor (de F � =79.05 a F� =79.27).


Parte 1 Especialización (�� )� � ��

Selección (��

) � � �� 88.66 83.07 89.35�� 83.74 82.22 86.60�� 89.13 84.04 89.75

Parte 2 Especialización (�� )� � ��

Selección (��

) � � �� 79.27 75.16 78.55�� 75.08 74.61 76.50�� 78.82 74.96 78.46

Parte 1 Especialización (�� )��

Selección (��

) � � �� 88.87 87.63 88.85�� 85.09 86.08 85.98�� 89.07 88.02 88.65

Parte 2 Especialización (�� )��

Selección (��

) � � �� 78.57 75.72 78.10�� 75.36 75.61 76.03�� 78.37 75.53 78.19

82

83

84

85

86

87

88

89

90

91

PAL·POS PAL·CH PAL·POS·CH

Fβ=

1


Crit. EspecializaciónPOS·O1

CH·O1POS·CH·O1

PAL·POS·O1PAL·CH·O1

PAL·POS·CH·O1

73

74

75

76

77

78

79

80

81

PAL·POS PAL·CH PAL·POS·CH

Fβ=

1



CH·O1POS·CH·O1


PAL·POS·CH·O1

Figura 6.4: Factor F�

sobre el conjunto de desarrollo (sección 20 del corpus WSJ) para la Parte 1y la Parte 2 de la tarea de detección de cláusulas considerando criterios de selección parcial y deespecialización parcial sobre el rasgo �� .

Tarea �� Precisión Cobertura F��

Parte 1 �� / � �� / � �� 91.96% 87.64% 89.75 888

Parte 2 �� / �� / � � � 79.71% 78.83% 79.27 817

Parte 3 74.43% 66.63% 70.32

Tabla 6.4: Resultados de precisión, cobertura y factor F�� utilizando el conjunto de desarrollo

(sección 20 del corpus WSJ) ofrecidos por los mejores criterios de selección y especialización.


Parte 1�� F

�� 61.49� � � � � �� 83.30�� 61.88�� 78.85� � �� 88.46� � �� 89.24�� 89.75�� 88.65

Parte 2�� F

�� 69.39� � � � � �� 79.05�� 63.91�� 73.79� � �� 78.68�� 79.27�� 78.57

Tabla 6.5: Iteraciones con la estrategia de búsqueda para la Parte 1 y la Parte 2 de la tarea dedetección de cláusulas.

Por último, indicar que la combinación de las salidas proporcionada por el mejormodelo de comienzos y el mejor modelo de finales, utilizando la heurística definida enCoNLL01, proporciona un valor de F � =70.32 en la detección de cláusulas anidadas. Latabla 6.4 resume los resultados sobre las tres partes de la tarea utilizando el mejor de losmodelos.

Estrategia de búsqueda

En la estrategia de búsqueda se marcan como rasgos para selección y especialización total�� y � �

, y para la selección y especialización parcial �� . La tabla 6.5 muestra loscriterios que se prueban en cada una de las iteraciones del procedimiento de búsqueda yel valor de F � alcanzado en cada una de ellas.

6.3.2 Detección de cláusulas anidadas

A diferencia de otros métodos de aprendizaje, los MM pueden utilizarse para detectarcláusulas anidadas, haciendo las siguientes consideraciones:

� El conjunto de etiquetas de salida está formado por etiquetas que indican cuántascláusulas comienzan y/o terminan en cada token (

� �).

� El nivel de anidamiento vendrá determinado por el máximo nivel de anidamientovisto en el corpus de entrenamiento.

� Para aumentar la cobertura de los modelos deberán completarse con los estados co-rrespondientes a las etiquetas de anidamiento que no estén presentes en el conjuntode entrenamiento.


El problema de esta aproximación es que se pueden producir etiquetados que no sonconsistentes, es decir, con cláusulas que no estén correctamente balanceadas. Esto sedebe a las particularidades del modelo y del algoritmo de análisis, el cual proporcionala secuencia de etiquetas de máxima probabilidad, pero en ningún momento comprue-ba la consistencia del etiquetado respecto al parentizado. Este problema puede evitarseparcialmente realizando un enumerado de las etiquetas de cláusula según los niveles deanidamiento. Sin embargo, el suavizado de los modelos puede introducir errores en elbalanceo que deben ser igualmente corregidos. La corrección de los errores de balanceopuede realizarse adaptando las heurísticas utilizadas en la sección anterior para combi-nar Comienzos y Finales de cláusula. En este caso, solamente se debe considerar queen un token pueden empezar y/o terminar varias cláusulas. La heurística aplicada es lasiguiente:

1. Se asume que la cláusula principal de la oración se abre en el primer token y se cierraen el último token de la oración.

2. Se ignoran los finales de cláusula que intentan cerrar la cláusula principal (la quecomienza en la primera palabra de la oración) cuando no se encuentran en la posi-ción final de la oración.

3. Si hay cláusulas abiertas, pero no se cierran al final de la oración, entonces se añadenlos finales de cláusula necesarios en el penúltimo token de la oración (justo antes delsímbolo de puntuación final).

Criterios de selección y de especialización total

En las tablas de la figura 6.5, se muestran los resultados de la combinación de distintoscriterios de selección total ( �� , � �� , � � � � �

) y de especiali-zación total ( �� , � � � � �

). En lo que respecta a la numeración de lasetiquetas de salida se ha comprobado experimentalmente que los mejores resultados seobtienen enumerando únicamente las etiquetas correspondientes a los 3 primeros nivelesde anidamiento. De estas tablas se puede deducir que:

� Por lo general, los modelos aprendidos con enumeración de las etiquetas de cláusu-la ofrece mejores resultados. Sin embargo, se puede apreciar que cuando intervie-nen las palabras ( �� ) las prestaciones de estos modelos son mucho peores. Estose debe a que tanto � �� como � � � son demasiado elevados para obtener modelosfiables con el conjunto de entrenamiento utilizado.

� El criterio de selección que ofrece mejores prestaciones, independientemente del cri-terio de especialización escogido, es ��

.


Parte 3 Especialización (�� ) Sin Enumerar

Selección (��

)� � � ��

�� 57.01 67.20 61.65 66.73� � � 54.04 66.37 59.11 66.17�� 55.76 59.42 61.58 61.73�� 59.67 67.43 62.94 67.79�� 56.86 67.70 62.17 67.23� � �� 59.55 69.16 63.27 69.74�� 59.74 66.76 62.74 67.01

Parte 3 Especialización (�� ) Enumeradas

Selección (��

)� � � ��

�� 50.39 62.23 55.77 62.50� � � 55.83 69.95 65.03 68.19�� 58.22 59.74 65.80 61.69�� 50.77 62.34 57.42 62.62�� 50.13 62.86 56.64 62.94� � �� 62.56 72.67 69.22 72.09�� 50.70 62.29 57.59 62.99

55

57.5

60

62.5

65

67.5

70


Fβ=

1



POS·O3CH·O3

POS·CH·O3

50

52.5

55

57.5

60

62.5

65

67.5

70

72.5

75


Fβ=

1



POS·O3CH·O3

POS·CH·O3

Figura 6.5: Factor F� � � utilizando el conjunto de desarrollo (sección 20 del corpus WSJ) para la

Parte 3 de la tarea de detección de cláusulas combinando distintos criterios de selección total y deespecialización total.


Parte 3 Especialización (��

Enumeradas)� � �� Selección (

��)

� � �� 73.64 68.90 71.86 71.46 70.79 71.08�� 65.86 68.52 68.76 66.21 69.72 67.95�� 73.25 69.24 72.56 71.59 70.93 70.94

65

67

69

71

73

PAL·:POS PAL·CH PAL·POS·CH

Fβ=

1



CH·O3POS·CH·O3


PAL·POS·CH·O3

Figura 6.6: Factor F�

utilizando el conjunto de desarrollo (sección 20 del corpus WSJ) para la Parte3 de la tarea de detección de cláusulas considerando criterios de selección parcial y de especiali-zación parcial sobre el rasgo �� y enumeración de etiquetas de cláusula.

� Los criterios de especialización �� y �� se comportan de manera si-

milar. Si bien el primero de ellos ofrece mejores prestaciones en los modelos conetiquetas enumeradas, debido a que el número de parámetros a estimar es menor.

Criterios de selección y de especialización parcial

Finalmente, en la figura 6.6 se muestra el efecto de la selección y especialización par-cial sobre �� para el modelo con cláusulas enumeradas. Las palabras consideradasen �� y �� son las mismas que se utilizaron para abordar la Parte 1 y la Parte2 de la tarea (aquellas cuya etiqueta morfosintáctica es CC, DT, EX, IN, MD, PDT,

WDT, WP, WP$ o WRB). Se observa que las prestaciones mejoran ligeramente solamen-te cuando las palabras se tienen en cuenta como criterio de selección �� . En concreto,para el mejor modelo < �� , �� >, si se consideran solamente las palabras cu-ya frecuencia es superior a 50 en el conjunto de entrenamiento (un total de 69 palabras)se obtiene un F � de 73.64.


Parte 3�� F

�� 55.83� � � � � �� 69.95�� 58.22�� 65.80� � �� 72.67� � �� 72.09�� 73.25�� 71.59

Tabla 6.6: Iteraciones con la estrategia de búsqueda para la Parte 3 de la tarea de detección decláusulas.

Estrategia de búsqueda

En la estrategia de búsqueda se marcan como rasgos para selección y especialización total�� y � �

, y para la selección y especialización parcial �� . La tabla 6.6 muestra loscriterios que se prueban en cada una de las iteraciones del procedimiento de búsqueda yel valor de F � alcanzado en cada una de ellas. En este caso la estrategia de búsqueda noalcanza el óptimo F � de 73.25 para el criterio < ��

, �� > frente al mejor

resultado F � =73.64 del criterio < �� , �� >, pero el coste computacional

es menor ya que solamente son necesarias 8 iteraciones en el procedimiento de búsqueda.

6.3.3 Resumen

En este capítulo se han aplicado los MME en la tarea de detección de cláusulas. Losresultados experimentales indican que la utilización de modelos especializados mejoralas prestaciones de los modelos básicos sobre esta tarea. Los mejores criterios para cadauna de las partes de la tarea definidas se resumen en la Tabla 6.7.

Estos criterios se han escogido en función de los resultados ofrecidos por el sistemasobre el conjunto de desarrollo (sección 20 del WSJ) y, por lo tanto, están adaptados aéste. Los resultados que ofrece sobre el conjunto de datos de prueba (sección 21 del WSJ)se resumen en la Tabla 6.8. Se observa que las prestaciones del sistema son peores sobreel conjunto de prueba que sobre el conjunto de desarrollo. Aunque en principio esto sepuede atribuir a que los parámetros se han adaptado al conjunto de desarrollo, todoslos sistemas participantes en la tarea de detección de cláusulas se comportaron de formasimilar, lo que también indica una mayor dificultad en el conjunto de prueba.

Los resultados ofrecidos sobre la tarea compartida para las tres partes de la tareaestán por debajo del mejor de los sistemas (Carreras y Màrquez, 2001) sobre esa misma


Criterio de Selección Criterio de EspecializaciónParte 1 ��

palabras cuya POSes

� � � � 0 � � ��

� � � � � � � � ��

�� / � � � � / �

� / �� /��

Parte 2 �� palabras cuya POS

es� � � � 0 � � ��

� � � ��

�� palabras cuya POS

es� � � � 0 � � ��

� � � ��

�� / � � � � / �

� / �� /��

Parte 3 �� palabras cuya POS

es� � � � 0 � � ��

� � � ��

��

�� / � � � � / �

� / � � � � /��

�� nivel de ani-damiento de �

� � � � = � �Tabla 6.7: Mejores criterios de selección y especialización para las tres partes de la tarea de detecciónde cláusulas.

desarrollo Precisión Cobertura F��

Parte 1 91.96% 87.64% 89.75Parte 2 79.71% 78.83% 79.27Parte 3 77.92% 69.80% 73.64

prueba Precisión Cobertura F��

Parte 1 90.50% 84.90% 87.61Parte 2 80.87% 76.28% 78.51Parte 3 77.47% 62.70% 69.30

Tabla 6.8: Resultados de precisión, cobertura y factor F�

sobre los conjuntos de desarrollo (sección20 del corpus WSJ) y de prueba (sección 21 del corpus WSJ) ofrecidos por los mejores criterios deselección y especialización.


tarea. Respecto al resto de sistemas la detección de comienzos y finales de cláusula esligeramente inferior, pero la detección de cláusulas anidadas es algo superior (69.30 deF � frente a 67.79 de la aproximación de Tjong Kim Sang (2001)). Una de las desventajasde la aproximación es la necesidad de utilizar las reglas de corrección de cláusulas, quetambién utilizaron otros sistemas participantes en la tarea. Una solución consistiría enmodificar el algoritmo de análisis para que en una etapa de programación dinámica nose pueda transitar a estados que representen parentizados incorrectos.

Capítulo 7

Desambiguación del sentido de laspalabras

En este capítulo se aborda la tarea de desambiguación del sentido de las palabras me-diante MME. En primer lugar, se realiza un breve repaso sobre los recursos disponiblesy las aproximaciones más relevantes, haciendo mayor énfasis en las aproximaciones su-pervisadas, las que abordan tareas de desambiguación de todas las palabras del texto,así como las participantes en la última edición de la competición Senseval. Después sedescriben los experimentos realizados para construir el MME y su evaluación sobre dostareas: el corpus SemCor y la tarea all-words para el inglés de Senseval-2.

7.1 Introducción

La desambiguación del sentido de las palabras (Word Sense Disambiguation, WSD) es elproblema de decidir cuál es el sentido correcto de una palabra en un contexto determi-nado. Por lo tanto, se puede abordar también como un problema de etiquetado, en elque a cada palabra se le debe asignar la etiqueta del sentido correspondiente, entre todosaquéllos definidos en un diccionario. La información semántica asociada a una palabrapuede ayudar a resolver otras tareas, como el análisis sintáctico o la comprensión dellenguaje (Moreno, 1993), resolución de cadenas anafóricas (Harabagiu y Maiorano, 1999;Noeda, 2002), adquisición de preferencias seleccionales (McCarthy, 2001; Agirre y Mar-tínez, 2002) o puede incorporarse en aplicaciones como traducción automática (Habashy Dorr, 2002), recuperación de información (Mihalcea y Moldovan, 2000), búsqueda derespuestas (Moldovan et al., 2002; Vicedo, 2002), etc. para mejorar sus prestaciones.

Por ejemplo, un sistema de recuperación de información tradicional responderá a lapregunta plantas que viven en el mar con todos los documentos que contengan los térmi-nos planta y mar independientemente de su significado. En algunos de estos documentos

171

172 Capítulo 7. Desambiguación del sentido de las palabras

el término planta aparecería con el sentido de ser vivo, mientras que en otros significaríaindustria. Si el sistema de recuperación de información fuera capaz de distinguir los sen-tidos de los términos de la consulta, devolvería solamente los documentos en los que seusa el sentido de ser vivo. Para ello, el sistema debe integrar un módulo de WSD, tan-to para desambiguar los términos de la consulta como los términos de los documentosindexados.

La dificultad para abordar la tarea de WSD se debe a varias razones. Por un ladoestán las dificultades intrínsecas de la tarea:

� El grado de ambigüedad medio por palabra es mayor que en otras tareas. Mientrasque en el etiquetado morfosintáctico, por ejemplo, el grado de ambigüedad estáentre 2 y 3 etiquetas por palabra, en WSD puede ser entre 5 y 6 sentidos por palabra.

� El número de sentidos diferentes suele ser muy elevado, si no se restringe el domi-nio de la aplicación. Los métodos de aprendizaje deben ser capaces de estimar deforma fiable un número elevado de parámetros.

� El contexto necesario para poder desambiguar una palabra puede ser muy extenso,incluyendo párrafos u oraciones anteriores.

� Las fuentes de información necesarias para poder desambiguar una palabra sonmuy diversas y, a veces, no se dispone de ellas: morfología, sintaxis, preferenciasseleccionales, conocimiento pragmático, etc.

Por otro lado, se encuentran las dificultades en la evaluación de los sistemas de de-sambiguación: la definición de sentidos utilizada (o diccionario), la lengua, las medidasde evaluación, el alcance del sistema, etc. Los recursos disponibles hasta el momentoson insuficientes para que las aproximaciones de aprendizaje automático alcancen unosresultados satisfactorios, como lo han hecho en otras tareas de desambiguación. Ade-más, la mayoría de estos recursos se han construido principalmente para el inglés, porlo que para el resto de lenguas se han desarrollado principalmente aproximaciones nosupervisadas.

7.2 Senseval

El éxito de un sistema de desambiguación, y en particular de un sistema de WSD, depen-de de la fiabilidad de su evaluación. Por ello, en 1998 surgió el taller Senseval, teniendocomo principal objetivo la organización de tareas de evaluación y validación de sistemasde WSD respecto a la desambiguación de determinadas palabras, diferentes aspectos deun idioma, distintos idiomas y diferentes aplicaciones.

7.2. Senseval 173

Número de Índice de Valor de Cobertura delIdioma Tarea Sistemas acuerdo Referencia Mejor SistemaCheco AW 1 - - 94.0%Vasco LS 3 75.0% 65.0% 76.0%Estonio AW 2 72.0% 85.0% 67.0%Italiano LS 2 - - 39.0%Coreano LS 2 - 71.0% 74.0%Español LS 12 64.0% 48.0% 65.0%Sueco LS 8 95.0% - 70.0%Japonés LS 7 86.0% 72.0% 78.0%Inglés AW 21 75.0% 57.0% 69.0%Inglés LS 26 86.0% 51.0% 64.0%

Tabla 7.1: Resumen sobre la participación en Senseval-2 en las tareas lexical-sample (LS) y all-words(AW).

Senseval está organizado por un comité auspiciado por el ACL-SIGLEX (el grupo deinterés especial en lexicón de la ACL). Hasta la fecha se han realizado dos ejercicios deevaluación en los años 1998 (Senseval-1) y 2001 (Senseval-2) (Edmonds, 2002). En la últimaedición se definieron tres tareas: all-words, lexical-sample y translation.

En la tarea all-words, los sistemas deben etiquetar todas las palabras con contenidosemántico de un texto. Esta tarea se llevó a cabo para los idiomas checo, estonio, holan-dés e inglés. La tarea lexical-sample tiene como objetivo evaluar solamente un conjuntopreviamente seleccionado de palabras. Esta tarea se abordó para el coreano, español, in-glés, italiano, japonés, sueco y vasco. En la tarea translation un sentido de una palabra sedefine de acuerdo a sus distintas traducciones. Esta tarea fue definida solamente para eljaponés.

La tabla 7.1 resume los datos de participación para cada idioma en las dos tareas prin-cipales. En total se probaron 84 sistemas, algunos de los cuales se aplicaron a diversastareas o diversas lenguas. Se presentaron tanto sistemas supervisados, que utilizan el cor-pus de entrenamiento etiquetado como fuente de aprendizaje, como no supervisados queutilizan otros recursos como corpora no etiquetados, diccionarios, tesauros, etc. El índicede acuerdo entre anotadores, que en ningún caso alcanza el 100%, muestra la dificultad dela tarea y también la dificultad de su evaluación. Al menos se utilizaron dos anotadorespara etiquetar cada instancia de palabra del conjunto de datos utilizado en cada tarea.En caso de conflicto se utilizó un tercero para resolver el desacuerdo. El valor de referen-cia expresados en términos de cobertura (recall) se calculó de forma diferente para cadatarea. Por lo general, si se diponía de corpus de entrenamiento el valor de referencia secalculaba asignando a cada palabra el sentido más frecuente en el corpus. Para la tareaall-words del inglés, dado que no se proporcionó ningún corpus, el valor de referencia se


calculó asignando a cada palabra el primer sentido en la base de datos léxica WordNetque se describe en el apartado 7.3.1. Este valor alcanza el 57% de cobertura

Una tarea en Senseval-2 consta de tres tipos de datos, aunque a veces puede que algu-no de ellos no esté disponible: 1) Un listado de sentidos, su relación con las palabras de lalengua y, en los casos que se disponga, alguna información adicional como por ejemploWordNet. 2) Un corpus manualmente desambiguado para entrenamiento y para prueba.3) Una agrupación o jerarquía de sentidos que permite evaluar los sistemas de acuerdo adistintas granularidades: granularidad fina (fine-grained) , en la cual el sentido proporcio-nado por el sistema debe coincidir con alguno de los de referencia; de granularidad gruesa(coarse-grained), en la cual el sentido proporcionado y el de referencia deben ser hijos delmismo padre en la jerarquía; y de granularidad mixta, en la cual se considera correcto queel sentido proporcionado sea el padre del sentido de referencia.

Las medidas de evaluación utilizadas son las habituales de precisión (precision) y co-bertura (recall). Pero, como no se exige que un sistema asigne un sentido a todas lasinstancias, también se utilizó la cobertura absoluta (coverage), que indica el porcentaje derespuestas proporcionadas por el sistema.

Como diccionario de sentidos se utilizó WordNet 1.7 para el inglés, y EuroWordNet pa-ra el español, estonio e italiano. El bajo índice de acuerdo entre anotadores humanos quemuestra la tabla 7.1, por ejemplo un 75% para el inglés, indica que quizás la granularidadde WordNet no es del todo adecuada para la tarea de WSD y que hay que buscar nue-vas ontologías, o nuevas formas de agrupar los sentidos, tanto para una fácil evaluacióncomo para una aplicación efectiva de las técnicas de WSD.

La propuesta de MME presentada en esta tesis para WSD, que se describirá con deta-lle en el apartado 7.5, es una aproximación supervisada que necesita un corpus de apren-dizaje completamente etiquetado. Por ello se ha aplicado solamente para el inglés, yaque no se dispone de corpora en otras lenguas, y para la tarea all-words ya que el sistemaetiqueta cada una de las palabras de entrada.

En la tabla 7.2 se resumen los resultados para la tarea all-words del inglés, resultadoscon los que se comparará la propuesta de MME1. Como algunos participantes presen-taron varias versiones del sistema de desambiguación, se muestran solamente los resul-tados del mejor de ellos. La cobertura absoluta indica el porcentaje de palabras que escapaz de desambiguar el sistema. Cuando la cobertura absoluta es del 100% los valo-res de precisión y cobertura coinciden, ya que el sistema desambigua todas las palabras.Por lo general, los métodos supervisados ofrecieron mejores resultados que los no su-pervisados. Solamente tres de los sistemas participanes superaron el valor de referencia(57%). El sistema SMUaw en un 21%, el sistema CNTS-Antwerp en un 11.5% y el sistemaSinqua-LIA en un 8.4%. Esto da una idea de la dificultad de esta tarea.

1Los resultados para las distintas tareas pueden consultarse en http://www.sle.sharp.co.uk/

senseval2/Results/.

7.3. Recursos disponibles para WSD 175

Sistema Precisión Cobertura Cob. Absol.Sistemas supervisados

SMUaw 69.0% 69.0% 100.0%CNTS-Antwerp 63.6% 63.6% 100.0%Sinequa-LIA 61.8% 61.8% 100.0%UCLA-gchao2 47.5% 45.4% 95.6%BCU-ehu-dlist-all 57.2% 29.1% 50.8%

Sistemas no supervisadosUNED-AW-U2 57.5% 56.9% 98.9%CL Research-DIMAP 41.6% 45.1% 100.0%Univ. Sains Malaysia-2 36.0% 36.0% 99.9%IRST 74.8% 35.7% 47.80%Univ. Sheffield 44.0% 20.0% 45.4%Univ. Sussex-sel-ospd 56.6% 16.9% 29.9%IIT 2 32.8% 38.0% 11.7%

Tabla 7.2: Resultados de los sistemas participantes en la tarea all-words de Senseval-2.

7.3 Recursos disponibles para WSD

A continuación se listan los corpora disponibles actualmente para la tarea de WSD2. Co-mo se observa, la mayoría de estos recursos son para el inglés y, en ese caso, están eti-quetados con sentidos de las diferentes versiones de la base de datos léxica WordNet. Detodos ellos, solamente el corpus SemCor está etiquetado completamente y, por lo tanto, esel único adecuado para entrenar la aproximación de MME.

� Corpora line, hard y serve. Contienen más de 12,000 instancias de esas tres pala-bras etiquetadas con sentidos de WordNet 1.5. Los textos provienen de WSJ, “Ame-rican Printing House for the Blind” y “San Jose Mercury”. http://www.d.umn.edu/~tpederse/data.html.

� Corpus interest. Contiene 2,369 instancias de la palabra interest. Los textos extraí-dos del WSJ están etiquetados son los sentidos del Longman’s Dictionary of Contem-porary English. http://crl.nmsu.edu/cgi-bin/Tools/CLR/clrcat#I9.

� Proyecto Hector. Es un proyecto de “Oxford University Press” para etiquetar 300lemas (200,000 instancias) de textos extraídos del “British National Corpus”.

� Corpus Semcor. Es el único corpus completamente etiquetado. Un total de 23,346lemas (234,113 instancias) anotados con los sentidos de WordNet en sus versiones

2Está información se encuentra disponible y actualizada en la página www.senseval.org.


1.5, 1.6 y 1.7. Los textos pertenecen al corpus Brown (80%) y a la novela “The RedBadge of Courage” (20%). http://cogsci.princeton.edu/~wn/.

� Corpus DSO. Textos de los corpora WSJ y Brown, con 191 lemas (192,800 instan-cias) etiquetados con sentidos de WordNet 1.5. http://www.ldc.upenn.edu/

Catalog/LDC97T12.html.

� Proyecto Open Mind Word Expert. Es un proyecto que tiene como objetivo la cons-trucción de un gran corpus etiquetado semánticamente, a partir de las anotacionesde usuarios de la web. Los textos provienen principalmente del WSJ y de “L.A.Times”. Actualmente la cantidad de lemas etiquetados es de 230 (unas 70,000 ins-tancias), y aunque contiene un elevado número de frases duplicadas, la cantidadcrece diariamente. Se utiliza Wordnet 1.7 como diccionario. http://www.teach-computers.org/word-expert.html.

� Proyecto Extended WordNet. Consiste en el etiquetado de las glosas de WordNet1.7 con información sintáctica, formas lógicas y sentidos. La anotación semánticase realizó mediante un procedimiento semi-automático que no garantiza la correctaanotación, pero que clasifica las palabras según el grado de acuerdo entre anota-dores. En total se etiquetaron 564,748 instancias (440,758 nombres, 44,469 verbos,70,748 adjetivos y 8,516 adverbios). http://xwn.hlt.utdallas.edu/.

� Corpus HKUST-Chinese. 38,725 oraciones del corpus Sinica etiquetadas con senti-dos de la base lexicográfica Hownet. http://www.keenage.com.

� Corpus Swedish. Contiene 179,151 instancias del corpus SUC etiquetadas con sen-tidos de la base de datos léxica Gothenburg database. http://svenska.gu.se/

~svedk/SENSEVAL/senseval.html.

� Corpus de títulos de figuras. Títulos de una colección de figuras etiquetados consentidos de WordNet 1.5. Están anotados un total de 2,304 lemas (8,816 instancias).http://www.computing.dcu.ie/ ~asmeaton/SIGIR96-captions/.

� Recursos de Senseval-2. La organización de Senseval-2 puso a disposición de losparticipantes conjuntos de datos de prueba para todas las tareas definidas. Asi-mismo se proporcionó un conjunto de entrenamiento para la tarea lexical-sample decada una de las lenguas.

7.3.1 WordNet

Uno de los recursos más utilizados durante los últimos años es la base de conocimientoléxica WordNet (Miller et al., 1990) 3. En el trabajo experimental que se presenta en el

3http://www.cogsci.princeton.edu/~wn/


apartado 7.5 se ha utilizado la versión 1.6 de WordNet, si bien ya se encuentra disponiblela versión 1.7. WordNet tiene como objetivo organizar el conocimiento léxico según unaontología o jerarquía conceptual, de manera que el acceso a la información léxica no serestrinja a un acceso meramente alfabético. Para ello se ha inspirado en teorías psicolin-güísticas sobre la memoria léxica humana. WordNet almacena información sobre palabrasdel inglés pertenecientes a estas categorías sintácticas: nombres, verbos, adjetivos y ad-verbios. Durante los últimos años también se han desarrollado recursos similares paraotras lenguas. En concreto, el proyecto EuroWordnet4 (Vossen et al., 1997), que finalizó en1999, tuvo como objetivo la construcción de una base de datos léxica multilingüe paravarios idiomas europeos (alemán, checo, estonio, español, francés, holandés e italiano).Cada base de datos se estructura de forma similar al WordNet inglés, estableciendo rela-ciones semánticas entre las distintas palabras. Pero además, los diferentes wordnets estánenlazados entre sí mediante el índice Inter-Lingual-Index basado en el WordNet 1.5. Ac-tualmente se están mejorando y ampliando las distintas bases de datos léxicas, de igualmanera que se están desarrollando otras nuevas para multitud de lenguas5.

Las palabras en WordNet se organizan en conjuntos de sinónimos o synsets, cada unode los cuales representa un concepto léxico diferente. Cada synset contiene la lista de pa-labras sinónimas, y relaciones semánticas establecidas con otras palabras o synsets. Entreestas relaciones se encuentra la sinonimia, hiperonimia, hiponimia, meronimia, antoni-mia, etc. Un programa de desambiguación semántica que utilice WordNet como diccio-nario asignará a cada palabra un sentido de WordNet.

Los sentidos están codificados de la siguiente forma. Las entradas para cada catego-ría sintáctica se organizan en ficheros separados. Para cada categoría (cat)6 existen dosficheros, data.cat e index.cat. El fichero index.cat tiene una entrada por cada lema de la cate-goría cat, que almacena, además de algunas relaciones léxicas, la lista de synsets a los quepertenece dicho lema. El fichero data.cat contiene una entrada para cada synset de la cate-goría cat. Cada synset se codifica como un número entero que indica el desplazamiento enbytes en el fichero data.cat para la entrada correspondiente a dicho synset. Cada entradaalmacena todos los lemas que forman parte de ese conjunto de sinónimos, las relacionessemánticas con otros synsets y la glosa o descripción de ese sentido.

WordNet proporciona un método alternativo para acceder a los synsets. El archivoindex.sense lista todos los sentidos de WordNet. Cada línea de este archivo relaciona unsentido de WordNet (sense_key) con el synset, el número de sentido relativo (sense_numbery la frecuencia de dicho sentido (cnt_tag) en el corpus SemCor.

Un sense_key no varía entre versiones distintas de WordNet y es independiente del

4http://www.hum.uva.nl/~ewn/5Los avances en la construcción de nuevos recursos léxicos pueden consultarse en la web de la Global

WordNet Association http://www.globalwordnet.org/.6Las categorías son noun, verb, adj o adv.


synset y del sentido relativo que sí que pueden variar. Por lo tanto, es la mejor formade representar un sentido en cualquier sistema o aplicación que utilice WordNet. Unsense_key se representa como �� _ � �� , donde el campo �� _ � �� se codificacomo �� _ � � �� _

� � �� _� � � � � � _ � � � � � � � _

� �.

� �� es el lema correspondiente a una palabra o colocación según se encuentranen WordNet.

� �� _ � � �� es un dígito entero que representa el tipo de synset, nombres (1), verbos (2),adjetivos (3), adverbios (4) y adjetivos satélites (5).

� �� _� � �� es un número entero de dos dígitos que representa el fichero lexicográ-

fico que contiene el synset correspondiente a dicho sentido. Durante la construcciónde WordNet los sentidos se organizaron en 45 ficheros según su categoría sintácticay algunas agrupaciones lógicas. Los nombres por ejemplo se clasifican en gruposcomo animal, artefacto, partes del cuerpo, etc., y los verbos pueden ser de cambio, decomunicación, de movimiento, etc.

� �� _� �

es un número entero de dos dígitos que, concatenado con el �� , identifi-ca un único sentido dentro de un fichero lexicográfico.

� Los campos� � � _ � � � y

� � � _� �

se utilizan únicamente para expresar los sentidosde los adjetivos satélites, que dependen de otra palabra de la oración (head).

Por ejemplo, para la palabra tree WordNet 1.6 indica que tiene los sentidos que semuestran en la figura 7.1. Dado un lema y su categoría gramatical, WordNet muestralos sentidos ordenados según el número de ocurrencias de cada sentido para ese lemaen el corpus etiquetado SemCor, el cual se describe en el apartado siguiente. Esa es lainformación que se utiliza para calcular el valor de referencia para la tarea all-words delinglés en Senseval-2.

Los sentidos se clasifican por categoría sintáctica. Para cada uno de ellos se indica elnúmero relativo, el synset, el nombre del fichero lexicográfico y la glosa. También indicasi el sentido aparece o no en el corpus etiquetado SemCor. En este caso la palabra treeaparece en dicho corpus solamente con la acepción � � � �� . En el fichero deíndices, index.sense, aparece relacionado el synset con el sense_key. Por ejemplo, el sentidocorrespondiente a la acepción de � � � �� se codifica como tree%1:20:00::, dondeel código 20 identifica el fichero lexicográfico. El índice indica que este sentido aparece107 veces en el corpus.

En la parte experimental que se presenta en el apartado 7.5 se utiliza como etiquetasemántica el campo lex_sense. Esto permite reducir el conjunto de etiquetas de salida quetiene que manejar el etiquetador. Como se observa en la tabla 7.3, que muestra las esta-dísticas sobre sentidos en WordNet, el conjunto se reduce de 173,941 etiquetas (sentidos)


Overview of noun tree

The noun tree has 2 senses (first 1 from tagged texts)

1. {09396070} <noun.plant> tree --(a tall perennial woody plant having a main trunk

and branches forming a distinct elevated crown;

includes both gymnosperms and angiosperms)

2. {10025462} <noun.shape> tree, tree diagram --(a figure that branches from a single root;

"genealogical tree")

Overview of verb tree

The verb tree has 1 sense (no senses from tagged texts)

1. {00777894} <verb.competition> tree --

(chase a bear up a tree with dogs and kill it)

sense_key synset n.rel. frec-----------------------------------

tree%1:20:00:: 09396070 1 107tree%1:25:00:: 10025462 2 0

tree%2:33:00:: 00777894 1 0

Figura 7.1: Sentidos para la palabra tree en WordNet 1.6.

Categoría � � � _ � �� synsets lex_sensesNombres 116,317 66,025 155Verbos 22,066 12,127 217Adjetivos 8,950 7,003 20Adverbios 5,677 3,575 16Adj. Satélites 20,931 10,912 3,355Total 173,941 99,330 3,763

Tabla 7.3: Estadísticas sobre sentidos en WordNet 1.6.


brown1 brown2 brownv TotalTotal de palabras 198796 160936 316814 676546Palabra etiquetadas 106639 86000 41497 234136

Número de punteros semánticosSentidos asignados a nombres 48835 39477 0 88312Sentidos asignados a verbos 26686 21804 41525 90015Sentidos asignados a adjetivos 9886 7539 0 17425Sentidos asignados a adverbios 11347 9245 0 20592Sentidos asignados a adj. satélites 9970 8347 0 18317Total de sentidos asignados 106724 86412 41525 234661Sentidos asignados a nombres propios 5602 4075 7 9684

Número de sentidos distintosSentidos asignados a nombres 11399 9546 0 16169Sentidos asignados a verbos 5334 4790 6520 9472Sentidos asignados a adjetivos 1754 1463 0 2299Sentidos asignados a adverbios 1455 1377 0 1951Sentidos asignados a adj. satélites 3451 3051 0 6502Total de sentidos distintos 23393 20227 6520 35001

Número de lex_senses distintoslex_sense asignados a nombres 122 123 0 133lex_sense asignados a verbos 165 162 171 190lex_sense asignados a adjetivos 15 14 0 15lex_sense asignados a adverbios 13 13 0 13lex_sense asignados a adj. satélites 1471 1418 0 1853Total de lex_sense distintos 1786 1730 171 2204

Tabla 7.4: Estadísticas sobre el corpus SemCor.

a 3,763 (lex_sense). Además, no hay pérdida de información: dada una palabra y su eti-queta morfosintáctica se puede obtener el lema, que concatenado al lex_sense asignado ala palabra identifica el sentido.

7.3.2 El corpus SemCor

El corpus inglés SemCor7 (Miller et al., 1994) está etiquetado manualmente con sentidosde WordNet. El 80% del corpus proviene de textos pertenecientes al corpus Brown y elresto corresponde a la novela “The Red Badge of Courage” de Stephen Crane.

SemCor se distribuye en tres carpetas de archivos en formato SGML: Brown1 y Brown2contienen documentos donde están etiquetadas todas las ocurrencias de nombres, ver-bos, adjetivos y adverbios, y Brownv cuyos documentos únicamente tienen etiquetados

7El corpus Semcor está disponible en http://www.cogsci.princeton.edu/~wn/

7.4. Aproximaciones a WSD 181

los verbos. El número total de palabras es 676,546 de las cuales están etiquetadas semán-ticamente 234,136. En la tabla 7.4 se muestran algunas cifras sobre la cantidad de palabrasy de sentidos en SemCor separados por categoría sintáctica.

7.4 Aproximaciones a WSD

Los métodos automáticos desarrollados para desambiguar el sentido de las palabras sonmuy diversos. Existen en la literatura estudios que presentan una clasificación detalla-da (Ide y Véronis, 1998) o que exponen los problemas de evaluación de dichos métodos(Resnik y Yarowsky, 2000). Asimismo, recientemente se han presentado algunas tesisdoctorales sobre WSD que revisan el estado actual de este problema (Montoyo, 2002;Ureña, 2002). A continuación se presenta una breve clasificación de estos métodos, inspi-rada en los trabajos citados. Se describe con mayor detalle aquellas aproximaciones másrecientes que mejores resultados ofrecen sobre la tarea all-words de Senseval-2.

Al igual que en otras tareas de desambiguación de lenguaje natural, las aproximacio-nes pueden clasificarse en tres grandes grupos: basadas en corpus, basadas en conoci-miento e híbridas.

7.4.1 Aproximaciones basadas en corpus

Las aproximaciones basadas en corpus extraen información útil para la desambiguación con-tenida en un corpus o texto que puede estar etiquetado semánticamente (métodos super-visados) o no (métodos no supervisados). Se pueden distinguir las siguientes aproxima-ciones en la literatura.

Árboles y listas de decisión

El aprendizaje mediante árboles de decisión utilizando el algoritmo C4.5 (Quinlan, 1993)ha sido utilizado en los trabajos de Mooney (1996) y Pedersen y Bruce (1997a). Crestan etal. (2001) aplicó árboles de clasificación semánticos en la tarea lexical-sample del inglés enSenseval-2.

Las listas de decisión fueron utilizadas por Yarowsky (1994) y por Agirre y Martí-nez (2000) sobre el corpus SemCor. Posteriormente, también fueron utilizadas por Agirrey Martínez (2001) en la tarea all-words del inglés y la tarea lexical-sample del inglés y delvasco en Senseval-2. Las listas de decisión son un método sencillo para resolver problemasde ambigüedad. Fueron utilizadas inicialmente por Yarowsky (1994) para determinar lacorrecta acentuación de palabras en francés y español y, posteriormente en (Yarowsky,1995), se aplicaron a un conjunto de palabras para discernir entre dos sentidos posibles.Agirre y Martínez (2000) generalizaron el método para manejar grados de ambigüedad


superiores a dos, utilizando el corpus SemCor como conjunto de entrenamiento y de prue-ba. También participaron en la tarea all-words del inglés y la tarea lexical-sample del inglésy del vasco en Senseval-2 (Agirre y Martínez, 2001). El funcionamiento de las listas dedecisión es el siguiente. Los datos de entrenamiento se procesan para extraer una seriede características ponderadas con una medida de probabilidad, que se calcula según lafórmula siguiente:

��

� ��

(7.1)

El peso que se asigna a una característica� � para determinar un sentido �� es directa-

mente proporcional a la probabilidad condicionada de � dada� � , e inversamente propor-

cional a la probabilidad de que dada� � el sentido correcto sea cualquier otro ( � � ��

).

La lista de decisión se ordena descendentemente de acuerdo al peso calculado. Enla fase de desambiguación, la lista de decisión se recorre según el orden establecido y lacaracterística con peso más alto que está presente en la oración a desambiguar determinael sentido correcto. Con esta aproximación Agirre y Martínez (2001) consiguieron un57.2% de precisión en la tarea all-words de Senseval-2, pero con una cobertura del 50% delas palabras, ya que solo desambiguaron nombres y verbos. Las características utilizadasfueron de dos tipos: globales y locales. Las locales consisten en los bigramas y trigramas(de palabras, lemas y etiquetas morfosintácticas) alrededor de la palabra foco. Comocaracterísticas globales consideran los lemas de las palabras con carga semántica queaparecen en el contexto oracional de la palabra foco.

Métodos estadísticos

Se han presentado en la literatura distintas aproximaciones estadísticas que calculan laprobabilidad de que a una palabra le corresponda un sentido según el contexto en el queaparezca. Yarowsky (1992) utilizó la medida de información mutua entre palabras y lossentidos del tesauro Roget’s. Esta medida proporciona la probabilidad de que dos suce-sos, por ejemplo una palabra � y un sendido � , aparezcan conjuntamente y se define co-mo

� � � � � � � � � �� . Uno de los métodos estadísticos más simples es el conocido comoNaive-Bayes que permite combinar un gran número de características contextuales. Estemétodo asume la independencia estadística entre las distintas variables del modelo (ca-racterísticas del contexto). Asigna a una palabra � , que aparece en un contexto

�en el que

intervienen una serie de características (� � ), el sentido � que maximiza la probabilidad

condicional, es decir, � � ��

� � � � � � � � . Este modelo fue utilizado inicialmente

por Gale et al. (1993) y se suele tomar como sistema de referencia. Así, (Mooney, 1996)compara el rendimiento de este modelo respecto a otras técnicas de aprendizaje (redes


neuronales, árboles de decisión, reglas de inducción, etc.) sobre una única palabra delinglés (line) con seis sentidos posibles. Pedersen y Bruce (1997b) contrasta este modelocon dos técnicas de clustering para desambiguar 13 palabras del inglés.

Trabajos posteriores llevan a cabo otras comparativas. En Escudero et al. (2000) secomparan cinco métodos sobre el corpus DSO: Naive-Bayes, una aproximación basadaen memoria, el algoritmo de listas de decisión de Agirre y Martínez (2000), el algoritmoWinnow utilizado previamente en análisis superficial (Muñoz et al., 1999) y una modi-ficación del algoritmo AdaBoost que reduce el coste computacional al reducir el espaciode características. En la comparativa es ésta última aproximación la que ofrece mejoresresultados de precisión.

Los MM también se han aplicado a WSD. Segond et al. (1997) construyen un modelode primer orden para la desambiguación de la clase semántica8. La desambiguación nose realiza a nivel de sentidos o synsets, sino entre las 45 clases semánticas definidas enWordNet. Por lo tanto, la complejidad del problema es menor y se alcanzan resultadosentorno al 80% sobre el corpus SemCor. Loupy et al. (1998) aplicó un modelo de segundoorden para determinar el synset, también sobre el corpus SemCor, pero los resultados nomejoraron el sistema base consistente en asignar el sentido más frecuente. En Senseval-2el sistema Sinequa-LIA-HMM presentado por E. Crestan, M. El-Beze y C. Loupy alcanzóuna precisión del 61.8% sobre la tarea all-words del inglés. Este es un sistema híbrido queutiliza MMs para asignar sentidos a todas las palabras de la oración, pero para ciertaspalabras utiliza una aproximación basada en árboles de decisión, que le permite mejorarlos resultados. El sistema consta de dos MMs: en primer lugar determina la clase se-mántica mediante un MM de segundo orden tomando como entrada el lema y la etiquetamorfosintáctica. Esta información, junto a la clase semántica, es la entrada a un segundoMM que determina el sentido más probable.

El modelo de ME ha sido aplicado a WSD por Suárez y Palomar para el español,utilizando los datos de la tarea lexical-sample de Senseval-2, (Suárez y Palomar, 2002), ypara el inglés sobre el corpus DSO (Suárez y Palomar, 2002). En estos trabajos se codificanen el modelo de ME las características definidas en trabajos previos como (Escudero etal., 2000) y (Ng y Lee, 1996).

Aprendizaje basado en ejemplos

Los métodos de aprendizaje basados en ejemplos (o en similitud) también se han apli-cado en WSD, al igual que en otras tareas de desambiguación como se ha presentadoen capítulos anteriores. Estas aproximaciones almacenan ejemplos para cada sentido enforma de vectores de características aprendidos de un corpus de entrenamiento anotado.

8La clase semántica se corresponde con el fichero lexicográfico en el que está codificado el correspondien-te sentido, es decir, el campo lex_sense.


A una palabra nueva, en el contexto de una oración, se le asigna el sentido cuyo vectorsea más cercano o similar al vector de dicha palabra.

Dos aspectos son determinantes para que estos métodos ofrezcan buenas prestacio-nes: la definición de las características y la definición de la función de similitud. Ng y Lee(1996) consideran las siguientes características para una palabra � : la etiqueta morfosin-táctica de las tres palabras a la izquierda y las tres palabras a la derecha de � , informaciónmorfológica de � , palabras clave que coocurren en la misma oración, colocaciones loca-les en un contexto que varía entre cero y tres palabras a la izquierda o a la derecha de� , relaciones verbo-objeto, en concreto el verbo a la izquierda de � , si � es núcleo no-minal. Según los resultados experimentales publicados por Ng y Lee las característicasque aportan más información en el proceso de desambiguación son las colocaciones yla información morfosintáctica. La función de similitud definida por Ng y Lee entre dosvectores de características es la suma de las distancias entre los valores de todas las carac-terísticas. Y la distancia

�entre dos valores

� � y�� de una característica

�se define según

la fórmula (7.2) donde � � � es el número de muestras de entrenamiento cuya�

toma elvalor

� � siendo el sentido asignado�, � � es el número de muestras cuya

�toma el valor

� � , � � � y � � se interpretan de forma similar, y � es el número de sentidos de una palabra� .

� � � � � � � � � �

� � � � � � � � � � � �� (7.2)

Schütze (1992) adapta la fórmula del coseno, utilizada usualmente en recuperaciónde información, como función para calcular la similitud entre el vector de característicasde una palabra y el vector que define un sentido. Las características consideradas sonlas palabras en el contexto local. Schütze utiliza técnicas de clustering para computar losvalores de los vectores asociados a los sentidos.

Las características definidas por Ng y Lee (1996), con algunas variaciones, han sidoincorporadas por otros autores en sus sistemas de desambiguación. Hoste et al. (2001)aplicó el sistem Antwerp para abordar la tarea all-words del inglés en Senseval-2. Este sis-tema construye un clasificador para cada una de las palabras cuya frecuencia en el corpusde entrenamiento (SemCor) supera un cierto umbral (11). En total consta de 568 clasifi-cadores. Los clasificadores que utiliza son los siguientes: 1) TiMBL (implementación dela aproximación basada en memoria desarrollada por Daelemans et al. (2001)) con lascaracterísticas del contexto local, 2) TiMBL, añadiendo información de palabras clave, 3)Ripper, un algoritmo de inducción de reglas, que se aprenden a partir de la informacióndel contexto local y de las palabras clave, 4) el sentido más frecuente en WordNet, 5) uncombinado de los cuatro anteriores utilizando el sistema de votación por majoría, 6) uncombinado ponderado por la precisión de los clasificadores individuales, 7) un combina-do por mayoría de los tres primeros y 8) un combinado ponderado de los tres primeros.


De todos ellos se escoge para cada palabra el que ofrece mejores prestaciones para esapalabra. El contexto local considerado por Hoste et al. (2001) está formado tres palabras,junto a su etiqueta morfosintáctica, a la derecha y a la izquierda de la palabra foco. Lasposibles palabras clave se buscan en en un contexto de tres oraciones. Los clasificadoresindividuales basados en TiMBL desambiguan 340 palabras mejor que el resto de clasifi-cadores. La precisión alcanzada en Senseval-2 es de 63.6%.

Uso de corpora bilingües

Existen también trabajos que investigan en la posibilidad de utilizar corpora bilingüescomo datos de aprendizaje. La principal ventaja de estas aproximaciones es que los cor-pora no necesitan estar etiquetados semánticamente. Por otra parte, es necesario utilizaralgún algoritmo de alineación que permita alinear palabra a palabra las oraciones de lasdos lenguas. El uso de un corpus bilingüe para WSD se fundamenta en la idea de queuna palabra ambigua en una lengua puede tener traducciones diferentes en otra lengua,según el sentido de la palabra. Por ejemplo, la palabra inglesa bar puede traducirse en es-pañol como bar (local para consumir bebidas) o como barra (pieza alargada y cilíndrica).Para desambiguar la palabra en inglés puede utilizarse como fuente de conocimiento sustraducciones al español en un corpus alineado. En esta línea, los primeros trabajos reali-zados son los de Gale y Church (1991), Brown et al. (1991) y Dagan et al. (1994). Reciente-mente, algunas aproximaciones se han evaluado sobre tareas de Senseval-2 y, aunque, nosuperan a las aproximaciones supervisadas, los resultados ofrecidos son prometedoressi se tienen en cuenta las dificultades para llevar a cabo la experimentación: el uso detraducciones automáticas (Diab y Resnik, 2002) o la escasez de datos de entrenamientopara algunos sentidos (Ng et al., 2003).

Otros sistemas basados en aproximaciones supervisadas que participaron en la últimaedición de Senseval-2 se detallan a continuación.

Chao y Dyer (2001) presenta un sistema basado en redes probabilísticas. En la fasede entrenamiento construye una red probabilística para cada oración a partir del árbolsintáctico. En lugar de relacionar las palabras por la posición que ocupan en la oración,busca las relaciones de dependencias existentes entre las palabras de la oración. Cadanodo de la red se corresponde con una palabra y se asume que la probabilidad en un no-do depende condicionalmente solamente de los nodo padre. Los parámetros de la red seestiman inicialmente del corpus SemCor pero, debido a la escasez de datos, es necesarioaplicar un suavizado que Chao y Dyer estima a partir de las relaciones léxicas entre paresadjetivo-nombre extraídas de las glosas de WordNet y de Internet. En la fase de análisisel modo de consulta a la red llamado Maximum A Posteriori permite obtener la secuen-cia de sentidos más probable para la oración de entrada. Los resultados presentados en


Senseval-2 para la tarea all-words del inglés alcanzan el 50% de precisión, pero con unacobertura muy baja (45%), lo cual se justifica porque los recursos utilizados, como Inter-net, añaden mucho ruido, al igual que los etiquetadores morfosintácticos y el analizadorsintáctico utilizados.

El sistema SMUaw presentado por Mihalcea y Moldovan fue el que consiguió los me-jores resultados en Senseval-2 en la tarea all-words del inglés. El método, que se describeen detalle en (Mihalcea y Moldovan, 2001), consiste en un proceso iterativo en el cual secombinan varias fuentes de conocimiento (WordNet y SemCor) y se aplican un conjuntode heurísticas. Este proceso permite desambiguar con una precisión elevada (92%) el55% de los nombres y verbos. Para el resto de palabras se asigna el primer sentido enWordNet. Los pasos aplicados para cada texto de entrada son los siguientes:

1. Identificar entidades según la clasificación en SemCor: personas, grupos y lugares.

2. Identificar palabras monosémicas en WordNet.

3. Aplicar colocaciones: si la palabra foco junto a la palabra que está a su izquierda (o asu derecha) aparece en el corpus SemCor con el mismo sentido un número suficientede veces, entonces se le asigna dicho sentido.

4. Aplicar términos clave en el contexto: el sentido de una palabra se puede desam-biguar si en el contexto aparecen determinadas palabras o conceptos. Los términosconsiderados para un sentido son: los conceptos en los synsets de los hiperónimosde dicho sentido en WordNet, y los nombres que coocurren en el contexto (p.e. unaventana de 10 palabras) de palabras asociadas con dicho sentido.

5. Buscar palabras que estén conectadas semánticamente respecto a otras palabras deltexto. La distancia semántica se calcula según la jerarquía de hiperonima/hiponimiade WordNet.

(a) Si la palabra foco está a distancia 0 de una palabra ya desambiguada, entoncesse le asigna el sentido de la palabra desambiguada.

(b) Si la palabra foco está a distancia 0 de alguna palabra no desambiguada, en-tonces ambas palabras se desambiguan con el sentido que comparten.

(c) Se repiten los dos últimos pasos buscando palabras que estén a distancia 1.

La principal limitación para poder abordar el problema de WSD ofreciendo una pre-cisión alta está en la disponibilidad de grandes cantidades de datos anotados semánti-camente. Una línea de investigación iniciada recientemente es la utilización de Internetcomo fuente para obtener datos etiquetados. Mihalcea y Moldovan (1999a) proponen unmétodo para obtener documentos que utiliza la información proporcionada por WordNet


y los documentos recuperados de Internet por un buscador. Para obtener los documentosen los que una palabra � aparece con un determinado sentido � , se construyen consultasa Internet con los sinónimos monosémicos proporcionados por WordNet para la palabra� en el sentido � y con la información de la glosa de WordNet para el sentido � . Una vezrecuperados los documentos se sustituye en ellos las ocurrencias de la consulta por la pa-labra original � . Este procedimiento fue aplicado posteriormente por Agirre y Martínez(2000) para aumentar el conjunto de datos de entrenamiento para su método basado enlistas de decisión, pero no se obtuvieron mejoras.

Además de los métodos supervisados, se han presentado en la literatura multitud deaproximaciones no supervisadoas. Las que compitieron en Senseval-2 fueron las siguien-tes: El sistema de la Universidad de Sussex identifica pares sujeto/verbo y verbo/objetodesambiguando los nombres y verbos en cada par mediante un método basado en pre-ferencias seleccionales adquiridas desde texto no etiquetado y algunas heurísticas. Elsistema presentado por la UNED enriquece la información de los sentidos de WordNetcon estadísticas extraídas de una matriz de distancias entre palabras construida con tex-tos de libros en inglés. El sistema desarrollado por la Universidad Sains Malaysia utilizauna versión de WordNet con la glosa desambiguada según los sentidos de un diccionarioy construye una matriz de distancias entre sentidos. El Illinois Institute of Technology pre-sentó un sistema que construye un corpus de ejemplos para cada palabra a desambiguara partir de las glosas en WordNet para cada uno de sus sentidos, incluyendo las glosas desentidos relacionados mediante la jerarquía de hiponimia/hiperonimia, y después de-sambigua cada ejemplo con el sentido más cercano utilizando un algoritmo basado endistancias y ordenación de palabras. El sistema presentado por el Centro per la RicercaScientifica e Tecnologica (ITC-irst) utiliza los dominios semánticos definidos por Magnini yCavaglia (2000) para clasificar los synsets de WordNet. El sistema calcula los vectores dedominio a partir de la información de SemCor y desambigua cada palabra con el dominiosemántico más cercano según una función de similitud. Una vez determinado el dominiose asigna el synset más probable en ese dominio. Por último, el sistema de la Universidadde Sheffield utiliza un algoritmo basado en el concepto de distancia conceptual y un algo-ritmo de resolución de la anáfora para desambiguar únicamente los nombres del texto.Por lo general, estos sistemas ofrecieron unas prestaciones inferiores a los sistemas su-pervisados debido principalmente a problemas de cobertura (como se observa en la tabla7.2).

7.4.2 Aproximaciones basadas en conocimiento

La aproximación que se presenta en esta Tesis se clasificaría en la sección anterior (apro-ximaciones basadas en corpus). Por ello, y no por considerarlas menos importantes, lapresentación de las aproximaciones basadas en conocimiento se ha realizado de maneramás esquemática. En (Montoyo, 2002) se puede encontrar una descripción detallada de


estos métodos, que generalmente utilizan la información que se encuentra almacenadaen algún recurso externo (diccionarios, tesauros o bases de datos léxicas).

El uso de diccionarios electrónicos se inició con los trabajos de (Lesk, 1986). Posterior-mente, otros autores han desarrollado otras aproximaciones utilizando fundamentalmen-te el diccionario LDOCE (Longman Dictionary of Contemporary English) (Wilks et al., 1990).El funcionamiento básico de estos métodos consiste en medir la similitud entre el contex-to en que aparece una palabra y sus definiciones en el diccionario.

Un tesauro clasifica las palabras dentro de categorías. Los sistemas basados en te-sauros parten de la idea de que una palabra que está clasificada en distintas categoríaspresenta sentidos diferentes en cada una de las categorías. Yarowsky (1992) utilizó el te-sauro Roget del inglés. Estos sistemas necesitan conocer el contexto en el que aparece unapalabra para poder clasificarla correctamente. Este contexto fue extraído por Yarowskyde las definiciones de las palabras a desambiguar presentes en una enciclopedia.

La base de datos léxica WordNet ha sido uno de los recursos más utilizados en WSD.Varios son los motivos (Montoyo, 2002): puede utilizarse tanto a modo de diccionario,como de tesauro, ya que los sentidos se organizan en una jerarquía conceptual; incluyediversos tipos de relaciones semánticas y léxicas; se diseñó desde una perspectiva in-formática pensando en su utilización dentro de aplicaciones informáticas; y, además, sedistribuye gratuitamente. Los métodos que utilizan este recurso se basan en el cálculode distancias entre conceptos en la jerarquía de WordNet y en la aplicación de heurísticas.Cuanto menor sea la distancia entre dos conceptos más relacionados deberían estar.

Los trabajos de Rada et al. (1989) y Agirre et al. (1994) propusieron fórmulas de dis-tancia conceptual en las que se tienen en cuenta básicamente la longitud del camino entredos conceptos según las relaciones de hiponimia en WordNet. Sussna (1993) introdujouna medida ponderada según el tipo de relación (sinonimia, hiponimia, etc.). Agirre yRigau (1997) extendieron la fórmula de la distancia conceptual, introduciendo la nociónde densidad conceptual que indica la cercanía entre dos palabras en una jerarquía concep-tual estructurada. En esta fórmula se tiene en cuenta la distancia entre conceptos de lajerarquía, la altura de la subjerarquía por debajo del concepto y el número de concep-tos presentes en la subjerarquía. Otras medidas de similitud han sido presentadas porResnik (1995) o Mihalcea y Moldovan (1999b).

7.5 MME para WSD

La propuesta de MME presentada en esta tesis para WSD es una aproximación super-visada que necesita un corpus de aprendizaje completamente etiquetado. Por ello se haaplicado solamente para el inglés, ya que no se dispone de corpora en otras lenguas, ypara la tarea all-words ya que el sistema etiqueta cada una de las palabras de entrada.

7.5. MME para WSD 189

En este apartado se presenta la experimentación llevada a cabo para la construcción deMME y su aplicación para resolver el problema de WSD. Como se ha comentado anterior-mente, esta aproximación supervisada necesita un corpus de aprendizaje completamenteetiquetado. El único corpus de estas características es SemCor, por lo que la aproximaciónse ha probado solamente para el inglés. El modelo estimado se ha evaluado sobre doscorpora: SemCor y los datos de prueba de la tarea all-words para el inglés de Senseval-29.

La información lingüística disponible inicialmente para la estimación del MME es laque está presente en el único corpus completamente anotado semánticamente: SemCor(carpetas brown1 y brown2). Esta información es la siguiente:

Rasgos de entrada,� �� , donde:

� �� palabras o unidades léxicas que forman las oraciones de entrada � . Con-

tiene 34,654 palabras distintas.

� � �� lemas correspondientes a las palabras de entrada � . El vocabulario es de

22,896 lemas distintos. La reducción respecto al número de palabras es elevada, pe-ro hay que tener en cuenta que en SemCor aquellos nombres propios que no estánen WordNet están clasificados como person, group o location y, para indicar esto, seutiliza el campo lemma. En la experimentación sobre SemCor se utiliza el lema ano-tado en el corpus. Para procesar texto nuevo, como el proporcionado en Senseval,se utiliza WordNet como lematizador.

� �� etiquetas morfosintácticas asociadas a las palabras de entrada � . SemCor

está etiquetado morfosintácticamente con el etiquetador basado en el método TBLdesarrollado por Brill (1994) con las mismas etiquetas utilizadas en el proyecto PennTreebank (descritas en el apéndice A). En la experimentación que se presenta estasetiquetas morfosintácticas se han traducido a las categorías gramaticales utilizadasen WordNet que están codificadas así: 1 (nombres), 2 (verbos), 3 (adjetivos) y 4(adverbios).

Etiquetas de salida:

��

sentidos asociados a las palabras de entrada � . Se ha considerado comoetiqueta semántica el campo �� _ � �� del � �� _ � � de WordNet, lo que suponeun total de 2,193 etiquetas diferentes, que se distribuyen por categorías así: 133para nombres, 177 para verbos, 13 para adverbios y 1,868 para adjetivos, de lascuales 1,853 corresponden a adjetivos satélites.

Durante el proceso de desambiguación, el sistema considera que el conjunto de posi-bles sentidos asociados a una palabra está formado por los sentidos vistos en el conjunto

9Estos datos están disponibles en http:www.senseval.org.


de entrenamiento para esa palabra. Sin embargo, si la palabra no ha aparecido en el en-trenamiento, el sistema asigna el primer sentido en WordNet. En caso de que la palabrano esté en WordNet se le asigna una etiqueta semántica vacía (notag).

Los sistemas de WSD se evalúan normalmente en términos de precisión, cobertura ycobertura absoluta. Estas medidas se suelen calcular solamente sobre las palabras poli-sémicas que están etiquetadas semánticamente en el corpus de referencia. Los resultadosse comparan respecto a un sistema de referencia o baseline. En esta experimentación seha considerado como valor de referencia el resultado de asignar el primer sentido enWordNet a una palabra, dada su etiqueta morfosintáctica. Este valor calculado sobre todoSemCor es de un 70.79% de precisión.

El sistema de WSD desambigua todas las palabras polisémicas, por lo que su cober-tura absoluta es del 100%, lo que quiere decir que no hay diferencias en las medidas deprecisión y de cobertura. Por eso en los resultados experimentales se presenta únicamen-te el valor de precisión.

7.5.1 Resultados sobre SemCor

La experimentación realizada sobre SemCor ha consistido en una validación cruzada so-bre diez particiones del corpus. En primer lugar se presentan resultados teniendo encuenta criterios de selección y especialización total y para modelos de distinto orden(unigrama, bigrama y trigramas). Luego se ofrecen los resultados cuando se realiza unaespecialización parcial y también se estudia el efecto de las palabras sin carga semánticaen el proceso de desambiguación.

En otras tareas de desambiguación, como el etiquetado morfosintáctico o el análi-sis superficial, cada palabra o token de entrada se anota con la etiqueta correspondiente.Sin embargo, en WSD no todas las palabras tienen un contenido semántico; de hechoen WordNet solamente existen entradas para las palabras pertenecientes a clases grama-ticales abiertas: nombres, verbos, adjetivos y adverbios. Por ejemplo, el artículo the notiene una entrada en WordNet. También hay palabras que, dependiendo de su funciónsintáctica, pueden tener una entrada en WordNet. Por ejemplo, la palabra in puede serpreposición y no tener contenido semántico, pero también puede actuar según WordNetcomo adjetivo, adverbio o nombre. Estas palabras son las que tienen asignada una cate-goría gramatical cerrada10.

Aunque estas palabras, que llamaremos "palabras vacías", no tengan carga semánticasí que pueden influir en el proceso de desambiguación semántica. Una preposición puededeterminar el sentido de un verbo o un nombre. Por ejemplo, el nombre interest tienevarios sentidos en WordNet. En "It is of no interest to us"significa curiosidad, mientras

10Las categorías morfosintácticas cerradas definidas en el Penn TreeBank son: CC, DT, MD, POS, PP$, RP,TO, WDT, WP$, EX, IN, PDT, PRP, WP, WRB.


Especialización ( �� ) Sin Palabras VacíasUnigrama Bigrama Trigrama

Selección ( �� )� � 0 � � � � � 0 � � � � � 0 � � �

�� 35.80 52.83 56.57 58.42 56.45 58.27� 0 � 40.99 53.77 59.76 60.35 59.68 60.02�� / 48.79 63.18 64.67 65.83 64.39 65.79� 0 � � � � / 52.05 65.26 65.54 66.61 65.45 66.57

Tabla 7.5: Precisión sobre SemCor con criterios de selección y de especialización total utilizando MMEde distinto orden. Las palabras vacías no se tienen en cuenta en la especialización.

Especialización ( �� ) Con Palabras VacíasUnigrama Bigrama Trigrama

Selección ( �� )� � 0 � � � � � 0 � � � � � 0 � � �

�� 38.06 53.74 57.60 58.29 57.28 58.44� 0 � 41.13 56.88 61.02 61.86 60.21 61.68�� / 48.93 61.75 64.84 65.91 63.81 65.83� 0 � � � � / 52.05 64.46 65.51 67.03 64.46 67.01

Tabla 7.6: Precisión sobre SemCor con criterios de selección y de especialización total utilizando MMEde distinto orden. Las palabras vacías se tienen en cuenta en la especialización.

que en "In the interest of the safety"quiere decir beneficio. La preposición que modificaal nombre es diferente en cada caso y pueden ayudar en el proceso de desambiguación.Por ello se han considerado las palabras vacías como relevantes y se han incluido en elmodelo. Su incorporación en el modelo puede realizarse de dos maneras:

� Un único estado en el modelo que emite todas las palabras vacías. Para ello en elentrenamiento todas las palabras vacías deben tener asignada una misma etiqueta(notag) que indica su contenido semántico vacío.

� Un estado diferente para cada una de las palabras vacías. Esto equivale a considerarlas palabras vacías en el proceso de especialización.

Como criterio de especialización se ha considerado solamente lemas, lo que quiere de-cir que un estado especializado con un lema emitirá todas las palabras correspondientesdicho lema. La especialización con �� no tiene efecto en el proceso de desambigua-ción, ya que la etiqueta morfosintáctica ya está codificada en el sentido (sense_key), y laespecialización con �� incrementa demasiado el número de estados del modelo.

La tabla 7.5 muestra los resultados obtenidos combinando criterios de selección y deespecialización total para MME de distinto orden. Las palabras vacías se han considerado


relevantes, pero no se especializan, es decir, existe un único estado en el modelo queemite todas las palabras vacías. De la tabla se deduce:

� Los modelos que consideran � �� como criterio de selección ofrecen prestacionesligeramente superiores a los que consideran �� . Esto se debe a la reducción en elvocabulario de entrada.

� La incorporación de �� en la selección ofrece mejoras relevantes. Es evidente queconociendo la categoría gramatical de una palabra el número de sentidos posiblesdisminuye y el proceso de desambiguación se simplifica.

� Los modelos especializados ( � �� ) ofrecen mejoras muy pequeñas respecto alos no especializados (

�). La razón puede estar en la escasez de datos de entrena-

miento.

� Los modelos de bigramas son los que ofrecen mejores prestaciones. El modelo detrigramas no ofrece mejoras respecto al bigrama. Incluso conforme aumenta el nú-mero de parámetros las diferencias entre los modelos de unigramas y modelos deorden superior son menores. Esto indica que los datos de entrenamiento son insu-ficientes para realizar una buena estimación de las probabilidades de transición delmodelo.

La tabla 7.6 muestra los resultados obtenidos combinando criterios de selección y deespecialización total para MME de distinto orden, pero teniendo en cuenta las palabrasvacías para especializar los modelos. Esta especialización permite obtener ligeras me-joras alcanzándose una precisión de 67.03% para el MME de bigramas completamenteespecializado.

También se ha llevado a cabo un conjunto de experimentos de especialización parcial.Esta especialización se ha realizado con el rasgo � �� en función de la frecuencia deaparición de los lemas en el corpus. Para la estimación del mejor MME se han probandosubconjuntos de lemas ( � ��

) cuya frecuencia en el corpus supere un determinadoumbral ( � ).

Los resultados de esta especialización se muestran en la figura 7.2, que refleja có-mo varían las prestaciones del modelo, medidas en términos de la precisión, conformeaumenta el número de lemas considerados. Los resultados para el número de lemas 0 co-rresponden a los modelos no especializados. Los resultados para el número máximo delemas corresponden a los modelos completamente especializados. En la tablas 7.7 y 7.8se comparan los resultados del mejor modelo con especialización parcial ( � ��

) res-pecto al modelo totalmente especializado ( � � � �� ) y al modelo sin especializar (

�). De

la tabla se deduce que cuanta más información se considera a la entrada menos influyela especialización. Las diferencias son mínimas si se considera como criterio de selección


58

59

60

61

62

63

64

65

66

67

0 200 400 600 800 1000

Pre

cisi

ón (

%)

# de lemas especializados

<LEM,O><PAL,O>

<LEM·POS,O><PAL·POS,O>

Figura 7.2: Precisión del MME de primer orden variando la talla del conjunto de lemas ( � 0 � � )tenidos en cuenta en la especialización.

�� o � �� . Si se consideran las palabras vacías se alcanza un 67.09% deprecisión tomando aquellos lemas cuya frecuencia en el corpus es superior a 10 ( � ). Aun-que a penas consigue mejorar el resultado con el modelo completamente especializado(67.03%), sí que consigue una reducción en el tamaño del modelo, ya que el número deetiquetas es mucho menor.

Ninguno de los modelos consigue superar el resultado de precisión ofrecido por elsistema de referencia que es del 70.79%. El orden de los sentidos en WordNet para una de-terminada entrada ha sido establecido de acuerdo a su frecuencia en SemCor. Por lo tanto,el sistema de referencia tiene en cuenta todo el vocabulario del corpus, que es equivalente

Especialización ( �� )Selección ( �� ) � � � 0 � � � � 0 � � � � � � 0 � � �� 110 279 59.31 56.57 58.42� 0 � 110 279 60.88 59.76 60.35�� / 7 3991 65.85 64.67 65.83� 0 � � � � / 9 3337 66.66 65.54 66.61

Tabla 7.7: Precisión sobre SemCor de distintos modelos de bigramas especializados y no especia-lizados. Las palabras vacías no se tienen en cuenta en la especialización.


Especialización ( �� )Selección ( �� ) � � � 0 � � � � 0 � � � � � � 0 � � �� 110 279 58.72 56.57 58.29� 0 � 80 425 62.34 59.76 61.86�� / 13 2529 65.93 64.67 65.91� 0 � � � � / 10 3087 67.09 65.54 67.03

Tabla 7.8: Precisión sobre SemCor de distintos modelos de bigramas especializados y no especia-lizados. Las palabras vacías se tienen en cuenta en la especialización.

Especialización ( �� )Selección �� 0 � � � � 0 � � � � � � 0 � � �� 150 180 68.35 66.67 66.59� 0 � 150 180 67.49 65.96 65.83�� / 150 180 73.04 72.44 72.35� 0 � � � � / 50 701 71.13 70.77 70.86

Tabla 7.9: Precisión sobre SemCor de distintos modelos de primer orden utilizando la distribuciónde probabilidades de emisión extendida. Las palabras vacías se tienen en cuenta en la especiali-zación.

a realizar un experimento con vocabulario cerrado. Para poder presentar resultados enlas mismas condiciones experimentales que el sistema de referencia, la distribución deprobabilidades de emisión se calculó a partir de todos los datos de entrenamiento (car-petas brown1 y brown2 del corpus). Esto además nos permitirá evaluar la aportación dela distribución de probabilidades de transición en el MME, que se estiman solamente apartir de la correspondiente partición de entrenamiento.

Las tablas 7.9 y 7.10 resumen los resultados obtenidos utilizando la distribución deprobabilidad de emisión extendida, para modelos que consideran las palabras vacías enla especialización y modelos que no las tienen en cuenta, respectivamente. Solamente

Especialización ( �� )Selección �� 0 � � � � 0 � � � � � � 0 � � �� 150 180 67.95 66.67 66.27� 0 � 150 180 66.42 65.96 64.76�� / 100 316 73.32 72.44 72.69� 0 � � � � / 16 2139 71.59 70.77 70.77

Tabla 7.10: Precisión sobre SemCor de distintos modelos de primer orden utilizando la distribu-ción de probabilidades de emisión extendida. Las palabras vacías no se tienen en cuenta en laespecialización.


Especialización ( �� ) Sin Palabras VacíasUnigrama Bigrama Trigrama

Selección ( �� )� � 0 � � � � � � 0 � � � � � � 0 � � � �

� 0 � � � �� 52.3% 58.8% 58.2% 60.2% 57.9% 59.6%

Tabla 7.11: Precisión para la tarea all-words sobre los datos de prueba proporcionados por Senseval-2 para el inglés.

se presentan resultados para modelos de primer orden que ofrecían prestaciones supe-riores a los modelos de unigramas y trigramas. En esta experimentación los modelosque no tienen en cuenta las palabras vacías en la especialización ofrecen unos resultadosligeramente mejores (73.32% frente a 73.04%) para el mejor criterio.

Además, en este caso el mejor criterio de selección tiene en cuenta las palabras en lugarde los lemas (

� �� ). Esto puede ser debido a dos motivos: no existen palabrasdesconocidas y la estimación de las probabilidades de emisión para las palabras es mejor.Bajo estas condiciones el uso del lema no ofrece ninguna ventaja.

El mejor criterio de especialización parcial tiene en cuenta los lemas ( � � � � ��) cuya

frecuencia de aparición en el corpus es mayor que 100 ( � ). Este modelo alcanza unosresultados de precisión del 73.32% frente a los 72.69% del modelo completamente espe-cializado, utilizando únicamente 316 lemas, lo que reduce considerablemente el númerode estados del modelo. Aunque esta mejora no es significativa (el error estimado está al-rededor del 0.8%) supone un incremento relativo del 3.6% sobre el resultado de referencia(70.79%) que sería la aportación de la distribución de probabilidad de las transiciones enel modelo en el proceso de desambiguación.

Finalmente, mediante el algoritmo 2 se mejoraron ligeramente las prestaciones delmodelo. Se obtuvo un conjunto de lemas � � � �

de talla 179, y la precisión del modeloespecializado fue del 73.55%, lo que supone una incremento del 3.9% respecto al sistemade referencia.

7.5.2 Resultados sobre la tarea all-words de Senseval-2

Para poder comparar la propuesta de MME para WSD con otros sistemas, se realizaronexperimentos adicionales sobre la tarea all-words para el inglés de la competición Senseval-2. Se estimó un nuevo MME con los mejores criterios establecidos en el apartado anterior(� � �� ,

�� ) y con todos los datos de SemCor (carpetas brown1 y

brown2).

Los datos de prueba proporcionados por Senseval-2 para esta tarea consisten en tresficheros del corpus Penn TreeBank que contienen 6,000 tokens de los cuales 2,473 son pala-bras etiquetadas semánticamente. La información de la etiqueta morfosintáctica está ya


incluida en estos ficheros.

La table 7.11 muestra que los mejores resultados se obtienen por el MME de bigramas(60.20%). Este resultado es ligeramente superior al valor de referencia para esta tarea(58.0%), que solamente fue superado por tres sistemas en la competición como se mostróen la tabla 7.2. La aproximación en la literatura más similar a la propuesta es el sistemaSinequa-LIA-HMM. Éste implementa un método híbrido que combina un MM con unmétodo de árboles de decisión para desambiguar palabras desconocidas. Alcanza unprecisión del 61.8% aunque no indica cuál es la aportación del MM.

7.6 Resumen

En este capítulo se ha evaluado el MME para el problema de la desambiguación semán-tica sobre dos tareas: el corpus SemCor y la tarea all-words para el inglés de Senseval-2.El corpus utilizado como entrenamiento ha sido SemCor. El mejor MME es un modelode bigramas que tiene en cuenta como criterio de selección palabras y etiquetas morfo-sintácticas, y en el que se especializan los estados con la información de los lemas másfrecuentes. Los modelos de trigramas obtienen resultados inferiores a los bigramas debi-do a la escasez de datos en el corpus de entrenamiento.

Respecto al corpus SemCor el MME obtuvo una precisión del 73.55% en una valida-ción cruzada sobre todo el corpus. Esta experimentación se realizó en las mismas con-diciones que el sistema de referencia, es decir, considerando un vocabulario cerrado. Deesta forma se mejoró en un 3.9% el valor de referencia (70.79%) para una tarea bastantedifícil por las características del corpus. Respecto a la tarea all-words de Senseval la preci-sión obtenida por el MME fue del 60.20%, resultado que solamente fue superado por tresde los sitemas participantes.

Por lo general, los resultados en WSD son inferiores a los obtenidos en otras tareasde desambiguación en PLN. Esto se debe a la dificultad de la tarea y a la escasez derecursos anotados semánticamente. El rendimiento de los MME podría mejorarse de dosmaneras: aumentando la cantidad de datos anotados o mediante el estudio de formas deincorporar información no supervisada en la construcción de los modelos.

Capítulo 8

Conclusiones y trabajos futuros

En este trabajo se ha abordado como objetivo general la resolución de diversos problemasde ambigüedad en lenguaje natural mediante la utilización de un formalismo común: losModelos de Markov Especializados (MME). Las principales aportaciones de este trabajoy las posibles líneas de trabajo futuras se resumen a continuación. Se citan también laspublicaciones que han sido fruto de este trabajo de investigación relacionadas con cadauna de las distintas aportaciones.

8.1 Aportaciones

� Se ha propuesto una formulación unificada para abordar distintas tareas de desam-biguación en procesamiento del lenguaje natural (PLN) mediante el formalismo demodelos de Markov (MM). Esta técnica permite incorporar en un MM informaciónrelevante disponible en los datos de entrenamiento de una forma sistemática e in-dependiente de la tarea de desambiguación. Estos modelos se han denominadoModelos de Markov Especializados (MME). (Molina et al., 2002b).

� La técnica se fundamenta en dos procesos: la selección de las características re-levantes para la tarea de desambiguación, mediante la definición del alfabeto desímbolos utilizado en un MM, y la especialización o redefinición de los estados delmodelo a partir de la información disponible en los datos de entrenamiento. Estees un proceso totalmente independiente de la fase de aprendizaje del modelo y dela fase de análisis o etiquetado. Por ello, esta técnica permite aplicar los eficientesalgoritmos desarrollados para trabajar con MM básicos. Para determinar cuáles sonlas características que maximizan las prestaciones del MME sobre una determinadatarea, se ha definido una estrategia que guía el proceso de aprendizaje del modelo.

� Los MME se han evaluado y contrastado experimentalmente sobre distintas tareas

197

198 Capítulo 8. Conclusiones y trabajos futuros

de desambiguación, alcanzando en todas ellas prestaciones similares a las ofrecidaspor las aproximaciones más relevantes descritas en la literatura. La comparacióncon otros sistemas ha sido en todos los casos rigurosa: utilizando los mismos con-juntos de entrenamiento y de prueba que el resto de sistemas y, cuando ha sidoposible, realizando la evaluación con datos proporcionados en competiciones in-ternacionales como la tarea compartida de CoNLL y Senseval-2. La eficiencia en elproceso de etiquetado, junto a la alta precisión que presenta en los problemas abor-dados, hacen de los MME un método competitivo si se compara con otros métodosde aprendizaje supervisado.

� Las tareas de desambiguación que se han abordado presentan problemáticas diver-sas. Respecto a cada una de ellas cabe decir:

– Etiquetado morfosintáctico: es una tarea de etiquetado para un número re-ducido de categorías. Se ha realizado una evaluación exhaustiva de los MMEsobre el WSJ proponiendo varios criterios de especialización de los modelos.Los MME alcanzan una precisión del 96.80% sobre datos de prueba no vistospara el mejor de los criterios. Esto reduce el error de etiquetado en un 6% res-pecto a los MM básicos. La evaluación de los MME respecto a los sistemas másrelevantes para esta tarea demuestra que no existen diferencias significativascon el mejor de ellos (la aproximación de máxima entropía). También se hanconstruido MME para una tarea del castellano (corpus LexEsp) y, aunque seobtienen pequeñas mejoras, hay que decir que la escasez de datos de entrena-miento impide hacer una evaluación fiable. (Pla y Molina, 2003), (Pla et al.,2001), (Pla y Molina, 2001).

– Análisis sintáctico superficial: ésta es una tarea de segmentación en constitu-yentes básicos no anidados que puede ser reducida fácilmente a un problemade etiquetado. La evaluación se ha realizado sobre los datos del corpus WSJproporcionados por la competición sobre análisis superficial de CoNLL00, res-pecto a los cuales suelen compararse las distintas aproximaciones al análisissuperficial. Se ha demostrado que una correcta elección de los criterios deselección y especialización ofrece mejoras significativas respecto a un MM bá-sico. En los modelos de segundo orden el factor F � se incrementa desde un83.78, para un MM básico que emite palabras, hasta un 92.53. El mejor modeloconsidera como rasgos relevantes a la entrada un subconjunto de palabras ytodas las etiquetas morfosintácticas. Las etiquetas de chunk deben redefinirseañadiendo información de la etiqueta morfosintáctica y de algunas palabrasrelevantes. El resultado obtenido está en la línea de los resultados que ofrecenlos mejores sistemas individuales sobre la misma tarea. Esto demuestra que elformalismo de MME es un método eficaz para tratar tareas de segmentaciónen sintagmas no recursivos. (Molina y Pla, 2002).

8.1. Aportaciones 199

– Identificación de cláusulas: es otra tarea de análisis sintáctico que consisteen segmentar la oración en cláusulas en las cuales sí que puede existir ani-damiento. Los resultados experimentales indican que la utilización de MMEmejora las prestaciones de los MM básicos sobre esta tarea. La evaluación seha realizado con los datos proporcionados por la competición sobre detecciónde cláusulas de CoNLL01. Aunque los resultados obtenidos (69.30 de F � ) porlos MME están por debajo del mejor de los sistemas, respecto al resto de sis-temas la detección de cláusulas anidadas es superior. Una de las desventajasde esta aproximación es la necesidad de aplicar reglas para completar y corre-gir las cláusulas identificadas, aunque no es una característica exclusiva de losMME ya que han sido utilizadas también por otros sistemas de detección decláusulas. (Molina y Pla, 2001), (Molina y Pla, 2002).

– Desambiguación del sentido de las palabras: aunque su formulación es simi-lar al etiquetado morfosintáctico, esta tarea presenta una serie de dificultadesañadidas como son el elevado número de categorías y, por lo tanto, de pará-metros que debe estimar el modelo. A esto se une la escasez de datos de en-trenamiento completamente anotados. El MME se ha construido para abordartareas del tipo all-words en las que se desambiguan todas las palabras del texto.El mejor MME es un modelo de bigramas que tiene en cuenta como criterio deselección palabras y etiquetas morfosintácticas, y en el que se especializan losestados con la información de los lemas más frecuentes. Se ha evaluado sobreel corpus SemCor y la tarea all-words para el inglés de Senseval-2. Los resulta-dos de precisión en ambos casos superan ligeramente el valor de referencia,consistente en tomar el primer sentido en WordNet, que solamente fue supera-do por tres de los sistemas participantes en Senseval-2. (Molina et al., 2002a),(Molina et al., 2002c).

� En el marco de esta tesis también se ha desarrollado un analizador sintáctico parcialpara el castellano basado en conocimiento. Su evaluación se ha realizado sobre doscorpus del castellano (LexEsp y Pirapides), aunque ésta no ha podido ser muy ex-haustiva ya que no se dispone de un corpus de referencia analizado sintácticamen-te. Para poder comparar las prestaciones del analizador basado en conocimientocon los MME se ha definido una gramática para el inglés. La comparativa indicaque con poco esfuerzo puede definirse una gramática que ofrezca unas prestacio-nes similares a las de un MM básico pero, por otro lado, muestra la necesidad deincorporar más información en el analizador parcial, como la lexicalización de lagramática. (Molina et al., 1999a), (Molina et al., 1999b).

200 Capítulo 8. Conclusiones y trabajos futuros

8.2 Trabajos futuros

Las líneas de trabajo futuras que se derivan de esta tesis siguen principalmente las si-guientes direcciones.

� Refinamiento de los modelos y adaptación a las particularidades de cada problema en aque-llas tareas de desambiguación donde los modelos ofrecen un rendimiento menor:

– Para que los MME sean efectivos en el problema de detección de cláusulas ani-dadas es necesario el uso de reglas de corrección. Éstas podrían integrarse enel proceso de análisis modificando convenientemente el algoritmo de Viterbipara que en cada etapa de programación dinámica sólo se pueda transitar aestados correspondientes a parentizados válidos.

– Para mejorar las prestaciones en la desambiguación de sentidos habría queprofundizar en dos aspectos. Primero, en la forma de incorporar datos noanotados o anotados parcialmente. Segundo, en la manera de hacer cooperardistintos sistemas de desambiguación con los MME. Una manera de coopera-ción consistiría en disponer de clasificadores específicos y muy precisos paradeterminadas palabras. Durante el proceso de análisis, se fijarían los senti-dos de aquellas palabras que disponen de un clasificador específico según elsentido indicado por dicho clasificador.

� Resolución de otras tareas de desambiguación. Cualquier tarea que pueda reducirse aun problema de etiquetado podría llevarse a cabo haciendo uso de MME, como porejemplo, la identificación de roles sintácticos, el reconocimiento de entidades, etc.

� Adaptación a otras lenguas. Hasta ahora solamente se ha trabajado con el inglés. Eldesarrollo de otros corpora anotados sintáctica y semánticamente como los que seestán etiquetando bajo el marco del proyecto 3lb permitirá evaluar las prestacionesde los MME para otras lenguas como el castellano, el catalán o el vasco.

� Integración en otras aplicaciones. Los distintos modelos podrían integrase en apli-caciones de PLN para mejorar su rendimiento. Por ejemplo, en sistemas de recu-peración de información, búsqueda de respuestas o clasificación de documentos.Actualmente se está trabajando en tareas de clasificación de documentos incorpo-rando el etiquetado semántico generado por el MME.

Apéndice A

Descripción de los corpora

A continuación se describen los recursos textuales utilizados para evaluar la aproxima-ción de MME sobre las distintas tareas de desambiguación abordadas en este trabajo: elcorpus LexEsp para el castellano y el corpus Wall Street Journal (WSJ) para el inglés.

A.1 Corpus LexEsp

El corpus LexEsp es un conjunto de textos no restringidos en castellano sobre diferentestemáticas como noticias, literatura, artículos científicos, etc.. Consta aproximadamentede 5.5 millones de palabras. El corpus está etiquetado con las categorías morfosintácticasdefinidas en el proyecto PAROLE. Alrededor de de 100,000 palabras están supervisadasmanualmente. El conjunto de etiquetas está formado por 230 etiquetas estructuradas querepresentan información de la categoría gramatical, subcategoría, rasgos morfológicoscomo género y número, información del modo, tiempo y persona para los verbos, etc. Acontinuación se describe la estructura de la etiquetas completas así como el conjunto decategorías reducido que se ha empleado en la tarea de etiquetado morfosintáctico y en ladefinición de las expresiones regulares del analizador parcial.

A.1.1 Estructura completa de las categorías morfosinácticas Parole

Interjecciones: I

Abreviaturas: Y

Residuales: X

Símbolos de Puntuación: F

201

202 Apéndice A. Descripción de los corpora

Adjetivos Determinantes

Atributo Valor Código1 categoría Adjetivo A2 tipo Calificativo Q3 grado Positivo P

Comparativo CSuperlativo SIntensivo IApreciativo A

4 genéro masculino Mfemenino Fcomún C

5 número singular Splural Pinvariable I

6 caso - 07 función modificador M

especificador S

Atributo Valor Código1 categoría Determinante D2 tipo Demostrativo D

Posesivo PInterrogativo TExclamativo EIndefinido I

3 persona primera 1segunda 2tercera 3


5 número singular Splural Pinvariable N

6 caso - 07 poseedor singular S

plural P

Artículos Adverbios

Atributo Valor Código1 categoría Artículo T2 tipo Definido D

Indefinido IPersonal P


4 número singular Splural P

5 caso - 0

Atributo Valor Código1 categoría Adverbio R2 tipo General G3 grado Positivo P

Comparativo CSuperlativo SIntensivo IApreciativo A

4 función modificador Mespecificador S

5 pronominalidad interrogativo Qrelativo R

ConjuncionesAtributo Valor Código

1 categoría Conjunción C2 tipo Coordinada C

Subordinada S3 ? - 04 posicion - 0

A.1. Corpus LexEsp 203

Nombres NumeralesAtributo Valor Código

1 categoría Nombre N

2 tipo común CPropio P



5 caso - 0

6 genéro semántico - 0

7 grado apreciativo A

Atributo Valor Código1 categoría Numeral M2 tipo Cardinal C

Ordinal O3 genéro masculino M

femenino Fcomún C


5 caso - 06 función pronominal P

determinante Dadjetivo A

Verbos Pronombres

Atributo Valor Código1 categoría Verbo V2 tipo Principal M

Auxiliar A3 Modo Indicativo I

Subjuntivo SImperativo MCondicional CInfinitivo NGerundio GParticipio P

4 tiempo presente Pimperfecto Ifuturo Fpasado S



7 genéro masculino Mfemenino F

Atributo Valor Código1 categoría Pronombre P2 tipo Personal P

Demostrativo DPosesivo XIndefinido IInterrogativo TRelativo R




6 caso nominativo Nacusativo Adativo Doblicuo O

7 poseedor singular Splural P

8 “politeness” “polite” (usted)P


A.1.2 Categorías morfosintácticas Parole

A partir del conjunto completo de categorías Parole se define el siguiente conjunto redu-cido de etiquetas morfosintácticas.

AQAdjetivosC0 Conjunción sin clasificarCC Conjunción CoordinadaCS Conjunción SubordinadaD0 Determinante sin clasificarDD Determinante DemostrativoDE Determinante ExclamativoDI Determinantes IndefinidosDP Determinante PosesivoDT Determinante InterrogativoE0 Términos ExtranjerosI InterjeccionesMC Numeral CardinalMO Numeral OrdinalNC Nombre ComúnNP Nombre PropioP0 Pronombre sin clasificarPD Pronombre DemostrativoPI Pronombre IndefinidoPP Pronombre personalPR Pronombre RelativoPT Pronombre InterrogativoPX Pronombre PosesivoRG Adverbios y Fases AdverbialesSP PreposicionesTD ArtículosTI Determinante Indefinido

VACV Verbo A Auxiliar C CondicionalVAG G GerundioVAI I Otros tiempos de indicativoVAM M ImperativoVAN N InfinitivoVAP P ParticipioVAS S SubjuntivoVMC M PrincipalVMGVMIVMMVMNVMPVMSW FechaX ResidualesY AbreviaturasZ CifrasSIGNOS DE PUNTUACIÓNFaa ¡Fah [ Fai¿Fal { Fap ( Fc ,Fca ! Fcd ” Fch ]Fci ? Fcl } Fcp )Fcs ’ Fdp : Fg -Fgd – Fp . Fpc ; Fps ...Fs / Ftp % Fac � Fcc �

A.2. Corpus Wall Street Journal 205

A.2 Corpus Wall Street Journal

El corpus Wall Street Journal está formado por el material publicado por el periódico delmismo nombre desde el año 1987. En el proyecto Penn Treebank se anotó morfosintác-ticamente y sintácticamente un subconjunto de datos del WSJ. Alrededor de 1,200,000palabras fueron anotadas morfosintácticamente y analizadas sintácticamente con el ár-bol completo de análisis. A continuación se presentan las etiquetas morfosintácticas ysintácticas utilizadas. Además, se presenta un ejemplo de frase analizada completamen-te y su transformación en (chunks), utilizando la notación IOB1.

A.2.1 Categorías morfosintácticas del Penn Treebank

1. CC Coordinating conjunction 2. CD Cardinal number3. DT Determiner 4. EX Existencial there5. FW Foreing Word 6. IN Preposition/sub. conjunction7. JJ Adjective 8. JJR Adjective, comparative9. JJS Adjective, superlative 10. LS List item marker11. MD Modal 12. NN Noun, singular or mass13. NNS Noun, plural 14. NNP Proper noun, singular15. NNPS Proper noun, plural 16. PDT Predeterminer17. POS Possessive ending 18. PRP Personal pronoun19. PP$ Possessive pronoun 20. RB Adverb21. RBR Adverb, comparative 22. RBS Adverb, superlative23. RP Particle 24. SYM Symbol25. TO to 26. UH interjeccion27. VB Verb, base form 28. VBD Verb, pat tense29. VBG Verb, gerund/present participle 30. VBN Verb, past participle31. VBP Verb, non-3rd ps. isng. present 32. VBZ Verb, 3rd ps. sing. present33. WDT wh-determiner 34. WP wh-pronoun35. WP$ Possessive wh -pronoun 36. WRB wh-adverb37. # Pound sign 38. $ Dollar sign39. . Sentence-final punctuation 40. , Comma41. : Colon, semi-colon 42. ( Left bracket character43. ) Right bracket character 44. “ Straight double quote45. ‘ Left open single quote 46. “ Left open double quote47. ’ Right close single quote 48. ” Right close double quote


A.2.2 Categorías sintácticas del Penn Treebank

1. ADJP Adjective phrase2. ADVP Adverb phrase3. NP Null phrase4. PP Prepositional phrase5. S Simple declarative clause6. SBAR Clause introduced by subordinating conjunction or 0 (see below)7. SBARQ Direct question introduced by wsh-word or wh-phrase8. SINV Declarative sentence with subject-aux inversion9. SQ Subconstituent os SBARQ excluding wh-word or wh-phrase10. S-CLF it-clef, e.g. it was Casey who threw the ball11. SQ-CLF interrogative it-cleft, e.g. was it Casey who threw the ball12. RRC reduced relative clause, complementizer

and finite verb are missing13 FRAG clause fragment14. VP Verb phrase15. WHADVP wh-adverb phrase16. WHNP wh-noun phrase17. WHPP wh-prepositional phrase18. QP quantifier phrase19. PRT particle, i.e. separated verb prefix20. UCP unlike coordinate phrase21. PRN parenthetical22. NX head of a complex noun phrase23. NAC not a constituent;

to show scope of certain prenominal modifiersin a noun phrase

24. INTJ interjection25. CONJP conjunction phrase, only used whith

adjacent multi-element conjunctions26. X Constituent of unknown or uncertain category

A.2. Corpus Wall Street Journal 207

� Null elements

1. * “Undertood” subject of invinitive or imperative2. 0 Zero variant of that in subordinate clauses3. T Trace-marks position where moved wh-constituent is interpreted4. NULL Marks position where preposition is interpreted in pied-piping contexts

� Roles:

Text Categories-HLN headlines, datelines-TTL titles-LST list markers, i.e. mark list items in a textGrammatical Functions-CLF true clefts, see S-CLF, and SQ-CLF above-NOM non-NP functioning as NP-ADV clausal, and nominal adverbials-LGS logical subjects in passives-PRD non-VP predicates-SBJ surface subject-TPC topicalized, frontend constituent-CLR closely related-DTV dative PP-objectSemantic Roles-VOC vocative-DIR direction, trajectory-LOC manner-PRP purpose, reason-TMP temporal phrases-BNF benefactive-PUT locative complement of the verb ‘put’-EXT extent, spatial extent of an activity

A.2.3 Ejemplo de anotación de frase

A continuación se presenta un ejemplo de transformación del análisis completo de unafrase extraída del corpus WSJ –notación del Penn Treebank– a segmentos no solapadoso chunks utilizando la notación IOB1. Dicha transformación se ha realizado medianteel script que se puede obtener en la dirección http://ilk.kub.nl/~sabine/chunklink. La con-versión de árboles a estructuras no recursivas no es un problema trivial como se hanindicado en el apartado 5.3.5.


( (S(NP-SBJ

(NP (NNP Rockwell) (NNP International) (NNP Corp.) (POS ’s) )

(NNP Tulsa) (NN unit) )(VP (VBD said)

(SBAR (-NONE- 0)(S

(NP-SBJ (PRP it) )

(VP (VBD signed)(NP

(NP (DT a) (JJ tentative) (NN agreement) )(VP (VBG extending)

(NP(NP

(NP (PRP$ its) (NN contract)

(S (-NONE- *ICH*-1) ))(PP (IN with)

(NP (NNP Boeing) (NNP Co.) )))(S-1

(NP-SBJ (-NONE- *) )

(VP (TO to)(VP (VB provide)

(NP(NP (JJ structural) (NNS parts) )

(PP (IN for)

(NP(NP (NNP Boeing) (POS ’s) )

(CD 747) (NNS jetliners) )))))))))))))(. .) ))

Rockwell/B-NP International/I-NP Corp./I-NP ’s/B-NP Tulsa/I-NP

unit/I-NP said/B-VP it/B-NP signed/B-VP a/B-NP tentative/I-NPagreement/I-NP extending/B-VP its/B-NP contract/I-NP with/B-PP

Boeing/B-NP Co./I-NP to/B-VP provide/I-VP structural/B-NPparts/I-NP for/B-PP Boeing/B-NP ’s/B-NP 747/I-NP jetliners/I-NP ./O

Interprentando las etiquetas IOB1 se obtiene la siguiente segmentación en unidadessintácticas:

[NP Rockwell International Corp.] [NP ’s Tulsa unit] [VP said][NP it] [VP signed] [NP a tentative agreement][VP extending]

[NP its contract] [PP with] [NP Boeing Co.] [VP to provide][NP structural parts] [PP for][NP Boeing][NP ’s 474 jetliners] .

Apéndice B

Listados de palabras especializadas

En este apéndice se muestran las palabras que se han utilizado en los distintos criteriosde especialización, para cada una de las tareas abordadas.

B.1 Etiquetado morfosintáctico del WSJ

B.1.1 Criterio BIG-WHF

a, about, according, added, after, against, ago, agreed, agreement, all, already, also, among, an,analysts, and, another, any, are, as, assets, at, average, back, bank, banks, based, be, because, been,before, being, between, bid, big, bill, billion, board, bonds, both, business, but, buy, by, called, can,case, cash, cents, chairman, chief, close, closed, common, companies, company, concern, contract,costs, could, court, current, day, days, debt, did, director, do, does, down, due, during, each,earlier, early, earnings, economic, economy, end, ended, even, exchange, executive, expected, far,federal, fell, few, financial, firm, first, five, for, foreign, former, from, funds, futures, get, going,good, government, group, growth, had, has, have, he, help, her, high, higher, him, his, how, if, in,including, income, increase, index, industry, interest, into, investment, investors, is, issue, issues,it, its, just, last, late, law, least, less, like, loss, lower, made, major, make, many, market, markets,may, might, million, money, month, months, more, most, move, much, net, new, next, no, not,now, number, of, off, offer, office, officer, officials, oil, on, one, only, operating, operations, or,other, our, out, over, own, part, past, pay, people, period, plan, plans, president, price, prices,production, products, profit, program, public, quarter, rate, rates, real, recent, report, reported,revenue, rose, said, sale, sales, same, say, says, securities, sell, several, share, shares, she, should,since, small, so, sold, some, spokesman, stake, state, still, stock, stocks, such, system, take, tax,than, that, the, their, them, then, there, these, they, think, third, this, those, three, through, time,to, too, trade, trading, two, under, unit, until, up, use, used, value, very, vice, want, was, way, we,week, well, were, what, when, where, which, while, who, will, with, work, would, year, years,yen, yesterday, yield, you

209

210 Apéndice B. Listados de palabras especializadas

B.1.2 Criterio TRI-WHF

a, an, and, are, as, at, be, by, company, for, from, has, have, he, in, is, it, its, million, of, on, or, said,that, the, to, was, which, will, with, year

B.1.3 Criterio WCC

a, aboard, about, above, across, after, against, ago, ahead, albeit, all, along, alongside, although,amid, among, amongst, an, and, another, any, apart, are, around, as, aside, astride, at, atop, away,back, becase, because, before, behind, below, beneath, beside, besides, between, beyond, both,but, by, ca, can, complicated, could, dare, de, del, despite, down, during, each, either, en, et, even,every, except, expect, far, fiscal, for, forth, forward, from, half, he, her, herself, him, himself, his,how, if, in, including, inside, into, it, itself, la, le, less, lest, like, many, may, me, might, mighta,mine, minus, must, myself, na, nary, near, nearer, nearest, need, neither, next, no, nor, notwiths-tanding, of, off, on, once, one, onto, open, opposite, or, ought, ours, ourselves, out, outside, over,par, past, pending, per, plus, post, quite, s, save, shall, she, should, since, so, some, such, than,that, the, theirs, them, themselves, then, there, these, they, this, those, though, through, throug-hout, till, times, to, together, toward, towards, under, underneath, unless, unlike, until, up, upon,us, versus, via, we, what, whatever, when, whenever, where, whereas, whereby, wherever, whet-her, which, whichever, while, who, whoever, whom, whose, why, will, with, within, without, wo,worth, would, ya, yet, you, yourself

B.1.4 Criterio WTE

a, about, all, along, a.m., around, as, away, back, bankers, because, before, best, both, boys, but,buy, buying, call, capital-gains, changed, chief, close, closed, communications, cut, deputy, down,dynamics, earlier, early, east, ended, enough, executive, expected, firm, further, have, headquar-ters, held, hit, holding, in, increased, indicated, industries, junk-bond, last, late, less, little, long,lower, managing, markets, more, most, much, net, next, no, northern, off, offered, on, one, only,open, operating, out, over, par, past, plans, p.m., proposed, put, record, ’s, said, salespeople, se-cured, securities, selling, show, so, stock-index, systems, that, though, trading, underlying, up,west, yen, yesterday, yet

B.2 Etiquetado morfosintáctico de LexEsp

B.2.1 Criterio WCC

al, ambos, aunque, bajo, bien, como, contra, cuando, de, del, desde, durante, entonces, entre, eran,incluso, la, las, le, les, los, mediante, misma, mismo, más, nada, ni, no, para, pero, poco, por, que,se, seguro, ser, siempre, sin, sobre, sus, sí, también, todas, todo, total, último, único

B.3. Análisis parcial 211

B.3 Análisis parcial

B.3.1 Criterio WCC

154 palabras que aparecen etiquetadas en el corpus WSJ con categorías gramaticales ce-rradas: CC, DT, EX, IN, MD, POS, PDT, PP$ PRP, RP, TO, WDT, WP, WP$,

WRB.

&, ’, ’d, ’ll, ’s, ’t-, a, aboard, about, above, across, after, against, albeit, all, along, alongside, alt-hough, amid, among, amongst, an, and, another, any, around, as, astride, at, atop, because, before,behind, below, beneath, besides, between, beyond, both, but, by, ca, can, could, despite, down,during, each, either, en, every, except, for, from, half, he, her, herself, him, himself, how, i, if, in,inside, into, it, itself, lest, like, may, me, might, minus, must, myself, near, neither, no, nor, not-withstanding, of, off, on, one, onto, or, ought, ours, ourselves, out, outside, over, per, plus, s, she,should, since, so, some, than, that, the, theirs, them, themselves, there, these, they, this, those,though, through, throughout, till, to, toward, under, underneath, unless, unlike, until, up, upon,us, v., versus, via, vs., we, what, whatever, when, whenever, where, whereas, wherever, whether,which, whichever, while, who, whom, whose, why, will, with, within, without, wo, would, y’all,you

B.3.2 Criterio WHF

Son las palabras que están en el umbral de frecuencia que ofrece mejores prestadiones:88 palabras que aparecen con una frecuencia superior a 200 en el corpus WSJ.

„ ;, :, ., ”, $, %, (, ), a, about, after, all, also, an, and, are, as, at, be, because, been, billion, but, by,can, company, Corp., could, for, from, had, has, have, he, his, I, in, Inc., into, is, it, its, last, market,million, more, Mr., new, not, n’t, of, on, one, or, other, out, ’s, said, says, share, some, stock, than,that, the, their, they, this, to, two, up, U.S., was, were, when, which, who, will, with, would, year,years, York

B.3.3 Criterio WTE

Palabras cuya frecuencia de error de etiquetado es mayor que 2 sobre el corpus de desa-rrollo. Hacen un total de 38 palabras.

$, „ 60, a, about, after, all, although, and, as, because, but, compared, for, if, in, including, last,n’t, next, not, of, off, once, or, other, out, since, so, that, the, then, to, today, up, whether, while,yesterday


B.3.4 Criterio WCH

217 palabras pertenecientes a los chunks SBAR, PP y VP.

”, ’re, ’s, „ –, (, ;, “, aboard, about, above, according, across, added, adds, after, against, agreed,ahead, all, along, alongside, also, although, amid, among, amongst, and, are, around, as, astride,at, atop, back, barring, based, be, because, become, been, before, began, beginning, behind, being,below, beneath, besides, between, beyond, both, but, buy, by, called, can, closed, combined, come,compared, considering, continue, could, counting, coupled, declined, depending, despite, did,do, does, down, dropped, due, during, either, en, ended, especially, even, ever, except, excluding,expect, expected, expects, far, fell, following, for, from, gained, get, getting, give, given, go, going,had, has, have, held, help, if, in, include, included, including, increased, inside, instead, into,is, just, know, less, lest, like, made, make, makes, making, may, maybe, might, mostly, much,must, n’t, near, nearest, need, next, not, notwithstanding, now, of, off, on, once, only, onto, or,other, out, outside, over, paid, particularly, partly, past, pay, pending, per, plans, plus, posted,primarily, prior, provided, put, rather, rearding, received, regarding, reported, right, rose, said,save, say, says, see, sell, set, should, since, so, sold, starting, such, take, than, that, think, though,through, throughout, till, to, toward, trying, under, underneath, unless, unlike, until, up, upon,used, v., via, want, was, well, were, whereas, whether, while, will, with, within, without, wo,worth, would

B.3.5 Criterio WHF-BA

Palabras pertenecientes al criterio WHF seleccionadas con la estrategia de búsqueda (41palabras).

about, a, all, as, at, be, been, but, company, could, for, has, have, his, if, into, its, market, million,more, Mr., next, not, of, once, one, says, so, than, that, the, their, then, today, two, whether, while,who, with, would, yesterday

B.4 Detección de cláusulas

128 palabras pertenecientes a las categorías cerradas: CC, DT, EX, IN, MD, PDT,

WDT, WP, WP$, WRB.

&, ’d, ’ll, a, aboard, about, above, across, after, against, albeit, all, along, alongside, although,amid, among, amongst, an, and, another, any, around, as, astride, at, atop, because, before,behind, below, beneath, besides, between, beyond, both, but, by, ca, can, could, despite, down,during, each, either, en, every, except, for, from, half, how, if, in, inside, into, lest, like, may, mig-ht, minus, must, near, neither, no, nor, notwithstanding, of, off, on, onto, or, ought, out, outside,

B.5. Desambiguación de sentidos de las palabras 213

over, per, plus, should, since, so, some, than, that, the, there, these, this, those, though, through,throughout, till, toward, under, underneath, unless, unlike, until, up, upon, v., versus, via, vs.,what, whatever, when, whenever, where, whereas, wherever, whether, which, whichever, while,who, whom, whose, why, will, with, within, without, wo, would

B.5 Desambiguación de sentidos de las palabras

136 lemas escogidos entre los más frecuentes utilizados para especializar el MME en latarea de WSD.

be, have, not, say, n’t, no, more, so, time, now, year, most, day, seem, still, become, look, here,too, life, little, old, however, world, begin, present, mean, early, thus, reach, church, kind, local,at_least, rather, century, he, as, on, i, by, but, at, an, one, would, there, when, who, will, are, only,some, f, such, over, through, new, out, should, think, show, between, go, another, good, back,might, under, while, well, up, feel, high, again, hand, last, change, write, something, though, rig-ht, let, end, point, enough, case, around, why, start, night, program, important, surface, include,type, move, expect, follow, value, mind, turn, off, far, name, development, yet, less, a_few, bring,shall, consider, away, body, big, country, best, sit, amount, cause, set, of_course, hour, public,plan, government, sense, cost, indicate, answer, pay, past, month, history, today, along

Apéndice C

Resultados adicionales de laexperimentación

Algunos resultados que se han resumido en los capítulos de esta tesis, se describen conmás detalle en este apéndice.

C.1 Etiquetado morfosintáctico

BIG BIG-WHF BIG-WCC BIG-WTEPARTE_1 96.17% 96.42% 96.36% 96.37%PARTE_2 95.91% 96.26% 96.19% 96.17%PARTE_3 95.96% 96.26% 96.12% 96.17%PARTE_4 96.13% 96.42% 96.40% 96.35%PARTE_5 96.27% 96.47% 96.36% 96.38%PARTE_6 95.96% 96.32% 96.18% 96.19%PARTE_7 96.24% 96.58% 96.45% 96.47%PARTE_8 95.73% 96.07% 95.92% 95.96%PARTE_9 95.89% 96.22% 96.15% 96.15%PARTE_10 96.14% 96.44% 96.35% 96.39%

� 96.04% � 0.11 96.35% � 0.09 96.25% � 0.10 96.26% � 0.10

Tabla C.1: Resultados de precisión de la validación cruzada para los diferentes criterios de espe-cialización utilizando bigramas sobre el corpus WSJ (secciones 00 a 19).

215

216 Apéndice C. Resultados adicionales de la experimentación

TRI TRI-WHF TRI-WCC TRI-WTEPARTE_1 96.45% 96.63% 96.62% 96.63%PARTE_2 96.25% 96.49% 96.45% 96.45%PARTE_3 96.29% 96.51% 96.46% 96.50%PARTE_4 96.50% 96.68% 96.68% 96.63%PARTE_5 96.60% 96.76% 96.68% 96.62%PARTE_6 96.33% 96.54% 96.49% 96.44%PARTE_7 96.49% 96.69% 96.69% 96.68%PARTE_8 96.08% 96.33% 96.28% 96.23%PARTE_9 96.32% 96.52% 96.51% 96.43%PARTE_10 96.45% 96.65% 96.60% 96.68%

� 96.38% � 0.09 96.58% � 0.08 96.55% � 0.08 96.53% � 0.09

Tabla C.2: Resultados de precisión de la validación cruzada para los diferentes criterios de espe-cialización utilizando trigramas sobre el corpus WSJ (secciones 00 a 19).

TRI TRI-WHF MEPARTE_1 96.45% 96.63% 96.74%PARTE_2 96.25% 96.49% 96.54%PARTE_3 96.29% 96.51% 96.57%PARTE_4 96.50% 96.68% 96.63%PARTE_5 96.60% 96.76% 96.82%PARTE_6 96.33% 96.54% 96.58%PARTE_7 96.49% 96.69% 96.73%PARTE_8 96.08% 96.33% 96.28%PARTE_9 96.32% 96.52% 96.61%PARTE_10 96.45% 96.65% 96.77%

MEDIA 96.38% 96.58% 96.63%MEDIA-conocidas 96.75% 96.96% 97.00%MEDIA-desconocidas 85.22% 85.48% 85.53%

Tabla C.3: Resultados de precisión para cada una de las diez particiones de la validación cruzadapara los modelos MM, MME y ME.

C.1. Etiquetado morfosintáctico 217

Total Palabras Palabrasde palabras Conocidas Desconocidas

PARTE_1 96.45% 96.83% 85.15%PARTE_2 96.25% 96.66% 84.94%PARTE_3 96.29% 96.65% 85.05%PARTE_4 96.50% 96.86% 85.26%PARTE_5 96.60% 96.99% 85.37%PARTE_6 96.33% 96.71% 85.28%PARTE_7 96.49% 96.85% 86.53%PARTE_8 96.08% 96.49% 84.16%PARTE_9 96.32% 96.69% 84.66%PARTE_10 96.45% 96.80% 85.77%

� 96.38% � 0.09 96.75% � 0.09 85.22% � 0.39

Tabla C.4: Resultados de precisión para cada una de las diez particiones de la validación cruzadapara el modelo básico TRI.


PARTE_1 96.63% 97.01% 85.34 %PARTE_2 96.65% 97.00% 86.02 %PARTE_3 96.49% 96.88% 85.83 %PARTE_4 96.51% 96.89% 84.78 %PARTE_5 96.68% 97.03% 85.74 %PARTE_6 96.76% 97.15% 85.44 %PARTE_7 96.54% 96.91% 85.59 %PARTE_8 96.69% 97.06% 86.67 %PARTE_9 96.33% 96.74% 84.25 %PARTE_10 96.52% 96.88% 85.07 %

� 96.58% � 0.08 96.96% � 0.07 85.48% � 0.42

Tabla C.5: Resultados de precisión para cada una de las diez particiones de la validación cruzadapara el modelo TRI-WHF.

218 Apéndice C. Resultados adicionales de la experimentación


PARTE_1 96.74% 97.11% 85.75 %PARTE_2 96.54% 96.95% 85.15 %PARTE_3 96.57% 96.95% 84.68 %PARTE_4 96.63% 96.99% 85.30 %PARTE_5 96.82% 97.19% 86.28 %PARTE_6 96.58% 96.99% 84.87 %PARTE_7 96.73% 97.09% 86.94 %PARTE_8 96.28% 96.72% 83.36 %PARTE_9 96.61% 96.95% 85.99 %PARTE_10 96.77% 97.09% 86.99 %

� 96.63% � 0.10 97.00% � 0.08 85.53% � 0.69

Tabla C.6: Resultados de precisión para cada una de las diez particiones de la validación cruzadapara la aproximación de ME.

Bibliografía

Abney, S. (1991). Parsing by Chunks. R. Berwick, S. Abney and C. Tenny (eds.) Principle–based Parsing . Kluwer Academic Publishers, Dordrecht.

Abney, S. (1996). Partial Parsing via Finite-State Cascades. In Proceedings of the ESSLLI’96Robust Parsing Workshop, Prague, Czech Republic.

Abney, S. (1997). Part-of-Speech Tagging and Partial Parsing. S. Young and G. Bloothooft(eds.) Corpus-Based Methods in Language y Speech Processing. An ELSNET book.Kluwer Academic Publishers, Dordrecht.

Agirre, E., Arregi, X., Artola, X., Díaz de Ilarraza, A., y Sarasola, K. (1994). IntelligentDictionary Help Systems, Applications and Implications of current LSP Research. Fakbokfor-laget, Norway.

Agirre, E. y Martínez, D. (2000). Exploring automatic word sense disambiguation withdecision lists y the Web. In Proceedings of Semantic Annotation and Intelligent AnnotationWorkshop (COLING–2000), Luxembourg.

Agirre, E. y Martínez, D. (2001). Decision Lists for English and Basque. In Proceedings ofthe Senseval-2 Workshop at ACL/EACL’01, Toulouse, France.

Agirre, E. y Martínez, D. (2002). Integrating selectional preferences in WordNet. In Pro-ceedings of the First International WordNet Conference, Mysore, India.

Agirre, E. y Rigau, G. (1997). A proposal for Word Sense Disambiguation using Con-ceptual Distance. In Proceedings of the Second Conference on Recent Advances in NaturalLanguage Processing, RANLP, Tzigov Chark, Bulgaria.

Aha, D. y Bankert, R. (1994). Feature selection for case-based classification of cloud ty-pes: An empirical comparison. In Proceedings of the 1994 AAAI Workshop on Case-BasedReasoning, pages 106–112. AAAI Press.

Aho, A., Sethi, R., y Ullman, J. (1990). Compiladores: Principios, técnicas y herramientas.Addison-Wesley.

219

220 BIBLIOGRAFÍA

Aït-Mokhtar, S. y Chanod, J. (1997). Incremental Finite-State Parsing. In Proceedings of the5th Conference on Applied Natural Language Processing, Washington D.C., USA.

Allen, J. F. (1995). Natural Language Understanding. Computer Science. 2nd. ed. BenjaminCummings.

Argamon, S., Dagan, I., y Krymolowski, Y. (1998). A Memory–based Approach to Lear-ning Shallow Natural Language Patterns. In Proceedings of the joint 17th InternationalConference on Computational Linguistics y 36th Annual Meeting of the Association for Com-putational Linguistics, COLING-ACL, pages 67–73, Montréal, Canada.

Atserias, J., Carmona, J., Castellón, I., Cervell, S., Civit, M., Màrquez, L., Martí, M., Padró,L., Placer, R., Rodríguez, H., Taulé, M., y Turmo, J. (1998). Morphosyntactic Analysisand Parsing of Unrestricted Spanish Text. In Proceedings of the 1st International Confe-rence on Language Resources y Evaluation, LREC, pages 1267–1272, Granada, Spain.

Bahl, L. R., Jelinek, F., y Mercer, R. L. (1983). A Maximum–Likelihood Approach to Con-tinuous Speech Recognition. IEEE Transactions on Pattern Analysis and Machine Intelli-gence, PAMI, 5(2):179–190.

Bahl, L. R. y Mercer, R. L. (1976). Part–of–speech Assignment by a Statistical DecisionAlgorithm. In IEEE International Symposium on Information Theory, pages 88–89.

Baker, J. K. (1975). The dragon system – An overview. IEEE Transactions on Acoustics,Speech and Signal Processing, 23(1):24–29.

Baum, L. E. (1972). An Inequality and Associated Maximization Technique in StatisticalEstimation for Probabilistic Functions of a Markov Process. Inequalities, 3:1–8.

Bies, A., Fergusson, M., Katz, K., y MacIntyre, R. (1995). Bracketing Guidelines for Tree-bank II Style Penn Treebank Project. Technical Report, University of Pennsylvania.

Black, E., Abney, S., Flickenger, D., Gdaniec, C., Grishman, R., Harrison, P., Hindle, D.,Ingria, R., Jelinek, F., Klavans, J., Liberman, M., Marcus, M., Roukos, S., Santorini,B., y Strzalkowski, T. (1991). A procedure for quantitatively comparing the syntacticcoverage of English grammars. In Proceedings of the DARPA Workshop on Speech andNatural Language.

Brants, T. (1999). Cascaded Markov Models. In Proceedings of the EACL99, Bergen, Nor-way.

Brants, T. (2000). TnT – a statistical part-of-speech tagger. In Proceedings of the Sixth AppliedNatural Language Processing (ANLP-2000), Seattle, WA.

BIBLIOGRAFÍA 221

Brill, E. (1992). A Simple Rule–Based Part–of–speech Tagger. In Proceedings of the 3rdConference on Applied Natural Language Processing, ANLP, pages 152–155. ACL.

Brill, E. (1993a). A Corpus–based Approach to Language Learning. Phd. Thesis, Departmentof Computer and Information Science, University of Pennsylvania.

Brill, E. (1993b). Automatic Grammar Induction and Parsing Free Text: ATransformation–based Approach. In Proceedings of the 31st Annual Meeting of the As-sociation for Computational Linguistics.

Brill, E. (1994). Some Advances in Rule–based Part–of–speech Tagging. In Proceedings ofthe 12th National Conference on Artificial Intelligence, AAAI, pages 722–727.

Brill, E. (1995). Transformation–based Error–driven Learning and Natural Language Pro-cessing: A Case Study in Part–of–speech Tagging. Computational Linguistics, 21(4):543–565.

Brill, E. y Resnik, P. (1994). A Rule-Based Approach to Prepositional Phrase AttachmentDisambiguation. In Proceedings of the 15th International Conference on Computational Lin-guistics, COLING, Kyoto, Japan.

Brill, E. y Wu, J. (1998). Classifier Combination for Improved Lexical Disambiguation.In Proceedings of the joint 17th International Conference on Computational Linguistics y 36thAnnual Meeting of the Association for Computational Linguistics, COLING-ACL, pages 191–195, Montréal, Canada.

Briscoe, E. J. (1994). Prospects for Practical Parsing of Unrestricted Text: Robust StatisticalParsing Techniques. N. Oostdijk and P. de Haan (eds.), Corpus-Based Research intoLanguage. Rodopi, Amsterdam.

Brown, P. F., Pietra, S. D., Pietra, V. D., y Mercer, R. L. (1991). Word Sense Disambiguationusing Statistical Methods. In Proceedings of the 29th Annual Meeting of the Association forComputational Linguistics, ACL, pages 264–270.

Cabezas, C., Resnik, P., y Stevens, J. (2001). Supervised Sense Tagging using SupportVector Machines. In Proceedings of the Senseval-2 Workshop at ACL/EACL’01, Toulouse,France.

Cardie, C. y Pierce, D. (1998). Error-Driven Prunning of Treebank Grammars for BaseNoun Phrase Identification. In Proceedings of the joint 17th International Conference onComputational Linguistics y 36th Annual Meeting of the Association for Computational Lin-guistics, COLING-ACL, pages 218–224, Montréal, Canada.

Carmona, J., Cervell, S., Màrquez, L., Martí, M., Padró, L., Placer, R., Rodríguez, H., Taulé,M., y Turmo, J. (1998). An Environment for Morphosyntactic Processing of Unrestricted

222 BIBLIOGRAFÍA

Spanish Text. In Proceedings of the 1st International Conference on Language Resources yEvaluation, LREC, pages 915–922, Granada, Spain.

Carreras, X. y Màrquez, L. (2001). Boosting trees for clause splitting. In Daelemans, W.and Zajac, R., editors, Proceedings of CoNLL-2001, pages 73–75. Toulouse, France.

Chanod, J. y Tapanainen, P. (1996). A Robust Finite-State Parser for French. In Proceedingsof the ESSLLI’96 Robust Parsing Workshop, pages 16–25, Prague, Czech Republic.

Chanod, J.-P. y Tapanainen, P. (1995). Tagging French – Comparing a Statistical and aConstraint-Based Method. In Proceedings of the 7th Conference of the European Chapter ofthe Association for Computational Linguistics, EACL, pages 149–156, Dublin, Ireland.

Chao, G. y Dyer, M. G. (2001). Probabilistic Network Models for Word Sense Disambi-guation. In Proceedings of the Senseval-2 Workshop at ACL/EACL’01, Toulouse, France.

Charniak, E. (1993). Statistical Language Learning. The MIT Press, Cambridge, Massachu-setts.

Charniak, E. (1997). Statistical Techniques for Natural Language Parsing. AI Magazine.

Chen, K. y Chen, H. (1995). Extracting Noun Phrases from Large-Scale Texts: A HybridApproach y Its Automatic Evaluation. In Proceedings of the 33rd Annual Meeting of theAssociation for Computational Linguistics, ACL.

Chen, S. F. y Goodman, J. (1996). An Empirical Study of Smoothing Techniques for Lan-guage Modeling. In Proceedings of the 34th Annual Meeting of the Association for Compu-tational Linguistics. ACL.

Church, K. W. (1988). A Stochastic Parts Program and Noun Phrase Parser for Unres-tricted Text. In Proceedings of the 1st Conference on Applied Natural Language Processing,ANLP, pages 136–143. ACL.

Collins, H. (1992). Collins Cobuild English Grammar.

Collins, M. (1996). A new Statistical Parser based on Bigram Lexical Dependencies. InProceedings of the 34th Annual Meeting of the Association for Computational Linguistics,Santa Cruz, CA. ACL.

Collins, M. (1997). Three Generative, Lexicalised Models for Statistical Parsing. In Procee-dings of the 35th Annual Meeting of the Association for Computational Linguistics, Madrid,Spain. ACL.

Crestan, E., El-Beze, M., y Loupy, C. d. (2001). Which Length for a Multi-Level View ofContext for Word Sense Disambiguation. In Proceedings of the Senseval-2 Workshop atACL/EACL’01, Toulouse, France.

BIBLIOGRAFÍA 223

Cutting, D., Kupiec, J., Pederson, J., y Sibun, P. (1992). A Practical Part–of–speech Tagger.In Proceedings of the 3rd Conference on Applied Natural Language Processing, ANLP, pages133–140. ACL.

Daelemans, W., Buchholz, S., y Veenstra, J. (1999). Memory-Based Shallow Parsing. InProceedings of EMNLP/VLC-99, pages 239–246, University of Maryland, USA.

Daelemans, W., Van den Bosch, A., y Weijters, T. (1997). IGTree: Using Trees for Compressionand Classification in Lazy Learning Algorithms. D. Aha (ed.), Artificial Intelligence Review11, Special issue on Lazy Learning. Kluwer Academic Publishers.

Daelemans, W., Zavrel, J., y Berck, P. (1996a). Part-of-Speech Tagging for Dutch withMBT, a Memory-based Tagger Generator. In Congresboek van de Interdisciplinaire Onder-zoeksconferentie Informatiewetenchap, TU Delft.

Daelemans, W., Zavrel, J., Berck, P., y Gillis, S. (1996b). MBT: A Memory–Based Part–of–speech Tagger Generator. In Proceedings of the 4th Workshop on Very Large Corpora, pages14–27, Copenhagen, Denmark.

Daelemans, W., Zavrel, J., Van der Sloot, K., y Van der Bosch, A. (2001). Timbl: Tilburgmemory based learner, verison 4.0, reference guide. Technical Report, University ofAntwerp.

Dagan, I., Pereira, F., y Lee, L. (1994). Word sense disambiguation usina a second langua-ge monolingual corpus. Computational Linguistics, 20:563–596.

Déjean, H. (2000). Learning Syntactic Structures with XML. In Proceedings of CoNLL-2000and LLL-2000, Lisbon, Portugal.

Déjean, H. (2001). Using allis for clausing. In Daelemans, W. and Zajac, R., editors,Proceedings of CoNLL-2001, pages 64–66. Toulouse, France.

Demartas, E. y Kokkinakis, G. (1995). Automatic Stochastic Tagging of Natural LanguageText. Computational Linguistics, 21(2).

DeRose, S. J. (1988). Grammatical Category Disambiguation by Statistical Optimization.Computational Linguistics, 14:31–39.

Derouault, A. M. y Merialdo, B. (1984). Language Modelling at the Syntactic Level. InProceedings of the 7th International Conference on Pattern Recognition.

Diab, M. y Resnik, P. (2002). An unsupervised method for word sense tagging using para-llel corpora. In Proceedings of the 40th Annual Meeting of the Association for ComputationalLinguistics, pages 255–262. ACL.

224 BIBLIOGRAFÍA

Edmonds, P. (2002). Introduction to senseval. In ELRA newsletter.

Ejerhed, E. (1988). Finding Clauses in Unrestricted Text by Finitary and Stochastic Met-hods . In Proceedings of Second Conference on Applied Natural Language Processing, pages219–227. ACL.

Ejerhed, E. (1996). Finite State Segmentation of Discourse into Clauses. In Proceedings ofthe ECAI ’96 Workshop on Extended finite state models of language, Budapest, Hungary.

Elworthy, D. (1994). Does Baum–Welch Re–estimation Help Taggers? In Proceedings ofthe 4th Conference on Applied Natural Language Processing, ANLP, pages 53–58. ACL.

Escudero, G., Márquez, L., y Rigau, G. (2000). A comparison between supervised learningalgorithms for Word Sense Disambiguation. In Proceedings of CoNLL-2000 and LLL-2000,Lisbon, Portugal.

Ferrández, A., Palomar, M., y Moreno, L. (1998). Anaphor resolution in unrestricted textswith partial parsing. In Proceedings of COLING-ACL’98, pages "385–391", Montréal,Canada.

Forney, G. (1973). The Viterbi Algorithm. In Proceedings in IEEE, volume 61, pages 268–278.

Franz, A. (1997). Independence Assumption Considered Harmful. In Proceedings of ACL-EACL, Madrid, Spain.

Gala, N. (1999). Using the Incremental Finite-State Architecture to create a Spanish Sha-llow Parser. Procesamiento del Lenguaje Natural, 25:75–82. Also in Proceedings of the14th Conferencia de la Sociedad Española para el Procesamiento del Lenguaje Natural.

Gale, W. y Church, K. (1991). A program for aligning sentences in bilingual corpora.In Proceedings of the 29th Annual Meeting of the Association for Computational Linguistics,ACL, pages 177–184.

Gale, W., Church, K. W., y Yarowsky, D. (1993). A Method for Disambiguating WordSenses in a Large Corpus. Computers and the Humanities, 26:415–439.

García, P. y Vidal, E. (1990). Inference of K-testable Languages In the Strict Sense andApplication to Syntactic Pattern Recognition. IEEE Transactions on Pattern Analysis andMachine Intelligence, PAMI, 12(9):920–925.

Good, I. J. (1953). The Population Frequencies of Species and the Estimation of PopulationParameters. Biometrika, 40.

Grefenstette, G. (1996). Light Parsing as Finite State Filtering. In Proceedings of the ECAIWorkshop on Extended Finite State Models of Language, Budapest, Hugary.

BIBLIOGRAFÍA 225

Habash, N. y Dorr, B. (2002). Handling traslation divergences: Combining satistical andsymbolic techniques in generation-heavy machine traslation. In Proceedings of of AMTA,Tiburon.

Hammerton, J. (2001). Clause identification with long short-term memory. In Daelemans,W. and Zajac, R., editors, Proceedings of CoNLL-2001, pages 61–63. Toulouse, France.

Hammerton, J., Osborne, M., Armstrong, S., y Daelemans, W. (2002). Introduction toSpecial Issue on Machine Learning Approaches to Shallow Parsing. Journal of MachineLearning Research, 2:551–558.

Harabagiu, S. y Maiorano, S. (1999). Knowledge-Lean Coreference Resolution and ItsRelation to Textual Cohesion y Coreference. pages 29–38.

Hindle, D. (1983). User manual for Fidditch. Technical memorandum 7590–142, NavalResearch Laboratory.

Hoste, V., Hendrickx, I., Daelemans, W., y Van den Bosch, A. (2002). Parameter Optimi-zation for Machine-Learning of Word Sense Disambiguation. Natural Language Engi-neering, Special Issue on Word Sense Disambiguation Systems, pages 311–325.

Hoste, V., Kool, A., y Daelemans, W. (2001). Classifier Optimization and Combination inthe English All Words Task. In Proceedings of the Senseval-2 Workshop at ACL/EACL’01,Toulouse, France.

Ide, N. y Véronis, J. (1998). Word Sense Disambiguation: The State of the Art. Computa-tional Linguistics, 24(1):1–40.

Jelinek, F. (1976). Continuous speech recognition by statistical methods. IEEE, 64:532–536.

Jelinek, F. y Mercer, R. L. (1985). Probability Distribution Estimation from Sparse Data.Tecnical Disclosure Bulletin, IBM.

Johansson, C. (2000). A Context Sensitive Maximum Likelihood Approach to Chunking.In Proceedings of CoNLL-2000 and LLL-2000, Lisbon, Portugal.

Katz, S. M. (1987). Estimation of Probabilities from Sparse Data for the Language ModelComponent of a Speech Recognizer. IEEE Transactions on Acoustics, Speech and SignalProcessing, 35.

Kim, J., Lee, S., y Rim, H. (1999). HMM Specialization with Selective Lexicalization.In Proceedings of the join SIGDAT Conference on Empirical Methods in Natural LanguageProcessing y Very Large Corpora (EMNLP-VLC-99).

Koeling, R. (2000). Chunking with Maximum Entropy Models. In Proceedings of CoNLL-2000 and LLL-2000, Lisbon, Portugal.

226 BIBLIOGRAFÍA

Kudo, T. y Matsumoto, Y. (2000). Use of Support Vector Learning for Chunk Identifica-tion. In Proceedings of CoNLL-2000 and LLL-2000, Lisbon, Portugal.

Kudo, T. y Matsumoto, Y. (2001). Chunking with Support Vector Machines. In Proceedingsof NAACL 2001, Pittsburgh, USA. Morgan Kaufman Publishers.

Kupiec, J. (1992). Robust Part–of–speech Tagging Using a Hidden Markov Model. Com-puter Speech and Language, 6.

Lari, K. y Young, S. (1991). Application of Stochastic Context-Free Grammars using theInside-Outside Algotithm. Computer Speech and Language, 5:237–257.

Leffa, V. J. (1998). Clause Processing in Complex Sentences. In Proceedings of the 1stInternational Conference on Language Resources y Evaluation, LREC, Granada, Spain.

Lesk, M. (1986). Automated Sense Disambiguation using Machine-readable Dictionaries:How to tell a pine cone from an ice cream cone. In Proceedings of the 1986 SIGDOCConference, pages 24–26, Toronto, Canada.

Li, X. y Roth, D. (2001). Exploring Evidence for Shallow Parsing. In Proceedings of the 5thConference on Computational Natural Language Learning (CoNLL-2001), Toulouse, France.

Littlestone, N. (1988). Learning Quickly when Irrelevant Attributes Abound. MachineLearning, 2:285–318.

Loupy, C., El-Beze, M., y Marteau, P. F. (1998). Word Sense Disambiguation using HMMTagger. In Proceedings of the 1st International Conference on Language Resources y Evalua-tion, LREC, pages 1255–1258, Granada, Spain.

Magerman, D. M. (1995). Statistical Decision-Tree Models for Parsing. In Proceedings ofthe 33rd Annual Meeting of the Association for Computational Linguistics. ACL.

Magerman, D. M. (1996). Learning Grammatical Structure Using Statistical Decision–Trees. In Proceedings of the 3rd International Colloquium on Grammatical Inference, ICGI,pages 1–21. Springer-Verlag Lecture Notes Series in Artificial Intelligence 1147.

Magnini, B. y Cavaglia, G. (2000). Integrating subject field codes into wordnet. In Procee-dings of LREC-2000, Second International Conference on Language Resources y Evaluation,pages 1413–1418, Athens, Greece.

Malouf, R. (2002). Markov models for language-independent named entity recognition.In Proceedings of CoNLL-2002, pages 187–190. Taipei, Taiwan.

Manning, C. y Schütze, H. (1999). Foundations of Statistical Natural Language Processing.MIT Press, Cambridge, Massachusetts.

BIBLIOGRAFÍA 227

Marcus, M. P., Marcinkiewicz, M. A., y Santorini, B. (1993). Building a Large AnnotatedCorpus of English: The Penn Treebank. Computational Linguistics, 19(2).

Màrquez, L. (1999). Part–of–Speech Tagging: A Machine–Learning Approach based on DecisionTrees. Phd. Thesis, Dep. Llenguatges i Sistemes Informàtics. Universitat Politècnica deCatalunya.

Màrquez, L., Padró, L., y Rodríguez, H. (2000). A Machine Learning Approach to POSTagging. Machine Learning, 39(1):59–91.

Màrquez, L. (2000). Machine Learning and Natural Language Processing. Technical Re-port LSI-00-45-R, Dep. LSI. Universitat Politècnica de Catalunya.

Martí, M. A., Rodríguez, H., y Serrano, J. (1998). Declaración de categorías morfosintácti-cas. Doc.ITEM n. 2, Universitat politècnica de Catalunya and Universitat de Barcelona.

McCarthy, D. (2001). Lexical Acquisition at the Syntax-Semantics Interface: Diathesis Aterna-tions, Subcategorization Frames y Selectional Preferences. Phd. Thesis, University of Sussex.

McDonald, D. (1992). An efficient Chart-based Algotith for Partial-Parsing of Unrestric-ted Texts. In Proceedings of the 3rd Conference on Applied Natural Language Processing,ANLP. ACL.

Merialdo, B. (1994). Tagging English Text with a Probabilistic Model. Computational Lin-guistics, 20(2):155–171.

Mihalcea, R. y Moldovan, D. (1999a). An automatic method for generating sense taggedcorpora. In Proceedings of AAAI ’99, Orlando, USA.

Mihalcea, R. y Moldovan, D. (1999b). A method for word sense dismabiguation of unres-tricted text. In Proceedings of the 37th Annual Meeting of the Association for ComputationalLinguistics, pages 152–158, Maryland, USA.

Mihalcea, R. y Moldovan, D. (2000). Semantic Indexing using WordNet senses. In Procee-dings of ACL2000 Workshop on Recent Advances in Natural Language Processing y Informa-tion Retireval.

Mihalcea, R. y Moldovan, D. I. (2001). A highly accurate bootstrapping algorithm forword sense disambiguation. International Journal on Artificial Intelligence Tools, 10(1-2):5–21.

Miller, G. A., Beckwith, R., Fellbaum, C. D., Gross, D., y Miller, K. J. (1990). Introductionto WordNet: An on-line lexical database. International Journal of Lexicography, 3(4):235–244.

228 BIBLIOGRAFÍA

Miller, G. A., Chodorow, M., Landes, S., Leacock, C., y Thomas, R. G. (1994). Using aSemantic Concordance for Sense Identificaction. In Proceedings of the ARPA Workshopon Human Language Technology, pages 240–243.

Moldovan, D., Harabagiu, S., Girju, R., Morarescu, P., Lacatusu, F., Novischi, A., Badu-lescu, A., y Bolohan, O. (2002). LCC Tools for Question Answering. In Proceedings ofthe Eleventh Text REtrieval Conference.

Molina, A. y Pla, F. (2001). Clause detection using HMM. In Proceedings of the 5th Confe-rence on Computational Natural Language Learning (CoNLL-2001), Toulouse, France.

Molina, A. y Pla, F. (2002). Shallow Parsing using Specialized HMMs. Journal of MachineLearning Research, 2:595–613.

Molina, A., Pla, F., Moreno, L., y Prieto, N. (1999a). Incremental Partial Parser of Un-restricted Natural Language Sentences. In Proceedings of VIII National Symposium onPattern Recognition y Image Analysis, pages 171–178, Bilbao, Spain.

Molina, A., Pla, F., Moreno, L., y Prieto, N. (1999b). APOLN: A Partial Parser of Unres-tricted Text. In Proceedings of 5th Conference on Computational Lexicography y Text ResearchCOMPLEX-99, pages 101–108, Pecs, Hungary.

Molina, A., Pla, F., y Segarra, E. (2002a). A Hidden Markov Model Approach to WordSense Disambiguation. In Proceedings of the VIII Conferencia Iberoamericana de InteligenciaArtificial, IBERAMIA2002, Sevilla, Spain.

Molina, A., Pla, F., y Segarra, E. (2002b). Una formulación unificada para resolver distintoproblemas de ambigüedad en PLN. Revista para el Procesamiento del Lenguaje Natural,(SEPLN’02).

Molina, A., Pla, F., Segarra, E., y Moreno, L. (2002c). Word Sense Disambiguation usingStatistical Models and WordNet. In Proceedings of 3rd International Conference on Lan-guage Resources y Evaluation, LREC2002, Las Palmas de Gran Canaria, Spain.

Montoyo, A. (2002). Desambiguación léxica mediante marcas de especificidad. Phd. Thesis,Dep. de Lenguajes y Sistemas Informáticos. Universidad de Alicante.

Mooney, R. J. (1996). Comparative Experiments on Disambiguating Word Senses: AnIllustration of the Role of Bias in Machine Learning. In Proceedings of the 1st Conferenceon Empirical Methods in Natural Language Processing, EMNLP.

Moreno, L. (1993). Formalismos Lógicos para el Análisis e Interpretación oracional del LenguajeNatural. Phd. Thesis, Dep. de Sistemes Informàtics i Computació. Universitat Politèc-nica de Valéncia.

BIBLIOGRAFÍA 229

Moreno, L., Palomar, M., Molina, A., y Ferrández, A. (1999). Introducción al Procesamientodel Lenguaje Natural. Servicio de Publicaciones Universidad de Alicante.

Muñoz, M., Punyakanok, V., Roth, D., y Zimak, D. (1999). A Learning Approach toShallow Parsing. In Proceedings of EMNLP-WVLC’99, Association for ComputationalLinguistics.

Ney, H. y Kneser, K. (1991). On smoothing techniques for bigram-based natural languagemodelling. In Proceedings of International Conference on Acoustics, Speech y Signal Proces-sing ICASSP-91, pages 825–828, Toronto.

Ney, H. y Kneser, K. (1994). On Structuring Probabilistic Dependencies in StochasticLanguage Modelling. Computer Speech and Language, 8:1–38.

Ng, H. T. y Lee, H. B. (1996). Integrating Multiple Knowledge Sources to DisambiguateWord Sense: An Exemplar-based Approach. In Proceedings of the 34th Annual Meetingof the Association for Computational Linguistics. ACL.

Ng, H. T., Wang, B., y Chan, Y. S. (2003). Exploiting Parallel Texts for Word Sense Di-sambiguation: An Empirical Study. In Proceedings of the 41th Annual Meeting of theAssociation for Computational Linguistics, Sapporo, Japan. ACL.

Ngai, G. y Florian, R. (2001). Transformation-Based Learning in the Fast Lane. In Procee-dings of NAACL 2001, Pittsburgh, USA. Morgan Kaufman Publishers.

Noeda, M. S. (2002). Influencia y aplicación de papeles sintácticos e información semántica en laresolución de la anáfora pronominal en español. Phd. Thesis, Dep. de Lenguajes y SistemasInformáticos. Universidad de Alicante.

Orasan, C. (2000). A hybrid method for clause splitting in unrestricted English texts. InProceedings of ACIDCA’2000, Monastir, Tunisia.

Osborne, M. (1999). MDL-based DCG induction for NP identification. In Miles Osborneand Erik Tjong Kim Sang, editor, CoNLL-99 Computational Natural Language Learning,Association for Computational Linguistics.

Osborne, M. (2000). Shallow Parsing as Part-of-Speech Tagging. In Proceedings of CoNLL-2000 and LLL-2000, Lisbon, Portugal.

Papageorgiou, H. (1997). Clause recognition in the framework of alignment. R. Mitkov andN. Nicolov (eds.). Recent Advances in Natural Language Processing. John BenjaminsPublishing Company.

Patrick, J. D. y Goyal, I. (2001). Boosted decision graphs for nlp learning tasks. In Dae-lemans, W. and Zajac, R., editors, Proceedings of CoNLL-2001, pages 58–60. Toulouse,France.

230 BIBLIOGRAFÍA

Pedersen, T. y Bruce, R. (1997a). A new supervised algorithm for word sense disambi-guation. In Proceedings of AAAI/IAAA-97, pages 604–609.

Pedersen, T. y Bruce, R. (1997b). Distinguishing Word Senses in Untagged Text. In Procee-dings of the 2nd Conference on Empirical Methods in Natural Language Processing, EMNLP.

Peral, J., Martínez-Barco, P., Muñoz, R., Ferrández, A., Moreno, L., y Palomar, M. (1999).Una técnica de análisis parcial sobre textos no restringidos (SUPP) aplicada a un Siste-ma de Extracción de Información (EXIT). In Proceedings of VI Simposio Internacional deComunicación Social, pages "662–669", Cuba.

Pla, F. (2000). Etiquetado Léxico y Análisis Sintáctico Superficial basado en Modelos Estadísticos.Phd. Thesis, Dep. de Sistemes Informàtics i Computació. Universitat Politècnica deValéncia.

Pla, F. y Molina, A. (2001). Part-of-Speech Tagging with Lexicalized HMM. In pro-ceedings of International Conference on Recent Advances in Natural Language Processing(RANLP2001), Tzigov Chark, Bulgaria.

Pla, F. y Molina, A. (2003). Improving Part-of-Speech Tagging using Lexicalized HMMs.Natural Language Engineering. To be published.

Pla, F., Molina, A., y Prieto, N. (2000a). Tagging and Chunking with Bigrams. In Procee-dings of the COLING–2000, Saarbrücken, Germany.

Pla, F., Molina, A., y Prieto, N. (2000b). Improving Chunking by means of Lexical-Contextual Information in Statistical Language Models. In Proceedings of ConNLL–2000,Lisbon, Portugal.

Pla, F., Molina, A., y Prieto, N. (2001). Evaluación de un etiquetador morfosintácticobasado en bigramas especializados para el castellano. Revista para el Procesamiento delLenguaje Natural, (SEPLN’01).

Pla, F. y Prieto, N. (1998). Using Grammatical Inference Methods for Automatic Part–of–speech Tagging. In Proceedings of 1st International Conference on Language Resources yEvaluation, LREC, Granada, Spain.

Punyakanok, V. y Roth, D. (2001). The use of classifiers in sequential inference. In NIPS-13, The 2000 Conference on Advances in Neural Information Processing Systems.

Quinlan, J. R. (1993). C4.5: Programs for Machine Learning. Morgan Kaufmann Publishers,Inc., San Mateo, CA.

Quirk, R., Greenbaum, A., Leech, G., y Svartvik, J. (1985). A Comprehensive Grammar of theEnglish Language. Longman.

BIBLIOGRAFÍA 231

Rabiner, L., Levinson, S., y Sondhi, M. (1983). On the application of vector quantizationand hidden Markov models to speaker-independent isolated word recognition. BellSyst. Tech., 62(4):1075–1105.

Rabiner, L. R. (1989). A Tutorial on Hidden Markov Models and Selected Applications inSpeech Recognition. IEEE, 77(2):257–286.

Rada, R., Mili, H., Bicknell, E., y Blettner, M. (1989). Development an Application of aMetric on Semantic Nets. IEEE Transactions on Systems, Man and Cybernetics, 19(1):17–30.

Ramshaw, L. y Marcus, M. (1995). Text Chunking Using Transformation-Based Learning.In Proceedings of third Workshop on Very Large Corpora, pages 82–94.

Ratnaparkhi, A. (1996). A Maximum Entropy Part–of–speech Tagger. In Proceedings of the1st Conference on Empirical Methods in Natural Language Processing, EMNLP.

Ratnaparkhi, A. (1997). A Linear Observed Time Statistical Parser Based on MaximumEntropy Models. In Proceedings of the 2nd Conference on Empirical Methods in NaturalLanguage Processing, EMNLP, Brown University, Providence, RI.

Ratnaparkhi, A., Reynar, J., y Roukos, S. (1994). A Maximum Entropy Model for Pre-positional Phrase Attachment. In Proceedings of the ARPA Human Language TechnologyWorkshop, pages 250–255.

Resnik, P. y Yarowsky, D. (2000). Distinguishing systems and distinguishing senses: newevaluation methods for Word Sense Disambiguation. Natural Language Engineering,6(3):113–133.

Resnik, P. S. (1995). Using Information Content to Evaluate Semantic Similarity in a Ta-xonomy. In Proceedings of the 14th International Joint Conference on Artificial Intelligence,IJCAI, pages 448–453, Montreal, Canada.

Rosenfeld, R. (1996). A Maximum Entropy Approach to Adaptive Statistical LanguageModeling. Computer Speech and Language, 10:187–228.

Rulot, H., Prieto, N., y Vidal, E. (1989). Learning accurate finite-state structural modelsof words through the ECGI algorithms. In Proceedings of International Conference onAcoustics, Speech y Signal Processing.

Samuelsson, C. (1993). Morphological Tagging Based Entirely on Bayesian Inference. InProceedings of the 9th Nordic Conference of Computational Linguistics, Stockholm, Sweden.

Schapire, R. E. y Singer, Y. (1998). Improved Boosting Algorithms Using Confidence–rated Predictions. In Proceedings of the 11th Annual Conference on Computational LearningTheory.

232 BIBLIOGRAFÍA

Schmid, H. (1994). Probabilistic Part–of–speech Tagging Using Decision Trees. In Procee-dings of the Conference on New Methods in Language Processing, pages 44–49, Manchester,UK.

Schütze, H. (1992). Dimensions of meaning. In Proceedings of Supercomputing ’92, Minnea-polis., pages 787–796.

Segarra, E. (1993). Una aproximación inductiva a la comprensión del discurso continuo. Phd.Thesis, Departamento de Sistemas Informáticos y Computación, Universidad Politéc-nica de Valencia.

Segond, F., Schiller, A., Grefenstette, G., y Chanod, J.-P. (1997). An Experiment in Seman-tic Tagging using Hidden Markov Model Tagging. In Proceedings of the Joint ACL/EACLWorkshop on Automatic Information Extraction y Building of Lexical Semantic Resources, pa-ges 78–81, Madrid, Spain.

Skut, W. y Brants, T. (1998a). A Maximum–Entropy Partial Parser for Unrestricted Text.In Proceedings of the 6th Workshop on Very Large Corpora, Montréal, Canada. cmp–lg/9807006.

Skut, W. y Brants, T. (1998b). Chunk Tagger – Statistical Recognition of Noun Phrases.In Proceedings of the ESSLLI’98 Workshop on automated Acquisition of Syntax y Parsing,University of Saarbrücken. cmp–lg/9807007.

Srihari, R. y Li, W. (1999). Information Extraction supported question answering. InProceedings of the Eighth Text REtrieval Conference (TREC-8).

Suárez, A. y Palomar, M. (2002). A maximum entropy-based word sense disambiguationsystem. In Proceedings of the joint 19th International Conference on Computational Linguis-tics, COLING-2002, volume 2, pages 960–966, Taipei, Taiwan.

Suárez, A. y Palomar, M. (2002). Feature selection analysis for maximum entropy-basedWSD. In Proceedings of Third International Conference on Intelligent Text Processing y Com-putational Linguistics, CICLING 2002, pages 146–155.

Sussna, M. (1993). Word Sense Disambiguation for Free-text Indexing Using a MassiveSemantic Network. In Proceedings of the 2nd International Conference on Information yKnowledge Management, Airlington, Virginia.

Tjong Kim Sang, E. F. (2000a). Noun Phrase Representation by System Combination. InProceedings of ANLP-NAACL 2000, Washington, USA. Morgan Kaufman Publishers.

Tjong Kim Sang, E. F. (2000b). Text Chunking by System Combination. In Proceedings ofCoNLL-2000 and LLL-2000, Lisbon, Portugal.

BIBLIOGRAFÍA 233

Tjong Kim Sang, E. F. (2001). Memory-based clause identification. In Daelemans, W. andZajac, R., editors, Proceedings of CoNLL-2001, pages 67–69. Toulouse, France.

Tjong Kim Sang, E. F. (2002). Memory-based shallow parsing. Journal of Machine LearningResearch, 2:559–594.

Tjong Kim Sang, E. F. y Buchholz, S. (2000). Introduction to the CoNLL-2000 Shared Task:Chunking. In Proceedings of CoNLL-2000 and LLL-2000, Lisbon, Portugal.

Tjong Kim Sang, E. F., Daelemans, W., Déjean, H., Koeling, R., Krymolowsky, Y., Pun-yakanok, V., y Roth, D. (2000). Applying System Combination to Base Noun PhraseIdentification. In Proceedings of 18th International Conference on Computational LinguisticsCOLING’2000, pages 857–863, Saarbrücken, Germany. Morgan Kaufman Publishers.

Tjong Kim Sang, E. F. y Veenstra, J. (1999). Representing Text Chunks. In Proceedings ofEACL’99, Association for Computational Linguistics.

Ureña, A. (2002). Resolución de la ambigüedad léxica en tareas de clasificación automática dedocumentos. Number 1. Colección de monografías de la Sociedad Española para elProcesamiento del Lenguaje Natural.

Van Halteren, H. (2000). Chunking with WPDV Models. In Proceedings of CoNLL-2000and LLL-2000, Lisbon, Portugal.

Van Halteren, H., Zavrel, J., y Daelemans, W. (1998). Improving Data Driven WordclassTagging by System Combination. In Proceedings of the joint 17th International Conferenceon Computational Linguistics y 36th Annual Meeting of the Association for ComputationalLinguistics, COLING-ACL, pages 491–497, Montréal, Canada.

Van Halteren, H., Zavrel, J., y Daelemans, W. (2001). Improving accuracy in word classtagging through the combination of machine learning systems. Computational Linguis-tics, 27(2):199–229.

van Rijsbergen, C. (1979). Information Retrieval. 2nd. ed. Butterworths.

Veenstra, J. (1998). Fast NP Chunking Using Memory-based Learning Techniques. InProceedings of BENELEARN-98: Eighth Belgian-Dutch Conference on Machine Learning,Wageningen, the Netherlands.

Veenstra, J. (1999). Memory-Based Text Chunking. In Proceedings of ACAI, Chania, Greece.

Veenstra, J. y Van den Bosch, A. (2000). Single-Classifier Memory-Based Phrase Chun-king. In Proceedings of CoNLL-2000 and LLL-2000, Lisbon, Portugal.

234 BIBLIOGRAFÍA

Vicedo, J. (2002). SEMQA: Un modelo semántico aplicado a los sistemas de Búisqueda de Res-puestas. Phd. Thesis, Dep. de Lenguajes y Sistemas Informáticos. Universidad de Ali-cante.

Vilain, M. y Day, D. (2000). Phrase Parsing with Rule Sequence Processors: an Appli-cation to the Shared CoNLL Task. In Proceedings of CoNLL-2000 and LLL-2000, Lisbon,Portugal.

Viterbi, A. J. (1967). Error Bounds for Convolutional Codes and an Asymptotically Opti-mal Decoding Algorithm. IEEE Transactions on Information Theory, pages 260–269.

Vossen, P., Bloksma, L., Rodríguez, H., Climent, S., Roventini, A., Bertagna, F., y Alon-ge, A. (1997). The EuroWordNet Base Concepts and Top-Ontology. Technical report,Deliverable D017D034D036 EuroWordNet LE2-4003.

Voutilainen, A. (1993). NPTool, a Detector of English Noun Phrases. In Proceedings of theWorkshop on Very Large Corpora. ACL.

Voutilainen, A. y Padró, L. (1997). Developing a Hybrid NP Parser. In Proceedings of the5th Conference on Applied Natural Language Processing, ANLP, pages 80–87, WashingtonDC. ACL.

Wahlster, W., editor (2000). Verbmobil: Foundations of Speech-to-Speech Translation. Springer.

Weischedel, R., Schwartz, R., Palmucci, J., Meteer, M., y Ramshaw, L. (1993). Copingwith Ambiguity and Unknown Words through Probabilistic Models. ComputationalLinguistics, 19(2):260–269.

Wilks, Y., Fass, D., Guo, C.-M., MacDonald, J. E., Plate, T., y Slator, B. (1990). Providingmachine tractable dictionary tools. James Pustejovsky, editos, Semantics and the Lexicon.MIT Press.

Yamada, H. y Matsumoto, Y. (2003). Statistical dependency analysis with support vectormachines. Proceedings of the 8th International Workshop on Parsing Technologies, pages195–206.

Yarowsky, D. (1992). Word-sense Disambiguations Using Statistical Models of Roget’sCategories Trained on Large Corpora. In Proceedings of the 14th International Conferenceon Computational Linguistics, COLING, pages 454–460, Nantes, France.

Yarowsky, D. (1994). Decision Lists for Lexical Ambiguity Resolution: Application toAccent Restoration in Spanish y French. In Proceedings of the 32nd Annual Meeting of theAssociation for Computational Linguistics, pages 88–95, Las Cruces, NM. ACL.

BIBLIOGRAFÍA 235

Yarowsky, D. (1995). Unsupervised word sense disambiguation rivaling supervised met-hods. In Proceedings of the 33th Annual Meeting of the Association for Computational Lin-guistics, pages 189–196.

Yeh, A. (2000). More accurate tests for the statistical significance of result differences. InProceedings of the COLING–2000, pages 947–953, Saarbrücken, Germany.

Zavrel, J. y Daelemans, W. (1999). Recent Advances in Memory–Based Part–of–SpeechTagging. In Proceedings of the VI Simposio Internacional de Comunicacion Social, Santiagode Cuba, Cuba.

Zhang, T., Damerau, F., y Johnson, D. (2001). Text chunking using regularized Winnow.In proceedings of the Joint EACL-ACL Meeting (ACL2001), Toulouse, France.

Zhou, G., Su, J., y Tey, T. (2000). Hybrid Text Chunking. In Proceedings of CoNLL-2000 andLLL-2000, Lisbon, Portugal.

universidad politØcnica de valencia · universidad politØcnica de valencia departamento de...

Documents