instituto politÉcnico nacionalfranciscocastillo.com.mx/uploads/7/6/5/0/76507663/... · guajes con...

143
INSTITUTO POLITÉCNICO NACIONAL CENTRO DE INVESTIGACIÓN EN COMPUTACIÓN LABORATORIO DE LENGUAJE NATURAL Y PROCESAMIENTO DE TEXTO SISTEMA DE ANÁLISIS MORFOLÓGICO PARA EL ESPAÑOL T E S I S QUE PARA OBTENER EL GRADO DE MAESTRO EN CIENCIAS DE LA COMPUTACIÓN PRESENTA FRANCISCO ANTONIO CASTILLO VELÁSQUEZ DIRECTOR DE TESIS: DR. GRIGORI SIDOROV MÉXICO, D. F. JULIO 2003

Upload: others

Post on 25-Mar-2020

4 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: INSTITUTO POLITÉCNICO NACIONALfranciscocastillo.com.mx/uploads/7/6/5/0/76507663/... · guajes con alternaciones irregulares de raíz (como por ejemplo, el español o ruso). En este

INSTITUTO POLITÉCNICO NACIONAL

CENTRO DE INVESTIGACIÓN EN COMPUTACIÓNLABORATORIO DE LENGUAJE NATURAL Y PROCESAMIENTO DE TEXTO

SISTEMA DE ANÁLISIS MORFOLÓGICOPARA EL ESPAÑOL

T E S I S

QUE PARA OBTENER EL GRADO DEMAESTRO EN CIENCIAS DE LA COMPUTACIÓN

PRESENTA

FRANCISCO ANTONIO CASTILLO VELÁSQUEZ

DIRECTOR DE TESIS:DR. GRIGORI SIDOROV

MÉXICO, D. F. JULIO 2003

Page 2: INSTITUTO POLITÉCNICO NACIONALfranciscocastillo.com.mx/uploads/7/6/5/0/76507663/... · guajes con alternaciones irregulares de raíz (como por ejemplo, el español o ruso). En este

DEDICATORIA

A mi madre:Por todo el esfuerzo y dedicación de vida para con tus hijos.

Fuiste y seguirás siendo mi mejor ejemplo a seguir.

A Cari:Por todo tu cariño, comprensión y muestras de apoyo.

A Erubiel:Por tus demostraciones de afecto y por tu gran espíritu de lucha.

Sigue así para que logres todos tus sueños.

ii

Page 3: INSTITUTO POLITÉCNICO NACIONALfranciscocastillo.com.mx/uploads/7/6/5/0/76507663/... · guajes con alternaciones irregulares de raíz (como por ejemplo, el español o ruso). En este

AGRADECIMIENTOS

Sin el apoyo de las siguientes organizaciones y personas, la realización de este sueñopersonal hubiera sido imposible.

Mi sincera y eterna gratitud …

Al Instituto Politécnico Nacional (IPN), por engrandecer la educación pública delpaís. Mi orgullo patente por tener tan distinguida alma mater.

Al Centro de Investigación en Computación (CIC), por darme la oportunidad ycreer en mi.

Al Consejo Nacional de Ciencia y Tecnología (CONACyT), la Comisión de Ope-ración y Fomento de Actividades Académicas del IPN (COFAA) y la Coordina-ción General de Posgrado e Investigación (CGPI) por el apoyo económico brin-dado durante mis estudios.

Al Dr. Grigori Sidorov por su orientación y apoyo en la realización de este trabajo.

A mis sinodales: Dr. Igor A. Bolshakov, Dr. Agustín Francisco Gutiérrez Tornés,Dr. Alexander Guelbukh, Dra. Sofía Galicia Haro y Dr. Manuel Montes y Gó-mez por sus valiosas observaciones y atenciones para conmigo.

iii

Page 4: INSTITUTO POLITÉCNICO NACIONALfranciscocastillo.com.mx/uploads/7/6/5/0/76507663/... · guajes con alternaciones irregulares de raíz (como por ejemplo, el español o ruso). En este

“El conocimiento nos hace responsables”.

Ernesto “Che” Guevara (1928 - 1967)

iv

Page 5: INSTITUTO POLITÉCNICO NACIONALfranciscocastillo.com.mx/uploads/7/6/5/0/76507663/... · guajes con alternaciones irregulares de raíz (como por ejemplo, el español o ruso). En este

ÍNDICE

GLOSARIO DE TÉRMINOS..............................................................................................1

RELACIÓN DE FIGURAS, ILUSTRACIONES Y TABLAS..........................................2

RESUMEN.............................................................................................................................3

ABSTRACT...........................................................................................................................3

CAPÍTULO 1. INTRODUCCIÓN......................................................................................4

1.1 JUSTIFICACIÓN.........................................................................................................51.2 RELEVANCIA..............................................................................................................61.3 OBJETIVOS GENERALES Y ESPECÍFICOS............................................................61.4 ORGANIZACIÓN DE LA TESIS................................................................................6

CAPÍTULO 2. LINGÜÍSTICA Y LINGÜÍSTICA COMPUTACIONAL.......................8

2.1 NIVELES DEL LENGUAJE........................................................................................92.1.2 FONOLOGÍA.......................................................................................................102.1.3 MORFOLOGÍA....................................................................................................11

2.1.3.1 El Concepto de “Palabra”..............................................................................112.1.3.2 Clasificación de Lenguajes por su Morfología.............................................122.1.3.3 Procesos Morfológicos: Flexión y Derivación..............................................142.1.3.4 Alomorfos......................................................................................................16

2.1.4 SINTAXIS.............................................................................................................162.1.5 SEMÁNTICA........................................................................................................172.1.6 PRAGMÁTICA.....................................................................................................182.1.7 DISCURSO..........................................................................................................19

2.2 ESTRUCTURA DE LA LINGÜÍSTICA....................................................................192.3 LINGÜÍSTICA COMPUTACIONAL Y SUS APLICACIONES...............................22

2.3.1 CORRECCIÓN ORTOGRÁFICA Y DE ESTILO.................................................222.3.2 RECUPERACIÓN DE INFORMACIÓN.............................................................232.3.3 TRADUCCIÓN AUTOMÁTICA..........................................................................242.3.4 INTERFACES DE LENGUAJE NATURAL.........................................................252.3.5 RECONOCIMIENTO DE VOZ............................................................................252.3.6 BIBLIOTECAS DIGITALES................................................................................262.3.7 EXTRACCIÓN DE INFORMACIÓN, FILTRADO Y ALERTA............................272.3.8 RESÚMENES.......................................................................................................272.3.9 MINERÍA DE TEXTO..........................................................................................282.3.10 MANEJO INTELIGENTE DE DOCUMENTOS OFICIALES (E-GOBIERNO)282.3.11 ESTUDIO DE INTERNET COMO UN CORPUS ENORME............................292.3.12 APLICACIONES MULTILINGÜES..................................................................29

CAPÍTULO 3. ANTECEDENTES Y ESTADO DEL ARTE...........................................31

3.1 ANÁLISIS MORFOLÓGICO....................................................................................313.2 PROCESAMIENTO AUTOMÁTICO DE NIVEL MORFOLÓGICO......................32

3.2.1 ANALIZADOR MORFOLÓGICO VS. DESAMBIGUADOR MORFOSINTÁC-TICO.............................................................................................................................34

3.3 MÉTODOS DE ANÁLISIS Y SÍNTESIS MORFOLÓGICA AUTOMÁTICA.........35

v

Page 6: INSTITUTO POLITÉCNICO NACIONALfranciscocastillo.com.mx/uploads/7/6/5/0/76507663/... · guajes con alternaciones irregulares de raíz (como por ejemplo, el español o ruso). En este

3.4 LOS SISTEMAS DE ANÁLISIS MORFOLÓGICO AUTOMÁTICO EXISTENTES...........................................................................................................................................38

3.4.1 PC-KIMMO.........................................................................................................383.4.2 GRAMPAL............................................................................................................423.4.3 XRCE CA.............................................................................................................423.4.4 MACO+...............................................................................................................43

CAPÍTULO 4. DESARROLLO DE LOS MODELOS MORFOLÓGICOS FOR-MALES PARA EL ESPAÑOL...........................................................................................47

4.1 CONSIDERACIONES EN LA MORFOLOGÍA DEL ESPAÑOL...........................474.2 MORFOLOGÍA NO VERBAL.................................................................................48

4.2.1 SUSTANTIVOS....................................................................................................494.2.2 ADJETIVOS........................................................................................................504.2.3 LA FORMACIÓN DEL FEMENINO EN SUSTANTIVOS Y ADJETIVOS..........514.2.4 OTRAS CATEGORÍAS GRAMATICALES..........................................................53

4.3 MORFOLOGÍA VERBAL........................................................................................534.3.1 CLASES DE VERBOS........................................................................................55

4.3.1.1 Verbos Regulares e Irregulares....................................................................554.3.1.2 Verbos Defectivos........................................................................................564.3.1.3 Verbos Auxiliares.........................................................................................56

4.3.2 ESTUDIO INICIAL DE LA MORFOLOGÍA VERBAL IRREGULAR................564.3.2.1 Grupos de Tiempos Irregulares....................................................................57

4.4 DESCRIPCIÓN DE LOS MODELOS FORMALES PARA VERBOS....................58

CAPÍTULO 5. DESARROLLO DE LOS ALGORITMOS DE ANÁLISIS Y GEN-ERACIÓN............................................................................................................................63

5.1 MORFOLOGÍA NOMINAL......................................................................................635.2 MORFOLOGÍA VERBAL.........................................................................................635.3 PROCESO DE GENERACIÓN.................................................................................645.4 PROCESO DE ANÁLISIS.........................................................................................655.5 IMPLEMENTACIÓN EN C++..................................................................................66

CAPÍTULO 6. COMPILACIÓN DEL DICCIONARIO MORFOLÓGICO................77

6.1 PREPARACIÓN DE LOS DATOS.............................................................................776.2 FUENTE DE DATOS.................................................................................................786.3 MAPEO DE MODELOS VERBALES......................................................................81

CAPÍTULO 7. DESCRIPCIÓN DE LOS RESULTADOS..............................................87

7.1 CARACTERÍSTICAS DEL SISTEMA.....................................................................88

CAPÍTULO 8. CONCLUSIONES.....................................................................................92

CAPÍTULO 9. TRABAJO FUTURO................................................................................94

9.1 EL GRADO SUPERLATIVO.....................................................................................949.2 LA ADVERBIALIZACIÓN.......................................................................................969.3 LA FORMACIÓN DE AUMENTATIVOS................................................................969.4 LA FORMACIÓN DE DIMINUTIVOS.....................................................................97

vi

Page 7: INSTITUTO POLITÉCNICO NACIONALfranciscocastillo.com.mx/uploads/7/6/5/0/76507663/... · guajes con alternaciones irregulares de raíz (como por ejemplo, el español o ruso). En este

BIBLIOGRAFÍA................................................................................................................101

ANEXOS............................................................................................................................103

ANEXO 1. EL ALFABETO FONÉTICO INTERNACIONAL.....................................104ANEXO 2. MUESTRA DEL DICCIONARIO OBTENIDO.........................................105ANEXO 3. ARCHIVO DE PRUEBA PARA ANÁLISIS...............................................105ANEXO 4. RESULTADO DE ANÁLISIS PARA ANEXO 3........................................105ANEXO 5. ARCHIVO DE PRUEBA PARA ANÁLISIS...............................................118ANEXO 6. RESULTADO DE ANÁLISIS PARA ANEXO 5........................................121

vii

Page 8: INSTITUTO POLITÉCNICO NACIONALfranciscocastillo.com.mx/uploads/7/6/5/0/76507663/... · guajes con alternaciones irregulares de raíz (como por ejemplo, el español o ruso). En este

GLOSARIO DE TÉRMINOS

ACL The Association for Computational Linguistics. Es la sociedad profesional y científi-ca internacional de personas trabajando en problemas de lenguaje natural y com-putación.

Alófono Es una variante fonética de un fonema en un lenguaje particular. En español [b] y [B] son alófonos del fonema /b/.

Corpora Plural de Corpus.

Corpus Una colección de piezas del lenguaje, seleccionadas y ordenadas de acuerdo a al-gún criterio lingüístico explícito para ser usada como ejemplo de un lenguaje. Una colección de datos lingüísticos, ya sean textos escritos o una transcripción de hablagrabada, la cual puede ser usada como medio de verificación de hipótesis de un lenguaje. Es una colección de textos que han sido preprocesados para especificar alguna estructura.

DCG Definite Clause Grammars. Gramáticas de Claúsulas Definidas. Formalismo para especificar la estructura interna de una oración. Es una extensión de las gramáti-cas libres del contexto y que es implementada en PROLOG.

Fono Es un sonido no analizado de un lenguaje. Es la unidad identificable más pequeña en el flujo del habla que puede ser transcrita a un símbolo IPA.

IPA Internacional Phonetics Asociation (véase también anexo 1).

Léxico Es el conocimiento que un hablante nativo tiene acerca de su lenguaje. Este inclu-ye información de la forma y significado, uso apropiado, relaciones y categorías de las palabras y frases. Las reglas fonológicas y gramaticales no se consideran partedel léxico. El componente en la gramática el cual en su forma escueta es una lista de palabras o entradas léxicas. Contiene información de la pronunciación, el signifi-cado, las propiedades morfológicas, las propiedades sintácticas e información idio-sincrásica de sus entradas.

MLTT Laboratorio de Teoría y Tecnología Multilingüe del XRCE.

Morfema Es la unidad significativa más pequeña en la gramática de un lenguaje.

Morfo Es la realización fonética de un morfema.

Paradigma En morfología es el conjunto de todas las formas flexivas las cuales puede asumir una palabra.

Variación libre Es la relación intercambiable entre dos fonos, en la cual los fonos pueden sustituir-se unos a otros en el mismo medio ambiente sin causar un cambio en el significa-do. Puede ocurrir entre alófonos o fonemas.

XRCE Xerox Research Centre Europe. Es un centro de investigación de la empresa The Document Company - Xerox.

Page 9: INSTITUTO POLITÉCNICO NACIONALfranciscocastillo.com.mx/uploads/7/6/5/0/76507663/... · guajes con alternaciones irregulares de raíz (como por ejemplo, el español o ruso). En este

RELACIÓN DE FIGURAS, ILUSTRACIONES Y TABLAS

FIGURA 1. ESTRUCTURA DE LA LINGÜÍSTICA...................................................................................................20FIGURA 2. CLASIFICACIÓN DE TÉCNICAS DE RECUPERACIÓN DE INFORMACIÓN............................................24FIGURA 3. COMPONENTES DE UN SISTEMA DE RECONOCIMIENTO DE VOZ TÍPICO........................................26FIGURA 4. SEGMENTACIÓN TÍPICA DE UNA PALABRA.......................................................................................33FIGURA 5. ÁRBOL DE ANÁLISIS SINTÁCTICO PARA UNA ORACIÓN...................................................................35FIGURA 6. UNA RUTA EN UN TRANSDUCTOR PARA EL INGLÉS........................................................................37FIGURA 7. PRINCIPALES COMPONENTES DEL ANALIZADOR KIMMO DE KARTTUNEN....................................39FIGURA 8. ÁRBOL DE ANÁLISIS PARA LA PALABRA "ENLARGEMENTS".............................................................40FIGURA 9. ARQUITECTURA DE MACO+..........................................................................................................45FIGURA 10 PROCESO DE ANÁLISIS MORFOLÓGICO..........................................................................................65FIGURA 11 MODELOS VERBALES PROPUESTOS EN EL DICCIONARIO RUSO-ESPAÑOL..................................82FIGURA 12 MUESTRA DEL DICCIONARIO OBTENIDO.........................................................................................85FIGURA 13. INTERFACE DEL SISTEMA AGME..................................................................................................88FIGURA 14. RESULTADO DEL ANÁLISIS DE UN TEXTO......................................................................................89FIGURA 15. ANÁLISIS DE LA PALABRA "FUERA".................................................................................................89FIGURA 16. GENERACIÓN PARA EL VERBO "PENSAR".......................................................................................90FIGURA 17. SILABIZACIÓN DE LA PALABRA "POLITÉCNICO"................................................91

ILUSTRACIÓN 1. TOKENIZACIÓN DE LA PALABRA "ENLARGEMENTS"..............................................................40ILUSTRACIÓN 2. INTERFACE DEL XRCE-CA EN LÍNEA....................................................................................43ILUSTRACIÓN 3. PLANTILLA DE CONJUGACIÓN PARA EL MODELO VERBAL <A2>........................................64ILUSTRACIÓN 4. MUESTRA DEL DICCIONARIO ELECTRÓNICO SIN PROCESAR..................79

TABLA 1. DIFERENCIAS ENTRE LA FONÉTICA Y LA FONOLOGÍA.......................................................................11TABLA 2. ORGANIZACIÓN DEL DICCIONARIO DE RAÍCES Y SUFIJOS EN MACO+...........................................44TABLA 3. EL VERBO ESPAÑOL EN CIFRAS.........................................................................................................58TABLA 4. MODELO DE CONJUGACIÓN REGULAR CON TERMINACIÓN –AR.......................................................56TABLA 5. MODELO DE CONJUGACIÓN REGULAR CON TERMINACIÓN –ER.......................................................57TABLA 6. DE CONJUGACIÓN REGULAR CON TERMINACIÓN –IR........................................................................58TABLA 7. MODELO DE CONJUGACIÓN COMPLETAMENTE IRREGULAR..............................................................59TABLA 8 MODELO DE CONJUGACIÓN SEMI-IRREGULAR (CRECER)..................................................................60TABLA 9. MODELO A2 DE CONJUGACIÓN SEMI-IRREGULAR (CONTAR)...........................................................61TABLA 10. ETIQUETAS PARA LAS CATEGORÍAS ANALIZADAS EN AGME.........................................................76TABLA 11. ESTRUCTURA DEL DICCIONARIO DE RAÍCES.................................................................................78TABLA 12. MODELOS PROPUESTOS PARA LA FLEXIÓN VERBAL......................................................................84Tabla 13. Resultado de análisis para un archivo de texto.........................................................................87

Page 10: INSTITUTO POLITÉCNICO NACIONALfranciscocastillo.com.mx/uploads/7/6/5/0/76507663/... · guajes con alternaciones irregulares de raíz (como por ejemplo, el español o ruso). En este

RESUMEN

La mayoría de los sistemas de análisis morfológico están basados en un mo-delo conocido de dos niveles. Sin embargo, este modelo no es adecuado para len-guajes con alternaciones irregulares de raíz (como por ejemplo, el español o ruso).En este artículo describimos un sistema computacional de análisis morfológicopara el lenguaje español basado en otro modelo, cuya idea principal es el análisisa través de la generación. El modelo consiste en un conjunto de reglas para obte-ner todas las raíces de una forma de palabra para cada lexema, su almacena-miento en el diccionario, la producción de todas las hipótesis posibles durante elanálisis y su comprobación a través de la generación morfológica. Se usó un dic-cionario de 26,000 lemas, a través del cual se pueden analizar más de 1,800,000formas gramáticas posibles. Para el tratamiento de palabras desconocidas se estádesarrollando un algoritmo basado en heurísticas. El sistema desarrollado estádisponible sin costo para el uso académico.

ABSTRACT

Most widely spread method that is used in systems of automatic morphologi-cal analysis is based on a well-known two-level model. Still this model is not wellsuit for languages with irregular stem alternations (like, e.g., Spanish or Russian).In this paper we describe a system with automatic morphological analysis forSpanish based on the other model, the basic idea of which is analysis through gen-eration. This model consists in a set of rules that allow for obtaining of all possiblestems for each lexeme, their storage in the dictionary and producing of all possiblehypotheses during analysis and their verification through morphological generation.We used a dictionary containing 26.000 lemmas, using which more than 1.800.000possible grammatical forms can be recognized. For the treatment of unknownwords a heuristics based algorithm is developing. The developed system is freelyavailable for academic use.

Page 11: INSTITUTO POLITÉCNICO NACIONALfranciscocastillo.com.mx/uploads/7/6/5/0/76507663/... · guajes con alternaciones irregulares de raíz (como por ejemplo, el español o ruso). En este

Capítulo 1

Introducción

La morfología se considera la parte de la gramática que trata dos áreas fun-damentales: el estudio de las unidades existentes dentro de la palabra y sus rela-ciones entre sí; y la teoría de las categorías léxicas o caracterización de unidades,por ejemplo: sustantivo, adjetivo, verbo o preposición.

El tratamiento automatizado de la morfología del español es la piedra angular paraconstruir cualquier procesador de lenguaje natural que habrá de considerar pos-teriormente la sintaxis y la semántica.

En general, un procesador morfológico puede considerarse como el software ca-paz de realizar estas tareas:

1. Analizar las palabras, descomponiendo éstas en sus formantes morfológi-cos y suministrando información léxica a partir de estos, lo que constituye elresultado del análisis morfológico.

2. Generar palabras en forma “gráfica” a partir de la información léxica y la in-formación gramatical que se le proporcionan al sistema.

El procesador morfológico dispone, generalmente, de los dos componentes si-guientes:

El diccionario o léxico es una lista de entradas, que pueden ser palabras o for-mantes morfológicos de las mismas, así como sus alomorfos. Cada entrada del lé-xico tendrá asociada información que puede ser el tiempo, persona, número, etc.El procesador consultará el léxico con el objeto de reconocer los distintos forman-tes morfológicos que componen una palabra, y extraer la información asociada alos anteriores.

Las reglas recogen las regularidades de una determinada lengua, estableciendoesquemas de combinación de los formantes morfológicos para poder construir pa-labras (generación) o comprobar la estructura de las ya formadas (análisis). Gra-cias a las reglas se puede reducir considerablemente el léxico. Por el contrario, elprocesador más sencillo sería aquel que contase sólo con un léxico que contuvie- Tomaremos los conceptos “analizador” y “procesador” como sinónimos.

Page 12: INSTITUTO POLITÉCNICO NACIONALfranciscocastillo.com.mx/uploads/7/6/5/0/76507663/... · guajes con alternaciones irregulares de raíz (como por ejemplo, el español o ruso). En este

se exclusivamente palabras flexionadas, lo que reduciría el análisis o la genera-ción a la búsqueda de una palabra en el léxico, a costa de una lista considerable -mente grande de palabras.

Los métodos y algoritmos de análisis morfológico son de importancia práctica alconstruir y usar un diccionario en una aplicación final de lenguaje natural, por lassiguientes razones:

1. Diccionarios más pequeños: si no hay necesidad de almacenar cada formade un verbo regular (ya que pueden ser calculadas por una regla), el diccio-nario puede ser más pequeño; para un lenguaje como el español, esto pue-de conllevar un gran ahorro.

2. Facilidad de almacenamiento de datos: el usuario no necesita meter todaslas formas posibles de una palabra: sólo la raíz y su información gramática.

Una de las razones para hacer uso de un procesamiento morfológico es que no esrecomendable tener un léxico con todas las formas de palabras y la información decada una de ellas: no es elegante, es costoso en almacenamiento y en manteni -miento.

Siempre aparecen nuevas palabras y muchas de ellas están formadas por proce-sos morfológicos regulares; por lo tanto, no podemos depender de un léxico estáti -co. El procesamiento morfológico juega un papel importante al limitar las necesida-des de espacio de un léxico grande y asiste en el procesamiento de palabras des-conocidas.

A pesar de que el tratamiento computacional para el lenguaje español es mínimoen comparación con el estudio de otros lenguajes, se han desarrollado varias he-rramientas para el tratamiento morfológico. Se pretende entonces crear un están-dar para no trabajar sobre lo mismo.

1.1 JUSTIFICACIÓN

La disponibilidad de un procesador morfológico facilita la adecuada solucióna una amplia gama de problemas actuales, tales como las consultas a bases dedatos documentales, corrección ortográfica, lematización, silabización, análisis ygeneración de textos escritos, tratamiento de corpus, etc.

1.2 RELEVANCIA

Este trabajo de investigación representa el primer tratamiento morfológicoformal del español dentro del Laboratorio de Lenguaje Natural y Procesamiento deTextos del Centro de Investigación en Computación del Instituto Politécnico Nacio-nal (CIC-IPN), y es consecución del trabajo expuesto en [GELBUKH, 02].

Page 13: INSTITUTO POLITÉCNICO NACIONALfranciscocastillo.com.mx/uploads/7/6/5/0/76507663/... · guajes con alternaciones irregulares de raíz (como por ejemplo, el español o ruso). En este

1.3 OBJETIVOS GENERALES Y ESPECÍFICOS

Con el presente trabajo de investigación se desean alcanzar los siguientesobjetivos generales:

Desarrollar un modelo básico para el tratamiento computacional de la mor-fología del español basado en el análisis a través de la generación.

Implementar un sistema computacional para el análisis y la generación dela morfología del español.

y los siguientes objetivos particulares:

Generar un diccionario de raíces.

Procesar formas de sustantivos, adjetivos y verbos:

a) Invariabilidad de número y género, pluralia y singularia tantums.

b) Verbos defectivos y participios pasados duplicados.

c) Tratamiento inicial de enclíticos.

Procesar directamente (con el diccionario generado), las formas para inter-jecciones, conjunciones, preposiciones; y las formas verbales completa-mente irregulares.

1.4 ORGANIZACIÓN DE LA TESIS

El resto del trabajo está organizado de la siguiente manera:

El capítulo 2, “Lingüística y Lingüística Computacional”, expone las generalida-des de la lingüística como ciencia (inicios, áreas de estudio, etc.) y de la lingüísticacomputacional (aplicaciones, etc.).

El capítulo 3, “Antecedentes y Estado del Arte”, detalla el estado actual sobre lamorfología computacional. Explica qué es la morfología computacional, los méto-dos y sistemas de análisis y generación morfológica.

El capítulo 4, “Desarrollo de los Modelos Formales Morfológicos para el Español”,expone los modelos para las categorías gramaticales tratadas en el sistemaAGME.

El capítulo 5, “Desarrollo de los Algoritmos de Análisis y Generación”, detalla losalgoritmos realizados para el análisis y la generación.

El capítulo 6, "Compilación del Diccionario Morfológico”, explica los pasos que sesiguieron para la obtención de un diccionario morfológico para uso del sistema. Se

Page 14: INSTITUTO POLITÉCNICO NACIONALfranciscocastillo.com.mx/uploads/7/6/5/0/76507663/... · guajes con alternaciones irregulares de raíz (como por ejemplo, el español o ruso). En este

exponen las características de la fuente de datos, especialmente de las categoríasde sustantivos, adjetivos y verbos, ya que éstas son las que presentan mayorcomportamiento flexivo.

El capítulo 7, “Obtención de Resultados”, expone y explica los principales resulta-dos del trabajo presentado.

El capítulo 8, “Conclusiones y Trabajo Futuro”, remarca las conclusiones a las quese llegaron con esta investigación y las áreas de interés para trabajos subsecuen-tes relacionados.

Dentro de los anexos, se puede encontrar el texto plano de prueba para el procesode análisis morfológico, además de los resultados arrojados por el sistema; tam-bién los resultados obtenidos en un proceso de generación para un párrafo deltexto de trabajo.

Page 15: INSTITUTO POLITÉCNICO NACIONALfranciscocastillo.com.mx/uploads/7/6/5/0/76507663/... · guajes con alternaciones irregulares de raíz (como por ejemplo, el español o ruso). En este

Capítulo 2

Lingüísticay Lingüística Computacional

La capacidad de los seres humanos para comunicarse a través de su lengua,es quizás, su característica distintiva con los demás seres vivos. La compleja codi-ficación de mensajes en signos lingüísticos es infinita. Obviamente esta surge poruna necesidad: la de interrelacionarse, de ser escuchado y de escuchar.

[NIDA, 86] menciona ocho maneras de usar el lenguaje: estética (poesía, publici-dad); cognitiva (usar palabras al pensar); emotiva (influenciar el estado emotivo delos receptores); expresiva (expresar emociones); informativa (expresar informa-ción); imperativa (influenciar el comportamiento); interpersonal (hacer y mantenerrelaciones); formativa (modificar el estado de los receptores). Se usa también deforma documental (almacenar información) e interrogativa (obtener información).

Además de ser un medio de comunicación, el lenguaje es fundamental para la per-cepción y la memoria, el pensamiento y el comportamiento. [CRYSTAL, 91] defineal lenguaje como “el uso convencional y sistemático de sonidos, signos o símbolosescritos en una sociedad humana para la comunicación”.

La lingüística, la ciencia del lenguaje, se ha consolidado como una disciplina con su área de estudio bien delimitada, aunque relacionada con otras ciencias.

La lingüística computacional (LC) o procesamiento de lenguaje natural (PLN) es elestudio científico del lenguaje desde una perspectiva computacional. La LC se in-teresa en proporcionar modelos computacionales de varios tipos de fenómenoslingüísticos. Estos modelos pueden estar “basados en el conocimiento” u “orienta-dos a datos” (estadísticos o empíricos). El trabajo de la LC se ha incorporado enmuchos sistemas de hoy en día: sistemas de reconocimiento de voz, sintetizado-res texto-voz, motores de búsqueda web, editores de texto y materiales de ense-ñanza de un lenguaje, por nombrar solo algunos.

Dentro de la LC hay varios campos de estudio. Uno de ellos es el de la morfologíacomputacional, cuyo principal objetivo es el desarrollar sistemas para el análisis yla síntesis automática a nivel morfológico. Aun el desarrollo de tales módulos esbastante difícil, porque hay que hacer grandes diccionarios de raíces (alrededor de

Page 16: INSTITUTO POLITÉCNICO NACIONALfranciscocastillo.com.mx/uploads/7/6/5/0/76507663/... · guajes con alternaciones irregulares de raíz (como por ejemplo, el español o ruso). En este

100,000). En general, existe la metodología para tal desarrollo, además de siste-mas funcionando para muchos idiomas, lo que falta es un estándar [GELBUKH,02].

Existen otras áreas orientadas a niveles de estudio dentro de la lingüística: fonolo-gía, fonética, sintaxis, pragmática y discurso; cada una de ellas con su objeto deestudio bien delimitado.

2.1 NIVELES DEL LENGUAJE

Tradicionalmente, los niveles de estudio en el lenguaje natural, son:

Fonética / Fonología

Morfología

Sintaxis

Semántica

Pragmática

Discurso

Las diferencias entre los niveles se basan en las distintas entidades lingüísticas,de acuerdo al enfoque de análisis en cada nivel.

2.1.1 FONÉTICA

La producción, naturaleza física y percepción de los sonidos de una lenguaes estudiada por la Fonética. Podemos dividir su área de estudio en: fonética arti-culatoria (producción en los órganos vocales), fonética acústica (propiedades físi-cas) y fonética auditiva (efecto y percepción en el oído).

Los sonidos con que se realiza el acto del habla están producidos por el llamadoaparato fonador del hombre, y son percibidos por su aparato auditivo. Del uno alotro se transmiten habitualmente por un medio físico, que es el aire.

Los símbolos fonéticos que se usan más frecuentemente son los adoptados por laAsociación Fonética Internacional en el Alfabeto Fonético Internacional (AFI) quese escriben entre corchetes (véase anexo 1).

La fonética es una disciplina lingüística que se ocupa de la descripción, desde unpunto de vista físico y fisiológico, del aspecto material de los sonidos del lenguaje,independientemente de su función dentro de la lengua (objeto de estudio de la fo-nología). Por ejemplo, la fonética analiza el sonido particular [b] como bilabial (por-que se articula juntando los labios), oclusivo (porque se produce una cerrazón total

Page 17: INSTITUTO POLITÉCNICO NACIONALfranciscocastillo.com.mx/uploads/7/6/5/0/76507663/... · guajes con alternaciones irregulares de raíz (como por ejemplo, el español o ruso). En este

de los mismos) y sonoro (porque durante su producción vibran las cuerdas voca-les). Con anterioridad, la fonología habrá indicado que el fonema /b/ que reproducesirve en español para distinguir significados dentro de grupos contrastivos comobata — gata — pata — cata — lata — rata — mata, etc.

Las unidades fonéticas son: los sonidos (se producen por los distintos órganos defonación); la voz (tono, intensidad, timbre, duración); las articulaciones (movimien-tos de los órganos productores de la voz); órganos de articulación (cuerdas voca-les, dientes, paladar, lengua, labios, etc.).

2.1.2 FONOLOGÍA

Su objeto de estudio es el fonema, basándose en el valor dentro del sistemade cada lengua. Es también conocida como fonemática.

La fonología estudia los elementos manifestados como sonidos y sus combinacio-nes posibles, con independencia del sentido que transmiten.

Entre la gran variedad de sonidos que puede emitir un hablante, es posible reco-nocer los que representan el “mismo” sonido, aunque las formas de pronunciarloresulten distintas desde el punto de vista acústico; a la vez se pueden distinguir lossonidos que señalan una diferencia de significado.

Cada vez que se emite una palabra, no se realiza de la misma manera, porquecada emisión depende de los otros sonidos que la rodean. Los sonidos adquierenvalores distintos según la función que ocupen en un contexto dado; sin embargo,existen unos rasgos que no varían y que permiten reconocerlos sin confusiones encualquier posición.

Por otro lado los sonidos que componen una palabra son las unidades mínimasque la hacen diferente de otra. Los sonidos que forman la palabra gato pueden sersustituidos por otros y al hacerlo se forman palabras diferentes: pato, galo, y mato.Por este procedimiento se pueden aislar las unidades mínimas que distinguen lossignificados, es decir, los fonemas. Las unidades fonológicas son los fonemas ylos alófonos (variante de un mismo fonema que no implica cambio de significado).

Fonética Fonología

Enfoque princi-

pal

Cómo se producen los sonidos (na-

sales, sordos, etc.).

Cómo se usan los sonidos

(casa vs. capa en español).

Ámbito Todos los lenguajes. Un lenguaje particular.

Papel del ha-

blante nativo

Pronunciación de sonidos. Reacciones a los sonidos.

Papel del lin-

güista

Registra los sonidos fielmente (trans-

cripción detallada de sonidos).

Describe la importancia de

los sonidos y sus cambios.

Posición en re-

lación al lengua-

Fuera. Dentro.

Page 18: INSTITUTO POLITÉCNICO NACIONALfranciscocastillo.com.mx/uploads/7/6/5/0/76507663/... · guajes con alternaciones irregulares de raíz (como por ejemplo, el español o ruso). En este

Fonética Fonología

je

Tabla 1. Diferencias entre la fonética y la fonología.

2.1.3 MORFOLOGÍA

La morfología es el estudio de la estructura de la palabras, esto es, el estudiode la manera en que se forman las palabras, cómo se relacionan sus partes entresí y cómo se relacionan unas a otras (las palabras). También estudia la forma enque la estructura de la palabra se relaciona con otras áreas de la gramática, porejemplo, con la pronunciación (fonología) y estructura de oraciones (sintaxis). Fi-nalmente, un aspecto importante de la morfología el cual ha llegado a tener impor-tancia es el estudio de cómo las estructuras de las palabras se relacionan con susignificado.

2.1.3.1 El Concepto de “Palabra”

No es una tarea fácil el definir el concepto de palabra. Como primera aproxi-mación, las características de la palabra en cuanto a integrante de una unidadmás amplia, son:

1) Posibilidad de cambiar su posición en la secuencia, esto es, de mantenerdistintas relaciones secuenciales con otros elementos (Él siempre va a casa,Él va a casa siempre, Siempre va él a casa, A casa siempre va él, etc.).

2) La separabilidad: entre dos palabras es posible insertar otra u otras unida-des (El niño es de Juanita, El hermoso niño es de Juanita, El niño que ves ahí esde mi hermana Juanita). En el ejemplo del párrafo anterior, Él siempre va acasa, la preposición a, de a casa, precede necesariamente a casa; pero entrea y casa cabe insertar otras unidades: a tu casa, a tu otra casa, a esta nuevacasa, etc.

3) La pausa potencial: en la emisión de un enunciado, el hablante puede haceruna pausa antes y/o después de una determinada palabra.

Estas son las características de la palabra en cuanto a su relación con elementosexternos a ella en el marco de la unidad superior de la que es constituyente. Exis-ten propiedades relativas a su estructura interna, las cuales no mencionaremosaquí. Para mayor detalle, consulte [BOSQUE, 99].

Consideremos la oración en español Yo devuelvo los libros el próximo mes, pero tú medevuelves el libro ahora. ¿Cuántas palabras contiene? Uno puede decir que 13 y escorrecto, ya que hay solo 13 subcadenas desde un delimitador a otro. También sepuede notar que el artículo el se repite dos veces, así que el número de palabrasdiferentes es 12. Para estas observaciones no se necesita ningún conocimientolingüístico. Sin embargo, uno puede notar también que devuelvo y devuelves son for-

Page 19: INSTITUTO POLITÉCNICO NACIONALfranciscocastillo.com.mx/uploads/7/6/5/0/76507663/... · guajes con alternaciones irregulares de raíz (como por ejemplo, el español o ruso). En este

mas del mismo verbo (devolver), y libros y libro son formas del mismo sustantivo(libro), así que el número de palabras diferentes es sólo de 10. Adicionalmente, siuno nota que el artículo los es esencialmente equivalente al artículo el cuando ladiferencia de número gramatical se ignora, entonces hay 9 palabras diferentes enla oración [BOLSHAKOV, 00].

Podemos concluir del anterior ejemplo que el término palabra es demasiado ambi-guo como para ser usado en una ciencia con el objetivo de dar una descripciónprecisa de lenguaje natural. Para introducir una terminología más consistente va-mos a llamar a una subcadena usada en un lugar específico de un texto (sin tomaren cuenta sus repeticiones posibles o similitudes a otras cadenas) como ocurren-cia de palabra. Ahora podemos decir que la frase de ejemplo de arriba consistede 13 ocurrencias de palabras.

Algunas de las subcadenas (generalmente similares en apariencia) tienen el mis-mo significado básico. Intuitivamente las consideramos formas diferentes de lamisma entidad común. Al conjunto de tales formas se le conoce como lexema, porejemplo, {libro, libros}, {alto, alta, altos, altas}, {devolver, devuelvo, devuelves, devuelve,devolvemos, ...}. Cada entrada en tales conjuntos –una cadena de letras sin impor-tar su posición en el texto- es llamada forma de palabra. Cada ocurrencia de pa-labra representa una forma de palabra, mientras que las formas de palabra pue-den repetir en el texto. Ahora podemos decir que (para la oración de ejemplo dearriba) existen 12 formas de palabras u 8 lexemas.

2.1.3.2 Clasificación de Lenguajes por su Morfología

Las unidades morfológicas son los morfemas (unidades mínimas de significa-ción del análisis morfológico, indivisibles) y los alomorfos (variantes de un morfe-ma en función del contexto).

Los lenguajes pueden ser clasificados por la forma que manejan la morfología. Talagrupación no implica que los lenguajes estén relacionados genéticamente.

Algunos lenguajes presentan pocas o ninguna palabra con más de un morfema.Tales lenguajes se llaman analíticos o isolativos. Estos lenguajes usan palabrasseparadas en vez de afijos para indicar conceptos como el tiempo, número, etc. Elmandarín es un buen ejemplo de lenguaje isolativo:

ta chi fan le

él comer alimento pasado “él comió los alimentos.”

Los lenguajes que construyen palabras con morfemas definidos claramente sonllamados aglutinativos. En estos lenguajes, los límites entre morfemas (entre raí-

Page 20: INSTITUTO POLITÉCNICO NACIONALfranciscocastillo.com.mx/uploads/7/6/5/0/76507663/... · guajes con alternaciones irregulares de raíz (como por ejemplo, el español o ruso). En este

ces y afijos) generalmente son fáciles de identificar. El turco es un buen ejemplode este tipo de lenguaje:

ev “casa”ev-ler “casa-s”ev-ler-de “en las casa-s”ev-ler-den “desde las casa-s”

Otros lenguajes construyen palabras usando morfemas los cuales a menudo indi-can más de una idea gramatical a la vez; por ejemplo, el tiempo y el número pue-den ser indicados con el mismo sufijo. Los verbos en latín, español y ruso ilustraneste patrón de asociación. A estos lenguajes se les conoce como fusivos.

Por último, los lenguajes polisintéticos deben su nombre a que combinan morfe-mas para formar palabras muy grandes. Un buen ejemplo es la siguiente palabradel inuktitut (lenguaje amerindio):

qasuiirsarvigssarsingitluinarnarpuq

qasu cansadoiir nosar causavig lugar parassar apropiadosi encontrarngit noluinar completamentenar alguienpuq tercera persona

“Alguien no encontró un lugar de descanso completamente apropiado.”

2.1.3.3 Procesos Morfológicos: Flexión y Derivación

Considere palabras como lector, escritor, pintor. Todas son sustantivos rela-cionados a verbos: leer, escribir, pintar. Significan “persona o instrumento que lee,escribe o pinta”. Claramente, es la terminación –or la que conduce este nuevo as-pecto de significado y crea un nuevo sustantivo de un verbo. Ahora, pintor no esuna forma del verbo pintar en la forma en que pinta o pintando es una forma delverbo. Para empezar, pintor no es un verbo. Es habitual tratar pintar y pintor comolexemas diferentes. Esto significa que al agregar –or a pintar hemos creado unnuevo lexema del anterior. La creación de nuevos lexemas es conocido como de-rivación o morfología derivativa. Cada una de las tres categorías principales delexemas en español, sustantivo, verbo y adjetivo, puede convertirse en otra. Laspreposiciones, que son consideradas a menudo como una categoría léxica mayor,

Page 21: INSTITUTO POLITÉCNICO NACIONALfranciscocastillo.com.mx/uploads/7/6/5/0/76507663/... · guajes con alternaciones irregulares de raíz (como por ejemplo, el español o ruso). En este

no participan en la derivación del español.

Ahora consideremos las palabras manejable y adorable. Aquí, los verbos se convir-tieron en adjetivos con el significado “que puede ser manejado fácilmente” y “quees digno de adoración”, respectivamente, al agregar –ble. En felicidad y enferme-dad creamos sustantivos de adjetivos al agregar –dad (a feliz y enfermo). Tambiénencontramos casos en los cuales un adjetivo se convierte en verbo. Podemoscrear adjetivos de sustantivos, como en veracruzano e infantil, y podemos crearverbos de sustantivos como en motorizar. Finalmente, es posible crear un nuevolexema sin cambiar la categoría gramatical de la palabra. Así, podemos crear elsustantivo niñez del sustantivo niño, el lexema adjetival infeliz y los verbos reimpri-mir y remarcar.

Ahora tenemos dos maneras de producir nuevas “palabras”; podemos producirnuevos lexemas como pintor de pintar y podemos producir formas de palabra deun lexema sencillo como la forma plural de gato o la forma de tiempo pasado decaminar. La construcción de formas de palabra es conocida como flexión o morfo-logía flexiva. Ya que la flexión da origen a las diversas formas de un lexema, ge-neralmente no cambia la categoría gramatical. Qué flexiones hay en un lenguajedepende de su gramática. Muchos lenguajes, por ejemplo, no tienen formas deplural para sustantivos, mientras que otros tienen una forma singular, plural y dual(para referirse a dos objetos). Para aquellos lenguajes que distinguen singular deplural, o tiempo pasado de tiempo presente, decimos que hay una categoría gra-matical de número o tiempo. Cuando un sustantivo está “en plural” o un verboestá “en tiempo presente” decimos que tiene la propiedad flexiva de “número (plu-ral)” o “tiempo (presente)”.

La construcción de formas flexivas o la construcción de nuevos lexemas son pro-cesos morfológicos. Así, podemos hablar del proceso (flexivo) de formar el pluralde un sustantivo o el proceso (derivativo) de formar un sustantivo de un verbo.

La morfología flexiva tienes ciertas características:

1. Sistemática: el agregar un afijo particular a un tema tiene el mismo efectogramatical o semántico para todos los temas; por ejemplo, hacer un sustan-tivo plural.

2. Productiva: las nuevas adiciones al lenguaje automáticamente se adaptana las reglas de afijación; por ejemplo, un nuevo verbo adquirirá todas lasformas posibles (tiempo pasado, forma progresiva, etc.) inmediatamente.

3. Preservadora de la categoría: la categoría gramatical de la palabra no sealtera por los procesos flexivos (verbos se quedan en verbos, sustantivos

A pesar de que existe una sutil diferencia entre los términos “raíz” y “tema” en la teoría lingüística, de aquíen adelante los usaremos indistintamente.

Page 22: INSTITUTO POLITÉCNICO NACIONALfranciscocastillo.com.mx/uploads/7/6/5/0/76507663/... · guajes con alternaciones irregulares de raíz (como por ejemplo, el español o ruso). En este

se quedan en sustantivos).

La morfología derivativa tiene las siguientes características:

1. Puede cambiar la clase o subclase de palabras (nube, sustantivo, nuboso,adjetivo; maestro, sustantivo concreto de persona, maestría, sustantivoabstracto de cualidad).

2. No es tan regular.

3. No es obligatoria.

Además de la derivación, los lenguajes pueden formar palabras por patrones me-nos productivos. En español, las palabras pueden formarse de las siguientes ma-neras:

Acrónimos

PAN Partido Acción NacionalIPN Instituto Politécnico Nacional

Acuñación (ej. marcas registradas)

XeroxKodakBimbo

Composición

agua + fiestas --> aguafiestas

Recortes

televisión telerefrigerador refri

2.1.3.4 Alomorfos

Los alomorfos son cada una de las variantes de un morfema en función delcontexto, las cuales pueden estar condicionadas fonológica o morfológicamente.Los morfemas de número en el sustantivo –s (gato–s) y –es (león–es) dependen deque el singular termine en vocal o consonante.

Los morfemas también pueden ser estudiados en términos de su distribución, esdecir, donde ocurren. Los prefijos, por ejemplo, ocurren antes de la raíz de la pala-bra.

2.1.4 SINTAXIS

Page 23: INSTITUTO POLITÉCNICO NACIONALfranciscocastillo.com.mx/uploads/7/6/5/0/76507663/... · guajes con alternaciones irregulares de raíz (como por ejemplo, el español o ruso). En este

En este nivel se estudia cómo se forman y combinan las palabras para for-mar oraciones (unidad sintáctica máxima). Una oración gramatical es aquella quesigue las reglas sintácticas de un lenguaje. Estas reglas se distinguen de la se-mántica o significado en el sentido en que una oración puede ser gramáticamentecorrecta pero sin sentido. Sin embargo, determinar el orden de las palabras por re-glas sintácticas es delicado al formar una oración con sentido en español (Juanbesó a Rosa no es lo mismo que Rosa besó a Juan).

Las reglas sintácticas determinan relaciones gramaticales entre los constituyentesde una oración. Entre las relaciones gramaticales básicas están el papel de un su-jeto, verbo y complemento. El sujeto es quien rige al verbo, por ejemplo Juan enJuan besó a Rosa. El complemento se rige por el verbo (Rosa en Juan besó a Rosa).Todos los lenguajes tienen relaciones gramaticales de sujeto, verbo y complemen-to. Pero las reglas sintácticas entre lenguajes varían. Por ejemplo, los lenguajescomo el francés y el inglés necesitan el sujeto primero seguido del verbo y des-pués el complemento (SVC). Otros lenguajes tienen el complemento después delsujeto y antes que el verbo (SCV, lenguajes como el japonés, turco y esquimal).Otros lenguajes comienzan con el verbo, luego el sujeto y el complemento (VSC,irlandés y árabe).

El español tiene un grado de libertad mayor. Por ejemplo, la oración Juan vino a micasa (SVC) se acepta sintácticamente en las siguientes variantes: A mi casa vinoJuan (CVS), Vino Juan a mi casa (CSV), Juan a mi casa vino (SCV), Vino a mi casaJuan (VCS), por lo que los participantes de las acciones pueden ocurrir en distintasposiciones respecto al verbo [Galicia, 00].

La estructura sintáctica de una oración puede ser vista como un árbol jerárquicoen donde las palabras se combinan para formar constituyentes o categorías sin-tácticas en un número de niveles en una jerarquía. Este árbol se forma con la ora-ción como el constituyente más largo en la cima y las palabras individuales for-mando los constituyentes más pequeños hacia abajo.

2.1.5 SEMÁNTICA

La semántica es el estudio del significado o contenido del lenguaje. Un nivelanaliza el significado(s) de las palabras (significado léxico). Algunos autores esta-blecen que los significados de las palabras son pensados como clusters de carac-terísticas o primitivas semánticas (soltero masculino, adulto, no casado). Otro ni-vel analiza las palabras en términos de sus relaciones o roles en una oración. Enparticular, los sustantivos en una oración pueden ser caracterizados de acuerdo alrol semántico que juegan en relación al significado del verbo. Para ponerlo de otramanera, los verbos requieren de sustantivos para jugar roles particulares. Porejemplo, los verbos necesitan un agente para llevar a cabo la acción del verbo.Las definiciones de algunos roles semánticos mayores de los sustantivos son lossiguientes:

Page 24: INSTITUTO POLITÉCNICO NACIONALfranciscocastillo.com.mx/uploads/7/6/5/0/76507663/... · guajes con alternaciones irregulares de raíz (como por ejemplo, el español o ruso). En este

Agente: hacedor de la acción (“el muchacho”). [1-4]

Paciente u objeto: recipiente de la acción (“un tabique rojo”). [1, 2, 3]

Localización: el cambio de posición del agente (“en la pared”). [2]

Objetivo: a donde se dirige la acción (“la carretilla”). [3]

Fuente: donde se originó la acción (“la pared”). [3]

Instrumento: un objeto usado para llevar a cabo la acción (“el tabique rojo”). [3]

1. El muchacho encontró un tabique rojo.2. El muchacho pone el tabique rojo en la pared.3. El muchacho lleva el tabique rojo de la pared a la carretilla.4. El muchacho rompió una ventana con el tabique rojo.

En el nivel semántico se estudian las unidades semánticas o de contenido de cual-quiera de los morfemas, lexemas o palabras (elementos léxicos o sémicos). Porejemplo: “cabeza” es un lexema representativo de los diversos sentidos que tal uni-dad pueda tener en distintas oraciones o contextos. Así, “cabeza” puede significar:

La cabeza del cuerpo humano (parte del cuerpo).Tener cabeza (inteligencia).Andar de cabeza (revés).Ir a la cabeza (punta).De pies a cabeza (arriba).Obrar con cabeza (inteligencia).Ser cabeza de familia (jefe).

2.1.6 PRAGMÁTICA

El estudio de la pragmática del lenguaje se interesa en cómo usamos el len-guaje para comunicarnos en contextos particulares. El contexto (social, cultural, fí-sico) tiene una gran influencia sobre la forma del lenguaje como las palabras queusamos y la manera en la cual nos expresamos. Cuando valoramos la pragmáticadel lenguaje se hace un juicio acerca de la conveniencia de aspectos de comuni-cación para el contexto en el cual ocurre.

Hay “reglas” o guías implícitas para lo que es el habla, comunicación o lenguaje“apropiado” y “no apropiado” en diferentes contextos (aunque a veces esas reglasllegan a ser explícitas, como en un salón de clases). Las reglas pragmáticas sonevidentes en las reacciones de las personas cuando alguien “no está siguiendo lasreglas” al actuar “no apropiadamente”.

Según [Grice, 89], nuestro uso del lenguaje se rige por lo que llama un principiocooperativo. Esto es, la gente “coopera” cuando habla o se comunica con otras

Page 25: INSTITUTO POLITÉCNICO NACIONALfranciscocastillo.com.mx/uploads/7/6/5/0/76507663/... · guajes con alternaciones irregulares de raíz (como por ejemplo, el español o ruso). En este

personas para que la conversación sea determinada, ordenada y eficiente. Identifi-có cuatro maneras en las cuales la gente coopera cuando se comunica; éstas pue-den ser vistas como reglas compartidas socialmente o convenciones de interac-ción conversacional:

Cantidad: cuánto se requiere informar (no demasiado y no muy poco).

Calidad: tratar de hablar sólo lo que es válido o verídico (evitar decir cosas paralas cuales no hay evidencia).

Relación: Ser relevante al hablar (apegarse al propósito u objetivo de la conver-sación).

Manera: decir cosas en una forma para asegurar un mensaje claro y evitar la os-curidad, ambigüedad, etc.

A menos que haya evidencia de lo contrario, la gente generalmente asume que lospatrones conversacionales seguirán estos principios o reglas. La violación a ellaspuede ser reflexionado (para efectos particulares como el humor o la irritación dealguien) o causado por un desorden o problema que influye en las habilidadespragmáticas.

La pragmática estudia lo siguiente: a) las relaciones del signo lingüístico con elhombre como emisor y receptor, b) lo que tiene lugar en el hombre cuando comu-nica o recibe un mensaje, c) de qué depende la forma de comunicación y d) enqué medida la comunicación está condicionada por la cultura y otros factores ex-tra-lingüísticos.

2.1.7 DISCURSO

La estructura y organización del lenguaje hablado o escrito se extiende másallá de la oración. Ejemplos de ello son los ensayos, narrativas, conversaciones,diálogos y lecturas. Un desorden en este nivel puede dar como resultado un len-guaje falto de características organizacionales en géneros específicos del discurso(sermón, debate, narrativa).

Los procesos del discurso pueden ser examinados en dos niveles: estructura localy global. En la primera hay interés en cómo las oraciones están ligadas y cómo in-fluyen con las previas y siguientes en la formación de un discurso coherente se-mánticamente. Esto tiene utilidad entre otras cosas, para interpretar el espaciotemporal de la información comunicada. En el nivel global la atención se centra enla organización y estructura global del discurso, esto es, cómo se organiza y repre-senta un tema en la mente y cómo es usado para controlar la secuencia y forma-ción de oraciones comprendidas en la estructura local del discurso.

2.2 ESTRUCTURA DE LA LINGÜÍSTICA

Page 26: INSTITUTO POLITÉCNICO NACIONALfranciscocastillo.com.mx/uploads/7/6/5/0/76507663/... · guajes con alternaciones irregulares de raíz (como por ejemplo, el español o ruso). En este

La siguiente figura muestra cómo está relacionada la lingüística con otras discipli -nas.

La lingüística general estudia la estructura general y descubre las leyes universa-les de funcionamiento de los lenguajes naturales [BOLSHAKOV, 00]. La fonología,morfología, sintaxis, pragmática, semántica y el discurso (descritas en 1.2) son ni-veles de estudio de la lingüística general.

La lexicografía estudia el léxico o el conjunto de todas las palabras de un lengua-je específico, con sus significados, características gramaticales, pronunciación,etc., así como los métodos de compilación de varios diccionarios basados en esteconocimiento [BOLSHAKOV, 00]. El término es ambiguo porque tanto puede signi-ficar la metodología para realizar un diccionario como la ciencia que los estudia.Aunque la práctica lexicográfica es muy antigua, su técnica ha evolucionado enor-memente. Al principio se recogían glosas, palabras a las que se les añadía un co-mentario o una traducción, y por lo tanto la lexicografía elaboraba glosarios. Con elpaso del tiempo se sistematizó el trabajo tanto en la preparación de los métodosde recogida de datos como en las formas de definición y explicación de las vocesrecogidas. Así surgieron diccionarios lingüísticos, de uso, bilingües, enciclopédi-cos, por materias, ideológicos dialectales, icónicos y otras muchas variedades.

La psicología tiene sus raíces en la filosofía y estudia la actividad psíquica y laconducta humana. Los psicólogos interesados en el lenguaje y la comunicación,han sido influidos por la revolución lingüística del estadounidense Noam Chomsky.Otros, intentan analizar la conducta comparando la mente humana con un proce-sador de información. Los ingenieros investigan cómo las personas resuelven losproblemas más difíciles para intentar reproducirlos en la computadora, mientrasque los psicólogos han aprendido que sus teorías deben ser precisas y explícitassi quieren programarlas, para poder hacer predicciones de las más complejas teo-rías psicológicas. La psicolingüística es una disciplina entre la psicología y la lin-

Figura 1. Estructura de la Lingüística.

Lingüística Computacional

Lingüística Aplicada

Psicología

Lingüística General

Lingüística Histórica

Sociolingüística

Lexicografía

Matemáticas

Page 27: INSTITUTO POLITÉCNICO NACIONALfranciscocastillo.com.mx/uploads/7/6/5/0/76507663/... · guajes con alternaciones irregulares de raíz (como por ejemplo, el español o ruso). En este

güística. Estudia temas como el proceso por el que un niño adquiere el conoci-miento de su lengua, su empleo y la aparición de trastornos como la afasia; buscalos mecanismos neurolingüísticos y estudia las relaciones entre el cerebro y el len-guaje.

La sociolingüística es una disciplina que estudia las relaciones entre la lengua yla sociedad, el uso del lenguaje en ella: cómo se emplean determinadas reglas delidioma en función de las diferentes situaciones sociales en las que se encuentre elhablante. Por ejemplo, cómo sabe el hablante qué termino emplear para dirigirse aun interlocutor: señor, señora, don X, doctor, o sencillamente tú y qué situación de-termina cada uso. Intenta establecer correlaciones entre los fenómenos lingüísti-cos y sociales. Los límites teóricos de esta disciplina son muy difusos y se confun-den con otras áreas de estudio afines, como la antropología, la psicología social,la pragmática, el análisis del discurso, la sociología y la lingüística.

La lingüística histórica estudia cómo los lenguajes cambian a través del tiempo ylas relaciones que existen entre los lenguajes. Los estudios históricos nos permi-ten situar los textos en el espacio temporal y establecer relaciones entre los acon-tecimientos "externos" y los fenómenos lingüísticos que descubrimos en los textos[CE-10]. Se le conoce también como lingüística comparativa (llamada así por elhecho de que la comparación es su principal método de trabajo). A través de ella,por ejemplo, se descubrió que todas las lenguas romances (español, italiano, etc.)son descendientes del latín. Los estudios comparativos revelan muchas palabras yconstrucciones comunes dentro de familias de lenguajes (romance, germánica,etc.); además, nos permiten predecir los elementos de un lenguaje basados ennuestro conocimiento de otros lenguajes relacionados.

Hay dos puntos de vista diferentes con la definición de la lingüística matemática.Desde el punto de vista tradicional, el término lingüística matemática fue usado porla teoría de los gramáticos generativos, que fue una de las teorías más puras dedi-cadas a la lingüística. Alternativamente, desde un punto de vista más amplio, la lin-güística matemática es la intersección entre la lingüística y las matemáticas, esdecir, la parte de las matemáticas que toma fenómenos lingüísticos y relacionesentre ellos como los objetos de sus posibles aplicaciones e interpretaciones. Unade las ramas de la lingüística matemática es la lingüística cuantitativa. Estudia allenguaje por medio de determinar la frecuencia de varias palabras, combinaciónde palabras e interpretaciones de textos. Actualmente, la lingüística cuantitativa essinónimo de lingüística estadística. Esta proporciona los métodos de toma de deci-siones en el procesamiento de textos sobre la base de estadísticas recaudadas.Un tipo de tales decisiones es la resolución de la ambigüedad en fragmentos detextos. Otra aplicación de tales métodos es al descifrar textos en lenguajes olvida-dos o sistemas de escritura desconocidos [BOLSHAKOV, 00].

La lingüística aplicada estudia la aplicación de los métodos y resultados de la lin-

Page 28: INSTITUTO POLITÉCNICO NACIONALfranciscocastillo.com.mx/uploads/7/6/5/0/76507663/... · guajes con alternaciones irregulares de raíz (como por ejemplo, el español o ruso). En este

güística a áreas como la enseñanza del lenguaje, lexicografía, traducción, etc. Esuna disciplina que estudia la aplicación de ideas de la lingüística y otros campos(antropología, sociología, filosofía, psicología, educación) para una comprensióndel cómo aprendemos, almacenamos y usamos un segundo lenguaje o nuestrolenguaje nativo. Surgida en la segunda mitad del siglo XX, la lingüística compu-tacional es una rama de la lingüística aplicada.

2.3 LINGÜÍSTICA COMPUTACIONAL Y SUS APLICACIONES

El objetivo de la lingüística computacional (LC) es desarrollar una teoría com-putacional del lenguaje usando las nociones de algoritmos y estructuras de datosde la computación [JURAFSKY, 00].

Los problemas de la LC se dividen en dos clases: problemas conceptuales: qué esel lenguaje; qué significa comprender el español; qué es una gramática del espa-ñol; cómo hace el ser humano para saber que un sonido determinado evoca unsignificado específico; cómo se adquiere y usa el conocimiento del lenguaje; etc.Problemas técnicos: cómo podemos representar palabras, frases y oraciones delespañol en una computadora; cómo podemos codificar información de tipos deoraciones (indicativo, interrogativo, imperativo, etc.), partes del habla (sustantivos,verbos, adjetivos, etc.), terminaciones (tiempo, plural, etc.) y demás informacióngramatical de tal forma que una computadora pueda entenderla; etc.

La aplicabilidad de la LC recae principalmente en las siguientes áreas:

Corrección ortográfica, gramatical y de estilo Procesamiento de documentos y recuperación de información Aprendizaje de idiomas asistido por computadoras Traducción automática Interfaces de lenguaje natural Reconocimiento de voz

2.3.1 CORRECCIÓN ORTOGRÁFICA Y DE ESTILO

La corrección ortográfica es la detección y corrección de errores tipográficos yortográficos en un texto. Nadie escribe sin errores. Aún las personas conocedorasde un lenguaje pueden, sin querer, oprimir una tecla equivocadamente. Además,hay quienes no pueden sincronizar adecuadamente los movimientos de sus dedosal teclear (errores tipográficos). Por otro lado, hay personas que desconocen la or-tografía de algunas palabras, especialmente de lenguajes ajenos. Tales erroresson llamados errores ortográficos [GELBUKH, 02].

Además de ayudar en la corrección de tales errores, los sistemas de corrección or-tográfica pueden ser más versátiles. Pueden proponer un conjunto de palabras,las cuales son similares a la palabra errónea, y el usuario puede elegir una entre

Page 29: INSTITUTO POLITÉCNICO NACIONALfranciscocastillo.com.mx/uploads/7/6/5/0/76507663/... · guajes con alternaciones irregulares de raíz (como por ejemplo, el español o ruso). En este

ellas sin necesidad de rescribirla.

La detección y corrección de errores gramaticales es una tarea más difícil quela corrección ortográfica. Los errores gramaticales son aquellos que violan, porejemplo, las reglas sintácticas o relacionadas a la estructura de una oración. Unade estas reglas o leyes en el español, es la concordancia en género y número en-tre un sustantivo y un adjetivo. Por ejemplo, en la combinación casa viejos cadapalabra existe por sí sola en el lenguaje, pero juntas forman una combinación erró-nea en sintaxis. Otros tipos de errores gramaticales son aquellos que hacen maluso de preposiciones como en la esposa en Fox. Algunos tipos de errores sintácti-cos pueden no ser evidentes aún para hablantes nativos.

Los errores de estilo son aquellos que violan las reglas de uso de palabras co-rrectas y su combinación en el lenguaje (general o en un sentido literario). Estaaplicación es la más cercana en sus tareas a las gramáticas normativas y manua-les de estilo en forma impresa orientados a las personas.

Por ejemplo, no se recomienda usar palabras vulgares o construcciones puramen-te coloquiales en documentos oficiales. Así sucede con las propiedades formalesdel español: las oraciones no deberían contener diez preposiciones de, y no debe-rían ser más largas que veinte líneas, por decir. No se deben usar palabras en in-glés en textos del español como parking y lobby en vez de estacionamiento y vestíbu-lo, y no se recomienda usar el americanismo salvar en el significado “salvar en me-moria”, sino guardar [GELBUKH, 02].

2.3.2 RECUPERACIÓN DE INFORMACIÓN

Un sistema de recuperación de información (SRI) es aquel que almacena ele-mentos de información que necesitan ser procesados, buscados, recuperados ydiseminados por varios usuarios.

Teóricamente no hay restricción en el tipo y estructura de los elementos de infor-mación a ser almacenados y recuperados por el SRI. Aunque en la práctica, losSRI de gran escala están orientados al procesamiento de información textual. Si lainformación está particularmente bien estructurada, se usan sistemas administra-dores de bases de datos para almacenar y acceder esa información. A diferenciade las bases de datos, los SRI’s clásicos están orientados al almacenamiento y re-cuperación de información no estructurada o narrativa.

Con la llegada de grandes bibliotecas digitales multimedia se ha puesto énfasis enla recuperación de documentos consistentes de grandes volúmenes textuales ymedios con propiedades espaciales y temporales (sonidos, mapas, gráficos, imá-genes, video).

Page 30: INSTITUTO POLITÉCNICO NACIONALfranciscocastillo.com.mx/uploads/7/6/5/0/76507663/... · guajes con alternaciones irregulares de raíz (como por ejemplo, el español o ruso). En este

La terminología de la recuperación de información todavía se basa en técnicas in-troducidas en los 80s para la recuperación basada en textos. Adicionalmente, hoyen día, la mayor parte de la búsqueda en la web está basada en texto.

2.3.3 TRADUCCIÓN AUTOMÁTICA

La traducción automática (TA) investiga la creación de herramientas com-putacionales para traducir textos de un lenguaje a otro. Es el uso de programasque toman un texto de entrada en cierto lenguaje (fuente) y regresa su contenidoen un texto equivalente en otro lenguaje (objetivo).

Si el programa trabaja independientemente, sin interferencia humana desde queinicia hasta que entrega un resultado, el proceso es llamado traducción automáti-ca completa. Generalmente, sin embargo, se consigue una mejor calidad de la tra-ducción con un esfuerzo combinado de la computadora y la mente humana. Deesta forma, puede suceder que en algún momento y bajo algunas circunstancias elprograma haga una pregunta al usuario, esperando su respuesta y prosiguiendo elproceso después de que este último conteste. Esto es llamado traducción semiau-tomática. Otro método es que la computadora lleve a cabo una traducción cruda ydespués un traductor humano la remplace, corrigiendo errores y mejorando la sin-taxis. Un último método consiste en preeditar el texto antes de que se someta a laTA para que el programa trabaje mejor.

La investigación y desarrollo en la TA comenzó hace casi cinco décadas, pero elprogreso ha sido más lento de lo que se esperaba. El factor más difícil en la TA es

Figura 2. Clasificación de técnicas de recuperación de información.

Page 31: INSTITUTO POLITÉCNICO NACIONALfranciscocastillo.com.mx/uploads/7/6/5/0/76507663/... · guajes con alternaciones irregulares de raíz (como por ejemplo, el español o ruso). En este

el análisis semántico, es decir, hacer un programa que “entienda” el significado deltexto a traducir. La calidad de la TA depende mucho del éxito de este factor. Lascomputadoras nunca reemplazarán a los traductores humanos, pero ya han facili -tado y acelerado el trabajo de traducción considerablemente.

2.3.4 INTERFACES DE LENGUAJE NATURAL

Una interfaz de lenguaje natural a bases de datos (ILNBD) es un sistemaque permite al usuario acceder información almacenada en una base de datos alrealizar consultas en algún lenguaje natural (por ejemplo, el inglés). El siguienteejemplo es un diálogo entre el usuario mediante LOQUI, un ILNBD disponible co-mercialmente (las respuestas del sistema fueron ligeramente simplificadas; laspreguntas del usuario están en courier normal y las respuestas del sistema encourier cursiva).

> Who works in 3 projects?

B. Vandecapelle, C. Willems, D. Sedlock, J. L. Binot, ...

> Which of them are project leaders?

C. Willems, D. Sedlock

> How many projects do not finish before 1994?

2

2.3.5 RECONOCIMIENTO DE VOZ

El reconocimiento de voz es el proceso de convertir una señal acústica,capturada por un micrófono o un teléfono, a un conjunto de palabras. Las palabrasreconocidas pueden ser el resultado final para aplicaciones de comandos y con-trol, entrada de datos y preparación de documentos. Pueden también ser de utili-dad como entrada a otros procesos lingüísticos para llevar a cabo la comprensióndel lenguaje, por ejemplo.

La figura 3 muestra los componentes principales de un sistema de reconocimientode voz. La señal digitalizada del habla es transformada primero en un conjunto demedidas o características útiles en un rango fijo, generalmente una vez cada 10 –20 mseg. Estas medidas son usadas después en la búsqueda de la palabra candi-data más parecida, haciendo uso de reglas impuestas por los modelos acústicos,léxicos y del lenguaje. Durante todo el proceso, los datos de entrenamiento sonusados para determinar los valores de los parámetros del modelo.

Page 32: INSTITUTO POLITÉCNICO NACIONALfranciscocastillo.com.mx/uploads/7/6/5/0/76507663/... · guajes con alternaciones irregulares de raíz (como por ejemplo, el español o ruso). En este

El reconocimiento de voz es un problema difícil, debido a las diversas fuentes devariación asociadas con la señal. Primero, las realizaciones acústicas de fonemas,las unidades de sonido más pequeñas de las que se forman las palabras, son alta-mente dependientes del contexto en que aparecen. Segundo, las variacionesacústicas pueden resultar de cambios en el medio ambiente así como la posición ycaracterísticas del traductor. Tercero, las variaciones innatas al hablante puedenresultar de cambios en su estado físico o emocional y en su calidad de voz. Final-mente, las diferencias en un marco sociolingüístico, dialecto y forma y tamaño deltracto vocal pueden contribuir en ciertas variaciones de la señal [COLE, 96].

Existen otras áreas en donde la LC se ve involucrada: incorporación automática deguiones (automatic hyphenation), generación de textos, reconocimiento óptico decaracteres, representación de señales, generación del habla, etc. Existen otrasáreas de aplicación menos conocidas, pero no por ello menos importantes. Ejem-plos de esto último son las bibliotecas digitales, generación de resúmenes, etc.

2.3.6 BIBLIOTECAS DIGITALES

El tesoro más valioso de la raza humana –su conocimiento y su cultura– seconcentra en grandes acervos de textos (libros, revistas, periódicos) escritos en el

lenguaje natural. Tradicionalmente tales acervos se llaman bibliotecas y han juga-do un papel único en difusión y conservación de la cultura y el conocimiento.

Sin embargo, hasta ahora la tecnología de mantenimiento de las bibliotecas eramuy rudimentaria: eran almacenes de libros con un soporte muy básico para en-contrar un libro si ya se sabe el autor y título. El «rendimiento» de tal difusión deconocimiento era muy bajo: se puede decir que la mayoría de la información escri-

Figura 3. Componentes de un sistema de reconocimiento de voz típico.

Page 33: INSTITUTO POLITÉCNICO NACIONALfranciscocastillo.com.mx/uploads/7/6/5/0/76507663/... · guajes con alternaciones irregulares de raíz (como por ejemplo, el español o ruso). En este

ta en los libros no se encontraba por quien la necesitaba y en el momento cuandose necesitaba.

Con el tratamiento digital de información la utilidad de las bibliotecas –que en estecaso se llaman bibliotecas digitales– se aumenta hasta convertirlos en los servi-cios integrados y complejos de información cultural, científica y técnica. Obviamen-te, las facilidades de búsqueda inteligente proporcionadas por las tecnologías delenguaje natural son sólo una parte de la solución integral, la cual involucra tam-bién aspectos técnicos, administrativos, legales y culturales.

2.3.7 EXTRACCIÓN DE INFORMACIÓN, FILTRADO Y ALERTA

Otra posibilidad que se abrió con la aparición de grandes volúmenes de tex-tos, que además crecen constantemente es la creación de bases de datos especí-ficos a través de la información que se comunica en los textos. Por ejemplo, crearuna base de datos que guarda las atracciones turísticas por lugares, fechas y ser-vicios, extrayendo esta información automáticamente de las descripciones en laspáginas Web y la propaganda de las compañías turísticas. O bien, una base dedatos de oferta y demanda de soluciones tecnológicas, que podría ser útil parauna compañía de consultoría. Obviamente, este tipo de tareas requiere de ciertogrado de comprensión de texto por parte de la máquina, aunque en un dominioacotado.

Otra tarea similar es el filtrado de información nueva, por ejemplo, de las noticiaspublicadas por las agencias. De muchos miles de noticias, el agente de filtrado se-lecciona sólo las que corresponden al perfil de intereses del usuario específico ylas presenta en su escritorio. Si las noticias de este tipo aparecen muy raramente,la tarea se llama servicio de alerta: el agente advierte al usuario si aparece algo desu interés (digamos, la compañía cliente cambia de presidente).

2.3.8 RESÚMENES

Otro modo de filtrar la información relevante en el mar de la irrelevante es lapresentación como un resumen de información. Se trata de analizar un texto gran-de (o una colección grande de textos), generar un informe corto de todo lo relevan-te que dicen estos textos, para darle al lector una idea de su contenido sin la nece-sidad de leer todos los textos.

Existen diferentes variantes de la tarea de resumir. Por ejemplo, se puede buscarla opinión prevalente (más común) sobre el tema dado. Digamos, hay muchos artí -culos sobre el procesamiento de lenguaje natural, pero ¿cuáles son los problemasque más se discuten? ¿Cuáles son las soluciones que más frecuentemente seproponen?

Una variante es el resumen temático de texto: presentar un breve informe sobrelos temas (aunque no las ideas) que se discutan en un texto dado, por ejemplo: el

Page 34: INSTITUTO POLITÉCNICO NACIONALfranciscocastillo.com.mx/uploads/7/6/5/0/76507663/... · guajes con alternaciones irregulares de raíz (como por ejemplo, el español o ruso). En este

texto habla sobre guerra, política y narcotráfico; el otro habla sobre ciencia, tecno-logía y transporte. A pesar de menor riqueza de esta presentación –en compara-ción con los resúmenes completos– tiene algunas ventajas: es más simple de ob-tener y entonces da resultados más seguros y estables; además, permite realizaroperaciones matemáticas con los conjuntos (vectores) de temas obtenidos.

2.3.9 MINERÍA DE TEXTO

En las cantidades de texto grandes se puede no sólo encontrar lo que estáescrito explícitamente en alguno de los textos, sino también descubrir cosas nue-vas. Por ejemplo, detectar tendencias, relaciones y anomalías. Digamos, detectarque en el estado X la popularidad del gobierno empieza a caer (y al darse cuentade esto, tomar medidas adecuadas a tiempo) –una tendencia. O bien, que en losestados donde los gobernantes son mujeres hay más satisfacción de la poblacióncon el gobierno –una relación. O bien, que el periódico X no publicó los informessobre el evento que la mayoría de los periódicos discutió extensivamente –unaanomalía.

Es importante mencionar que (a diferencia de las tareas de búsqueda, filtrado oextracción) esta información no está escrita explícitamente en algún texto sino sedescubre con los métodos estadísticos. Nótese también que la minería de texto esotro modo de presentación resumida de información, aunque no de informaciónexplícita sino implícita en los textos.

2.3.10 MANEJO INTELIGENTE DE DOCUMENTOS OFICIALES (E-GOBIERNO)

Las sociedades democráticas tienden a ser también burocráticas. Esto sedebe, primero, al gran número de documentos que circulan ya que cada ciuda-dano hace efectivos sus derechos a petición, apelación, opinión, etc., y segundo,al gran número de personas involucradas en la consideración de tales documentosde tal manera que el poder de la decisión no se concentra en las manos de una opocas personas. Por otro lado, esta situación causa retrasos y desorden cuando elflujo de documentos rebasa las capacidades del sistema burocrático.

Una solución eficiente a este problema, que permite avenir la democracia con laeficacia es el procesamiento automático de documentos, por lo menos en los as-pectos de clasificación y distribución del flujo de documentos, búsqueda de docu-mentos relevantes y parecidos, etc. Por ejemplo, un sistema automático puede gi-rar los documentos a los funcionarios o departamentos relevantes. Puede agruparlos documentos que describen los casos parecidos para su consideración conjuntaen una sola reunión. Puede facilitar al funcionario la búsqueda de los casos pareci-dos en el pasado, con el dictamen correspondiente, para que se quede a su consi-deración si un dictamen similar podría aplicarse al caso en cuestión.

En México, como en algunos otros países, existen los programas gubernamenta-

Page 35: INSTITUTO POLITÉCNICO NACIONALfranciscocastillo.com.mx/uploads/7/6/5/0/76507663/... · guajes con alternaciones irregulares de raíz (como por ejemplo, el español o ruso). En este

les para el desarrollo de la infraestructura electrónica del manejo de documentos.

2.3.11 ESTUDIO DE INTERNET COMO UN CORPUS ENORME

Todos los métodos de análisis de grandes cantidades de texto son específi-camente útiles para la colección de información de Internet, que es fácil de obtenery es muy rica en contenido.

También, en los años recientes el Internet se empezó a emplear para construir lossistemas de análisis de texto. Estos sistemas requieren de diccionarios muy gran-des que indiquen las propiedades del lenguaje –tanto de las palabras como de lasestructuras de oraciones y de texto completo. Generalmente, esta información seguarda junto con las estadísticas de uso: el hecho de que algunas estructuras seusan más frecuentemente que otras ayuda a entender el texto correctamente enlos casos de ambigüedad. Obviamente, esta cantidad gigantesca de informaciónprácticamente no se puede compilar y codificar a mano. Entonces, se aplican lastécnicas de aprendizaje automático para extraerla de grandes colecciones de tex-to, las cuales en este contexto se llaman corpus. Un corpus usualmente contieneun marcado especial o se prepara con las técnicas especiales para facilitar la ex-tracción de la información necesaria.

Internet es la colección más grande de textos que ha creado la humanidad, y esuna fuente muy rica de información no sólo sobre los hechos que se discutan allísino también sobre el propio lenguaje (aunque por el momento esto se aplica mása inglés que a otros lenguajes). Sin embargo, este corpus es muy especial porqueno cuenta con el marcado y la estructura que generalmente ofrecen los corpus. Loque resulta en el desarrollo de los métodos especiales de su análisis.

2.3.12 APLICACIONES MULTILINGÜES

Adicionalmente a las tareas de la traducción automática que ya hemos discu-tido, existe y ha recibido recientemente un desarrollo considerable un espectro deaplicaciones que involucran los textos en diferentes lenguajes sin traducirlos. Laimportancia de las aplicaciones multilingües se aumentó mucho por las siguientescircunstancias:

Con la formación de la Unión Europea, las oficinas europeas manejan losdocumentos en 12 lenguajes oficiales de la Unión, y este número va a cre-cer más con la expansión de la unión a otros países europeos (tales comola República Checa, Estonia, etc.). Obviamente, ningún empleado de estasoficinas puede saber igualmente bien todos estos idiomas.

Con el crecimiento de la democracia en los países multilingües, en estospaíses se fortalece la posición de los lenguajes aunque no oficiales peromuy usados –como es el español en los EE.UU.

Page 36: INSTITUTO POLITÉCNICO NACIONALfranciscocastillo.com.mx/uploads/7/6/5/0/76507663/... · guajes con alternaciones irregulares de raíz (como por ejemplo, el español o ruso). En este

Con el desarrollo técnico de los países del tercer mundo, la revolución infor-mática empieza a llegar en estos países, donde en muchos casos hay de-cenas de lenguajes usados y en muchos casos oficiales.

En estos casos, muchos acervos de información son multilingües: por ejemplo, lasbases de documentos oficiales en la unión europea contienen documentos en mu-chos lenguajes. De esto aparecen tales tareas como la búsqueda cross-lingual: lapregunta se formula en el lenguaje que el usuario sabe mejor, pero se ejecuta so-bre una colección de documentos en diferentes lenguajes. Todas las demás tareasde procesamiento de documentos –tales como resúmenes, minería, agrupamiento,etc. – también se pueden, con los métodos adecuados, aplicar a las coleccionesde documentos multilingües.

Page 37: INSTITUTO POLITÉCNICO NACIONALfranciscocastillo.com.mx/uploads/7/6/5/0/76507663/... · guajes con alternaciones irregulares de raíz (como por ejemplo, el español o ruso). En este

Capítulo 3

Antecedentes y Estado del Arte

En la oración “el gato atrapó un ratón” un analizador morfológico debe saberque gato es un sustantivo singular, atrapó es un verbo en pasado y así sucesiva-mente. En el inglés, tal información puede darla un léxico que simplemente liste to-das las formas de palabra con su POS e información flexiva como el tiempo y nú-mero. Ya que el inglés tiene un sistema flexivo relativamente simple, el número deformas que deben ser listadas en tal léxico es manejable. Hay que hacer notar quelos sustantivos contables como gato tienen solo dos formas flexivas, singular y plu-ral, y los verbos regulares como atrapar tienen solo cuatro formas flexivas: la formabase, la forma –s, la forma –ed y la forma –ing. Pero un listado léxico exhaustivopara otros lenguajes (finlandés, turco, quechua, los cuales pueden tener cientosde formas flexivas para cada sustantivo o verbo) simplemente no es factible. Paratales lenguajes uno debe construir un analizador de palabras que use el sistemamorfológico del lenguaje para calcular la POS y las categorías flexivas de cual-quier palabra.

Aún para el inglés, puede ser necesario un analizador morfológico. A pesar de quetiene un sistema flexivo limitado, tiene una morfología derivativa productiva y muycompleja. Por ejemplo, para la raíz compute se derivan formas como computer, com-puterize, computerization, recomputerize, noncomputerized y así sucesivamente. Es im-posible listar exhaustivamente en un léxico todas las formas derivadas (incluyendotérminos acuñados o usos inventivos del lenguaje) que puedan ocurrir en el textonatural.

3.1 ANÁLISIS MORFOLÓGICO

El análisis morfológico consiste en la descomposición de la palabra a anali-zar en una serie de fragmentos: raíz, prefijos, sufijos, en algunas lenguas infijos,pertenecientes a conjuntos finitos y siguiendo determinadas reglas de combina-ción. La palabra temblorosamente se puede descomponer en tembl + oros + a + men-te, de forma que tembl perteneciera al conjunto de raíces, y oros, a y mente a con-juntos de sufijos de diversos tipos. Una determinada regla autorizaría la combina-ción.

El análisis morfológico de las formas flexivas es relativamente sencillo, ya que la

Page 38: INSTITUTO POLITÉCNICO NACIONALfranciscocastillo.com.mx/uploads/7/6/5/0/76507663/... · guajes con alternaciones irregulares de raíz (como por ejemplo, el español o ruso). En este

flexión responde a patrones bastante regulares y, además, la categoría gramaticaly el significado no cambian (aunque a veces se refinan) al añadirse los sufijos.Para el español, el número de sufijos flexivos es de unos 200 y el número de re-glas de combinación de unas 500. En cambio, la derivación o la composición sonmás complicadas y suelen venir combinadas con la flexión.

A menudo, sobre todo para lenguas con poca complejidad morfológica, como la in-glesa, el analizador morfológico se reduce a un formario, es decir a un diccionariode formas completas. Si el formario está implementado razonablemente, la eficien-cia del proceso de análisis es alta. Por otra parte, los formarios son fácilmente ex-tensibles, soportan entradas multipalabra y es posible su construcción a partir degeneradores morfológicos.

En otras ocasiones, la representación explícita de todas las formas no es conve-niente y se debe recurrir a un proceso de análisis morfológico realizado no a priori,sino en el momento de llevar a cabo el tratamiento de la oración. Consideremos elcaso del español. La capacidad flexiva de tres de las cuatro categorías principales(nombre, adjetivo y adverbio) es muy reducida. En cambio, el verbo tiene una altacapacidad flexiva (unas 40 formas por lema). Si tenemos en cuenta que existenunos 5000 verbos que se usan con cierta frecuencia el número de formas verbalesque debiera incluir un formario del español sería de unas 200,000. Esta cifra pue-de ser aceptable para algunas aplicaciones y no serlo para otras. Otros fenóme-nos morfológicos difícilmente reducibles a colecciones de formas son la deriva-ción, las formas verbales que incluyen pronombres enclíticos (dímelo, diríaselo), losadverbios de modo acabados en mente, derivados de adjetivos femeninos, etc. Enestos casos, un analizador morfológico que actúe en el momento del tratamientodebe sustituir o completar al formario.

3.2 PROCESAMIENTO AUTOMÁTICO DE NIVEL MORFOLÓGICO

En términos muy generales, la morfología concierne con la estructura internade las palabras; para ilustrar el hecho de que las palabras en inglés tienen una es -tructura, Brown & Miller, por ejemplo, señalan los siguientes datos:

(1) The fearsome cats attacked the foolish dog.(2) The fear-some cat-s attack-ed the fool-ish dog.

Varias observaciones se pueden hacer a esta propuesta de segmentación. Por unlado, las palabras claramente pueden ser clasificadas dependiendo de cuáles sufi -jos pueden tomar y cuáles no. Las siguientes construcciones son mal formadas:

(3)a. *fear-ishb. *fool-somec. *cat-ed

Page 39: INSTITUTO POLITÉCNICO NACIONALfranciscocastillo.com.mx/uploads/7/6/5/0/76507663/... · guajes con alternaciones irregulares de raíz (como por ejemplo, el español o ruso). En este

d. *man-s (como sustantivo plural)

Por otro lado, hay muchas palabras como cat que toman –s para formar un plural yel cual puede ser agrupado a una clase que excluye man, child, y así sucesivamen-te.

Con la única evidencia del inglés, las palabras se forman de sub-partes identifica-bles, y es discutible que estén estructuradas de formas interesantes. Por ejemplo,la palabra re-employ-able parece tener tres constituyentes. Sin embargo, hay quehacer notar, que podemos preguntar cómo se puede representar exactamente lasegmentación, como las siguientes estructuras lo sugieren:

Así, podemos pensar que la palabra tiene el prefijo re agregado a employable o unsufijo able agregado a re-employ y es probable que estas diferencias sintácticastengan implicaciones semánticas (como en un-tie-able), por ejemplo. Muchos len-guajes tienen estructuras de palabras mucho más complejas que el inglés.

Hay dos retos en el modelado de la morfología del lenguaje natural:

1. Morfotáctica. Las palabras se componen típicamente de unidades más peque-ñas de significado llamadas morfemas. Los morfemas que componen una palabradeben ser combinados en cierto orden. in-discutible-mente es una palabra en espa-ñol pero no así *discutible-mente-in. La mayoría de los lenguajes construyen pala-bras por concatenación, pero algunos lenguajes también exhiben procesos noconcatenativos tales como la interdigitación y la reduplicación.

2. Alternaciones morfológicas. La forma de un morfema depende a menudo delmedio ambiente. Propon se convierte en propong en propongo y en propus en propu-se.

3.2.1 ANALIZADOR MORFOLÓGICO VS. DESAMBIGUADOR MORFOSINTÁCTICO

El objetivo del análisis morfológico automático es desarrollar automáticamen-te una clasificación morfológica de una forma de palabra arbitraria. Esto incluyeidentificar la forma base de la palabra, sus características gramaticales y a quétipo flexivo (parte de oración) pertenece. En caso de homonimia (cuando la formade palabra pertenece a más de un tipo flexivo y tiene categorías gramaticales dife-

Figura 4. Segmentación típica de una palabra.

Page 40: INSTITUTO POLITÉCNICO NACIONALfranciscocastillo.com.mx/uploads/7/6/5/0/76507663/... · guajes con alternaciones irregulares de raíz (como por ejemplo, el español o ruso). En este

rentes) se deben encontrar todos los tipos posibles.

El resultado del análisis morfológico es el de asignar a cada una de las unidadesléxicas presentes el conjunto de sus categorías gramaticales posibles. El problemaes que las palabras tomadas en forma aislada son ambiguas respecto a su cate-goría. Consideremos el siguiente ejemplo: Yo bajo con el hombre bajo a tocar el bajobajo la escalera. La palabra bajo puede tener, dependiendo del conjunto de etique-tas que se manejen, un mínimo de cuatro categorías diferentes: verbo, adjetivo,sustantivo y preposición. El analizador morfológico devolverá toda ellas para cadauna de las apariciones de la forma bajo en la oración. Afortunadamente la catego-ría de la mayoría de las palabras no es ambigua dentro de un contexto.

Es relativamente simple para una persona eliminar la ambigüedad en la categori-zación para establecer que las apariciones de bajo corresponden respectivamentea un verbo, un adjetivo, un nombre y una preposición. La misión de los desambi-guadores morfosintácticos (pos taggers) es la de realizar automáticamente esta ta-rea.

El objetivo de un desambiguador (también llamado etiquetador morfosintáctico) es,pues, el de asignar a cada palabra la categoría más apropiada, dentro de un con-texto. Es decir, dada una secuencia de palabras, dotada cada una del conjunto deetiquetas posibles, el desambiguador deberá devolver una secuencia de etiquetasque sea la más verosímil dado el contexto. Por supuesto, la calidad del desambi-guador dependerá del grado de precisión (la granularidad) del etiquetado, del con-texto considerado y de la información de que disponga el desambiguador paraconsiderar apropiada una etiqueta o verosímil una secuencia de etiquetas. A ve-ces, los desambiguadores no resuelven totalmente el problema de la ambigüedadgramatical y se limitan a eliminar las opciones imposibles o menos probables. Esel caso de los denominados desambiguadores reduccionistas [CE-08].

3.3 MÉTODOS DE ANÁLISIS Y SÍNTESIS MORFOLÓGICA AUTOMÁTICA

Dos modelos de estructuras morfológicas son conocidos como ITEM ANDARRANGEMENT –IA- (Elemento y Arreglo) e ITEM AND PROCESS –IP- (Elemen-to y Proceso) [ATSERIAS, 98].

En un análisis IA, las palabras se construyen más o menos de la misma forma quelas oraciones y además, la estructura interna de las palabras es “visible” al análisissintáctico. Una típica representación de la oración the dogs chased the cats pudieraser la mostrada en la figura 5.

Como se puede apreciar en la estructura de árbol, los temas léxicos y los afijosgramaticales aparecen en el análisis sintáctico, y así, no hay una división clara en-tre los procesos morfológico y sintáctico. En una aproximación IP, por otro lado, seasume que la sintaxis no puede “ver dentro” de la morfología, y que la palabra es

Page 41: INSTITUTO POLITÉCNICO NACIONALfranciscocastillo.com.mx/uploads/7/6/5/0/76507663/... · guajes con alternaciones irregulares de raíz (como por ejemplo, el español o ruso). En este

el nivel de análisis más bajo que toma parte en las representaciones sintácticas.Tal modelo está relacionado con el de WORD AND PARADIGM (palabra y paradig-ma). Las diversas formas que una palabra puede tomar son representadas en un“paradigma” y la morfología involucra la selección de un elemento apropiado.

Viendo al modelo paradigmático de una forma diferente, podemos pensar al com-ponente morfológico como un proceso en el cual, dado un análisis sintáctico, pro-duce una forma de palabra apropiada para ocupar una posición en tal análisis. Deaquí el nombre IP.

El modelo de dos niveles (two-level model –M2N-) fue propuesto por KimmoMatti Koskenniemi en su disertación doctoral de 1983 [KIMMO, 83] como marcopara el análisis y la síntesis computacional de la morfología. Incorpora un nuevoformalismo para describir fenómenos morfológicos y morfofonológicos. Además deestar motivado por el objetivo del análisis automático del lenguaje finlandés, estemodelo también está motivado por consideraciones lingüísticas y computacionalesmás generales.

El formalismo de dos niveles está basado parcialmente en los mismos conceptosdel formalismo de la fonología generativa. La principal diferencia es que el M2Nusa reglas paralelas en vez de reglas aplicadas una después de otra en un ordenpredeterminado como lo hace la fonología generativa. Las reglas paralelas tienenel beneficio de ser conceptual y computacionalmente más simples.

El modelo morfológico de dos niveles consiste de dos componentes principales: unsistema léxico y reglas de dos niveles. Estos a su vez se basan en un alfabetocomún. Son interdependientes y juntos forman una descripción completa de la fle-xión de palabras. El sistema léxico lista los morfemas del lenguaje, pero este mo-delo también restringe las secuencias de morfemas posibles dentro de una pala-

Figura 5. Árbol de análisis sintáctico para una oración.

Page 42: INSTITUTO POLITÉCNICO NACIONALfranciscocastillo.com.mx/uploads/7/6/5/0/76507663/... · guajes con alternaciones irregulares de raíz (como por ejemplo, el español o ruso). En este

bra. Las reglas de dos niveles especifican las discrepancias permitidas (u obligato-rias) entre representaciones almacenadas léxicamente y formas superficiales. Lasreglas tienen la forma de condiciones, pero este componente como un todo tam-bién puede ser tratado como un filtro, a través del cual el mundo real “ve” las re-presentaciones léxicas.

El formalismo de dos niveles es bidireccional en el sentido de que las descripcio-nes morfológicas pueden ser leídas en la dirección de análisis y producción, yaque las reglas son condiciones mas que acciones. El M2N se parece a la morfolo-gía concreta en poner atención a las formas superficiales, las cuales en este mo-delo, son tan importantes como las representaciones léxicas. Comparado con losmodelos generativos, este formalismo asigna a las reglas un papel más limitado,mientras hacen un uso más amplio del sistema léxico [KIMMO, 83].

La afirmación básica de la teoría de estados finitos para la morfología es que la re-lación entre las formas de superficie de un lenguaje y sus correspondientes lemaspuede ser descrita como una relación regular. Si la relación es regular, puede serdefinida usando el metalenguaje de expresiones regulares; y, con un compiladoradecuado, el código fuente de expresiones regulares puede ser compilado en untransductor de estados finitos que implemente la relación computacionalmente.

En el transductor resultante, cada ruta (secuencia de estados y arcos) desde el es-tado inicial hasta el final representa un mapeo entre una forma de superficie y sulema, también conocida como la forma léxica. Por ejemplo, la información para elcomparativo del adjetivo big (que es bigger) puede ser representada en el trans-ductor léxico del inglés por la ruta de la figura 6 donde los ceros representan lossímbolos épsilon.

Sin embargo, Koskenniemi comprendió que su implementación inicial tenía limita-ciones significativas al manejar procesos morfotácticos no concatenativos:

“Only restricted infixation and reduplication can be handled adequately with the presentsystem. Some extensions or revisions will be necessary for an adequate description of lan-

Figura 6. Una ruta en un transductor para el inglés.

Page 43: INSTITUTO POLITÉCNICO NACIONALfranciscocastillo.com.mx/uploads/7/6/5/0/76507663/... · guajes con alternaciones irregulares de raíz (como por ejemplo, el español o ruso). En este

guages possessing extensive infixation or reduplication” [KIMMO, 83, p.27].

“Con el presente sistema, sólo pueden ser manejadas adecuadamente la infijación y redu-plicación limitadas. Serán necesarias algunas revisiones o extensiones para una adecuadadescripción de lenguajes que posean amplia infijación y reduplicación”.

Una regla de dos niveles puede ser definida por tres componentes: una corres-pondencia entre un caracter léxico y uno superficial, un medio ambiente (contexto)en el cual la correspondencia es valida y el operador de regla que define la rela-ción entre la correspondencia y el medio ambiente. Se denota como sigue:

CaracterLéxico: CaracterSuperficial OperadorRegla ContextoIzquierdo _ ContextoDerecho

Algunas reglas de dos niveles tienen una sola correspondencia entre un carácterléxico y uno superficial y son conocidas como reglas por default. Por ejemplo, y:yes una regla por default que define una correspondencia normal entre el caracterléxico y y el carácter superficial y.

El medio ambiente es separado en dos partes: ContextoIzquierdo define las res-tricciones que deben satisfacerse por correspondencias antes de esta correspon-dencia y ContextoDerecho que define las restricciones que deben satisfacerse an-tes de esta correspondencia. La semántica de los operadores de regla está defini-da como sigue:

La correspondencia sólo, pero no siempre ocurre en ese medio ambiente. Porejemplo, la regla t:c _ i:i declara que el carácter léxico t corresponde al carác-ter léxico c sólo precediendo a la correspondencia i:i, pero no necesariamentesiempre en ese medio ambiente. Así, otras realizaciones de t pueden encontrarseen ese medio ambiente como la realización por default de t por t.

La correspondencia siempre, pero no solo ocurre en ese medio ambiente. Porejemplo, la regla t:c _ i:i declara que al carácter léxico t ha de corresponder alcarácter superficial c precedido de la correspondencia i:i, pero no necesariamentesólo en ese medio ambiente. Así, la correspondencia t:c puede ocurrir en otrosmedios ambientes pero el carácter léxico t debe ser siempre realizado por el ca-rácter superficial c en ese medio ambiente.

La correspondencia siempre ocurre en ese medio ambiente, y solo ocurre enese medio ambiente. Por ejemplo, la regla t:c _ i:i declara que el carácter léxi-co t ha de corresponder al carácter superficial c precedido de la correspondenciai:i, esta correspondencia no es posible en otros ambientes y otras realizacionesdel carácter léxico t son inválidas en ese medio ambiente.

/ La correspondencia nunca ocurre en ese medio ambiente, y generalmente usa-da para cubrir excepciones en una regla más general. Por ejemplo, la regla t:c /_ i:i declara que el caracter léxico t no puede corresponder al caracter superficial c

Page 44: INSTITUTO POLITÉCNICO NACIONALfranciscocastillo.com.mx/uploads/7/6/5/0/76507663/... · guajes con alternaciones irregulares de raíz (como por ejemplo, el español o ruso). En este

precedido de la correspondencia i:i.

3.4 LOS SISTEMAS DE ANÁLISIS MORFOLÓGICO AUTOMÁTICOEXISTENTES

3.4.1 PC-KIMMO

Muy poco después de la disertación de Koskenniemi, Lauri Karttunen y otraspersonas desarrollaron una implementación en LISP del modelo de dos niveles ylo nombraron KIMMO. Los componentes principales de éste analizador (parser) semuestran en la figura 7.

Este parser tiene dos componentes analíticos: las reglas y el léxico. El componen-te de reglas consiste de reglas de dos niveles que explican (justifican) las alterna-ciones fonológicas u ortográficas. El léxico lista todos los morfemas (temas y afi -jos) en su forma léxica y las restricciones morfotácticas. Por ejemplo, el léxico pue-de incluir entradas léxicas para el tema verbal chase y el sufijo –ed, y puede especi-ficar su orden relativo. Al usar estos componentes de datos hay dos funciones deprocesamiento, el generador y el reconocedor. El generador acepta como entradauna forma léxica como spy+s y regresa la forma superficial spies. El reconocedoracepta como entrada una forma superficial como spies y regresa una forma esen-cial dividida en morfemas, a saber spy+s más una cadena desglosada comoN+PLURAL.

En 1990, el SIL (Summer Institute of Linguistics) produjo PC-KIMMO versión 1,una implementación del modelo de dos niveles muy parecido a KIMMO de Karttu-nen. Escrito en C, corría sobre computadoras personales IBM-PC compatibles ylas Macintosh, así como UNIX. PC-KIMMO fue muy bueno para lo que fue diseña-do: tokenizar una palabra o sus categorías flexivas. Por ejemplo, dada la palabraenlargements, PC-KIMMO podía tokenizarla en la secuencia de morfemasen+large+ment+s, pero no podía determinar que la palabra completa fuera un sus-tantivo plural. Esto significaba que PC-KIMMO no era adecuado para actuar comoun front-end morfológico para un analizador sintáctico (su aplicación más desea-ble).

Page 45: INSTITUTO POLITÉCNICO NACIONALfranciscocastillo.com.mx/uploads/7/6/5/0/76507663/... · guajes con alternaciones irregulares de raíz (como por ejemplo, el español o ruso). En este

En 1993, se desarrolló la versión 2 de PC-KIMMO para solucionar esta deficienciaal agregarle un tercer componente analítico: una gramática de palabras. La gramá-tica es un analizador chart basado en la unificación (basado en el formalismo PA-TR-II) que provee árboles de análisis y estructuras de rasgos. El parser chart fueoriginalmente diseñado para análisis sintáctico. Así como un analizador de oracio-nes produce un árbol de análisis con palabras como sus hojas, un analizador depalabras produce un árbol de análisis con morfemas en sus hojas. Cuando se ana-liza una oración, normalmente ya está tokenizada en palabras (ya que las pone-mos con espacios en blanco); pero cuando se analiza una palabra, se debe prime-ro tokenizarla en morfemas. Este proceso (tokenización) se hace con las reglas yel léxico. Cuando una forma superficial se le proporciona al reconocedor de PC-KI-MMO, las reglas y el léxico analizan la palabra en una secuencia de estructuras demorfemas (o posiblemente más de una secuencia si mas de un análisis se en-contró). Una estructura de morfemas consiste de una forma léxica, glosa, catego-ría y rasgos.

Por ejemplo, la palabra enlargements es tokenizada en la siguiente secuencia deestructuras de morfemas:

Figura 7. Principales componentes del analizador KIMMO de Karttunen

Figura 8. Árbol de análisis para la palabra "enlargements".

Ilustración 1. Tokenización de la palabra "enlargements".

Page 46: INSTITUTO POLITÉCNICO NACIONALfranciscocastillo.com.mx/uploads/7/6/5/0/76507663/... · guajes con alternaciones irregulares de raíz (como por ejemplo, el español o ruso). En este

Este análisis es pasado a la gramática de palabras la cual regresa el árbol de aná-lisis y estructura de rasgos mostrado en la figura 8.

Mientras cada nodo del árbol tiene una estructura característica asociada a él, laestructura para el nodo tope es la más importante, ya que son los rasgos atribui-bles a la palabra en su totalidad. La estructura característica para la palabra enlar-gements especifica dos rasgos. Primero, la característica lexcat tiene el valor N quesignifica que la categoría léxica (POS) de la palabra es un sustantivo. Segundo, lacategoría número tiene el valor PL para el plural.

El componente de la gramática usa un archivo de gramática escrito por el usuario.Una gramática consiste de reglas libres del contexto y restricciones.

;FEATURE ABBREVIATIONS:

Let pl be <number> = PL

Let irreg be <reg> = -

Let v/n be <fromcat> = V

<tocat> = N

<number> = !SG

Let v\aj be <fromcat> = AJ

<tocat> = V

<finite> = !-

;CATEGORY TEMPLATES:

Let N be <cat> = ROOT

<lexcat> = N

<number> = !SG

<reg> = !+

<proper> = !-

Let V be <cat> = ROOT

<lexcat> = V

<finite> = !-

<reg> = !+

Let AJ be <cat> = ROOT

<lexcat> = AJ

<aform> = !POS

<reg> = !+

;Rule 1

Word = Stem INFL

<Stem lexcat> = <INFL fromcat>

<Word lexcat> = <INFL tocat>

Page 47: INSTITUTO POLITÉCNICO NACIONALfranciscocastillo.com.mx/uploads/7/6/5/0/76507663/... · guajes con alternaciones irregulares de raíz (como por ejemplo, el español o ruso). En este

<Word number> = <INFL number>

<Word tense> = <INFL tense>

<Word aform> = <INFL aform>

;Rule 2

Stem = PREFIX Stem_1

<PREFIX fromcat> = <Stem_1 lexcat>

<Stem lexcat> = <PREFIX tocat>

<Stem number> = <PREFIX number>

<Stem tense> = <PREFIX tense>

<Stem aform> = <PREFIX aform>

<Stem reg> = <Stem_1 reg>

;Rule 3

Stem = Stem_1 SUFFIX

<Stem_1 lexcat> = <SUFFIX fromcat>

<Stem lexcat> = <SUFFIX tocat>

<Stem number> = <SUFFIX number>

<Stem tense> = <SUFFIX tense>

<Stem aform> = <SUFFIX aform>

<Stem reg> = <SUFFIX reg>

;Rule 4

Stem = ROOT

<Stem lexcat> = <ROOT lexcat>

<Stem number> = <ROOT number>

<Stem tense> = <ROOT tense>

<Stem aform> = <ROOT aform>

<Stem reg> = <ROOT reg>

La primera sección del archivo de gramática contiene abreviaturas de rasgos. Es-tas pueden ser usadas ya sea como entradas léxicas o en las reglas gramaticalesy son “expandidas” por la cláusula “Let”. Por ejemplo, la abreviación pl se expan-de dentro de la estructura [number: pl].

3.4.2 GRAMPAL

Es un procesador morfológico para el español implementado en PROLOG. Elmodelo en el cual está basado considera el fenómeno flexivo para verbos, sustan-tivos y adjetivos. El modelo se basa en la unificación de características y dependede un léxico de alomorfos tanto para temas y morfemas. Las formas de palabrasse construyen por la concatenación de alomorfos por medio de característicascontextuales especiales.

Page 48: INSTITUTO POLITÉCNICO NACIONALfranciscocastillo.com.mx/uploads/7/6/5/0/76507663/... · guajes con alternaciones irregulares de raíz (como por ejemplo, el español o ruso). En este

Hace uso de DCG’s (gramáticas de cláusulas definidas) incluidas en la mayoría delas implementaciones en PROLOG, en vez de utilizar el típico enfoque de estadosfinitos.

Existe una versión en C, pero necesita componentes separados para análisis y ge-neración. El diccionario cuenta con 43,000 lemas, incluyendo 24,400 sustantivos,7,600 verbos y 11,000 adjetivos.

3.4.3 XRCE CA

Este sistema de análisis está basado en autómatas finitos y se rige bajo los si-guientes principios:

1. Las combinaciones de morfemas permitidas pueden codificarse como unred de estados finitos;

2. Las reglas que determinan la forma de cada morfema pueden ser imple-mentadas como transductores de estados finitos;

3. La red léxica y los transductores de reglas pueden componerse de un autó-mata sencillo, un transductor léxico, que contiene toda la información morfo-lógica acerca del lenguaje, incluyendo derivación, flexión y composición.

Los transductores léxicos tienen muchas ventajas. Son bidireccionales (la mismared para análisis y generación), rápidos (miles de palabras por segundo) y com-

Ilustración 2. Interface del XRCE-CA en línea.

Page 49: INSTITUTO POLITÉCNICO NACIONALfranciscocastillo.com.mx/uploads/7/6/5/0/76507663/... · guajes con alternaciones irregulares de raíz (como por ejemplo, el español o ruso). En este

pactos. Hay analizadores para varios lenguajes: inglés, francés, alemán, húngaro,italiano, portugués, español, etc.

3.4.4 MACO+

MACO+ (Morphological Analyser Corpus-Oriented Plus) es una herramientapara análisis morfológico de corpus. Ha sido diseñado para dar tanta informaciónmorfológica como sea posible a cada palabra en el texto de entrada.

MACO+ ha sido concebido y diseñado como una herramienta morfológica de pro-pósito general aunque la implementación actual del sistema (y las fuentes de da-tos involucradas) están orientadas al análisis morfológico de textos en español.

La salida del analizador morfológico puede ser usada como la entrada de un POStagger (desambigüador sintáctico).

La construcción del analizador MACO+ consistió de dos pasos:

1. Se usó el conjunto de reglas flexivas del viejo MACO (1994) para analizarcada palabra (revertir el motor de análisis a generación) para generar de ungran diccionario de raíces, todas las palabras posibles en español (deacuerdo a estas reglas) las cuales fueron almacenadas en un diccionario.

2. Se escribió un procedimiento eficiente de búsqueda y otros módulos espe-cíficos.

La implementación de MACO+ está basada en Unix-PERL. Esto lo hace más fácil-mente transportable y supera el primer defecto de la primera versión. Los datoslingüísticos se organizaron para generar todas las formas de palabras flexivas consus atributos morfológicos, sus lemas y todas las posibles interpretaciones.

Las palabras se consideran compuestas de una raíz y un sufijo flexivo. Cada raíz ysufijo es asignada a un modelo (paradigma) de flexión. Los diccionarios de raícesy sufijos tienen las estructuras formadas en las tablas 3 y 4:

El modelo de raíces AM se combina con el modelo de sufijos IPU (para construirformas como amo, amas, etc.). NEF con FE (para construir liebre, liebres, etc.) yasí sucesivamente.

Tabla 2. Organización del diccionario de raíces y sufijos en MACO+.

Page 50: INSTITUTO POLITÉCNICO NACIONALfranciscocastillo.com.mx/uploads/7/6/5/0/76507663/... · guajes con alternaciones irregulares de raíz (como por ejemplo, el español o ruso). En este

Los atributos morfológicos pueden ser asociados a las raíces, sufijos y modelos.Cuando un atributo es asociado a un modelo, es válido para todas las raíces o su-fijos que les pertenecen. Esto implica una generalización del comportamiento mor-fológico del lenguaje.

El análisis lingüístico se llevó a cabo siguiendo un criterio morfo-ortográfico ya quese analizan textos escritos: cada variante de una raíz se declara en el diccionariocon su correspondiente modelo. No se implementó la derivación del español.

El número total de modelos raíz para sustantivos y adjetivos es 29 y el número demodelos raíz para verbos es 6 para el primer paradigma en español (verbos coninfinitivo terminando en ‘ar’), 18 para el segundo (verbos terminados en ‘er’) y 21para el tercero (verbos terminados en ‘ir’). El número de reglas combinando mode-los de raíces y modelos de sufijos es de alrededor de 400. Las formas irregularesde los verbos ser, haber e ir se resolvieron una por una.

La arquitectura del analizador morfológico es un conducto modular de reconocedo-res especializados, como se muestra en la siguiente figura:

El primer bloque de módulos, etiquetado como Text Segmentation (segmentaciónde texto), lleva a cabo una segmentación apropiada del texto, etiquetando los mar-cadores de puntuación y uniendo grupos de palabras identificadas como una uni-dad léxica (ej. sustantivos propios o compuestos como “aparte de”, “sin embargo”),

Figura 9. Arquitectura de MACO+.

Page 51: INSTITUTO POLITÉCNICO NACIONALfranciscocastillo.com.mx/uploads/7/6/5/0/76507663/... · guajes con alternaciones irregulares de raíz (como por ejemplo, el español o ruso). En este

fechas o expresiones numéricas, etc. Tienen una colección de heurísticas específi-cas para identificar los siguientes elementos especiales:

Patrones de datos simples: ‘23/3/79’, ‘año 1983’, ’13 de diciembre’, ‘30 de juliode 1993’, ...

Abreviaturas: cm., Hz., Sr., ... Sustantivos propios: ‘María Elena’, ‘San Cristóbal de las Casas’, ‘Universidad

Veracruzana’, ... Palabras compuestas: ‘sin embargo’, ‘no obstante’, ... Números y expresiones numéricas: ’12,12’, ’11,000’, ‘1-3-1’, ‘334539’, ... Marcadores de puntuación.

Estos módulos usan un conjunto de archivos que contienen compilaciones deabreviaturas típicas, sustantivos propios (personales, geográficos, empresariales,etc.), palabras compuestas, puntuaciones, etc.

Los módulos pueden ser activados o desactivados para cada análisis particular y,obviamente, se pueden mejorar las heurísticas de cada módulo independiente-mente.

Todos los tokens no reconocidos por cualquiera de los módulos precedentes sonpasados al módulo Word Look-Up (búsqueda de palabra), el cual es el analizadorreal, que contiene los algoritmos más rápidos para la recuperación de informacióndel SWFD (diccionario de formas de palabras en español).

Finalmente, para las palabras no reconocidas se usa el módulo Suffixed Pronounspara identificar formas verbales con enclíticos.

Page 52: INSTITUTO POLITÉCNICO NACIONALfranciscocastillo.com.mx/uploads/7/6/5/0/76507663/... · guajes con alternaciones irregulares de raíz (como por ejemplo, el español o ruso). En este

Capítulo 4

Desarrollo de los ModelosMorfológicos Formales

para el Español

4.1 CONSIDERACIONES EN LA MORFOLOGÍA DEL ESPAÑOL

La morfología del español no es materia trivial. Como lenguaje flexivo, el es-pañol muestra una gran variedad de procesos morfológicos, particularmente los noconcatenativos. Algunos de los problemas que se presentan en un procesadormorfológico del español son:

1. Un paradigma verbal muy complejo. Para tiempos simples, hay alrededorde 61 formas flexivas, incluyendo el duplicado subjuntivo pasado imperfecto(12 formas). Si agregamos las 63 posibles formas para tiempos compues-tos, hay 124 formas flexivas posibles para cada verbo.

2. La frecuente irregularidad de temas y terminaciones verbales. Verbos muycomunes, como tener, poner, poder, hacer, etc., tienen hasta 7 temas: hac–er,hag–o, hic–e, ha–ré, hi–zo, haz, hech–o. Este ejemplo muestra modificacióninterna de vocales debido a diferentes morfemas que tienen la misma formaexterna: hag–o, hiz–o, hech–o. (la primer /-o/ es morfema de primera personasingular del presente indicativo, la segunda /-o/ es morfema de tercera per-sona singular de pretérito de indicativo y la tercer /-o/ es morfema de partici-pio pasado). Así como esos procesos no concatenativos, existen otros (muycomunes) tipos de variación interna, como se ilustra en el siguiente ejem-plo:

[e] [ie]: quer-er quier-o

3. Huecos en algunos paradigmas verbales. En los llamados verbos defectivosalgunas formas se pierden o simplemente no se usan. Por ejemplo, los ver-bos metereológicos como llover, nevar, etc., son conjugados sólo en tercerapersona del singular. Otros son más peculiares, como abolir que falla en pri-mera, segunda y tercera persona del singular y tercera del plural del pre-

Page 53: INSTITUTO POLITÉCNICO NACIONALfranciscocastillo.com.mx/uploads/7/6/5/0/76507663/... · guajes con alternaciones irregulares de raíz (como por ejemplo, el español o ruso). En este

sente de indicativo, en presente del subjuntivo y en la segunda persona delsingular de la forma imperativa. En otros verbos, los tiempos compuestosse excluyen del paradigma, como en soler.

4. Participios pasados duplicados. Una cantidad de verbos tienen dos formasalternativas, ambas correctas, como impreso, imprimido. En tales casos, elanálisis debe tratarlos.

5. Existen algunos verbos altamente irregulares que pueden ser manejadossólo al incluir muchas de sus formas directamente en el léxico (como ir, ser,etc.).

6. La flexión nominal puede ser de dos tipos: con género gramático (concate-nando el morfema de género al tema) y con género inherente (sin morfe-mas de género). La mayoría de los pronombres y cuantificadores pertene-cen a la primera clase, y los sustantivos y adjetivos pueden estar en cual-quiera de las dos clases, con una distribución diferente: 4% de los sustanti-vos tienen género gramatical y 92% tienen género inherente, mientras queel 70% de los adjetivos están en el primer grupo. Algunos sustantivos y ad-jetivos presentan formas alternativas correctas para el plural (ej. bambú bambús, bambúes).

7. Hay un pequeño grupo (3%) de sustantivos invariantes con la misma formapara el singular y el plural (ej. crisis). Por otro lado, 30% de los adjetivospresentan la misma forma para el masculino y el femenino (ej. azul). Existentambién los singularia tantum, donde solo se usa la forma singular, como enestrés; y los pluralia tantum, donde solo se usa la forma de plural, como enmatemáticas.

8. A diferencia de la morfología verbal, los procesos nominales no producencambios internos en el tema causado por la adición de un sufijo de género oplural, a pesar de que puede haber muchos alomorfos producidos por cam-bios de ortografía (luz, luc-es).

Todos estos fenómenos sugieren que el desarrollo de un modelo universal para lamorfología es demasiado laborioso. En vez de ello, tenemos aproximaciones másapropiadas para algunos procesos que otras [MORENO, 95]. El estudioso de lamorfología computacional debe decidir cuál es el más apropiado para un lenguajeen particular.

4.2 MORFOLOGÍA NO VERBAL

Para el estudio de la morfología no verbal del español conviene tener encuenta las diferentes categorías gramaticales y los accidentes o flexiones que pue-den sufrir cada una de ellas. Se consideran las siguientes categorías gramaticales:

Page 54: INSTITUTO POLITÉCNICO NACIONALfranciscocastillo.com.mx/uploads/7/6/5/0/76507663/... · guajes con alternaciones irregulares de raíz (como por ejemplo, el español o ruso). En este

sustantivos, adjetivos, pronombres, artículos, adverbios y otras formas que care-cen de flexión (preposiciones, conjunciones e intersecciones).

4.2.1 SUSTANTIVOS

La estructura interna del sustantivo consiste, en general, en la combinaciónde un signo léxico, expresado por la raíz, y unos signos morfológicos, accidentes omorfemas, que suelen ser expresados en la desinencia. La raíz es susceptible deformar parte de palabras de diferentes clases: por ejemplo, el significado de costarexpresado por la raíz cost puede aparecer en palabras que son verbos (costaba,costó), sustantivos (el coste, las costas) o adjetivos (costoso).

Por otra parte, el cotejo, por ejemplo, de el gato y la gata, el gato y los gatos, el gato ygato permite distinguir los accidentes o morfemas que caracterizan al sustantivo: elgénero y el número.

Todo sustantivo comparte un morfema de género. Por tradición, se distingue elmasculino y el femenino. El significado léxico del sustantivo exige uno de los dosgéneros, y, así, salvo en algún caso, el sustantivo es inmóvil en cuanto al género:o es masculino o femenino.

Mayoritariamente, la distinción entre masculino y femenino se reconoce en el sig-nificante por la oposición fonética de /o/ final y /a/ final (como en gato/gata, jarro/ja-rra) o de la ausencia o presencia /a/ final (león–leona, autor–autora). Sin embargo,no puede afirmarse que esas expresiones vocálicas estén forzosamente asocia-das a un género determinado. Así, a pesar de la /o/ final en mano, radio, dinamo,foto, hay género femenino, y, pese a la /a/ final, en día, clima, mapa, poeta, progra-ma, existe masculino.

Otras veces, el femenino se manifiesta incrementando o modificando la secuenciafónica del significante asociado con masculino. Así, en rey/reina, príncipe/princesa,actor/actriz; o mediante cambios más radicales, en padre/madre, yerno/nuera, caba-llo/yegua, toro/vaca.

Con mucha frecuencia la discriminación entre los géneros solo se produce graciasa las variaciones propias del artículo. Así sucede en los sustantivos llamados co-munes: el artista/la artista, el suicida/la suicida, el mártir/la mártir.

El sustantivo, en general, presenta variación de número, accidente que ofrece dosposibilidades: el singular y el plural. La oposición entre ambos números se atribuyea que el singular se refiere a la unidad de los objetos de una clase, y el plural de-nota varios objetos de una misma clase.

El significante de estas diferencias suele corresponderse con la presencia de /s/o /es/ finales en el plural: gato/gatos, león/leones. Pero la distinción de número semanifiesta a veces sólo gracias a las variaciones del artículo (u otros elementos de

Page 55: INSTITUTO POLITÉCNICO NACIONALfranciscocastillo.com.mx/uploads/7/6/5/0/76507663/... · guajes con alternaciones irregulares de raíz (como por ejemplo, el español o ruso). En este

la secuencia): tal sucede con los sustantivos cuyo significante es polisílabo acaba-do en /s/ precedida de vocal átona: la crisis/las crisis, el atlas/los atlas, la tesis/las te-sis, el jueves/los jueves, el virus/los virus. Hay que añadir algunos cultismos como tó-rax, bíceps, fórceps, que suelen pronunciarse /tóras, bízes, fórzes/, también invaria-bles en plural. El empleo de los dos significantes /s/ y /es/ del plural está condicio-nado por la secuencia fónica: cuando el significante del singular acaba en fonemaconsonántico (excepto los casos de /s/ recién mencionados), el plural adopta laterminación /es/; así, en abad/abades, matiz/matices, ratón/ratones, cárcel/cárceles, re-loj/relojes; cuando el significante del singular termina en vocal átona, el plural agre-ga /s/: así, en lana/lanas, ave/aves, mapamundi/mapamundis, ópalo/ópalos, espíritu/es-píritus.

4.2.2 ADJETIVOS

El sustantivo va acompañado a veces de otra palabra y forman ambos ungrupo unitario que desempeña en el enunciado la misma función que podría aquelcumplir aislado: en El barrio viejo conserva faroles de traza antigua, el segmento ba-rrio viejo funciona como sujeto explícito, igual que lo haría el simple sustantivo elbarrio; la palabra viejo agregada delimita, con su particular referencia, la designa-ción que efectúa el sustantivo. Estas palabras que funcionan como adyacentes delsustantivo se llaman adjetivos.

En el adjetivo se combina un signo de referencia léxica con ciertos signos gramati-cales. Si se cotejan los adjetivos inquieto, inquieta, inquietos, inquietas, se observan,tanto por su contenido como por su expresión, diferencias análogas a las que serevelan en los sustantivos (como en perro, perra, perros, perras). Se pueden enton-ces adscribir tales diferencias a los morfemas de género y número, es decir, lasoposiciones masculino/femenino y singular/plural. Sin embargo, no coincide su va-lor referencial en el sustantivo y adjetivo. Con el sustantivo, el género y el númeromodifican la referencia: perro designa a un animal macho, perra uno hembra, pe-rros y perras un determinado conjunto de esos animales. En cambio, con el adjeti-vo, tales morfemas no modifican su propia referencia real: inquieto, inquieta, inquie-tos, inquietas designan siempre una misma cualidad; las variaciones de género ynúmero que presentan son simple repercusión (por la llamada concordancia) delos morfemas que afectan al sustantivo con que se pone en relación el adjetivo (elperro inquieto, la perra inquieta, los perros inquietos, las perras inquietas). Esto de-muestra que los morfemas del adjetivo no añaden ninguna información nueva yque son meros índices funcionales de la relación que el adjetivo contrae con elsustantivo.

Muchos adjetivos distinguen la variación de género con la oposición /o/–/a/ finalesen su significante: bueno–buena, alto–alta, amarillo–amarilla, sabroso–sabrosa, etc.Otras veces, el masculino carece de característica propia en su significante, y solose distingue del femenino porque el de este sigue provisto de /a/ final: francés–

Page 56: INSTITUTO POLITÉCNICO NACIONALfranciscocastillo.com.mx/uploads/7/6/5/0/76507663/... · guajes con alternaciones irregulares de raíz (como por ejemplo, el español o ruso). En este

francesa, español–española, emisor–emisora, creador–creadora, etc. En algunos ca-sos, si el significante del masculino acaba en /e/, esta vocal se sustituye por /a/ enel del femenino: regordete–regordeta, grandote–grandota, vejete–vejeta.

Gran cantidad de adjetivos carecen de esta variación genérica: el tapiz verde, la al-fombra verde; Juan es cortés, María es cortés; ademán homicida, mirada homicida. Y asíotros más: marroquí, israelí; latente, imposible, firme, torpe; feliz, fácil, sutil, joven, ára-be, etc.

El adjetivo coincide con el sustantivo en la formación del significante del plural: seagrega al singular la terminación /s/ después de vocal átona y /es/ después de vo-cal tónica o de consonante: blanco–blancos, blanca–blancas, fiel–fieles, ganador–ga-nadores, holgazán–holgazanes, etc. Es raro que el adjetivo sea indiferente al número.Por ejemplo, isósceles, que es compatible con singular y plural (un triángulo isósce-les, los triángulos isósceles).

No está de más recordar cuáles son las reglas morfológicas que rigen estos proce-sos formantes de género, pues de esta manera se entenderá mejor la formaliza-ción a la que se quiere llegar.

4.2.3 LA FORMACIÓN DEL FEMENINO EN SUSTANTIVOS Y ADJETIVOS

Son de uso genérico las siguientes reglas básicas:

1. Para los sustantivos:Los terminados en o cambian la o por la a.

gato gataLos terminados en consonante añaden una a.

consultor consultoraLos terminados en e permanecen invariables,

el comerciante la comercianteaunque en ocasiones cambian la e por la a.

franchute franchuta ...Los terminados en a permanecen invariables,

el guionista la guionistasalvo excepciones

poeta poetisa ...

2. Para los adjetivos:Los gentilicios que acaban en consonante añaden una a.

andaluz andaluzaLos que acaban en o, ote o ete cambian la vocal final por la a.

malo malagrandote grandotavejete vejeta

Page 57: INSTITUTO POLITÉCNICO NACIONALfranciscocastillo.com.mx/uploads/7/6/5/0/76507663/... · guajes con alternaciones irregulares de raíz (como por ejemplo, el español o ruso). En este

Los que acaban en an, on u or añaden una a.haragán haraganaagresor agresora

salvo los comparativos latinos: exterior, inferior, menor, ...Los restantes permanecen invariables,

amable, azul, decente, verde, ...

Además de las implícitas en las reglas anteriores existen otras excepcionalidadesque se pueden concretar en:

3. Excepciones a la formación del femenino:Muchos sustantivos son sólo masculinos.

libro, objeto, ...Muchos sustantivos son solo femeninos.

casa, legaña, ...Hay sustantivos femeninos que acaban en o.

la dinamo, la mano, la radio, ...Hay sustantivos masculinos que terminan en a.

el califa, el fonograma, ...Hay sustantivos de género común y adjetivos de una terminación, cuya morfologíano cambia al usarlos en masculino o en femenino.

el cónyuge la cónyugeel mártir la mártirel testigo la testigoel tratable la tratable

Hay sustantivos de género ambiguo (aunque el uso va reduciéndolos o dándolesuna nueva distribución, se crean otros casos por analogía, ignorancia, etc.), nor-malmente pueden ser usados en ambos géneros.

el mar / la marel pus / la pus

En casos especiales pueden aparecer otras terminaciones como esa, isa, ina, iza otriz.

conde condesasacerdote sacerdotisahéroe heroínaróbalo robalizaemperador emperatrizbisector bisectriz ...

Algunos sustantivos tienen dos formas para el femenino.actor actriz / actoradiablo diabla / diablesagenerador generadora / generatrizjuez juez / jueza

Page 58: INSTITUTO POLITÉCNICO NACIONALfranciscocastillo.com.mx/uploads/7/6/5/0/76507663/... · guajes con alternaciones irregulares de raíz (como por ejemplo, el español o ruso). En este

tigre tigra / tigresaAlgunos sustantivos poseen heteronimia por cambio de sexo, cambian la forma dela palabra y no sólo su desinencia.

toro vacacarnero oveja ...

Por lo tanto, el sustantivo solo manifiesta explícitamente el género que comportacuando está acompañado del artículo. De lo contrario, las señales que permiten laadscripción de uno u otro género a un sustantivo consisten en hechos sintácticoscomo la concordancia: por ejemplo, en muro blanco y en pared blanca, son las va-riaciones del adjetivo las que permiten asignar masculino a muro y femenino a pa-red; o en el agua no la ha probado, es la forma la femenina la que adscribe esegénero al sustantivo agua.

4.2.4 OTRAS CATEGORÍAS GRAMATICALES

En los pronombres y artículos se consideran las desinencias flexivas degénero (masculino, femenino y neutro) y de número (singular y plural).

Un adverbio es una clase de palabras invariables en su significante y a menudoindescomponibles en signos menores, destinadas en principio a cumplir el papelde adyacente circunstancial del verbo. Los adverbios que mayor interés suponenson los caracterizados por su terminación en –mente: provienen de un adjetivo, ori-ginariamente son de modo y no tienen flexión con respecto al género ni al número.

Las preposiciones, conjunciones, locuciones e interjecciones se tratan comoinvariantes, no admiten flexión ni derivación.

4.3 MORFOLOGÍA VERBAL

Por sus características formales, el verbo es aquella parte de la oración quecontiene morfemas flexivos de número, persona, tiempo y modo. Suele aplicarsela denominación de desinencias a los morfemas de número y persona, y la de ca-racterísticas a los de modo y tiempo. Si se suprime de una forma verbal su desi-nencia y característica, queda el lexema, raíz o radical del verbo. La unión de laraíz con la característica se denomina tema modal o temporal. En am–á–ba–mos ladesinencia es –mos (en este caso, primera persona del plural). La agrupación de laraíz am– con la característica –a– de presente de indicativo constituye el tema depresente de indicativo amá–. La agrupación de este tema con la característica –ba–del imperfecto de indicativo constituye el tema de imperfecto de indicativo amába–.La raíz puede ser simple, como en am–ábamos; derivada, como en lloriqué–abamos;compuesta, como en salpiment–ábamos; parasintética (derivada y compuesta a lavez), como en pordiose–ábamos. La serie entera de las formas verbales con unaraíz común, es decir, todas las formas de un verbo determinado, constituyen la fle-xión o conjugación de ese verbo. Dentro de ella se incluyen también, por lo me-

Page 59: INSTITUTO POLITÉCNICO NACIONALfranciscocastillo.com.mx/uploads/7/6/5/0/76507663/... · guajes con alternaciones irregulares de raíz (como por ejemplo, el español o ruso). En este

nos, tres formas privadas de desinencias verbales de número y persona: el infiniti-vo, el participio y el gerundio.

Todos los verbos poseen unas mismas categorías de morfemas flexivos. Su forma,sin embargo, varía más o menos sensiblemente en algunos casos de unos verbosa otros. Se exceptúan las desinencias, que son comunes a todos los verbos. Dealgunas características existen dos o tres variedades: doble variedad, por ejemplo,en am–ába–mos frente a corr–ía–mos y part–ía–mos; triple en am–a–mos, corr–e–mos,part–i–mos. Esta triple variación, que con rigurosa simetría aparece en algún otromorfema modal y temporal: am–a–d, corr–e–d, part–i–d, permite clasificar todos losverbos españoles en tres tipos: los de la primera, segunda y tercera conjugación,llamadas también conjugación en –ar, –er, –ir por el hecho de que esa triple varia-ción se repite de manera simétrica en los infinitivos correspondientes: am–ar, corr–er, part–ir.

Cualquier forma verbal se construye básicamente con una raíz y una terminación(constituida por los morfemas).

Las formas verbales constan de un lexema o raíz que encierra el significado léxicodel verbo y de formantes constitutivos, desinencias o morfemas que aportan la in-formación gramatical varía número, persona, tiempo, modo y aspecto. Entre ellexema y los formantes constitutivos se sitúa la vocal temática que informa sobrela conjugación a la que pertenece el verbo y que aparece sin alteración en el infini-tivo.

Presenta formas simples, que constan de una sola palabra: canto, temía, partiré;formas compuestas constituidas por dos o más palabras y que son los llamadostiempos compuestos: he cantado, hubiera temido, habrá partido y además perífrasisverbales: tengo que cantar, volvió a temer, voy a partir. Admite las categorías grama-ticales de tiempo, aspecto, modo y voz, además de las de persona, que compar-te con los pronombres personales y posesivos, y la de número que se da tambiénen el sustantivo y el adjetivo. Carece de género, excepto el participio.

4.3.1 CLASES DE VERBOS

Desde un punto de vista formal los verbos pueden ser regulares, irregularesy defectivos. Según criterios morfosintácticos, los verbos se clasifican en verbosauxiliares, plenos, copulativos, predicativos, transitivos, intransitivos, pronomina-les, regulares, irregulares y defectivos, y según su significado léxico en verbosperfectivos e imperfectivos, incoativos, frecuentativos e iterativos.

4.3.1.1 Verbos Regulares e Irregulares

Los verbos regulares son los verbos que en las distintas formas que puedenadoptar en su conjugación se ajustan siempre a las formas del verbo que se toma

Page 60: INSTITUTO POLITÉCNICO NACIONALfranciscocastillo.com.mx/uploads/7/6/5/0/76507663/... · guajes con alternaciones irregulares de raíz (como por ejemplo, el español o ruso). En este

como modelo en la conjugación a la que pertenece: saltar, partir, amar.

Los verbos irregulares son aquellos que no siguen los modelos clásicos de laconjugación, ya que presentan alteraciones en la raíz o en el lexema: cuelo de co-lar, debía ser *colo; en el morfema o terminación: anduve, de andar, debería ser*andé, o en ambas partes a la vez: puso, de poner, debería ser *ponió. Las irregula-ridades de las formas verbales están motivadas por transformaciones fonéticasque han sufrido estas formas a lo largo de la historia de la lengua, y que han llega-do a soluciones múltiples, por lo que no es fácil agrupar las irregularidades de losverbos españoles ni reducirlas a reglas fijas. Para efectos de este trabajo de inves-tigación se ha clasificado a los verbos irregulares en totales y parciales.

Los verbos irregulares totales (o solo irregulares) son los que cambian total-mente de forma en su conjugación. Dentro de esta clasificación, sólo tenemos 9verbos:

ser, estar, haber, tener, ir, saber, dar, decir, andar

La particularidad de ellos es que tienen más de cinco raíces posibles diferentes(obsérvese la diversidad de variantes para el verbo ser). No se puede establecercon claridad un modelo para ellos; se tratan directamente, es decir, todas las va-riantes posibles están dentro del léxico (diccionario). Así, el proceso de generacióno análisis consiste en solo consultar tal léxico.

Los verbos irregulares parciales (semi-irregulares) cambian sólo en parte, enlas distintas formas que presentan en su conjugación; son todos los verbos irregu-lares que no son totales, como por ejemplo buscar, acertar, zurcir.

4.3.1.2 Verbos Defectivos

Los verbos defectivos no son verbos irregulares desde el punto de vista formal,sino que carecen de algún tiempo o persona; unas veces, por su especial signifi -cado, y otras, por dificultades de pronunciación. Así, son defectivos los verbos im-personales que, por su significación de fenómenos atmosféricos o de naturalezasólo se utilizan en tercera persona de singular: amanecer, anochecer, llover, nevar,tronar, granizar. Hay otros verbos defectivos de uso frecuente: balbucir, balbucí;agredir, agredió; abolir, abolió; transgredir, transgredió; atañer, atañe; concernir, con-cierne; soler, suele, solía, solió.

4.3.1.3 Verbos Auxiliares

Los verbos auxiliares son los que han perdido o debilitado su significado ver-bal, y se utilizan para la conjugación de otros verbos como haber, que se utilizapara la formación de los tiempos compuestos: he comido, y ser, que se usa para laconjugación en voz pasiva: él era admirado. Otros se emplean en combinaciones

Page 61: INSTITUTO POLITÉCNICO NACIONALfranciscocastillo.com.mx/uploads/7/6/5/0/76507663/... · guajes con alternaciones irregulares de raíz (como por ejemplo, el español o ruso). En este

con formas no personales del verbo de significado pleno y forma una perífrasisverbal o frase verbal que pueden ser aspectuales: está durmiendo, volvió a hablar.

4.3.2 ESTUDIO INICIAL DE LA MORFOLOGÍA VERBAL IRREGULAR

Para el tratamiento automatizado de la conjugación no conviene olvidar quela mayor parte de los verbos son regulares y mantienen la raíz invariable en suconjugación (si se exceptúa la posición del acento de intensidad). Los verbos irre-gulares presentan variaciones en sus raíces (vocálicas, consonánticas o mixtas),además de otros tipos de anomalías.

La irregularidad vocálica consiste en el cambio de una vocal por otra u otras:

e por i concebir conciboo por ue colgar cuelgo

La irregularidad consonántica tiene lugar si se reemplaza una consonante porotra:

c por qu delante de e caber quepo

o se añade una consonante a la consonante final de la raíz del infinitivo:

añadir z conocer conozco

La irregularidad mixta aparece cuando se sustituyen una vocal y una consonantepor otra vocal y otra consonante:

ab por ep saber sepa

o en la adición del grupo ig a la última vocal de la raíz:

añadir ig caer caigo

Existen irregularidades que afectan al tema (di de decir, haz de hacer, doy de dar,voy de ir, etc.) y otras de más difícil sistematización:

- contracciones: ver ves en vez de *vees.- verbos con más de una raíz: ser fueron, era.- participios y gerundios irregulares: escribir escrito, dormir durmiendo.

Algunos autores no consideran propiamente irregularidades los simples cambiosortográficos (en este trabajo sí se consideran así):

g por gu delante de e o i sigo siguequ por e delante de a u o delinquir delinca

En estos casos no ha variado el fonema, sino el carácter que lo representa. Otras

Page 62: INSTITUTO POLITÉCNICO NACIONALfranciscocastillo.com.mx/uploads/7/6/5/0/76507663/... · guajes con alternaciones irregulares de raíz (como por ejemplo, el español o ruso). En este

aparentes anomalías obedecen a principios generales del sistema fonológico es-pañol y también las consideraremos irregularidades (leyendo de leer).

4.3.2.1 Grupos de Tiempos Irregulares

La irregularidad afecta siempre a más de un tiempo. Son tres los grupos de tiem-pos que comparten la misma irregularidad:

- Si es irregular el presente de indicativo, también lo son los otros presentes.

- Si es irregular el pretérito indefinido, poseen la misma irregularidad el preté-rito imperfecto del subjuntivo y el futuro imperfecto de subjuntivo.

- Si es irregular el futuro imperfecto de indicativo, tiene la misma irregularidadel condicional simple.

El pretérito imperfecto de indicativo carece de irregularidades, salvo raras excep-ciones que se reducen casi exclusivamente a los imperfectos heredados del latínera e iba, de los verbos de raíz múltiple ser e ir.

Los tiempos compuestos y la voz pasiva no presentan más irregularidades que lasde los auxiliares haber y ser y la de algunos participios como escrito, impreso, etc.

4.4 DESCRIPCIÓN DE LOS MODELOS FORMALES PARA VERBOS

La flexión comprende tres modos verbales: indicativo, subjuntivo e imperati-vo. El indicativo comprende cinco tiempos simples: presente, pretérito imperfecto,pretérito indefinido, futuro simple y condicional simple. El subjuntivo, tres tiempossimples: presente, pretérito imperfecto, futuro simple. El imperativo, uno solo: pre-sente. Con cada uno de los tiempos simples, a excepción del imperativo, se co-rresponde uno compuesto (que no tratará el sistema). Finalmente, en la flexión seincluyen tres formas desprovistas de morfemas verbales de número y persona, lla-madas infinitas o no personales: infinitivo, participio y gerundio, que pueden sertambién simples y compuestas.

Como se había mencionado, se distinguen tres tipos de verbos: regulares, semi-irregulares e irregulares. Los verbos regulares son aquellos en los que su conjuga-ción no alteran su raíz, en ninguna persona, en ningún tiempo. Sólo hay tres mo-delos para los verbos regulares: los terminados en —ar, —er e —ir. Las tablas 4, 5y 6 muestran los modelos para los verbos regulares (cantar, correr, subir).

De los tres grupos en que pueden clasificarse los verbos españoles según la con-jugación a que pertenecen, el primero es con mucha diferencia el más numeroso.Es también el más estable y productivo. Todos los verbos creados en español porderivación directa se acomodan a la primera conjugación. La derivación con sufijos

Page 63: INSTITUTO POLITÉCNICO NACIONALfranciscocastillo.com.mx/uploads/7/6/5/0/76507663/... · guajes con alternaciones irregulares de raíz (como por ejemplo, el español o ruso). En este

verbales da también formaciones en —ar: —ear, —ficar, —izar, —ntar, y casi todoslos compuestos nuevos siguen también la primera conjugación.

VERBOS -AR -ER -IR

Regulares 9,653

87.75%

65

0.6%

225

2%

Irregulares 333

3%

441

4%

303

2.75%

Tabla 3. El verbo español en cifras.

Los verbos en cuya conjugación el constituyente radical permanece invariable, esdecir, donde los segmentos de raíz, con acento o sin él, no varían, se consideranregulares y tradicionalmente se vienen clasificando en tres grupos, clases de ver-bos o conjugaciones: los llamados de la primera conjugación, de infinitivo en ar(como cantar), los de la segunda, de infinitivo acabado en er (como correr), y los dela tercera, de infinitivo en ir (como partir).

En cuanto al uso de los tiempos, tenemos que el presente de indicativo es una delas formas más abiertas y flexibles por el número de situaciones en que puede em-plearse. Puede tener un valor durativo (vivo en Salamanca), habitual (me levanto a lasocho), atemporal (por la boca muere el pez), histórico (ayer casi me caigo al río), futuro(esta tarde voy al cine) y de mandato (¡ahora mismo lo haces!). El pretérito perfectoexpresa una acción realizada en un periodo de tiempo que todavía no ha termina-do para el hablante (esta mañana me he levantado a la ocho; he visto esa película tresveces; acabo de ver a María). El pretérito indefinido expresa una acción, la cual, ob-servada desde el presente se ve terminada, frente al pretérito imperfecto que ex-presa una acción en pleno desarrollo. Además, existen los tiempos de futuro ycondicional simple (cabe recordar el hecho de que en este trabajo no se trataránlos tiempos compuestos).

En el subjuntivo hay menos tiempos que en el indicativo, además hay que tener encuenta que los futuros han desaparecido de la lengua hablada, ello hace que cadatiempo de subjuntivo tenga más valores temporales al tener que expresar lo mis-mo que el indicativo.

Las siguientes tablas muestran las conjugaciones principales en el sistema verbaldel español. Las tablas 4, 5 y 6 representan los paradigmas verbales regulares: lasterminaciones –ar (cantar), –er (correr), –ir (partir). También una conjugación ver-bal completamente irregular (tabla 7) y la de dos semi-irregulares (tablas 8 y 9).

Page 64: INSTITUTO POLITÉCNICO NACIONALfranciscocastillo.com.mx/uploads/7/6/5/0/76507663/... · guajes con alternaciones irregulares de raíz (como por ejemplo, el español o ruso). En este

PERSONA

TIEMPO 1S 2S 3S 1P 2P 3P

MO

DO

IND

ICA

TIV

O

presente cant-o cant-as cant-a cant-amos cant-áis cant-an

pretérito imperfecto cant-aba cant-abas cant-aba cant-ábamos cant-abais cant-aban

pretérito indefinido cant-é cant-aste cant-ó cant-amos cant-asteis cant-aron

futuro simple cantar-é cantar-ás cantar-é cantar-emos cantar-éis cantar-án

condicional simple cantar-ía cantar-ías cantar-ía cantar-íamos cantar-íais cantar-ían

SU

BJU

NT

IVO presente cant-e cant-es cant-e cant-emos cant-éis cant-en

pretérito imperfectocant-ara

cant-ase

cant-aras

cant-ases

cant-ara

cant-ase

cant-áramos

cant-ásemos

cant-arais

cant-aseis

cant-aran

cant-asen

futuro simple cant-are cant-ares cant-are cant-áremos cant-areis cant-aren

IMP

presente cant-a cant-ad cant-en cant-e (usted)

NO

PE

RS

ON

AL

infinitivo cant-ar

gerundio cant-ando

participio cant-ado

Tabla 4. Modelo de conjugación regular con terminación –ar.

Page 65: INSTITUTO POLITÉCNICO NACIONALfranciscocastillo.com.mx/uploads/7/6/5/0/76507663/... · guajes con alternaciones irregulares de raíz (como por ejemplo, el español o ruso). En este

PERSONA

TIEMPO 1S 2S 3S 1P 2P 3P

MO

DO

IND

ICA

TIV

O

presente corr-o corr-es corr-e corr-emos corr-éis corr-en

pretérito imperfecto corr-ía corr-ías corr-ía corr-íamos corr-íais corr-ían

pretérito indefinido corr-í corr-iste corr-ió corr-imos corr-isteis corr-ieron

futuro simple correr-é correr-ás correr-é correr-emos correr-éis correr-án

condicional simple correr-ía correr-ías correr-ía correr-íamos correr-íais correr-ían

SU

BJU

NT

IVO presente corr-a corr-as corr-a corr-amos corr-áis corr-an

pretérito imperfectocorr-iera

corr-iese

corr-ieras

corr-ieses

corr-iera

corr-iese

corr-iéramos

corr-iésemos

corr-ierais

corr-ieseis

corr-ieran

corr-iesen

futuro simple corr-iere corr-ieres corr-iere corr-iéremos corr-iereis corr-ieren

IMP

presente corr-e corr-ed corr-an corr-a (usted)

NO

PE

RS

ON

AL infinitivo corr-er

gerundio corr-iendo

participio corr-ido

PERSONA

Tabla 5. Modelo de conjugación regular con terminación –er.

Page 66: INSTITUTO POLITÉCNICO NACIONALfranciscocastillo.com.mx/uploads/7/6/5/0/76507663/... · guajes con alternaciones irregulares de raíz (como por ejemplo, el español o ruso). En este

TIEMPO 1S 2S 3S 1P 2P 3PM

OD

O

IND

ICA

TIV

Opresente part-o part-es part-e part-imos part-ís part-en

pretérito imperfecto part-ía part-ías part-ía part-íamos part-íais part-ían

pretérito indefinido part-í part-iste part-ió part-imos part-isteis part-ieron

futuro simple part-iré part-irás part-iré part-iremos part-iréis part-irán

condicional simple part-iría part-irías part-iría part-iríamos part-iríais part-irían

SU

BJU

NT

IVO presente part-a part-as part-a part-amos part-áis part-an

pretérito imperfectopart-iera

part-iese

part-ieras

part-ieses

part-iera

part-iese

part-iéramos

part-iésemos

part-ierais

part-ieseis

part-ieran

part-iesen

futuro simple part-iere part-ieres part-iere part-iéremos part-iereis part-ieren

IMP

presente part-e part-id part-an part-a (usted)

NO

PE

RS

ON

AL infinitivo part-ir

gerundio part-iendo

participio part-ido

Tabla 6. de conjugación regular con terminación –ir.

Page 67: INSTITUTO POLITÉCNICO NACIONALfranciscocastillo.com.mx/uploads/7/6/5/0/76507663/... · guajes con alternaciones irregulares de raíz (como por ejemplo, el español o ruso). En este

PERSONA

TIEMPO 1S 2S 3S 1P 2P 3P

MO

DO

IND

ICA

TIV

O

presente soy eres es somos sois son

pretérito imperfecto era eras era éramos erais eran

pretérito indefinido fui fuiste fue fuimos fuisteis fueron

futuro simple ser-é ser-ás ser-á ser-emos ser-éis ser-án

condicional simple ser-ía ser-ías ser-ía ser-íamos ser-íais ser-ían

SU

BJU

NT

IVO presente sea seas sea seamos seáis sean

pretérito imperfectofuera

fuese

fueras

fueses

fuera

fuese

fuéramos

fuésemos

fuerais

fueseis

fueran

fuesen

futuro simple fuere fueres fuere fuéremos fuereis fueren

IMP

presente sé sed sean sea (usted)

NO

PE

RS

ON

AL infinitivo ser

gerundio siendo

participio sido

PERSONA

Tabla 7. Modelo de conjugación completamente irregular

I Raíz original (crec-).II Segunda raíz posible (crezc-).

Page 68: INSTITUTO POLITÉCNICO NACIONALfranciscocastillo.com.mx/uploads/7/6/5/0/76507663/... · guajes con alternaciones irregulares de raíz (como por ejemplo, el español o ruso). En este

TIEMPO 1S 2S 3S 1P 2P 3PM

OD

O

IND

ICA

TIV

Opresente II I I I I I

pretérito imperfecto II II II II II II

pretérito indefinido I I I I I I

futuro simple I I I I I I

condicional simple I I I I I I

SU

BJU

NT

IVO presente I I I I I I

pretérito imperfecto I I I I I I

futuro simple I I I I I I

IMP

presente I I II II (usted)

NO

PE

RS

ON

AL infinitivo I

gerundio I

participio I

PERSONA

TIEMPO 1S 2S 3S 1P 2P 3P

presente II II II I I II

Tabla 8 Modelo de conjugación semi-irregular (crecer).

Page 69: INSTITUTO POLITÉCNICO NACIONALfranciscocastillo.com.mx/uploads/7/6/5/0/76507663/... · guajes con alternaciones irregulares de raíz (como por ejemplo, el español o ruso). En este

MO

DO

IND

ICA

TIV

O

pretérito imperfecto II II II I I II

pretérito indefinido I I I I I I

futuro simple I I I I I I

condicional simple I I I I I I

SU

BJU

NT

IVO presente I I I I I I

pretérito imperfecto I I I I I I

futuro simple I I I I I I

IMP

presente II I II II (usted)

NO

PE

RS

ON

AL infinitivo I

gerundio I

participio I

Tabla 9. Modelo A2 de conjugación semi-irregular (contar).

Page 70: INSTITUTO POLITÉCNICO NACIONALfranciscocastillo.com.mx/uploads/7/6/5/0/76507663/... · guajes con alternaciones irregulares de raíz (como por ejemplo, el español o ruso). En este

En el siguiente capítulo se mencionan todos los modelos para verbos semi-irregu-lares, además de cómo se realizó un mapeo con los modelos que implementa eldiccionario del cual se obtuvieron los lemas para este trabajo.

Aún con los modelos arriba mencionados, existen algunos verbos que presentanuna pequeña variación una vez clasificados dentro de alguno de ellos. Por ejem-plo, el verbo destruir formalmente pertenece al modelo A4 (ver tabla 12, página84), pero en 3S de pretérito indefinido de indicativo el sufijo añadido cambia de o aó. Estos problemas se solucionan aplicando un conjunto de reglas pre-estableci-das.

62

Page 71: INSTITUTO POLITÉCNICO NACIONALfranciscocastillo.com.mx/uploads/7/6/5/0/76507663/... · guajes con alternaciones irregulares de raíz (como por ejemplo, el español o ruso). En este

Capítulo 5

Desarrollo de los Algoritmosde Análisis y Generación

En el español, los procesos flexivos ocurren principalmente en los nombres(sustantivos y adjetivos) y verbos. Las demás partes de oración (adverbios, con-junciones, preposiciones, etc.), presentan poca o nula alteración flexiva. El trata-miento de estas últimas se realiza mediante la consulta directa al diccionario.

5.1 MORFOLOGÍA NOMINAL

La variedad de designaciones a que aluden los dos géneros y la arbitrariedaden muchos casos de la asignación de masculino o femenino a los significados delos sustantivos impiden determinar con exactitud lo que significa realmente el gé-nero. Es preferible considerarlo como un accidente que clasifica los sustantivos endos categorías combinatorias diferentes, sin que los términos masculino o femen-ino prejuzguen ningún tipo de sentido concreto [LLORACH, 00].

No existen reglas estándar para la flexión de género en sustantivos y adjetivos. Ennuestro contexto, se almacenan todas las formas de sustantivos singulares en eldiccionario (gato y gata). El tratamiento de la flexión de número puede ser modela-do mediante un conjunto de reglas. Por ejemplo, las formas nominales terminadasen consonante que no sea /s/, agregan –es en su pluralización (ej., árbol, árboles).Por otra parte, los nombres acabados en vocal –á, –í, –ó, –ú tienden a presentar undoble plural en –s y –es (esquí, esquís; tabú, tabúes), aunque algunos de ellos soloadmiten –s (mamás, dominós, papás, etc.). Esta información se representa a travésde las marcas en el diccionario.

5.2 MORFOLOGÍA VERBAL

Clasificamos a los verbos en regulares (no presentan variación de raíz, como can-tar), semi-irregulares (no más de cuatro alomorfos de raíces, como buscar) e irre-gulares (más de tres variantes de raíz, como ser, estar).

Afortunadamente, la mayoría de los verbos en español (85%) son regulares. Paraestos, fueron usados los tres modelos de conjugación tradicionales (representa-

63

Page 72: INSTITUTO POLITÉCNICO NACIONALfranciscocastillo.com.mx/uploads/7/6/5/0/76507663/... · guajes con alternaciones irregulares de raíz (como por ejemplo, el español o ruso). En este

dos, por ejemplo, con los verbos cantar, correr y partir).

Se usó una plantilla (cadena numérica) para cada modelo de conjugación semi-irregular. Cada posición representa una conjugación posible (por ejemplo, la pri-mera posición representa la primera persona del singular del presente de indicati -vo); las últimas posiciones hacen referencia a las formas no personales. Los nú-meros usados en la plantilla van del 0 al 4, en donde 0 indica que no hay formaposible; 1 es la raíz original; 2, 3 y 4 son las demás raíces posibles. Por ejemplo,para el modelo A1 se tiene la siguiente plantilla:

Esta estructura nos facilita el proceso de generación de formas verbales. Hay quehacer notar que son 61 posibles formas, ya que no se tomaron en cuenta las for-mas verbales compuestas (haber buscado) porque se procesan por separado.

Se usaron 11 modelos de conjugación verbal diferentes para verbos semi- irregu-lares. Cada modelo tiene su tipo de alternación y su plantilla de raíces. Por ejem-plo, en el modelo A1 se encuentra el verbo buscar (entre otros). Tiene dos raícesposibles (busc–, busqu–). La segunda se usa para todas las personas del presentede subjuntivo, primera persona del singular del pretérito indefinido de indicativo yen algunos casos del imperativo; la primera (raíz original) se usa en todos los de-más modos y personas.

Al ser mínimo el número de verbos completamente irregulares (como ser, estar, ha-ber), su tratamiento consistió en almacenar todas las formas posibles en el diccio-nario. El proceso de análisis para estas palabras consiste en consultar tal diccio-nario y obtener el campo de información. El proceso de generación consiste enbuscar tal palabra en el diccionario, obtener todas sus variantes y desplegar elcampo de la información.

Necesitamos de la preparación preliminar de datos que consistió de los siguientespasos principales:

5.3 PROCESO DE GENERACIÓN

El proceso de generación se desarrolla de la siguiente manera. Tiene como su en-trada los valores gramaticales de la forma deseada y la cadena que identifique lapalabra (la raíz —cualquiera de las posibles raíces— o el lema).

Se extrae la información necesaria del diccionario;

Ilustración 3. Plantilla de Conjugación para el Modelo Verbal <A2>

64

1111111111112111111111111111112222221111111111111111111122111

Page 73: INSTITUTO POLITÉCNICO NACIONALfranciscocastillo.com.mx/uploads/7/6/5/0/76507663/... · guajes con alternaciones irregulares de raíz (como por ejemplo, el español o ruso). En este

Se escoge el número de la raíz necesaria según las plantillas; Se genera la raíz necesaria; Se elige la flexión correcta según el algoritmo desarrollado (el algoritmo es bastante

simple y obvio) y La flexión se concatena con la raíz.

5.4 PROCESO DE ANÁLISIS

El modelo general de análisis morfológico mostrado en la Fig. 1 e implemen-tado en nuestra aplicación, es simple: dependiendo de la forma de palabra de en-trada, se formula alguna hipótesis dependiendo de la información del diccionario yotros criterios y se generan las formas correspondiente para tal(es) hipótesis. Lasformas generadas según las hipótesis se comparan con la original (la de entrada).En caso de coincidencia las hipótesis se consideran correctas.

Más detalladamente, dada una cadena de letras (forma de palabra), la analizamosde la siguiente manera:

1. Quitar letra por letra (también siempre se verifica la hipótesis de la flexión ).2. Verificar si existe flexión.3. Si existe flexión entonces

Leer del diccionario y llenar la estructura de datos correspondiente.4. Otro

Regresar al paso 1.

Figura 10 Proceso de análisis morfológico

65

Page 74: INSTITUTO POLITÉCNICO NACIONALfranciscocastillo.com.mx/uploads/7/6/5/0/76507663/... · guajes con alternaciones irregulares de raíz (como por ejemplo, el español o ruso). En este

5. Formular hipótesis.6. Generar la correspondiente forma gramatical de acuerdo a nuestra hipótesis y la infor-

mación del diccionario.7. Si el resultado obtenido coincide con la forma de entrada entonces la hipótesis es

aceptada. De otra forma, el proceso se repite desde el paso 3 con otra raíz homónima(si la hay) o desde el paso 1con otra hipótesis sobre la flexión.

Hay que hacer notar que es importante generar porque sino algunas formas inco-rrectas se aceptarían por el sistema, por ejemplo, *acuerdamos (en lugar de acorda-mos). En este caso existe la flexión y existe la raíz, pero son incompatibles, lo cualse verifica por medio de generación.

5.5 IMPLEMENTACIÓN EN C++

Para representar cada una de las categorías gramaticales se utilizaron estructu-ras. La principal, que contiene a otras más, fue llamada gramInfo_struct:

typedef struct{ pos POS;

noun_struct noun_str; adj_struct adj_str; adv_struct adv_str; art_struct art_str; det_struct det_str; verb_struct verb_str; pron_struct pron_str; conj_struct conj_str; num_struct num_str;

} gramInfo_struct;

Cada uno de los elementos de esta estructura son, a su vez, otras estructuras re-presentando las partes de oración. Por ejemplo, noun_struct fue implementadade la siguiente manera:

typedef struct{ type_noun noun_type; gender noun_gender; number noun_number;} noun_struct;

Uno de los pasos más importantes en la programación fue idear un almacén paracada una de las hipótesis. Esto se logró mediante el uso de clases:

66

Page 75: INSTITUTO POLITÉCNICO NACIONALfranciscocastillo.com.mx/uploads/7/6/5/0/76507663/... · guajes con alternaciones irregulares de raíz (como por ejemplo, el español o ruso). En este

class Hip{ public: Hip () { } Hip (AnsiString i) { inf = i; } ~Hip () { }

AnsiString inf; gramInfo_struct s;

};

class HipPalabra { public: HipPalabra () { } HipPalabra (gramInfo_struct * g, Hip * h2, AnsiString f, AnsiString s, AnsiString i) { flection = f; stem = s; h = h2; info = i; inf = g; }

~HipPalabra () { delete inf; }

AnsiString flection; AnsiString stem; AnsiString info;

Hip *h;

gramInfo_struct *inf;};

Se cuenta con un archivo (agme_header3.h) donde se detallan todas las hipótesisposibles, las cuales son cargadas a memoria al iniciar la ejecución del sistema. Elprocedimiento que lleva a cabo esto es nombrado startMorphology y fue imple-mentado de la forma siguiente (se muestra sólo una parte del contenido):

67

Page 76: INSTITUTO POLITÉCNICO NACIONALfranciscocastillo.com.mx/uploads/7/6/5/0/76507663/... · guajes con alternaciones irregulares de raíz (como por ejemplo, el español o ruso). En este

void startMorphology() {

AnsiString information;

Hip *t1; SL->Duplicates = dupAccept; SL->Sorted = true;

// PARA LA FLEXIÓN "". // ES UN SUSTANTIVO SINGULAR t1 = new Hip; t1->s.POS = noun; information = "NC0S000"; t1->inf = information; SL->AddObject("", (TObject*) t1);

// PARA LA FLEXIÓN "-s". // ES UN SUSTANTIVO PLURAL. t1 = new Hip; t1->s.POS = noun; t1->s.noun_str.noun_number = pl; t1->s.noun_str.noun_type = common; t1->s.noun_str.noun_gender = masc; information = createInfo(&t1->s); t1->inf = information; SL->AddObject("s", (TObject*) t1);

// PARA LA FLEXIÓN "-es". // ES UN SUSTANTIVO PLURAL (árbol/árbol-es; flor/flor-es). t1 = new Hip; t1->s.POS = noun; t1->s.noun_str.noun_number = pl; t1->s.noun_str.noun_type = common; t1->s.noun_str.noun_gender = masc; information = createInfo(&t1->s); t1->inf = information; SL->AddObject("es", (TObject*) t1);

// ("-AS") ES FORMA VERBAL REGULAR DE INDICATIVO PRESENTE 2S. t1 = new Hip; t1->s.POS = verb; t1->s.verb_str.verb_number = sg; t1->s.verb_str.verb_mode = indic; t1->s.verb_str.verb_time = present; t1->s.verb_str.verb_person = 2; information = createInfo(&t1->s); t1->inf = information; SL->AddObject("as", (TObject*) t1);

// y así sucesivamente para todas las flexiones posibles}

Antes de mostrar la implementación del procedimiento de análisis morfológico, es

68

Page 77: INSTITUTO POLITÉCNICO NACIONALfranciscocastillo.com.mx/uploads/7/6/5/0/76507663/... · guajes con alternaciones irregulares de raíz (como por ejemplo, el español o ruso). En este

recomendable exponer el de generación, ya que el primero se basa en el segundo.El proceso de generación es simplemente una concatenación de morfemas, es de-cir, para cada palabra de entrada se busca su raiz y luego se procede a unir éstaraíz con las flexiones pertinentes. Hay que hacer mención del uso de reglas espe-ciales en la formación de número para sustantivos y adjetivos. Por ejemplo, el plu-ral de los nombres acabados en vocal no acentuada se forma añadiendo –s al sin-gular (libros, coches, tribus). También es importante mencionar la generación paraaquellas partes de oración simples, como lo son las interjecciones, conjunciones,etc. Su tratamiento consiste simplemente en anexarle flexión cero (nula).

AnsiString Generate (HipPalabra *HP1) {

AnsiString lastLetter, word2, res, inflection, word, endVerb; short flag = 0; TReplaceFlags s; //ésta bandera la utiliza la función "SubString"

word = HP1->flection; lastLetter = word.SubString(word.Length(), 1); endVerb = word.SubString(word.Length()-1, 1);

// Si POS es un sustantivo o adjetivo ... if ( HP1->h->s.POS == noun || HP1->h->s.POS == adj ) {

if (HP1->h->s.noun_str.noun_number == pl || HP1->h->s.adj_str.adj_number == pl) {

// a) El PLURAL de los NOMBRES acabados en vocal NO acentuada se // forma añadiendo -s al singular (libros, coches, tribus) // Los acabados en 'é' sólo admiten la forma de plural -s. if (isVowel(lastLetter) || lastLetter == 'é') { word = word + "s"; res = word; flag = 1; }

// b) El PLURAL de los NOMBRES acabados en cualquier consonante // que no sea /s/ se forma añadiendo -es al singular (paredes, // pieles, rehenes, reyes, relojes). Dicha adjunción conlleva // a veces a un cambio acentual (régimen/regímenes, espéci- // men/especímenes, canción/canciones, joven/jóvenes). if (isConsonant(lastLetter) && lastLetter != 's') { if (isAccentedVowel(word.SubString (word.Length()-1, 1))) word = removeAccent(word); if (word.SubString (word.Length(), 1) == "z") word = StringReplace (word, "z", "c", s); word = word + "es"; res = word; flag = 1; }

// c) Los NOMBRES acabados en á, í, ó, ú, tienden a presentar un // DOBLE PLURAL en -s y -es (esquís/esquíes, tabú/tabúes) aun // que alguno de ellos sólo admiten -s (mamás, dominós).

69

Page 78: INSTITUTO POLITÉCNICO NACIONALfranciscocastillo.com.mx/uploads/7/6/5/0/76507663/... · guajes con alternaciones irregulares de raíz (como por ejemplo, el español o ruso). En este

if (isAccentedVowel(lastLetter) && lastLetter != 'é') { if (HP1->info[2] != '*') { res = word + "es"; res = res + "/" + word + "s"; } else // es excepción a la regla de doble plural res = word + "s";

flag = 1; }

// d) Los que acaban en vocal acentuada seguida de -s requieren // -es: (compases, reveses, países, obuses). if (isAccentedVowel(word.SubString (word.Length()-1, 1)) && lastLet-ter == 's') { word = removeAccent(word); word = word + "es"; res = word; flag = 1; }

} // if (HP1->h->s.noun_str.noun_number == sg ...

if ( ((HP1->h->s.noun_str.noun_number == sg) || (HP1->h->s.adj_str.adj_number == sg)) && (flag == 0) ) { res = HP1->flection; }

} // if (gi_s->POS == noun || gi_s->POS == adj)

if (HP1->h->s.POS == verb) { // PRESENTE DE INDICATIVO // Presente de indicativo en 1S. if (HP1->h->s.verb_str.verb_mode == indic && HP1->h->s.verb_str.verb_time == present && HP1->h->s.verb_str.verb_person == 1 && HP1->h->s.verb_str.verb_number == sg) inflection = "o"; // Presente de indicativo en 2S. if (HP1->h->s.verb_str.verb_mode == indic && HP1->h->s.verb_str.verb_time == present && HP1->h->s.verb_str.verb_person == 2 && HP1->h->s.verb_str.verb_number == sg) if (endVerb == "a") inflection = "as"; else inflection = "es"; // Presente de indicativo en 3S. if (HP1->h->s.verb_str.verb_mode == indic && HP1->h->s.verb_str.verb_time == present && HP1->h->s.verb_str.verb_person == 3 && HP1->h->s.verb_str.verb_number == sg) if (endVerb == "a") inflection = "a"; else

70

Page 79: INSTITUTO POLITÉCNICO NACIONALfranciscocastillo.com.mx/uploads/7/6/5/0/76507663/... · guajes con alternaciones irregulares de raíz (como por ejemplo, el español o ruso). En este

inflection = "e"; // Presente de indicativo en 1P. if (HP1->h->s.verb_str.verb_mode == indic && HP1->h->s.verb_str.verb_time == present && HP1->h->s.verb_str.verb_person == 1 && HP1->h->s.verb_str.verb_number == pl) { if (endVerb == "a") inflection = "amos"; else if (endVerb == "e") inflection = "emos"; else inflection = "imos"; }

// y así sucesivamente para cada uno de los tiempos y // modos verbales.

} // (POS == "V")

if (HP1->h->s.POS == interj) inflection = "";

// y así sucesivamente para cada una de las demás (interjecciones, etc.). // donde sabemos que su procesamiento será directo y por lo tanto // es preferible manejarlos con flexión cero (nula).

if (HP1->h->s.POS == noun || HP1->h->s.POS == adj) return res; else return HP1->stem + inflection;

}

En este momento, ya es posible explicar el procedimiento de análisis. Un algoritmomás detallado y orientado a la implementación que el expuesto en el capítulo ante-rior, es el siguiente:

Inicio

Pre-procesar el texto a analizar con herramientas externas

Mientras existan palabras

obtener palabra

Buscar Raiz en diccionario

Si existe Raíz entonces

Obtener toda información de diccionario

Si la palabra es una categoría simple (interjección, etc.) entonces

Procesar directamente

Otro

Preparar hipótesis

Mientras existan hipótesis

71

Page 80: INSTITUTO POLITÉCNICO NACIONALfranciscocastillo.com.mx/uploads/7/6/5/0/76507663/... · guajes con alternaciones irregulares de raíz (como por ejemplo, el español o ruso). En este

Si (palabra == forma generada por hipótesis) entonces

Describir Información de hipótesis

Fin_Si

siguiente hipótesis

Fin_Mientras

Fin_Si

Fin_Si

Fin_Mientras

Fin

La implementación de este algoritmo en Builder C++ requirió del manejo de algu-nos controles visuales, de los cuales sólo se muestran los de extricta necesidad.Con esto, el código es independiente del lenguaje y puede ser llevado a cualquiercompilador ANSI C. Es importante recordar que, gracias a las herramientas exter-nas de pre-procesamiento de texto, las palabras aparecen en forma individual encada línea del archivo pre-procesado (ordenadas y sin ser repetidas). Las líneasde código de mayor representatividad e importancia fueron marcadas en negritas.

void Analizar(){ int totalLineas, pos, numeroPalabras; int flagAnalysed, stemID, stemNumber; AnsiString linea, palabra, lemma, stemLemma; bool foundStem = false;

TLocateOptions LO; TLocateOptions Opts; Opts.Clear(); Opts << loCaseInsensitive;

TReplaceFlags s; //This flag is used by "SubString" function.

totalLineas = richText->Lines->Count;

numeroPalabras = 0;

Texto->Lines->Clear();

for (int i = 0; i < totalLineas; i++) {

linea = richText->Lines->Strings [i];

while (linea != "") { foundStem = false;

wordIn = LowerCase (palabra); wordIn2 = wordIn;

while (wordIn != "" && foundStem == false) {

72

Page 81: INSTITUTO POLITÉCNICO NACIONALfranciscocastillo.com.mx/uploads/7/6/5/0/76507663/... · guajes con alternaciones irregulares de raíz (como por ejemplo, el español o ruso). En este

if (Table1->Locate("Raiz", wordIn, Opts) == false) wordIn = wordIn.SubString (1, wordIn.Length() - 1); else { foundStem = true; lemma = Table1->FieldByName("Palabra")->AsString; stemLemma = wordIn; wordIn = wordIn2; } }

if (foundStem == false) Texto->Lines->Add("No se encontró raíz para <<" +

wordIn2 + ">>"); if (Table1->Locate("Raiz", stemLemma, Opts)) {

flagAnalysed = 0;

stem = Table1->FieldByName("Raiz") ->AsString; info = Table1->FieldByName("Info") ->AsString; marks = Table1->FieldByName("Marca1") ->AsString; stemID = Table1->FieldByName("Marca2") ->AsInteger; stemNumber = Table1->FieldByName("Marca3") ->AsInteger; word = Table1->FieldByName("Palabra")->AsString;

// Si se trata de un verbo completamente irregular o pro // nombre u otra categoría simple.

if (marks[1] == 'I' || info[1] == 'P') Texto->Lines->Add("(" + word + ") ... " +

describeInfo(info)); else { TStringList *SLHip = new TStringList; for (int i = 0; i < SLHip->Count; i++) {

HipPalabra *ti = (HipPalabra*)SLHip->Objects[i];

ti->flection = word; if (Analyse(ti, wordIn)) { Texto->Lines->Add("(" + wordIn + ") ... " +

describeInfo(ti->h->inf)); flagAnalysed = 1; }

} // for } // if (marks[1] == 'I')

// Tratamiento parcial de enclíticos if ( (info[1] == 'V') && (containsClitic(wordIn)) && (flagAnalysed == 0) ) Texto->Lines->Add("(" + wordIn +

") ... Verb+Clitic");

Table1->Next();

} //(Table1->Locate("Raiz", stemLemma, Opts))

73

Page 82: INSTITUTO POLITÉCNICO NACIONALfranciscocastillo.com.mx/uploads/7/6/5/0/76507663/... · guajes con alternaciones irregulares de raíz (como por ejemplo, el español o ruso). En este

numeroPalabras = numeroPalabras + 1;

linea.Delete (1, pos); } // while (linea != "") ...

} // for }

La tarea más importante dentro del procedimiento mostrado, es la llamada a lafunción Analyse. Esta a su vez ejecuta a la función Generate; nos regresa comoresultado un valor verdadero si, efectivamente, la palabra de entrada es igual a lagenerada.

bool Analyse (HipPalabra *HP1, AnsiString word){ if (word == Generate(HP1)) return true; else return false;

}

Sólo hace falta mencionar cómo se maneja internamente la información gramaticalde las palabras a analizar y las generadas. Existen dos funciones: createInfo ydecodeInfo. La primera, que crea la información morfológica de la palabra, tieneel encabezado siguiente:

AnsiString createInfo (gramInfo_struct * gi_s)

createInfo recibe como parámetro la estructura general de palabras explicada lí-neas arriba y retorna una cadena con la información gramatical. Por ejemplo, lapalabra comería sería representada mediante las cadenas:

VRIC1SVRIC3S

haciendo alución a un verbo (V) regular (R) , modo indicativo (I), tiempo condicio-nal (C), primera persona (1) del singular (S) y verbo regular, modo indicativo, tiem-po condicional, tercera persona (3) del singular, respectivamente.

describeInfo realiza un proceso similar: dada una cadena con información gra-matical, regresa una cadena descriptiva de la misma. La función tiene el encabe-zado siguiente:

74

Page 83: INSTITUTO POLITÉCNICO NACIONALfranciscocastillo.com.mx/uploads/7/6/5/0/76507663/... · guajes con alternaciones irregulares de raíz (como por ejemplo, el español o ruso). En este

AnsiString describeInfo (AnsiString dictionaryInfo)

Por ejemplo, dadas las cadenas obtenidas para comería, el resultado de aplicardescribeInfo sería el siguiente:

Verb+Reg+Indic+Condic+1+SgVerb+Reg+Indic+Condic+3+Sg

las cuales son más representativas y descriptivas para el usuario final. De hecho,el sistema guarda dos archivos para el resultado del análisis: con la forma cruda(VRIC1S) y la forma descriptiva (Verb+Reg+Indic+Condic+1+Sg). En la tabla 10se muestran todas las cadenas descriptivas posibles. Para una ejemplificaciónmás detallada de los resultados, consulte los anexos 2-5.

Etiqueta Descripción Etiqueta Descripción

+Adj adjetivo +MF invariante para género

+Adv adverbio +Demdemostrativo (determinan-tes y pronombres)

+Art artículo +Posposesivo (determinantes y pronombres)

+Conj conjunción +indef.indefinido (determinantes ypronombres)

+Det determinante +Generalgeneral (adverbios y adjeti-vos)

+Interj interjección +Time tiempo (adverbios)

+Let letra +Place lugar (adverbios)

+Noun sustantivo +Manner manera (adverbios)

+Num número +Quantity cantidad (adverbios)

+Prep preposición +Assert (adverbios)

+Pron pronombre +Neg negación (adverbios)

+1 primera persona +Doubt duda (adverbios)

+2 segunda persona +Unknown categoría desconocida

+3 tercera persona +Abrev abreviaturas

+4 persona de respeto (Ud.) +Acc acusativo (pronombre)

+Sg número singular +Card números cardinales

75

Page 84: INSTITUTO POLITÉCNICO NACIONALfranciscocastillo.com.mx/uploads/7/6/5/0/76507663/... · guajes con alternaciones irregulares de raíz (como por ejemplo, el español o ruso). En este

Etiqueta Descripción Etiqueta Descripción

+Pl número plural +Pron pronombre

+Reg verbo regular +Dat dativo

+Ireg verbo irregular +Def definido (artículo)

+Indic modo indicativo +indef. indefinido (artículo)

+Subj modo subjuntivo +Interroginterrogativo, en algunos pronombres

+Infin modo infinitivo +Imper modo imperativo

+Gerund modo gerundio +Neut neutral

+Partic modo participio +Nom nominativo (pronombre)

+Present tiempo presente +Poss posesivo (pronombre)

+PretPerf tiempo pretérito perfecto +Punct signo de puntuación

+PretImperf tiempo pretérito imperfecto +Verb verbo

+PretIndef tiempo pretérito indefinido +Ref pronombre reflexivo

+Fut tiempo futuro +Rel pronombre relativo

+Condic tiempo condicional +SPsingular/plural, invariante para número

+Common común (sustantivo) +Sigla sigla, acrónimo

+Prop propio (sustantivo) +Masc género masculino

+Fem género femenino

Tabla 10. Etiquetas para las categorías analizadas en AGME.

76

Page 85: INSTITUTO POLITÉCNICO NACIONALfranciscocastillo.com.mx/uploads/7/6/5/0/76507663/... · guajes con alternaciones irregulares de raíz (como por ejemplo, el español o ruso). En este

Capítulo 6

Compilación delDiccionario Morfológico

6.1 PREPARACIÓN DE LOS DATOS

Necesitamos de la preparación preliminar de datos que consistió de los si-guientes pasos principales:

Describir y clasificar todas las palabras de un lenguaje en clases gramati-cales y las marcas adicionales, como Pluralia Tantum (esta información setomó de los diccionarios existentes);

Convertir la información léxica disponible en un diccionario de raíces (solola primera raíz fue generada en este paso);

Aplicar los algoritmos de generación de raíces para generar todas las raí-ces (con duplicación de información de la primera raíz más el número dela raíz generada).

Se diseñó una estructura de almacenamiento de datos como la que se mues-tra en la tabla 11. Para los datos mostrados, el campo Word contiene el lema,el campo Stem contiene la raíz, el campo Info contiene la clase gramatical,los campos Mark1, Mark2 contienen los marcos gramaticales adicionales.Por ejemplo, el campo Mark1 del registro 2 (P) indica que se trata de un Plu-ralia Tantum y para los últimos dos registros indica el modelo de conjugaciónsemi-irregular al que pertenece el verbo. El campo Mark2 para los últimosdos registros señala la raíz original (1) y la segunda raíz posible (2). Obvia-mente, para realizar el análisis, la tabla también tiene la entrada a través delcampo que contiene la raíz (campo Stem).

La etapa de preparación de datos consistió en procesar un diccionario elec-trónico de aproximadamente 25,000 lemas. Este diccionario representabauna dificultad inherente en varios aspectos: duplicación de la informacióngramatical, caracteres especiales del idioma ruso, etc. Afortunadamente, la

77

Page 86: INSTITUTO POLITÉCNICO NACIONALfranciscocastillo.com.mx/uploads/7/6/5/0/76507663/... · guajes con alternaciones irregulares de raíz (como por ejemplo, el español o ruso). En este

preparación de los datos fue un solo proceso, es decir, solo aquel necesariopara crear el diccionario de raíces.

Tabla 11. Estructura del Diccionario de Raíces

6.2 FUENTE DE DATOS

El Diccionario Español-Ruso de Uso Moderno usado como fuente dedatos consta de 25 mil artículos en los que aparecen registradas más de100,000 unidades léxicas (palabras y frases) que caracterizan el estado ac-tual de la lengua española tal y como se habla en Europa y América. La se -lección del léxico que se hizo para este diccionario no sólo tuvo por objeto fa-cilitarle al lector el acceso a las obras de literatura iberoamericana de los si-glos XIX y XX, sino también ofrecerle una muestra representativa del lengua-je de la prensa, la radio y la televisión modernas.

En particular, aparecen registrados en esta obra numerosos términos propiosdel léxico político e histórico, científico, técnico y legal, términos relativos a lapintura y la música, el deporte y también, en mayor medida que en cualquierotra obra de lexicografía rusa del período posterior a 1917, el léxico religioso,eclesiástico y bíblico. Asimismo, los autores han dedicado gran atención alvocabulario del lenguaje coloquial, partiendo de la toma en consideración dela creciente importancia que ha venido adquiriendo el mencionado vocabula-rio dentro de todo el conjunto de los medios expresivos del español moderno.

La obra pertenece a la categoría de los diccionarios «activos» destinados aservir, más que de un simple inventario de palabras con sus respectivasacepciones, de guía indispensable para el dominio práctico del idioma. Deahí que hemos considerado como nuestra tarea primordial la de representarel significado de cada palabra española en la indisoluble unión que ella tienecon su entorno, tanto el morfosintáctico (los diversos tipos de construcción),como el semántico (la llamada «valencia semántica») y el léxico (las locucio-nes y frases, de distinto grado de estabilidad, que van desde las más ele-mentales hasta el nivel de oraciones acabadas fijas).

Otro importante cometido del diccionario consiste en explicitar, en la medida

Word Stem Info Mark1 Mark2gato gato Ngafas gafa N Pacertar acert VI M1 1acertar aciert VI M1 2

78

Page 87: INSTITUTO POLITÉCNICO NACIONALfranciscocastillo.com.mx/uploads/7/6/5/0/76507663/... · guajes con alternaciones irregulares de raíz (como por ejemplo, el español o ruso). En este

en que son aplicables al léxico, los aspectos esenciales de toda comunica-ción verbal, a saber: el espacio social en que resulta apropiada la unidad léxi -ca en cuestión, el género del texto a que corresponde y los distintos maticesde la intención comunicativa del hablante y de su actitud hacia el objeto de-signado y hacia el interlocutor. A este efecto, los redactores se sirvieron deun sistema diversificado de notación estilístico-funcional, así como de nume-rosos comentarios, total o parcialmente formalizados, insertos en el texto.

El diccionario contiene gran cantidad de ejemplos recogidos de fuentes auto-rizadas, que no se reducen a servir de una simple ilustración de las corres-pondencias léxicas castellano-rusas ofrecidas, puesto que la mayoría de losejemplos incluidos no se prestan a una traducción literal, sino que ofrecenpuntos de vista dispares al tiempo que equivalentes sobre una misma situa-ción, facilitando así al lector atento un rico material de estudio de la idiosin-crasia idiomática inherente tanto a la lengua española, como a la rusa.

Ilustración 4. Muestra del Diccionario Electrónico sin procesar

79

Page 88: INSTITUTO POLITÉCNICO NACIONALfranciscocastillo.com.mx/uploads/7/6/5/0/76507663/... · guajes con alternaciones irregulares de raíz (como por ejemplo, el español o ruso). En este

El objetivo fue convertir un diccionario electrónico en una tabla. A continua-ción se muestra un fragmento del diccionario electrónico.

Algunas de las dificultades que se presentaron al procesar este archivo de texto son las siguientes:

Terminaciones especiales para formar el femenino en sustantivos, como en:abad, -esa m, f (abad para sustantivo masculino y abadesa para fe-menino)

Diferentes categorías gramaticales para una misma palabra:abonad|o

1. adj (como adjetivo)2. m, f (como sustantivo)

Modelos para verbos irregulares (en este diccionario se encontraron 90, en-tre ‘<>’). Por ejemplo:constituir <12> vt

Primeramente, se refinó el archivo para obtener otro que fuera más fácil demanipular y procesar. El algoritmo utilizado para lograr esto fue:

Mientras no sea fin de archivoObtener línea de textoSi línea contiene separador “- - - - - - - - -“ entonces

// la siguiente línea es un lema// buscamos todas las categorías posibles de este lemaObtener línea de textoMientras línea no contenga separador “- - - - - - - - - “

Insertar lema con categoría a archivo nuevoObtener línea de texto

Fin MientrasFin Si

Fin Mientras

Esto nos da como resultado el siguiente archivo:

azufre mazufroso adjazul 1. adj azul 2. m azulado adjazulejo mazuzar <Id> vt a uno (a, contra uno, algo)

80

Page 89: INSTITUTO POLITÉCNICO NACIONALfranciscocastillo.com.mx/uploads/7/6/5/0/76507663/... · guajes con alternaciones irregulares de raíz (como por ejemplo, el español o ruso). En este

B, b fbaba f tb pl babel ambbabieca babilónic|o 1. adjbabilónic|o 2. m, f

6.3 MAPEO DE MODELOS VERBALES

Se realizó una correspondencia entre la clasificación verbal provista por elDiccionario Español-Ruso (DER) y la propuesta en este trabajo. En el prime-ro existen 92 modelos, mientras que en el segundo solo 11. Esto redujo con-siderablemente la manera de tratar las formas verbales.

Por ejemplo, el DER contiene los siguientes modelos para verbos irregulares.

<Ia> sacarPret. Indef.: saqué, sacaste, sacó, sacamos, sacasteis, sacaronPres. Subj.: saque, saques, saque, saquemos, saquéis, saquenImper.: saca, saque, saquemos, sacad, saquen

<Ib> pagarPret. Indef.: pagué, pagaste, pagó, pagamos, pagasteis, pagaronPres. Subj.: pague, pagues, pague, paguemos, paguéis, paguenImper.: paga, pague, paguemos, pagad, paguen

En la figura 11 se muestra la ayuda del DER desde donde se obtuvieron losmodelos para el sistema AGME. Es importante recordar que en el DER semanejan 4 veces más modelos debido a que es una propuesta orientada atotalidad de raíces, a diferencia de la propuesta en este trabajo, que estáorientada a posiciones de raíces (por lo que fue posible agrupar varias deellas).

Luego, en la tabla 6, se muestra el mapeo completo de los distintos modelosverbales. Se detalla también en qué consiste cada uno de ellos.

81

Page 90: INSTITUTO POLITÉCNICO NACIONALfranciscocastillo.com.mx/uploads/7/6/5/0/76507663/... · guajes con alternaciones irregulares de raíz (como por ejemplo, el español o ruso). En este

Figura 11 Modelos verbales propuestos en el Diccionario Ruso-Español.

82

Page 91: INSTITUTO POLITÉCNICO NACIONALfranciscocastillo.com.mx/uploads/7/6/5/0/76507663/... · guajes con alternaciones irregulares de raíz (como por ejemplo, el español o ruso). En este

Modelode Tesis

Descripción Ejemplo Modelo deDiccionario

<A1> Dos raíces posibles: la segunda afec-ta a 1S, 2S, 3S y 3P de presente de indicativo y subjuntivo y 1S, 2S y 4P de imperativo. Todas las demás for-mas usan la primera raíz (original).

volver, acertar <1>, <2>, <5>, <8>, <10>, <IIIe>, <IIIf>.

<A2> Dos raíces posibles: la segunda afec-ta a 1S de presente de indicativo, to-das las personas de presente de sub-juntivo y 4S y 2P de imperativo. Todaslas demás formas usan la primera raíz.

agradecer, complacer, convencer, ejercer

<13>, <21>, <41>, <IIa>, <IIb>, <IIIa>, <IIIb>, <IIIc>, <IIId>.

<A3> Dos raíces posibles: la segunda afec-ta a todas las personas de presente de subjuntivo, 1S de pretérito indefini-do de indicativo y 4S y 2P de impera-tivo. Todas las demás formas usan la primera raíz.

pagar, ahogar, … <Ia>, <Ib>, <Ic>, <Id>.

<A4> Dos raíces posibles: la segunda afec-ta a 1S, 2S, 3S y 3P de presente y 3Sy 3P de pretérito indefinido de indicati-vo; todas las formas de subjuntivo y 2S, 4S y 2P de imperativo. Todas las demás formas usan la primera raíz.

pedir, henchir, … <3>, <3c>, <12>.

<A5> Tres raíces posibles: la tercera afecta a todas las formas de pretérito indefi-nido de indicativo, pretérito imperfectoy futuro de subjuntivo. La segunda se encuentra en 1S de presente de indi-cativo, todo presente de subjuntivo y 4S y 2P de imperativo. Todas las de-más formas usan la raíz original.

introducir, producir, conducir, traer, …

<14>,<58>

<A6> Tres raíces posibles: la tercera se en-cuentra en 1P y 2P de presente de subjuntivo y todo pretérito y futuro de subjuntivo (además del gerundio). La segunda en 1S, 2S, 3S y 3P de los presentes y 2S, 4S y 2P de imperati-vo. Las demás formas usan la raíz ori-ginal.

sentir, divertir, arrepen-tir, …

<4>

<A7> Cuatro raíces posibles: cuarta raíz afecta a todo futuro y condicional de indicativo. La tercera a todas las for-mas de pretérito de indefinido de indi-cativo, pretérito imperfecto y futuro desubjuntivo (además del gerundio). La segunda a 1S, 2S, 3S y 3P de los pre-sentes y 2S, 4S y 2P de imperativo. Las restantes formas utilizan la raíz original.

poder, querer, … <42>

<A8> Cuatro raíces posibles: cuarta raíz afecta a todo futuro y condicional de

poner, … <44>

83

Page 92: INSTITUTO POLITÉCNICO NACIONALfranciscocastillo.com.mx/uploads/7/6/5/0/76507663/... · guajes con alternaciones irregulares de raíz (como por ejemplo, el español o ruso). En este

Modelode Tesis

Descripción Ejemplo Modelo deDiccionario

indicativo. La tercera a todas las for-mas de pretérito de indefinido de indi-cativo, pretérito imperfecto y futuro desubjuntivo. La segunda a 1S de pre-sente de indicativo, todo presente de subjuntivo y 4S y 2P de imperativo. Las restantes formas utilizan la raíz original.

<A9> Cuatro raíces posibles: cuarta raíz afecta a 1P y 2P de presente de sub-juntivo. Tercera se encuentra en 2S, 3S y 3P de presente de indicativo y 2S de imperativo. La segunda en 1S de presente de indicativo, 1S, 2S, 3S y 3P de presente de subjuntivo y 4S y3P de imperativo. Las restantes for-mas utilizan la raíz original.

trocar, colgar, almorzar,avergonzar, torcer, …

<5a>, <5b>, <5c>, <5d>, <5e>.

<A0> Cinco raíces posibles: quinta raíz afecta a todo futuro y condicional de indicativo. La cuarta a todas las for-mas de pretérito de indefinido de indi-cativo, pretérito imperfecto y futuro desubjuntivo. La tercera a 1S de presen-te de indicativo, todo presente de sub-juntivo y 4S y 2P de imperativo. La segunda a 2S, 3S y 3P de presente de indicativo. Las restantes formas utilizan la raíz original.

mantener, abstener, atener, contener, dete-ner, entretener, obte-ner, retener, sostener, …

<57>

Sin mo-delo

Conjugación completamente irregular.Aquellos que tienen más de cuatro raíces posibles. Sólo se identificaron siete verbos.

ser, estar, haber, ir, an-dar, tener, dar, …

<20>, <26>, <32>, <34>, <37>, <55>, <57>.

Sin mo-delo

Conjugación regular. Sólo existe una raíz posible para todas las formas conjugadas.

cantar, comer, vivir. <I>, <II>, <III>

Tabla 12. Modelos propuestos para la flexión verbal.

Con el algoritmo anterior, se obtuvo un archivo de texto semi-procesado.Este archivo fue transferido a un segundo proceso para obtener las raícesposibles para cada lema y ser introducidas al diccionario. Los pasos principa-les en este segundo algoritmo fueron el mapeo de modelos y la aplicación dereglas para formación de raíces.

Obtener línea de textoMientras no sea fin de archivo

Obtener modelo de diccionarioHacer la correspondencia de modelosAplicar reglas para obtención de raícesIntroducir raíces al diccionario electrónico

84

Page 93: INSTITUTO POLITÉCNICO NACIONALfranciscocastillo.com.mx/uploads/7/6/5/0/76507663/... · guajes con alternaciones irregulares de raíz (como por ejemplo, el español o ruso). En este

Obtener línea de textoFin Mientras

Aún así, en algunas ocasiones fue necesario introducir directamente lemasverbales al diccionario electrónico por diversos motivos: errores u omisionesen el diccionario ruso-español, modelos de diccionario para uno ó dos lemas,etc.

La desventaja principal en estos algoritmos de preparación de datos es queno son universales, ya que muy probablemente otros diccionarios (Anaya,RAE) pueden manejar otros modelos y entonces el proceso de mapeo no sepodría llevar a cabo. La solución a esto es hacer un estudio de modelos ade-cuado para cada diccionario.

La figura 12 muestra una pequeña parte del diccionario electrónico obtenido.En ella se puede observar lemas verbales regulares e irregulares, como porejemplo, “concordar” que es un verbo irregular que pertenece al modelo A1,mientras que “conciliar” es un verbo regular. Además, las marcas 2 y 3 co-rresponden al número de lema verbal irregular y número de raíz, respectiva-mente.

Figura 12 Muestra del diccionario obtenido

85

Page 94: INSTITUTO POLITÉCNICO NACIONALfranciscocastillo.com.mx/uploads/7/6/5/0/76507663/... · guajes con alternaciones irregulares de raíz (como por ejemplo, el español o ruso). En este

Del diccionario ruso-español se obtuvieron 25,000 raíces posibles; además,se enriqueció el diccionario final con 2,400 nombres propios (Francisco, Ánge-la) y 2,000 nombres de países y ciudades.

86

Page 95: INSTITUTO POLITÉCNICO NACIONALfranciscocastillo.com.mx/uploads/7/6/5/0/76507663/... · guajes con alternaciones irregulares de raíz (como por ejemplo, el español o ruso). En este

Capítulo 7

Descripción de los Resultados

El resultado del presente trabajo de investigación es un sistema compu-tacional (llamado AGME –Analizador y Generador de la Morfología del Espa-ñol) y los modelos formales de análisis morfológico. Los archivos DLL estándisponibles de forma gratuita para uso académico.

Se cuenta con un diccionario de 26,000 raíces de donde se pueden generaralrededor de 1,800,000 formas. No se descarta el enriquecimiento futuro deldiccionario.

En una computadora Intel Pentium 4.0 a 2.0 Ghz., 256 MB de memoria y sis-tema operativo Windows XP Profesional con SP1 se obtuvieron los resulta-dos mostrados en la tabla 13 para el análisis de los textos A (“El Lazarillo deTormes”) y B ([SALINAS, 00]):

TEXTOTOTAL PALABRAS

EN TEXTO

PALABRAS PRE-

PROCESADASANALIZADAS TIEMPO

A 20,089 3,725 3,616 10 minutos

B 595,364 28,194 26,828 69 minutos

Tabla 13. Resultado del análisis para dos archivos de texto.

Algunas de las palabras que no fueron analizadas para el archivo A son:

lázaro, tormes, bolsilla, dél, …

y para el archivo B:

agreement, agroasemex, benz, bill, cefereso, ceneval, coparmex, dillon, ezln, glás-nost, ipn, kumate, xiv, zedillista, …

La mayoría de estas palabras no han sido introducidas al diccionario (algu-nas ni son del lenguaje español y otras son meras siglas), excepto la palabrabolsilla que es forma despectiva y cuya raíz en diccionario es bolsa, sólo que

87

Page 96: INSTITUTO POLITÉCNICO NACIONALfranciscocastillo.com.mx/uploads/7/6/5/0/76507663/... · guajes con alternaciones irregulares de raíz (como por ejemplo, el español o ruso). En este

en este trabajo no se tratan las formas despectivas o peyorativas. La palabradél es una contracción personal del autor en el texto.

Es claro que el rendimiento en tiempos de procesamiento no es adecuado(realmente se analizan en promedio 390 palabras por minuto; es decir, 6.5palabras por segundo). Por otro lado, más del 95% de las palabras fueronanalizadas, lo que corrobora en gran medida la factibilidad de un análisis através de generación.

Para propósitos demostrativos, el sistema fue codificado en un lenguaje vi-sual de C, aunque su implementación a otros compiladores ANSI C es rápi-da.

7.1 CARACTERÍSTICAS DEL SISTEMA

AGME proporciona una interfaz clara y sencilla para llevar a cabo losprocesos de análisis y generación para la mayoría de las formas de palabrasdel lenguaje español. La figura 13 muestra la pantalla principal del sistema.Se desarrolló bajo una plataforma Windows y con el lenguaje C++.

El enriquecimiento del sistema con la lectura de archivos de texto para suanálisis es de gran utilidad para el usuario. La figura 14 muestra el resultado

Figura 13. Interface del sistema AGME.

88

Page 97: INSTITUTO POLITÉCNICO NACIONALfranciscocastillo.com.mx/uploads/7/6/5/0/76507663/... · guajes con alternaciones irregulares de raíz (como por ejemplo, el español o ruso). En este

de analizar una parte de la obra “El Lazarillo de Tormes” (el resultado completose encuentra como anexo 3). Es importante mencionar que el sistema no so-bre-genera ni sobre-analiza, es decir, si aparece dos ó más veces una mismapalabra, sólo se procesa una sola vez. Esto reduce considerablemente eltiempo total de procesamiento. Cuando el sistema trate de analizar algunapalabra desconocida, responde con un mensaje de “La raíz no existe para estapalabra”. En la figura 14 se puede ver una muestra de los resultados obteni-dos en el análisis de este texto.

La parte esencial del análisis radica en el estudio de las formas verbales. Enel proceso de análisis se pueden dar casos interesantes, como por ejemplo,la forma de palabra fuera, que presenta diversas categorías gramaticales (fi-gura 15).

La generación es el proceso inverso al análisis. En AGME es la médula paraeste último, aunque también lo podemos utilizar como un proceso indepen-diente. La siguiente pantalla muestra el resultado de generación para el ver-bo pensar con todas las opciones posibles.

Figura 14. Resultado del análisis de un texto.

89

Page 98: INSTITUTO POLITÉCNICO NACIONALfranciscocastillo.com.mx/uploads/7/6/5/0/76507663/... · guajes con alternaciones irregulares de raíz (como por ejemplo, el español o ruso). En este

El uso correcto de las raíces se pone de manifiesto con las palabras pienso, piensas y piensa (raíz piens-) contra las restantes (raíz pens-).

El proceso de silabización es un valor añadido al sistema. En el ejemplo mostrado en la figura 17, podemos observar que la palabra politécnico constade 5 sílabas. El formato:

<número1>-><número2>

indica que la sílaba en alusión comienza en la letra número1 y su posible vo-cal acentuada está en la letra número2.

Figura 15. Análisis de la palabra "fuera".

Figura 16. Generación para el verbo "pensar".

Figura 17. Silabización de la palabra "politécnico".

90

Page 99: INSTITUTO POLITÉCNICO NACIONALfranciscocastillo.com.mx/uploads/7/6/5/0/76507663/... · guajes con alternaciones irregulares de raíz (como por ejemplo, el español o ruso). En este

91

Page 100: INSTITUTO POLITÉCNICO NACIONALfranciscocastillo.com.mx/uploads/7/6/5/0/76507663/... · guajes con alternaciones irregulares de raíz (como por ejemplo, el español o ruso). En este

Capítulo 8

Conclusiones

El sistema morfológico de los lenguajes flexivos es finito (generalmentealrededor de 2 a 3 millones de formas de palabras para un diccionario de100,000 lemas), y, finalmente, cualquier método obtiene los mismos resulta-dos. A pesar de ello, hay diferencias en tiempo y esfuerzo invertido en los di-ferentes métodos.

Se desarrolló un sistema computacional de análisis morfológico basado enun modelo de análisis a través de generación para el español que presentaventajas de simplicidad y velocidad de implementación (a excepción del tiem-po que tomó el recopilar los modelos verbales, que en nuestro caso fue-ron13).

El principal problema del análisis morfológico automático de los lenguajes fle-xivos es el tratamiento de las alternaciones de raíces. Es claro que si no exis-tieran alternaciones entonces el algoritmo de análisis morfológico sería muysencillo. Primero, asignamos una clase gramatical para cada raíz que única-mente defina un conjunto de flexiones. Hay sólo una raíz en el diccionariopara cada palabra porque existen reglas sencillas para construir sus alomor-fos. Durante el análisis morfológico de una forma de palabra, encontramos suflexión y después su raíz se busca en el diccionario. Si la flexión es compati-ble con la raíz entonces el análisis termina. Este es el caso para lenguajesaglutinativos como el finlandés o el turco.

En nuestro caso, el algoritmo de análisis a través de generación se aplicacomo sigue: primero, el sistema genera todas las posibles hipótesis basadasen las posibles flexiones, y luego trata de generar las formas de acuerdo acada hipótesis, la correspondiente raíz y su clase morfológica tomada del dic-cionario.

Obviamente, es mucho más fácil en el desarrollo de un sistema contar conun pequeño número de clases morfológicas, las cuales encajan muy bien conla intuición de los hablantes.

92

Page 101: INSTITUTO POLITÉCNICO NACIONALfranciscocastillo.com.mx/uploads/7/6/5/0/76507663/... · guajes con alternaciones irregulares de raíz (como por ejemplo, el español o ruso). En este

Un paso importante e interesante fue la creación del diccionario de raíces.Sin éste, el modelo general no podría funcionar. Se utilizó un enfoque estáti-co de procesamiento de alomorfos de raíces. Este es más razonable y fácilde implementar en lenguajes flexivos que un método dinámico. Se generó undiccionario de 26,000 raíces que puede ser de utilidad para otras aplicacio-nes de lenguaje natural.

La aportación principal con este trabajo de investigación es el desarrollo deun sistema visual de análisis morfológico, cuyo código en C++ puede sertransportado fácilmente a otras plataformas de compilación.

Otra de las aportaciones logradas es la publicación y aceptación de dos artí-culos a nivel internacional:

AGME: Un Sistema de Análisis y Generación de la Morfología el Espa-ñol. Proceedings of Multilingual Information Access and Natural Lan-guage Processing. IBERAMIA, 2002. Sevilla, España, 2002.

System for Automatic Analysis and Generation of Spanish Words. Me-morias del XI Congreso Internacional de Computación (CIC-2002).Centro de Investigación en Computación del Instituto Politécnico Na-cional. México, D.F. Noviembre, 2002.

93

Page 102: INSTITUTO POLITÉCNICO NACIONALfranciscocastillo.com.mx/uploads/7/6/5/0/76507663/... · guajes con alternaciones irregulares de raíz (como por ejemplo, el español o ruso). En este

Capítulo 9

Trabajo Futuro

Una línea de investigación futura es implementar los algoritmos aquípresentados en aplicaciones realizadas en el Laboratorio de Procesamientode Texto, por ejemplo, CrossLexica española.

No hay que olvidar el procesamiento de palabras desconocidas. Una aproxi-mación inicial sería aplicar una heurística del más parecido. Aunque estaidea inical es aproximada y puede presentar sobre-generación.

Se sugiere continuar y ampliar la línea de investigación de análisis morfológi-co para los pronombres enclíticos y los dos grandes procedimientos de for-mación de palabras: la derivación y la composición.

La composición es, como la derivación, un procedimiento léxico de creaciónde nuevas palabras. Es el proceso por el que de dos lexemas se crea unonuevo. En la composición, a diferencia de la flexión y derivación, no intervie-nen elementos ligados: matarratas, pelirrojo, aguamar, medianoche, son ejem-plos de compuestos. En ellos intervienen elementos lexemas identificables:mata, pel(o/i), agua, media.

Por otro lado, se sugiere poner atención a los procesos flexivos de superlati-vo, diminutivo, aumentativo, peyorativo y adverbialización. Se expone a conti-nuación un estudio de los procesos mencionados, sentando las bases paraun estudio más detallado.

9.1 EL GRADO SUPERLATIVO

En los adjetivos se puede considerar el grado superlativo como una fle-xión con los morfemas flexivos: -ísimo para el masculino singular, -ísima parael femenino singular, -ísimos para el masculino plural e -ísimas para el femen-ino plural.

grande grandísimo / grandísima / grandísimos / grandísimas

Hay que tener en cuenta que los acabados en -ble lo forman con –bilísi-

94

Page 103: INSTITUTO POLITÉCNICO NACIONALfranciscocastillo.com.mx/uploads/7/6/5/0/76507663/... · guajes con alternaciones irregulares de raíz (como por ejemplo, el español o ruso). En este

mo/a/os/as. amable amabilísimo / amabilísima / amabilísimos / amabilísimas

Se precisan las correcciones ortográficas pertinentes:

Si acaba en ca, co o cu se convierte la c en qu. se-c-a se-qu-ísima ri-c-o ri-qu-ísimo francu-c-u francu-qu-ísimo

Si acaba en z, za, zo o zu se convierte la z en c. efica-z efica-c-ísimo carro-z-a carro-c-ísima cazu-z-o cazu-c-ísimo

En zu no se ha encontrado ningún caso.

Si acaba en ga, go o gu se convierte la g en gu. va-g-a va-gu-ísima cuellilar-g-o cuellilar-gu-ísimo En gu no se ha encontrado algún caso.

Existen adjetivos con irregularidades en la formación del superlativo. inicuo iniquísimo sabio sapientísimo

Otros que además de la forma regular admiten una o varias formas irregula-res.

pobre pobrísimo / paupérrimo bueno buenísimo / bonísimo / óptimo enemigo enemiguísimo / enemicísimo / inimicísimo

No todos los adjetivos admiten el grado superlativo en una formación regular:Por su significado: absoluto, omnipotente, infinito.Por tener una marca superlativizadora: buenísimo, mínimo, óptimo.Por ser gentilicios: asturiano, canario.Por otros motivos: exiguo, político, público.

Aunque el grado superlativo es una característica propia de los adjetivos,existen adverbios que lo admiten.

cerca cerquísima lejos lejísimos tarde tardísimo

95

Page 104: INSTITUTO POLITÉCNICO NACIONALfranciscocastillo.com.mx/uploads/7/6/5/0/76507663/... · guajes con alternaciones irregulares de raíz (como por ejemplo, el español o ruso). En este

9.2 LA ADVERBIALIZACIÓN

Los adjetivos permiten la formación de adverbios de modo mediante laconcatenación de su forma femenina con la terminación –mente;

irónico irónicamente

si son de una terminación, se añade directamente,

afable afablemente

sin embargo, hay adjetivos que no admiten esta formación.mucho, ninguno

También es posible adverbializar el superlativo de los adjetivos, añadiendo laterminación -mente a la forma femenina del superlativo de los adjetivos.

claro clarísimo clarísimamente

9.3 LA FORMACIÓN DE AUMENTATIVOS

Un aumentativo es un morfema normalmente sufijo, que añade al signi-ficado de la base léxica a la que se une la noción de magnitud o agranda-miento. Puede aportar, a la vez, otros valores, especialmente el de despre-cio. Forman aumentativos los sustantivos, los adjetivos y algunos adverbios.

Los sufijos principalmente utilizados para la apreciación aumentativa son -ony -azo que poseen sus formas femeninas -ona y -aza y los plurales correspon-dientes -ones, -onas y -azos, -azas; también se utilizan -ote y -acho con sus fe-meninos y plurales.

Las palabras que terminan en vocal tónica, añaden el interfijo -z- para la for-mación de sus aumentativos (mantienen la vocal, aunque pierden la tilde).

papa papa-z-ote chale chale-z-azo capo capo-z-acho

Además de estos existe un importante numero de sufijos que se utilizan conmenor frecuencia para la formación de aumentativos, algunos son combina-ciones de otros: -achón, -achote, -ajón, -allón, -anchón, -ancón, -ardo, -arrón,-azón, -ejón, -ellón, -erón, -etón, -onazo, -orrón, -otón, -ucón, -udo, -ujón, -ullón,-urrón, ...

hues-o hues-arrón

96

Page 105: INSTITUTO POLITÉCNICO NACIONALfranciscocastillo.com.mx/uploads/7/6/5/0/76507663/... · guajes con alternaciones irregulares de raíz (como por ejemplo, el español o ruso). En este

picar-o picar-onazo

Existen algunas voces que reducen un diptongo en el lexema. valient-e valent-ón fuert-e fort-achón sinvergüenz-a sinvergonz-ón

En ocasiones, sustantivos femeninos forman aumentativos en masculino la vel-a el vel-ón la brum-a el brum-azón

y puede darse además la reducción de diptongo en el lexema. cazuel-a cazol-ón

A veces la formación de aumentativos es muy irregular. bobo bobalicón nariz narigón

Aunque no es frecuente, en algunos adverbios se forman aumentativos. antañ-o antañ-azo lej-os lej-otes

9.4 LA FORMACIÓN DE DIMINUTIVOS

Un diminutivo es un morfema normalmente sufijo, que añade al signifi-cado de la base léxica a la que se une la noción de pequeñez en cantidad otamaño. Puede aportar, a la vez, valores apreciativos, especialmente deafecto, aunque también irónicos y de desprecio. Los sustantivos, los adjeti-vos y algunos adverbios pueden tener diminutivos.

Los sufijos principalmente utilizados para la apreciación diminutiva son -ito e-illo con sus formas femeninas -ita e -illa y los plurales correspondientes -itos,-itas e -illos, -illas. También se utilizan -ico (aunque mas bien es regional: Ara-gón, Navarra, Murcia y algunas zonas de Andalucía y Sudamérica), -ín (fre-cuente en Asturias) y -uelo (de aplicación mas restringida y en ocasiones concarácter peyorativo) -admiten femeninos y plurales: -ica/-icos/-icas, -ina/-ines/-inas, -uela/-uelos/-uelas. Los mencionados sufijos se emplean con carácter ge-neral para la formación de diminutivos, aunque existen casos particulares enlos que se añade algún interfijo.

Añaden el interfijo -c- las palabras de dos o mas silabas: Agudas terminadas en n o en r.

97

Page 106: INSTITUTO POLITÉCNICO NACIONALfranciscocastillo.com.mx/uploads/7/6/5/0/76507663/... · guajes con alternaciones irregulares de raíz (como por ejemplo, el español o ruso). En este

camión camion-c-ito sabor sabor-c-illo

Acabadas en vocal tónica (mantienen la vocal, aunque pierden la til-de).

mamá mama-c-ita rondó rondo-c-illo bebé bebe-c-ico

Llanas acabadas en n. dictamen dictamen-c-illo

Se convierte en -z- si el sufijo no empieza por e ni por i, para mantenerel sonido.

ladrón ladron-z-uelo

Añaden el interfijo -ec-: Los monosílabos acabados en consonante

son son-ec-illo y si acaban en z se convierte en c.

pe-z pe-c-ec-ito Los bisílabos terminados en e.

cort-e cort-ec-ito Los bisílabos con la primera silaba en ue, eu, ie, ei

cuent-o cuent-ec-ito deud-a deud-ec-illa biel-a biel-ec-ita pein-e pein-ec-illo

y si acaban en za o zo se cambia la z por una c, fuer-z-a fuer-c-ec-illa lien-z-o lien-c-ec-ico

si acaban en ca o co se cambia la c por una qu, tuer-c-a tuer-qu-ec-ita peu-c-o peu-qu-ec-ín

si acaban en ga o go se cambia la g por una gu. mei-g-a mei-gu-ec-illa fue-g-o fue-gu-ec-ito

Los bisílabos con la última sílaba en ia, io o ua savi-a savi-ec-illa oriol oriol-ec-ito ajuar ajuar-ec-illo

y si acaban en z se cambia la z por una c, arria-z arria-c-ec-ito

si acaban en gua se añade la diéresis sobre la u,

98

Page 107: INSTITUTO POLITÉCNICO NACIONALfranciscocastillo.com.mx/uploads/7/6/5/0/76507663/... · guajes con alternaciones irregulares de raíz (como por ejemplo, el español o ruso). En este

le-gu-a le-gü-ec-illa aunque en algunos casos no se añade el interfijo.

a-gu-a a-gü-ita len-gu-a len-gü-eta

Las voces con dos o más sílabas terminadas en io. radi-o radi-ec-ito cenobi-o cenobi-ec-ito

Se convierte en -ez- si el sufijo no empieza por e ni por i, para mante-ner el sonido

lot-e lot-ez-uelo

y en ocasiones hay reducción de diptongo. pie-z-a pe-c-ez-uela

Añaden el interfijo -ecec- los monosílabos acabados en vocal. té t-ecec-ito

Se convierte en -ecez- si el sufijo no empieza por e ni por i, para mantener el sonido

pie pi-ecez-uelo

Además de los mencionados, existe un importante número de sufijos que seutilizan con menor frecuencia para la formación de diminutivos, algunos soncombinaciones de otros: -aco, -ajo, -ancho, -anchuelo, -arajo, -ato, -ejo, -ellín,-encho, -ete, -etín, -eto, -ezno, -ijo, -ino, -ino, -irrinchín, -irritín, -itín, -oncho, -orri-tín, -orrotín, -ote, -uco, -ucho, -ugo, -ujo, -ullo.

alegr-e alegr-ete cuerp-o corp-ino caf-é caf-etín bob-o bob-irrinchín chic-o chiqu-itín / chic-orrotín / chiqu-irritín

Hay algunas voces que pierden el diptongo del lexema al formar diminutivos. cuern-o corn-ecito viej-o vej-ecillo

En ocasiones, sustantivos femeninos forman diminutivos en masculino. la faj-a el faj-ín la fald-a el fald-ellín

A veces la formación de diminutivos es muy irregular.

99

Page 108: INSTITUTO POLITÉCNICO NACIONALfranciscocastillo.com.mx/uploads/7/6/5/0/76507663/... · guajes con alternaciones irregulares de raíz (como por ejemplo, el español o ruso). En este

azúcar azuquítar capazo caparete

Aunque no es frecuente, con algunos adverbios se forman diminutivos apen-as apen-itas ahor-a ahor-ita

y en ocasionas de manera irregular. ahor-a hor-itica

100

Page 109: INSTITUTO POLITÉCNICO NACIONALfranciscocastillo.com.mx/uploads/7/6/5/0/76507663/... · guajes con alternaciones irregulares de raíz (como por ejemplo, el español o ruso). En este

BIBLIOGRAFÍA

[ALLEN, 95] ALLEN, J. Natural Language Understanding. Benjamin Cum-mings. EE.UU., 1995.

[ATSERIAS, 98] ATSERIAS, J. et al. Morphosyntactic Analysis and Parsing of Un-restricted Spanish Text. Proceedings of 1st International Confer-ence on Language Resources and Evaluation, LREC'98. Granada,España, 1998.

[BELLO, 01] BELLO, Andrés. Gramática de la Lengua Castellana. 10ª. Ed. Es-paña, EDAF. 2001. 379 p.

[BOLSHAKOV, 00] BOLSHAKOV, I. y GELBUKH, A. Computational Linguistics andLinguistic Models. CIC-IPN. México, 2000.

[BOSQUE, 99] BOSQUE, I. DEMONTE, V. Gramática Descriptiva de la LenguaEspañola (tomo 3). Entre la Oración y el Discurso - Morfología.Editorial Espasa. España, 1999.

[CARMONA, 98] CARMONA, J. et al. An Environment for Morphosyntactic Pro-cessing of Unrestricted Spanish Text. Proceedings of 1st Interna-tional Conference on Language Resources and Evaluation,LREC'98. Granada, España, 1998.

[COLE, 96] COLE, Ronald. et. al. Survey of the State of the Art in Human Lan-guage Technology. EEUU., Cambridge University Press, 1996. 530p.

[CRYSTAL, 91] CRISTAL, D. A Dictionary of Linguistics and Phonetics. 3a. Ed.Ed. Blackwell. EEUU., 1991.

[FUENTES, 00] FUENTES, J. Gramática Moderna de la Lengua Española. Limu-sa. México, 2000.

[GALICIA, 00] GALICIA Haro, Sofía N. Análisis Sintáctico conducido por unDiccionario de Patrones de Manejo Sintáctico para Lenguaje Es-pañol. Tesis (Doctorado en Ciencias de la Computación). México,D.F., México, Instituto Politécnico Nacional, Centro de Investiga-ción en Computación, 2000. 335 p.

[GELBUKH, 02] GELBUKH, A. y SIDOROV, G. Morphological Analysis of Inflec-tive Languages trough Generation. Centro de Investigación enComputación, Instituto Politécnico Nacional, México, D. F., 2002.

101

Page 110: INSTITUTO POLITÉCNICO NACIONALfranciscocastillo.com.mx/uploads/7/6/5/0/76507663/... · guajes con alternaciones irregulares de raíz (como por ejemplo, el español o ruso). En este

[GONZÁLEZ, 99] GONZÁLEZ, Blanca M. y VIGIL, Covadonga Ll. Los Verbos Es-pañoles. 3ª Edición, España, Ediciones Colegio de España. 1999.258 p.

[GRICE, 89] GRICE, P. Studies in the Way of Words. Ed. Harvard Univ. EE.UU.,1989.

[JURAFSKY, 00] JURAFSKY, Daniel y MARTIN, James. Speech and LanguageProcessing. An Introduction to Natural Language Processing,Computational Linguistics, and Speech Recognition. EE.UU., Pren-tice Hall. 2000. 934 p.

[KIMMO, 83] KOSKENNIEMI, Kimmo. Two-Level Morphology: A GeneralComputational Model for Word-Form Recognition and Production.Tesis Doctoral. Universidad de Helsinki. 1983. 160 p.

[LLORACH, 00] LLORACH, Emilio A. Gramática de la Lengua Española. España,Espasa. 2000. 406 p.

[MIRANDA, 94] MIRANDA, Alberto. La Formación de Palabras en Español. Edi-ciones Colegio de España,. España, 1994.

[MORENO, 95] MORENO, A. y GOÑI, J. GRAMPAL: A Morphological Processorfor Spanish Implemented in PROLOG. En Mar Sessa y MaríaAlpuente, editores, Proceedings of the Joint Conference on Declar-ative Programming (GULP-PRODE'95), pp. 321-331, Marina diVietri (Italia), 1995.

[NIDA, 86] NIDA, E. Sociolinguistics and Translating. Ed. Sociolinguisticsand communication. Londres, 1986.

[SALINAS, 00] SALINAS De G., Carlos. México: Un Paso Difícil a la Mod-ernidad. Ed. Plaza & Janés. México, 2000.

[SANTANA, 97] SANTANA, O., PÉREZ, J. et. al. FLANOM: Flexionador y Lema-tizador Automático de Formas Nominales. Universidad de las Pal-mas de Gran Canaria. España, 1997.

[SILZER, 00] SILZER, P. Working with Language. An Introduction to Languageand Linguistics. Universidad de Biola. EE.UU., 2000.

[SPENCER, 01] SPENCER, Andrew. Morphology. En: ARONOFF, Mark y REES-MILLER, Janie. The Handbook of Linguistics. EEUU., BlackwellPublishers Inc. 2001. pp. 213-237.

102

Page 111: INSTITUTO POLITÉCNICO NACIONALfranciscocastillo.com.mx/uploads/7/6/5/0/76507663/... · guajes con alternaciones irregulares de raíz (como por ejemplo, el español o ruso). En este

ANEXOS

103

Page 112: INSTITUTO POLITÉCNICO NACIONALfranciscocastillo.com.mx/uploads/7/6/5/0/76507663/... · guajes con alternaciones irregulares de raíz (como por ejemplo, el español o ruso). En este

ANEXO 1. EL ALFABETO FONÉTICO INTERNACIONAL

104

Page 113: INSTITUTO POLITÉCNICO NACIONALfranciscocastillo.com.mx/uploads/7/6/5/0/76507663/... · guajes con alternaciones irregulares de raíz (como por ejemplo, el español o ruso). En este

ANEXO 2. MUESTRA DEL DICCIONARIO OBTENIDO

105

Page 114: INSTITUTO POLITÉCNICO NACIONALfranciscocastillo.com.mx/uploads/7/6/5/0/76507663/... · guajes con alternaciones irregulares de raíz (como por ejemplo, el español o ruso). En este

106

Page 115: INSTITUTO POLITÉCNICO NACIONALfranciscocastillo.com.mx/uploads/7/6/5/0/76507663/... · guajes con alternaciones irregulares de raíz (como por ejemplo, el español o ruso). En este

107

Page 116: INSTITUTO POLITÉCNICO NACIONALfranciscocastillo.com.mx/uploads/7/6/5/0/76507663/... · guajes con alternaciones irregulares de raíz (como por ejemplo, el español o ruso). En este

ANEXO 3. ARCHIVO DE PRUEBA PARA ANÁLISIS

Extracto del capítulo 1 (La Construcción del Tratado de Libre Comercio de Améri-ca del Norte) de [SALINAS, 00].

Durante meses, en agotadoras sesiones, había analizado con mi gabi-nete económico los efectos que acarrearía para México un rechazo delTLC: salidas de capitales, descalabro cambiarlo, aumento de precios,irritación social, inestabilidad política. La tensión se acrecenta-ba, además, porque en esos días el PRI debía postular a su candidatoa la presidencia de la República. La negociación se había prolongadocasi cuatro años: se inició con un presidente republicano, GeorgeBush, y había concluido, sólo unos meses antes, con un presidentedemócrata, Bill Clinton. En Estados Unidos, la aprobación se habíaconvertido en un tema de especial trascendencia para el presidenteClinton.

Esa mañana, muy temprano, caminé dentro de Los Pinos de la residen-cia a la oficina presidencial. Los Pinos, nombre con el que se cono-cía al lugar que alojaba la residencia del Presidente de la Repúbli-ca en la Ciudad de México, fue una vasta propiedad vecina al venera-ble Bosque de Chapultepec, que el presidente Lázaro Cárdenas adqui-rió para el gobierno mexicano en los años treinta. Entonces sólocontaba con el viejo casco que sirvió de casa habitación y que yaremodelado acogía las oficinas privadas del Presidente.

Al llegar al antiguo Casco, ascendí las escaleras que llevaban aldespacho presidencial, al que había bautizado con el nombre de "Be-nito Juárez". Ahí colgué un cuadro de finales del siglo XIX, unapintura de cuerpo entero del mismo Juárez, en la que el pintor logroplasmar dos cualidades que siempre lo distinguieron: la serenidad yla firmeza. El despacho, entonces, era amplio. En el interior resal-taba un gran ventanal de piso a techo que permitía que los tonosverdes del jardín lo inundaran. Objeto de innumerables adaptacionessexenales, mi aportación a la casa fue ese ventanal. Lo diseñe yomismo con la idea de que la vista de los árboles, el césped, lasflores y en especial una palma monumental de más de cincuenta años,permitiera reducir la tensión que se acumulaba en una oficina en laque siempre entraban problemas y de la que necesariamente debíansalir soluciones.

Durante un día normal de trabajo acostumbraba atender numerososacuerdos, reuniones de gabinete y actos públicos. Esa mañana de no-viembre de 1993 había resuelto desahogar un programa muy moderado:al inicio, una reunión con el Procurador General y con los secreta-rios de Gobernación y de Relaciones Exteriores; al mediodía, laasistencia a la XX Asamblea General de la Asociación Iberoamericanade Cámaras de Comercio. El resto del tiempo quería dedicarlo a se-guir la votación del Tratado, en contacto permanente con el equipoencargado de poner en marcha las acciones previstas en caso de quela votación resultara adversa.

El debate en el Congreso norteamericano se inició a las 9:30 de lamañana, hora de Washington, 8:30 de México. Un testigo de la vota-

108

Page 117: INSTITUTO POLITÉCNICO NACIONALfranciscocastillo.com.mx/uploads/7/6/5/0/76507663/... · guajes con alternaciones irregulares de raíz (como por ejemplo, el español o ruso). En este

ción comentó que durante todos sus años en Washington nunca habíavisto filas tan largas en los pasillos para pasar a la tribuna ubi-cada dentro del salón de plenos del Capitolio. Así de grande era elinterés que el tema había generado. Ese miércoles 17 de noviembre de1993 iba a ser un día muy largo.

La Casa Blanca había establecido comunicación directa con mi ofici-na. El gobierno mexicano en pleno vivió la presión de esas horas deincertidumbre. La televisión y la radio mexicanas, así como la CNNde los Estados Unidos, transmitían sin interrupción los pormenoresdel debate; estaciones estadounidenses de radio se encadenaron desdeel Capitolio. La votación se transmitió en vivo. Más de 350 filialesen el mundo repitieron durante todo el día lo que ocurría en el re-cinto parlamentario. Al iniciarse los debates se confirmó la divi-sión entre los legisladores. El Congreso norteamericano fijó untiempo de ocho horas efectivas para las réplicas, con una hora adi-cional para discutir y votar los procedimientos. Eso significaba queel resultado no se conocería hasta la noche.

109

Page 118: INSTITUTO POLITÉCNICO NACIONALfranciscocastillo.com.mx/uploads/7/6/5/0/76507663/... · guajes con alternaciones irregulares de raíz (como por ejemplo, el español o ruso). En este

ANEXO 4. RESULTADO DE ANÁLISIS PARA ANEXO 3

(árboles)...[árbol]+Noun+Common+Masc+Pl(a)...[a]+Prep(a)...[a]+Let(años)...[año]+Noun+Common+Masc+Pl(acarrearía)...[acarrear]+Verb+Indic+Condic+3+Sg(acarrearía)...[acarrear]+Verb+Indic+Condic+1+Sg(acciones)...[acción]+Noun+Common+Fem+Pl(acogía)...[acoger]+Verb+Indic+PretImperf+3+Sg(acogía)...[acoger]+Verb+Indic+PretImperf+1+Sg(acostumbraba)...[acostumbrar]+Verb+Indic+PretImperf+3+Sg(acostumbraba)...[acostumbrar]+Verb+Indic+PretImperf+1+Sg(acrecentaba)...[acrecentar]+Verb+Indic+PretImperf+3+Sg(acrecentaba)...[acrecentar]+Verb+Indic+PretImperf+1+Sg(actos)...[acto]+Noun+Common+Masc+Pl(acuerdos)...[acuerdo]+Noun+Common+Masc+Pl(acumulaba)...[acumular]+Verb+Indic+PretImperf+3+Sg(acumulaba)...[acumular]+Verb+Indic+PretImperf+1+Sg(adaptaciones)...[adaptación]+Noun+Common+Fem+Pl(además)...[además]+Adv+General(adicional)...[adicional]+Adj+Gral+MF+Sg(adquirió)...[adquirir]+Verb+Indic+PretIndef+3+Sg(adversa)...[adverso]+Adj+Gral+Fem+Sg(agotadoras)...[agotador]+Adj+Gral+Fem+Pl(ahí)...[ahí]+Adv+General(al)...[al]+Contract(alojaba)...[alojar]+Verb+Indic+PretImperf+3+Sg(alojaba)...[alojar]+Verb+Indic+PretImperf+1+Sg(amplio)...[amplio]+Adj+Masc+Sg(analizado)...[analizar]+Verb+Partic(antes)...[antes]+Adv+General(antiguo)...[antiguo]+Noun+Common+Masc+Sg(antiguo)...[antiguo]+Adj+Masc+Sg(aportación)...[aportación]+Noun+Common+Fem+Sg(aprobación)...[aprobación]+Noun+Common+Fem+Sg(así)...[así]+Adv+General(así)...[asir]+Verb+Indic+PretIndef+1+Sg(asamblea)...[asamblea]+Noun+Common+Fem+Sg(ascendí)...[ascender]+Verb+Indic+PretIndef+1+Sg(asistencia)...[asistencia]+Noun+Common+Fem+Sg(asociación)...[asociación]+Noun+Common+Fem+Sg(atender)...[atender]+Verb+Indic(aumento)...[aumento]+Noun+Common+Masc+Sg(aumento)...[aumentar]+Verb+Indic+Present+1+Sg(bautizado)...[bautizar]+Verb+Partic(benito)...[benito]+Noun+PropNo se encontró raíz alguna para << bill >>(blanca)...[blanca]+Noun+Common+Fem+Sg(blanca)...[blanco]+Adj+Gral+Fem+Sg(bosque)...[bosque]+Noun+Common+Masc+SgNo se encontró raíz alguna para << bush >>

110

Page 119: INSTITUTO POLITÉCNICO NACIONALfranciscocastillo.com.mx/uploads/7/6/5/0/76507663/... · guajes con alternaciones irregulares de raíz (como por ejemplo, el español o ruso). En este

(cámaras)...[cámara]+Noun+Common+Fem+Pl(cárdenas)...[cárdeno]+Adj+Gral+Fem+Pl(césped)...[césped]+Noun+Common+Masc+Sg(cambiarlo)...[cambiar]+Verb+Clitic(caminé)...[caminar]+Verb+Indic+PretIndef+1+Sg(candidato)...[candidato]+Noun+Common+Masc+Sg(capitales)...[capital]+Adj+Gral+Masc+Pl(capitolio)...[capitolio]+Noun+Common+Masc+Sg(casa)...[casa]+Noun+Common+Fem+Sg(casa)...[casar]+Verb+Imper+Present+2+Sg(casa)...[casar]+Verb+Indic+Present+3+Sg(casco)...[casco]+Noun+Common+Masc+Sg(casi)...[casi]+Adv+General(caso)...[caso]+Noun+Common+Masc+Sg(caso)...[casar]+Verb+Indic+Present+1+SgNo se encontró raíz alguna para << chapultepec >>(cincuenta)...[cincuenta]+Num+Card(ciudad)...[ciudad]+Noun+Common+Fem+SgNo se encontró raíz alguna para << clinton >>No se encontró raíz alguna para << cnn >>(colgué)...[colgar]+Verb+Indic+PretIndef+1+Sg(comentó)...[comentar]+Verb+Indic+PretIndef+3+Sg(comercio)...[comercio]+Noun+Common+Masc+Sg(comercio)...[comerciar]+Verb+Indic+Present+1+Sg(como)...[como]+Conj(comunicación)...[comunicación]+Noun+Common+Fem+Sg(con)...[con]+Prep(concluido)...[concluir]+Verb+Partic(confirmó)...[confirmar]+Verb+Indic+PretIndef+3+Sg(congreso)...[congreso]+Noun+Common+Masc+Sg(conocía)...[conocer]+Verb+Indic+PretImperf+3+Sg(conocía)...[conocer]+Verb+Indic+PretImperf+1+Sg(conocería)...[conocer]+Verb+Indic+Condic+3+Sg(conocería)...[conocer]+Verb+Indic+Condic+1+Sg(contaba)...[contar]+Verb+Indic+PretImperf+3+Sg(contaba)...[contar]+Verb+Indic+PretImperf+1+Sg(contacto)...[contacto]+Noun+Common+Masc+Sg(convertido)...[convertir]+Verb+Partic(cuadro)...[cuadro]+Noun+Common+Masc+Sg(cuadro)...[cuadrar]+Verb+Indic+Present+1+Sg(cualidades)...[cualidad]+Noun+Common+Fem+Pl(cuatro)...[cuatro]+Num+Card(cuerpo)...[cuerpo]+Noun+Common+Masc+Sg(día)...[día]+Noun+Common+Masc+Sg(días)...[día]+Noun+Common+Masc+Pl(de)...[de]+Prep(debía)...[deber]+Verb+Indic+PretImperf+3+Sg(debía)...[deber]+Verb+Indic+PretImperf+1+Sg(debían)...[deber]+Verb+Indic+PretImperf+3+Pl(debate)...[debate]+Noun+Common+Masc+Sg(debate)...[debatir]+Verb+Imper+Present+2+Sg(debate)...[debatir]+Verb+Indic+Present+3+Sg(debates)...[debate]+Noun+Common+Masc+Pl(debates)...[debatir]+Verb+Indic+Present+2+Sg

111

Page 120: INSTITUTO POLITÉCNICO NACIONALfranciscocastillo.com.mx/uploads/7/6/5/0/76507663/... · guajes con alternaciones irregulares de raíz (como por ejemplo, el español o ruso). En este

(dedicarlo)...[dedicar]+Verb+Clitic(del)...[del]+Contract(demócrata)...[demócrata]+Adj+Gral+MF+Sg(dentro)...[dentro]+Adv+General(desahogar)...[desahogar]+Verb+Infin(descalabro)...[descalabro]+Noun+Common+Masc+Sg(descalabro)...[descalabrar]+Verb+Indic+Present+1+Sg(desde)...[desde]+Prep(despacho)...[despacho]+Noun+Common+Masc+Sg(despacho)...[despachar]+Verb+Indic+Present+1+Sg(directa)...[directo]+Adj+Gral+Fem+Sg(discutir)...[discutir]+Verb+Infin(diseñe)...[diseñar]+Verb+Imper+Present+(Ud.)+Sg(diseñe)...[diseñar]+Verb+Subj+Present+3+Sg(distinguieron)...[distinguir]+Verb+Indic+PretIndef+3+Pl(división)...[división]+Noun+Common+Fem+Sg(dos)...[dos]+Num+Card(durante)...[durante]+Prep(económico)...[económico]+Adj+Masc+Sg(efectivas)...[efectivo]+Adj+Gral+Fem+Pl(efectos)...[efecto]+Noun+Common+Masc+Pl(el)...[el]+Art+Det+Sg(en)...[en]+Prep(encadenaron)...[encadenar]+Verb+Indic+PretIndef+3+Pl(encargado)...[encargado]+Noun+Common+Masc+Sg(encargado)...[encargar]+Verb+Partic(entero)...[entero]+Noun+Common+Masc+Sg(entero)...[entero]+Adj+Masc+Sg(entonces)...[entonces]+Interj(entonces)...[entonces]+Adv+General(entonces)...[entonces]+Conj(entraban)...[entrar]+Verb+Indic+PretImperf+3+Pl(entre)...[entre]+Prep(equipo)...[equipo]+Noun+Common+Masc+Sg(equipo)...[equipar]+Verb+Indic+Present+1+Sg(era)...[era]+Noun+Common+Fem+Sg(era)...[era]+Verb+Ireg+Indic+PretImperf+1+Sg(era)...[era] +Verb+Ireg+Indic+PretImperf+3+Sg(esa)...[esa]+Pron+Dem+Fem+Sg(esas)...[esas]+Pron+Dem+Fem+Pl(escaleras)...[escalera]+Noun+Common+Fem+Pl(ese)...[ese]+Pron+Dem+Masc+Sg(eso)...[eso]+Pron+Dem(esos)...[esos]+Pron+Dem+Masc+Pl(especial)...[especial]+Adj+Gral+MF+Sg(establecido)...[establecer]+Verb+Partic(estaciones)...[estación]+Noun+Common+Fem+Pl(estados)...[estado]+Noun+Common+Masc+Pl(estadounidenses)...[estadounidense]+Noun+Common+Pl(exteriores)...[exterior]+Adj+Gral+Masc+Pl(fijó)...[fijar]+Verb+Indic+PretIndef+3+Sg(filas)...[fila]+Noun+Common+Fem+Pl(filiales)...[filial]+Adj+Gral+Masc+Pl(finales)...[final]+Adj+Gral+Masc+Pl

112

Page 121: INSTITUTO POLITÉCNICO NACIONALfranciscocastillo.com.mx/uploads/7/6/5/0/76507663/... · guajes con alternaciones irregulares de raíz (como por ejemplo, el español o ruso). En este

(firmeza)...[firmeza]+Noun+Common+Fem+Sg(flores)...[flor]+Noun+Common+Fem+Pl(fue)...[ir]+Verb+Ireg+Indic+PretIndef+3+Sg(gabinete)...[gabinete]+Noun+Common+Masc+Sg(generado)...[generar]+Verb+Partic(general)...[general]+Adj+Gral+MF+SgNo se encontró raíz alguna para << george >>(gobernación)...[gobernación]+Noun+Common+Fem+Sg(gobierno)...[gobierno]+Noun+Common+Masc+Sg(gobierno)...[gobernar]+Verb+Indic+Present+1+Sg(gran)...[gran]+Adj+Gral+MF+Sg(grande)...[grande]+Adj+Gral+MF+Sg(había)...[haber]+Verb+Ireg+Indic+PretImperf+1+Sg(habitación)...[habitación]+Noun+Common+Fem+Sg(hasta)...[hasta]+Prep(hora)...[hora]+Noun+Common+Fem+Sg(horas)...[hora]+Noun+Common+Fem+Pl(iba)...[ir]+Verb+Ireg+Indic+PretImperf+1+Sg(iberoamericana)...[iberoamericana]+Noun+Common+Fem+Sg(iberoamericana)...[iberoamericano]+Adj+Gral+Fem+Sg(idea)...[idea]+Noun+Common+Fem+Sg(idea)...[idear]+Verb+Imper+Present+2+Sg(idea)...[idear]+Verb+Indic+Present+3+Sg(incertidumbre)...[incertidumbre]+Noun+Common+Fem+Sg(inestabilidad)...[inestabilidad]+Noun+Common+Fem+Sg(inició)...[iniciar]+Verb+Indic+PretIndef+3+Sg(iniciarse)...[iniciar]+Verb+Clitic(inicio)...[inicio]+Noun+Common+Masc+Sg(inicio)...[iniciar]+Verb+Indic+Present+1+Sg(innumerables)...[innumerable]+Adj+Pl(interés)...[interés]+Noun+Common+Masc+Sg(interior)...[interior]+Adj+Gral+MF+Sg(interrupción)...[interrupción]+Noun+Common+Fem+Sg(inundaran)...[inundar]+Verb+Subj+PretImperf+3+Pl(irritación)...[irritación]+Noun+Common+Fem+Sg(jardín)...[jardín]+Noun+Common+Masc+Sg(juárez)...[juárez]+Noun+Prop(lázaro) ...[juárez]+Noun+Prop(la)...[la]+Pron+Pers+Fem+Sg(la)...[la]+Art+Det(largas)...[larga]+Noun+Common+Fem+Pl(largas)...[largo]+Adj+Gral+Fem+Pl(largo)...[largo]+Noun+Common+Masc+Sg(largo)...[largo]+Adj+Masc+Sg(las)...[laso]+Adj+Gral+MF+Sg(las)...[las]+Pron+Pers+Fem+Pl(las)...[las]+Art+Det(legisladores)...[legislador]+Adj+Gral+Masc+Pl(llegar)...[llegar]+Verb+Infin(llevaban)...[llevar]+Verb+Indic+PretImperf+3+Pl(lo)...[lo]+Noun+Common+Masc+Sg(lo)...[lo]+Pron+Pers+Masc+Sg(lo)...[lo]+Art+Det(logro)...[logro]+Noun+Common+Masc+Sg

113

Page 122: INSTITUTO POLITÉCNICO NACIONALfranciscocastillo.com.mx/uploads/7/6/5/0/76507663/... · guajes con alternaciones irregulares de raíz (como por ejemplo, el español o ruso). En este

(logro)...[lograr]+Verb+Indic+Present+1+Sg(los)...[lo]+Noun+Common+Masc+Pl(los)...[los]+Pron+Pers+Masc+Pl(los)...[los]+Art+Det(lugar)...[lugar]+Noun+Common+Masc+Sg(más)...[más]+ConjNo se encontró raíz alguna para << méxico >>(mañana)...[mañana]+Noun+Common+Fem+Sg(marcha)...[marcha]+Noun+Common+Fem+Sg(marcha)...[marchar]+Verb+Imper+Present+2+Sg(marcha)...[marchar]+Verb+Indic+Present+3+Sg(mediodía)...[mediodía]+Noun+Common+Masc+Sg(meses)...[mes]+Noun+Common+Masc+Pl(mexicanas)...[mexicana]+Noun+Common+Fem+Pl(mexicanas)...[mexicano]+Adj+Gral+Fem+Pl(mexicano)...[mexicano]+Noun+Common+Masc+Sg(mexicano)...[mexicano]+Adj+Masc+Sg(mi)...[mi]+Adj+Gral+MF+Sg(miércoles)...[miércoles]+Noun+Common+Masc+Sg(mismo)...[mismo]+Conj(moderado)...[moderado]+Noun+Common+Masc+Sg(moderado)...[moderado]+Adj+Masc+Sg(moderado)...[moderar]+Verb+Partic(monumental)...[monumental]+Adj+Gral+MF+Sg(mundo)...[mundo]+Noun+Common+Masc+Sg(muy)...[muy]+Adv+General(necesariamente)...[necesariamente]+Adv+General(negociación)...[negociación]+Noun+Common+Fem+Sg(no)...[no]+Noun+Common+Masc+Sg(noche)...[noche]+Noun+Common+Fem+Sg(nombre)...[nombre]+Noun+Common+Masc+Sg(nombre)...[nombrar]+Verb+Imper+Present+(Ud.)+Sg(nombre)...[nombrar]+Verb+Subj+Present+3+Sg(normal)...[normal]+Adj+Gral+MF+Sg(norteamericano)...[norteamericano]+Noun+Common+Masc+Sg(norteamericano)...[norteamericano]+Adj+Masc+Sg(noviembre)...[noviembre]+Noun+Common+Masc+Sg(numerosos)...[numeroso]+Adj+Gral+Masc+Pl(nunca)...[nunca]+Adv+General(objeto)...[objeto]+Noun+Common+Masc+Sg(objeto)...[objetar]+Verb+Indic+Present+1+Sg(ocho)...[ocho]+Num+Card(ocurría)...[ocurrir]+Verb+Indic+PretImperf+3+Sg(ocurría)...[ocurrir]+Verb+Indic+PretImperf+1+Sg(oficina)...[oficina]+Noun+Common+Fem+Sg(oficinas)...[oficina]+Noun+Common+Fem+Pl(públicos)...[público]+Noun+Common+Masc+Pl(públicos)...[público]+Adj+Gral+Masc+Pl(palma)...[palma]+Noun+Common+Fem+Sg(para)...[para]+Prep(parlamentario)...[parlamentario]+Noun+Common+Masc+Sg(parlamentario)...[parlamentario]+Adj+Masc+Sg(pasar)...[pasar]+Verb+Indic(pasillos)...[pasillo]+Noun+Common+Masc+Pl

114

Page 123: INSTITUTO POLITÉCNICO NACIONALfranciscocastillo.com.mx/uploads/7/6/5/0/76507663/... · guajes con alternaciones irregulares de raíz (como por ejemplo, el español o ruso). En este

(permanente)...[permanente]+Adj+Gral+MF+Sg(permitía)...[permitir]+Verb+Indic+PretImperf+3+Sg(permitía)...[permitir]+Verb+Indic+PretImperf+1+Sg(permitiera)...[permitir]+Verb+Subj+PretImperf+3+Sg(permitiera)...[permitir]+Verb+Subj+PretImperf+1+Sg(pinos)...[pino]+Noun+Common+Masc+Pl(pinos)...[pino]+Adj+Gral+Masc+Pl(pintor)...[pintor]+Noun+Common+Masc+Sg(pintura)...[pintura]+Noun+Common+Fem+Sg(piso)...[piso]+Noun+Common+Masc+Sg(piso)...[pisar]+Verb+Indic+Present+1+Sg(plasmar)...[plasmar]+Verb+Indic(pleno)...[pleno]+Noun+Common+Masc+Sg(pleno)...[pleno]+Adj+Masc+Sg(plenos)...[pleno]+Noun+Common+Masc+Pl(plenos)...[pleno]+Adj+Gral+Masc+Pl(política)...[política]+Noun+Common+Fem+Sg(política)...[político]+Adj+Gral+Fem+Sg(poner)...[poner]+Verb+Infin(pormenores)...[pormenor]+Noun+Common+Masc+Pl(porque)...[porque]+Conj(postular)...[postular]+Verb+Infin(precios)...[precioso]+Adj+Gral+MF+Sg(precios)...[precio]+Noun+Common+Masc+Pl(presión)...[presión]+Noun+Common+Fem+Sg(presidencia)...[presidencia]+Noun+Common+Fem+Sg(presidencial)...[presidencial]+Adj+Gral+MF+Sg(presidente)...[presidente]+Adj+Gral+MF+Sg(prevista)...[prever]+Verb+PartNo se encontró raíz alguna para << pri >>(privadas)...[privado]+Adj+Gral+Fem+Pl(problemas)...[problema]+Noun+Common+Masc+Pl(procedimientos)...[procedimiento]+Noun+Common+Masc+Pl(procurador)...[procurador]+Noun+Common+Masc+Sg(programa)...[programa]+Noun+Common+Masc+Sg(programa)...[programar]+Verb+Imper+Present+2+Sg(programa)...[programar]+Verb+Indic+Present+3+Sg(prolongado)...[prolongado]+Adj+Masc+Sg(prolongado)...[prolongar]+Verb+Partic(propiedad)...[propiedad]+Noun+Common+Fem+Sg(que)...[que]+Conj(quería)...[querer]+Verb+Indic+PretImperf+3+Sg(quería)...[querer]+Verb+Indic+PretImperf+1+Sg(réplicas)...[réplica]+Noun+Common+Fem+Pl(radio)...[radio]+Noun+Common+Masc+Sg(radio)...[radiar]+Verb+Indic+Present+1+Sg(rechazo)...[rechazo]+Noun+Common+Masc+Sg(rechazo)...[rechazar]+Verb+Indic+Present+1+Sg(recinto)...[recinto]+Noun+Common+Masc+Sg(reducir)...[reducir]+Verb+Inf(relaciones)...[relación]+Noun+Common+Fem+Pl(remodelado)...[remodelar]+Verb+Partic(república)...[república]+Noun+Common+Fem+Sg(repitieron)...[repetir]+Verb+Indic+PretIndef+3+Pl

115

Page 124: INSTITUTO POLITÉCNICO NACIONALfranciscocastillo.com.mx/uploads/7/6/5/0/76507663/... · guajes con alternaciones irregulares de raíz (como por ejemplo, el español o ruso). En este

(republicano)...[republicano]+Noun+Common+Masc+Sg(republicano)...[republicano]+Adj+Masc+Sg(resaltaba)...[resaltar]+Verb+Indic+PretImperf+3+Sg(resaltaba)...[resaltar]+Verb+Indic+PretImperf+1+Sg(residencia)...[residencia]+Noun+Common+Fem+Sg(resto)...[resto]+Noun+Common+Masc+Sg(resto)...[restar]+Verb+Indic+Present+1+Sg(resuelto)...[resuelto]+Adj+Masc+Sg(resultado)...[resultado]+Noun+Common+Masc+Sg(resultado)...[resultar]+Verb+Partic(resultara)...[resultar]+Verb+Subj+PretImperf+3+Sg(resultara)...[resultar]+Verb+Subj+PretImperf+1+Sg(reunión)...[reunión]+Noun+Common+Fem+Sg(reuniones)...[reunión]+Noun+Common+Fem+Pl(sólo)...[sólo]+Adv+General(salón)...[salón]+Noun+Common+Masc+Sg(salidas)...[salida]+Noun+Common+Fem+Pl(salir)...[salir]+Verb+Inf(se)...[se]+Pron+Pers(secretarios)...[secretario]+Noun+Common+Masc+Pl(seguir)...[seguir]+Verb+Inf(ser)...[ser]+Noun+Common+Masc+Sg(serenidad)...[serenidad]+Noun+Common+Fem+Sg(sesiones)...[sesión]+Noun+Common+Fem+PlNo se encontró raíz alguna para << sexenales >>(siempre)...[siempre]+Conj(siglo)...[siglo]+Noun+Common+Masc+Sg(significaba)...[significar]+Verb+Indic+PretImperf+3+Sg(significaba)...[significar]+Verb+Indic+PretImperf+1+Sg(sin)...[sin]+Prep(sirvió)...[servir]+Verb+Indic+PretIndef+3+Sg(social)...[social]+Adj+Gral+MF+Sg(soluciones)...[solución]+Noun+Common+Fem+Pl(su)...[su]+Pron+Pos+Sg(sus)...[sus]+Pron+Pos+Pl(tan)...[tan]+Adv+General(techo)...[techo]+Noun+Common+Masc+Sg(televisión)...[televisión]+Noun+Common+Fem+Sg(tema)...[tema]+Noun+Common+Masc+Sg(tema)...[temer]+Verb+Imper+Present+(Ud.)+Sg(tema)...[temer]+Verb+Subj+Present+3+Sg(temprano)...[temprano]+Adv+General(tensión)...[tensión]+Noun+Common+Fem+Sg(testigo)...[testigo]+Noun+Common+Masc+Sg(tiempo)...[tiempo]+Noun+Common+Masc+SgNo se encontró raíz alguna para << tlc >>(todo)...[todo]+Noun+Common+Masc+Sg(todo)...[todo]+Adj+Masc+Sg(todos)...[todo]+Noun+Common+Masc+Pl(todos)...[todo]+Adj+Gral+Masc+Pl(tonos)...[tono]+Noun+Common+Masc+Pl(trabajo)...[trabajo]+Noun+Common+Masc+Sg(trabajo)...[trabajar]+Verb+Indic+Present+1+Sg(transmitían)...[transmitir]+Verb+Indic+PretImperf+3+Pl

116

Page 125: INSTITUTO POLITÉCNICO NACIONALfranciscocastillo.com.mx/uploads/7/6/5/0/76507663/... · guajes con alternaciones irregulares de raíz (como por ejemplo, el español o ruso). En este

(transmitió)...[transmitir]+Verb+Indic+PretIndef+3+Sg(trascendencia)...[trascendencia]+Noun+Common+Fem+Sg(tratado)...[tratado]+Noun+Common+Masc+Sg(tratado)...[tratar]+Verb+Partic(treinta)...[treinta]+Num+Card(tribuna)...[tribuna]+Noun+Common+Fem+Sg(ubicada)...[ubicar]+Verb+Part(un)...[un]+Adj+Gral+MF+Sg(una)...[una]+Art+Indet+Fem+Sg(unidos)...[unido]+Adj+Gral+Masc+Pl(unos)...[unos]+Art+Indet+Masc+Pl(vasta)...[vasto]+Adj+Gral+Fem+Sg(vecina)...[vecina]+Noun+Common+Fem+Sg(vecina)...[vecino]+Adj+Gral+Fem+Sg(venerable)...[venerable]+Adj+Gral+MF+Sg(ventanal)...[ventanal]+Noun+Common+Masc+Sg(verdes)...[verde]+Adj+Invar+Pl(verdes)...[verde]+Noun+Common+Masc+Pl(viejo)...[viejo]+Noun+Common+Masc+Sg(viejo)...[viejo]+Adj+Masc+Sg(vista)...[vista]+Noun+Common+Fem+Sg(vista)...[vestir]+Verb+Imper+Present+(Ud.)+Sg(vista)...[vestir]+Verb+Subj+Present+3+Sg(visto)...[visto]+Noun+Common+Masc+Sg(visto)...[vestir]+Verb+Indic+Present+1+Sg(vivió)...[vivir]+Verb+Indic+PretIndef+3+Sg(vivo)...[vivir]+Verb+Indic+Present+1+Sg(vivo)...[vivo]+Noun+Common+Masc+Sg(vivo)...[vivo]+Adj+Masc+Sg(votación)...[votación]+Noun+Common+Fem+Sg(votar)...[votar]+Verb+InfNo se encontró raíz alguna para << washington >>No se encontró raíz alguna para << xix >>No se encontró raíz alguna para << xx >>(y)...[y]+Conj(ya)...[ya]+Conj(yo)...[yo]+Pron+Pers

117

Page 126: INSTITUTO POLITÉCNICO NACIONALfranciscocastillo.com.mx/uploads/7/6/5/0/76507663/... · guajes con alternaciones irregulares de raíz (como por ejemplo, el español o ruso). En este

ANEXO 5. ARCHIVO DE PRUEBA PARA ANÁLISIS

LA VIDA DE LAZARILLO DE TORMES Y DE SUS FORTUNAS Y ADVERSIDADESAutor desconocido.Edición de Burgos, 1554.{Interpolaciones de la edición de Alcalá}Tratado TerceroCómo Lázaro se asentó con un escudero, y de lo que le acaeció con él

Pidióme el jarro del agua y díselo como lo había traído. Es señalque, pues no le faltaba el agua, que no le había a mi amo sobrado lacomida. Bebimos, y muy contentos nos fuimos a dormir como la nochepasada.

Y por evitar prolijidad, desta manera estuvimos ocho o diez días,yéndose el pecador en la mañana con aquel contento y paso contado apapar aire por las calles, teniendo en el pobre Lázaro una cabeza delobo. Contemplaba yo muchas veces mi desastre, que escapando de losamos ruines que había tenido y buscando mejoría, viniese a topar conquien no solo no me mantuviese, mas a quien yo había de mantener.

Con todo, le quería bien, con ver que no tenía ni podía más, y antesle había lástima que enemistad; y muchas veces, por llevar a la po-sada con que él lo pasase, yo lo pasaba mal. Porque una mañana, le-vantándose el triste en camisa, subió a lo alto de la casa a hacersus menesteres, y en tanto yo, por salir de sospecha, desenvolvíleel jubón y las calzas que a la cabecera dejó, y hallé una bolsillade terciopelo raso hecho cien dobleces y sin maldita la blanca niseñal que la hobiese tenido mucho tiempo.

"Éste -decía yo- es pobre y nadie da lo que no tiene. Mas el ava-riento ciego y el malaventurado mezquino clérigo que, con dárseloDios a ambos, al uno de mano besada y al otro de lengua suelta, memataban de hambre, aquéllos es justo desamar y aquéste de haber man-cilla."

Dios es testigo que hoy día, cuando topo con alguno de su hábito,con aquel paso y pompa, le he lástima, con pensar si padece lo queaquél le vi sufrir; al cual con toda su pobreza holgaría de servirmás que a los otros por lo que he dicho. Sólo tenía dél un poco dedescontento: que quisiera yo me no tuviera tanta presunción, mas queabajara un poco su fantasía con lo mucho que subía su necesidad.Mas, según me parece, es regla ya entre ellos usada y guardada; aun-que no haya cornado de trueco, ha de andar el birrete en su lugar.El Señor lo remedie, que ya con este mal han de morir.

Pues, estando yo en tal estado, pasando la vida que digo, quiso mimala fortuna, que de perseguirme no era satisfecha, que en aquellatrabajada y vergonzosa vivienda no durase. Y fue, como el año enesta tierra fuese estéril de pan, acordaron el Ayuntamiento que to-dos los pobres estranjeros se fuesen de la ciudad, con pregón que elque de allí adelante topasen fuese punido con azotes. Y así, ejecu-

118

Page 127: INSTITUTO POLITÉCNICO NACIONALfranciscocastillo.com.mx/uploads/7/6/5/0/76507663/... · guajes con alternaciones irregulares de raíz (como por ejemplo, el español o ruso). En este

tando la ley, desde a cuatro días que el pregón se dio, vi llevaruna procesión de pobres azotando por las Cuatro Calles, lo cual mepuso tan gran espanto, que nunca osé desmandarme a demandar.

Aquí viera, quien vello pudiera, la abstinencia de mi casa y latristeza y silencio de los moradores, tanto que nos acaeció estardos o tres días sin comer bocado, ni hablaba palabra. A mí diéronmela vida unas mujercillas hilanderas de algodón, que hacían bonetes yvivían par de nosotros, con las cuales yo tuve vecindad y conoci-miento; que de la laceria que les traían me daban alguna cosilla,con la cual muy pasado me pasaba.

Y no tenía tanta lástima de mí como del lastimado de mi amo, que enocho días maldito el bocado que comió. A lo menos, en casa bien loestuvimos sin comer. No sé yo cómo o dónde andaba y qué comía. ¡Yvelle venir a mediodía la calle abajo con estirado cuerpo, más largoque galgo de buena casta! Y por lo que toca a su negra que dicenhonra, tomaba una paja de las que aun asaz no había en casa, y salíaa la puerta escarbando los dientes que nada entre sí tenían, queján-dose todavía de aquel mal solar diciendo:

"Malo está de ver, que la desdicha desta vivienda lo hace. Como ves,es lóbrega, triste, obscura. Mientras aquí estuviéremos, hemos depadecer. Ya deseo que se acabe este mes por salir della."

Pues, estando en esta afligida y hambrienta persecución un día, nosé por cual dicha o ventura, en el pobre poder de mi amo entró unreal, con el cual él vino a casa tan ufano como si tuviera el tesorode Venecia; y con gesto muy alegre y risueño me lo dio, diciendo:

"Toma, Lázaro, que Dios ya va abriendo su mano. Ve a la plaza y mer-ca pan y vino y carne: ¡quebremos el ojo al diablo! Y más, te hagosaber, porque te huelgues, que he alquilado otra casa, y en ésta de-sastrada no hemos de estar más de en cumplimiento el mes. ¡Malditasea ella y el que en ella puso la primera teja, que con mal en ellaentré! Por Nuestro Señor, cuanto ha que en ella vivo, gota de vinoni bocado de carne no he comido, ni he habido descanso ninguno; mas¡tal vista tiene y tal obscuridad y tristeza! Ve y ven presto, y co-mamos hoy como condes."

Tomo mi real y jarro y a los pies dándoles priesa, comienzo a subirmi calle encaminando mis pasos para la plaza muy contento y alegre.Mas ¿qué me aprovecha si está constituido en mi triste fortuna queningún gozo me venga sin zozobra? Y ansí fue éste; porque yendo lacalle arriba, echando mi cuenta en lo que le emplearía que fuese me-jor y más provechosamente gastado, dando infinitas gracias a Diosque a mi amo había hecho con dinero, a deshora me vino al encuentroun muerto, que por la calle abajo muchos clérigos y gente en unasandas traían. Arriméme a la pared por darles lugar, y desque elcuerpo pasó, venían luego a par del lecho una que debía ser mujerdel difunto, cargada de luto, y con ella otras muchas mujeres; lacual iba llorando a grandes voces y diciendo:

119

Page 128: INSTITUTO POLITÉCNICO NACIONALfranciscocastillo.com.mx/uploads/7/6/5/0/76507663/... · guajes con alternaciones irregulares de raíz (como por ejemplo, el español o ruso). En este

"Marido y señor mío, ¿adónde os me llevan? ¡A la casa triste y des-dichada, a la casa lóbrega y obscura, a la casa donde nunca comen nibeben!"

Yo que aquello oí, juntóseme el cielo con la tierra, y dije:

"¡Oh desdichado de mí! Para mi casa llevan este muerto."

Dejo el camino que llevaba y hendí por medio de la gente, y vuelvopor la calle abajo a todo el más correr que pude para mi casa, y en-trando en ella cierro a grande priesa, invocando el auxilio y favorde mi amo, abrazándome dél, que me venga a ayudar y a defender laentrada. El cual algo alterado, pensando que fuese otra cosa, medijo:

"¿Qué es eso, mozo? ¿Qué voces das? ¿Qué has? ¿Por qué cierras lapuerta con tal furia?"

"¡Oh señor -dije yo- acuda aquí, que nos traen acá un muerto!"

"¿Cómo así?", respondió él.

"Aquí arriba lo encontré, y venía diciendo su mujer: "Marido y señormio, ¿adónde os llevan? ¡A la casa lóbrega y obscura, a la casatriste y desdichada, a la casa donde nunca comen ni beben! Acá, se-ñor, nos le traen."

Y ciertamente, cuando mi amo esto oyó, aunque no tenía por qué estarmuy risueño, rio tanto que muy gran rato estuvo sin poder hablar. Eneste tiempo tenía ya yo echada la aldaba a la puerta y puesto elhombro en ella por más defensa. Pasó la gente con su muerto, y yotodavía me recelaba que nos le habían de meter en casa; y despuésfue ya más harto de reír que de comer, el bueno de mi amo díjome:

"Verdad es, Lázaro; según la viuda lo va diciendo, tú tuviste razónde pensar lo que pensaste. Mas, pues Dios lo ha hecho mejor y pasanadelante, abre, abre, y ve por de comer."

"Dejálos, señor, acaben de pasar la calle", dije yo.

Al fin vino mi amo a la puerta de la calle, y ábrela esforzándome,que bien era menester, según el miedo y alteración, y me torno a en-caminar. Mas aunque comimos bien aquel día, maldito el gusto yo to-maba en ello, ni en aquellos tres días torné en mi color; y mi amomuy risueño todas las veces que se le acordaba aquella mi cosidera-ción.

120

Page 129: INSTITUTO POLITÉCNICO NACIONALfranciscocastillo.com.mx/uploads/7/6/5/0/76507663/... · guajes con alternaciones irregulares de raíz (como por ejemplo, el español o ruso). En este

ANEXO 6. RESULTADO DE ANÁLISIS PARA ANEXO 5

(él)...[él]+Pron+Pers+Masc+Sg(ésta)...[ésta]+Pron+Dem+Fem+Sg(éste)...[éste]+Pron+Dem+Masc+Sg(a)...[a]+Let(a)...[a]+Prep(año)...[año]+Noun+Common+Masc+Sg(abajara)...[abajar]+Verb+Subj+PretImperf+3+Sg(abajara)...[abajar]+Verb+Subj+PretImperf+1+Sg(abajo)...[abajo]+Adv+General(abrazándome)...[abrazar]+Verb+Clitic(abre)...[abrir]+Verb+Imper+Present+2+Sg(abre)...[abrir]+Verb+Indic+Present+3+Sg(abriendo)...[abrir]+Verb+Gerund(abstinencia)...[abstinencia]+Noun+Common+Fem+Sg(acá)...[acá]+Adv+General(acabe)...[acabar]+Verb+Imper+Present+(Ud.)+Sg(acabe)...[acabar]+Verb+Subj+Present+3+Sg(acaben)...[acabar]+Verb+Imper+Present+3+Pl(acaben)...[acabar]+Verb+Subj+Present+3+Pl(acaeció)...[acaecer]+Verb+Indic+PretIndef+3+Sg(acordaba)...[acordar]+Verb+Indic+PretImperf+3+Sg(acordaba)...[acordar]+Verb+Indic+PretImperf+1+Sg(acordaron)...[acordar]+Verb+Indic+PretIndef+3+Pl(acuda)...[acudir]+Verb+Imper+Present+(Ud.)+Sg(acuda)...[acudir]+Verb+Subj+Present+3+Sg(adónde)...[adónde]+Adv+General(adelante)...[adelante]+Adv+General(adversidades)...[adversidad]+Noun+Common+Fem+Pl(afligida)...[afligido]+Adj+Gral+Fem+Sg(agua)...[agua]+Noun+Common+Fem+Sg(aire)...[aire]+Noun+Common+Masc+Sg(al)...[al]+ContractNo se encontró raíz alguna para << alcalá >>(aldaba)...[aldaba]+Noun+Common+Fem+Sg(alegre)...[alegre]+Adj+Gral+MF+Sg(alegre)...[alegrar]+Verb+Imper+Present+(Ud.)+Sg(alegre)...[alegrar]+Verb+Subj+Present+3+Sg(algo)...[algo]+Adv+General(algodón)...[algodón]+Noun+Common+Masc+Sg(alguna)...[alguna]+Adj+Gral+MF+Sg(alguno)...[alguno]+Adj+Gral+MF+Sg(allí)...[allí]+Adv+General(alquilado)...[alquilar]+Verb+Partic(alteración)...[alteración]+Noun+Common+Fem+Sg(alterado)...[alterar]+Verb+Partic(alto)...[alto]+Adj+Gral+MF+Sg(alto)...[alto]+Noun+Common+Masc+Sg(alto)...[alto]+Adv+General(ambos)...[ambos]+Adj+Gral+MF+Sg(amo)...[amo]+Noun+Common+Masc+Sg(amos)...[amo]+Noun+Common+Masc+Pl

121

Page 130: INSTITUTO POLITÉCNICO NACIONALfranciscocastillo.com.mx/uploads/7/6/5/0/76507663/... · guajes con alternaciones irregulares de raíz (como por ejemplo, el español o ruso). En este

(andar)...[andar]+Noun+Common+Masc+Sg(andas)...[andas]+Noun+Common+Fem+SgNo se encontró raíz alguna para << ansí >>(antes)...[antes]+Adv+General(aprovecha)...[aprovechar]+Verb+Imper+Present+2+Sg(aprovecha)...[aprovechar]+Verb+Indic+Present+3+Sg(aquél)...[aquél]+Pron+Dem+Masc+Sg(aquéllos)...[aquéllos]+Pron+Dem+Masc+Pl(aquéste)...[aquéste]+Pron+Dem(aquí)...[aquí]+Adv+General(aquel)...[aquel]+Pron+Dem+Masc+Sg(aquella)...[aquella]+Pron+Dem+Fem+Sg(aquello)...[aquello]+Pron+Dem(aquellos)...[aquellos]+Pron+Dem+Masc+Pl(arriba)...[arriba]+Interj(arriba)...[arriba]+Adv+General(arriméme)...[arrimar]+Verb+Clitic(así)...[así]+Adj+Gral+MF+Sg(así)...[asir]+Verb+Indic+PretIndef+1+Sg(así)...[así]+Conj(así)...[así]+Adv+General(asaz)...[asaz]+Adj+Gral+MF+Sg(asaz)...[asaz]+Adv+General(asentó)...[asentar]+Verb+Indic+PretIndef+3+Sg(aun)...[aun]+Adv+General(aunque)...[aunque]+Conj(autor)...[autor]+Noun+Common+Masc+Sg(auxilio)...[auxilio]+Noun+Common+Masc+Sg(auxilio)...[auxiliar]+Verb+Indic+Present+1+Sg(avariento)...[avariento]+Adj+Gral+Masc+Sg(avariento)...[avariento]+Noun+Common+Masc+Sg(ayudar)...[ayudar]+Verb+Indic(ayuntamiento)...[ayuntamiento]+Noun+Common+Masc+Sg(azotando)...[azotar]+Verb+Gerund(azotes)...[azote]+Noun+Common+Masc+Pl(azotes)...[azotar]+Verb+Subj+Present+2+Sg(beben)...[beber]+Verb+Indic+Present+3+Pl(bebimos)...[beber]+Verb+Indic+PretIndef+1+Pl(besada)...[besado]+Adj+Gral+Fem+Sg(bien)...[bien]+Noun+Common+Masc+Sg(bien)...[bien]+Adv+General(birrete)...[birrete]+Noun+Common+Masc+Sg(blanca)...[blanco]+Adj+Gral+Fem+Sg(blanca)...[blanca]+Noun+Common+Fem+Sg(bocado)...[bocado]+Noun+Common+Masc+SgNo se encontró raíz alguna para << bolsilla >>(bonetes)...[bonete]+Noun+Common+Masc+Pl(buena)...[buena]+Adj+Gral+Fem+Sg(buena)...[buena]+Noun+Common+Fem+Sg(bueno)...[bueno]+Adj+Gral+Masc+Sg(burgos)...[burgo]+Noun+Common+Masc+Pl(buscando)...[buscar]+Verb+Gerund(cómo)...[cómo]+Adv+General(cabecera)...[cabecera]+Noun+Common+Fem+Sg

122

Page 131: INSTITUTO POLITÉCNICO NACIONALfranciscocastillo.com.mx/uploads/7/6/5/0/76507663/... · guajes con alternaciones irregulares de raíz (como por ejemplo, el español o ruso). En este

(cabeza)...[cabeza]+Noun+Common+MF+Sg(cabeza)...[cabeza]+Noun+Common+MF+Sg(calle)...[calle]+Noun+Common+Fem+Sg(calle)...[callar]+Verb+Imper+Present+(Ud.)+Sg(calle)...[callar]+Verb+Subj+Present+3+Sg(calles)...[calle]+Noun+Common+Fem+Pl(calles)...[callar]+Verb+Subj+Present+2+Sg(calzas)...[calza]+Noun+Common+Fem+Pl(calzas)...[calzar]+Verb+Indic+Present+2+Sg(camino)...[camino]+Noun+Common+Masc+Sg(camino)...[caminar]+Verb+Indic+Present+1+Sg(camisa)...[camisa]+Noun+Common+Masc+Sg(cargada)...[cargada]+Adj+Gral+Fem+Sg(carne)...[carne]+Noun+Common+Fem+Sg(casa)...[casa]+Noun+Common+Fem+Sg(casa)...[casar]+Verb+Imper+Present+2+Sg(casa)...[casar]+Verb+Indic+Present+3+Sg(casta)...[casta]+Noun+Common+Fem+Sg(ciego)...[ciego]+Adj+Gral+Masc+Sg(cielo)...[cielo]+Noun+Common+Masc+Sg(cierras)...[cerrar]+Verb+Indic+Present+2+Sg(cierro)...[cerrar]+Verb+Indic+Present+1+Sg(ciertamente)...[ciertamente]+Adv+General(ciudad)...[ciudad]+Noun+Common+Fem+Sg(clérigo)...[clérigo]+Noun+Common+Masc+Sg(clérigos)...[clérigo]+Noun+Common+Masc+Pl(color)...[color]+Noun+Common+Masc+Sg(comía)...[comer]+Verb+Indic+PretImperf+3+Sg(comía)...[comer]+Verb+Indic+PretImperf+1+Sg(comamos)...[comer]+Verb+Subj+Present+1+Pl(comen)...[comer]+Verb+Indic+Present+3+Pl(comer)...[comer]+Noun+Common+MF+Sg(comer)...[comer]+Verb+Indic(comió)...[comer]+Verb+Indic+PretIndef+3+Sg(comida)...[comida]+Noun+Common+Fem+Sg(comida)...[comedir]+Verb+Imper+Present+(Ud.)+Sg(comida)...[comedir]+Verb+Subj+Present+3+Sg(comido)...[comido]+Adj+Gral+MF+Sg(comido)...[comedir]+Verb+Indic+Present+1+Sg(comido)...[comer]+Verb+Partic(comienzo)...[comienzo]+Noun+Common+Masc+Sg(comimos)...[comer]+Verb+Indic+PretIndef+1+Pl(como)...[como]+Conj(como)...[como]+Adv+General(con)...[con]+Prep(condes)...[conde]+Noun+Common+Masc+Pl(conocimiento)...[conocimiento]+Noun+Common+Masc+Sg(constituido)...[constituir]+Verb+Partic(contado)...[contado]+Adj+Gral+MF+Sg(contado)...[contado]+Noun+Common+Masc+Sg(contado)...[contar]+Verb+Partic(contemplaba)...[contemplar]+Verb+Indic+PretImperf+3+Sg(contemplaba)...[contemplar]+Verb+Indic+PretImperf+1+Sg(contento)...[contento]+Adj+Gral+MF+Sg

123

Page 132: INSTITUTO POLITÉCNICO NACIONALfranciscocastillo.com.mx/uploads/7/6/5/0/76507663/... · guajes con alternaciones irregulares de raíz (como por ejemplo, el español o ruso). En este

(contento)...[contento]+Noun+Common+Masc+Sg(contento)...[contentar]+Verb+Indic+Present+1+Sg(contentos)...[contento]+Adj+Gral+MF+Pl(contentos)...[contento]+Noun+Common+Masc+Pl(cornado)...[cornado]+Noun+Common+Masc+Sg(correr)...[correr]+Verb+Indic(cosa)...[cosa]+Noun+Common+Fem+Sg(cosa)...[coser]+Verb+Imper+Present+(Ud.)+Sg(cosa)...[coser]+Verb+Subj+Present+3+SgNo se encontró raíz alguna para << cosideración >>No se encontró raíz alguna para << cosilla >>(cual)...[cual]+Adj+Gral+MF+Sg(cual)...[cual]+Adv+General(cuales)...[cual]+Adj+Gral+MF+Pl(cuando)...[cuando]+Conj(cuando)...[cuando]+Adv+General(cuanto)...[cuanto]+Noun+Common+Masc+Sg(cuatro)...[cuatro]+Noun+Common+Masc+Sg(cuenta)...[cuenta]+Noun+Common+Fem+Sg(cuenta)...[contar]+Verb+Imper+Present+2+Sg(cuenta)...[contar]+Verb+Indic+Present+3+Sg(cuerpo)...[cuerpo]+Noun+Common+Masc+Sg(cumplimiento)...[cumplimiento]+Noun+Common+Masc+Sg(dándoles)...[dar]+Verb+Clitic(dárselo)...[dar] +Verb+Clitic(dél)...[dél]+Contract(día)...[día]+Noun+Common+Masc+Sg(días)...[día]+Noun+Common+Masc+Pl(díjome)...[decir]+Verb+Clitic(díselo)...[decir]+Verb+Clitic(dónde)...[dónde]+Adv+General(da)...[dar]+Verb+Ireg+Indic+Present+3+Sg(da)...[dar]+Verb+Ireg+Imper+2+Sg(daban)...[dar]+Verb+Ireg+Indic+PretImperf+3+Pl(dando)...[dar]+Verb+Ireg+Gerund(darles)...[dar]+Verb+Clitic(das)...[dar]+Verb+Ireg+Indic+Present+2+Sg(de)...[de]+Prep(debía)...[deber]+Verb+Indic+PretImperf+3+Sg(debía)...[deber]+Verb+Indic+PretImperf+1+Sg(decía)...[decir]+Verb+Ireg+Indic+PretImperf+1+Sg(decía)...[decir]+Verb+Ireg+Indic+PretImperf+3+Sg(defender)...[defender]+Verb+Indic(defensa)...[defensa]+Noun+Common+MF+Sg(defensa)...[defensa]+Noun+Common+MF+Sg(dejálos)...[dejar]+Verb+Clitic(dejó)...[dejar]+Verb+Indic+PretIndef+3+Sg(dejo)...[dejo]+Noun+Common+Masc+Sg(dejo)...[dejar]+Verb+Indic+Present+1+Sg(del)...[del]+ContractNo se encontró raíz alguna para << della >>(demandar)...[demandar]+Verb+Indic(desamar)...[desamar]+Verb+Indic(desastrada)...[desastrada]+Adj+Gral+Fem+Sg

124

Page 133: INSTITUTO POLITÉCNICO NACIONALfranciscocastillo.com.mx/uploads/7/6/5/0/76507663/... · guajes con alternaciones irregulares de raíz (como por ejemplo, el español o ruso). En este

(desastre)...[desastre]+Noun+Common+Masc+Sg(descanso)...[descanso]+Interj(descanso)...[descanso]+Noun+Common+Masc+Sg(descanso)...[descansar]+Verb+Indic+Present+1+Sg(desconocido)...[desconocido]+Adj+Gral+Masc+Sg(desconocido)...[desconocido]+Noun+Common+Masc+Sg(desconocido)...[desconocer]+Verb+Partic(descontento)...[descontento]+Adj+Gral+Masc+Sg(descontento)...[descontento]+Noun+Common+Masc+Sg(desde)...[desde]+Prep(desdicha)...[desdicha]+Noun+Common+Fem+Sg(desdichada)...[desdichada]+Adj+Gral+Fem+Sg(desdichada)...[desdichada]+Noun+Common+Fem+Sg(desdichado)...[desdichado]+Adj+Gral+Masc+Sg(desdichado)...[desdichado]+Noun+Common+Masc+Sg(desenvolvíle)...[desenvolver]+Verb+Clitic(deseo)...[deseo]+Noun+Common+Masc+Sg(deseo)...[desear]+Verb+Indic+Present+1+Sg(deshora)...[deshora]+Noun+Common+Fem+Sg(desmandarme)...[desmandar]+Verb+Clitic(después)...[después]+Adv+General(desque)...[desque]+ConjNo se encontró raíz alguna para << desta >>(diéronme)...[dar]+Verb+Clitic(diablo)...[diablo]+Noun+Common+Masc+Sg(dicen)...[decir]+Verb+Ireg+Indic+Present+3+Pl(dicha)...[dicha]+Noun+Common+Fem+Sg(dicho)...[dicho]+Noun+Common+Masc+Sg(dicho)...[decir]+Verb+Ireg+Partic(diciendo)...[decir]+Verb+Ireg+Gerund(dientes)...[diente]+Noun+Common+Masc+Pl(diez)...[diez]+Noun+Common+Masc+Sg(difunto)...[difunto]+Adj+Gral+Masc+Sg(difunto)...[difunto]+Noun+Common+Masc+Sg(digo)...[decir]+Verb+Ireg+Indic+Present+1+Sg(dije)...[decir]+Verb+Ireg+Indic+PretIndef+1+Sg(dijo)...[decir]+Verb+Ireg+Indic+PretIndef+3+Sg(dinero)...[dinero]+Noun+Common+Masc+Sg(dio)...[dar]+Verb+Ireg+Indic+PretIndef+3+Sg(dios)...[dios]+Interj(dios)...[dios]+Noun+Common+Masc+Sg(dobleces)...[doblez]+Noun+Common+Masc+Pl(donde)...[donde]+Adv+General(dormir)...[dormir]+Verb+Ireg+Inf(dos)...[dos]+Noun+Common+Masc+Sg(dos)...[do]+Noun+Common+Masc+Pl(echando)...[echar]+Verb+Gerund(edición)...[edición]+Noun+Common+Fem+Sg(ejecutando)...[ejecutar]+Verb+Gerund(el)...[el]+Art+Det+Sg(ella)...[ella]+Pron+Pers+Fem+Sg(ello)...[ello]+Noun+Common+Masc+Sg(ellos)...[ellos]+Pron+Pers+Masc+Pl(emplearía)...[emplear]+Verb+Indic+Condic+3+Sg

125

Page 134: INSTITUTO POLITÉCNICO NACIONALfranciscocastillo.com.mx/uploads/7/6/5/0/76507663/... · guajes con alternaciones irregulares de raíz (como por ejemplo, el español o ruso). En este

(emplearía)...[emplear]+Verb+Indic+Condic+1+Sg(en)...[en]+Prep(encaminando)...[encaminar]+Verb+Gerund(encaminar)...[encaminar]+Verb+Indic(encontré)...[encontrar]+Verb+Indic+PretIndef+1+Sg(encuentro)...[encuentro]+Noun+Common+Masc+Sg(encuentro)...[encontrar]+Verb+Indic+Present+1+Sg(enemistad)...[enemistar]+Verb+Imper+Present+2+Pl(entré)...[entrar]+Verb+Indic+PretIndef+1+Sg(entró)...[entrar]+Verb+Indic+PretIndef+3+Sg(entrada)...[entrada]+Noun+Common+Fem+Sg(entrando)...[entrar]+Verb+Gerund(entre)...[entre]+Prep(era)...[era]+Noun+Common+Fem+Sg(era)...[ser]+Verb+Ireg+Indic+PretImperf+1+Sg(era)...[ser]+Verb+Ireg+Indic+PretImperf+3+Sg(es)...[ser]+Verb+Ireg+Indic+Present+3+Sg(escapando)...[escapar]+Verb+Gerund(escarbando)...[escarbar]+Verb+Gerund(escudero)...[escudero]+Noun+Common+Masc+Sg(esforzándome)...[esforzar]+Verb+Clitic(eso)...[eso]+Pron+Dem(espanto)...[espanto]+Noun+Common+Masc+Sg(espanto)...[espantar]+Verb+Indic+Present+1+Sg(está)...[estar]+Verb+Ireg+Indic+Present+3+Sg(está)...[estar]+Verb+Ireg+Imper+2+Sg(estéril)...[estéril]+Adj+Gral+MF+Sg(esta)...[esta]+Pron+Dem+Fem+Sg(estado)...[estado]+Noun+Common+Masc+Sg(estado)...[estar]+Verb+Indic+Present+1+Sg(estado)...[estar]+Verb+Ireg+Partic(estando)...[estar]+Verb+Ireg+Gerund(estar)...[estar]+Verb+Ireg+Infin(este)...[este]+Pron+Dem+Masc+Sg(estirado)...[estirado]+Adj+Gral+MF+Sg(estirado)...[estirar]+Verb+Partic(esto)...[esto]+Pron+DemNo se encontró raíz alguna para << estranjeros >>(estuviéremos)...[estar]+Verb+Ireg+Subj+Fut+1+Pl(estuviéremos)...[estar]+Verb+Clitic(estuvimos)...[estar]+Verb+Ireg+Indic+PretIndef+1+Pl(estuvo)...[estar]+Verb+Ireg+Indic+PretIndef+3+Sg(evitar)...[evitar]+Verb+Indic(faltaba)...[faltar]+Verb+Indic+PretImperf+3+Sg(faltaba)...[faltar]+Verb+Indic+PretImperf+1+Sg(fantasía)...[fantasía]+Noun+Common+Fem+Sg(favor)...[favor]+Noun+Common+Masc+Sg(fin)...[fin]+Noun+Common+Masc+Sg(fortuna)...[fortuna]+Noun+Common+Fem+Sg(fortunas)...[fortuna]+Noun+Common+Fem+Pl(fue)...[ir]+Verb+Ireg+Indic+PretIndef+3+Sg(fue)...[ser]+Verb+Ireg+Indic+PretIndef+3+Sg(fuese)...[ir]+Verb+Ireg+Subj+PretImperf+1+Sg(fuese)...[ser]+Verb+Ireg+Subj+PretImperf+1+Sg

126

Page 135: INSTITUTO POLITÉCNICO NACIONALfranciscocastillo.com.mx/uploads/7/6/5/0/76507663/... · guajes con alternaciones irregulares de raíz (como por ejemplo, el español o ruso). En este

(fuese)...[ir]+Verb+Ireg+Subj+PretImperf+3+Sg(fuese)...[ser]+Verb+Ireg+Subj+PretImperf+3+Sg(fuesen)...[ir]+Verb+Ireg+Subj+PretImperf+3+Pl(fuesen)...[ser]+Verb+Ireg+Subj+PretImperf+3+Pl(fuimos)...[ir]+Verb+Ireg+Indic+PretIndef+1+Pl(fuimos)...[ser]+Verb+Ireg+Indic+PretIndef+1+Pl(furia)...[furia]+Noun+Common+Fem+Sg(galgo)...[galgo]+Adj+Gral+Masc+Sg(galgo)...[galgo]+Noun+Common+Masc+Sg(gastado)...[gastado]+Adj+Gral+MF+Sg(gastado)...[gastar]+Verb+Partic(gente)...[gente]+Noun+Common+Fem+Sg(gesto)...[gesto]+Noun+Common+Masc+Sg(gota)...[gota]+Noun+Common+Fem+Sg(gozo)...[gozo]+Noun+Common+Masc+Sg(gracias)...[gracias]+Adv+General(gran)...[gran]+Adj+Gral+MF+Sg(grande)...[grande]+Adj+Gral+MF+Sg(grande)...[grande]+Noun+Common+Masc+Sg(grandes)...[grande]+Adj+Gral+MF+Pl(grandes)...[grande]+Noun+Common+Masc+Pl(guardada)...[guardada]+Adj+Gral+Fem+Sg(gusto)...[gusto]+Noun+Common+Masc+Sg(gusto)...[gustar]+Verb+Indic+Present+1+Sg(hábito)...[hábito]+Noun+Common+Masc+Sg(ha)...[ha]+Verb+Ireg+Indic+Present+3+Sg(había)...[haber]+Verb+Ireg+Indic+PretImperf+1+Sg(había)...[haber]+Verb+Ireg+Indic+PretImperf+3+Sg(habían)...[haber]+Verb+Ireg+Indic+PretImperf+3+Pl(haber)...[haber]+Noun+Common+Masc+Sg(haber)...[haber]+Verb+Ireg+Infin(habido)...[haber]+Verb+Ireg+Partic(hablaba)...[hablar]+Verb+Indic+PretImperf+3+Sg(hablaba)...[hablar]+Verb+Indic+PretImperf+1+Sg(hablar)...[hablar]+Verb+Indic(hacían)...[hacer]+Verb+Ireg+Indic+PretImperf+3+Pl(hace)...[hacer]+Verb+Ireg+Indic+Present+3+Sg(hacer)...[hacer]+Verb+Ireg+Infin(hago)...[hacer]+Verb+Ireg+Indic+Present+1+Sg(hallé)...[hallar]+Verb+Indic+PretIndef+1+Sg(hambre)...[hambre]+Noun+Common+Fem+Sg(hambrienta)...[hambrienta]+Adj+Gral+Fem+Sg(han)...[haber]+Verb+Ireg+Indic+Present+3+Pl(harto)...[harto]+Adj+Gral+MF+Sg(harto)...[hartar]+Verb+Indic+Present+1+Sg(harto)...[harto]+Adv+General(has)...[haber]+Verb+Ireg+Indic+Present+2+Sg(haya)...[haya]+Noun+Common+Fem+Sg(haya)...[haber]+Verb+Ireg+Imper+(Ud.)+Sg(haya)...[haber]+Verb+Ireg+Subj+Present+1+Sg(haya)...[haber]+Verb+Ireg+Subj+Present+3+Sg(he)...[haber]+Verb+Ireg+Indic+Present+1+Sg(he)...[haber]+Verb+Ireg+Imper+2+Sg(hecho)...[hecho]+Adj+Gral+MF+Sg

127

Page 136: INSTITUTO POLITÉCNICO NACIONALfranciscocastillo.com.mx/uploads/7/6/5/0/76507663/... · guajes con alternaciones irregulares de raíz (como por ejemplo, el español o ruso). En este

(hecho)...[hecho]+Noun+Common+Masc+Sg(hecho)...[hacer]+Verb+Ireg+Partic(hemos)...[haber]+Verb+Ireg+Indic+Present+1+Pl(hendí)...[hender]+Verb+Indic+PretIndef+1+Sg(hilanderas)...[hilandera]+Noun+Common+Fem+PlNo se encontró raíz alguna para << hobiese >>(holgaría)...[holgar]+Verb+Indic+Condic+1+Sg(holgaría)...[holgar]+Verb+Indic+Condic+3+Sg(hombro)...[hombro]+Noun+Common+Masc+Sg(honra)...[honra]+Noun+Common+Fem+Sg(honra)...[honrar]+Verb+Imper+Present+2+Sg(honra)...[honrar]+Verb+Indic+Present+3+Sg(hoy)...[hoy]+Adv+GeneralNo se encontró raíz alguna para << huelgues >>(iba)...[ir]+Verb+Ireg+Indic+PretImperf+1+Sg(iba)...[ir]+Verb+Ireg+Indic+PretImperf+3+Sg(infinitas)...[infinito]+Adj+Gral+Fem+Pl(interpolaciones)...[interpolación]+Noun+Common+Fem+Pl(invocando)...[invocar]+Verb+Gerund(jarro)...[jarro]+Noun+Common+Masc+Sg(jubón)...[jubón]+Noun+Common+Masc+Sg(juntóseme)...[juntar]+Verb+Clitic(justo)...[justo]+Adj+Gral+MF+Sg(justo)...[justo]+Noun+Common+Masc+Sg(justo)...[justo]+Adv+General(lástima)...[lástima]+Noun+Common+Fem+Sg(lázaro)...[lázaro]+Noun+Prop(lóbrega)...[lóbrega]+Adj+Gral+Fem+Sg(la)...[la]+Noun+Common+Masc+Sg(laceria)...[laceria]+Noun+Common+Fem+Sg(largo)...[largo]+Adj+Gral+MF+Sg(largo)...[largo]+Noun+Common+Masc+Sg(largo)...[largar]+Verb+Indic+Present+1+Sg(largo)...[largo]+Adv+General(las)...[las]+Noun+Common+Fem+Sg(las)...[la]+Noun+Common+Masc+Pl(lastimado)...[lastimar]+Verb+Partic(lazarillo)...[lazarillo]+Noun+Common+Masc+Sg(le)...[le]+Pron+Pers+Sg(lecho)...[lecho]+Noun+Common+Masc+Sg(lengua)...[lengua]+Noun+Common+Fem+Sg(les)...[les]+Pron+Pers+Pl(levantándose)...[levantar]+Verb+Clitic(ley)...[ley]+Noun+Common+Fem+Sg(llevaba)...[llevar]+Verb+Indic+PretImperf+3+Sg(llevaba)...[llevar]+Verb+Indic+PretImperf+1+Sg(llevan)...[llevar]+Verb+Indic+Present+3+Pl(llevar)...[llevar]+Verb+Indic(llorando)...[llorar]+Verb+Gerund(lo)...[lo]+Pron+Pers+Sg(lo)...[lo]+Art+Det+Sg(lobo)...[lobo]+Noun+Common+Masc+Sg(los)...[los]+Pron+Pers+Pl(los)...[los]+Art+Det+Pl

128

Page 137: INSTITUTO POLITÉCNICO NACIONALfranciscocastillo.com.mx/uploads/7/6/5/0/76507663/... · guajes con alternaciones irregulares de raíz (como por ejemplo, el español o ruso). En este

(luego)...[luego]+Conj(luego)...[luego]+Adv+General(lugar)...[lugar]+Noun+Common+Masc+Sg(luto)...[luto]+Noun+Common+Masc+Sg(más)...[más]+Conj(más)...[más]+Adv+General(mío)...[mío]+Pron+Pos+Sg(mañana)...[mañana]+Noun+Common+Masc+Sg(mañana)...[mañana]+Noun+Common+Masc+Sg(mañana)...[mañana]+Adv+General(mal)...[mal]+Adj+Gral+MF+Sg(mal)...[mal]+Noun+Common+Masc+Sg(mal)...[mal]+Adv+General(mala)...[malo]+Adj+Gral+Fem+Sg(malaventurado)...[malaventurado]+Adj+Gral+Masc+Sg(maldita)...[maldito]+Adj+Gral+Fem+Sg(maldita)...[maldita]+Noun+Common+Fem+Sg(maldito)...[maldito]+Adj+Gral+Masc+Sg(maldito)...[maldito]+Noun+Common+Masc+Sg(malo)...[malo]+Adj+Gral+Masc+Sg(malo)...[malo]+Adj+Gral+Masc+Sg(malo)...[malo]+Noun+Common+Masc+Sg(mancilla)...[mancilla]+Noun+Common+Fem+Sg(mancilla)...[mancillar]+Verb+Imper+Present+2+Sg(mancilla)...[mancillar]+Verb+Indic+Present+3+Sg(manera)...[manera]+Noun+Common+Fem+Sg(mano)...[mano]+Noun+Common+Masc+Sg(mano)...[mano]+Noun+Common+Masc+Sg(mano)...[manar]+Verb+Indic+Present+1+Sg(mantener)...[mantener]+Verb+Indic(marido)...[marido]+Noun+Common+Masc+Sg(mas)...[mas]+Conj(mas)...[mas]+Noun+Common+Fem+Sg(mas)...[mas]+Adv+General(mataban)...[matar]+Verb+Indic+PretImperf+3+Pl(me)...[me]+Pron+Pers(medio)...[medio]+Adj+Gral+MF+Sg(medio)...[medio]+Noun+Common+Masc+Sg(medio)...[mediar]+Verb+Indic+Present+1+Sg(medio)...[medio]+Adv+General(mediodía)...[mediodía]+Noun+Common+Masc+Sg(mejor)...[mejor]+Adj+Gral+MF+Sg(mejor)...[mejor]+Adv+General(mejoría)...[mejoría]+Noun+Common+Fem+Sg(menester)...[menester]+Noun+Common+Masc+Sg(menesteres)...[menester]+Noun+Common+Masc+Pl(menos)...[menos]+Noun+Common+Masc+Sg(menos)...[menos]+Adv+General(merca)...[merca]+Noun+Common+Fem+Sg(mes)...[mes]+Noun+Common+Masc+Sg(meter)...[meter]+Verb+Indic(mezquino)...[mezquino]+Adj+Gral+Masc+Sg(mezquino)...[mezquino]+Noun+Common+Masc+Sg(mi)...[mi]+Adj+Gral+MF+Sg

129

Page 138: INSTITUTO POLITÉCNICO NACIONALfranciscocastillo.com.mx/uploads/7/6/5/0/76507663/... · guajes con alternaciones irregulares de raíz (como por ejemplo, el español o ruso). En este

(mi)...[mi]+Noun+Common+Masc+Sg(mi)...[mi]+Pron+Pos+Sg(miedo)...[miedo]+Noun+Common+Masc+Sg(mientras)...[mientras]+Conj(mientras)...[mientras]+Noun+Common+Masc+Sg(mientras)...[mientras]+Adv+General(mis)...[mis]+Pron+Pos+Pl(moradores)...[morador]+Adj+Gral+Masc+Pl(moradores)...[morador]+Noun+Common+Masc+Pl(morir)...[morir]+Verb+Ireg+Inf(mozo)...[mozo]+Adj+Gral+MF+Sg(mozo)...[mozo]+Noun+Common+Masc+Sg(muchas)...[mucha]+Adj+Gral+MF+Pl(mucho)...[mucho]+Adj+Gral+MF+Sg(mucho)...[mucho]+Adv+General(muchos)...[mucho]+Adj+Gral+MF+Pl(muerto)...[muerto]+Adj+Gral+Masc+Sg(muerto)...[muerto]+Noun+Common+Masc+Sg(mujer)...[mujer]+Noun+Common+Fem+SgNo se encontró raíz alguna para << mujercillas >>(mujeres)...[mujer]+Noun+Common+Fem+Pl(muy)...[muy]+Adv+General(nada)...[nada]+Noun+Common+Fem+Sg(nada)...[nadar]+Verb+Imper+Present+2+Sg(nada)...[nadar]+Verb+Indic+Present+3+Sg(nada)...[nada]+Adv+General(nadie)...[nadie]+Noun+Common+Masc+Sg(necesidad)...[necesidad]+Noun+Common+Fem+Sg(negra)...[negra]+Adj+Gral+Fem+Sg(negra)...[negra]+Noun+Common+Fem+Sg(ni)...[ni]+Conj(ni)...[ni]+Adv+General(ningún)...[ningún]+Adj+Gral+MF+Sg(ningún)...[ningún]+Noun+Common+Masc+Sg(no)...[no]+Adv+General(noche)...[noche]+Noun+Common+Fem+Sg(nos)...[no]+Noun+Common+Masc+Pl(nosotros)...[nosotros]+Pron+Pers+Masc+Pl(nuestro)...[nuestro]+Pron+Pos+Sg(nunca)...[nunca]+Adv+General(o)...[o]+Let(o)...[o]+Conj(obscura)...[obscuro]+Adj+Gral+Fem+Sg(obscuridad)...[obscuridad]+Adj+Gral+Fem+Sg(ocho)...[ocho]+Noun+Common+Masc+Sg(ojo)...[ojo]+Noun+Common+Masc+Sg(osé)...[osar]+Verb+Indic+PretIndef+1+Sg(otra)...[otra]+Adj+Gral+MF+Sg(otras)...[otra]+Adj+Gral+MF+Pl(otro)...[otro]+Adj+Gral+MF+Sg(otros)...[otro]+Adj+Gral+MF+Pl(padecer)...[padecer]+Verb+Ireg+Inf(paja)...[paja]+Noun+Common+Fem+Sg(palabra)...[palabra]+Noun+Common+Fem+Sg

130

Page 139: INSTITUTO POLITÉCNICO NACIONALfranciscocastillo.com.mx/uploads/7/6/5/0/76507663/... · guajes con alternaciones irregulares de raíz (como por ejemplo, el español o ruso). En este

(pan)...[pan]+Noun+Common+Masc+Sg(papar)...[papar]+Verb+Indic(par)...[par]+Adj+Gral+MF+Sg(par)...[par]+Noun+Common+Masc+Sg(par)...[par]+Noun+Common+Masc+Sg(para)...[para]+Prep(parece)...[parecer]+Verb+Imper+Present+2+Sg(parece)...[parecer]+Verb+Indic+Present+3+Sg(pared)...[pared]+Noun+Common+Fem+Sg(pasó)...[pasar]+Verb+Indic+PretIndef+3+Sg(pasaba)...[pasar]+Verb+Indic+PretImperf+3+Sg(pasaba)...[pasar]+Verb+Indic+PretImperf+1+Sg(pasada)...[pasada]+Noun+Common+Fem+Sg(pasado)...[pasado]+Adj+Gral+MF+Sg(pasado)...[pasado]+Noun+Common+Masc+Sg(pasado)...[pasar]+Verb+Partic(pasan)...[pasar]+Verb+Indic+Present+3+Pl(pasando)...[pasar]+Verb+Gerund(pasar)...[pasar]+Verb+Indic(pasase)...[pasar]+Verb+Clitic(paso)...[paso]+Adj+Gral+MF+Sg(paso)...[paso]+Noun+Common+Masc+Sg(paso)...[pasar]+Verb+Indic+Present+1+Sg(pasos)...[paso]+Adj+Gral+MF+Pl(pasos)...[paso]+Noun+Common+Masc+Pl(pecador)...[pecador]+Adj+Gral+Masc+Sg(pecador)...[pecador]+Noun+Common+Masc+Sg(pensando)...[pensar]+Verb+Gerund(pensar)...[pensar]+Verb+Indic(pensaste)...[pensar]+Verb+Indic+PretIndef+2+Sg(persecución)...[persecución]+Noun+Common+Fem+Sg(perseguirme)...[perseguir]+Verb+Clitic(pidióme)...[pedir]+Verb+Clitic(pies)...[pie]+Noun+Common+Masc+Pl(pies)...[piar]+Verb+Subj+Present+2+Sg(plaza)...[plaza]+Noun+Common+Fem+Sg(pobre)...[pobre]+Adj+Gral+MF+Sg(pobre)...[pobre]+Noun+Common+MF+Sg(pobres)...[pobre]+Adj+Gral+MF+Pl(pobres)...[pobre]+Noun+Common+MF+Pl(pobreza)...[pobreza]+Noun+Common+Fem+Sg(poco)...[poco]+Adj+Gral+MF+Sg(poco)...[poco]+Adv+General(podía)...[poder]+Verb+Indic+PretImperf+3+Sg(podía)...[poder]+Verb+Indic+PretImperf+1+Sg(poder)...[poder]+Noun+Common+Masc+Sg(poder)...[poder]+Verb+Indic(pompa)...[pompa]+Noun+Common+Fem+Sg(por)...[por]+Prep(porque)...[porque]+Conj(posada)...[posada]+Noun+Common+Fem+Sg(pregón)...[pregón]+Noun+Common+Masc+Sg(presto)...[presto]+Adj+Gral+MF+Sg(presto)...[prestar]+Verb+Indic+Present+1+Sg

131

Page 140: INSTITUTO POLITÉCNICO NACIONALfranciscocastillo.com.mx/uploads/7/6/5/0/76507663/... · guajes con alternaciones irregulares de raíz (como por ejemplo, el español o ruso). En este

(presto)...[presto]+Adv+General(presunción)...[presunción]+Noun+Common+Fem+Sg(priesa)...[priesa]+Noun+Common+Fem+Sg(primera)...[primero]+Adj+Gral+Fem+Sg(primera)...[primera]+Noun+Common+Fem+Sg(procesión)...[procesión]+Noun+Common+Fem+Sg(prolijidad)...[prolijidad]+Noun+Common+Fem+Sg(pude)...[poder]+Verb+Imper+Present+2+Sg(pude)...[poder]+Verb+Indic+Present+3+Sg(pudiera)...[poder]+Verb+Subj+PretImperf+3+Sg(pudiera)...[poder]+Verb+Subj+PretImperf+1+Sg(puerta)...[puerta]+Noun+Common+Fem+Sg(pues)...[pues]+Conj(pues)...[pues]+Adv+General(puesto)...[puesto]+Adj+Gral+MF+Sg(puesto)...[puesto]+Conj(punido)...[punir]+Verb+Partic(que)...[que]+Conj(que)...[que]+Adv+General(quebremos)...[quebrar]+Verb+Subj+Present+1+Pl(quejándose)...[quejar]+Verb+Clitic(quería)...[querer]+Verb+Indic+PretImperf+3+Sg(quería)...[querer]+Verb+Indic+PretImperf+1+Sg(quisiera)...[querer]+Verb+Subj+PretImperf+3+Sg(quisiera)...[querer]+Verb+Subj+PretImperf+1+Sg(quiso)...[querer]+Verb+Indic+Present+1+Sg(raso)...[raso]+Adj+Gral+MF+Sg(raso)...[raso]+Noun+Common+Masc+Sg(raso)...[rasar]+Verb+Indic+Present+1+Sg(rato)...[rato]+Noun+Common+Masc+Sg(razón)...[razón]+Noun+Common+Fem+Sg(reír)...[reir]+Verb+Ireg+Inf(real)...[real]+Adj+Gral+MF+Sg(recelaba)...[recelar]+Verb+Indic+PretImperf+3+Sg(recelaba)...[recelar]+Verb+Indic+PretImperf+1+Sg(regla)...[regla]+Noun+Common+Fem+Sg(regla)...[reglar]+Verb+Imper+Present+2+Sg(regla)...[reglar]+Verb+Indic+Present+3+Sg(remedie)...[remediar]+Verb+Imper+Present+(Ud.)+Sg(remedie)...[remediar]+Verb+Subj+Present+3+Sg(respondió)...[responder]+Verb+Indic+PretIndef+3+Sg(risueño)...[risueño]+Adj+Gral+MF+Sg(ruines)...[ruin]+Adj+Gral+MF+Pl(sé)...[ser]+Verb+Ireg+Imper+2+Sg(sí)...[sí]+Adv+General(sólo)...[sólo]+Adv+General(saber)...[saber]+Noun+Common+Masc+Sg(satisfecha)...[satisfecha]+Adj+Gral+Fem+Sg(señal)...[señal]+Noun+Common+Fem+Sg(señor)...[señor]+Adj+Gral+MF+Sg(señor)...[señor]+Noun+Common+Masc+Sg(sea)...[ser]+Verb+Ireg+Imper+(Ud.)+Sg(sea)...[ser]+Verb+Ireg+Subj+Present+1+Sg(sea)...[ser]+Verb+Ireg+Subj+Present+3+Sg

132

Page 141: INSTITUTO POLITÉCNICO NACIONALfranciscocastillo.com.mx/uploads/7/6/5/0/76507663/... · guajes con alternaciones irregulares de raíz (como por ejemplo, el español o ruso). En este

(según)...[según]+Conj(según)...[según]+Prep(según)...[según]+Adv+General(ser)...[ser]+Noun+Common+Masc+Sg(ser)...[ser]+Verb+Ireg+Infin(servir)...[servir]+Verb+Indic(si)...[si]+Conj(si)...[si]+Noun+Common+Masc+Sg(si)...[si]+Adv+General(silencio)...[silencio]+Noun+Common+Masc+Sg(silencio)...[silenciar]+Verb+Indic+Present+1+Sg(sin)...[sin]+Prep(sobrado)...[sobrado]+Adj+Gral+MF+Sg(sobrado)...[sobrado]+Noun+Common+Masc+Sg(sobrado)...[sobrar]+Verb+Partic(sobrado)...[sobrado]+Adv+General(solar)...[solar]+Adj+Gral+MF+Sg(solar)...[solar]+Noun+Common+Masc+Sg(solo)...[solo]+Adj+Gral+MF+Sg(solo)...[solo]+Noun+Common+Masc+Sg(sospecha)...[sospecha]+Noun+Common+Fem+Sg(sospecha)...[sospechar]+Verb+Imper+Present+2+Sg(sospecha)...[sospechar]+Verb+Indic+Present+3+Sg(su)...[su]+Pron+Pos+Sg(subía)...[subir]+Verb+Indic+PretImperf+3+Sg(subía)...[subir]+Verb+Indic+PretImperf+1+Sg(subió)...[subir]+Verb+Indic+PretIndef+3+Sg(subir)...[subir]+Verb+Indic(suelta)...[soltar]+Verb+Imper+Present+2+Sg(suelta)...[soltar]+Verb+Indic+Present+3+Sg(sufrir)...[sufrir]+Verb+Indic(sus)...[sus]+Pron+Pos+Pl(tú)...[tú]+Pron+Pers(tal)...[tal]+Adj+Gral+MF+Sg(tan)...[tan]+Adv+General(tanta)...[tanta]+Adj+Gral+MF+Sg(tanta)...[tanta]+Adv+General(tanto)...[tanto]+Adj+Gral+MF+Sg(tanto)...[tanto]+Adv+General(te)...[te]+Noun+Common+Fem+Sg(teja)...[teja]+Noun+Common+Fem+Sg(teja)...[tejer]+Verb+Imper+Present+(Ud.)+Sg(teja)...[tejer]+Verb+Subj+Present+3+Sg(tenía)...[tener]+Verb+Ireg+Indic+PretImperf+1+Sg(tenía)...[tener]+Verb+Ireg+Indic+PretImperf+3+Sg(tenían)...[tener]+Verb+Ireg+Indic+PretImperf+3+Pl(tenido)...[tener]+Verb+Ireg+Partic(teniendo)...[tener]+Verb+Ireg+Gerund(tercero)...[tercero]+Adj+Gral+Masc+Sg(tercero)...[tercero]+Noun+Common+Masc+Sg(terciopelo)...[terciopelo]+Noun+Common+Masc+Sg(tesoro)...[tesoro]+Noun+Common+Masc+Sg(testigo)...[testigo]+Noun+Common+Masc+Sg(tiempo)...[tiempo]+Noun+Common+Masc+Sg

133

Page 142: INSTITUTO POLITÉCNICO NACIONALfranciscocastillo.com.mx/uploads/7/6/5/0/76507663/... · guajes con alternaciones irregulares de raíz (como por ejemplo, el español o ruso). En este

(tiene)...[tener]+Verb+Ireg+Indic+Present+3+Sg(tierra)...[tierra]+Noun+Common+Fem+Sg(toca)...[toca]+Noun+Common+Fem+Sg(toda)...[toda]+Adj+Gral+MF+Sg(todas)...[toda]+Adj+Gral+MF+Pl(todavía)...[todavía]+Adv+General(todo)...[todo]+Adj+Gral+MF+Sg(todo)...[todo]+Noun+Common+Masc+Sg(todos)...[todo]+Adj+Gral+MF+Pl(todos)...[todo]+Noun+Common+Masc+Pl(toma)...[toma]+Noun+Common+Fem+Sg(toma)...[tomar]+Verb+Imper+Present+2+Sg(toma)...[tomar]+Verb+Indic+Present+3+Sg(tomaba)...[tomar]+Verb+Indic+PretImperf+3+Sg(tomaba)...[tomar]+Verb+Indic+PretImperf+1+Sg(tomo)...[tomo]+Noun+Common+Masc+Sg(tomo)...[tomar]+Verb+Indic+Present+1+Sg(topar)...[topar]+Verb+Indic(topasen)...[topar]+Verb+Clitic(topo)...[topo]+Noun+Common+Masc+Sg(topo)...[topar]+Verb+Indic+Present+1+SgNo se encontró raíz alguna para << tormes >>(torné)...[tornar]+Verb+Indic+PretIndef+1+Sg(torno)...[torno]+Noun+Common+Masc+Sg(torno)...[tornar]+Verb+Indic+Present+1+Sg(traían)...[traer]+Verb+Indic+PretImperf+3+Pl(traído)...[traído]+Adj+Gral+MF+Sg(traen)...[traer]+Verb+Indic+Present+3+Pl(tratado)...[tratado]+Noun+Common+Masc+Sg(tratado)...[tratar]+Verb+Partic(tres)...[tres]+Noun+Common+Masc+Sg(triste)...[triste]+Adj+Gral+MF+Sg(tristeza)...[tristeza]+Noun+Common+Fem+Sg(trueco)...[trueco]+Noun+Common+Masc+Sg(tuve)...[tener]+Verb+Ireg+Indic+PretIndef+1+Sg(tuviera)...[tener]+Verb+Ireg+Subj+PretImperf+1+Sg(tuviera)...[tener]+Verb+Ireg+Subj+PretImperf+3+Sg(tuviste)...[tener]+Verb+Ireg+Indic+PretIndef+2+Sg(tuviste)...[tener]+Verb+Clitic(ufano)...[ufano]+Adj+Gral+MF+Sg(un)...[un]+Noun+Common+Fem+Sg(una)...[una]+Art+Indet+Fem+Sg(unas)...[unas]+Art+Indet+Fem+Pl(uno)...[uno]+Adj+Gral+MF+Sg(uno)...[uno]+Noun+Common+Masc+Sg(uno)...[unir]+Verb+Indic+Present+1+Sg(uno)...[uno]+Art+Indet+Masc+Sg(usada)...[usada]+Adj+Gral+Fem+Sg(va)...[ir]+Verb+Ireg+Indic+Present+3+Sg(ve)...[ve]+Noun+Common+Fem+Sg(ve)...[ir]+Verb+Ireg+Imper+2+Sg(veces)...[vez]+Noun+Common+Fem+Pl(vecindad)...[vecindad]+Noun+Common+Fem+SgNo se encontró raíz alguna para << velle >>

134

Page 143: INSTITUTO POLITÉCNICO NACIONALfranciscocastillo.com.mx/uploads/7/6/5/0/76507663/... · guajes con alternaciones irregulares de raíz (como por ejemplo, el español o ruso). En este

(vello)...[vello]+Noun+Common+Masc+SgNo se encontró raíz alguna para << venecia >>(venga)...[vengar]+Verb+Imper+Present+2+Sg(venga)...[vengar]+Verb+Indic+Present+3+Sg(venir)...[venir]+Verb+Ireg+Inf(ventura)...[ventura]+Noun+Common+Fem+Sg(ver)...[ver]+Noun+Common+Masc+Sg(verdad)...[verdad]+Noun+Common+Fem+Sg(vergonzosa)...[vergonzosa]+Adj+Gral+MF+Sg(vergonzosa)...[vergonzosa]+Noun+Common+Fem+Sg(ves)...[ve]+Noun+Common+Fem+Pl(vida)...[vida]+Noun+Common+Fem+Sg(vino)...[vino]+Noun+Common+Masc+Sg(vista)...[vista]+Noun+Common+Fem+Sg(vista)...[vestir]+Verb+Imper+Present+(Ud.)+Sg(vista)...[vestir]+Verb+Subj+Present+3+Sg(viuda)...[viuda]+Adj+Gral+Fem+Sg(viuda)...[viuda]+Noun+Common+Fem+Sg(vivienda)...[vivienda]+Noun+Common+Fem+Sg(vivo)...[vivo]+Adj+Gral+MF+Sg(vivo)...[vivo]+Noun+Common+Masc+Sg(voces)...[voz]+Noun+Common+Fem+Pl(y)...[y]+Let(y)...[y]+Conj(y)...[y]+Adv+General(yéndose)...[ir]+Verb+Clitic(ya)...[ya]+Conj(ya)...[ya]+Adv+General(yendo)...[ir]+Verb+Ireg+Gerund(yo)...[yo]+Pron+Pers+MF+Sg(zozobra)...[zozobra]+Noun+Common+Fem+Sg(zozobra)...[zozobrar]+Verb+Imper+Present+2+Sg(zozobra)...[zozobrar]+Verb+Indic+Present+3+Sg

135