universidad de costa rica automatizaciÓn del anÁlisis...

136
UNIVERSIDAD DE COSTA RICA SISTEMA DE ESTUDIOS DE POSGRADO AUTOMATIZACIÓN DEL ANÁLISIS SINTÁCTICO PARA EL ESPAÑOL AMERICANO CON EL FIN DE CREAR UN TREEBANK ESTANDARIZADO Tesis sometida a la consideración de la Comisión del Progran1a de Estudios de Posgrado en Con1putación e Informática para optar al grado y título de Maestría Académica en Con1putación e Informática M.INOR SANDÍ SALAZAR Ciudad Universitaria "Rodrigo Facio", Costa Rica 2017

Upload: others

Post on 29-Jan-2021

2 views

Category:

Documents


0 download

TRANSCRIPT

  • UNIVERSIDAD DE COSTA RICA SISTEMA DE ESTUDIOS DE POSGRADO

    AUTOMATIZACIÓN DEL ANÁLISIS SINTÁCTICO PARA EL ESPAÑOL AMERICANO CON EL FIN DE CREAR UN TREEBANK ESTANDARIZADO

    Tesis sometida a la consideración de la Comisión del Progran1a de Estudios de Posgrado

    en Con1putación e Informática para optar al grado y título de Maestría Académica

    en Con1putación e Informática

    M.INOR SANDÍ SALAZAR

    Ciudad Universitaria "Rodrigo Facio", Costa Rica

    2017

  • DEDICA TO RIA

    A mi Padre Celestial, quien ha sido fortaleza y soporte durante mi vida, fuente de sabiduría, verdad y pasión. Nada sucede si sus manos no obran a favor del que en su Nombre espera y actúa.

    A Don Alejandro García, padre, amigo, maestro y compañero en las buenas y en las malas, descubridor de talentos y oportunidades. Quien creyó en mí cuando más lo necesitaba, y me demostró el poder de la lealtad.

    A mi esposa, refugio y flor cuyo aroma siempre hace brotar una sonrisa, incluso en los momentos más duros de la vida. Su solidaridad y fe han sido fuente de inspiración.

    A mi mamá, quien en cada caminata en aquellos senderos polvorientos de Curridabat a fines de los setentas me inculcó la perseverancia y la disciplina.

    A mi papá, quien hubiera disfrutado este logro como suyo, después de tantas noches de oración.

    ii

  • AGRADECIMIENTOS

    A mi Padre, por el don de la vida y la pasión por investigar.

    A Don Alejandro García, por haber soportado integralmente este proyecto desde sus inicios.

    A mi esposa, por las horas de investigación que demandaron una paciente espera.

    A mis padres, por depositar sus esfuerzos para que alcanzara estos caminos.

    Al Comité de Tesis, por su sabia labor de dirección en este proceso de investigación.

    A Gonzalo, por su respaldo como jefe y amigo en las etapas más críticas de la investigación.

    A mis profesores de español, Zelmira Ortiz de Chaves y Rafael Eligio Rodríguez, quienes me inculcaron su amor por la lengua española.

    111

  • "Esta tesis fue aceptada por la Comisión del Programa de Estudios de Posgrado en Computación e Lnformática de la Universidad de Costa Rica, como requisito parcial para optar al grado y título de Maestría Académica en Computación e Informática."

    Dr. Vladimir Lara Villagrán Representante del Decano

    Sistema de Estud ios de Posgrado

    Asesor

    \

    Jp4µ;:3f;_'> Msc. Edgar Casasola Murillo

    Asesor

    Representante del Director P rograma de Posgrado

    Estudiante

    iv

  • TABLA DE CONTENIDO

    DEDICATORJA

    AGRADECIMIENTOS

    RESUMEN

    LISTA DE CUADROS

    LISTA DE FIGURAS

    1. INTRODUCCIÓN l. l. Antecedentes

    1.2. Planteamiento del problema

    1.3. Objetivos de la investigación

    1.3.1. Objetivo general 1.3 .2. Objetivos específicos

    1.4. Justificación

    2. MARCO TEÓRJCO 2.1. Niveles de análisis del lenguaje natural

    2.1.1. Fonética 2.1.2. Fonología 2.1.3. Morfología 2.1.4. Sintaxis 2.1.5. Semántica 2.1.6. Pragmática

    2.2. Fundamentos de las teorías gramaticales contemporáneas

    2.2.1. Gramática de dependencias 2.2.1.1. Papel de las palabras 2.2.1.2. Dependencias 2.2.1.3. Nudos 2.2.1.4. Valencias 2.2.1.5. Gramática 2.2.1.6. Representación gráfica 2.2.2. Gramática generativa.

    2.3. Gramática Léxico-Funcional (LFG)

    2.3. l. Generalidades 2.3 .2. Estructuras para la representación de la oración 2.3 .2.1. Estructura constituyente (estructura-e) 2.3.2.2. Estructura funcional (estructura-f)

    2.4. Análisis estructural de la oración

    2.4.1. Distinción entre oración y frase 2.4.2. La frase 2.4.3. La oración

    2.5. Componentes básicos de fa oración

    2.5. l. Sujeto (S) 2.5.2. Predicado (P)

    2.6. Clasificación de oraciones

    V

    ll

    iii

    IX

    X

    X

    1 1

    6

    9

    9 9 9

    14 14

    14 15 15 15 16 16 17

    17 17 17 18 19 19 20 20 22

    22 23 23 24 25

    25 25 26 26

    26 27 28

  • 2.6 .1. Clasificación según su estructura interna 2.6.2. Clasificación según la presencia del sujeto 2.6.3. Clasificación según la naturaleza del verbo 2.6.4. Clasificación según el tipo de voz

    2. 7. Sintagmas

    2.7.1. Definición 2.7.2. Características 2.7.3. Tipos de sintagmas 2.7.3.1. Sintagma nominal (SN) 2.7.3.2. Sintagma adjetivo (SAdj) 2.7.3.3. Sintagma verbal (SV) 2.7.3.4. Sintagma adverbial (SAdv) 2.7 .3 .5. Sintagma preposicional (SPrep)

    2. 8. Categorías de las palabras en la oración

    2.8.1. Sustantivo o nombre 2.8.2. Adjetivo 2.8.3. Determinante 2.8.4. Verbo 2.8.5. Adverbio 2.8.6. Pronombre 2.8.7. Conjunción 2.8.8. Preposición 2.8 .9. Interjección

    2.9. Accidentes gramaticales en los componentes de la oración

    2.9 .1. Persona 2.9.2. Género 2.9.3. Número 2.9.4. Grado 2.9 .5. Tiempo 2.9.6. Aspecto 2.9.7. Modo 2.9.8. Voz

    2.1 O. j\lforfemas

    2.10.1. Definición 2.1 O .2. Clasificación 2.10.3. La importancia de los morfemas para la sintaxis

    2.11. Relaciones de dependencia

    2.11.1. Sujeto (Suj) 2.11.2. Complemento directo (CD) 2.11.3. Complemento indirecto (CI) 2.11.4. Complemento predicativo (CP) 2.11.5. Complemento de régimen (CR) 2.11.6. Complemento circunstancial (CC) 2.11.7. Complemento agente (CA) 2.11.8. Atributo (A)

    2.12. Etiquetado de categorías gramaticales y relaciones de dependencia

    2.12.1. Etiquetado de las categorías gramaticales 2.12.2. Etiquetado de las relaciones de dependencia

    vi

    28 29 29 30 30

    30 31 31 32 32 33 33 33 34

    34 34 35 36 36 37 37 38 38 38

    39 39 39 40 40 41 41 42 42

    42 42 43 43

    43 44 45 45 46 46 47 47 48

    48 49

  • 2. 13. Representaciones gráficas de estructuras sintácticas

    2.13. l. Paréntesis etiquetados 2.13.2. Llaves 2.13 .3. Árboles sintácticos

    2.14. Treebanks

    2.14.1. Concepto 2.14.2. Utilidad de los treebanks 2.14.3. Tipos de treebanks 2.14.4. Diferencias entre treebanky corpus 2.14.5. Treebanks utilizados para el idioma español 2.14.6. Representación computacional de un treebank

    2. 15. Dependencias universales

    2.15 .1. Concepto 2.15 .2. Principios de diseño 2.15.1. Elementos computacionales utilizados

    2. 16. Análisis sintáctico desde la óptica computacional

    2.16 .1. Analizador sintáctico 2.16.2. Requerimientos de un analizador sintáctico 2.16.3. Tipos de analizadores sintácticos 2.16.3 .1. Analizadores sintácticos según reglas 2.16.3 .2. Analizadores sintácticos probabilísticos

    2. 17. Resumen

    3. METODOLOGÍA 3.J. Diseño metodológico

    50

    50 51 51 52

    52 52 53 53 53 54 55

    56 56 56 60

    60 61 62 62 63 65

    66 66

    3. l. l. Actividad metodológica 1: Identificar y caracterizar textos anotados para el español 66 3 .1.2. Actividad metodológica 2: Establecer la equivalencia entre anotaciones 66 3.1.3. Actividad metodológica 3: Proponer un modelo de creación automática de un treebank

    67 3.1.4. Actividad metodológica 4: Evaluar en qué proporción puede ser automatizado el proceso de creación de un treebank 68 3.1.4.1. Métricas para evaluación de treebanks 69

    3.2. Enfoque 70

    3.3. Fuentes de información 70

    3 .3. l. Artículos y libros del área de la Lingüística Computacional 70 3 .3 .2. Fuentes para el estudio de la gramática de la lengua española 71 3 .3 .3. Artículos y sitio oficial en Internet sobre las dependencias universales 71 3.3.4. Treebanks y corpus obtenidos 71 3.3.5. Herramientas computacionales empleadas 71

    3.4. Objetos 72

    3.5. Alcances y limitaciones 72

    3.5.1. Alcances 72 3 .5 .2. Limitaciones 73

    vii

  • 4. RESULTADOS 74 4.1. Etapa 1: Identificar mediante búsqueda literaria varios c01pus y treebanks utilizados para

    el idioma espcn?ol 74

    4.1.1. Seleccionar mediante búsqueda literaria al menos cinco corpus utilizados para el idioma español 74 4.1.2. Determinar cuáles características de estos corpus son relevantes para la investigación.74 4.1.3. Crear un cuadro comparativo con las características de los corpus encontrados. 76 4.1.4. Seleccionar el corpus que más se ajuste a los propósitos de la investigación. 76

    4.2. Etapa 2: Establecer la equivalencia entre anotaciones 78

    4.2.1. Representar las reglas de equivalencia para la información morfológica de treebanks y co1pus de la muestra. 78 4.2.2. Representar las reglas de equivalencia para la información sintáctica de los treebanks de la muestra 81

    4.3. Etapa 3: Proponer un modelo de creación automática de un treebank 82

    4.3.1. Diagrama de clases y descripción general de clases y métodos desarrollados 82 4.3 .2. Algoritmo para la identificación de oraciones simples 84 4.3 .3. Algoritmo para el análisis sintáctico de oraciones 85 4.3.4. Implementación de reglas gramaticales para identificar la función sintáctica 86 4.3.5. Ejemplos de oraciones analizadas exitosamente 87 4.3.6. Medición de la eficiencia del modelo propuesto 88

    4.4. Etapa 4: Evaluar en qué proporción puede ser automatizado el proceso de creación de un

    ~~~ ~

    4.4.1. Información general sobre el proceso para evaluar el treebank 89 4.4.2. Evaluación general del treebank según las métricas definidas 92 4.4.3. Evaluación de acuerdo con las categorías gramaticales 95 4.4.4. Evaluación de acuerdo con las funciones sintácticas 97

    5. CONCLUSIONES

    6. INVESTIGACIÓN FUTURA 6.1.1. Trabajos futuros para investigaciones en Computación 6.1.2. Trabajos futuros para investigaciones en Lingüística

    7.ANEXOA

    8.ANEXOB

    9. REFERENCIAS BIBLIOGRÁFICAS

    viii

    100

    107 107 107

    109

    115

    121

  • RESUMEN

    Esta investigación se orienta hacia el análisis de textos que han sido etiquetados morfológicamente. Estos textos son analizados por lingüistas para asignar a cada palabra su función sintáctica en la oración a la que pertenecen.

    Este proceso generalmente es manual. Cada oración es analizada elemento por elemento hasta completar su análisis y proseguir con otra. Cuando la cantidad de oraciones es grande, el tiempo invertido por los lingüistas es considerable, pudiendo absorber espacios requeridos por el investigador para otras tareas.

    Las investigaciones en procesamiento de lenguaje natural buscan automatizar parcial o totalmente los análisis morfosintácticos. Cada equipo de expertos ha generado su propio etiquetado de categorías gramaticales y funciones sintácticas, siguiendo una corriente de análisis del lenguaje natural. Dos de ellas son la gramática generativa y la gramática de dependencias.

    Un alto porcentaje de las investigaciones mencionadas se ha hecho para lenguas como el inglés, alemán y chino, por citar algunas. El análisis para el español se inició después, enfatizándose las investigaciones en su variante peninsular y no en la americana.

    En los últimos años surgió una tendencia en la que varias investigaciones han desarrollado etiquetados morfosintácticos para estandarizar el análisis con formatos universales. Dicho de otra forma, pueden emplearse para analizar varias lenguas con un mismo formato.

    Esta tesis recopila información sobre algunos textos analizados en español para determinar sus características y ofrecer un posible punto de partida para posteriores investigaciones. Se incluye un inventario de etiquetados morfosintácticos usados en estos textos anotados, para hallar semejanzas y diferencias entre estos. El fin es comparar estos formatos, para determinar el más útil a la hora de estandarizar los análisis.

    También se examinan conjuntos de oraciones en español cuyas palabras poseen un sistema de etiquetado utilizado previamente para análisis de textos en diferentes lenguas. Esto se hace mediante un módulo automático de extracción, un módulo de análisis sintáctico que utiliza reglas gramaticales con un etiquetado universal y un módulo de almacenamiento en disco.

    Para validar los resultados obtenidos en el proceso descrito se eligieron métricas conocidas en el área de la Computación Lingüística. Estas métricas comparan los textos anotados creados por la aplicación implementada con sus originales, para validar su eficacia.

    Finalmente, se presentan las conclusiones obtenidas luego de la investigación, así como trabajos futuros a partir de las áreas de mejora encontradas.

    ix

  • LISTA DE CUADROS Cuadro 1 Soporte existente a la tecnología lingiiística para el Español (Melero et al, 2012) ......................... 11 Cuadro 2 Algunos analizadores sintácticos 'open source ' ............................................................................... 12 Cuadro 3 Conjunto de reglas definidas para una gramática de dependencias ............................................... 20 Cuadro 4 Conjunto de reglas definidas para una gramática LFG .................................................................. 23 Cuadro 5 Subconjunto de etiquetados para categorías de palabras ................................................................ 49 Cuadro 6 Subconjunto de etiquetados para relaciones de dependencia ........................................................ .49 Cuadro 7 Estructura de un archivo conformato CoNLL-X (HajiC, 2009) ....................................................... 55 Cuadro 8 Información mo1fológica de las dependencias universales (Nivre, 2015) ........................................ 57 Cuadro 9 Información sintáctica de las dependencias universales (J,livre, 2015) ............................................ 58 Cuadro JO Estructura de un archivo confonnato CoNLL-U ........................................................................... 59 Cuadro 11 Estructura de una oración empleando elformato CoNLL-U ......................................................... 59 Cuadro 12 Representación de una gramática libre de contexto ...................................................................... 62 Cuadro 13 Cuadro comparativo de corpus y treebanks seleccionados ........................................................... 76 Cuadro 14 Cuadro comparativo de anotaciones morfológicas presentes en los corpus y treebanks seleccionados para esta investigación .............................................................................................................. 79 Cuadro 15 Cuadro comparativo de anotaciones sintácticas presentes en los treebanks seleccionados para esta investigación .............................................................................................................................................. 81 Cuadro 16 Descripción general de las clases desarrolladas durante la investigación ................................... 84 Cuadro 17 Diez ejemplos de oraciones analizadas con 100% de eficacia ...................................................... 88 Cuadro 18 Tiempos de ejecución del modelo propuesto por módulo .............................................................. 89 Cuadro 19 Ejemplo de la estructura y contenido del archivo analysis-result.txt ............................................ 90 Cuadro 20 Porcentajes de acierto del treebank según las métricas definidas en la metodología ................... 93 Cuadro 21 Resultados de la evaluación del treebank según categorías gramaticales .................................... 95 Cuadro 22 Resultados de la evaluación del treebank segúnfanciones sintácticas ......................................... 98 Cuadro 23 Oración activa, con 1 elemento y 1 verbo .................................................................................. 115 Cuadro 24 Oración activa, con 4 palabras y sujeto tácito ............................................................................ 115 Cuadro 25 Oración activa, con 8 elementos, sujeto y el verbo copulativo ser .............................................. 115 Cuadro 26 Oración pasiva, con 11 elementos y la combinación verbo ser más participio ........................... ] 16 Cuadro 2 7 Oración pasiva sin sujeto, con 11 elementos ............................................................................... 116 Cuadro 28 Oración con el pronombre 'se' sin sujeto, con 14 elementos ...................................................... 117 Cuadro 29 Oración activa, con 18 elementos, sujeto y verbo en presente perfecto ..................................... 117 Cuadro 30 Oración activa, con 21 elementos, sujeto, ................................................................................... 118 Cuadro 31 Oración activa, con 27 elementos, sujeto y verbo transitivo ....................................................... 118 Cuadro 32 Oración activa, con 32 elementos, sujeto y verbo transitivo ....................................................... 119

    LISTA DE FIGURAS Figura 1 La oración "Él come un sandwich" analizada en inglés y ji·ancés . .................................................... 5 Figura 2 Oración analizada en finés siguiendo el etiquetado de las dependencias universales ........................ 5 Figura 3 Árbol de constituyentes (Chomsky) y árbol de dependencias (Tesniere) para la oración ................... 7 Figura 4 Árbol de dependencias con ejemplos de palabras regentes y regidas ............................................... 18 Figura 5 Árbol de dependencias para el enunciado "Yo leo la oración simple" ............................................. 20 Figura 6 Árbol de constituyentes para el enunciado "Yo leo la oración simple" ............................................ 21 Figura 7 Estructura-e generada a partir de las reglas definidas ..................................................................... 24 Figura 8 Estructura.¡ correspondiente al enunciado 'Yo leo la oración' ....................................................... 25 Figura 9 Representación de una oración utilizando llaves .............................................................................. 5 J Figura 1 O Representación de una oración utilizando un árbol sintáctico ........................................................ 51 Figura 11 Ubicación del analizador sintáctico en un compilador (Aho et al., 2006) ...................................... 60 Figura 12 Ubicación del analizador sintáctico en el proceso de creación de un treebank ............................. 61 Figura 13 Representación de un analizador sintáctico basado en reglas ....................................................... 63 Figura 14 Diseño de un analizador sintáctico probabilístico ......................................................................... 64 Figura 15 Proceso sugerido para analizar sintácticamente un corpus anotado moifológicamente ................ 68 Figura 16 Diagrama de clases para la propuesta del modelo de creación automática de 201 treebank ......... 83

    X

  • Figura 17 Proceso sugerido para seleccionar oraciones simples de un treebank ........................................... 85 Figura 18 Algoritmo para el análisis sintáctico de una oración ...................................................................... 85 Figura 19 Algoritmo para asignar a cada palabra su función sintáctica ........................................................ 86 Figura 20 Algoritmo para definir lafimción de un determinante .................................................................... 86 Figura 21 Ejemplo de análisis del verbo ser .................................................................................................... 87 Figura 22 Ejemplo de análisis del pronombre le .............................................................................................. 87 Figura 23 Cálculo de las métricas generales para el treebank ........................................................................ 91 Figura 24 Cálculo de las métricas según lafanción sintáctica ........................................................................ 91 Figura 25 Cálculo de las métricas según la categoría gramatical ................................................................... 92 Figura 26 Cálculo de las métricas por oración ................................................................................................ 92 Figura 27 Porcentajes de acierto del treebank según las métricas definidas en la metodología .................... 94 Figura 28 Fragmentos del código de detección de sujetos ............................................................................ ] 09 Figura 29 Fragmentos del código de detección de raíces oracionales para el caso del verbo ser ............... 11 O Figura 30 Fragmentos del código de detección de raíces oracionales ......................................................... 111 Figura 31 Fragmentos del código de detección de complementos agentes ................................................... 112 Figura 32 Fragmentos del código de detección de raíces oracionales ......................................................... 112 Figura 33 Fragmentos del código para analizar adposiciones ..................................................................... 113 Figura 34 Fragmentos del código para el análisis de determinantes ........................................................... 114

    xi

  • l. INTRODUCCIÓN Esta sección ofrece, en fonna general, los antecedentes del campo en el que esta investigación

    se desarrolla. Luego, se describen el planteamiento del problema, la pregunta de

    investigación, sus objetivos. Finalmente, se incluye Ja justificación para este proceso

    invesligativo.

    l. l. Antecedentes

    Desde los días del teólogo medieval del siglo XIII, Roger Bacon, ha existido interés en la

    noción de una gramática universal que abarque la mayor cantidad de lenguajes. Nolan y

    Hirsch (1902) recogen una frase de Bacon en la que afitmó que " .. . en su sustancia, Ja

    gramática es una y la misma en todos los lenguajes, aún si esta accidentalmente varía" (pág.

    xxv).

    Este fervor se ha mantenido constante hasta la época moderna. Lucian Tcsniere introdujo la

    noción de árbol sintáctico de dependencia (Tesnicre, 1959) y Noah Chomsky desarrolló otros

    conceptos teóricos en el área de la lingüística que resultaron claves para el desarrollo de

    herramientas computacionales que colaboraran en la automatización del anál isis de los textos,

    más específicamente sobre la teoria de gramáticas libres de contexto (Chomsky, 1957). De

    acuerdo con Aho, Lam, Scthi y Ullman (2006), los lenguajes de programación Fortran y

    Algol, desarrollados entre 1959 y 1960, utilizaron esta teoría para la implementación de su

    sintaxis. De esa fecha en adelante, prácticamente la mayoría de compiladores para lenguajes

    de programación han tomado la gramática libre de contexto como parte de su estructura.

    En la época actual, los esfuerzos in iciales por crear textos anotados se remontan a la segunda

    mitad de la década de los años 60, cuando se completó el primer treebank1, el cual es

    conocido como "Brown C01pus" y recopiló alrededor de un mi llón de palabras del inglés de

    la época (Kuccra y Francis, 1967). Paralelamente, se dieron esfuerzos para crear herramientas

    1 Segón Joakim Nivre, un treebank es un corpus anotado lingOisticamente que además de información morfológica incluye otros tipos de etiquetas, resultado de un analisis gramatical. (Nivre, 2008)

  • computacionales que colaboraran en la creación de textos anotados. Por ejemplo, en 1970 se

    creó el lenguaje de programación Prolog, cuyo propósito estaba dirigido a la creación de

    gramáticas (Nadkarni, Ohno-Machado y Chapman, 2011). Es importante destacar que

    durante los años setenta los analizadores sintácticos para lenguaje natural eran creados

    mediante la utilización de reglas. Sin embargo, los autores citados anteriormente indican que

    en los años ochenta se dio la creación del análisis sintáctico probabilístico.

    Aunque al inicio de los años noventa se crearon varios treebanks para la lengua inglesa el

    más influyente surgió en 1993. Como resultado de las investigaciones realizadas en la

    Universidad de Pennsylvania se desarrolló un treebank basado en el inglés americano, con

    poco más de 4.5 millones de palabras. Este treebank llegó a ser un modelo debido a que

    incorporó el etiquetado para las anotaciones de las partes del lenguaje2, y más de la mitad de

    su contenido incluía el esqueleto de una estructura sintáctica (Marcus, Marcinkiewicz, y

    Santorini, 1993). Es conocido como Penn TreeBank y parte de su información fue tomada

    del Brown Corpus.

    Pocos años después se desarrollaron algunas guías que consideraron como provisionales para

    añadir información sintáctica además de las anotaciones morfosintácticas, como por ejemplo,

    símbolos para indicar las relaciones de dependencia entre palabras. Similarmente, se señaló

    la intención de que este formato de anotación sintáctica fuese útil para diversos idiomas, entre

    ellos inglés, holandés, alemán, finés, sueco, francés, español e italiano. Estas guías son

    conocidas hoy como EAGLES, y se consideran el primer paso para crear etiquetados útiles

    en diversos idiomas (Leech, Barnett y Kahrel, 1996). En (1) se presenta una oración

    etiquetada morfológicamente según EAGLES.

    (1) Yo

    PPICSNO

    leo la

    VMIPJSO DAOFSO

    oración simple

    NCFSOOO AQOCSOO Fp

    Entre la segunda mitad de los años 90 y el inicio de este siglo surgieron algunos treebanks

    para español que fueron base para otros que surgieron posteriormente. En 1997 la

    2 En inglés, las anotaciones del lenguaje son conocidas como POS (Part of Speech)

    2

  • Universidad Pompeu Fabra inició el desarrollo del treebank que posteriormente llegó a ser

    conocido como IULA (Santasusagna, Tomer, Vivaldi, Castellví e Yzaguirre, 1998).

    Montserrat Civit y Antonia Martí presentaron en el año 2002 el corpus CLiC-TALP, el cual

    contiene un millón de palabras (Civit y Maiií, 2002). Posteriormente, como resultado de las

    propuestas de esa investigación las autoras tomaron un conjunto de cien mil palabras de este

    corpus para crear un treebank que es conocido como 3LB (Civit y Martí, 2004). Los datos

    generados para 3LB permitieron el desarrollo posterior de otro treebank conocido como

    Áncora, el cual posee la particularidad de orientarse hacia el español y el catalán (Taulé,

    Martí, y Recasens, 2008).

    Durante este período, se desarrollaron investigaciones en la Universidad de Stanford que

    culminaron con la presentación de un analizador sintáctico3 (De Mameffe, MacCartney y

    Manning, 2006). Igualmente se presentó por parte de Sabine Buchholz y Erwin Marsi (2006)

    un formato para el almacenamiento de treebanks para trece idiomas útil para representar la

    información morfosintáctica.

    El analizador sintáctico previamente implementado por De Mameffe (2006) es la base para

    la representación de dependencias basada en árboles sintácticos, la cual toma como

    fundamento el marco teórico de la gramática léxico funcional propuesta por J oan Bresnan, al

    asumir las funciones sintácticas propuestas por esta teoría (Bresnan, 2001 ). Sin embargo, este

    trabajo de De Mameffe presenta 48 tipos de relaciones de dependencia que pueden

    presentarse en una oración, siguiendo con algunas variantes el esquema de representación de

    dependencias propuesto por Tesniere (1959). De Mameffe completó su trabajo en el año

    2008 (De Mameffe y Manning, 2008). Ese mismo año Daniel Zeman se orientó a trabajar en

    la creación de una herramienta de conversión entre diferentes tipos de etiquetado sintáctico

    para diversos lenguajes (Zeman, 2008).

    En los inicios de la segunda década del siglo XXI, Slav Petrov y su equipo propusieron un

    etiquetado universal, junto con un conjunto de relaciones entre diversos tipos de etiquetado

    3 Analizador sintáctico es un programa que analiza un texto siguiendo un conjunto de instrucciones programadas que interpretan las reglas de la gramática y la información contenida en el léxico. (Villayandre, 2011)

    3

  • hacia este formato universal, logrando un etiquetado capaz de ser utilizado en 22 diferentes

    idiomas y 25 treebanks. Para el idioma español, Petrov y su equipo seleccionaron los

    treebanks Ancora y Cast3LB, anteriormente mencionados. (Petrov, Das y McDonald, 2011)

    En la Universidad de Costa Rica, dada la poca cantidad de treebanks que se han desarrollado

    para el español, se creó el treebank IPROCOLDI a partir de documentos cuyo contenido se

    basaba en discursos presidenciales costarricenses, entre el siglo XIX y el XX (Jara Murillo,

    2013). Dicho en otras palabras, es un treebank creado para el español de Costa Rica.

    El año 2013 fue prolífico para el procesamiento de lenguaje natural, ya que los resultados de

    varias investigaciones se presentaron:

    • Ryan McDonald presentó su primera propuesta de un treebank universal, cuyo

    etiquetado es capaz de aplicarse a seis idiomas: alemán, inglés, sueco, español, francés

    y coreano; facilitando el análisis sintáctico multilingüístico (McDonald, Nivre,

    Quirmbach-Brundage, Goldberg, Das, Ganchev, y Lee, 2013). Muchos elementos de

    esta propuesta se basan en los postulados desarrollados por el equipo de De Marneffe

    en 2006 y 2008.

    •Se propuso por parte de Tsarfaty (2013) una extensión de las dependencias de Stanford

    que unifica la anotación de las relaciones sintáctica y morfológica, además de ofrecer

    dos formas para predecir en forma automática estas anotaciones desde texto sin

    procesar.

    • Cristina Bosco y otros investigadores asociados implementaron la primera versión de

    un treebank para la lengua italiana utilizando las dependencias de Stanford a partir de

    un proceso de transformación que tomó como fuentes dos treebanks con etiquetados

    distintos que requirieron una armonización entre sí, utilizando varios patrones de

    conversión que se agruparon en dos clases. (Bosco, Montemagni, y Simi, 2013)

    Recientemente, De Marneffe presentó una mejora de la representación de dependencias de

    Stanford con la finalidad de enfatizar en la teoría de la gramática funcional sobre la cual

    descansa este diseño, así como la habilidad de ser aplicada en diferentes lenguajes. (De

    4

  • Mameffe, Dozat, Silveira, Haverinen, Ginter, Nivre y Manning, 2014)

    En el año 2015 Joakim Nivre y otr4os investigadores presentaron la primera versión de las

    dependencias universales, cuyo propósito es crear guías generales para una anotación

    gramatical consistente entre diversos lenguajes naturales, así como el desarrollo de un

    analizador sintáctico multilingüístico que ayude al avance de las investigaciones de

    procesamiento del lenguaje natural. Para lograr su objetivo, las dependencias universales

    tomaron elementos de las dependencias universales de Stanf ord, extendieron el conjunto de

    etiquetados definidos por Petrov, adoptaron un subconjunto del inventario definido por

    Zeman y una versión revisada del formato CoNLL-X, llamada por este grupo CoNLL-U.

    (Nivre, 2015). La figura 1 ilustra el uso de las dependencias universales para el inglés y el

    francés.

    . ..... rd obj h'o.___

    • • • lll • .... • ~.·----~. ,,.--. t-· ---- ...

    JI mange un sandwich

    lll ll:lll • 11 ,,;-J--,, ,,,,_.., __ .,,.,.... ---. --. "'

    He eats a sand1¡1;id-1 , Figura 1 La oración "Él come un sandwich" analizada en inglés y francés (Dobj: Direct Object)

    Igualmente, en el mismo año Sampo Pyysalo y su equipo asociado lograron la creación de

    un treebank totalmente compatible con las dependencias universales para el idioma finés, a

    partir de otros treebanks que seguían el formato del Turk:u Dependency Treebank (TDT) y el

    FinnTreebank 1. Para este fin se desarrolló un proceso de transformación desde estas fuentes

    hacia el etiquetado definido por las dependencias universales. (Pyysalo, Kanerva, Missila,

    Itse han elle

    Laippala y Gin ter, 2015). La figura 2 presenta una oración resultante de este análisis.

    Figura 2 Oración analizada en finés según el etiquetado de las dependencias universales (Pyysalo et al.)

    5

  • Sin embargo, este avance en la creación de analizadores sintácticos y treebanks se ha dado

    en idiomas diferentes al español. Además, cuando se ha dado algún desarrollo para nuestra

    lengua materna, en su mayoría ha sido por parte de personas con conocimiento no nativo del

    mismo. Señalan Lloberes, Castellón y Padró (201 O) específicamente la existencia de pocos

    analizadores sintácticos orientados hacia la representación de dependencias en español; con

    el agravante que, de estos pocos, un porcentaje bajo son de tipo 'open source '. Por ejemplo,

    mencionan los casos de MaltParser, Diluct y Freeling. Otra situación recalcada es que de

    estos analizadores sintácticos 'open source' solamente Freeling utiliza reglas basadas en

    conocimiento lingüístico, pero no emplea los postulados mencionados por Nivre (2015). En

    el caso de IPROCOLDI, treebank que se construyó a partir de un análisis de discursos

    presidenciales costarricenses, existen dos particularidades: a pesar de emplear reglas

    lingüísticas, utiliza una estructura sintagmática y su etiquetado no es el de las dependencias

    universales, sino EAGLES.

    Esta tendencia general que orienta las investigaciones hacia el español de la Península Ibérica

    tiende a descartar las variantes sintácticas del español americano. Con respecto a las

    diferencias entre español americano y español peninsular, pueden mencionarse el uso

    diferenciado de pronombres clíticos incluyendo sus combinaciones y creación de locuciones.

    En este campo el trabajo de Charles Kany es pionero (Kany, 1951). En (2) se ilustran las

    diferencias entre las variantes americana (2.a) y peninsular (2.b) en cuanto al uso de

    pronombres clíticos.

    (2) a. Ella estaba con sus amigos. Recibió una carta y se las leyó a ellos.

    b. Ella estaba con sus amigos. Recibió una carta y se la leyó a ellos.

    Por las razones mencionadas anteriormente, a la fecha no se conoce la existencia de treebanks

    orientados específicamente hacia el español americano, o que incluyan algunos de sus rasgos,

    que empleen dependencias universales.

    1.2. Planteamiento del problema

    El estado del arte muestra un interés en el análisis morfológico y sintáctico de textos en

    diversos idiomas, cuyo inicio data desde la década de los años sesenta del siglo anterior. Los

    progresos en el área de la Lingüística Computacional en estos procesos de análisis se han

    6

  • visto afectados en forma directa por los avances en el hardware y software que han sucedido

    paralelamente en la misma época, puesto que los nuevos recursos disponibles abrieron

    oportunidades para validar e implementar las teorías lingüísticas que surgieron.

    La lingüística moderna postula los análisis de textos desde dos perspectivas: la estructuralista,

    propuesta por Tesniere, y la generativa, cuyo máximo representante es Chomsky. Esto ha

    incidido directamente en un fenómeno de diversificación en la forma que las oraciones de

    dichos textos se analizan, causando divergencias importantes. Igualmente, entre las múltiples

    investigaciones que siguen alguna de estas dos perspectivas existen diferencias en cuanto a

    la codificación empleada para anotar las características morfológicas y sintácticas de los

    textos, así como los corpus y treebanks generados, sin hacer a un lado las representaciones

    gráficas para su comprensión. Lo anterior incrementa las divergencias entre las estructuras

    planteadas y los análisis que emergen de ellas. Es importante considerar también que existen

    aproximaciones que toman elementos de ambas perspectivas, para crear su propia

    interpretación. La figura 3 presenta una oración analizada desde ambas perspectivas.

    Figura 3 Árbol de constituyentes (Chomsky) y árbol de dependencias (Tesniere) para la oración "Los niños pequeños estudian pocas horas" (Raro y Gelbuck, 2007)

    o estudian

    A) Árbol de constituyentes B) Árbol de dependencias

    Otro hecho que incrementa la diversidad en los análisis de textos es el avance dispar de las

    investigaciones si se considera la lengua. Posiblemente, la lengua inglesa ha sido la más

    analizada tanto en morfología como en sintaxis, así como en la generación de sus etiquetados;

    al igual que el alemán y el chino. Con respecto al español puede afirmarse que la cantidad de

    investigaciones es considerablemente menor, y que en buen grado se han aplicado algoritmos

    7

  • creados para otro idioma. Ello implica que hay una carencia de herramientas que surjan desde

    las características propias la lengua, causando una automatización dispar del proceso de

    análisis sintáctico. Aunado al hecho anterior, la existencia de variantes en la sintaxis entre el

    español peninsular y americano es un foco desde el que se generan ciertas diferencias en

    cuanto al análisis oracional.

    En medio de la existencia de distintas corrientes para el análisis de oraciones y sus

    representaciones que han emergido de la Lingüística Computacional, ha surgido en los años

    recientes una corriente interesada en desarrollar herramientas y formatos de anotación que

    permitan tomar los elementos morfológicos, sintácticos y semánticos que puedan

    considerarse como comunes en la mayor cantidad de lenguajes naturales posibles,

    procurando ofrecer nuevas oportunidades para el aprendizaje de un nuevo idioma, así como

    mejoras a modelos existentes. Este esfuerzo también abarca la creación de nuevos esquemas

    para la traducción de textos, además de abrir el espacio para sinergizar los descubrimientos

    o avances de investigaciones que vienen de diferentes perspectivas de análisis.

    Las investigaciones que siguen esta línea de pensamiento han incentivado la creación de

    treebanks con propuestas para la representación estándar de dependencias capaces de

    soportar adecuadamente múltiples idiomas. Dichos treebanks han sido alimentados a partir

    de corpus y otros treebanks reconocidos, los cuales han sido sometidos a procesos de

    estandarización de su etiquetado morfológico y sintáctico que tienden a ser semiautomáticos

    o se basan en conversiones manuales generadas por lingüistas; sin importar a cuál de las

    perspectivas lingüísticas pertenezcan.

    Finalmente, es notable la escasez de herramientas para crear treebanks para el español, así

    como su orientación probabilística en su mayoría. Los pocos existentes que se basan en reglas

    de conocimiento lingüístico no tratan con las dependencias universales ni se orientan hacia

    el español americano. El hecho anterior es explicable debido a que la mayoría de las

    investigaciones han sido realizadas en Europa, asumiendo la variante del español peninsular

    como estándar de facto.

    8

  • A partir de los antecedentes en el área de la Lingüística Computacional y del planteamiento

    del problema anteriormente presentado, esta investigación propone como pregunta de

    investigación: "¿es posible automatizar el proceso de creación de un treebank en español

    americano utilizando dependencias universales reduciendo la intervención de anotadores

    humanos?"

    1.3. Objetivos de la investigación

    Luego de presentar la pregunta de investigación que surge de los antecedentes y la

    descripción del problema, se definen acá el objetivo general y los objetivos específicos para

    esta investigación.

    1.3.1. Objetivo general

    Automatizar el proceso de creación de un treebank en español americano reduciendo la

    intervención de anotadores humanos y utilizando dependencias universales.

    1.3 .2. Objetivos específicos

    • Identificar y caracterizar textos anotados existentes para el español.

    • Establecer la equivalencia de las anotaciones de estos textos anotados con un modelo

    estándar de representación de dependencias.

    • Proponer un modelo de creación automática de un treebank a partir de corpus

    existentes en español americano.

    • Evaluar en qué proporción puede ser automatizado el proceso de creación de un

    treebank en español americano que utilice un modelo estándar de representación de

    dependencias; a partir de textos anotados existentes.

    A continuación se presentan los hechos que justifican esta investigación.

    1.4. Justificación

    Uno de los objetivos o tareas más comunes en cualquier área de las Ciencias de la

    Computación es la automatización de procesos que se realizan en forma manual y requieren

    una fuerte inversión en tiempo, debido al nivel de detalle, así como de experticia requerida

    para su correcta ejecución. Además, se procura que estos procesos puedan ser reproducidos

    9

  • utilizando los datos existentes en el entorno donde se implementen, a la vez que se mantengan

    las definiciones requeridas y sus respectivas codificaciones para asegurar su replicación en

    otros lugares. La Lingüística Computacional es un ejemplo de ello.

    Partiendo de allí, a través de esta investigación se daría la aplicación de enfoques teóricos

    utilizados en la Lingüística Computacionalcon la finalidad de ofrecer una propuesta para la

    implementación de un proceso que logre la mayor automatización del análisis sintáctico a

    partir de un corpus generado desde texto en español, con el objetivo de generar un treebank

    que emplee una representación estándar de dependencias. Esto con el fin de que pueda ser

    reconocida por diversas herramientas con la mayor cantidad de eficacia y exactitud posible.

    Son diversas las razones por las cuales lo descrito en el párrafo anterior contiene una

    relevancia en la época actual. Una de ellas se relaciona con el creciente interés que el español

    está adquiriendo en esta época. Según datos actualizados, al menos el ocho por ciento de los

    documentos presentes en Internet fueron generados utilizando el español (Instituto Cervantes,

    2015). Este crecimiento en la creación de documentos en la Internet, así como en otros

    medios de comunicación genera una enorme oportunidad de investigar cómo el idioma

    actualmente adquiere nuevos rasgos o léxico, así como agrega la dificultad de procesar esta

    información debido a su volumen en constante crecimiento.

    La investigación también aportaría una forma en la cual se incrementaría la capacidad de

    procesamiento de textos, a la vez que ofrecería a los lingüistas la oportunidad de poseer una

    herramienta que apoye su trabajo al automatizarlo y permita emplear el tiempo que se libere

    para otras investigaciones o tópicos relacionados. El idioma español, aunque ha sido objeto

    de análisis en diversos campos de la lingüística computacional, mantiene un rezago en cuanto

    a la abundancia de proyectos de investigación cuando se le compara con otros idiomas,

    especialmente el inglés.

    El cuadro que se presenta a continuación, tomado del análisis de Melero, Cardús, Moreno,

    Rehm, de Smedt, y Uszkoreit (2012), ofrece el grado de avance con respecto a recursos y

    tecnologías orientadas al análisis de la lengua española en una época reciente, tales como

    10

  • sistemas de reconocimiento de texto y voz, análisis y generación de textos. Dicho trabajo se

    orienta al impacto que la era digital ha hecho en los idiomas europeos, por lo que su énfasis

    es hacia el español de la Península Ibérica.

    Cuadro 1 Soporte existente a la tecnología lingüística para el Español (Melero et al, 2012) Categorización: 1 - Excelente, 2 - Bueno, 3 - Moderado, 4 - Fragmentario, 5 - Escaso

    "O "O ce Q.l

    "O ce ce ¡... ce :9 :9 ;::l

    ¡... ;g ......, ;::l ......, ';; ¡... "O e< Q.l ce :.o ce u ..o 2 ·a u o u Q.l ......,

    "' o if.J

    Reconocimiento de voz 2 3 4 2 2

    Síntesis de voz 3 3 4 4 4

    Análisis gramatical 3 3 4 4 4.5

    Análisis semántico 1.5 2 3 2 2.5

    Generación de texto o o o o o Traducción automática 3 2 2 2 2

    Corpus textuales 3 3 4 4.5 4.5

    Corpus de discurso 4 2 4 4 3

    Corpus paralelos 2 4 2 2 3

    Recursos léxicos 3.5 3 4.5 3 3

    Gramáticas 1 4 5 2 2

    El cuadro 1 ilustra el avance de las tecnologías existentes así como la existencia de de corpus,

    recursos léxicos y gramáticas, al igual que la madurez y la sostenibilidad de herramientas

    para análisis de textos ofrece una oportunidad para desarrollar herramientas que permitan el

    avance de otras investigaciones, puesto que la categorización muestra que el progreso

    alcanzado tiende a ser calificado como moderado o fragmentario,

    En forma más puntual, en los antecedentes se indica la escasez de analizadores sintácticos

    'open source ', que estén orientados hacia relaciones de dependencia. La mayoría de ellos se

    crearon siguiendo un enfoque probabilístico. Solamente Freeling se orienta hacia relaciones_

    de dependencia para el español empleando reglas lingüísticas, con la particularidad que estas

    relaciones se generan a partir de un árbol de constituyentes. Este panorama abre un espacio

    11

    4

    4

    4.5

    2.5

    o 2

    4.5

    3

    3

    3

    2

  • para aportar una herramienta que llene esta área. El siguiente cuadro muestra algunos de los

    analizadores sintácticos 'open so urce' existentes.

    Cuadro 2 Algunos analizadores sintácticos 'open source'

    Basado Español Dep.

    12

    Nombre Probabilistico en reglas Sintagmas Dependencias Etiquetado América Universales Freeling Si Si Si Si EAGLES No No OpenNLP Si No Si No Penn Tree No No

    CoreNLP Si No Si No Penn Tree No No

    NLTK Si Opcional Si Si Configurable No No

    SharpNLP No Si Si No Penn Tree No No

    Diluct Sí No No Sí EAGLES No No

    Otro motivo por el que este trabajo es importante surge de la diversidad de corpus y treebanks

    existentes para un mismo idioma, lo que genera incompatibilidades o discrepancias capaces

    de retrasar la extensión del conocimiento, al no poder representarlo de forma comprensible

    para todas las partes. El aporte que esta investigación ofrece sería el de utilizar un módulo de

    conversión de sistemas de codificación que puede generar valores equivalentes en un modelo

    de representación de dependencias que pueda ser utilizado por diversas herramientas,

    creando puentes de colaboración entre equipos que empleen formatos diferentes.

    Dado que muchos algoritmos para interpretar la opinión de la mayoría se basan en

    información sintáctica y morfológica, una herramienta que procese automáticamente un

    corpus anotado morfológicamente y genere como resultado un treebank facilitaría a otros

    crear mecanismos para la interpretación de opiniones que puedan utilizarse en distintos

    lenguajes, permitiendo que cada investigador se oriente a trabajar en las características

    específicas de cada idioma, ya que los aspectos comunes han sido trabajados previamente.

    En resumen, esta propuesta de tesis procura implementar en un proceso automatizado la

    extracción de oraciones desde un corpus anotado morfológicamente el cual se analice

    sintácticamente y genere un treebank con un etiquetado morfológico y sintáctico para una

    representación estándar de dependencias a partir de un analizador sintáctico basado en reglas.

    Su fin es, entre otros aspectos, investigaciones posteriores que se orienten a interpretar la

  • opinión de la mayoría, posibiliten búsquedas más inteligentes, condensen la información,

    ofrezcan un apoyo para el trabajo de los expertos en lingüística para validar teorías y brindar

    oportunidades para procesos de traducción automática; además de incrementar la cantidad y

    disponibilidad de herramientas para el análisis de textos, sin olvidar el aporte en cuanto a

    posibilitar que investigaciones de diversas perspectivas y etiquetados puedan intercambiar el

    conocimiento que ha sido adquirido a lo largo los años. Esta contribución ayudaría en la

    aceleración del progreso en la Lingüística Computacional, para el español americano.

    13

  • 2. MARCO TEÓRICO

    Para una mejor comprensión, el desarrollo de este marco teórico iniciará con una breve

    descripción de los niveles de análisis del lenguaje, continuando con las teorías gramaticales

    y su pertinencia para esta investigación. Seguidamente se incluye una breve mención del

    análisis estructural de la oración, así como de sus componentes básicos y los sintagmas que

    se generan a partir de los mismos.

    Luego, se tratarán en forma general las relaciones de dependencia, para continuar con el

    etiquetado de funciones y relaciones. Finalmente, se abarcarán los conceptos de treebank y

    dependencias universales.

    2.1. Niveles de análisis del lenguaje natural

    Los seres humanos de acuerdo con su necesidad de comunicación han desarrollado distintos

    sistemas por los cuales han logrado transmitir sus mensajes a otros individuos, así como

    heredar a sus descendientes la riqueza de su aprendizaje.

    Con el transcurso de las épocas se ha pretendido analizar estos sistemas de comunicación,

    para descubrir cómo el texto generado puede ser analizado con la finalidad no solamente de

    comprender, sino de descubrir patrones no vistos anteriormente. De acuerdo con Briscoe

    (2011), el lenguaje natural puede analizarse en varias áreas.

    2.1.1. Fonética

    La fonética se orienta hacia el estudio de las propiedades articulatorias de los sonidos que se

    emplean en la construcción del lenguaje. Seguidamente (3) ilustra tres palabra analizadas

    fonéticamente.

    (3) a. pata [p á ta]

    b. capa [k áp a]

    c. hambre [á m b re]

    14

  • 2.1.2. Fonología

    La fonología se relaciona con la utilización de los sonidos en un idioma específico. La cantidad de

    sonidos, así como los que se emplean en un idioma varía con respecto a otro. Se presenta un caso

    de transcripción fonémica para "abraza" según el español americano ( 4.a) y el español

    peninsular (4.b)

    ( 4) a. / ab.rása/

    b. /ab.rá8a/

    2.1.3. Morfología

    Las palabras pueden ser descompuestas en elementos que utilizan conceptos más básicos.

    Dichos componentes son llamados morfemas. Por esta razón el conjunto de investigaciones

    sobre los componentes de las palabras es conocida como morfología. En la sección 2.9 se

    tratarán con más profundidad las cualidades de estos elementos constitutivos de las palabras.

    Es importante indicar que una oración está compuesta por diversos tipos o categorías de

    palabras. Normalmente se consideran como categorías de palabras los sustantivos, el adjetivo,

    los determinantes, los verbos, los adverbios, los pronombres, las preposiciones, las

    conjunciones y las interjecciones. Más adelante se analizarán con detalle.

    En (5) se muestra una oración analizada morfológicamente, según la categoría a la que

    pertenece cada elemento léxico.

    (5) Yo leo la oración simple

    Pronombre Verbo Determinante Nombre Adjetivo Puntuación

    Común

    2.1.4. Sintaxis

    El ámbito de la oración es tratado por la sintaxis, que puede ser definida como la rama de la

    lingüística que" ... se encarga de estudiar y analizar cómo se combinan las palabras y cuál es

    la función que las diversas agrupaciones de palabras desempeñan en el seno de la oración"

    (Acebo,2011,pág. 8)

    15

  • Es importante destacar que la sintaxis analiza elementos dentro de la oración que son

    definidos como sintagmas, los cuales están en un espacio intermedio entre la oración y las

    palabras. Posteriormente los sintagmas serán tratados con más amplitud en la sección 2.6.

    En el caso de (6) se muestra una oración analizada sintácticamente según su función.

    ( 6) Y o leo la oración simple

    Sujeto Raíz

    2.1.5. Semántica

    Determinante Objeto

    directo

    Modificador Puntuación

    adjetival

    La semántica se orienta hacia la forma en que los elementos morfológicos y sintácticos se

    unen para formar el significado de una oración. En (7) se muestra un caso de análisis

    semántico

    (7) Yo leo la oración simple

    Y o, es decir, la persona que habla, expresa que ejecuta en el presente el acto de leer

    un conjunto de unos pocos elementos léxicos que se relacionan entre sí. Dicho

    conjunto es simple, es decir, sencillo.

    2.1.6. Pragmática

    La pragmática trata con el uso del idioma en contexto, que incluye el contexto lingüístico y

    situacional. Por ejemplo, una oración que gramaticalmente es una pregunta puede ser referida

    en el contexto como una orden o lenguaje figurado. Las oraciones en (8) pueden analizarse

    pragmáticamente:

    (8) Yo leo la oración simple

    Ayer también la leí

    Un caso de análisis pragmático es el hallazgo de una relación en las oraciones presentes en

    (8) entre los elementos léxicos "oración" y "la". Específicamente, el término "la" es

    conocido como anáfora (referencia posterior) y el vocablo "oración" es denominado

    antecedente (primera mención del término).

    16

  • Esta investigación considerará solamente la morfología y la sintaxis, obviando las demás

    áreas del lenguaje natural.

    2.2. Fundamentos de las teorías gramaticales contemporáneas

    La gramática, como parte del estudio del lenguaje, es analizada desde diferentes ópticas por

    parte de los investigadores. Ello conlleva a la definición de teorías que procuran explicar los

    fenómenos relacionados con las palabras, sus características y las relaciones con otros

    vocablos en el contexto de la oración. Según Haro y Gelbuck (2007), existen dos enfoques

    que a lo largo del tiempo se han presentado como opuestos: el desarrollado por Tesniere, de

    origen europeo y el propuesto por Chomsky, formulado en los Estados Unidos. A

    continuación, se presentan algunos rasgos generales de estas propuestas.

    2.2. l. Gramática de dependencias

    Este enfoque tiene sus raíces en el trabajo del francés Lucien Tesniere (1959), quien en su

    libro "Élemenis de syntaxe structural" presenta los fundamentos de su teoría, los cuales se

    mencionan en forma resumida a continuación.

    2.2. l. l. Papel de las palabras

    El enfoque de dependencias parte de la noción de palabra, al afirmar que una oración o frase

    está compuesta por elementos léxicos relacionados entre sí, siguiendo las reglas definidas

    por el lenguaje. Igualmente, las palabras pertenecen a una categoría gramatical y poseen una

    función determinada. Tesniere afirma que la categoría gramatical es estática, mientras que la

    función es dinámica, ya que puede variar según la oración. Puede referirse a las secciones

    2.8, 2.9 y 2.11 para leer acerca de las categorías gramaticales y las funciones sintácticas.

    2.2.1.2. Dependencias

    Según Tesniere, toda oración puede representarse jerárquicamente, mediante relaciones

    denominadas 'dependencias'. Una dependencia puede ser definida como una relación entre

    dos palabras que pertenecen a una misma oración. Una de las palabras se distingue como

    subordinada o dependiente y la otra como regente. En la oración (9) se presenta un caso de

    regente y regido.

    17

  • (9) Yo leo

    Regido Regente

    Una palabra regente puede poseer varias subordinadas. En cambio, cada palabra subordinada

    tiene solamente un término regente. Otro aspecto importante es que una palabra regente

    puede ser subordinada a la vez.

    La regencia de una palabra sobre otra se define según su categoría gramatical. Por ejemplo,

    un verbo es regente del sustantivo y del pronombre. El sustantivo es regente para los

    detenninantes y adjetivos; mientras que los adjetivos rigen adverbios. Estos últimos solo

    rigen adverbios. La figura 4 ejemplifica dicha situación.

    Figura 4 Árbol de dependencias con ejemplos de palabras regentes y regidas (Raro y Gelbuck, 2007)

    estudinn

    horas

    los pequeños pocas

    La figura 4 muestra cómo el determinante "los" y el adjetivo "pequeños" son regidos por el

    sustantivo "niños'', el que a su vez es regido por el verbo "estudian". Dicho en forma diferente,

    se relacionan entre sí9

    2.2.1.3. Nudos

    Un nudo es una palabra que tiene varios términos que dependen de ella. Los nudos son

    denominados según la categoría gramatical a la que la palabra pertenezca. En la figura 4,

    "niños" y "horas" son nudos sustantivales.

    18

  • Toda oración posee un nudo principal. Generalmente es el verbo, aunque existen casos en

    los que un sustantivo puede tomar ese papel. En la figura 4, el nudo principal es el verbo

    "estudian".

    Finalmente, las palabras que tienen la capacidad de ser nudos son llamadas constitutivas. Las

    demás son conocidas como subordinadas.

    2.2.1.4. Valencias

    Este concepto se relaciona generalmente con verbos. Una valencia es el número de sujetos y

    objetos que un verbo necesita para generar una oración gramaticalmente correcta.

    Generalmente son el sujeto, el complemento directo y el complemento indirecto según su

    perspectiva. La sección 2.11 amplía estos últimos conceptos. En la oración de la figura 4, la

    valencia del verbo "estudian" es 1, ya que el verbo sólo requiere del sujeto "niños".

    2.2.1.5. Gramática

    Algunos estudiosos, años después de la mue1ie de Tesniere, desarrollaron una definición de

    gramática para esta teoría. Debusmann (2000) presenta una síntesis de sus componentes de

    una gramática:

    • Un conjunto de reglas (R) que operan sobre símbolos auxiliares.

    • Un conjunto de símbolos terminales (L), que son palabras.

    • Un conjunto de símbolos auxiliares (C), correspondientes a las categorías

    gramaticales.

    • Una función de asignación (F), por la que se asigna a cada símbolo terminal el

    símbolo auxiliar correspondiente. F puede ser definido como F: L -> C.

    Las reglas que operan bajo esta teoría poseen las siguientes cualidades. Asumiendo que p es

    una palabra subordinada de otra x, se dice que:

    • x (p1, .. ., *, ... , pk), donde p1 ... pk dependen de x.

    • X(*): x es un nodo izquierdo.

    • * (x): x es el nodo raíz. • * indica la posición del nudo.

    19

  • Para la oración 'Yo leo la oración simple', las reglas pueden ser definidas como se presema

    a continuación en el cuadro 5:

    Cuadro 3 Conjunto de reglas definidas para una gramática de dependencias (EJaborado por el investigador)

    R""la Exolicación V (Pr, •, N) El pronombre y el nombre se subordinan al verbo. El verbo es la ralz. Pr(*) Un pronombre puede re;:irse a si mismo N uede regirse a si mismo ~jJ·) El adietivo ouede .....,;rse a si mismo

    Estas reglas son empleadas por los lingüistas para crear sus representaciones gráficas, las

    cuales se presentan a continuación.

    2.2.1.6. Representación gráfica

    Gráficamente la oración analizada según esta corriente se representa mediante un árbol

    generado a partir de la gramática especificada anteriormente. La figura 5 ilustra e l diseño del

    árbol de dependencias para la oración "Yo leo la oración simple".

    leo

    --~· ~ ~

    Yo oración

    la simple

    Figura 5 Áf'hol de depend encias para el enunciado "Yo leo la oraci(n1 sin1ple1• (elaborado por l:I Investigador)

    2.2.2. Gramática generativa.

    La gramática generativa tiene como su principal representante a Noarn Chomsky, que luego

    de varios escritos presentó un conjunto de ideas que se consideran postulados fundamentales

    de esta corriente (Chomsky, 1957). Básicamente, Chomsky indica que todo lenguaje (L)

    20

  • existente requiere una gramática (G) a partir de la cual se deriva. Dicha gramática está

    compuesta por:

    • Un conjunto de palabras terminales (:L) que son parte de L.

    • Un conjunto de palabras no terminales, que representan las funciones sintácticas.

    • Un grupo de reglas (R) que permiten crear un conjunto de oraciones o frases que

    siguen las secuencias de estas reglas. A estas oraciones se les considera corno válidas.

    Una regla puede contener otras reglas, permitiendo así la recursividad, de forma que

    cada oración puede ser subdividida y organizada en frases, facilitando su

    representación corno árboles. En dichos árboles cada nodo es una agrupación de

    palabras que cumplen una función sintáctica.

    • Es importante señalar que la gramática generativa considera a una oración corno

    válida si esta puede, además de ser representada, ser creada a partir del grupo de

    reglas que se ha definido para ella.

    Un ejemplo de árbol generado según la fonnulación de Chornsky, que en ocas10nes es

    llamado árbol de constituyentes, es presentado en la figura 6. Se utiliza la oración de la figura

    5.

    o

    SN

    V

    N

    1

    1'l

    1 Yo leo la oración simple_

    Figura 6 Árbol de constituyentes para el enunciado "Yo leo la oración simple" (elaborado por el investigador)

    21

  • Con el tiempo, de esta formulación de Chomsky se derivaron varias corrientes que se

    independizaron. Esta investigación se limitará a presentar la gramática léxico.:funcional

    (LFG por sus siglas en inglés). En la siguiente sección se presentan algunos detalles que la

    caracterizan.

    2.3. Gramática Léxico-Funcional (LFG)

    Las teorías propuestas por Chomsky y Tesniere para el análisis del lenguaje resultaron

    fundamentales para la Lingüística Computacional, ya que sus postulados se tomaron como

    base por teorías que surgieron conforme pasaron los años. En esta investigación nos

    centraremos en la gramática léxico-funcional.

    2.3 .1. Generalidades

    La gramática léxico funcional surgió en los años setenta, en medio de controversias

    suscitadas en el marco de la corriente generativa de Chomsky, ya que se estaban explorando

    nuevas aproximaciones. Según Dalrymple (2001), las investigaciones que condujeron a la

    formulación de esta teoría iniciaron con la búsqueda de mejores representaciones para las

    estructuras de la oración, que culminaron con los trabajos de Joan Bresnan, quien, junto a

    Ronald Kaplan, presentaron los fundamentos de esta teoría (Kaplan y Bresnan, 1982). Gómez

    Guinovart (2001) señala que LFG tiene como meta crear una representación lo más formal

    posible del lenguaje humano, que pueda ser reproducida en forma computacional y precisa.

    Algunos elementos de esta teoría son:

    • La creencia en que la estructura oracional sigue principios universales, sin importar

    el idioma en que se formule, aceptando las particularidades de cada lengua

    (Dalymple, 2001)

    • El énfasis en las relaciones existentes entre palabras a través del verbo en vez de

    considerar transformaciones sintácticas. (Kaplan, 1995)

    • La existencia de un léxico, el cual es un conjunto de palabras que pertenecen a un

    idioma o lenguaje. Cada término posee particularidades específicas. En las secciones

    2.8 en adelante se amplía sobre estas particularidades.

    • Se asume la existencia de un conjunto de reglas que representan la gramática a partir

    de la cual todas las oraciones consideradas válidas para un lenguaje son generadas.

    22

  • Cualquier otra oración que se aparte de las estructuras definidas por las reglas es

    inválida (Kaplan y Bresnan, 1982). Algunas investigaciones las denominan reglas

    léxicas. Un ejemplo de estas reglas puede observarse en el cuadro 4.

    Cuadro 4 Conjunto de reglas definidas para una gramática LFG (elaborado por el

    investigador)

    Regla Explicación O -7 SN SV Una oración se compone de un sintagma nominal (SN) y otro verbal (SV) SN -7 DetN SN puede incluir un determinante y un nombre SN-7 P SN puede incluir pronombre SV-7 V SV puede contener un verbo SV-7 V SN SV puede ser la combinación de un verbo y un SN

    Además, LFG emplea dos formas para representar el análisis de la oración. En las próximas

    subsecciones se incluye una definición concisa de ambas.

    2.3 .2. Estructuras para la representación de la oración

    Como toda teoría, la gramática léxico funcional posee estructuras por las cuales representa

    sus postulados. De acuerdo con Kaplan (1995) la teoría define dos niveles de representación

    sintáctica para una oración, que en este caso son la estructura constituyente (estructura-e) y

    la estructura funcional ( estructura-f)

    2.3 .2.1. Estructura constituyente (estructura-e)

    En forma concreta, Bresnan y Kaplan (1982) afirman que la estructura-e es una

    representación convencional de una oración en forma de árbol, en la que se indica el orden

    de las palabras y frases en la oración; definiéndose en términos de categorías sintácticas. Esta

    estructura se genera a partir de reglas definidas previamente. En la figura 1 puede observarse

    el conjunto de reglas creadas para el enunciado "Yo leo la oración".

    La figura 7 muestra la estructura-e resultante de aplicar las reglas definidas previamente para

    la gramática que aplicará a la oración previamente indicada.

    23

  • SN

    V

    J:.l

    1 N

    1 Yo leo oración

    Figura 7 Estructura-e generada a partir de las reglas definidas (elaborado por el investigador)

    2.3.2.2. Estructura funcional (estructura-±)

    La estructura-f se orienta a codificar y representar las funciones sintácticas, a la vez que

    contiene cierta información semántica. Puede contener otras estructuras-f como parte de su

    constitución.

    La información contenida en una estructura-f se representa mediante pares ordenados tipo

    (atributo, valor), que son representados como se indica en la figura 8, utilizando la oración

    empleada como ejemplo anteriormente.

    24

  • PRED

    TIBMPO

    SUJ

    OBJ

    'leer '

    PRESENlE

    PRED

    NüNI

    PER

    SPEC

    PRED

    Nll1vI

    PER

    Yo

    SING

    la

    oración

    SING

    3

    Figura 8 Estructura-f correspondiente al enunciado 'Yo leo la oración.' (elaborado por el investigador)

    Para una mejor comprensión de este tipo de estructuras, las siguientes secciones explican los

    conceptos involucrados.

    2.4. Análisis estructural de la oración

    Seguidamente se presentan definiciones y conceptos relacionados con la estructura de la

    oración y de su análisis.

    2.4.1. Distinción entre oración y frase

    Antes de profundizar en definiciones morfológicas y sintácticas se hace primordial un alto

    en el camino para distinguir dos estructuras gramaticales de suma importancia que serán

    consideradas durante esta investigación: la oración y la frase. A continuación, se enfocarán

    los conceptos de sujeto y predicado.

    2.4.2. La frase

    Según Vergara y Liessem (2013) la frase es un conjunto de palabras que expresan una idea

    completa, pero no forman una oración, debido a la ausencia de verbo. Ejemplos de frases se

    encuentran en (1 O):

    25

  • (1 O) a. ¡Por Dios!

    b. ¡Epa!

    c. ¡Una taza de café!

    2.4.3. La oración

    Continuando el pensamiento esgrimido por Vergara y Liessem (2013), la oración puede

    conceptuarse como una estructura de palabras que transmiten un pensamiento completo y

    que contiene un verbo que indica la acción realizada, como puede observarse en (11)

    (11) a. La luna brilla con esplendor.

    b. La mañana tenía un cielo azul.

    c. Los escritores pensaron que sus libros serían comprados por muchas personas.

    2.5. Componentes básicos de la oración

    Como estructura gramatical, la oración puede ser subdividida en dos unidades sintácticas: el

    sujeto y el predicado, que son complementarias entre sí.

    2.5.1. Sujeto (S)

    Se define al sujeto como la parte de la oración en la que se dice algo de una persona o de un

    ser inanimado (Renau, 2010), tal como se presenta en (12).

    (12) a. La noche es azul.

    s b. El dinosaurio corre tras su presa.

    s c. La Edad Media dio paso al Renacimiento.

    s

    Más adelante se definirán las cualidades sintácticas del sujeto. Sólo se afirmará que

    sintácticamente existen ocasiones en las que el sujeto de una oración puede estar ausente pero

    implícitamente se sabe de él. Cuando este hecho se presenta al sujeto se le conoce como

    "tácito" (13.b y 13.c):

    26

  • (13) a. María se encontró veinte mil colones. (En este caso, el sujeto es explícito)

    s b. Después, se compró un par de zapatos nuevos. (Sujeto tácito: María)

    c. Con el vuelto, regresó a su casa. (Sujeto tácito: María)

    En la segunda y tercera oración del ejemplo, puede notarse cómo el sujeto no se presenta

    pero se reconoce por el contexto que es María.

    2.5.2. Predicado (P)

    Con respecto al predicado, Gil (1980) afirma que éste es aquel grupo estructurado de palabras

    que ayudan a expresar la información que se comunica del sujeto. Si bien ya se afirmó que

    una oración puede no tener sujeto, el predicado siempre estará presente.

    Utilizando los ejemplos de orac10nes para los que se identificó el sujeto, se resalta su

    predicado en (14).

    (14) a. La noche es azul.

    p

    b. El dinosaurio corre tras su presa.

    p

    c. La Universidad abrió nuevas carreras en el área de Computación.

    p

    Generalmente, en la lengua española esta estructura de la oración sigue la secuencia Sujeto-

    Verbo-Predicado (SVP), aunque en ocasiones puede ordenarse siguiendo las tendencias

    Verbo-Predicado-Sujeto (VP S) o Predicado-Verbo-Sujeto (PVS), aunque este último uso es

    prácticamente inexistente. En (15) se ilustran estos ordenamientos.

    (15) a. El rey decidió clausurar el evento.

    s V p b. Decidió el rey clausurar el evento.

    V s p c. Clausurar el evento decidió el rey.

    p V s

    27

  • Finalmente, es necesario indicar que la secuencia SVP es conocida como la forma canónica

    de la oración para la lengua española.

    2.6. Clasificación de oraciones

    De acuerdo con la gramática española, las oraciones pueden ser clasificadas de diversas

    formas. Algunas de ellas son:

    2.6.1. Clasificación según su estructura interna

    Las oraciones pueden ser clasificadas de diversas maneras. Una de ellas es según la cantidad

    de verbos existentes en ellas. Se le llama oración simple a aquella que tiene un verbo en su

    estructura, y por tanto, un sujeto y un predicado. Ejemplos de oraciones simples se muestran

    en (16):

    (16) a. Esta pintura posee gran calidad

    s V p b. Las nuevas computadoras tienen grandes mejoras en su rendimiento.

    s V p c. El sol alegra el canto de las aves.

    S V P

    La oración que posee más de dos verbos es llamada oración compuesta (17).

    (17) a. Esta pintura posee gran calidad y su autor merece reconocimiento.

    s V p s V p

    b. El precio es muy alto porque los materiales son los mejores.

    s V p s V p c. La luna refleja en el agua el canto del amor que clama.

    s V p V

    28

  • 2.6.2. Clasificación según la presencia del sujeto

    Existen oraciones para las cuales el sujeto puede ser identificado o deducido, ya que el idioma

    español permite que el mismo pueda hallarse implícito. Para estos casos la oración es

    conocida como bimembre (18):

    (18) a. La luna adorna la oscura noche azul.

    s V p b. La pelota de fútbol costó poco dinero.

    S V P

    c. El violinista interpretó magistralmente la melodía.

    s V p

    El otro caso es cuando un sujeto no se puede identificar del todo. Acá la oración es

    denominada unimembre o impersonal. Se diferencia del sujeto tácito ya que este puede

    deducirse, mientras que en este caso no es posible (19):

    (19) a. Es imposible de describir.

    V p

    b. Llaman a la puerta.

    V p

    2.6.3. Clasificación según la naturaleza del verbo

    Toda oración tiene un verbo principal por el cual la oración puede ser clasificada. Este verbo

    según la gramática puede ser copulativo o predicativo.

    Los verbos copulativos de acuerdo a la gramática española son ser, estar y parecer. Las

    oraciones que los contengan son llamadas copulativas. Un par de ejemplos son:

    (20) a. El perro es azul.

    S V P

    b. La luna está sobre el árbol.

    s V p c. La casa parece un castillo medieval.

    s V p

    29

  • Todos los demás verbos se califican como predicativos, lo cual es motivo para llamar a este

    tipo de oraciones predicativas. Casos de este tipo de oraciones son:

    (21) a. La marca de la vida se encuentra en todo niño.

    s V p b. Las manzanas poseen cualidades curativas.

    s V p c. El árbol posee hojas amarillas.

    S V P

    2.6.4. Clasificación según el tipo de voz

    Los verbos predicativos pueden tomar dos modalidades. Una de ellas es en la que el sujeto

    realiza la acción. Para este caso la oración es denominada oración activa (22).

    (22) a. Juan Antonio escribió un libro.

    b. Pedro llamó a su jefe.

    c. Los niños prepararon su tarea justo a tiempo.

    Existen situaciones en las que el sujeto no ejecuta la acción, sino que es el receptor de la

    acción. Para estos casos la oración se considera como pasiva (23). En dicho caso, las

    oraciones anteriores pueden ser reescritas así:

    (23) a. El libro fue escrito por Juan Antonio.

    b. El jefe fue llamado por Pedro

    c. La tarea fue preparada a tiempo por los niños.

    2.7. Sintagmas

    Las oraciones, para su estudio, son segmentadas en componentes de menor tamaño, que

    pueden ser sintagmas, palabras o morfemas. En esta sección se trata la definición, las

    características y tipos de sintagmas.

    2. 7 .1. Definición

    De acuerdo con Acebo (2011), puede afirmarse que un sintagma es un conjunto de palabras

    que cumplen o desempeñan una función sintáctica específica dentro del contexto de la

    oración. Ejemplos de sintagmas se encuentran en la siguiente oración:

    30

  • (23) El último náufrago soportó el mal tiempo en el mar Negro.

    Sintagmal Sintagma2 Sintagma3 Sintagma4

    2. 7.2. Características

    Según Orlando, Montenegro, Polakof, Hipogrosso, Lepre, y Costa (2011), los sintagmas

    muestran ciertas características:

    Pueden estructurarse en forma jerárquica .

    Pueden subdividirse en otros sintagmas o en palabras .

    Una de las palabras que los componen hace el papel de núcleo. Su importancia radica

    en que este núcleo transmite al sintagma sus propias características. Un par de

    ejemplos se incluyen a continuación (24). Los sintagmas se muestran en negrita y el

    núcleo además está subrayado.

    (24) a. Estoy muy seguro.

    Núc.

    b. El fervor infantil se derramará en la playa azul.

    Núc.

    • Los sintagmas poseen constituyentes, que son palabras relacionadas con el núcleo

    (25). Aquellas que el núcleo requiera por causa de las reglas sintácticas son llamadas

    complementos. Las que pueden estar presentes o no se reconocen como

    modificadores. Para ampliar estos conceptos se amplían los ejemplos anteriores.

    (25) a. Estoy muy seguro.

    Mod Núc.

    b. El fervor infantil se derramará en la playa azul.

    Co Núc. Mod

    2.7.3. Tipos de sintagmas

    Como se indicó en el punto anterior, los sintagmas absorben las cualidades sintácticas de su

    núcleo. Por dicha razón, salvo las conjunciones, los determinantes y las interjecciones, las

    31

  • demás categorías de palabras pueden ser el núcleo de un sintagma. A excepción de los

    pronombres, que son un sintagma por sí mismo, los sintagmas pueden clasificarse como:

    2.7.3.1. Sintagma nominal (SN)

    Se considera sintagma nominal a todo aquel cuyo núcleo sea un sustantivo o nombre. En

    algunos casos la función de núcleo puede ser ejecutada por un infinitivo, una frase

    sustantivada o bien un pronombre (Renau, 201 O).

    Los sintagmas nominales pueden tener complementos, como adjetivos, adverbios, participios

    y otros sustantivos, por citar algunos. Es importante destacar que todo sustantivo que

    complemente al núcleo es conocido como aposición, aunque esta definición también aplica

    para cualquier nombre que modifique a otro sustantivo. Ejemplos de sintagmas nominales se

    hallan en (26):

    (26) a. Un dato interesante surgió repentinamente.

    SN

    b. La discusión alcanzó límites insospechados.

    SN SN

    2.7.3.2. Sintagma adjetivo (SAdj)

    Un sintagma adjetivo es el que posee un adjetivo como núcleo (27). Puede tener

    modificadores como adverbios, o bien complementos como prepos1c10nes o sintagmas

    preposicionales. (Acerbo, 2011)

    Generalmente los modificadores se anteponen al núcleo, mientras que los complementos son

    posteriores al mismo.

    (27). a. Alejandro ha comprado un libro blanco.

    SAdj

    b. Estoy muy seguro de la respuesta proporcionada.

    SAdj

    32

  • 2.7.3.3. Sintagma verbal (SV)

    Como su nombre sugiere, el sintagma verbal se caracteriza por tener un verbo como núcleo.

    La necesidad de complementos depende del tipo de verbo que sea el núcleo. (Renau, 2010)

    Los complementos del núcleo de este tipo de sintagma se clasifican en argumentos y adjuntos.

    Los argumentos requieren estar presentes, mientras que los adjuntos son opcionales. A

    continuación, se presenta un caso de sintagma verbal (28):

    (28) a. Mi madre lee laboriosamente.

    sv b. El perro corre anunciando la llegada de la luna.

    sv

    2.7.3.4. Sintagma adverbial (SAdv)

    El sintagma adverbial (SAdv) se identifica porque su núcleo es un adverbio. Ocasionalmente,

    este núcleo puede ser modificado por otro adverbio de cantidad o grado y rara vez tiene

    complementos (29):

    (29) a. Mi madre lee muy rápidamente

    SAdv

    b. El verbo fue interpretado posteriormente con furia.

    SAdv

    2.7.3.5. Sintagma preposicional (SPrep)

    Los sintagmas preposicionales se caracterizan porque su primera palabra es una preposición,

    y salvo la preposición 'según', se componen de más de una palabra (30). Pueden ser

    complementados por un nombre o sintagma nominal, o bien por una oración.

    (3 O) a. Mi madre lee con los lentes.

    SPrep

    b. El pueblo celebró tras la decisión.

    SPrep

    33

  • 2.8. Categorías de las palabras en la oración

    Luego de haber definido en forma concisa los sintagmas, se hace imprescindible referirse a

    las categorías de las palabras existentes en el idioma español, ya que contienen información

    morfológica importante para analizar una oración en forma sintáctica. Seguidamente se hace

    una descripción general de cada una de ellas, incluyendo una breve presentación de sus

    clasificaciones.

    2.8.1. Sustantivo o nombre

    Para RAE (201 O), el sustantivo o nombre es el tipo de palabra que se caracteriza por

    identificar personas, animales, cosas concretas o imaginarias, colectivos, materias, hechos,

    cualidades o sucesos (31)

    (31) Pan, agua, luz, Pedro, música, España.

    Generalmente los sustantivos son clasificados como comunes y propios.

    Los sustantivos comunes tienen como virtud que categorizan o clasifican cosas,

    animales o personas siguiendo características que permiten dicha agrupación y hacen

    distintivas a estas palabras. Algunos sustantivos comunes del ejemplo anterior son:

    pan, agua, luz y música.

    Los sustantivos propios no informan acerca de los rasgos o cualidades, sino que se

    encargan de identificar un ser o cosa. Se incluyen en este apartado nombres de

    personas, lugares, cuerpos celestiales, festividades, asociaciones, por citar algunos.

    Algunos casos de nombres propios presentes en el ejemplo anterior son: Pedro,

    España.

    2.8.2. Adjetivo

    Los adjetivos son palabras que se caracterizan por clasificar al sustantivo. Según Gil (1980)

    son en su naturaleza completamente dependientes de los sustantivos, ya que siempre se

    piensan en relación con estos.

    Aunque la gramática tradicional distingue entre adjetivos calificativos y determinativos, para

    efectos de esta investigación solamente se considerarán los calificativos, puesto que los

    34

  • determinativos se analizarán en otra categoría de palabra a la que se denominará dete1minante

    y será contemplada en la siguiente sección.

    El adjetivo es todo aquel vocablo que contiene en sí la cualidad de indicar algón rasgo, virtud

    o característica que está presente en el sustantivo al que califica (32).

    (32) Azul, grande, inteligente, sabio, transparente, redondo, rojo.

    2.8.3. Determinante

    Segón Renau (2010) y Acerbo (2011), el determinante es la clase de palabra que especifica

    a un nombre común o a la categoría que desempeñe la función de sustant ivo o nombre (33).

    Su presencia indica que el nombre a continuación es comón, mientras que su ausencia indica

    que el sustantivo es un nombre propio.

    (33) a El perro corrió velozmente.

    Del

    b. La canción se interpretó.

    Det

    c. Los amigos conversan.

    Dct

    d. Una mujer estaba presente.

    Det

    Los determinantes pueden ser agrupados segón su función como:

    • Identificadores, que son todas aquellas palabras con la capacidad de indicar el

    sustantivo al cual se hace referencia o bien su cercanía o lejanía. En otros casos

    relacionan al nombre con su poseedor. En esta categoría se incluyen el articulo

    determinado (34.a), el determinante demostrativo (34.b) y el determinante posesivo

    (34.c).

    (34) a. Artículos determinados: El, la, los, las

    b. Artículos demostrativos: Este, esta, ese, esa, aquel, aquella, estos, estas

    c. Determinante posesivo: mi, mío , tu, tuyo, nuestro, nuestros

    35

  • • Cuantificadores, que permiten reconocer la cantidad de unidades presentes en la

    oración, o bien indicar en forma general si son uno o varios. Entre ellos se pueden

    mencionar el artículo indeterminado (35.a) y los numerales (35.b).

    (35) a. Artículo indeterminado:

    b. Numerales:

    un, una, unos, unas

    diez, siete, vigésimo

    2.8.4. Verbo

    Para RAE (201 O), los verbos en lugar de representar personas u objetos, tienen la posibilidad

    de transmitir la acción, el proceso o el estado que experimenta el sujeto de la oración (36).

    (3 6) Piensa, camina, es, parece, ilumina, logra, permanece.

    Los verbos pueden ser organizados siguiendo diferentes criterios. En este documento se sigue

    la siguiente clasificación:

    Verbos predicativos, que son aquellos que seleccionan al sujeto y sus complementos,

    además de hacer manifiesta la participación del mismo en un evento o una serie de

    los mismos.

    Verbos copulativos, cuyo valor radica en enlazar al sujeto de la oración con un

    complemento que se denomina atributo, el cual le da significado a la oración. En la

    lengua española los verbos copulativos son ser, estar y parecer.

    Es importante señalar que, según otra clasificación, los verbos pueden categorizarse como:

    • Verbos plenos, con significado completo y con la capacidad de tener complementos.

    • Verbos auxiliares, que junto con el verbo que es núcleo del predicado se combinan

    para crear tiempos compuestos. Un ejemplo de verbo auxiliar es haber. En algunos

    casos, los verbos ser y estar cumplen este papel.

    2.8.5. Adverbio

    Según RAE (201 O), el adverbio es la categoría gramatical de palabra que puede modificar

    verbos, adjetivos y adjetivos. Son palabras que salvo algunos casos son invariables. Dicho

    de otra forma, son palabras que no cambian (37).

    (3 7) Donde, mucho, nunca, quizás, amable, razonable.

    36

  • Los adverbios pueden ser agrupados de diversas maneras. Por simplicidad, se toma la

    clasificación por el modo de significar:

    • Adverbios de base léxica, donde se unen todos aquellos que tienen un significado por

    sí mismo. De la lista de ejemplos anterior, amable y razonable encajan en esta

    categoría.

    • Adverbios pronominales, que toman su significado del contexto en que se emplean.

    De los ejemplos previamente mencionados pueden citarse: donde, mucho, nunca,

    quizás.

    2.8.6. Pronombre

    Un pronombre es un tipo de palabra que se caracteriza por no tener un significado léxico

    inherente (38). Su significado lo toma del contexto lingüístico. (Acerbo, 2011)

    (38) Yo, tú, él, ella.

    Una forma de clasificar los pronombres es de acuerdo a la posibilidad de comportarse como

    determinantes o no (Renau, 2010):

    • Los pronombres que