etiquetaxe e desambiguaciÓn automÁticas en galego: o ... · etiquetaxe e desambiguación...

728
UNIVERSIDADE DE SANTIAGO DE COMPOSTELA FACULTADE DE FILOLOXÍA DEPARTAMENTO DE LINGUA ESPAÑOLA ETIQUETAXE E DESAMBIGUACIÓN AUTOMÁTICAS EN GALEGO: O SISTEMA XIADA Tese de doutoramento EVA MARÍA DOMÍNGUEZ NOYA 2013

Upload: others

Post on 15-Oct-2019

0 views

Category:

Documents


0 download

TRANSCRIPT

  • UNIVERSIDADE DE SANTIAGO DE COMPOSTELA FACULTADE DE FILOLOXÍA

    DEPARTAMENTO DE LINGUA ESPAÑOLA

    ETIQUETAXE E DESAMBIGUACIÓN AUTOMÁTICAS EN GALEGO:

    O SISTEMA XIADA

    Tese de doutoramento

    EVA MARÍA DOMÍNGUEZ NOYA

    2013

  • Etiquetaxe e desambiguación automáticas en galego: o sistema XIADA

    Tese de doutoramento presentada no Departamento de Lingua Española, da Facultade de Filoloxía, da Universidade de Santiago de Compostela, por Eva María Domínguez Noya e dirixida polos profesores Guillermo Rojo e Mª Sol López Martínez. V. e Pr. do Director V. e Pr. da Directora Guillermo Rojo Mª Sol López Martínez Eva María Domínguez Noya

  • Para Josefa e Sebastián

    A meus pais

  • Agradecementos

    Quero expresar o meu agradecemento a todas aquelas persoas que dun xeito ou

    outro contribuíron a que este traballo chegase a porto, e moi especialmente a

    Guillermo Rojo, por terme introducido no mundo da lingüística computacional,

    pola súa acertada guía e, sobre todo, por estar sempre aí;

    Marisol López, pola súa constante presenza e polo seu inestimable apoio e guía;

    Mario Barcala, compañeiro laboral de alegrías e tribulacións, por ter sempre

    unha solución para os múltiples requisitos que lle solicitaba para o sistema, mais tamén

    porque sen o seu traballo a maior parte dos recursos aquí descritos non poderían

    realizarse nin estar a disposición pública;

    O Centro Ramón Piñeiro para a Investigación en Humanidades, por facilitarme o

    acceso aos datos necesarios para poder realizar este traballo e por confiar en min para o

    desenvolvemento lingüístico dos recursos aquí descritos;

    Os numerosos bolseiros das salas de Lingüística e Termigal, por soportar

    estoicamente nestes anos que durou a elaboración da tese as miñas diatribas, en

    especial, Susana, Paula, Laura, Inés, Chus, Sandra, Irene...

    Xesús Ferro e Manolo González, pola súa axuda e infinita paciencia comigo;

    Paula Santalla, polas moitas horas de discusións enriquecedoras e estimulantes;

    A miña familia, toda ela, pero principalmente meus pais, porque co seu esforzo

    abríronme a porta ao mundo da lingua; miñas dúas nais, miña nai e miña madriña, pola

    confianza e apoio que sempre me demostraron, por esixirme máis e, como non, por

    facer que viva coma unha raíña; meus irmáns –Rosa, Manu, Antonia, Julián–, pais en

    segunda instancia, sempre pendentes e dispostos para o que faga falta; Manuela,

    surtidora de lectura desde a infancia e niñeira consentidora;

    A todos, citados polo nome ou implicitamente, grazas.

  • ÍNDICE

    9

    Índice:

    Introdución.................................................................................................15

    Capítulo 1. Determinación dun etiquetario ............................................23 1.1 Introdución............................................................................................................23

    1.2. A proposta de EAGLES ......................................................................................24

    1.2.1. Clases de palabras.........................................................................................26 1.2.2. Lexicóns e corpus: etiquetarios distintos? ....................................................27 1.2.3. Atributos .......................................................................................................29

    1.2.3.1. Nome ..................................................................................................... 29 1.2.3.2. Verbo ..................................................................................................... 30 1.2.3.3. Adxectivo .............................................................................................. 31 1.2.3.4. Pronome e Determinante ....................................................................... 33 1.2.3.5. Artigo..................................................................................................... 36 1.2.3.6. Adverbio ................................................................................................ 36 1.2.3.7. Adposición............................................................................................. 37 1.2.3.8. Conxunción............................................................................................ 38 1.2.3.9. Numeral ................................................................................................. 38 1.2.3.10. Única.................................................................................................... 39 1.2.3.11. Residual ............................................................................................... 40

    1.3. O etiquetario de XIADA......................................................................................41

    1.3.1. Clases de palabras.........................................................................................41 1.3.2. Atributos .......................................................................................................47

    1.3.2.1. Substantivo (S) ...................................................................................... 47 1.3.2.2. Verbo (V)............................................................................................... 49 1.3.2.3. Adxectivo (A) ........................................................................................ 55 1.3.2.4. Artigo (D) .............................................................................................. 58 1.3.2.5. Demostrativo (E) ................................................................................... 59 1.3.2.6. Posesivo (M).......................................................................................... 60 1.3.2.7. Numeral (N)........................................................................................... 62 1.3.2.8. Interrogativo-exclamativo (G)............................................................... 68 1.3.2.9. Relativo (T)............................................................................................ 70 1.3.2.10. Indefinido (I) ....................................................................................... 71 1.3.2.11. Pronome (R) ........................................................................................ 75 1.3.2.12. Adverbio (W)....................................................................................... 88 1.3.2.13. Conxunción (C) ................................................................................... 91 1.3.2.14. Locución (L) ........................................................................................ 93 1.3.2.15. Preposición (P) .................................................................................... 95 1.3.2.16. Interxección (Y)................................................................................... 99 1.3.2.17. Sinais de puntuación (Q) ................................................................... 100

  • ETIQUETAXE E DESAMBIGUACIÓN AUTOMÁTICAS EN GALEGO: O SISTEMA XIADA

    10

    1.3.2.18. Categoría periférica (Z) ..................................................................... 101

    1.4. Datos..................................................................................................................106

    1.5. Outros etiquetarios para o galego ......................................................................108

    1.6. Conclusións .......................................................................................................133

    Capítulo 2. Elaboración da gramática formal do galego actual e a súa implementación nun lexicón...................................................................137

    2.1. Introdución.........................................................................................................137

    2.2. O lexicón de XIADA.........................................................................................139

    2.2.1. Estrutura xeral ............................................................................................139 2.2.2. Implementación do vocabulario no lexicón................................................144

    2.2.2.1. Categorías invariables.......................................................................... 145 2.2.2.2. Categorías variables: modelos formais................................................ 148

    2.2.2.2.1. A flexión de xénero e número ......................................................148 2.2.2.2.2. A flexión de número ....................................................................170 2.2.2.2.3. O verbo. Grupos formais ..............................................................175 2.2.2.2.4. O verbo: a conxugación regular con enclíticos. Grupos formais .186 2.2.2.2.5. Verbos irregulares: modelos e raíces............................................193

    2.2.3. Cambios na normativa oficial do 2003: repercusións no lexicón...............206

    2.3. Elementos problemáticos para un sistema computacional: as unidades multipalabra e as contraccións..........................................................................212

    2.3.1. Introdución .................................................................................................212 2.3.2. Unidades multipalabra e contraccións na proposta de EAGLES ...............215 2.3.3. Unidades multipalabra e contraccións noutros etiquetarios do galego.......220 2.3.4. Unidades multipalabra e contraccións en XIADA .....................................226

    2.3.4.1. Unidades multipalabra......................................................................... 226 2.3.4.2. Contraccións ........................................................................................ 228

    2.4. Un caso especial de unidades gramaticais complexas: formas verbais con enclíticos...........................................................................................................247

    2.4.1. EAGLES e sistemas do SLI-TECTRA e SLI-CTAG.................................247 2.4.2. Tratamento no sistema de XIADA .............................................................250

    2.4.2.1. Xeneralidades ...................................................................................... 250 2.4.2.2. Lexicóns verbais: sublexicón principal e sublexicón clíticos ............. 254 2.4.2.3. Secuencias de enclíticos válidas .......................................................... 257 2.4.2.4. Secuencias clíticas monosilábicas ....................................................... 259 2.4.2.5. Regras lingüísticas............................................................................... 263

    2.4.2.5.1. Regras de clíticos..........................................................................264 2.4.2.5.2. Regras de verbos con enclíticos....................................................268

    2.5. Os numerais multipalabra..................................................................................273

    2.6. Datos xerais .......................................................................................................275

    2.7. Datos verbais .....................................................................................................278

  • ÍNDICE

    11

    2.8. Conclusións .......................................................................................................284

    Capítulo 3. A etiquetaxe automática .....................................................287 3.1. Introdución.........................................................................................................287

    3.2. O Etiquetador.....................................................................................................289

    3.2.1. Características.............................................................................................289 3.2.2. Rendemento e precisión .............................................................................291

    3.2.2.1.Tamaño do etiquetario .......................................................................... 292 3.2.2.2. O corpus de adestramento ................................................................... 294

    3.2.2.2.1. O núcleo de Xiada ........................................................................295 3.2.2.2.2. O subcorpus xornalístico de ámbito temático específico .............300 3.2.2.2.3. O subcorpus xornalístico xeral .....................................................310

    3.2.2.3. O tratamento das palabras descoñecidas ............................................. 313 3.2.2.4. O corpus de aplicación vs. o corpus de adestramento e o lexicón....... 314

    3.3. A ambigüidade en galego: as anfiboloxías formais no corpus de adestramento.....................................................................................................315

    3.3.1. Tipos de ambigüidade.................................................................................318 3.3.1.1. Homonimia intercategorial ou ambigüidade entre categorías. ............ 318 3.3.1.2. Homonimia intracategorial ou ambigüidade nos atributos.................. 319 3.3.1.3. Homonimia categorial e atributiva plena............................................. 322 3.3.1.4. Homonimia segmental ou ambigüidade na identificación do token.... 327

    3.3.2. Datos sobre a ambigüidade no corpus de adestramento .............................332

    3.4. A ferramenta de desambiguación manual .........................................................334

    3.5. Conclusións .......................................................................................................354

    Capítulo 4. A etiquetaxe manual............................................................357 4.1. Introdución.........................................................................................................357

    4.2. O contexto na desambiguación manual .............................................................358

    4.3. Características dos textos: erratas, variacións, dialectalismos, hipergaleguismos, castelanismos, etc. ..............................................................360

    4.3.1. O tratamento das erratas na etiquetaxe manual ..........................................362 4.3.2. O tratamento das desviacións da norma .....................................................369

    4.3.2.1. Vacilacións ~ variacións no vocalismo ............................................... 372 4.3.2.2. Vacilacións ~ variacións no consonantismo........................................ 380

    4.3.2.2.1. Flutuacións B / V..........................................................................380 4.3.2.2.2. Adverbios en -mentes ...................................................................382 4.3.2.2.3. Simplificación de grupos consonánticos cultos............................384 4.3.2.2.4. Flutuacións X / S ..........................................................................386

    4.3.2.3. Vacilacións ~ variacións na acentuación............................................. 388 4.3.2.3.1. Acento diacrítico...........................................................................388 4.3.2.3.2. Adverbios en -mente.....................................................................392 4.3.2.3.3. Acentuación nas voces graves rematadas en ditongo crecente.....394

  • ETIQUETAXE E DESAMBIGUACIÓN AUTOMÁTICAS EN GALEGO: O SISTEMA XIADA

    12

    4.3.2.3.4. Acentuación nas voces agudas rematadas en ditongo decrecente 396 4.3.2.3.5. Acentuación nos hiatos.................................................................399 4.3.2.3.6. Acentuación esdrúxula na P4 e P5 do copretérito, pospretérito e

    antepretérito de indicativo e mais o pretérito de subxuntivo ........403 4.3.2.4. Vacilacións ~ variacións na adscrición xenérica ou numérica ............ 405 4.3.2.5. Vacilacións ~ variacións no caso acusativo e dativo........................... 410 4.3.2.6. Vacilacións ~ variacións na adscrición categorial............................... 420

    4.4. Peculiaridades na etiquetaxe e lematización manuais de... ...............................422

    4.4.1. O pronome persoal tónico...........................................................................422 4.4.2. Un, unha, uns, unhas ..................................................................................442 4.4.3. Como...........................................................................................................445 4.4.4. Que .............................................................................................................466 4.4.5. Categoría Verbo..........................................................................................487

    4.4.5.1. Participio vs. adxectivo ....................................................................... 487 4.4.5.2. Infinitivo vs. substantivo ..................................................................... 493 4.4.5.3. Infinitivo vs. infinitivo conxugado ...................................................... 497 4.4.5.4. Verbos poñer e pór e derivados........................................................... 498

    4.4.6. Claro, claro que...: interxección? ...............................................................499 4.4.7. Agrupacións con outro: ambigüidade no valor ..........................................500 4.4.8. Propio: indefinido ou adxectivo? ...............................................................506 4.4.9. Combinacións tipo boca arriba ..................................................................509 4.4.10. Combinacións tipo anos despois ..............................................................512 4.4.11. Enderezos web, números de teléfono, identificadores, etc.......................513 4.4.12. Acurtamentos............................................................................................515 4.4.13. Soletreos e suspensións ............................................................................518 4.4.14. Locucións .................................................................................................521

    4.4.14.1. Nivel oracional vs. nivel supraoracional ........................................... 521 4.4.14.2. Locucións conxuntivas ...................................................................... 524

    4.4.14.2.1. Preposición/locución prepositiva + que, locución conxuntiva? Ata que, a pesar de que, para que, ó que......................................524

    4.4.14.2.2. Adverbio + de = locución prepositiva? + que, locución conxuntiva? Antes de (que), despois de (que), logo de (que) .......528

    4.4.14.2.3. Antes que/ca, despois que/ca, logo que ......................................530 4.4.14.2.4. Sempre que .................................................................................532 4.4.14.2.5. Agora que, agora ben, ora que, ora ben ....................................535 4.4.14.2.6. Cada vez que, unha vez que........................................................560 4.4.14.2.7. Nin que, aínda que, mesmo que, por moito que, por máis que,

    por+adx+que.................................................................................572 4.4.14.3. Locucións adverbiais ......................................................................... 588

    4.4.14.3.1. Pode que, poida que, pode ser que, poida ser que .....................588 4.4.14.3.2. Non obstante, sen embargo, con todo, así e todo, así a todo, en

    troques ..........................................................................................590 4.4.14.3.3. Aínda así .....................................................................................593 4.4.14.3.4. Nada máis ...................................................................................599

    4.4.14.4. Locucións prepositivas ...................................................................... 602 4.4.14.4.1. Dentro de ....................................................................................602 4.4.14.4.2. Arredor de, ó redor de ................................................................609

  • ÍNDICE

    13

    4.4.14.4.3. Ademais de ~amais de, aparte de ~ á parte de ..........................610 4.4.14.4.4. Debido a .....................................................................................613 4.4.14.4.5. Fóra de .......................................................................................615

    4.4.15. Excepto, menos, quitado, quitando, sacado, sacando, salvo, senón: problemas de categorización e tratamento en XIADA.............................616

    4.4.15.1. Clasificación nos principais manuais actuais do galego.................... 616 4.4.15.2. Breve revisión sobre os problemas para a delimitación categorial ... 618 4.4.15.3. O seu tratamento en XIADA ............................................................. 620

    4.4.15.3.1. Excepto, menos, salvo.................................................................620 4.4.15.3.2. Senón, senón que ........................................................................623 4.4.15.3.3. Quitado/quitando, sacado/sacando ............................................632

    4.5. Conclusións .......................................................................................................639

    Conclusións ..............................................................................................641

    APÉNDICES............................................................................................647 Apéndice A. Etiquetario de XIADA.........................................................................649

    Apéndice B. Listaxe de etiquetas empregadas no CORGAetq ................................651

    Apéndice C. Listaxe de etiquetas recollidas no kernel pero non documentadas na versión 2.1 do CORGAetq...........................................................................671

    Apéndice D. Listaxe de etiquetas usadas só no lexicón de Xiada............................677

    Apéndice E. Secuencias válidas de pronomes enclíticos en XIADA.......................681

    Apéndice F. Ocorrencias dos verbos informar e instar na súa construción con complemento de réxime no CORGA ...............................................................684

    1) INFORMAR (A) ALGUÉN DE / SOBRE ALGO ..........................................685 a) no corpus de adestramento xornalístico ....................................................... 685 b) no corpus de adestramento de ficción .......................................................... 686 c) nas revistas do CORGA................................................................................ 686 d) nos xornais do CORGA ............................................................................... 687 e) na ficción do CORGA .................................................................................. 693

    2) INSTAR (A) ALGUÉN A / PARA ALGO......................................................703 a) no corpus de adestramento xornalístico ....................................................... 703 b) no corpus de adestramento de ficción .......................................................... 704 c) nas revistas do CORGA................................................................................ 704 d) nos xornais do CORGA ............................................................................... 705 e) na ficción do CORGA .................................................................................. 710

    Referencias dos exemplos de prensa......................................................713

    Bibliografía...............................................................................................715

    Referencias web .......................................................................................727

  • INTRODUCIÓN

    15

    Introdución

    A construción de recursos lingüísticos, entre os que se encontran os corpus ou

    bases de datos textuais, é necesaria en toda lingua para continuar profundando no seu

    coñecemento, mais tamén é fundamental para o procesamento da linguaxe natural.

    Nos últimos anos, as novas tecnoloxías xorden como un parámetro máis de

    clasificación das linguas en función da súa presenza ou ausencia nelas e o galego non é

    alleo a esta corrente. Así, o Plan xeral de normalización da lingua galega1 establece no

    último dos seus cinco obxectivos

    Dotar o galego dos recursos lingüísticos e técnicos necesarios que o capaciten para vehicular

    a lingua moderna. [Xunta de Galicia, 2005: 39]

    Ademais, as novas tecnoloxías destacan no PXNLG en forma de sector

    transversal sobre o que se estenden os obxectivos xerais:

    Fomentar a presenza da lingua galega nas novas tecnoloxías.

    Lograr unha oferta ampla e competitiva de produtos e recursos informáticos en galego.

    Potenciar a presenza da lingua galega en internet.

    Potenciar a investigación da tradución automática, o recoñecemento e a síntese de voz, e

    outras novas técnicas que faciliten a opción positiva no mercado da información e da

    comunicación, e que aseguren a libre circulación do galego nos sistemas avanzados da vida

    moderna. [Xunta de Galicia, 2005: 51]

    Non obstante, o PXNLG non fai máis ca reflectir unhas necesidades das que xa

    eran conscientes os sectores implicados na defensa da lingua e sobre as que distintos

    grupos de investigación das tres universidades galegas, así como centros dependentes da

    Xunta de Galicia, levan anos traballando2. Tanto é así, que a Secretaría Xeral de Política

    Lingüística, órgano superior da Administración autonómica en materia de promoción e

    ensino da lingua galega, a quen lle corresponde, entre outras, a función de programar e

    1 Xunta de Galicia (2005): Plan xeral de normalización da lingua galega (Santiago de Compostela). 2 Os máis destacados, polo menos en resultados, localízanse no Instituto da Lingua Galega, no Seminario de Lingüística Computacional da Universidade de Vigo, no grupo COLE das Universidades da Coruña e Vigo e no Centro Ramón Piñeiro para a Investigación en Humanidades.

  • ETIQUETAXE E DESAMBIGUACIÓN AUTOMÁTICAS EN GALEGO: O SISTEMA XIADA

    16

    desenvolver medidas para o fomento do uso do idioma galego nos diferentes eidos

    sociais e económicos co fin de incrementar a dispoñibilidade de produtos e servizos en

    galego, sufraga e promove, a través do Centro Ramón Piñeiro para a Investigación en

    Humanidades –centro que inclúe entre os seus obxectivos fundacionais o deseño e

    desenvolvemento de recursos informáticos que axuden á incorporación da lingua galega

    ao mundo das novas tecnoloxías da información–, dous proxectos de investigación

    centrados en lingüística computacional aplicada ao galego. Son os denominados,

    respectivamente, Corpus de Referencia do Galego Actual (CORGA)3 e

    Etiquetador/Lematizador do Galego Actual (XIADA)4.

    O primeiro deles persegue poñer accesible a través de internet un corpus

    documental representativo da lingua galega actual escrita que posibilite a obtención de

    datos para o estudo de aspectos morfolóxicos, sintácticos e léxicos da historia recente da

    nosa lingua.

    Neste sentido, a forma máis rápida de dispoñer dunha grande cantidade de texto

    en formato electrónico á que se lle poidan aplicar técnicas de recuperación de

    información é con texto plano, sen ningún tipo de etiquetaxe; é dicir, sen que ás formas

    ortográficas contidas no corpus se lles asigne etiqueta ningunha. Constitúen mostras

    deste tipo o Corpus de Referencia do Galego Actual (CORGA), o Corpus de Referencia

    del Español Actual (CREA)5, o Corpus de Referência do Português Contemporáneo

    (CRPC)6 ou o Corpus Técnico do Galego (CTG)7, por citar só algúns. Este tipo de

    corpus, representativos da lingua común os tres primeiros e de carácter técnico o último,

    malia que sen etiquetaxe de ningún tipo, permiten xa entre outras posibilidades:

    • documentar a vitalidade dunha palabra;

    • coñecer cal é a forma máis frecuente nunha serie de sinónimos;

    • achegarse ao significado dunha palabra grazas ao contexto;

    • comprobar a presenza na lingua escrita de formas desaconselladas pola norma;

    • comprobar a presenza de neoloxismos;

    3 http://corpus.cirp.es/corga 4 http://corpus.cirp.es/xiada 5 http://corpus.rae.es/creanet.html 6 http://alfclul.clul.ul.pt/CQPweb/crpc/index.php 7 http://sli.uvigo.es/CTG/

  • INTRODUCIÓN

    17

    • estudar o grao de asentamento da normativa oficial;

    • achegarse á vitalidade e funcionamento de sufixos e prefixos;

    • estudar o influxo (interferencias, préstamos...) doutras linguas.

    Agora ben, todos eles presentan limitacións por canto non é posible abstraerse á

    rica morfoloxía que caracteriza as tres linguas peninsulares exemplificadas. É verdade

    que algunhas desas limitacións poden emendarse cun bo sistema de consultas no que

    sexa posible empregar comodíns –substitúen un ou máis caracteres– e mais operadores

    booleanos e de posición (and, not, or, near...) –permiten xogar con máis dunha forma

    gráfica na mesma consulta, favorecendo que afinemos máis a busca e, polo tanto, con

    menos ruído nos resultados–. Non obstante, en moitos casos, sobre todo ante grandes

    irregularidades léxicas, precisamos recorrer aos lemas e incluso á súa combinación

    cunha ou máis etiquetas morfosintácticas. É o caso, por exemplo, das consultas que

    abranguen algunha forma gráfica fortemente irregular ou combinacións categoriais fixas

    nas que varía un dos lemas, como pode ser o uso da perífrase ir + infinitivo, ou daquelas

    outras nas que por ambigüidade necesitamos poder contar con etiquetas que delimiten

    morfolóxica e categorialmente as distintas ocorrencias dunha forma gráfica, coma a

    preposición fronte a a artigo.

    Conscientes das limitacións que impoñen as consultas por forma ortográfica,

    dende o Centro Ramón Piñeiro para a Investigación en Humanidades traballamos

    paralelamente na construción dun etiquetador e lematizador co fin de que se poidan

    facer consultas moito máis avanzadas e dar un salto cualitativo nas posibilidades de

    busca. É o fin último do segundo dos proxectos centrados en lingüística computacional

    que citamos anteriormente: a construción do Etiquetador/Lematizador do Galego Actual

    (XIADA), que pretende o desenvolvemento de ferramentas que permitan o

    recoñecemento e a análise automática do galego escrito actual. En especial, o

    desenvolvemento dun etiquetador e lematizador de alta precisión que permita etiquetar e

    lematizar automaticamente os documentos contidos no CORGA, de xeito que no

    sistema de consultas se poida empregar información referida non só a formas

    ortográficas senón tamén a lemas, formas gramaticais e/ou etiquetas morfosintácticas.

    O punto de encontro natural de ambos os dous proxectos é a etiquetaxe

    automática de todos os documentos do CORGA, almacenados nun corpus análogo, só

  • ETIQUETAXE E DESAMBIGUACIÓN AUTOMÁTICAS EN GALEGO: O SISTEMA XIADA

    18

    que etiquetado, o Corpus de Referencia do Galego Actual etiquetado automaticamente

    (CORGAetqa), que gradualmente irá acollendo os documentos do CORGA para cuxo

    estilo se teña completado o adestramento do etiquetador. Naturalmente, este corpus será

    accesible mediante a consulta en liña a través dunha aplicación de recuperación e

    extracción de información que, cunha interface amigable, toma a consulta dun usuario

    sobre a grande base de datos textuais que, á fin e ao cabo, é calquera corpus, escolle

    entre todos os datos aqueles que responden ás condicións da busca realizada, e extrae os

    resultados trasladándoos a un formato predefinido para que a información resultante

    poida ser tratada con comodidade polo usuario8.

    Eu, primeiramente como bolseira –dende 1995 ata 1999– e máis tarde en

    calidade de persoal contratado –dende o 2000 ata a actualidade–, formo parte de ambos

    os proxectos dende o seu inicio. Salvo a definición do etiquetario que, malia ser

    modificado lixeiramente en anos posteriores, foi obra de todo o equipo lingüístico que

    por volta do ano 1998 traballaba no proxecto9, a construción e mantemento da base de

    datos léxica e mais do corpus de adestramento que emprega o etiquetador XIADA, así

    como a elaboración de calquera outro recurso de tipo lingüístico que empregue o

    Etiquetador ou mellore a súa precisión, quero crer que con máis acertos ca erros, son

    responsabilidade miña.

    Moitos son, xa que logo, os anos que levo traballando en lingüística de corpus,

    na recuperación e extracción de información e no recoñecemento e análise automática

    do galego. Froito desa experiencia nace o desexo de compendiar nun traballo global os

    distintos aspectos e recursos que, dende o punto de vista lingüístico, se precisan para

    construír un etiquetador e lematizador estatístico específico para o galego. É

    determinante tamén na decisión de describir o sistema XIADA o feito de que o galego

    sexa orfo neste ámbito, dado que na bibliografía da lingüística galega non existen máis

    ca un par de traballos moi breves que describen o etiquetario empregado nos corpus de

    galego que posúen algún tipo de anotación10.

    Así mesmo, outros dous factores influíron de xeito determinante na consecución

    deste traballo. Por unha banda, o desexo de axudar a que o galego, lingua na que me 8 Proximamente estará dispoñible no enderezo http://corpus.cirp.es/corgaetqa 9 Mª Teresa Araújo García, Mª Ines Diz Gamallo, Eva Mª Domínguez Noya, Susana Mª García Rodríguez, Mª Teresa Monteagudo Cabaleiro, Mª Pilar Vázquez Grandes e Francisco García Gondar. 10 Véxase o Capítulo 1.

  • INTRODUCIÓN

    19

    criei e na que vivo, figure entre as linguas que gozan de bos recursos computacionais;

    por outra, pensando no usuario que consulta o noso corpus etiquetado, dar a coñecer

    polo miúdo os múltiples problemas que crea traballar con lingua real e explicar as

    solucións que se adoptaron e mais os criterios que subxacen na etiquetaxe practicada.

    Neste traballo descríbense os recursos lingüísticos que emprega o

    Etiquedor/Lematizador do Galego Actual, XIADA e desmiúzase a etiquetación

    realizada sobre o corpus de adestramento ou Corpus de Referencia do Galego Actual

    etiquetado (CORGAetq)11.

    Así, o Capítulo 1 dá conta da determinación do etiquetario que se utiliza no

    sistema XIADA. Partindo das recomendacións do grupo EAGLES, explícase o

    establecemento de cada categoría gramatical e dos diferentes atributos que se

    consideran pertinentes para cada unha delas. Achéganse exemplos prácticos de

    etiquetaxe para as distintas clases gramaticais establecidas e, así mesmo, sempre en

    relación cos atributos, explícanse xa as peculiaridades que afectan á caracterización

    morfolóxica dalgúns ou de todos os elementos que se inclúen nunha categoría dada.

    Finalmente, realízase un estudo comparativo-contrastivo entre tres etiquetarios de

    galego: o empregado no Corpus literario TECTRA inglés-galego12, orientado cara á

    tradución; o usado no Corpus Técnico Anotado do Galego (CTAG)13 de orientación

    terminolóxica especializada e, finalmente, o de XIADA, empregado no Corpus de

    Referencia do Galego Actual etiquetado (CORGAetq), de marcada orientación cara á

    etiquetaxe de corpus e cara á recuperación de información para un amplo abano de

    usuarios potenciais.

    No Capítulo 2 descríbese a formalización e implementación do dicionario léxico

    que lle serve ao etiquetador de recurso principal para identificar as formas ortográficas

    presentes nun texto e caracterizalas morfosintacticamente. Por unha banda, ao traballar

    cunha lingua con morfoloxía moi rica como é o galego, non é factible introducir nunha

    base de datos todas as formas flexionadas que se subsumen baixo un paradigma. Aquí

    explícase o método empregado para, sen reducir a variación flexiva, introducir no

    lexicón as 100.000 formas máis frecuentes do CORGA e as cerca de 50.000 entradas

    11 http://corpus.cirp.es/corgaetq 12 http://sli.uvigo.es/CLUVI/#tectraig 13 http://sli.uvigo.es/CTAG/index.html

  • ETIQUETAXE E DESAMBIGUACIÓN AUTOMÁTICAS EN GALEGO: O SISTEMA XIADA

    20

    que posúe o Vocabulario Ortográfico da Lingua Galega (VOLGa) (González e

    Santamarina, 2004). Por outra banda, explícase tamén o novidoso tratamento aplicado

    sobre a grande cantidade de contraccións e as inxentes combinacións de forma verbal

    con segundas formas de artigo e/ou pronomes enclíticos que posúe o galego e que

    permite o recoñecemento e caracterización diferenciados de tantos constituíntes como

    conforman a unidade amalgamada. Por último, descríbese o sistema de regras

    lingüísticas que serven para axudarlle ao etiquetador tanto na segmentación e

    etiquetación de pronomes enclíticos como na segmentación e etiquetación das formas

    verbais cando van acompañadas de enclíticos.

    No Capítulo 3 descríbese o etiquetador de XIADA e xustifícase a escolla do modelo

    estatístico. Logo, dáse conta, así mesmo, dos requisitos que esixe o tipo estatístico,

    ocupando un lugar destacado entre eles a construción e caracterización do corpus de

    adestramento ou gold standard que lle serve ao etiquetador de modelo para inferir a

    gramática da lingua coa que traballa. Finalmente, descríbese a actuación do etiquetador ante

    as palabras descoñecidas e inclúese unha breve tipoloxía das ambigüidades que

    potencialmente minguan a súa capacidade de acerto, mais ás que se ten que enfrontar.

    O Capítulo 4 constitúe o groso deste traballo. Nel demóstranse as dificultades de

    traballar con lingua real, dificultades que se incrementan máis aínda por traballar cunha

    lingua coma o galego, cuxo proceso de normalización bate co castelán, lingua irmá, para

    o que aquí tratamos, en numerosas interferencias de tipo léxico e morfosintáctico.

    Nestas, céntrase a primeira parte do capítulo, onde se analizan as peculiaridades

    lingüísticas que caracterizan os textos sobre os que se executa o etiquetador e se expón

    o tratamento que reciben as erratas, as variacións gráficas, os castelanismos,

    hiperenxebrismos, etc. A segunda parte do capítulo constitúe, en termos xerais, unha

    descrición gramatical parcial do galego, pois nela refírense os criterios que guían a

    etiquetaxe realizada no CORGAetq. Ante a imposibilidade de dar conta neste traballo

    de absolutamente todos os detalles, preferiuse optar por tratar aqueles aspectos referidos

    á etiquetaxe e lematización de:

    • elementos que en xeral non se inclúen nos manuais de consulta: enderezos,

    acurtamentos, identificadores, etc.;

    • unidades nas que a ambigüidade é moi alta: que, como;

  • INTRODUCIÓN

    21

    • elementos pertencentes a categorías moi próximas: adxectivo fronte a participio

    ou substantivo fronte a infinitivo;

    • formas comúns a dous lemas distintos: pór vs. poñer e derivados;

    • combinacións que reciben unha caracterización ad hoc para facilitar a

    recuperación de información: tipo boca arriba ou tipo anos despois.

    Ocupa gran parte deste último capítulo a delimitación e caracterización dos

    distintos tipos de locucións recoñecidos no sistema: as conxuntivas, as preposicionais e

    as adverbiais, para as que se asentan os criterios xerais empregados no seu

    recoñecemento. En cada un dos tres apartados recóllese, ademais, a análise aplicada a

    aquelas que, tendo unha frecuencia de uso importante, consideramos merecentes dunha

    explicación, ben porque serven de exemplo para o establecemento da súa subclase, ben

    porque reciben unha análise que en principio non esperan os usuarios.

    Finalmente, a análise que se realiza ao final do capítulo das partículas exceptivas

    salvo, incluso, menos e senón exemplifica como a lingüística de corpus pode inverter a

    metodoloxía utilizada ata hai pouco nas descricións lingüísticas, proporcionando unha

    casuística real e completa que axude a profundar no coñecemento da lingua para,

    partindo dos exemplos, chegar á teoría.

    Así pois, e a modo de resumo, este traballo dá conta da determinación do

    conxunto de etiquetas que se empregan no sistema XIADA para anotar

    morfoloxicamente un documento escrito en galego (Capítulo 1); describe a estrutura

    interna do lexicón onde se almacena, basicamente, a información de etiqueta e lema que

    lle corresponde a cada unidade léxica (Capítulo 2) e recolle a construción dun corpus de

    adestramento como requisito imprescindible para a aplicación dun etiquetador

    estatístico-probabilístico (Capítulo 3) e mais os criterios de lematización e etiquetaxe

    que, a grandes trazos, caracterizan a gramática que subxace nos documentos etiquetados

    e que vai ser inferida polo etiquetador de XIADA (Capítulo 4).

    Cada capítulo inclúe como última epígrafe as conclusións máis destacadas que

    se derivan da reflexión sobre a súa lectura ou elaboración, mentres que na conclusión

    final realízase unha valoración sobre o conxunto do traballo, destacando os logros

    obtidos e enumerando as parcelas que requiren máis atención para incrementar a taxa de

    acerto da etiquetaxe final.

  • CAPÍTULO 1. DETERMINACIÓN DUN ETIQUETARIO

    23

    Capítulo 1 Determinación dun etiquetario

    Antes de proceder a anotar morfoloxicamente un documento hai diversos

    aspectos que considerar. En primeiro lugar débese determinar o conxunto de etiquetas

    que se van aplicar. En segundo lugar, é preciso deseñar e construír o lexicón onde se

    almacenará, como mínimo, a información de etiqueta e lema para cada unidade léxica e,

    en terceiro lugar, débense especificar os criterios que determinarán que etiqueta se lle

    debe aplicar a cada elemento gramatical.

    Neste capítulo imos tratar a determinación do conxunto de etiquetas para o

    galego destinadas a codificar o lexicón e a etiquetar, posteriormente, corpus.

    1.1 Introdución A relación de etiquetas empregadas para anotar morfoloxicamente un texto

    denomínase etiquetario ou tag-set. En relación coa profundidade de análise que se

    pretenda alcanzar, este conterá un número maior ou menor de etiquetas. É primordial,

    polo tanto, antes de determinar o sistema de etiquetación, decidir que obxectivo se

    persegue coa anotación e, en consecuencia, a que nivel de análise se quere chegar. Debe

    terse en conta tamén o modo en que se vai realizar a anotación, pois se esta vai ser

    semiautomática ou automática hai que ver de conxugar os intereses lingüísticos cos

    límites que impón un etiquetador automático.

    O noso obxectivo é analizar morfoloxicamente e dun xeito automático calquera

    texto do galego actual coa finalidade de lles proporcionar aos usuarios do Corpus de

    Referencia do Galego Actual (CORGA)14 a posibilidade de acceder a material

    lingüístico real, de forma rápida e eficiente, realizando consultas, entre outras moitas

    opcións de busca, por etiqueta e lema. Por este motivo, na construción do tag-set

    decidimos primar a descrición morfolóxica e prescindir, case, da sintáctica.

    14 Véxase http://corpus.cirp.es/corga

  • ETIQUETAXE E DESAMBIGUACIÓN AUTOMÁTICAS EN GALEGO: O SISTEMA XIADA

    24

    O etiquetario para o galego foi desenvolvido no marco do proxecto Construción,

    etiquetación e lematización do Corpus de Referencia do Galego Actual15 como unha

    ferramenta para a análise computacional e a anotación automática dos textos do

    CORGA.

    Para a elaboración desta etiquetaxe seguimos as directrices de EAGLES (Expert

    Advisory Group on Language Engineering Standars)16 e os textos básicos da lingüística

    galega existentes na última década do século XX. A Gramática Galega (Álvarez,

    Regueira e Monteagudo, 1986) serviunos de soporte teórico principal, mais tamén nos

    apoiamos na Nova Gramática para a aprendizaxe da língua (Costa Casas et al., 1988).

    A escaseza de traballos gramaticais xerais para o galego foi suplida con estudos,

    sobre todo, do castelán e, en menor medida, do portugués: a Gramática de la lengua

    española (Alarcos, 1994), o Esbozo de una nueva gramática de la lengua española

    (RAE, 1973), o estudo Las categorías gramaticales. Relaciones y diferencias (Bosque,

    1991) ou a Nova Gramática do Português Contemporâneo (Cunha e Cintra, 1984)

    axudaron na delimitación do etiquetario e na clasificación posterior do léxico

    constitutivo.

    Tivemos tamén en consideración o camiño xa percorrido na etiquetación de

    corpus por linguas coma o castelán (Sánchez, 1997), catalán (Morel et al., 1998) ou

    portugués (Reis e Dias, 1998).

    1.2. A proposta de EAGLES O grupo EAGLES encargouse de avaliar recursos lingüísticos existentes para

    diferentes linguas europeas17 co fin de acadar unha estandarización na codificación do

    léxico e a etiquetación de corpus. Neste sentido, EAGLES non propón un etiquetario

    concreto senón que máis ben apunta as directrices que se han de ter en conta á hora de

    elaborar un. Destacan nas súas recomendacións os principios de flexibilidade,

    harmonización e exportabilidade.

    15 Véxase http://corpus.cirp.es/xiada 16 Leech e Wilson, 1994 e 1996 e Monachini e Calzolari, 1996. 17 Compararon os sistemas de codificación dos lexicóns de MULTILEX e GENELEX, a aplicación AlethDic de GENELEX, as especificacións do proxecto NERC relativas a corpus e mais as propostas de Leech e Wilson.

  • CAPÍTULO 1. DETERMINACIÓN DUN ETIQUETARIO

    25

    A proposta de EAGLES presenta unha estrutura xerárquica na que se distribúe a

    información lingüística en tres niveis. Isto permítelle ao usuario escoller o nivel de

    análise e proporciónalle flexibilidade á proposta. Na súa descrición, EAGLES asocia

    cada nivel cun grao de profundación de análise ou obrigatoriedade. Distingue deste

    xeito entre nivel obrigatorio (L0), nivel recomendable (L1) e nivel opcional (L2).

    O primeiro nivel de análise, o denominado L0, é considerado imprescindible e

    nel as unidades léxicas deben ser clasificadas nas principais clases de palabras ou

    categorías morfolóxicas:

    Only one attribute is considered obligatory: that of the major word categories, or parts of

    speech. [Leech e Wilson, 1996]

    No segundo nivel do estándar de EAGLES (L1) recoméndase a aplicación de

    atributos gramaticais que permitan o recoñecemento morfolóxico pleno de calquera

    unidade léxica:

    Level 1 (EAG-L1) presents the grammatical features, i.e. the agreement features such as

    Gender, Number, Person, etc., which are usually encoded in lexicons and corpora: these are

    considered as recommended features (in Leech & Wilson these are defined as optional)

    constituting the minimal common core set of features for the PoS. [Monachini e Calzolari,

    1996]

    Finalmente, o terceiro nivel de análise proposto por EAGLES é totalmente

    opcional e nel poden codificarse:

    1) (L2a) atributos ou valores xenéricos, aplicables á maioría das linguas estudadas,

    os cales normalmente non se codifican nun corpus por proporcionar información

    que excede o nivel morfosintáctico. A información semántica que achega a

    calidade de contable ou non contable proposta para a categoría Nome constitúe un

    exemplo de atributo opcional xenérico.

    2) (L2b) atributos ou valores específicos dunha lingua ou de varias, pero non

    aplicables á maioría de linguas europeas.

    Dado o obxectivo que nos propuxemos e a súa finalidade, consideramos que

    debiamos obter a caracterización morfolóxica completa de calquera unidade léxica,

    razón pola que incorporamos os tres niveis no noso etiquetario. Prescindimos en xeral,

    iso si, das distincións semánticas incluídas no L2a e non establecemos diferenciacións

  • ETIQUETAXE E DESAMBIGUACIÓN AUTOMÁTICAS EN GALEGO: O SISTEMA XIADA

    26

    de ningún tipo entre o L1 e o L2 no deseño do tag-set, onde os distintos valores

    atributivos figuran ao mesmo nivel. Por exemplo, na etiqueta Scma correspondente á

    análise dunha unidade léxica coma paraugas:

    “S” representa a clase de palabra, substantivo;

    “c” proporciona información sobre o tipo, común;

    “m” indícanos que o seu xénero é masculino e

    “a” sinala que pode ser singular ou plural; é dicir, apunta a imposibilidade de

    decantarnos por un dos valores do atributo número a non ser que a

    concordancia con algún elemento do contexto nolo aclare.

    1.2.1. Clases de palabras

    As grandes clases de palabras que propoñen Leech e Wilson18 (1996) son as

    seguintes:

    1. N [noun] 2. V [verb] 3. AJ [adjective] 4. PD [pronoun/determiner] 5. AT [article] 6. AV [adverb] 7. AP [adposition] 8. C [conjunction] 9. NU [numeral] 10. Y [interjection] 11. U [unique/unassigned] 12. R [residual] 13. PU [punctuation]

    Meses máis tarde, Monachini e Calzolari19 cuestiónanse a agrupación de

    Pronomes e Determinantes nunha única categoría, por estar esta demasiado orientada a

    facilitar a anotación de corpus, e deciden delimitalas como clases independentes:

    (...) the previous merging of the two categories (at least at L1, with the possibility of splitting

    the two categories at a more fine-grained level) seemed, in the first instance, to be the best

    solution to cope with the requirements of many corpus practices, that keep the two categories

    undistinguished, and the best attempt to reconcile lexicon specifications and corpus tagsets.

    This choice, however, was eventually felt to be too corpus-oriented and the MULTEXT

    partners expressed their opinion in favour of having, at the lexicon level, two different

    categories for Pronouns and Determiners. [Monachini e Calzolari, 1996]

    18 Marzo de 1996: Recommendations for the Morphosyntactic Annotation of Corpora. Dispoñible en http://www.ilc.cnr.it/EAGLES96/annotate/annotate.html 19 Agosto de 1996: Synopsis and Comparison of Morphosyntactic Phenomena Encoded in Lexicons end Corpora. A common Proposal and Applications to European Lenguages. Dispoñible en http://www.ilc.cnr.it/EAGLES96/morphsyn/morphsyn.html

  • CAPÍTULO 1. DETERMINACIÓN DUN ETIQUETARIO

    27

    Así, na nova proposta figuran as seguintes categorías:

    1. Noun 2. Verb 3. Adjective 4. Pronoun 5. Determiner 6. Article 7. Adverb 8. Adposition 9. Conjunction10. Numeral 11. Interjection 12. Unique 13. Residual

    Se nos fixamos nos números, esta táboa contén a mesma cifra de clases

    gramaticais delimitadas ca na proposta primaria. A diferenza estriba en que nesta última

    clasificación non inclúen os signos de puntuación, aínda que si recoñecen a súa

    necesidade na etiquetación de corpus:

    Sometimes tag classes are in reality different from lexical descriptions. For example, classes

    for punctuation are needed and certain types of semantic or pragmatic or lexical information

    can be present in the tags (e.g. the days of the week). [Monachini e Calzolari, 1996]

    1.2.2. Lexicóns e corpus: etiquetarios distintos?

    A causa que motiva a división da clase Pronome/Determinante en dúas clases

    diferenciadas lévanos a cuestionar teoricamente a adopción de dous conxuntos de

    etiquetas distintos, un destinado a codificar o léxico e outro reservado para etiquetar o

    corpus.

    EAGLES, na súa proposta, recomenda aplicar a distinción entre Pronomes e

    Determinantes só ao etiquetario do lexicón e non ao etiquetario que se empregue para

    anotar e desambiguar corpus, porque os obxectivos que se poden acadar con un e con

    outro son diferentes. Así, co lexicón aspírase a describir pormenorizamente a

    morfosintaxe xeral dunha lingua mentres que co tag-set de corpus búscase a elaboración

    dun corpus etiquetado morfoloxicamente por medio de desambiguación automática:

    Lexical descriptions, it was recognised, should aim, indeed, at a general and fine-grained

    description of the language which is independent of particular applications, while, given a set

    of practical reasons -- state-of-the-art tagging techniques and computability (see Bel et al.

    (1995)) -- broader categories are to be preferred for the tagsets where collapsing decisions are

    to be made. [Monachini e Calzolari, 1996]

    Segundo se desprende da súa proposta, aínda que o ideal sería poder aplicar a

    codificación do lexicón á anotación de corpus, resultaría moi difícil conseguir unha alta

    taxa de precisión cun etiquetador automático e, ademais, o corpus de adestramento

  • ETIQUETAXE E DESAMBIGUACIÓN AUTOMÁTICAS EN GALEGO: O SISTEMA XIADA

    28

    destinado a capacitar o etiquetador tería que ser de gran tamaño para poder documentar

    co-ocorrencias infrecuentes.

    No seu favor esgrimen as prácticas levadas a cabo cos etiquetarios do francés no

    proxecto MULTEXT e a experiencia, entre outros, do Penn Treebank20 para o inglés,

    como argumento definitivo da amálgama e consecuente redución de etiquetas

    empregadas para anotar corpus:

    For example, in the proposal for French presented in the MULTEXT document (Bel et al.,

    1995), there are 249 different lexical descriptions, but only 74 collapsed corpus tags.

    Experience (Church, UPenn Treebank, IBM France, etc.) shows that the tagset should be under

    100 tags. In fact, the Penn Treebank project collapsed many tags compared to the original

    Brown tagset, and got better results. [Monachini e Calzolari, 1996]

    Evidentemente, ante un etiquetario reducido, as probabilidades de éxito dun

    etiquetador automático increméntanse de xeito notable, pero iso non implica que

    empregando un tag-set amplo non poidan lograrse uns resultados máis que aceptables.

    Nós propuxémonos, na etapa inicial, non tomar como referencia este propósito

    de manter etiquetarios separados para o lexicón e para a etiquetación de corpus.

    Decidimos que a todas as entradas do lexicón se lles proporcionase a información

    morfolóxica plena que as caracterizase, con todos os atributos e valores pertinentes para

    esta función. Posteriormente, cando chegase o momento de etiquetar corpus, se os

    resultados conseguidos estivesen moi lonxe dos desexados, poderiamos anular algúns

    atributos ou incluso algunhas distincións categoriais. O importante era crear un tag-set

    pormenorizado, sinxelo na súa estrutura, manexable e adaptable a outros sistemas ou

    aplicacións. Co paso do tempo e o avance no proxecto das tarefas de lematización e

    etiquetación confirmouse a nosa visión.

    Actualmente, as porcentaxes de acerto que presentan os etiquetadores existentes

    para unha lingua como o castelán ou o inglés son do 95%/97% (Graña, 2000: 137-165)

    e, segundo Jurafsky (Jurafsky, 2000: 296-297), os etiquetarios máis usados para o inglés

    son o Penn Treebank que consta de 45 etiquetas e é o que se usou no corpus Brown21; o

    C5 de 61 etiquetas empregado polo programa CLAWS22 para etiquetar o British

    20 Véxase http://www.cis.upenn.edu/~treebank 21 http://www.essex.ac.uk/linguistics/clmt/w3c/corpus_ling/content/corpora/list/private/brown/brown.html 22 http://ucrel.lancs.ac.uk/claws/

  • CAPÍTULO 1. DETERMINACIÓN DUN ETIQUETARIO

    29

    Nacional Corpus (BNC)23 e o C7, de 146 etiquetas, utilizado para etiquetar un

    subconxunto do BNC.

    Nós demostramos que cun etiquetario bastante máis grande ca o empregado pola

    maior parte de etiquetadores –arredor de 400 etiquetas distintas– acadamos un acerto do

    95,99%24, situándonos en niveis semellantes aos existentes para o inglés ou o castelán.

    1.2.3. Atributos

    Neste apartado reproducimos a proposta de EAGLES no concernente aos

    atributos e valores pertinentes para cada unha das clases de palabras por eles

    delimitadas. A maiores, daremos conta do modelo seguido polo castelán e polo

    portugués nas aplicacións de EUROTRA e GENELEX, cando este non coincida coa

    proposta presentada. Se non se realiza ningunha aclaración sobre a lingua a que

    corresponde entenderase que son atributos e/ou valores comúns ás dúas.

    1.2.3.1. Nome

    Para o Substantivo propoñen os seguintes atributos:

    L0 Substantivo

    Tipo: común, propio

    L1 Xénero: masculino, feminino

    Número: singular, plural

    L2 Xénero: común

    Número: invariable

    Dende EAGLES, aínda que nas aplicacións dos proxectos castelán e portugués

    por eles estudados non se levou á práctica, recomendan incluír na caracterización do

    substantivo a calidade de contable ou non contable, posto que consideran que este

    criterio semántico é pertinente para a clasificación do Nome nas dúas linguas.

    Na aplicación EUROTRA para o castelán, a maiores, empregan no xénero un

    novo valor (transart) para, nos substantivos femininos que comecen por “a” tónico,

    discriminar o alomorfo do artigo feminino (el área) do artigo masculino (el niño).

    Desmárcanse, con todo, da proposta de EAGLES e das demais aplicacións recollidas

    23 http://www.natcorp.ox.ac.uk 24 Domínguez et al., 2009.

  • ETIQUETAXE E DESAMBIGUACIÓN AUTOMÁTICAS EN GALEGO: O SISTEMA XIADA

    30

    para outras linguas ao integrar os pronomes na categoría Nome. Así, para distinguir os

    substantivos dos pronomes recorren ao atributo nform que ten os seguintes valores:

    Atributo Valor Exemplo Etiquetanform normal casa norm clítico le cli pronome él pro

    A introdución dos pronomes na mesma clase ca os substantivos obrígaos a

    incluír atributos específicos dos distintos tipos de pronomes considerados como son a

    persoa ou o caso, pertinentes por exemplo para o pronome persoal, ou exclusivos dun

    subtipo como é o número do posuidor para o posesivo, ao que, como veremos cando

    cheguemos á categoría Pronome, tamén consideran un pronome.

    1.2.3.2. Verbo

    EAGLES propón os atributos seguintes para caracterizar o Verbo:

    L0 Verbo

    Tipo: principal, auxiliar, modal

    Forma verbal: finita, non finita

    Modo: indicativo, subxuntivo, imperativo, condicional, infinitivo, participio, xerundio

    L1 Tempo: presente, imperfecto, futuro, pasado

    Persoa: 1, 2, 3

    Número: singular, plural

    Xénero: masculino, feminino

    Tipo: copulativo, semiauxiliar

    Aspecto: perfectivo, imperfectivo

    L2 Voz: activa, pasiva

    Reflexividade: reflexivo, non reflexivo

    Tipo de verbo principal: transitivo, intransitivo, impersoal

    Clíticos: clíticos, non clíticos

    Á hora de aplicar este conxunto de atributos ás linguas específicas máis

    próximas á nosa, atopámonos con que, tanto no modelo EUROTRA, para o castelán,

    como no GENELEX, para o portugués, se prescindiu de calquera delimitación sintáctica

    ou semántica, limitándose a realizar unha caracterización estritamente morfolóxica.

  • CAPÍTULO 1. DETERMINACIÓN DUN ETIQUETARIO

    31

    Nas táboas que seguen recollemos os atributos verbais aplicados ás dúas linguas:

    Forma verbal

    Modo Tempo Persoa Número Xénero

    finita indicativo presente primeira singular masculino non finita subxuntivo pasado segunda plural feminino Castelán imperativo futuro terceira infinitivo condicional xerundio imperativo25 participio

    Modo Tempo Persoa deíctica

    Persoa concordancia

    Xénero Número

    indicativo presente 1 1 masculino singular subxuntivo imperfecto 2 2 feminino plural Portugués imperativo perfecto 3 3 condicional futuro infinitivo pasado participio pluscuamperfecto xerundio

    1.2.3.3. Adxectivo

    Os atributos propostos para caracterizar os adxectivos son:

    L0 Adxectivo

    Tipo: cualificativo, posesivo, indefinido, cardinal, ordinal

    Grao: positivo, comparativo, superlativo

    Xénero: masculino, feminino

    Número: singular, plural

    Número do posuidor: singular, plural

    L1

    Persoa: 1, 2, 3

    Uso: atributivo, predicativo

    Tipo de modificación: premodificador, posmodificador

    Xénero: común

    L2

    Número: invariable 25 Aparece recollido tamén como valor temporal pero cremos que se trata dun erro porque non se explica en ningún momento a súa inclusión dentro dos distintos tempos verbais, explicación que si aparece para o condicional.

  • ETIQUETAXE E DESAMBIGUACIÓN AUTOMÁTICAS EN GALEGO: O SISTEMA XIADA

    32

    Na proposta inicial de EAGLES (Leech e Wilson, 1996), curiosamente, non

    aparece o atributo tipo para a categoría Adxectivo; este xorde en Monachini e Calzolari

    (1996) para facer posible a marcación das tres funcións ou posicións que os

    tradicionalmente denominados adxectivos determinativos poden desempeñar ou ocupar,

    seguindo o modelo xa establecido por GENELEX:

    Moreover, the GENELEX model distinguishes 3 possible functions, namely:

    1 Adjective: "Le chien est nôtre.''

    2 Determiner: "nôtre chien.''

    3 Pronoun: "le nôtre.'' [Monachini e Calzolari, 1996]

    O establecemento do atributo tipo en Monachini e Calzolari parece, cando

    menos, contraditorio. Si é certo que:

    The GENELEX and AlethDic models reflect a distinction which is also made in traditional

    grammars of other Romance languages (e.g. Italian), i.e. a first disjunction between qualificatif

    and indicatif Adjectives. The latter are those Adjectives which also have pronominal function,

    and in different grammatical traditions are called Determiners in their adjectival function. The

    former are all the other Adjectives.

    Indicative Adjectives are further divided into possessives, demonstratives, relatives, indefinites,

    numerals (ordinals and cardinals), interrogatives and exclamatories. [Monachini e Calzolari,

    1996]

    pero os demostrativos, exclamativos, interrogativos e relativos brillan pola súa ausencia

    como subtipos do Adxectivo. Non estamos, pois, ante a distinción tradicional strictu

    sensu entre adxectivos cualificativos e determinativos. Logo, como se verá no Numeral,

    a pesar de preconizar a súa independencia como categoría, inclúen na súa propia

    proposta os dous subtipos de numerais: cardinais e ordinais. Finalmente, recoñecen a

    inclusión dos posesivos, indefinidos e os dous tipos de numerais polo desiderátum da

    majority of the partners.

    Na aplicación ao castelán, na nosa opinión acertadamente, non se segue a

    proposta de EAGLES e os atributos considerados son os pertinentes para os chamados

    adxectivos cualificativos:

  • CAPÍTULO 1. DETERMINACIÓN DUN ETIQUETARIO

    33

    Grao Xénero Número Posición positivo masculino singular premodificadorcomparativo feminino plural posmodificadorsuperlativo común invariante indiferente

    O portugués prescinde dos atributos uso e tipo de modificación de EAGLES e,

    igual que fixera na categoría verbal, introduce, a maiores, a diferenciación entre a

    persoa semántica e a que marca a concordancia:

    Tipo Grao Xénero Número Persoa deíctica

    Persoa concordancia

    Número posuidor

    cualificativo positivo masculino singular 1 1 singular posesivo comparativo feminino plural 2 2 plural indefinido superlativo 3 3 cardinal ordinal

    1.2.3.4. Pronome e Determinante

    Imos tratar na mesma epígrafe a caracterización das clases Pronome e

    Determinante, recollida en Monachini e Calzolari (1996), para que se advirtan máis

    facilmente as similitudes e diferenzas existentes entre elas.

    Na proposta de EAGLES, na categoría Pronome intégrase o persoal e os

    denominados determinativos en función pronominal; a categoría Determinante, pola súa

    banda, acolle os tradicionalmente chamados determinativos en función adxectival26:

    26 Tomamos literalmente de EAGLES os termos “función pronominal” e “función adxectival” sendo conscientes de que dende o punto de vista da sintaxe funcional, en realidade, mesturan función e unidade, pois pronome e adxectivo son unidades que poden desempeñar diferentes funcións sintácticas e, sintacticamente, non existe ningunha “función pronominal” nin “función adxectival”. Non obstante, o valor que aquí se lle outorga é dun xeito claro, respectivamente, o do seu funcionamento como NÚCLEO e como DETERMINANTE.

  • ETIQUETAXE E DESAMBIGUACIÓN AUTOMÁTICAS EN GALEGO: O SISTEMA XIADA

    34

    L0 Pronome L0 Determinante

    Tipo: demostrativo, indefinido, posesivo, interrogativo, relativo, persoal, reflexivo, recíproco

    Tipo: demostrativo, indefinido, posesivo, interrogativo, relativo

    Persoa: 1, 2, 3 Persoa: 1, 2, 3

    Xénero: masculino, feminino, neutro Xénero: masculino, feminino, neutro

    Número: singular, plural Número: singular, plural

    Número do posuidor: singular, plural Número do posuidor: singular, plural

    L1

    Caso: nominativo, xenitivo, dativo, acusativo, oblicuo, obxecto

    L1

    Xénero: común Xénero: común

    Número: invariable Número: invariable

    Cortesía: cortés, non cortés

    L2

    Tonicidade: átono, tónico

    L2

    Deixando a un lado a conveniencia, ou non, de discriminar entre pronomes

    persoais por unha banda e reflexivos e recíprocos por outra, se extraemos da táboa os

    atributos específicos do subtipo persoal, isto é, caso, cortesía e tonicidade27,

    atopámonos con que os atributos e os valores establecidos para a clase Pronome

    coinciden exactamente cos propostos para a clase Determinante. Reflíctese deste xeito a

    categorización dos chamados determinativos priorizando a súa función e non a súa

    clase. A pregunta que xorde e cuxa resposta sería interesante coñecer é por que non se

    adoptou a mesma solución ca a proposta para a clase Numeral: un atributo co que se

    especifica a función do elemento? Porén, non atopamos ningunha explicación ao

    respecto en Monachini e Calzolari (1996).

    A aplicación ao portugués presenta no Pronome dúas diferenzas de vulto con

    respecto á proposta de EAGLES. A primeira dáse na caracterización da cortesía. Como

    xa vén sendo habitual cando está presente o atributo persoa, o portugués distingue entre

    a persoa que esixe a concordancia e a que lle corresponde deicticamente. Non podemos,

    polo tanto, negar o recoñecemento das formas corteses na aplicación portuguesa, só que

    esta non emprega o atributo cortesía nin o fai unicamente no pronome persoal, senón

    sempre que estea implicada a persoa: verbo, posesivo e pronome persoal. A segunda

    27 Permitímonos a licenza de modificar a orde destes tres atributos para que a comparación entre as dúas categorías resulte máis cómoda. No orixinal aparece o caso antes do número do posuidor (L1) e a cortesía e a tonicidade como primeiros atributos xenéricos opcionais (L2).

  • CAPÍTULO 1. DETERMINACIÓN DUN ETIQUETARIO

    35

    diferenza xorde porque non se organizan as formas do pronome persoal nas súas dúas

    series características: tónica e átona.

    Na clase Determinante as diferenzas acentúanse. A aplicación portuguesa

    engade no tipo os valores definido e indefinido, destinados a identificar o artigo que

    para EAGLES constitúe unha categoría propia, e o cardinal. Logo, ademais de non ter

    en conta os valores específicos opcionais para o xénero e o número, prescinden

    inexplicablemente dos atributos persoa28 e número do posuidor.

    Na aplicación EUROTRA para o castelán, como xa explicamos na clase Nome,

    os pronomes integráronse cos substantivos sendo o atributo nform o que os clasifica en

    normal, pronome e clítico. A maiores, para axudar na caracterización dos pronomes,

    empregaron dous atributos máis:

    Dtype, which helps to distinguish between possessive (poss) and non-possessive (non-poss)

    pronouns.

    Whmor, used to distinguish relative pronouns (valued as rel) and interrogative pronouns

    (valued as int) from the rest of the nominals (valued none). [Monachini e Calzolari, 1996]

    En resumo, na clase Nome na aplicación de EUROTRA, con estes tres atributos

    distinguen entre (Monachini e Calzolari, 1996):

    Sp. example Nform Dtype Whmor Class casa normal non-poss none normal noun yo pro non-poss none personal pro

    este pro non-poss none demonstrative pro algún pro non-poss none indefinite pro

    mi pro poss none possessive pro mío pro poss none possessive pro cuyo pro poss rel relative pro quien pro non-poss rel relative pro quién pro non-poss int interrogative pro

    me cli non-poss none clitic

    Na delimitación que se leva a cabo entre os distintos tipos de pronome e de

    determinantes na aplicación ao castelán non está claro se é a que se realiza en

    EUROTRA ou se se trata da que realiza EAGLES para esta lingua. Os datos inducen a 28 A pesar de haber posesivos implicados, na clase Determinante non se teñen en conta os atributos persoa e número do posuidor.

  • ETIQUETAXE E DESAMBIGUACIÓN AUTOMÁTICAS EN GALEGO: O SISTEMA XIADA

    36

    pensar que se trata da adaptación ao castelán de EAGLES. Con todo,

    independentemente da súa autoría, os subtipos de Pronome e Determinante, así como os

    atributos e valores aplicados nas dúas clases, son coincidentes na súa totalidade coa

    proposta de EAGLES, salvo nos trazos específicos do castelán, como poden ser:

    1) ausencia do atributo xénero e do valor invariable no número no pronome

    relativo (que, quien) fronte á presenza dos valores masculino e feminino e

    singular e plural no determinante relativo (cuyo/s, cuya/s);

    2) presenza unicamente do valor xenérico neutro no pronome demostrativo;

    3) discriminación no caso dos valores nominativo, acusativo, dativo e oblicuo.

    1.2.3.5. Artigo

    Os atributos pertinentes para describir a clase Artigo, segundo EAGLES, son os

    seguintes:

    L0 Artigo

    Tipo: definido, indefinido

    L1 Xénero: masculino, feminino, neutro

    Número: singular, plural

    Na aplicación ao portugués, fronte á castelá, non se recoñece unha clase Artigo,

    senón que os valores definido e indefinido figuran como dous tipos diferentes da clase

    Determinante, ao lado de demostrativo, posesivo, cuantificador, etc.

    1.2.3.6. Adverbio

    Admitindo que son numerosas as posibles subclasificacións dos adverbios

    fundamentándoas en criterios semánticos e sintácticos, a proposta de EAGLES para

    caracterizalos é a seguinte:

    L0 Adverbio

    L1 Tipo: xeral, partícula

    Grao: positivo, comparativo, superlativo

    L2 Polaridade: interrogativo/relativo, non interrogativo/relativo

  • CAPÍTULO 1. DETERMINACIÓN DUN ETIQUETARIO

    37

    Chama a atención nesta clase que en Leech e Wilson (1996) o valor partícula do

    atributo tipo, aplicado especialmente no inglés para adverbios coma out, off ou up,

    figure entre os opcionais, mentres que se establece entre os recomendados en Monachini

    e Calzolari:

    Another interesting fact is the inclusion of Particles among the values of the feature Type by

    the Leech & Wilson proposal. The treatment of Particles appears to be somewhat complicated:

    NERC suggests their inclusion in the preposition category; in GENELEX and MULTILEX

    they form a separate category without any attribute.

    In the present EAGLES proposal, the values proposed for the feature Type at Level 1

    (recommended) reflect a first distinction between general adverbs and particles. [Monachini e

    Calzolari, 1996]

    Co atributo polaridade distínguense no adverbio as formas interrogativas-

    exclamativas ou relativas (en inglés when, where, how, why) das demais; os valores

    comparativo ou superlativo do atributo grao permiten diferenciar as formas sintéticas,

    comparativas ou superlativas, características dun número reducido de elementos

    adverbiais fronte ao valor positivo que se aplica por defecto para o resto dos casos.

    Na aplicación ao portugués non diferencian tipo e no grao caracterizan só os

    adverbios mais, menos e tão como indicadores da comparación de superioridade,

    inferioridade e igualdade, respectivamente.

    No modelo EUROTRA para o castelán empregan o atributo whmor para

    discriminar entre os adverbios interrogativos, relativos e os demais. A maiores, no nivel

    sintáctico, realizan unha clasificación semántica do adverbio (tempo, modo, lugar, etc.)

    para tratar fenómenos relacionados coa adición e aglomeración de adverbios.

    1.2.3.7. Adposición

    Os atributos propostos para caracterizar esta clase son:

    L0 Adposición

    Tipo: preposición, posposición, circumposición

    L1 Formación: simple, contracción

    Xénero: masculino, feminino, neutro

    Número: singular, plural

  • ETIQUETAXE E DESAMBIGUACIÓN AUTOMÁTICAS EN GALEGO: O SISTEMA XIADA

    38

    O portugués non recoñece no tipo máis ca a preposición e, seguindo o modelo

    multilingüe de GENELEX, as contraccións de preposición e artigo trátanas como unha

    clase especial de unidade morfolóxica.

    Na aplicación ao castelán, no nivel morfolóxico, non se considera ningún

    atributo e as contraccións al e del clasifícanas nunha categoría creada ad hoc.

    1.2.3.8. Conxunción

    A proposta de EAGLES para a clase Conxunción é a seguinte:

    L0 Conxunción

    L1 Tipo: coordinante, subordinante

    Subtipo coordinante: simple, correlativa, inicial, non inicial

    L2 Subtipo subordinante: con forma verbal finita, con forma verbal non finita, introduce comparación

    En Monachini e Calzolari destácase o consenso multilingüe acadado para a

    Conxunción, pero este limítase ao recoñecemento da categoría e do atributo tipo:

    A large core of agreement emerges as regards Conjunctions. All the analysed systems agree as

    to the distinction between coordinating and subordinating Conjunctions. The only difference is

    the MULTILEX position which splits the two types of Conjunctions into two different

    categories, coordinators and subordinators: however, no mapping problems arise. The same

    choice was made by the TEI. [Monachini e Calzolari, 1996]

    Na aplicación ás distintas linguas, os atributos opcionais xenéricos propostos só

    se empregan en inglés, alemán, danés ou sueco mentres que non se aplican en italiano,

    catalán, francés ou portugués; en castelán non se usan no nivel morfolóxico senón na

    identificación de constituíntes no nivel de análise sintáctica.

    1.2.3.9. Numeral

    En Leech e Wilson (1996) admítese que os numerais, polo seu comportamento,

    poden integrarse no interior doutras clases de palabras; así, no modelo portugués, os

    cardinais inclúense nas categorías Pronome/Determinante e os ordinais na clase

    Adxectivo. Con todo, deixan clara a súa postura ao afirmar que na categoría Numeral é

    posible especificar a función dos distintos elementos cun atributo.

  • CAPÍTULO 1. DETERMINACIÓN DUN ETIQUETARIO

    39

    En Monachini e Calzolari (1996) recoñécese o tratamento diverxente que

    presentan os numerais nos sistemas analizados pero, pese a permitir incluílos como

    subtipos das clases Pronome, Determinante e Adxectivo, a proposta para a clase

    Numeral non difire da realizada con anterioridade en Leech e Wilson (1996), que é

    como segue:

    L0 Numeral

    Tipo: cardinal, ordinal

    L1 Xénero: masculino, feminino, neutro

    Número: singular, plural

    L2 Función: pronome, determinante, adxectivo

    En Monachini e Calzolari (1996) a aplicación ao castelán non aparece recollida

    baixo a clase Numeral e tampouco a atopamos como subtipo do Adxectivo, Pronome ou

    Determinante. O portugués considera os ordinais adxectivos, mentres que os cardinais

    determinantes remíteos á clase Determinante e os pronominais van á de Adxectivo.

    1.2.3.10. Única

    A proposta de EAGLES recomenda incorporar os mínimos elementos posibles a

    esta clase, a cal, ademais, só debe conter fenómenos lingüísticos específicos da lingua

    en cuestión. Estamos, polo tanto, ante a única categoría para a que non existe ningún

    atributo recomendado no nivel L1; nela pásase do nivel obrigatorio (delimitación da

    categoría: L0) ao nivel opcional específico (trazos morfosintácticos específicos de non

    máis de tres linguas: L2b).

    Os valores que propoñen caracterizar nesta clase son os seguintes (Leech e

    Wilson, 1996):

    Unique-type: 1. Infinitive marker [German zu, Danish at, Dutch, English]

    2. Negative particle [English not, n't] 3. Existential marker [English there, Danish der] 4. Second negative particle [French pas] 5. Anticipatory er [Dutch] 6. Mediopassive voice marker se [Portuguese] 7. Preverbal particle [Greek]

  • ETIQUETAXE E DESAMBIGUACIÓN AUTOMÁTICAS EN GALEGO: O SISTEMA XIADA

    40

    As aplicacións castelá e portuguesa non están recollidas en Monachini e

    Calzolari (1996) e en Leech e Wilson (1996), como se observa na táboa, achégase para

    o portugués a posibilidade de identificar se como marcador de voz, opción que tamén

    sería válida para o castelán malia que non o fagan constar.

    1.2.3.11. Residual

    Igual que sucedía coa clase Única, dende EAGLES recoméndase remitir á

    categoría Residual os menos elementos posibles e, sempre que sexa factible, aconséllase

    incorporalos a algunha das outras categorías. Por exemplo, os caracteres alfabéticos

    varían no número, comportándose deste xeito como os substantivos comúns, motivo

    polo que poderían remitirse á clase Substantivo.

    Reproducimos co mesmo formato a proposta de EAGLES para a clase Residual

    realizada en Leech e Wilson (1996) e a defendida en Monachini e Calzolari (1996) para

    que, a simple vista, se poidan apreciar as diferenzas:

    (Leech e Wilson, 1996) EAG-L0 RESIDUAL EAG-L1 foreign word m sg

    formula f pl

    symbol n

    acronym

    abbreviation

    unclassified

    (Monachini e Calzolari, 1996) EAG-L0 RESIDUAL EAG-L1 foreign words m sg

    alphabetic symbols f pl formulae n acronyms abbreviations unclassified affixes shortcuts fused forms trunc.forms comp. forms

    EAG-L2b c n

    Segundo Leech e Wilson (1996), o tipo Inclasificado aplícase a segmentos

    textuais que non encaixan nos valores anteriores como, por exemplo, palabras

    incompletas, retrousos como er, erm nas transcricións de texto oral ou representacións

    escritas de onomatopeas como dum-de-dum.

  • CAPÍTULO 1. DETERMINACIÓN DUN ETIQUETARIO

    41

    Monachini e Calzolari (1996) non ofrecen datos sobre os diferentes valores

    establecidos nin recollen a aplicación para o castelán nin para o portugués; entre as

    linguas máis próximas á nosa figura o catalán, que acolle nesta clase os acrónimos (SIG)

    e as unidades caracterizadas con non codificado (NC), e o italiano que distingue aquí

    estranxeirismos, abreviaturas e siglas.

    1.3. O etiquetario de XIADA 1.3.1. Clases de palabras

    As categorías que delimitamos no sistema de etiquetaxe de XIADA para o

    galego son:

    1 S [substantivo] 2 V [verbo] 3 A [adxectivo] 4 D [artigo] 5 E [demostrativo] 6 M [posesivo] 7 N [numeral] 8 G [interrogativo- exclamativo] 9 T [relativo] 10 I [indefinido] 11 R [pronome] 12 W [adverbio] 13 C [conxunción] 14 L [locución] 15 P [preposición] 16 Y [interxección] 17 Q [sinal de puntuación] 18 Z [periférica]

    É evidente que o número de categorías establecidas por EAGLES (13) e por nós

    (18) non coincide, así como tampouco a tipoloxía de categorías na súa totalidade. A

    diverxencia orixínase, sobre todo, na distinta consideración de dúas das clases de

    palabras propostas por EAGLES: as clases P [pronome] e D [determinante].

    Os motivos que nos levaron a non seguir fielmente a súa proposta esixen unha

    explicación.

    En primeiro lugar, no referente ás categorías Pronome e Determinante,

    obsérvase que na proposta do estándar europeo empregan criterios morfolóxicos para a

    delimitación das principais clases de palabras (substantivos, verbos, adxectivos, etc.) e

    sintácticos para a categorización de demostrativos, indefinidos, numerais, posesivos,

    relativos e interrogativos. Consideran que nestes últimos é máis importante o seu

    funcionamento como pronomes, determinantes ou adxectivos que a clase de palabra á

    que tradicionalmente se remiten, información esta que secundariamente incorporan na

    etiqueta cun atributo que sinala o tipo de especificador, adxectivo ou pronome.

  • ETIQUETAXE E DESAMBIGUACIÓN AUTOMÁTICAS EN GALEGO: O SISTEMA XIADA

    42

    En XIADA respectamos o criterio morfolóxico, e só secundariamente coa

    caracterización dun atributo “Valor” clasificamos nalgunhas clases de palabras o

    funcionamento como nucleares ou adxacentes dos seus elementos constituíntes. Para

    esta decisión apoiámonos, sobre todo, en Álvarez, Regueira e Monteagudo (1986: 157-

    293) quen, a pesar de recoñecer que “dentro dos pronomes distínguese entre pronomes

    persoais, demostrativos, posesivos, indefinidos, numerais, relativos e interrogativo-

    exclamativos”, á hora de tratar cada un destes grandes grupos faino en capítulos

    independentes e como clases morfolóxicas distintas.

    Na nosa decisión pesaron tamén outros factores importantes:

    1) Exportabilidade. Se fose necesario, poderiamos converter facilmente as

    categorías Demostrativo, Posesivo, Indefinido, Numeral, Relativo e Interrogativo-

    exclamativo en subtipos da clase Pronome e Adxectivo. Como veremos máis adiante,

    todos os elementos integrados nalgunha destas clases inclúen información sintáctica

    sobre o tipo de función que poden realizar, e así caracterízanse mediante o atributo

    “Valor” como formas determinantes ou non determinantes. Para proceder á conversión

    no etiquetario destas categorías, entre outras accións, teriamos que inverter a orde dos

    dous primeiros atributos da cadea de etiquetaxe en cada unha destas clases, excepto no

    Numeral onde sería o primeiro e o terceiro (a segunda posición está reservada para

    indicar o tipo de numeral).

    Para que se perciba con máis claridade esta hipotética conversión, imos

    exemplificar coa clase Demostrativo. Así, os neutros isto, iso e aquilo e as súas

    variantes non normativas na actualidade, esto, eso e aquelo etiquétanse como Enns

    (Demostrativo, non determinante, neutro, singular). Trataríase, daquela, de extraer do

    paradigma dos demostrativos os elementos marcados como Enns e categorizalos na

    clase Pronome co subtipo demostrativo: Rd00ns (Pronome, demostrativo, caso non

    aplica, persoa non aplica, neutro, singular). Isto provocaría, por unha banda, a

    ampliación dos valores do atributo tipo para darlle cabida, neste caso, aos demostrativos

    e, por outra, a non pertinencia dos atributos caso e persoa para todos os integrantes do

    paradigma do Pronome.

    Para os demostrativos caracterizados como determinante/non determinante (o

    resto do paradigma, fóra o neutro) cuxa etiqueta comezaría por Ea (Demostrativo,

  • CAPÍTULO 1. DETERMINACIÓN DUN ETIQUETARIO

    43

    determinante/non determinante) teriamos que reduplicar a súa análise e categorizalos

    respectivamente na clase Adxectivo, ou crear a de Determinante ex profeso, e na de

    Pronome. Deste xeito, o elemento este sería caracterizado respectivamente como

    Rd00ms (Pronome, demostrativo, caso non aplica, persoa non aplica, masculino,

    singular) e como Ad0ms (Adxectivo, demostrativo, grao non aplica, masculino,

    singular).

    Esta posible homoxeneización con outros etiquetarios provocaría, en primeiro

    lugar, un incremento do número de etiquetas posibles debido ás caracterizacións

    categoriais duplas dos determinativos que poden funcionar como núcleos e como

    adxacentes; en segundo lugar, a reorganización dos atributos descritivos existentes (a

    persoa ou o caso non son pertinentes para o Demostrativo, Indefinido, Numeral, etc.) e

    a adición doutros non pertinentes para os elementos orixinais pero imprescindibles para

    clasificar morfoloxicamente os novos membros das clases Pronome e