guinovart -fundamentos de lc

Upload: robert-chapman

Post on 20-Feb-2018

221 views

Category:

Documents


0 download

TRANSCRIPT

  • 7/24/2019 Guinovart -Fundamentos de LC

    1/12

    Fundamentos de Lingstica Computacional:

    bases tericas, lneas de investigacin y aplicaciones

    Javier Gmez Guinovart

    Universidad de Vigo (Vigo)

    [email protected]

    RESUM

    S'ofereix un estat de la qesti de la recerca i desenvolupament en el camp de la lingstica

    com putacion al, presentant els fonaments, aplicacions i perspectives del seus principals vessants

    d'estudi.

    RESUMEN

    Se ofrece un estado de la cuestin de la investigacin y desarrollo en el cam po de la lingstica

    computacional, presentando los fundamentos, aplicaciones y perspectivas de sus principales ver-

    tientes de estudio.

    1 .El cam po de a lingstica com putacional

    La lingstica computacional (o lingstica informtica) es un campo cientfico interdisciplinar relativamente re-

    ciente -cer ca de cincu enta aos de investigacin y desar rollo- cuyo objetivo radica en incorporar en los ordena-

    dores la hab il idad en el manejo del lenguaje humano.

    Desde el pun to de vista de su vinculacin a la informtica, y tambin po r motivos histricos, la lingstica com -

    putaciona l suele ser considerada com o una subdisciplina de lainteligencia artificial. La inteligencia art if icial, por

    su parte, es una subd isciplina de la informtica que se ocu pa de la comprens in de la inteligencia y del diseo de

    mquinas inteligentes, es decir, de mquinas que presentan caractersticas asociadas co n el entendimiento hu -

    mano, co mo el raciocinio, la comprensin del lenguaje hablado y escrito, el aprendizaje o la toma d e decisiones.

    En una afortuna da d efinicin de Minsky (1967), la inteligencia art if icial es la ciencia de hacer que las mquinas

    hagan cos as qu e, de haber sido hechas por seres humanos, requeriran inteligencia.

    Por otra p arte, desde el punto d e vista de su vinculacin a la l ingstica, la l ingstica compu tacional puede

    ser considerada u na subdisciplina de la

    lingstica terica,

    en tanto que uno de sus objetivos es la elaboracin d e

    modelos form ales (e implementables informticamente) del lenguaje huma no.

    Por lt imo , en cuan to que disciplina experimental orientada a la elaboracin de p roduc tos com erciales y de

    investigacin , la l ingstica computacional form a parte de las denominadas industrias de la lengua,un sector in-

    dustrial cada vez ms amp lio que proporciona datos y program as informticos ap licados al tratamiento del len-

    guaje. Datos tales como diccionarios electrnicos e impresos, bancos de datos terminolg icos y tesauros; y pro-

    gramas tales com o sistemas de t raduccin au tomt ica, interfaces de consul ta a bases de datos en lenguaje

    natural,o correctores ortogrficos y esti l st icos.

    Esta misma actividad, cuyos resultados se plasman en las aplicaciones l ingsticas de la informtica, vincula

    la lingstica computacion al con lalingstica ap licada, una rama de la l ingstica dedicad a a aplicar los resulta-

    dos y m todo s de la investigacin l ingstica a camp os tales com o la enseanza de idiomas, la traduccin e in-

    terpretac in, o la logopdia.

    Siendo la l ingstica computacional una disciplina tan reciente, y abarcando objetivos tan variados, resulta

    bastante co mpren sible la gran vacilacin terminolgica que impera en su dominio. Una aproximac in tentativa a

    la delimitacin del camp o de estudio exige el reconocimiento de un mnimo de tres vertientes. Estas tres grandes

    lneas de trabajo -o rdena das de la ms vinculada a la l ingstica, a la ms vinculada a la inform tica- son :

    a. La informtica aplicada a la investigacin l ingstica

    b. La mplementacin de teoras lingsticas

    c. Las aplicaciones l ingsticas de la informtica.

    35

  • 7/24/2019 Guinovart -Fundamentos de LC

    2/12

    En los siguientes ap artados, exp ondr c on algo m s de detalle en qu consisten estas tres lneas de trabajo,

    y las ilustrar con ejemp los y orientaciones bibliog rficas.

    2 .La informtica aplicada a la investigacin lingstica

    La aplicacin d e los ordenado res a la investigacin lingstica, es decir, al estudio cientfico del leng uaje, sue-

    le recibir el nombre de

    lingstica informtica

    o d e

    informtica aplicada a la lingstica

    (adaptaciones del trmino

    ingls

    lingstic computlng).

    Veamos, a titulo de e jemplo, una muestra de una investigacin lingstica real de un

    aspe cto mo rfolgico co ncreto de la lengua inglesa, en un perodo determinado de su evolucin his trica (Lezca-

    noetal., 1997).

    Los investigadores d e la filologa inglesa interesados en conoc er la vitalidad del sufijo-able en ingls moder-

    no temprano, pueden acceder a una coleccin de textos escritos entre los aos 1500 y 1710 de ms de m edio

    milln de palabras, con el objetivo de observar de m anera intuitiva si hay muchas o poc as palabras formada s co n

    tal sufijo, y establecer sus conclusiones (por ejemplo, en ingls moderno temprano, a mi manera de ver, no se

    emplea ba mu cho este sufijo). Si adems de inters, la persona investigadora po see grandes dote s de obse rva-

    cin,

    t iempo y paciencia, puede llegar a algunas conclusiones (de fiabilidad ciertamente cuestionable) sobre el

    porcentaje de p alabras que contiene n el sufijo

    -able

    en la coleccin de textos mencionada.

    Sin embargo, si las 550.000 palabras de la coleccin de textos se hallan en soporte magntico (como lo es-

    tn en la actualidad, formando parte del denominado Corpus de Helsinki), resulta posible obtener rpidamente,

    mediante un sencil lo programa informtico, la lista de todas las palabras de los textos co mpilados acabadas en

    -able, junto con diversas indicaciones sobre su frecuencia de aparicin o sobre su emplaza miento concre to

    en los textos integrantes de la coleccin.

    Si adems estos textos estuvieran adecuadamente etiquetados (es decir, si las palabras de tos textos lle-

    varan adjunta una indicacin sobre su categora morfosintctica), se podra conocer automticamente el nmero

    total de adjetivos incluidos en la coleccin de textos y, lo que es ms importante , se podra deducir la prop orcin

    de adjet ivos acabados en

    -able,

    en relacin al nmero total de adjet ivos, e incluso se podra comparar la pro-

    ductiv idad d e este sufijo con la de otros sufijos adjetivos. As, basnd ose en datos em pricos (y no en supo sicio-

    nes o cmputos subjetivos) y aplicando la potencia de clculo y la capacidad de memoria de los ordenadores al

    estudio cientfico del lenguaje, los investigadores podran llegar a establecer conclusiones bien fundamentadas

    sobre la product ividad m orfolgica de un determinado suf i jo en una determinada etapa del ingls.

    Este tipo de estud ios, caracterizados por utilizar com o base de la investigacin compilacion es de textos rea-

    les en soporte informtico (denominadas tcnicamente corpus),se enmarcan en el mbito de trabajo con ocido

    como

    lingstica d e corpus

    (Badia, 1997; McEriery y Wilson, 1996), una disciplina de gran desa rrollo en los

    lt i -

    mos diez aos cuyos resultados se han aplicado a mbitos tan diversos como la lexicografa (Fillmore y Atkins,

    1994;Rafel, 199 6,19 97 ; Rojo, 1992; Santama rina, 1996; Sinclair, 1987), la cons truccin d e gramticas (Hallebe-

    ek, 1992; Halliday, 199 1; Sou tery O 'Donoghue, 19 91)y la traduccin autom tica (Abaitua efa/. , 1997; B row ne

    al.,1990 y 1 993; Gale y Chu rch, 1993; Kay y Rscheisen , 1993).

    Dentro del campo de la lingstica de corpus, posee una gran vitalidad la investigacin so bre eletiquetado. El

    et iquetado morfolgico de un corpus implica asignar a cada palabra del corpus un cdigo o et iqueta

    [tag,

    en in-

    gls) con informacin relevante a su categora morfolgica. Un programa informtico de etiquetado morfolgico

    autom tico recibe com o entrada una secuencia de palabras (por ejemp lo, el nio come peras) y produce com o

    salida una secuencia de etiquetas morfolgicas asociada a la secuencia de palabras (por ejemplo, el_AMS ni-

    o_NMS come_VP3 peras_NFP, donde AMS significa artculo masculino singular; NMS, nombre masculino

    singular;

    VP3 , tercera persona singular de verbo en presente de ind icativo; y AMS , adjetivo masc ulino sing u-

    lar).

    La lista de etiquetas utilizadas por el programa d epend er de las caractersticas lingsticas de l corpus , de

    los objetivos del etiquetado, de los lmites de la implementacin informtica y de los presupuestos tericos em-

    pleados en su desarrollo.

    Los corpus etique tados m orfolgicame nte pue den ser de gran utilidad para la investigacin lingstica y para

    el desarrollo de aplicaciones de procesamiento del lenguaje natural, ya que permiten trabajar directamente con

    palabras no ambiguas respecto a su categora gramatical y co n patrones m orfosintcticos superf iciales (no ana-

    lizados sintcticamente). As, en un corpus del castellano etiquetado morfolgicamente, no sera demasiado di-

    fcil detectar autom ticamen te los casos de pasiva, los pronomb res preverbales o los casos de

    lo

    seguido de ad -

    jetivo,

    por poner s lo tres ejemplos ilustrativos de su uso c omo fue nte en la investigacin lingstica.

    Ciertamente, un corpu s etiquetado c on informacin sintc tica (es decir, un corpus analizado sintcticamen te

    y codificad o co n la informacin relevante al respecto) pued e resultar aun ms valioso que un corpus etiquetado

    nicamente con informacin morfolgica (Garca-Miguel, 1994; Garca-Miguel y Vzquez, 1994; Garside, 1993;

    36

  • 7/24/2019 Guinovart -Fundamentos de LC

    3/12

    Marcus

    et al.,

    1993; Rojo, 1993). Sin embargo, debido a la enorme com plej idad de la

    tarea

    y a la dificultad

    d e

    su

    automatizacin, los corpus am plios etiquetados sintcticamente son muy escasos (Arrarte y Uisterr i , 1994; Fer-

    nndez y L l isterr i , 1996; Marcos M arn, 1994: 79-178).

    Por el contrario, el nmero de corpus etiquetados mo rfolgicamente e s cada vez mayor, principalmente -au n-

    que no ex ces ivam ente - en lengua inglesa. Su incremento es deb ido tanto al inters que suscitan, como a la au-

    tomatizacin (parcial o completa) del proceso de etiquetado ofrecida por los diversos etrquetadores morfolgicos

    autom llcos desarrollados hasta la fecha (Aduriz efa /., 1994; Fa rwelief a/., 1995; Prez e a/., 1994; Snchez y

    Nieto, 1995).

    3. La impJementacin de teoras lingsticas

    La segunda lnea de trabajo , orientada a la mplemen tacn de teoras lingsticas, acostum bra a denom inarse

    lingstica computacional (calco del ingls comp utafionaf lingstics},en sentido estricto, y posee un triple o bjetivo:

    a. La elaboracin efe teorfas lingsticas (o mejor, de m odelos lingsticos) en trm inos form ales e implem en-

    tables. Dentro de esta l nea de investigacin, se han desarrollado m odelos l ingst icos com pulacion a-

    les como la

    gramtica lxica funcional

    o LFG (Bresnan, 198 2; Sells, 1985), la

    gramtica sintagmtica

    generalizada o GPSG (Gazdar efal.,1985; Sells, 1985 ; Borsley, 1996), yla gramtica sintagmticadiri-

    gida por el ncleo

    o HPSG (Pollard y Sag, 1994; Borslsy, 1996), modelos ag rupados g enricamente en

    la categora de las gramticas de unificacin (Shieber, 1986).

    b. La descripcin de fenm enos l ingsticos concretos en el marco de alguno de estos modelos, y encua l -

    quiera de los niveles de descripcin lingstica: semntica (Badia y Colominas, 1995; Climent, 1995),

    morfolog a (Agirre efa /. 19 89; Carulla y Oosterhoff, 1996), sintaxis (Balari, 199 2; Castelln etal.,1997;

    Palomar e al., 1995; Taul y Castelln, 1994), etc.

    c. La comprob acin a utomatizada de a consistencia de una teora lingstica o de sus prediccion es {Climent y

    Farreres, 1996; Goving ton, 1990; Ruiz efa /., 19 91 ; Ruiz y Gm ez Guinovart, 1990). Por ejemplo, a partir

    de una gramtica formada por reglas que describan la estructura interna de los constituyentes o racio-

    nales (reglas sintc ticas del tipo:SN (DetN, parafraseable como un sintagma nom inal est form ado por

    un determinante se guido de un nombre) y por reglas que introduzcan los elementos lxicos (reglas de

    insercin fxica como :

    N (perro y Det (el),

    resulta relativamente sencillo crear un programa in form ti-

    co capaz de decidir si una determinada frase {por ejemplo,

    et perro)

    es descrita o no por la gramtica.

    Sin embargo, cuando et nmero de reglas y su comp lej idad aumentan de m anera considerable (como ine vi-

    tablemente sucede al intentar de scribir con cierta ampli tud cualquier idioma), su implementacin inform tica re-

    sulta de gran ayuda para comprobar la buena formacin de los enunciados propuestos, o para comprobar los

    efectos d e la incorp orac in de una nueva regla o de la modific acin de una regla ya existente (Ruiz, 1996).

    Los forma/smoslingsticos (o sistemas de programacin lingstica)son lenguajes artificiales diseados es-

    pecf icamente para representar conocimientos l ingsticos. Algunos formalismos l ingst icos -co m o DCG (Perei-

    ra y Warren, 1980), FUG (Kay, 1982), PATR (Shieber, 1986), DATR (Evans y Gazdar, 1996), la mo rfologa de dos ni-

    veles (Koskenniemi, 1983), GFU (Ruiz, 1993) o ALE (Carpenter y Penn, 1997)-tambin son entendidos (o, mejor

    dicho,

    interpretados) directamente por los ordenadores, por lo que son especialmente adecuados p ara la imp le-

    mentacin informtica y la comprob acin a utomtica de las teoras l ingsticas. Para llevar a cabo estas tareas,

    com o com plemen to o susti tuto de los formalismos l ingst icos, se emplean lenguajes de programacin d eclara-

    tivos y, en particular, el Jenguaje de prog ram acin Prolog (Co vington, 19 94; Dik, 1992; Gazdar y Mellish, 198 9; Pe-

    reira y Shieber, 1987).

    4. Las aplicaciones lingsticas de la informtica

    La tercera l nea de trabajo de la lingstica com putacional (entendida ahora n uevamente en s entido am plio)

    consiste en el diseo y elaboracin de sistemas informticos encam inados a la comprensin y g eneracin de len-

    guas naturales. Este campo recibe las denominaciones d e

    procesam iento del lenguaje natural, tecnologas de la

    lengua o ingeniera lingstica,

    de pendiendo del aspecto de esta actividad dond e se desee poner et nfasis (Abai-

    tua,

    1996:244).

    Algunas de las aplicaciones lingsticas de la informtica m s populares en el mu ndo de los ordenad ores p er-

    sonales son las tecnologas del hab la (en part icular, los sistemas d e dictado) y la traduccin automtica. Junto a

    estas dos , expondr a continuacin los fundam entos de otra apl icacin l ingst ica de la informtica de part icular

    importancia para los lectores de este Anuario: los sistemas de ex traccin de informacin. Otras apl icaciones l in-

    137

  • 7/24/2019 Guinovart -Fundamentos de LC

    4/12

    gsticas de la informtica relevantes, no tratadas en este trabajo po r motivos de espac io, son: la verif icacin lin-

    gstica automtica (por ejemplo, los correctores ortogrficos, sintcticos y estilsticos incorporados en los pro-

    cesadores de textos) (Gojenola y Sarasola, 1994; Gmez Guinovart , 199 6b; Mit ton, 1996; Ramrez y Snchez,

    1996;

    Robertson y Willett, 1993; Rodrguez M agro, 1993); los diccionarios elec trnicos de con sulta (Jucker, 1994;

    Lorenzo y Gmez Guinovart, 1996; Rafel, 1996, 1997); y los sistemas de dilogo persona-mquina en lenguaje

    natural (por ejemplo, para formular consultas en castellano a una base de dato s, para hacer reservas de vuelo por

    telfono hablan do en castellano con un ordenador, o para que el ordenador le plantee problema s de matem ticas

    a un estudiante y lo asesore en su solucin) (Alien, 1995 :541 -576 ; App elt, 198 5; Ferrari, 19 91 ; Hovy, 1988).

    4 . 1 .Las tecnologas de l habla

    El objetivo d e las tecnologas d el habla (Keller, 1994; Llistem , 199 1; Moure y Llisterri, 1996:153 -171) es per-

    mitir la comunicacin oral entre las personas y los ordenadores. Un enunciado oral de habla humana es una se-

    al sonora continua que varaalo largo del t iem po, es decir, es una seal analgica. Por contra, los o rdenadores

    trabajan con seales digitales, es decir, con cadenas de smbolos discretos (o sea, cadenas de smbolos distin-

    tos no conectados entre s de manera cont inua). En funcin de la direccin del mensaje en la situacin com uni-

    cativa, el procesam iento del habla se enfrenta con do s tareas bien diferenciadas :

    a. El recono cimiento del habla

    b. La sntesis del habla

    4 . 1 . 1 .

    El reconocim iento de l habla

    Ei

    reconocimiento del habla

    (Alien, 1995: 611-628) consiste e n convertir un enunciado oral (una seal sono ra

    continua) en su representacin simb lica discreta (por ejemplo, en el caso de los sistemas de dicta do, en una ca-

    dena de letras agrupadas en palabras ortogrficamente correctas). La popularidad del reconocimiento del habla

    se debe en gran med ida a los sistemas de dictado para procesamiento de texto en ordenadores personales. Es-

    tos programas de dicta do, comercializados por empresas com o IBM y Dragn Systems (vase, ms abajo, el

    apartado 5.1 de este trabajo), ofrecen versiones para habla fragmentada, en las que el usuario debe hacer una

    pausa entre las palabras, y versiones para habla continua , que permiten dictarle texto al ordenador sin ne cesidad

    de hacer pausas e ntre las palabras.

    Una de las caractersticas ms dese ables en un sistema d e reconoc imiento del habla es su resistencia al rui-

    do ambiente, especialmente para poder trabajar en entornos ruidosos (por ejemplo, en una fbrica, para contro-

    lar vocalme nte el brazo de un robot), o cuand o se desea pode r operar a travs del telfono (por ejemplo, para dic -

    tar le a una centralita automatizada el nmero del abonad o con e l que se pretende comunicar). Por el momento, a

    pesar del inters evidente que esta cuest in susc ita entre los proveedores de servicios de telecomunicac iones,

    y aunque se han producido avances innegables (Hernando

    et al.,

    1997), no se ha encontrad o an la solucin d e-

    finit iva a la baja fiabilidad d el reconocimien to del habla en entornos ruidosos.

    Otro de los grandes retos del reconocimiento irrestricto del habla continua es la independenc ia del locutor. En

    primer lugar, un reconocedor es irrestricto si es capaz de reconocer el vocabulario general de una lengua. Esta

    caracterstica es imprescindible, por ejemplo, en un sistema de dictado; sin embargo, otras aplicaciones del re-

    conocimiento, como las centralitas automatizadas, nicamente necesitan reconocer unas pocas palabras. En se-

    gun do lugar, un reconoc edor es indepen diente del locutor si est con ceb ido para reconocer el habla de cualqu ier

    persona, mientras que, por el contrar io, se dice que un reconocedor es dependiente del locutor si est conceb i-

    do p ara reconocer el habla de una nica persona.

    Por ejemplo, una centralita automatizada de un sistema pb lico de consulta telefnica ha de ser indepe n-

    diente del usuario obligatoriamen te, ya que debe ser capaz de reconocer el habla de cualquier persona qu e pue-

    da llamar. En cam bio, un sistema de dictado para proces amien to de texto en ordenadores personales puede per-

    mit irse ser dependiente del locutor, ya que, en pr incipio , va a ser ut i l izado por una n ica persona ( la duea del

    programa) en un entorno nico (su propio ordenado r). Com o, adem s, en el estado actual de la cuestin , el reco-

    nocimiento irrestricto del habla cont inua con independencia del locutor no ha alcanzado todava un grado de f ia-

    bil idad aceptable para su comercializacin, los sistemas de dictado para habla cont inua exigen una adaptacin

    a su usuario, adaptac in que se logra some tiendo al sistema a una fase de entrenamiento. Durante esta fase, que

    en la prct ica puede suponer media hora de lectura de un texto preparado, el usuario le proporcionar al sistema

    los datos necesarios sob re las caractersticas de su voz y sobre las caractersticas de su pronun ciacin p articu-

    lar de los sonidos de la lengua. Una vez realizado este entrenamiento, el porcentaje de acierto de la conversin

    de voz a texto de un sistema personal de dictado en cond icione s ptima s puede resultar bastante elevado: de un

    95% en los sistemas para habla fragm entada , y algo inferior en los sistemas pa ra habla continua.

    138

  • 7/24/2019 Guinovart -Fundamentos de LC

    5/12

    4.1 .2. La sntesis del habla

    La sntesis del habla consiste en convertir un con junto de smbolos discretos (por ejemplo, en el caso de los

    sistemas de sntesis para usuarios invidentes de ordenadores personales, una cadena de letras agrupadas en pa-

    labras y posiblemente acompa adas por signos d e puntuacin) en una seal sonora continua de habla.

    Aunque el problema de la inteligibil idad de la voz sintetizada se resolvi hace ya mu cho tiempo , queda por so-

    lucionar la cuestin de su naturalidad, es decir, conseguir que la voz generada por el ordenador no suene rob-

    tica (Aguilar ef

    al.,

    1994). Una de las claves para que la voz sintetizada parezca ms natural es la curva de ento-

    nacin adoptad a en la generacin de los enunciados, y es en este terreno donde m s se est investigando en la

    actualidad (Bulln y Prez, 1994; Garrido, 19 91; Hernezetal. 1995; Lpez Gonzalo eal.1 994; Mart y Gudayo l,

    1994;

    entreoros).

    4 .2.

    La traduccin au tomtica

    La traducc in a utomtica por ordenad or (Abaitua, 1997; Agui lar-Amat, 1996; Church y Hovy, 1993; Hut-

    chins y Somers, 1992; Jones, 1996; Whitelock y Kilby, 1995) constituye una de las lneas de investigacin de

    la l ingistica compu tacional de m ayor complejidad intrnseca y, al mism o tiemp o, uno de los desarrollos de m a-

    yor inters para el pblico no especialista. Sin embargo, muchas de las personas interesadas en este campo

    contemplan con c ierto escept ic ismo las posib i l idades de la t raduccin autom tica y de la t raduccin asist ida

    por ordenador. Entre las causas ms probables de las suspicacias actuales hacia esta tecnologa hay que se-

    alar los pobres resul tados ofrecidos hasta ahora por los programas informt icos com ercia les autoden om i-

    nados de traduccin automtica y la generalizacin injustif icada de esta percepcin negativa al conjunto de

    apl icaciones informt icas especf icamente diseadas para su incorporacin en el proceso de la t raduccin

    humana.

    Con el f in de no caer en las confusiones derivadas de la ambigedad semntica del trmino traduccin auto-

    mtica, conviene establecer, en primer lugar, una distincin terminolgica necesaria entre los diversos trminos

    utilizados para referirse a las distintas m odalidades de traduccin que resultan de los diferentes grados de co la-

    boracin entre las personas y los ordenadores (Gmez Guinovart, 1996a; Hutchins y Somers, 1992). As, es pre-

    ciso distinguir cuidadosame nte entre los siguientes dos co ncepto s:

    a. La traduccin totalmente autom tica (de gran calidad).

    b. La traduccin asistida por ordenador.

    4 .2 .1 .

    La traduccin totalmente automtica

    El trmino traduccin totalmente automtica de gran calidad fue acuado en 1960 por Yehoshua Bar-Hil iel pa-

    ra referirse al objetiv o final e ideal de la investiga cin so bre la tradu cci n por o rdenador. Con este trmino se su e-

    le hacer referencia a un programa informtico, an inexistente, capaz de traducir cualquier texto de cualquier g-

    nero textual entre dos lenguas, sin que imp orte ni la dif icultad d el texto original, ni la distancia cultural entre las

    lenguas implicadas. En este sentido particular, la traduccin totalm ente autom tica no existe, ni es probable que

    vaya

    a

    existir en un futuro ms o m enos prxim o.

    Com o nica excepcin posible a esta afirmacin, la traduccin totalmente au tomtica ha alcanzado un nivel

    de fiabil idad semejante al (profesional) humano en dom inios m uy especficos. Por ejemplo, el sistema Taum-M -

    to es capaz de traducir los partes m eteorolgicos del ingls al francs sin apenas intervencin humana (se cal-

    cula que los textos que necesitan ser revisados no llegan al 5% del total de textos traducidos por este sistema).

    El Environment Dep artment de C anad uti l iza Taum-Mto desd e 1977, y ha pasado de traducir 8,5 m illones de

    palabras al ao en 1984, a traducir 17 millones d e palabras al ao en la actualidad (Isabelle y Bourbea u, 1985;

    Vasconcells, 1993).

    4.2. 2. La traduccin asistida por ordenador

    Dentro de esta categora de p rogramas, suele distinguirse entre:

    a. La traducci n semiautomtica (con intervencin humana).

    b. La traducci n (humana) con ayuda del ordenador.

    139

  • 7/24/2019 Guinovart -Fundamentos de LC

    6/12

    Los programas informticos detraduccin sem iautomticason programas ca paces de ofrecer una traduccin

    del texto original que debe ser controlada por la persona que supervisa su funcionamiento para conseguir una ca -

    lidad de traduccin similar a la profesional humana (Gmez Guinovart, 1997). En general, estos programas produ -

    cen de m anera automtica una primera versin en borrador de l texto, que deb e ser corregida a concien cia para al -

    canzar una calidad estndar en el me rcado de la traduccin . En el mundo de la informtica p ersonal, los programas

    de este tipo m s populares son los comercializados co n diversas denominaciones por la empresa Globalink, mien-

    tras que en el mbito de las estaciones de trabajo dos de los programas mejor conocidos son Systran y Metal.

    Con todo, para poder evaluar adecuadamente la calidad de estos programas de traduccin semiautomtica,

    no hay que perder d e vista el destino que se le vaya a dar a la traduccin o btenida. Evidentemente, el grado d e

    exigencia ser distinto para una traducc in de uso interno en una empresa, que para una traducci n de gran ti-

    rada que se deba vender en los quiosco s. As, la Comisin de las Comunidad es Europeas traduce alrededor de

    30 millones de palabras al ano con el programa Sy stran, lo que representa un 15% del total de las traducc iones

    realizadas por este organismo com unitario (Vasconcellos, 1993). Los docum entos trad ucidos por Systran para la

    CCE no son ob jeto de ninguna revisin, ya que son de uso interno y tienen una finalidad meramente informativa.

    Adems de los programas de traduccin semiautomtica, existe una amplia gama de aplicaciones informti-

    cas que, a pesar de non estar concebidas especficamente para la labor de la tradu ccin , ocup an un lugarpr ivi-

    legiado entre las herramientas util izadas por las personas que se dedica n a esta actividad. Estas aplicac iones,

    que se suelen englobar en el trminotraduccin con ayuda del ordenador, pueden provenir de tecnologas tales

    com o la ofimtica, la telemtica o la gestin docu me ntal, e incluyen diversas aplicaciones lingsticas de la infor-

    mtica co mo el reconocimiento y sntesis del habla, la verificacin lingstica automtica, los diccionarios elec-

    trnicos o los sistemas de gestin de terminologa.

    Sin em bargo, la util idad informtica ms caracterstica de la traduccin con ayuda del ordenador s on los en-

    tornos de trabajo con mem oria de tradu ccin , representadas en el mundo de la informtica personal por Transla-

    tionManager de IBM y Translator's W orkbench de Trados (Berry, 1992). Estas aplicaciones integran en un nico

    entorno de trabajo herramientas como un procesador de textos es pecialmente diseado para traducir, un siste-

    ma de administracin de proyectos de traduccin , un conjunto de diccionarios bi linges acompaados de herra-

    mientas de gestin de las bases de datos lxicos y una memoria de traduccin. La mem oria de traduc cin es una

    base de datos en la que se almacenan la versin original y traducida de cada una de las frases que traduce el

    usuario. Cuando el usuario est traduciendo una frase, el programa dete cta autom ticamente s i esa misma frase

    u otra frase similar ya fue traducida co n anterioridad, de manera que se pueda reutil izar la traduccin sin necesi-

    dad de reescribirla completamente, haciendo las modificaciones que se consideren ms oportunas.

    4.3.

    Extraccin de informacin

    En primer lugar, conviene distinguir entre los sistemas de extraccin de la informacin, cuyo objetivo consis-

    te en descub rir la informacin im portante de un texto, de los

    sistemas de catalogacin docum ental automatizada

    y de lossistemas de recuperacinde /a informacin textual.

    En los sistemas de ca talogacin doc ume ntal automa tizada (Moya e Hipla, 1987), el ordenador tpicamente

    trata de determinar de manera general el contenido d e los textos, con vistas a su clasificacin den tro de una de -

    terminada tipologa semntica preestablecida. Por ejemplo, un texto bancario puede ser catalogado com o adeu-

    do p or domicil iacin y otro com o contrato de cuenta. Las categoras as obtenidas pueden em plearse para la

    posterior recuperacin d e los textos, a partir de las consultas form uladas a la base de datos d ocum ental.

    Los sistemas de recuperacin de la informacin textual (tambin denominados sistemas de gestin doc u-

    mental) (Codina, 1994a, 1994b; Sosa, 1997) son programas inform ticos que permiten automatizar la creacin, el

    mantenimiento y la consulta de bases de datos documentales. Estos sistemas comparan los documentos de la

    base de datos con las necesidades de informacin expresadas en las consultas, con el objetivo de seleccionar

    los docum entos relevantes para el usuario del sistema. La bsqued a se agiliza me diante un ndice de la base de

    datos docum ental (exactamen te, un fichero invertido) y una lista de palabras vacas. El lenguaje de interrogacin

    se basa en operadores booleanos y en operadores de proximidad. Estos criterios pueden complementarse con

    el uso de algoritmos para calcular el ndice de relevancia de los docum entos recuperados, es decir, el grado en

    que es pertinente un docum ento para la necesidad d e informacin que se especifica en la consulta.

    Los sistemas de extraccin de la informacin (Hayes, 1994:2753-2 756; M orenoet al., 1993) son sistemas que

    convierten la informac in textual de los docume ntos analizados en informacin es tructurada (por ejemplo, en re-

    gistros de una base de datos) o en resmenes m uy co ncisos . Por ejemplo, la informacin extrada de un artculo

    periodstico sobre una accin terrorista podra consistir en el nmero de personas que resultaron afectadas, el

    nombre d e la organizacin terrorista que pe rpetr el acto, el lugar don de su cedi, el mom ento (da y hora) en que

    ocurri el suceso , el tipo de ac cin terrorista llevado a cab o, etc.

    4

  • 7/24/2019 Guinovart -Fundamentos de LC

    7/12

    El ejemplo no es casual, sino que muestra el t ipo de textos y el t ipo de informacin c on que se trabaj en la

    tercera edicin de la Message U nderstanding Co nference (MUC-3) (Chinchor etal.,1993). El MUC rene cada d os

    aos a diversas empresas y universidades qu e com piten por presentar el sistema de extraccin de informacin

    de mayor rendimiento. Los resultados globales de los programas presentados a concurso en el MUC-3, en lo que

    respecta a la fiabi lidad de los datos extrados au tomticamente, se pue den cuanti f icar en torno al 50% .

    A pesar de que estos resultados, desde el punto d e vista operativo, pueden considerarse insuficientes, el fu -

    turo de la extraccin de informacin resulta bastante prometedor en apl icaciones diseadas para procesar do -

    cumentos que respondan a t ipos textuales muy especf icos, com o los pronsticos del t iempo para la navegacin

    martima o los mensajes cursados por tlex en las transferencias bancarias internacionales.

    5. Fuentes de informacin

    5 . 1 .

    Revistas

    La publicacin cientfica ms importante y de mayor prestigio internacional sobre l ingst ica compu tacional

    es la revista trimes tral Computational Lingstics (Cambridge: The MIT Press). Otras publicaciones Internaciona-

    les de gran alcance son :

    Literaryand Lingstic Computing

    (Oxford: Oxford Unlversity Press), enfocada hacia la

    inform tica aplicada a la investigacin lingstica y literaria;

    Computis and the Humanities

    (Dordrecht: Kluwer),

    sobre las aplicaciones de la inform tica a las humanidades en general y tam bin a la lingstica; Machine Trans-

    lation

    (Dordrecht: Kluwer), dedicada especf icamente al campo de la traduccin automtica;

    Journal of Logic,

    Language and Information, sobre los aspectos lgicos y com putacionales de los lenguajes naturales y los len-

    guajes formales (Dordrecht: Kluwer); yNatural Language Engineerng (Cambridge: Cambridge University Press),

    sobre apl icaciones prcticas de la l ingst ica co mpu tacional.

    En Espaa, la nica publicacin cientfica regular dedicada ntegramente a esta disciplina es la Revista de la

    Sociedad Espaola para el Procesamiento del Lenguaje Natural,de p eriodicidad semestral y distr ibucin l imita-

    da a los miembros de esta asociacin.

    La revista mensual

    BYTE Espaa

    (Barcelona: MC Ediciones) publica con cierta asiduidad reseas sobre apli-

    caciones lingsticas de la informtica, y en ella he publicado evaluaciones de los sistemas de dictado (mencio-

    nados con anterioridad en el apartado 4.1.1)Vocal Worksde Dragn Syste ms (N 32, septiem bre 1997, p. 155),

    Simply Speaking Gold

    de IBM (N 34, noviembre 1997, p. 36),

    ViaVoice

    de IBM (N 35, diciem bre 1997, p. 24) y

    Speak Naturally

    de Dragn Systems (N 36, enero 1998); de los programas de traduccin semiautomtica

    Tele-

    graphde Globalink (N 22, octubre 1996, p. 37) y 77 de GM S (dem, p. 52); del entorno d e trabajo co n mem oria de

    traduccin

    TranslationManager

    de IBM (N 31, ulio-agosto 1997, p. 41); y de diversos diccionarios electrnicos

    de cons ulta, com o el de la Real Acade mia Espaola (N 13, diciembre 1995, p. 174), Le grand Robert lectroni-

    qu e

    (N 17, abril 1996 , p. 77), el

    Diccionario de uso

    de M ara Moliner (N21 ,sep tiembre 1996, p. 63), el

    Gran dic-

    cionario de la lengua espaola de Larousse-Planeta (N 25, enero 1997, p. 49), el diccionario del ingls de Me-

    rriam-Webster (nm . 27, marzo 1 997, p. 43) o el Diccionari de freqncies d el Institut d'Estudis Catalans (N 36,

    enero 1998).

    5 .2. Asoc iac iones

    e

    inst i tuc iones

    A nivel Internacional, la asociac in profesional m s importan te es la Assoc iation for Computational Lingstics

    (ACL) . O tras asociaciones de mbito internacional son: Assoc iation for Literary and Lin-

    guistic Computing (ALLC),Association for the Computers and the Humanities (ACH);International Associaton for

    Machine Translation

    (IAMT) y

    European Association for Logic, Language and Information.

    En Espaa, la Sociedad Espaola para el Procesamiento del Lenguaje Natural,con sti tuida en 1983, agrupa a

    unos 300 profesionales y estudiosos de todas las vertientes de la lingstica computacional. Sus actividades se

    centran en la organizacin de un congreso de periodicidad anual, la edicin semestral de una revista de carcter

    cientfico, la gesti n de una lista electrn ica y el mantenimiento de un servidor de Inform a-

    cin a travs de la Web .

    En el mbito ins ti tucional, el Observatorio

    Espaol de Industrias de la Lengua,

    creado p or el Instituto Cervantes, se encarga de promover la ingeniera l ingstica on Espaa.

    Sus principales actividades son la difusin de informacin a la comunidad investigadora y el establecimiento de

    contactos entre el mundo acadmico y el empresarial.

    141

  • 7/24/2019 Guinovart -Fundamentos de LC

    8/12

    5.3. Catlogos de recursos en Internet

    La pgina Web ms adecuada para iniciar una bsque da en este camp o de investigacin y desarrollo es, sin

    lugar a dudas,

    The ACL NLP/CL U niverse

    . Se trata de

    una pgina creada por el profesor Dragomir R. Radev de la Universidad de Colmbia, con ndices a cientos de re-

    cursos relacionados co n la lingstica compu tacional y el procesamiento del lenguaje natural.

    En e campo de las tecnologas del habla, la

    pgina WW W Information for Speech/Acoustics Research

  • 7/24/2019 Guinovart -Fundamentos de LC

    9/12

    BROW N, Peter R; ef

    a l.

    (1990). A Statist ical Appro ach to Machine Translation.

    Computational L ingstics.

    Vol.

    XV , nm. 2, p. 79-85.

    BROWN , Pete rF.;ea/. (1993). The Mathematics of S tatistical Machine Translation: Parameter Estimation.Com-

    putational Lingstics.

    Vol. XIX, nm. 2, p.

    263-311.

    BULLN , Jos L ; PREZ, Juan C. (1994). Conversin de texto a voz en castellano aplicando el algoritmo PSO -

    LA.feWs fa ce te

    Sociedad Espaola para el Procesamiento del Lenguaje Natural.

    V ol. XIV, p. 217-231.

    CARPENTER, Bo b; P ENN, Ge rald. (1997).>4L;

    TheAttrbute Logic Engine.

    Pittsburgh: Universidad Came gie Me-

    l lon.

    CARULLA, Marta; OOSTERHOFF, Auke. (1996). El tratamiento de la morfologa f lexiva del castellano m ediante

    reglas de dos niveles en una gram t ica de uni f icacin.

    Revista de la Sociedad Espaola para el Procesa-

    miento def Lenguaje Natural.

    Vol. XIX, p. 72 -80.

    CASTELLN, I rene; e

    ai.

    (1997). Propuesta de alternancias d e ditesis verbales para el espao l y el cataln.

    Revista de la Sociedad Espaola para el Procesamiento del Lenguaje Natural.Vol XXf, p. 31-4 8.

    _

    CHINCHOR, Nancy; HIRSHMAN, Lynette; LEWIS, David. (1993). Evaluating Message Understanding Systems:

    An Analysis of the Third Message Understanding Conference (MUC-3).

    Computational Lingstics.

    Vol. XIX,

    nm.

    3, p. 409-449.

    CHURCH,

    Ken neth; HOVY, Eduard. (1993). Good Ap plications for C rummy Machine Translation.

    Machine Trans-

    lation.

    Vol.

    VIII,

    p. 239-253.

    CLIMENT, Salvador. (1995). La semntica del adjetivo y s u representacin mediante es tructuras de rasgos.Re-

    vista de la Sociedad Espaola para el Procesamiento del Lenguaje Natural.

    Vol. XVI, p. -14 .

    CLIMENT, Salvador; FARRERES, Xavier. (1996). Implementand o HPSG en ALE, fewsfa d e

    la Sociedad Espa-

    ola para el Procesamiento del Len guaje Natural.

    Vol.XVIII,p. 27-42.

    CODINA, Llus. (1994a). Sistemas automtico s d e recupe racin de inform acin textua l. En: GM EZ GUINOVART,

    Javier (ed.).

    Aplicaciones lingsticas de la informtica.

    Santiago de Compostela: Trculo Edicions, p. 63-80.

    CODINA, Llus. (1994b). Sistemas de ges tin docum entales: e stado del arte y estrategias de uti lizacin.

    Binary.

    Vol. LXII,

    p. 11 4-11 9 (I); vo).

    LXIJI,

    p. 92 -10 0 (II); y

    vol

    LXJV, p. 106 -11 2 (Jll).

    COVINGTON, Michael. (1990). Parsing Dtscontinuous Constituents in Dependency Grammar.

    Computational

    Lingstics.

    Vol. XVI, nm . 4, p. 237-24 0.

    COVINGTON , Michael. (1994).

    Natural Language Processing for Prolog Programmers.

    Englewood Cliffs: Prenti-

    ce-Hall.

    DIK, Sim n. (1992).

    Functiona Gramm arin Prolog.

    Berln: Mouton de Gruyter.

    EVANS,

    Roger; GAZDAR, Gerald. (1996). DATR: A Language for Lexical Knowledge Repre sentaron .

    Computa-

    tional Lingstics.

    Vol.XXII,n2. p. 167-216.

    FARWELL, Dav id; HELMREICH , Steph en; CASPER, Mark. (1995). SPOST: a Spanish Pa rt-of-Spee ch Tagger.

    Revista de la Sociedad Espaola para el Procesamiento del Lenguaje Natural.

    Vol.XVII,p. 42-53.

    FERNNDEZ, Adelaida; LUSTER RI, Joaq uim. (1996).

    Informe sobre recursos lingsticos para el espao l ( l): Cor-

    pus escritos y orales disponibles y e n desarrollo en Espaa.

    Madrid: Instituto Cervantes.

    FERRARI, Giacomo. (1991). Towards a Realistic Dialogue Modef.

    Revista de

    a

    Sociedad Espaola para el Pro-

    cesamiento del Lenguaje Natural.V ol. XI, p.

    -22.

    FIILMORE, Charies J .; ATKINS, B. T. S. (1994). Starting where the Dictionary Stop : The Challenge of C orpus L e-

    xicography. En: ATKINS, B. T. S.; ZAMPO LLI, Antonio (eds.).Computational Approaches to the Lexicn. Ox-

    fo rd :Oxford Universty Press, p. 349-3 93.

    GALE, Wil liam A.; CHU RCH , Kenneth W. (1993). A Program for Aligning Sentences in Bil ingual Corpora .

    Com-

    putational Lingstics.

    V ol. XIX, n 1, p. 75- 10 2.

    143

  • 7/24/2019 Guinovart -Fundamentos de LC

    10/12

    GAR CA-MIGU EL, Jos M . (1994). Corpus de textos analizados sintcticame nte. En: GM EZ GUINOVART, Ja-

    vier (ed.).Aplicaciones lingsticas de la informtica. Santiago de Compostela: Trculo Edicions, p. 19-33.

    GARC A-MIGUEL, J os M .; VZQUEZ, Victoria. (1994). Lingstica de co rpus y lingstica descriptiva: el caso d e

    la dupl icacin de objetos, Revista de la Sociedad Espaola para el Procesamiento del Lenguaje Natural.

    Vol.XIV, p. 47-62.

    GARRIDO, Juan M. (1991). Estil izacin de patrones meldicos del espaol para sistemas de conversin texto-

    habla.

    Revista de la Sociedad Espaola para el Procesam iento del Lenguaje N atural.

    Vol. XI, p. 209-219.

    GARSIDE, Roger. (1993). The Large-Scale P roduction of Syn tactically Analysed C orpora.Literaryand Linguis-

    f/c

    Computing.

    Vol.

    VIII,

    N 1, p. 39-46 .

    GAZDAR, Gerald;

    etal.

    (1985).Generalized Phrase Structure Gramm ar.O xford: Blackwel l.

    GAZDAR, G erald; MELLISH , Chris. (1989).

    Natural Language Processing in Prolog: An Introduction to Computa-

    tional Lingstics, Wokingham: Addison-Wesley.

    GOJENOLA, Koldo; SARASOLA, Kepa. (1994). Aplicacin de la relajacin gradual de restricciones para la de-

    teccin y correccin de errores sintcticos. En: Actas del X Congreso de la Sociedad Espaola para el Pro-

    cesamiento del Lenguaje Natural.Crdoba : Universidad de Crdoba.

    GM EZ GUINOVART, Javier. (1996a). Traduccin autom tica e traduccin asistida por ordenad or: aspec tos ter-

    minolxicos e tipoloxa.Viceversa: Revista Galega de Traduccin.Vol. II, p. 99-1 03.

    GMEZ GUINOVART. Javier. (1996b).

    Fundamentos y lmites de los sistemas de verificacin automtica de la sin-

    taxis y el estilo.Santiago de Com postela: Universidad de Santiago de Com postela.

    GM EZ GUINOVART, Javier. (1997). Traduccin autom tica ing ls-espa ol: estado del arte. En: FERNN DEZ-CO-

    RUGEDO, S antiago (ed.). Some Sundry Wlts Gathered Together.A Corua: U niversidade da C orua, p. 31 -40.

    HALLEBEEK, Jo s. (1992).A Formal Approach to Spanish Syntax.Amsterdam: Rodopi.

    HALLIDAY, M. A. K. (1991). Corpus Studies a nd P robabilistic Gramm ar. En: AIJMER , Karin; ALTENBERG, B engt

    (eds.).

    English Corpus Lingstics. Studies in HonourofJan Svartvik.

    Londres: Longman, p. 30-43.

    HAYES, Philip. (1994). Natural Language Process ing: Applications. En: ASHER, R. E. (ed.).

    The Encyclopedia of

    Language and Lingstics. Oxford : Pergamon Press, p. 2.748-2.757.

    HERNEZ, I.

    etal.

    (1995). Curvas de F0 en euskara: Primera aproximacin a la obtencin de m odelos para co n-

    versin de texto a voz.Revista de la Sociedad Es paola para el Procesam iento del Lenguaje Natural.Vol.XVII,

    p. 272-286.

    HERNAND O, Javier; NADEU, Climent; MAR INO, Jos. (1997). Tcnicas robustas de recono cimiento del habla en

    ambientes adversos.Revista de la Sociedad Espaola para el Procesamiento del Lenguaje Natural.Vol. XX,

    p. 27-43.

    HOVY, Eduard. (1988).Generating Natural Language under P ragmtic Co nstraints.Hil lsdale: Lawrence Erlbaum.

    HUTCHINS, John ; SOM ERS, Harold. (1992).An Introduction to Machine Translation.Londres: Acadm ic Press.

    ISABELLE, Pierre; BOURBEA U, Laurent. (1985). Taum-Aviation: Its Technical Features and S ome Experimen tal

    Results.

    Computational Lingstics.

    Vol. XI, n 1, p. 18-27 .

    JONE S, Da niel. (1996).Analogical Na tural Language Processing. Londres: UCL.

    JUCKE R, Andreas. (1994). New Dim ensions in Vocabulary Studies: Review article of the Oxford English Dic tio-

    nary (2nd edition) on CD -ROM .Literaryand Lingstic Com puting. Vol. IX, n 2, p. 1 49-1 54

    KAY, Martin. (1982). Parsing in Functional Unification Grammar. En: DOWTY, David; KARTUNNEN, Lauri; y

    ZWICKY, Arnold (eds.).Natural Language Parsing.Cambridge: Cambridge University Press, p. 251-278.

    KAY, Martin; RS CHEISEN , Martin. (1993). Text-Translation Aligneme nt. Computational Lingstics. Vol. XIX,

    n1,p. 121-142.

    44

  • 7/24/2019 Guinovart -Fundamentos de LC

    11/12

    KELLER, E. (ed.). (1994).Fundamentis ofSpeech Synthesis and Speech Recognition: Basic Concepts, State oi

    the Art and Future Challenges,

    Chichester: John Wiley & So ns.

    KOSKENNIEMI, Kimm o. (1983).

    Two-leve i morphology : A general computational m odel for word-form recognition

    andproduction. Helsinki: Universidad de Helsinki.

    LEZCANO, Emma; PREZ GUERRA, Javier; SEOANE, Elena. (1997). English Corpus Lingstics and Historical

    Research. En: FERNNDEZ-CORUGEDO, Santiago (ed.).

    Some Sundry Wits Gathered

    Together.

    A Corua:

    Universidade da Corua, p. 73-98.

    LLISTERRI, Joa quim . (1991).Introduccin a la fontica: el mtodo experimenta ,B arcelona: Anthropos.

    LPEZ GONZALO , E.; efa/. (1994). Modelado l ingst ico y acstico para un sistema de conversin de texto a

    habla.

    Revista de la Sociedad E spaola para el Procesamiento del Lenguaje Natural.Vo l. XIV, p. 257-2 72.

    LOREN ZO, Anxo; G MEZ GUINOVART, Javier. (1996). Terminoloxa, informtica e lingua galega.Cadernos de

    lingua.

    Vol. 13, p. 5-33.

    MARCOS MAR N, Francisco A. (1994).

    Informtica y humanidades.

    Mad rid: Gredos.

    MARCU S, Mtchel P.; SANTORINI, Beatrice; MARCINKIEWCZ, Mary Ann. (1993). Buildirg a Large A nnotated

    Corpu s of Eng lish: the Penn Treebank. Computational Lingstics. Vol. XIX, n 2, p. 313-3 30.

    MART, Josep ; GUDAYOL, Francesc. (1994). El ritmo y la entona cin en la lectura del castellano.Revista de la

    Sociedad Espaola para el Procesamiento del Lenguaje Natural.Vo l. XIV, p. 273 -287

    McENERY, Tony; WILSO N, Andrew. (1996).

    Corpus Lingstics.

    Edinburgh: Edinburgh University Press.

    MINSKY, Marvin (ed.). (1967).

    Semntic Information Processing.

    Cam bridge: Cambridge: The MIT Press.

    MITTON,

    Roger. (1996).

    English Sp elling and the Computer.

    Londres: Longmah.

    MOUR E, Teresa; LLISTERRI, Joaq uim. (1996). Lenguaje y nuevas tecnologas: el campo de la l ingst ica c om -

    putacional. En: FERNNDEZ, Milagros (coord.). Avances en lingstica aplicada. Sant iago de Compostela:

    Universidad de Santiago de Com postela, p. 147-227.

    MOYA, Fl ix; HPOLA, Pedro. (1987). Problemas l ingst icos en la automa tizacin de los sistemas de cla sif i-

    cacin documental.

    Revista de la Sociedad Espaola para el Procesa miento del Lenguaje Natural.

    Vol. V,

    p. 74-85.

    PALOMAR, M anolo; FERRNDEZ, Antonio; M OREN O, Lidia. (1995). Aportaciones a la resolucin de la el ipsis

    en la coordinac in.

    Revista de a Sociedad Espaola para el Procesam iento del Lenguaje Natural.

    Vol.XVII,

    p. 101-114.

    PEREIRA, Ferna ndo; SHIEBER, S tuart. (1987).Prolog and Natural-Language Analysis.Stanford:

    CSLI.

    PEREIRA, Fernando; WARRE N, David. (1980). Definite Clause Gram mars for Language Ana lysis.Artificial Inte-

    lligence. Vol.

    XIII,

    p. 231-278.

    PREZ, Ricard; TROT ZIG, David; LLOR, Xavier. (1994). Mo rfeo: Analizador morfol gico y "tagger" del espaol.

    En :Actas delX Congreso de la Sociedad Espaola para el Procesamiento del Lenguaje Natural.

    Crdoba: Uni-

    versidad de Crdoba.

    POLLARD,Cari;SAG,Ivan.(1994).Head-Drven Phrase StructureGrammar Stanford:CSLI.

    RAFEL, Joa quim (dir.). (1996).Diccionari de freqncies. 1: Llengua no literria. Diccionari del Catal Contemp o-

    rani,Corpus Textual Informatitzat de la Llengua Catalana. Barcelona: Institut d'Estudis Catalans.

    RAFEL, Joaquim . (1997). El Diccionari del catal contem poran i i el corpu s textual inform atitzat de la llengua ca -

    talana.

    En: PAYRAT, Llus; efa /, (eds.).

    Corpus, corpora.

    Barcelona: PPU, p. 71-92.

    RAMREZ, Flora; SNCHEZ LEN, Fernando. (1996). GramCheck: Un corrector gramatical para espao . fe-

    Wsfa d e la Sociedad Espaola para el Procesamiento del Lenguaje Natural.Vol. XIX, p. 30-3 7.

    145

  • 7/24/2019 Guinovart -Fundamentos de LC

    12/12

    ROBERTS ON, Alexander M.; WILLETT, Peter. (1993). A Comp arison of S pel l ing-Correct ion Metho ds for the

    Identification of Word Forms in Historical Text Databases.

    Literary and Lingstic Computing.

    Vol.

    VIII,

    n 3,

    p. 143-152.

    RODRGUEZ MAG RO, Cons uelo. (1993).Corrector: un sistema de verificacin gramatical y esti lstica de textos

    basado en una gramtica robusta.

    Madrid: Universidad Autnoma de M adrid.

    ROJO, Guillermo. (1992). El futuro "D iccionario de c onstruccione s verbales del espaol actual". En: MARTN VI-

    DE,

    Carlos (ed.).

    Lenguajes naturales y lenguajes formales VIII.

    Barcelona: PPU , p. 41-5 0.

    ROJO,

    Guillermo. (1993). La base de datos sint cticos del espaol actual.Espaol Actual.Vol. LIX, p. 15-20.

    RUIZ, Juan Carlos. (1993). GFU-LAB: Un sistema computacional para la co-descrpcin de la sintaxis y la se-

    mn tica. En: MARTN VIDE, Carlos (ed.).Lenguajes naturales y lenguajes formales IX.Barcelona: PPU, p. 237-

    248.

    RUIZ, Juan Carlos. (1996). Modelos de anlisis sintctico en el procesamiento del lenguaje natural. En: GM EZ

    GUINOVART, Javier; LOR ENZO, Anxo (eds.).Lingstica e inform tica. Santiago de Com postela: Trculo Edi-

    cions, p. 31-55.

    RUIZ, Juan Carlos; ABAITUA, Jose ba; ZUBIZARRETA, Ram n. (1991). Un compilador de LFG y su aplicacin al

    euskara.Revista de la Sociedad E spaola para el Procesam iento d el Lenguaje Natural.Vol.XVII,p. 177-187.

    RUIZ, Juan C arlos; GMEZ GUINOVART, Javier. (1990). Aproximacin al tratamiento com putaciona l del mo de-

    lo de reccin y l igamiento. En: MARTN VIDE, Carlos (ed.).Lenguajes naturales y lenguajes formales V.Bar-

    celona: Universidad de Barcelona, p. 655-664.

    SNCHEZ LEN , Fernando; NIETO SERRANO, Amalio. (1995). Desarrollo de un etiquetador morfos intctico pa-

    ra el espaol.

    Revista de la Sociedad Espaola para el Procesam iento del Lengu aje Natural.

    Vol.XVII,p. 14-

    28 .

    SANTAM ARINA, An tn. (1996). Informtica e lexicografa. En: GMEZ GUINOVART, Javier; LOR ENZO , Anxo

    (eds.).

    Lingstica e inform tica.

    Santiago de Compostela: Trculo Edicions, p. 9-29.

    SELLS, Peter. (1985).Lectures on Contemporary Syntactic Theories.Stanford:CSLI.

    SHIEBER, Stuart. (1986).

    An Introduction to Unification-Based Approaches to Grammar.

    Stanford:

    CSLI.

    SINCLAIR , John (ed.). (1987).Looking Up: an account of the COBUILD P roject in Lexical Com puting, Londres:

    Col l ins.

    SOUTER, Clive; O'DONO GHU E, Tim F. (1991). Probabilistic P arsing in the CO MM UNA L Project. En: JOH ANS -

    SON, St ig;STENSTRM, Anna-Brita (eds.).English Computer Corpora. Berln: Mo uton de Gruyter, p. 33-48.

    SOSA, Eduard. (1997). Sistemes de recuperado d'informaci i processament del l lenguatge natural. En: CID,

    Pilar; BAR, Jaume (eds.).Anuario SOC ADI de Docum entacin e Informacin 1997. Barcelona: SOCADI,

    p. 129-135.

    TAUL, Mariona; CASTE LLN, Irene. (1994). Generacin de alternancias de su bcategorizacin mediante reglas

    lxicas. Revista de la Sociedad Espaola para el Procesamiento del Lenguaje Natural.Vol. XIV, p. 335-3 52.

    VASCO NCELLOS, Muriel. (1993). The Current State of MT U sage.

    MTN ews International.

    Vol. VI, p. 12-17.

    WHITELOC K, Peter; KILBY, Kieran. (1995),Lingstic and C omputational Techniques in Machine Translation Sys-

    tem Design. Londres: UCL.

    WILKS, Y orik, SLATOR, B rian; GUTHRIE, Louise. (1996).Electric W ords: Dictionaries, Com puters, andMeanings.

    Cambridge: The MIT Press.

    46