lenguaje natural

Upload: manuells

Post on 06-Jul-2015

2.235 views

Category:

Documents


0 download

TRANSCRIPT

Lenguaje Natural: Descripcin de las Etapas para su Tratamiento Alejandro Pea Ayala

INSTITUTO POLITCNICO NACIONAL

Alejandro Pea Ayala

Curs la licenciatura en Informtica en la UPIICSA del IPN. Posteriormente obtuvo el Diplomado en Java y Aplicaciones Web en el ITAM, la Especialidad y la Maestra en Inteligencia Artificial en la Fundacin Arturo Rosenblueth. Actualmente es candidato al grado de Doctor en Ciencias de la Computacin por el Centro de Investigacin en Computacin del IPN, contando para ello del respaldo del CONACYT y del IPN a travs de una beca. Entre sus distinciones acadmicas estn: El haberse titulado por la opcin de escolaridad en 1981, conforme al reglamento del IPN. El reconocimiento hecho por el CONCACYT y el Diario de Mxico en el evento: Los mejores estudiantes de Mxico generacin 1981, como el mejor estudiante en la Licenciatura en Informtica del IPN. Adems de haber obtenido el grado de de Maestra en Inteligencia Artificial con mencin honorfica. A la par de su desarrollo acadmico, Alejandro Pea ha ejercido la carrera magisterial, profesional, de investigacin y ministerial. En 1981 ingres a la planta docente de la UPIICSA, donde actualmente es profesor titular C e investigador. Durante el lapso 1989-1994 ofreci ctedra en la Maestra en Sistemas Computacionales del ITESM-CEM. Adems de haber hecho lo propio en las Maestras en Sistemas de Informacin y Ciencias de la Computacin en la Fundacin Arturo Rosenblueth. En el mbito profesional de la Informtica, desde 1978 se ha desenvuelto en los sectores privado, pblico, bancario y empresarial, desempeando cargos como: Programador, analista y lder de proyecto en la entonces Secretara de Comercio. Jefe de Soporte Tcnico en el (desaparecido) Instituto Mexicano de Comercio Exterior. Subdirector de Sistemas en la Secretara de Salud. Subgerente de Proyectos Especiales en el Banco Nacional de Comercio Exterior. Coordinador de Sistemas en Banamex. Fue fundador y Director General de la empresa Neuralware, dedicada a las Tecnologas de la Informacin. Como resultado de sus estudios doctorales orientados al mbito de la Educacin basada en Web, ha publicado: varios Reportes Tcnicos, y presentado diversos trabajos en congresos nacionales e internacionales celebrados en ciudades de cuatro continentes, como por ejemplo: Washington-USA., Vancouver Canda, Melbourne Australia, Bensaon Francia, Grindelwald Suiza, y Bali Indonesia. Las memorias de sus artculos han sido editadas por organizaciones como IEEE y Springer. As mismo es autor de una coleccin de libros relacionados con la Informtica y la Inteligencia Artificial. Actualmente, Alejandro Pea es Apstol y Director General del World Outreach Light to the Nations Ministries (WOLNM), cuya visin es la formacin de discpulos, mediante el uso de las Tecnologas de la Informacin y del Conocimiento, a nivel mundial dedicados a predicar el Evangelio. Por sus ocupaciones acadmicas, profesionales y ministeriales, Alejandro Pea ha tenido la oportunidad de visitar diversos pases y regiones del mundo, amn de haber arribado a sitios extremos del planeta como: La Antrtida, el ocano glaciar rtico, y el centro del desierto de Australia. Tambin ha explorado islas exticas como Hawai, Tahit, y Rarotonga; y otras remotas como Spitsbergen y Baffin. A raz de tales experiencias, Alejandro Pea ofrece el testimonio de las maravillas naturales que Dios ha hecho en el mundo para deleite del ser humano, y en particular de sus hijos que son salvos a travs de Jesucristo y llenos de su Espritu Santo, quien les anima a clamar: Abba, Padre!

Lenguaje Natural: Descripcin de las Etapas para su Tratamiento

Lenguaje Natural: Descripcin de las Etapas para su Tratamiento

Alejandro Pea Ayala

INSTITUTO POLITCNICO NACIONAL

- Mxico -

PRIMERA EDICIN 2006.

D.R. 2006, Alejandro Pea Ayala INSTITUTO POLITCNICO NACIONAL Direccin de Publicaciones Revillagigedo 83, Centro Histrico, 06070, Mxico, D.F. ISBN: 970-94797-3-3 Impreso en: Mxico / Printed in Mxico

El autor reconoce que esta obra ha sido inspirada de manera especial por su Padre, Hermano Jess y Consolador como parte de los proyectos de investigacin de World Outreach Light to the Nations Ministries (WOLNM). As mismo, el trabajo es el resultado de su experiencia profesional, como investigador y docente en la Unidad Profesional Interdisciplinaria de Ingeniera y Ciencias Sociales y Administrativas (UPIICSA) del Instituto Politcnico Nacional (IPN) y fruto del desarrollo de su tesis doctoral en el Centro de Investigacin en Computacin del Instituto Politcnico Nacional.

PRLOGO

El lenguaje natural es una de las manifestaciones de la capacidad cognitiva del ser humano en la que da curso a la exteriorizacin de sus pensamientos a sus semejantes. Para ello las personas se valen de una serie de convenciones fonticas y visuales que hacen posible el entendimiento. Dada la naturaleza del lenguaje natural, su tratamiento por medio de sistemas de cmputo, constituye un reto de investigacin y desarrollo. En este ejemplar, se aborda el tratamiento de lenguaje natural que es alimentado al computador a travs de un perifrico como el teclado. Al estar reasentado el texto en forma magntica, se evitan los problemas de ruido y reconocimiento de patrones caractersticos del ambiente normal de comunicacin entre seres vivos. Por tal motivo, el material que se presenta en esta edicin se compone de seis captulos en los que se abordan los temas de: Naturaleza del lenguaje natural. Los anlisis lexicogrficos, sintcticos y semnticos. Adems de tratar la interpretacin y la generacin del lenguaje. A lo largo del material se exponen las actividades, tcnicos y estructuras de datos que se recomiendan emplear para el desarrollo de aplicaciones destinadas al tratamiento del lenguaje natural por un sistema de cmputo.

TABLA DE CONTENIDOINTRODUCCIN 3 1. MBITO DEL LENGUAJE NATURAL ..................................................................................................................7

1.1 PERFIL.................................................................................................................................. 7 1.2 REAS DE ESTUDIO.......................................................................................................... 7 1.2.1 Lingstica ...................................................................................................................... 7 1.2.2 Psicologa ....................................................................................................................... 9 1.2.3 Filosofa .......................................................................................................................... 9 1.2.4 Neurociencias ............................................................................................................... 11 1.2.5 Comunicacin Social.................................................................................................... 13 1.3 RAMAS DE INVESTIGACIN......................................................................................... 13 1.3.1 Comprensin del Lenguaje Natural Escrito ................................................................. 13 1.3.2 Dilogo Sonoro............................................................................................................. 14 1.4 DESARROLLOS ................................................................................................................ 14 1.5 APLICACIONES Y PROGRAMAS .................................................................................. 16 1.6 REPRESENTACIN .......................................................................................................... 16 1.6.1 Representacin.............................................................................................................. 16 1.6.2 Mapeo ........................................................................................................................... 17 1.6.3 Nivel de Interaccin entre los Componentes................................................................ 18 1.7 ETAPAS EN EL PROCESAMIENTO ............................................................................... 182. ANLISIS LXICO 25

2.1 DESCRIPCIN ................................................................................................................... 25 2.2 LENGUAJE......................................................................................................................... 25 2.2.1 Alfabeto ........................................................................................................................ 25 2.2.2 Morfologa .................................................................................................................... 26 2.2.3 Diccionario ................................................................................................................... 28 2.2.4 Unidades Lxicas.......................................................................................................... 28 2.3 PROCEDIMIENTO ............................................................................................................ 30 2.4 ADMINISTRACIN DE ERRORES ................................................................................. 33 2.5 DESARROLLO................................................................................................................... 343. ANLISIS SINTCTICO .......................................................................................................................................37

3.1 DESCRIPCIN DEL ANLISIS SINTCTICO .............................................................. 37 3.2 ELEMENTOS ..................................................................................................................... 37 3.2.1 Gramticas .................................................................................................................... 37 3.2.2 Redes de Transicin...................................................................................................... 38 3.2.3 Parsers........................................................................................................................... 41 3.3 TEORAS DE CHOMSKY ................................................................................................. 42 3.4 REDES DE TRANSICIN AUMENTADAS (RTA) ........................................................ 47 3.5 DESARROLLO DEL MDULO SINTCTICO............................................................... 514. ANLISIS SEMNTICO........................................................................................................................................57

4.1 NATURALEZA .................................................................................................................. 57 4.2 ELEMENTOS ..................................................................................................................... 57 4.2.1 Contexto ....................................................................................................................... 57 4.2.3 Relacin ........................................................................................................................ 58 4.3. ESTUDIO DE GRAMTICAS SEMNTICAS............................................................... 58 4.3.1 Teora Semntica .......................................................................................................... 58

4.4 GRAMATICAS CASE ....................................................................................................... 62 4.5 REDES SEMNTICAS ...................................................................................................... 65 4.5.1 Bsqueda ...................................................................................................................... 66 4.5.2 Representacin de Predicados no Binarios................................................................... 66 4.5.3 Distinciones Importantes .............................................................................................. 68 4.5.4 Herencia Simple ........................................................................................................... 69 4.5.5 Herencia Mltiple......................................................................................................... 69 4.5.6 Excepciones .................................................................................................................. 70 4.6 DEPENDENCIA CONCEPTUAL...................................................................................... 70 4.6.1 Argumentos para la Representacin en CD.................................................................. 72 4.7 CONSTRUCCIN DEL MDULO SEMANTICO ......................................................... 735. COMPRENSIN 79

5.1 PERFIL................................................................................................................................ 79 5.2 PROCESO ........................................................................................................................... 79 5.3 DESCRIPCIN DEL ANLISIS PRAGMTICO ........................................................... 80 5.4 TCNICAS.......................................................................................................................... 83 5.5.1 Empleo de la Atencin ................................................................................................. 83 5.5.2 Modelo de Creencias .................................................................................................... 83 5.5 ANLISIS DEL MTODO DE DIRECCIN POR METAS............................................ 85 5.6 GUIONES............................................................................................................................ 86 5.6.1 Representacin de conocimiento .................................................................................. 86 5.6.2 Razonamiento ............................................................................................................... 88 5.6.3 Ventajas y Desventajas................................................................................................. 89 5.7 COMPRENSIN DE HISTORIAS .................................................................................... 89 5.7.1 Inters ........................................................................................................................... 89 5.7.2 Comprensin de Historias ............................................................................................ 90 6.8 CREACIN DE UN INTERPRETADOR.......................................................................... 906. GENERACIN DE LENGUAJE ............................................................................................................................95

6.1 CONSIDERACIONES........................................................................................................ 95 6.2 PROCEDIMIENTO ............................................................................................................ 95 6.3 USO DE PLANTILLAS...................................................................................................... 96 6.4 MODELOS DE GENERACIN ........................................................................................ 98 6.5 PROCEDIMIENTO INVERSO .......................................................................................... 99 6.6 EXPRESIONES ................................................................................................................ 100 6.7 CREACIN DE UN MODELO ....................................................................................... 101CONCLUSIONES REFERENCIAS 109 113

TABLA DE FIGURASFigura 1. Composicin del Ser Humano. ........................................................................................ 7 Figura 2. Regiones Cerebrales Responsables del Lenguaje. ......................................................... 12 Figura 3. Expresin Arborescente. ............................................................................................... 17 Figura 4. Tipos de Mapeo.............................................................................................................. 18 Figura 5. Interaccin entre los Componentes de una Oracin....................................................... 19 Figura 6. Esquema de un Sistema de Lenguaje Natural. ............................................................... 20 Figura 7. Evolucin de un Sistema de Lenguaje Natural. ............................................................. 20 Figura 8. Ciclo del Analizador Lxico. ......................................................................................... 25 Figura 9. Aplicacin de Unidades Lxicas.................................................................................... 29 Figura 10. Procedimiento de Entrada del Analizador Lxico. ...................................................... 31 Figura 11. Procedimiento de Salida del Analizador Lxico.......................................................... 32 Figura 12. Gramtica Libre de Contexto....................................................................................... 37 Figura 13. RTEF para una Simple Gramtica. .............................................................................. 39 Figura 14. RTEF para una Gramtica............................................................................................ 39 Figura 15. RTEF no Determnistica. ............................................................................................. 40 Figura 16. RTEF de una Gramtica del Ingls. ............................................................................. 41 Figura 17. rbol de Traduccin. ................................................................................................... 42 Figura 18. Estructura de Frase....................................................................................................... 44 Figura 19. Desarrollo de una Gramtica Transformacional. ......................................................... 44 Figura 20. Conjugacin de Oraciones de una Gramtica Transformacional................................. 45 Figura 21. Atributos de los Smbolos de un Frase Marcada.......................................................... 46 Figura 22. Funcionamiento de la Teora de Sintaxis. .................................................................... 47 Figura 23. Gramtica. .................................................................................................................... 50 Figura 24. Estructura Ligada para una Frase................................................................................. 52 Figura 25. Programa para Gramtica tipo RTA. ........................................................................... 53 Figura 26. Contexto de un Lenguaje. ............................................................................................ 58 Figura 27. Marcadores Usados en la Teora Semntica. ............................................................... 59 Figura 28. Marcadores Semnticos. .............................................................................................. 59 Figura 29. Ejemplo de Distinguidores........................................................................................... 59 Figura 30. Rutas Amalgamadas para Interpretar una Oracin. ..................................................... 60 Figura 31. Frases Emitidas por una Semntica Generativa. .......................................................... 61 Figura 32. Frases Marcadas por una Semntica Generativa.......................................................... 62 Figura 33. Oracin por Medio de una Gramtica Case. ................................................................ 63 Figura 34. Oracin Negativa Expresada por Medio de Case Frame. ............................................ 64 Figura 35. Oracin Positiva Expresada Medio de Case Frame. .................................................... 64 Figura 36. Oracin en Voz Activa................................................................................................. 64 Figura 37. Oracin en Voz Pasiva................................................................................................. 65 Figura 38. Red Semntica Binaria................................................................................................. 66 Figura 39. Red Semntica n-aria. .................................................................................................. 67 Figura 40. Red Semntica Relacional. .......................................................................................... 67 Figura 41. Relacin de Entidades. ................................................................................................. 68 Figura 42. Representacin de Objetos........................................................................................... 68 Figura 43. Representacin de Comparaciones. ............................................................................. 68 Figura 44. Herencia Simple........................................................................................................... 69

Figura 45. Herencia Mltiple. ....................................................................................................... 69 Figura 46. Representacin de Excepciones .................................................................................. 70 Figura 47. Dependencia Conceptual............................................................................................. 70 Figura 48. Uso de los Tiempos Conceptuales. ............................................................................. 72 Figura 49. Representacin de la Dependencia Conceptual. ......................................................... 73 Figura 50. Esquema de un Sistema de Lenguaje Natural............................................................. 74 Figura 51. Generacin de Significado para una Frase................................................................... 75 Figura 52. Generacin de Significado para una Frase................................................................... 79 Figura 53. Resultados del Anlisis Sintctico. .............................................................................. 80 Figura 54. Base de Conocimientos basada en Frames. ................................................................. 81 Figura 55. Significado Parcial de una Oracin.............................................................................. 81 Figura 56. Representacin de la intencin de una oracin. ...................................................... 82 Figura 57. Red Semntica Particionada........................................................................................ 84 Figura 58. Guin del Restaurante................................................................................................. 87 Figura 59. Interpretacin de Textos Fuente.................................................................................. 91 Figura 60. Exposicin de Respuesta del Intrprete. ..................................................................... 91 Figura 61. Generacin de Lenguaje.............................................................................................. 96 Figura 62. Ejemplo de Perspectivas. ............................................................................................ 97 Figura 63 Template de la Oracin. ............................................................................................... 97 Figura 64. Inferencia. ................................................................................................................... 97 Figura 65. Estructura de Frames................................................................................................... 98 Figura 66. Modelo de Oracin por medio de Frames................................................................... 99 Figura 67. Flujo de Generacin de Lenguaje. ............................................................................... 99 Figura 68. Relacin de Cambios de Estado................................................................................ 100 Figura 69. Un Acto Provoca la Ejecucin de Otro. .................................................................... 101 Figura 70. Un Acto Implica la Ejecucin de Otros. ................................................................... 101 Figura 71. Representacin de Estados Mentales. ....................................................................... 101 Figura 72. Estados Mentales Ligados por Inicio, Terminacin y Correlacin........................... 102 Figura 73. Instancias de Eventos que Terminan en Relacin o Acto. ........................................ 102 Figura 74. Asociacin de Situaciones Diversas por Medio de Eventos. ..................................... 102 Figura 75. Causa-Efecto de Eventos y Estados. .......................................................................... 103 Figura 76. Perspectivas que Involucran Eventos Positivos. ........................................................ 103 Figura 77. Abstraccin de Perspectivas en Niveles..................................................................... 104 Figura 78. Abstraccin a un Mayor Nivel mediante Unidades. ................................................. 104 Figura 79. Historia del Regalo de Juan a Mara ......................................................................... 105

LISTA DE TABLASTabla 1. Limitaciones y Ventajas de los Lenguajes. ..................................................................... 17 Tabla 2. Alfabeto de la Lengua Castellana.................................................................................... 25 Tabla 3. Ejemplos de Palabras Compuestas. ................................................................................. 26 Tabla 4. Uso de Tiempos............................................................................................................... 26 Tabla 5. Derivados Irregulares. ..................................................................................................... 27 Tabla 6. Opciones de Gnero y Nmero. ...................................................................................... 27 Tabla 7. Comparativos................................................................................................................... 27 Tabla 8. Generacin de Races Incorrectas. .................................................................................. 27 Tabla 9. Formato de Diccionario................................................................................................... 28 Tabla 10. Tipo de Organizacin y Acceso .................................................................................... 28 Tabla 11. Formato de la Estructura Temporal Fuente. .................................................................. 29 Tabla 12. Formato de la Unidad Lxica. ....................................................................................... 30 Tabla 13. Formato de la Estructura Temporal Fuente. .................................................................. 51

INTRODUCCIN

INTRODUCCINLos sistemas de cmputo se han convertido en una herramienta para el desempeo de labores profesionales, comerciales, sociales, deportivas, cultures y domsticas del ser humano; gracias a los beneficios que brindan en el tratamiento de informacin de una manera confiable, rpida y precisa. Su popularidad ha crecido aceleradamente gracias a la evolucin de la electrnica y las comunicaciones, que han aportado avances y mejoras significativas en la fabricacin de equipo cada da ms poderoso y a la vez econmico, que acompaado por la robustez y facilidad en el empleo de los programas de cmputo, han hecho en conjunto una herramienta muy valiosa para el bienestar de la sociedad. Las tendencias mundiales de automatizacin, globalizacin y modernizacin, obligan a los sectores productivos de los pases a invertir en el desarrollo, generacin, produccin e implementacin de bienes con un alto nivel de contenido tecnolgico. En donde el factor comn es facilitar el uso de los productos e incrementar la utilidad. Un ejemplo contundente es la generalizacin de aplicaciones de cmputo como el uso de un sistema operativo estndar en los computadores personales y el intercambio de informacin a travs de internet por medio de un protocolo universal. Proveer un vehculo de comunicacin sencillo y natural entre el operador y el sistema ha sido un factor determinante de xito de estas aplicaciones, lo cual ha motivado a profundizar en el uso de instrumentos y tecnologas que tiendan a emular el dilogo natural entre los usuarios sin menoscabo que uno de los participantes sea una mquina. Para crear este tipo de proyectos se requiere la intervencin de varios campos especializados, entre los que destaca el Informtico que aparto un conocimiento valioso, organizado en algunas materias especficas. Una de ellos se conoce como Lenguaje Natural. Disciplina que basa sus fundamentos en las matemticas, la lingstica y la inteligencia artificial. Con ella se aborda el reto de construir sistemas de cmputo orientados al manejo, comprensin y generacin del lenguaje natural que expresa un usuario y la aplicacin que opera. Es por ello, que como parte de la formacin de un especialista en sistemas de informacin se le brindan los elementos logsticos y experiencias apropiadas para el diseo de aplicaciones basadas en el uso del lenguaje natural. Por tal motivo, uno de los temas integrantes de su formacin se concentra a proponer todos los conceptos, tcnicas y procedimientos necesarios en la concepcin, diseo e implementacin de sistemas para el proceso de lenguaje natural escrito. Para enriquecer y facilitar la investigacin y desarrollo de este clase de aplicaciones, se ha compilado el Reporte Tcnico como resultado de los estudios, investigacin y desarrollo de sistemas que emplean interfases basadas en el lenguaje natural. Por tanto, la estructura del material se compone por un conjunto de captulos dedicados a describir las etapas del procesamiento del lenguaje natural comenzando por describir la naturaleza del propio lenguaje, las etapas para el proceso del lenguaje natural y se concluye con una serie de observaciones para la creacin de esta clase de aplicaciones.

4

Lenguaje Natural: Descripcin de las Etapas para su Tratamiento

El cuerpo del Reporte Tcnico se desglosa de la siguiente forma: El captulo uno se ofrece un panorama del lenguaje natural, las reas de estudio, las ramas de investigacin, aplicaciones y programas del lenguaje natural. En el captulo dos se presenta la descripcin del Anlisis Lxico a partir de los elementos del lenguaje, la morfologa, el diccionario, el manejo de unidades lxicas, el manejo de errores e implementacin. El captulo tres describe la naturaleza del Anlisis Sintctico, identifica sus elementos, tales como las gramticas, adems de ofrecer un resumen de las teoras de Chomsky y de las redes de transicin aumentadas, concluyendo con una serie de lineamientos para crear un mdulo sintctico. En el captulo cuatro se dedica a presentar el Anlisis Semntico a partir de un perfil y de sus elementos. Tambin ofrece un apartado para el anlisis de las gramticas semnticas y CASE, las Redes Semnticas y la Dependencia Conceptual, amn de ofrecer recomendaciones para crear un mdulo Semntico. El captulo cinco introduce un perfil de la Interpretacin del lenguaje natural acompaado por la descripcin del proceso para su tratamiento, el anlisis pragmtico, tcnicas para la interpretacin como la atencin y el modelo de creencias, adems de presentar el mtodo de direccin por metas y los guiones, la comprensin de historias y una serie de lineamientos para crear un intrprete. El captulo seis aborda el tema de la generacin del lenguaje a partir de las consideraciones, procedimiento, el uso de plantillas, y modelos de generacin. As mismo, describe el procedimiento inverso en la generacin de lenguaje, la composicin de expresiones y el proceso para construir un mdulo. En los ltimos apartados del Reporte Tcnico se presentan las conclusiones y referencias bibliogrficas. Con este material se pretende motivar al estudio, desarrollo y aplicacin de sistemas de informacin que incluyan como interfase hombre-mquina mecanismos para el procesamiento de lenguaje natural, como un medio simple de dilogo.

CAPTULO 1. MBITO DEL LENGUAJE NATURAL

1. MBITO DEL LENGUAJE NATURAL1.1 PERFILEl lenguaje natural LN es la forma de comunicacin que el humano aprende de su ambiente y usa para comunicarse con los dems, para expresar sus ideas, emociones y necesidades, esperando cierta clase de respuesta por parte de su interlocutor, como se muestra en la Figura 1:

Espritu

Intuicin Conciencia Comunin

El ser humano es Tripartito [1]

Mente Alma Sentimientos Voluntad

Cuerpo

Exterior: cabello, ojos, piel, .. Interior: venas, tejidos, huesos, ..

Figura 1. Composicin del Ser Humano.

1.2 REAS DE ESTUDIO1.2.1 Lingstica Es el estudio del lenguaje encargado de explicar la composicin y empleo del lenguaje [2]. Entre sus reas de estudio se encuentran la sintaxis, gramtica, semntica, morfologa y la fonologa. Como parte de sus intereses est la regulacin misma del lenguaje, es por ello que existen las Academias de la lengua. La lingstica juega un papel muy importante en el anlisis del lenguaje natural debido a que regula su correcto empleo, a travs de varias ramas, entre las que destacan: Sintaxis. Es la parte de la gramtica que estudia la concordancia o armona que entre varias clases de palabras ha establecido el uso, rgimen o dependencia mutua, adems de normar y el orden en que se colocan los diversos elementos que componen a la oracin. La sintaxis constituye la parte formal del lenguaje. Fontica. Estudia la acstica (la formacin y propagacin de los sonidos) y la fisiologa (como funcionan los rganos al producir sonido) de las expresiones pronunciadas, representadas como fonemas. Cada fonema representa un sonido, pero no siempre est ilustrado por una sola letra o grafa. Por eso el sistema fonolgico y el alfabeto ortogrfico con que se escribe el espaol, no guardan entre s una exacta correspondencia. El espaol posee fonemas que se identifican como vocales: /a/e/i/o/u/, y fonemas que se realizan en consonantes: /d/f/l/m//p/t/. Los desajustes entre ambos alfabetos consisten en que:

8

Lenguaje Natural: Descripcin de las Etapas para su Tratamiento

El fonema /b/ corresponde a dos letras (b y v), lo mismo que el fonema /y/ (letras ll e y inicial de slaba), y el fonema /rr/ (letras r, rr intervoclica). Corresponden a tres letras: el fonema /k/ (que se describe con la k, la qu); la c que precede a las vocales a, o, u (ca, co, cu) y el fonema /s/ (que se escribe con las letras s, z, c seguida de e o de i: ce, ci). El fonema /g/ corresponde a la letra g cuando va antes de a, o, u (ga, go ,gu), o bien, corresponde a la letra doble gu, antes de e o de i (gue, gui). El fonema /j/ corresponde a la letra j y tambin a la letra g, pero solamente cuando va seguida de las vocales e e i (ge, gi). Hay letras dobles: ch (fonema /ch/), ll (fonema /y/), qu (fonema /k/), rr (fonema /rr/) y gu seguida de e o de i (fonema /g/). La letra x corresponde a dos sonidos representados por sus respectivos fonemas: /k/ y /s/. La letra r a veces representa al fonema /r/ (arete) y a veces al fonema /rr/ (rata). Mientras que la letra h no corresponde a ningn sonido ni representa ningn fonema; slo tiene valor ortogrfico. La letra w no se usa en el espaol ms que en palabras procedentes del ingls (en ese caso suena como u: Washington) o procedentes del alemn (entonces suena como el fonema /b/ Wagner). Fonologa. La fonologa estudia cul es el valor de los fonemas desde el punto de vista de su funcin en la lengua. El fonema es el elemento ms simple de la lengua. Representa, en abstracto, todas las cualidades fnicas que lo hacen identificable en el habla. El fonema es pues la unidad fonolgica unidad que se caracteriza por ser diferenciadora de significado, pero carente de significado en s misma. Por ejemplo el fonema /l/, por si solo, carece de significado; pero si en la palabra ley se sustituye por el fonema /rr/ (rey), resulta una diferencia de significado. As pues, la fonologa investiga que diferencias fnicas estn relacionadas con diferencias de significado, qu relaciones establece un fonema con los dems dentro de un paradigma y como se da este, por ejemplo, en: pala (/p/), mala (/m/), sala (/s/), tala (/t/), bala (/b/), gala (/g/), jala (/j/). -ala el fonema omitido determina la diferencia de la palabra; tambin indica cmo se combina con otros para formar palabras y frases. Semntica. Es la disciplina cientfica que estudia los cambios de significacin que han operado en las palabras.

mbito del Lenguaje Natural

9

Gramtica. Estudia la funcin (sintaxis) y la forma (morfologa) de los signos lingsticos. Se encarga de estudiar los elementos del lenguaje y sus combinaciones. La gramtica es rgida por el principio de que todos los elementos mantienen entre s relaciones semnticas. Adems, trata de formular una serie de reglas, capaces de generar o producir todas las oraciones posibles y aceptables del lenguaje. 1.2.2 Psicologa Psicologa es el estudio cientfico del comportamiento. Como tal, la psicologa describe el comportamiento (el qu) y trata de explicar las causas del mismo (el por qu). La descripcin del comportamiento como resultado del estudio psicolgico no es casual o carente de objetivo. El estudio del comportamiento tiene como propsito la explicacin, la prediccin y el control del mismo. Bsicamente, la explicacin pretende identificar las causas que motivan a un determinado comportamiento en el individuo. La prediccin ocurre cuando el psiclogo anticipa correctamente eventos que ocurren en circunstancias naturales; mientras que el control significa que el psiclogo de algn modo manipula la situacin para obtener un resultado esperado. La forma en que se relaciona la psicologa y el lenguaje natural estriba en el inters de comprender como se produce el proceso de generacin y entendimiento del lenguaje, el cual se puede generalizar en tres fases: Se empieza con un pensamiento. Escogemos palabras y frases que expresen la idea. Producimos los sonidos del habla que forman dichas palabras y frases.

Para poder entender el proceso de generacin del lenguaje se debe de abordar el problema tomando en consideracin temas donde este se ve involucrado y tiene que ver, como lo son el pensamiento, la cognicin, aprendizaje y la personalidad, entre otros. 1.2.3 Filosofa Se interesa fundamentalmente en dos reas de estudio del lenguaje. La primera como forma de pensamiento del ser humano - individuo y ente social, la segunda por medio del formalismo en las estructuras y significados, aplicando mtodos de inferencia. La filosofa define al lenguaje de la siguiente manera: Parte de la filosofa que investiga las aportaciones de este medio de expresin, adems de su origen, esencia, y condiciones espirituales de su desarrollo. Para los griegos, como iniciadores de la filosofa, el estudio del lenguaje tom gran importancia, ellos utilizaban con frecuencia la palabra os que en griego significa palabra y en latn se tradujo como verbo. Scrates utiliz ampliamente un mtodo que utilizaba al lenguaje, en forma de preguntas llamado en filosofa como Mayutica, utilizndolo primordialmente para hallar una definicin, el concepto de lo que es el amor, la justicia, la templanza y la compasin.

10

Lenguaje Natural: Descripcin de las Etapas para su Tratamiento

El mtodo socrtico recibe el nombre de Dialctico, como el arte de debatir mediante preguntas y respuestas, para as llegar a la verdad. El lenguaje humano es artificial, es un producto que se hereda y que el nio aprende lentamente a travs de los aos, es una creacin de la colectividad que ningn individuo aislado puede llegar a dominar enteramente. Segn los italianos Vico y Croce, el lenguaje es una actividad potica que, primitivamente, no pretendi satisfacer ninguna necesidad sino obedeci al simple placer de nombrar cosas. Otros afirman que el lenguaje se desarrolla de acuerdo con las necesidades humanas. A medida que la historia vara, y nuevas concepciones sociales, polticas, religiosas y econmicas surgen y desaparecen, el lenguaje cambia y tambin se adapta a otras funciones y trata de expresar otros sentimientos. As una palabra puede tener muchos sentidos. La voz Libertad, por ejemplo, no significa lo mismo en nuestro tiempo que en la Antigedad Clsica o en la Edad Media, acontecimientos histricos de gran importancia han cambiado su valor. An en las pocas recientes, no tiene igual significado en una democracia liberal que en una dictadura. Diferentes concepciones polticas bastan para alterar el mecanismo expresivo del lenguaje. Para la filosofa, el lenguaje natural, el que todos hablamos, no est al servicio ni de la razn pura ni del arte, no apunta ni a un ideal lgico ni a un ideal literario, su funcin primordial constante, no es la de construir silogismos, ni la de redondear perodos, ni la de plegarse a las leyes. El lenguaje est simplemente al servicio de la vida y no de la vida de unos pocos, sino de la de todos y en todas sus manifestaciones, su funcin es biolgica y social. Si el lenguaje no es una creacin lgica, es porque la vida de la cual es expresin, nada tiene que ver con las ideas puras. Si se dice que la vida es corta, este axioma no interesa en s mismo mientras no se sienta, mientras se viva, esta idea general no penetra realmente en alguien, ms que gracias a una modificacin subjetiva acompaada de una vibracin efectiva, por ligera que sea, y esto no es posible sino cuando, mediante asociaciones simples o complejas, poco importa, pienso yo en mi vida o en la vida de otras personas implicadas en mi existencia. La ecuacin dos y dos son cuatro deja indiferente a quien la conciba con su pura abstraccin, pero un obrero que ha ganado dos pesos por la maana y dos pesos por la tarde, se representar muy vivamente que los cuatro pesos que lleva a casa son una suma ms importante que cada una de los sumandos. Pero esto no es ya una idea, es un valor. El juicio intelectual de La tierra gira se cambia en juicio de valor en la boca de Galileo al gritar entre los jueces eppur si muove. En ese momento ya no es una verdad cientfica, es la afirmacin de un valor adherido a esa verdad, la verdad le parece tan preciosa a quien la emite, que arriesga su vida por ella. La forma de pensamiento anterior se refleja, segn la filosofa, en el lenguaje natural, si esto es as, tiene que ser muy distinta de lo que hace creer la lgica y la esttica. El lenguaje supone un medio de comunicacin previo, originario, natural. Algunos le llaman lenguaje natural al que experimenta el nio cuando quiere comunicarse, antes de conocer el lenguaje artificial. Aristteles llam symbola (signos) a las palabras y pragmata (imgenes) a los conceptos. En su tratado Interpretatione afirma que las voces son los primeramente signos de las pasiones del alma y stas son imgenes de las cosas.

mbito del Lenguaje Natural

11

1.2.4 Neurociencias Las neurociencias son aquellas disciplinas que se encargan de estudiar el sistema nervioso, su composicin y funcionamiento, por lo que respecta al lenguaje se interesa en precisar las partes responsables de su manejo e interpretacin. Nuestro cerebro est dividido en hemisferios cerebrales, el izquierdo es el que tiene las funciones del movimiento de la mano derecha, el habla, el lenguaje, la escritura, la lgica, las matemticas y las ciencias. La corteza cerebral que forma a los hemisferios se divide en cuatro regiones principales denominadas lbulo frontal, parietal, temporal y occipital. Enfocndonos solamente al habla y al lenguaje, podemos decir que el lbulo encargado de estas funciones es el lbulo parietal, el cual se ocupa del reconocimiento de estmulos sensoriales especficos, la capacidad de usar smbolos como un medio de comunicacin - es decir el lenguaje - y de la capacidad de desarrollar las ideas y las respuestas motoras necesarias para llevarlas a cabo. rganos que Participan en el Aprendizaje del Lenguaje Como se mencion anteriormente, el rgano principal para el aprendizaje del lenguaje es el cerebro, ya que este recibe todos los impulsos que mandan otros rganos que participan en el lenguaje, como son: msculos de la laringe, la lengua, las cuerdas vocales. Estos rganos que coordinan la produccin del habla, derivan sus impulsos nerviosos de distintos centros, los cuales, a su vez estn gobernados por un centro comn en el cerebro. Cabe mencionar que los impulsos son llevados al cerebro mediante nervios. Podemos mencionar el nervio hipogloso, que es el motor de los msculos extrnsecos de la lengua, y el vago, que entre otras funciones, es el motor de dos msculos de la faringe y laringe. Localizacin de la Funcin Mientras estudiaba el cerebro, Gall haba llegado a la conclusin de que los lbulos frontales (la parte del cerebro ms cercana a la parte superior de la frente) estaban especializada en el habla. Un admirador de la obra de Gall se sinti tan impresionado por esta afirmacin, que ofreci una recompensa de quinientos francos a cualquiera que pudiera encontrar un paciente con lesin en el lbulo frontal y sin un trastorno en el habla. Este reto impuls a un joven neurocirujano llamado Paul Broca a comenzar el examen de pacientes que sufran de prdida del habla. El primer caso de Broca ocurri en 1861, cuando un hombre ingres al hospital con una seria infeccin en una pierna, tambin haba sufrido durante muchos aos la prdida del habla, lo llamaban Tan, porque era la nica palabra que poda decir. Dos das despus que Broca lo examin, Tan muri a consecuencia de la infeccin, y Broca pudo realizar un examen postmrtem del cerebro. La autopsia revel lesiones en la parte izquierda del lbulo frontal. Durante los tres aos siguientes, Broca investig otros casos ms. Cada uno de los trastornos en el habla iba acompaado de una lesin en el lbulo frontal izquierdo, por lo que esa zona lleg a llamarse de Broca. Poco despus de que Broca informara de sus descubrimientos, Carl Wernicke identific una segunda zona del cerebro, llamada actualmente zona de Wernicke, relacionada tambin con el lenguaje. La zona de Wernicke est situada en el lbulo temporal, una parte del cerebro situada sobre la oreja. Lo asombroso fue que las zonas de Wernicke y de Broca resultaron estar relacionadas con diferentes aspectos del lenguaje.

12

Lenguaje Natural: Descripcin de las Etapas para su Tratamiento

Una lesin (dao en los tejidos) en la zona de Broca produca un trastorno del habla caracterizado por lentitud y dificultad al hablar y una articulacin deficiente lo cual hace difcil la comprensin de las palabras. En este tipo de trastorno del habla, o afasia, el lenguaje podr tener sentido pero generalmente no se puede expresar como una oracin completa. Por ejemplo, al preguntarle acerca de una cita con el dentista, un paciente dijo: S... lunes... pap y Dick... mircoles nueve en punto... diez en punto... doctores... y... dientes. Toda la informacin parece estar presente, pero es difcil comprender las palabras y las oraciones estn incompletas. Aunque los pacientes con la afasia de Broca tienen dificultad para expresarse, no la tienen para comprender el lenguaje. Las lesiones en la zona de Wernicke producen un tipo diferente de afasia. Las oraciones pueden estar gramaticalmente correctas y el habla misma puede ser normal, pero las oraciones carecen de sentido. Cuando se pidi a un paciente con lesin en la zona de Wernicke que describiera un grabado donde haba dos nios robando galletas a espaldas de una mujer, el paciente respondi: Mama est aqu lejos trabajando su trabajo para hacer a ella mejor, pero cuando ella est mirando los dos nios mirando en la otra parte. Ella est trabajando otro tiempo. El habla en s es normal, y las palabras estn unidas en algo que parecen oraciones, pero esas oraciones carecen de sentido. Adems de perturbar el lenguaje hablado, las lesiones en la zona de Wernicke tambin alteran la comprensin del lenguaje. Los pacientes con afasia de Wernicke fuerte no pueden comprender ni siquiera palabras solas. Las diferencias entre las afasias de Wernicke y de Broca llevaron a Wernicke a formular un modelo de cmo el cerebro produce el lenguaje. Hoy en da, casi cien aos despus, este modelo es ampliamente aceptado an. Segn este modelo, cuando se oye una palabra, la seal pasa a la zona de Wernicke, donde es comprendida como un mensaje verbal. El lenguaje hablado se origina en la zona de Wernicke. All es donde se forman las oraciones con sentido. Entonces, la oracin es transferida a la zona de Broca. La zona de Broca es responsable de la programacin de los msculos de la cara, la lengua y la laringe para que la persona emita la oracin formada en la zona de Wernicke. De esta forma, una lesin en la zona de Broca afecta el habla, mientras que una lesin en la zona de Wernicke deja el habla intacta, pero perturba la comprensin del lenguaje y la formacin de oraciones con sentido, como se aprecia en la Figura 2.

Figura 2. Regiones Cerebrales Responsables del Lenguaje.

mbito del Lenguaje Natural

13

Tanto Wernicke como Broca descubrieron que los centros del lenguaje en el cerebro humano se localizaban casi siempre en el hemisferio izquierdo. Por eso los pacientes que sufren lesiones debido a una trombosis en el lado izquierdo del cerebro, y no en el derecho, tienen dificultades con el habla. 1.2.5 Comunicacin Social En la comunicacin social concurren diversas disciplinas como la sociologa, ciencias jurdicas y polticas y la publicidad, las cuales en forma individual ponen una especial atencin a la comunicacin de masas procurando que cada miembro de ellas quede cautivo del mensaje deseado, esperando cierto tipo de reaccin. Cuando la comunicacin social emplea medios masivos de comunicacin ejerce dos tipos principales de influencias: las mas directas, inmediatas y visibles (denominadas primarias) y los efectos secundarios, producidos a mediano o largo plazo, son menos aparentes y sin duda mas generales, pero resultan capaces de modificar progresivamente el modo de pensar o actuar de una poca o sociedad. Efectos Primarios La sociologa de observacin los efectos primarios se ha desarrollado a partir de dos prototipos de estudios muy caractersticos. El primero compara las distintas convicciones y respuestas individuales antes y despus de la explosin de la comunicacin, con lo que se pondera la eficacia de una difusin. El segundo mtodo estudia los cambios que se producen en la opinin durante diferentes emisiones como por ejemplo las campaas electorales o publicitarias, etc. Las encuestas de opinin pblica son un digno ejemplo de la aplicacin de este enfoque, donde una muestra de personas con diversas caractersticas pueden mostrar patrones de preferencias especficas, por ejemplo, al cuestionar las inclinaciones polticas de los electores en los Estados Unidos de Amrica se detect que la combinacin de un nivel socioeconmico elevado, la pertenencia a una religin y la residencia en zona rural predisponan al voto republicano, mientras que la combinacin inversa se inclinaba hacia el partido demcrata. Efectos Secundarios Al observarse los efectos secundarios de modo socilogo se llega a desempear el papel de ensayista que suple la falta de informacin con intuicin, juicios apriorsticos o su propia ideologa. Los comuniclogos estn de acuerdo en creer que el horizonte de la cultura moderna se modifica por la continua accin de los medios de comunicacin; y se insiste cada vez mas en las posibilidades de diversificacin que ofrecen el desarrollo de la prensa especializada y la multiplicacin de emisores de radio, televisin e internet. Se define como la existencia de una cultura en forma de mosaico, constituida yuxtaposicin de elementos muy dispares.

1.3 RAMAS DE INVESTIGACIN1.3.1 Comprensin del Lenguaje Natural Escrito El entendimiento del lenguaje natural escrito se conoce en al mbito de la inteligencia artificial como "Procesamiento de Lenguaje Natural" y se enfoca en la recepcin de texto cuyo contenido es interpretado lxica, sintctica y semnticamente en funcin al conocimiento que se tiene del lenguaje, del contexto y persona que lo expresa, adems del conocimiento "ordinario" [3].

14

Lenguaje Natural: Descripcin de las Etapas para su Tratamiento

1.3.2 Dilogo Sonoro Conocido como "Procesamiento del lenguaje hablado" es caracterizado por los sonidos que el ser humano es capaz de producir, los cuales son determinados por el lenguaje aprendido y el lugar del mecanismo anatmico de produccin (el cual normalmente es el mismo para todos los humanos). El dilogo es generado hilvanando "lapsos de sonido individuales" en patrones reconocidos. Al estudio de dichos patrones de sonido se llama "fonologa". El procesamiento del lenguaje natural sonoro emplea todos los elementos de la interpretacin del lenguaje escrito, ms el conocimiento adicional sobre fonologa as como la correspondiente al tratamiento, depuracin y digitalizacin del sonido, procurando evitar ambigedades y eliminar ruido. La interpretacin sonora del lenguaje comienza por identificar fonemas que constituyen la ms pequea unidad del lenguaje hablado y que se distingue de los dems. Cada lenguaje incluye un conjunto finito de fonemas a partir del cual puede expresarse completamente, ya que a pesar de que generalmente un fonema no tiene un significado especfico, al ser combinado con otros conforme a patrones establecidos produce unidades significativas llamadas morfemas. Si un morfema tiene personalidad propia por s solo se denomina morfema libre, como por ejemplo: preciso, provisto, desarrollo, etc. Pero si requiere asociarse con otro para adquirir un significado real se llama morfema ligado, como sera: mi, des, sub; al ligarse con los morfemas anteriores se obtienen: imprevisto, desprovisto y subdesarrollo.

1.4 DESARROLLOSLos primeros proyectos en el campo del lenguaje natural iniciaron en los 60s con los siguientes trabajos [4]: ELIZA & STUDENT: Fueron dos proyectos a cargo de Weizenbaum & Bobrow orientados al dilogo, estos sistemas almacena informacin acerca de sus dominios ("dilogo entre el terapeuta y su paciente") con estructuras ad-hoc traduciendo declaraciones e interrogaciones sencillas en "palabras clave" o "simples patrones" que se asocian con objetos definidos y relaciones, para generar respuestas apropiadas aplicando reglas heursticas dependientes del dominio. Traductores Automticos: las primeras aplicaciones iniciaron en ese tiempo, sin embargo, rpidamente se reconoci que para entender el texto a traducir se requera de enormes cantidades de conocimiento "ordinario" y en particular, se necesitaba la capacidad para hacer inferencias acerca de objetos, intenciones, relaciones, etc. que no estn explcitas en el texto. El trabajo ms significativo a comienzos de los 70s fue el sistema hecho por Yonck Wilks; que traduca del ingls al francs basado en representaciones semnticas y en esquemas de inferencia. Su xito fue muy limitado porque el sistema no conoca nada del tema a traducir en un sentido razonable. Durante los 70s y 80s han destacado las siguientes aplicaciones: SHRDLV: desarrollado por Winograd, dialoga con el usuario para realizar tareas de planeacin en la configuracin del "mundo de los bloques", por medio de declaraciones y comandos contesta preguntas acerca del estado de los bloques y las razones para efectuar movimientos.

mbito del Lenguaje Natural

15

El sistema integra la sintaxis, semntica y el proceso de razonamiento a travs de "Hiptesis de Representacin Procedural" en donde el significado de las oraciones y sus componentes estn representados en estructuras procedurales, mientras que el "entendimiento del lenguaje" se realiza a travs de procedimientos que son activados en respuesta a la interpretacin de la oracin. MARGIE. Realizado por Schank, implement la hiptesis de la descomposicin en primitivas del lenguaje a travs de lo que denomin la dependencia conceptual, donde oraciones idnticas expresadas en distintas lenguas pudieran tener la misma representacin conceptual. Tambin aplic la hiptesis del entendimiento como resultado de una interferencia espontnea. Es decir, a partir del texto se generan diversas interpretaciones sobre su significado, produciendo al final un consenso de las conclusiones obtenidas. SAM. Tambin desarrollado por Schank, introdujo el uso de Scripts para estructurar grandes cantidades de informacin y situaciones estereotipadas que se alimentan al sistema para generar un resumen, relatar la historia o contestar preguntas al respecto del tema. MS Parlaprop. elaborado por Charniak, aplic conceptos de modularidad y comparticin de estructuras de conocimiento a travs del uso de frames, para orientarlo al relato de historias. PAM. Construido por Schank, habilita el uso de planes como estructuras de conocimiento para tipificar metas comunes de la gente y los medios caractersticos que emplean para alcanzarlas. Con estas herramientas el sistema obtuvo resultados muy interesantes. POLITICS. Creado por Carbonell, implement la interpretacin aplicando varios puntos de vista con su particular sistema de creencias como se modela al ser humano con su diversidad de idiosincrasias. Tales estructuras de conocimiento permitan generar distintos comentarios a partir de un mismo texto, cada uno de ellos expresando un particular modo de pensar. IPP. Generado por Lebowitz, aplica varias clases de generalizacin acerca de protagonistas y actividades tpicas en la historia y con el propsito de adquirir informacin que pueda usarse para emitir especulaciones sobre las razones que motivan cierta conducta o el desenlace de los eventos. BORIS. Construido por Dyer integra una gran variedad de estructuras de conocimiento como los Scripts, planes y manejo de creencias en unidades de tematizacin abstracta que contienen la descripcin del plan, su propsito, razones por las que pueda fallar, como evitar dichas fallas o recuperarse de ellas. GVS. Desarrollado por Xerox, simula a un asistente de reservaciones reas que asesora al usuario en la planeacin de un viaje. Utiliza frames conversacionales para guiar la entrevista y generar informacin, aplicando el manejo de excepciones y uso de defaults. ARGOT. Elaborado en Rochester University para implementar diversos tipos de dilogos, usa varias categoras de planes, como los objetivo en donde se representa una meta y los de comunicacin que contienen secciones de dialogo para introducir temas, hacer preguntas y exponer conclusiones.

16

Lenguaje Natural: Descripcin de las Etapas para su Tratamiento

1.5 APLICACIONES Y PROGRAMASEntre los campos de aplicacin destacan: Sistemas conversacionales. Generadores de historias. Traductores. Sistemas expertos. Tutores inteligentes. Sistemas de planeacin. Reconocimiento de voz. Y en general los sistemas de informacin orientados a interactuar con el usuario final mediante el lenguaje.

Herramientas de programacin sobresale: SNOBOL. Creado por los laboratorios Bell es un lenguaje diseado para manipular strings como datos primarios. El formato de sus instrucciones es: etiqueta string-sujeto patrn = string-objeto: go-to etiqueta El string-sujeto es el string cuyo contenido se actualiza. El patrn es una secuencia de caracteres que es buscada en el contenido del string-sujeto para hacer referencia a dicha instancia de string por ejemplo: paso 1 texto = valor 1 * valor 2 paso 2 texto * = ** resulta en: texto = valor 1 ** valor 2 ICON: sucesor de SNOBOL incluye el proceso de listas tipo LISP [5] y el empleo de reglas. COMIT: Es el primer lenguaje encontrado a proceso de strings.

1.6 REPRESENTACIN1.6.1 Representacin El ser humano usa el lenguaje natural para satisfacer la necesidad de transmitir sus "conceptos internos" a su prjimo a travs de representarlos por un medio (llamado lenguaje) compuesto de elementos y reglas (para interrelacionarlos), del cual selecciona aquellas unidades que mejor los ilustran, con el propsito de lograr que el receptor "entienda" lo que realmente desea expresar. Para cumplir con el objetivo de hacerse entender, es necesario considerar 4 dominios: La estructura lingstica, que est enfocada a regular los elementos estructurales del lenguaje. La correspondencia entre las estructuras lingsticas y el mundo Proceso cognoscitivo, involucra las estructuras de conocimiento y su manipulacin por el procesador del lenguaje. La accin humana y su interaccin con el mundo, la cual asocia al lenguaje dentro del contexto del tiempo relativo a hechos y expectativas.

mbito del Lenguaje Natural

17

Amn de considerar estos dominios es necesario reconocer algunas limitaciones al comprender el lenguaje, pero tambin las ventajas al hacer uso de l, como las que se presentan en la Tabla 1: Tabla 1. Limitaciones y Ventajas de los Lenguajes. # 1 LIMITACIONES Expresiones breves o vagas: - "Subi el ndice de la bolsa - "El candidato de P_ _ se pronunci por desterrar la corrupcin del ..." La misma expresin significa diferentes cosas en distintos contextos: -"Levanta el gato" (al cambiar una llanta o cargar a la mascota). Es imposible editar un programa o diccionario completo del lenguaje: - "Trame un bipaso" - "Faxeamelo". Hay distintas formas de expresar lo mismo: - Juan brinca mucho - Se eleva mucho Juan VENTAJAS Es flexible al permitir el uso de las expresiones necesarias con el grado de detalle requerido permitiendo que el interlocutor genere su inferencia. Permite expresiones de un mundo infinito, usando un finito nmero de smbolos.

2

3

Es evolutivo y adaptativo con base a los deseos de la gente.

4

El lenguaje es muy rico en su forma de expresin.

1.6.2 Mapeo Para llevar a cabo tanto la representacin del lenguaje, como su entendimiento es necesario reconocer el proceso de mapeo que existe tanto de parte del que expresa el mensaje como de aquel que lo recibe; en donde la idea bsica es convertir la forma original de un concepto a otra; existiendo entonces varias relaciones de mapeo, tal como aparece en la Figura 3 y 4: 1 a 1: Una expresin matemtica: = A= B*2+8 traducida a un rbol

A

+

*

8

B

2

Figura 3. Expresin Arborescente. n * 1: Por ejemplo un "Query" puede expresarse de varias formas: Dame los clientes con ventas superiores a $10,000 en Enero.

18

Lenguaje Natural: Descripcin de las Etapas para su Tratamiento

Proporciona una lista de los clientes que compraron mas de $10,000 el mes pasado. SELECT * FOR VENTA > 10,000 AND MES = "ENERO" 1 * n: Son situaciones que obligan a emplear mucho conocimiento del dominio para entender correctamente su significado: "Juan le grita a Pedro psamela!" El baln durante el partido de basketball. El ovoide durante el partido de football americano. La goma durante la clase. n * m: Representa al hecho de haber muchas formas de expresar distintas cosas: Se cay la bolsa hubo prdidas en el mercado financiero

La bolsa cerro a la baja Figura 4. Tipos de Mapeo.

la bolsa se cay al piso.

1.6.3 Nivel de Interaccin entre los Componentes Debido a que la expresin a representar est compuesta por varios elementos, es necesario reconocer el "rol" de ellas y la relacin que guardan entre s, considerando las diversas alternativas de significado en funcin de su naturaleza y contexto. Por ejemplo: Pedro vio a su novia en el parque con una cmara es descrito en la Figura 5.

1.7 ETAPAS EN EL PROCESAMIENTOUn sistema de lenguaje natural SLN est diseado para entender y manipular lenguaje, aceptar como entrada texto en lenguaje natural, almacenar conocimiento ligado al dominio de la aplicacin, desarrollar inferencias a partir de tal conocimiento y texto alimentado, contestar preguntas y generar respuestas. Conceptualmente est integrado por las siguientes funciones, las cuales son ilustradas en la Figura 6: Traductor: integra varios subsistemas: Analizador lxico. Dividido en tres etapas. Fonologa. Descompone el texto en unidades de palabra. Analizador morfolgico. Identifica la raz de las palabras. Generador lxico. Asocia informacin a los morfemas. Analizador sintctico. Valida la estructura gramatical del texto y asocia un significado a la declaracin. Analizador semntico. Relaciona el texto con la base de conocimientos del contexto para emitir una representacin del significado del texto alimentado.

mbito del Lenguaje Natural

19

S Quin tena la cmara? Si fue Pedro: NP VP

Pedro

V

NP

PP

Vio

DET

NOM

PP

con una cmara

a su novia S

en el parque

Pero si fue la novia de Pedro NP VP

Pedro

V

NP

Vio

DET

NOM

PP

a

su

novia

en el parque con una con una cmara

Figura 5. Interaccin entre los Componentes de una Oracin. Interpretador. Lo constituye un responsable de interactuar con la base de conocimientos en funcin al tipo de texto alimentado. Si es una pregunta, esta debe ser contestada, pero si es una afirmacin (hecho o negacin) se agrega a la base y actualiza en un caso a otras entidades. Tambin desarrolla inferencias a partir del conocimiento almacenado. Generador. Es el subsistema encargado de producir el texto de salida dirigido al usuario en funcin a la naturaleza del texto de entrada, puede emitir: Declaraciones de asentimiento: Okay. Preguntas: Como se llama el sujeto? Dudas: No entend. Rechazos: Contradice a la afirmacin de Respuestas: La consecuencia del acto es

20

Lenguaje Natural: Descripcin de las Etapas para su Tratamiento

Representacin interna

Texto de Entrada

Traductor

Interpretador

Generador

Base de conocimiento Texto de Salida Figura 6. Esquema de un Sistema de Lenguaje Natural. Representacin Interna (RI). Es el mapeo del texto de entrada en un formato adecuado para la manipulacin de los mdulos del SLN y consiste en las estructuras almacenadas en la base de conocimientos. Base de Conocimientos (BC). Se constituye por 3 tipos de elementos interrelacionados: Entidades. Son personas, animales, objetos o lugares que deben ser descritos y que protagonizan los eventos. Eventos. Son acciones que pueden ocurrir involucrando entidades con roles de actor, objeto, instrumento, origen y destino; adems de poder involucrar a otras acciones. Situaciones. Combinan entidades y eventos con condiciones y resultados. Implementacin de un sistema de lenguaje natural. Se puede considerar como un sistema a desarrollar con alcances incrementales, como crculos concntricos que ilustran cada fase en la forma mostrada en la Figura 7.

Traduccin Inferencia Respues Aprendizaj Figura 7. Evolucin de un Sistema de Lenguaje Natural.

mbito del Lenguaje Natural

21

Traduccin. Los textos recibidos son procesados hasta generar su representacin interna RI para despus, a partir de ella, emitir el texto de salida. Inferencia. Una vez obtenida la RI del texto recibido, se hacen todas las inferencias posibles al asociar el RI con la base de conocimientos BC. Las conclusiones son representadas como RI para que el Generador emita el texto de salida. Respuesta. Despus de haber emitido la RI equivalente a la pregunta alimentada, se activan los mecanismos de inferencia que explotan la BC para satisfacer el requerimiento. Una vez obtenida la respuesta en su forma de RI se le encomienda al Generador su exposicin. Aprendizaje. Las declaraciones introducidas al SLN son representadas internamente y confrontadas con la BC actual, para determinar casos de: Integracin. Agregando o actualizando el conocimiento. Contradiccin. Requiriendo contradiccin, confirmacin, renovacin, convivencia o rechazo. Confusin. Al no poder comprender el significado o contexto del texto.

22

Lenguaje Natural: Descripcin de las Etapas para su Tratamiento

CAPTULO 2. ANLISIS LXICO

2. ANLISIS LXICO2.1 DESCRIPCINEl subsistema del anlisis lxico dentro de un SLN involucra el "mapeo" entre una cadena de entrada o salida de texto y los elementos lxicos a ser manipulados por el sistema. En la fase inicial transforma la cadena en unidades lxicas. Mientras que al final, selecciona las palabras apropiadas para expresar el significado deseado [6].

Figura 8. Ciclo del Analizador Lxico.

2.2 LENGUAJE2.2.1 Alfabeto Constituye el repertorio de smbolos vlidos que a travs de su interrelacin forman el universo de palabras, frases, oraciones y textos con significado propio dentro del lenguaje al que pertenecen como se muestra en la Tabla 2: Tabla 2. Alfabeto de la Lengua Castellana.

A B . . . z a b .

0 1 . . . 9 . , ?

/ .. b #

26

Lenguaje Natural: Descripcin de las Etapas para su Tratamiento

2.2.2 Morfologa Se orienta a identificar la raz de los verbos, sustantivos, pronombres, etc., de tal forma que se pueda distinguir la esencia del significado de la palabra analizada, entre las situaciones ms comunes estn: Prefijos y Sufijos. Consiste en identificar y eliminar los prefijos y sufijos que acompaan a la raz de la palabra, por ejemplo como se aprecia en la siguiente Tabla 3: Tabla 3. Ejemplos de Palabras Compuestas. TRMINO desunin juegos infidelidades des in PREFIJO RAZ unin juego fidelidad s es SUFIJO

Conjugaciones. Al asociar los verbos a los pronombres en un solo tiempo se derivan varias presentaciones: Yo corro t corres l / ella corre Nosotros corremos Vosotros corris Ellos/ellas corren

Tiempos. Al usar un mismo verbo para una persona especfica, pero con distintos tiempos se obtienen los casos sealados en la Tabla 4: Tabla 4. Uso de Tiempos. SIMPLE Pronombre Presente Yo T Ellas leo amas oyen Pasado le amaste oyeron Futuro leer amarn oirn PROGRESIVO Presente leyendo amando oyendo Pasado leyendo amando oyendo PARTICIPIO Presente ledo amado odo Pasado ledo amado odo

Irregulares. Las palabras derivadas de la raz no observan un patrn ordinario, como en el ejemplo descrito en la Tabal 5:

Anlisis Lxico

27

Tabla 5. Derivados Irregulares. Raz comida saber sonar hablar Derivada comensal, comedor sabio, sabidura suena, sonaja, sonido hablador, habla

Gnero y nmero. En consecuencia a la adaptacin del trmino al gnero y nmero del vocablo original se altera, tal como aparece en la Tabla 6: Tabla 6. Opciones de Gnero y Nmero. Raz Portera Elevador misin Opciones portero, portera, porteros elevadorista misionero, misionera, misiones

Diminutivos y Aumentativos. Son todas aquellas palabras que se usan para expresar una comparacin a partir de una referencia, tal como se seala en la Tabla 7. Tabla 7. Comparativos. Diminutivo pelotita camioncito corralito Raz pelota camin corral Superlativo pelotota camionsote corraln

Incongruencias. Estos son slo algunos de los casos ms comunes al tratar de identificar la raz de la palabra, proceso en el cual se puede incurrir en errores al generar races que no correspondan y que representan otra cosa, como por ejemplo en la Tabla 8 se presentan casos de races: Tabla 8. Generacin de Races Incorrectas. Palabra pelotn pin corrido Ramos universo Raz Pelota Pia Correr Ramo Verso

28

Lenguaje Natural: Descripcin de las Etapas para su Tratamiento

2.2.3 Diccionario El diccionario representa el acervo de morfemas y derivados oficialmente aceptados para una lengua, por lo que un SLN incluye para cada "trmino" su significado, informacin para identificar su informacin estructural, referencia a la raz o sus derivados. El diccionario determina la capacidad del SLN y debe describirse adecuadamente su formato, tipo de organizacin y representacin, as como los mtodos de acceso, para lograr la eficiencia en su manejo. Tambin debe considerar la separacin de homnimos para asignar un registro distinto para cada significado de la manera mostrada en la Tabla 9: Tabla 9. Formato de Diccionario. Regist Identifica Cabez Significado ro dor a 300 700 1032 5720 5721 C0450 A712 C0877 F0140 F0141 cuanto agosto caer falda falda apuntador x2 ap. A671 ap. C71 ap. F720 ap F721 Funcin Estructural Tipo ap.540 ap. N47 ap. V71 ap. 570 ap. 571 Tiempo ap. TP .. ... ... ... Asociacin Raz 0 0 0 0 Derivados ap.1... ap.3... ap.47 ap. 82 Sin n.

Por lo que respecta a la organizacin y acceso al diccionario se debe elegir la representacin apropiada, clase de estructura y mtodos de bsqueda o combinacin de estos como los mostrados en la Tabla 10. Tabla 10. Tipo de Organizacin y Acceso ORGANIZACIN Secuencial, frecuencia de uso Secuencial con acceso directo Indexado Jerrquica, relacional, distribuida ACCESO Secuencial Por # de registro, binario, hash Acceso aleatorio y dinmico, llave nica, llave compuesta, llave duplicada Combinacin de los mtodos de acceso

2.2.4 Unidades Lxicas Las "Unidades Lxicas" o "UL" son las estructuras de informacin que representan a cada palabra del texto a procesar por los mdulos del SLN, cuyo formato contiene la identificacin precisa del trmino, su asociacin con la raz o vocablo al que corresponde en el diccionario y tambin su referencia con la estructura temporal del texto fuente" en donde aparece la palabra original y sus atributos propios resultantes del anlisis morfolgico. Estas piezas de informacin conocidas como unidades lxicas o tokens deben ser manipuladas fcilmente por los analizadores sintcticos y semnticos para producir la "Representacin Interna" apropiada al texto, as como tambin tienen que ser lo suficiente expresivas para que el "generador" produzca el texto de salida apropiado. Veamos la Figura 9 donde se ilustran los conceptos expuestos:

Anlisis Lxico

29

UN

TOTAL

DE

$748,007

Figura 9. Aplicacin de Unidades Lxicas Ahora bien, una muestra del formato para la Estructura Temporal Fuente aparece en la Tabla 11.

Tabla 11. Formato de la Estructura Temporal Fuente. # Registro Termino 15 Cuanto 19 Agosto 20 ? Ap. Diccionario Persona Genero Nmero Tiempo ... c0450 indef. mas. sin. pasado a712 3era. mas. sin. pasado 89714 89714

Finalmente, el contenido del Token o Unidad Lxica debe ser lo suficiente conciso pero a la vez completo para eficientar su manejo, los datos que deben aparecer en su descripcin son los que se muestran en la Tabla 12:

30

Lenguaje Natural: Descripcin de las Etapas para su Tratamiento

Tabla 12. Formato de la Unidad Lxica. APUNTADORES Identificador 42B 87I Diccionario C0450 A712 ETF 15 19 Tipo INTERR OG. NOMBR E FUNCIN Categora Clase CERRAD NOMINAL A ABIERTA PREGUNTA ... ...... ......

Finalmente, es til reconocer las categoras de UL: Abiertas. Identifican la funcin primaria de la palabra, abarcan la mayora de trminos del diccionario, agrupndose en las siguientes clases: Nominales: Nombres y nombres propios que identifican entidades u objetos animados o no. Accin: Tpicamente verbos que ilustran eventos Modificador Nominal: Abarcan a los adjetivos Modificador de Accin: Incluye a los adverbios Cerradas. Son aquellas palabras con un nmero restringido de instancias y son de carcter funcional por depender de otros para adquirir un significado preciso dentro del texto. Las clases cerradas son: Conjunciones: Asociacin: Preposicin: Pronombre: Nmero: Ordinal: Determinante: Negacin: Comparativo: Operador: Pregunta: Cuantificador: Exclamativo: y, o, pero,... antes, si, porque,... a, para, por,... yo, t, l,... 0, 1, 2, ..., 1000, ... 1er. , 2do. , 3er.,... un, una, la, los, aquellos no,... mas, menos, mayor,... ms, veces,... Quin, Cmo, Qu,... algunos, muchos, ninguno,... oh, claro,...

2.3 PROCEDIMIENTOEsencialmente son dos direcciones de procesamiento de texto a cargo del Analizador Lxico y cuya descripcin se detalla a continuacin: Conversin del texto de entrada a Unidades Lxicas. Generacin del texto de salida a partir de Unidades Lxicas.

Anlisis Lxico

31

Procedimiento de Entrada. A partir del texto alimentado al SLN en modo carcter el analizador lxico activa sus mdulos secuencial o simultneamente para generar las UL correspondientes conforme a la Figura 10 siguiente:

Figura 10. Procedimiento de Entrada del Analizador Lxico. La esencia de las tareas realizadas por los mdulos integrantes del analizador lxico son: Analizador Fonolgico. Ejecuta cuatro tareas: Acceso de cada uno de los caracteres integrantes del texto. Identificacin del tipo de carcter conforme al alfabeto. Manejo de errores para los caracteres no registrados en el alfabeto. Generacin de la Unidad de palabra correspondiente.

Analizador Morfolgico. Realiza las siguientes tareas: Emisin de cadenas de palabras o smbolos, compuestos por uno o varios caracteres, considerando los delimitadores, separadores (. , : ; ! ? ...) y cualquier otra convencin que ayude a delimitar los strings; los cuales se almacenan en la Estructura Temporal Fuente. Seleccin del morfema para las cadenas que contienen un palabra, a travs de alguno de los siguientes mtodos. Bsqueda en el diccionario. Procesos especiales para la deteccin y tratamiento de: prefijos, conjugaciones, tiempos, gneros, aumentativos, etc.

32

Lenguaje Natural: Descripcin de las Etapas para su Tratamiento

Actualizacin del diccionario al aceptar una nueva palabra, ya sea morfema o derivado, adems de registrar sus asociaciones con otras nuevas y ya existentes. Esta opcin puede ser interactiva con el usuario o automatizada con las limitaciones del caso y la supervisin del administrador del SLN. Generacin del morfema correspondiente a la cadena.

Generador Lxico. Conforme a la naturaleza del morfema (nmero, smbolo, palabra,...) crea la Unidad Lxica correspondiente registrando los datos y ligas necesarios acorde con la informacin pertinente y las estructuras de datos empleados (E. T. F, Diccionario,...). Procedimiento de Salida. El mdulo Generador del SLN es el encargado de proporcionar los elementos y pautas del texto a producir, valindose de la Base de Conocimientos y de la emisin y actualizacin de las estructuras de datos denominadas Representacin Interna (R. I., ver la seccin 2.7). Dicho mdulo deber incluir un procedimiento que emita cadenas con unidades lxicas, sintacticamente y semnticamente correctas para alimentar al Analizador Lxico conforme al esquema de la Figura 11. Texto

Texto

Texto

Texto

Expositor Morfolgico

Generador Palabras

de

Generador Morfemas

de

Estructura Temporal de Salida

Base de Conocimie ntos

Representa ciones Internas

Diccionario

Figura 11. Procedimiento de Salida del Analizador Lxico.

En resumen, las funciones a ejercer por los mdulos son: Generador de morfemas. Accede a las UL y RI producidas por el subsistema generador, aprovecha la informacin del diccionario y base de conocimientos para emitir el morfema mas adecuado a la representacin.

Anlisis Lxico

33

Generador de palabras. Manipula el morfema y estructuras de datos que emple el mdulo antecesor, procura de ser necesario, agregar la palabra, hacer su transformacin o reemplazo por aquel trmino que satisfaga las condiciones de tiempo, persona, nmero, gnero, etc. que se espera est representada, registrando en la estructura temporal de salida la palabra propuesta. Expositor fonolgico. Es el encargado de ensamblar el texto compuesto por las cadenas de palabras, smbolos y nmeros, incorporando los separadores y smbolos especiales para editar el mensaje.

2.4 ADMINISTRACIN DE ERRORESExisten dos tipos de errores en la fase lxica del SLN, el primero, es el resultado de la interaccin del usuario donde l proporciona texto con palabras o caracteres impropios del lenguaje manejado por el sistema. Mientras que la segunda clase es tcnica, motivada por los clsicos errores de programacin, la emisin de inferencias errneas (sobre todo el anlisis morfolgico) y el empleo de conocimientos incompletos o errneos representados en el diccionario y base de conocimientos. Por lo tanto, es necesario el dilogo con el usuario para detectar inconsistencias durante el anlisis fonolgico y morfolgico para que las evale, modifique por otras que el sistema maneje o bien las confirme. De esta forma el SLN ser capaz de adoptarlas, realizando la incorporacin a las estructuras de datos correspondientes (alfabeto, diccionario, ...), integre las ligas entre los trminos involucrados (raz con sus derivadas) y sobre todo realice las pruebas de consistencia para identificar y manejar adecuadamente las contradicciones o sinnimos. Por ejemplo, al usar la palabra canto en varios ejemplos con distintos contextos, provocara actualizar el diccionario agregando registros y asociaciones diversas para los siguientes significados: canto canto Canto canto accin de cantar, conjugada en presente, primera persona singular, raz cantar,... nombre, asignado a la orilla de un objeto de forma .... nombre propio, apellido de persona.... nombre, expresin artstica musical

La emisin del texto de salida ser evaluada por el usuario hasta el final, al momento de su exposicin, en donde lo primero a observar es la naturaleza de la declaracin expuesta por el sistema (pregunta, respuesta, comentario, afirmacin, rechazo, ...), su contexto, estructura sintctica y consistencia en el vocabulario empleado. Sin embargo, la identificacin de los ajustes a realizar es ms difcil ya que deber revisar el ciclo completo del funcionamiento del SLN, comenzando por confirmar que el texto de entrada haya sido representado lxica y sintcticamente bien, su anlisis semntico e interpretacin haya sido correcta y que el funcionamiento del generador reaccione con eficacia al mandato que se espera realice. Despus se podr verificar el buen desempeo de los mdulos de salida del analizador lxico. Correspondiendo al personal tcnico la modificacin al sistema.

34

Lenguaje Natural: Descripcin de las Etapas para su Tratamiento

2.5 DESARROLLOEs recomendable aplicar una estrategia de desarrollo incremental y de ensayo y error para el subsistema del analizador lxico; a partir de las definiciones conceptuales de la estructura y funcionamiento de todo el SLN, as como del mbito de aplicacin y dominio de conocimiento que explotar [7]. Por lo tanto, una vez creadas las estructuras de datos iniciales para los elementos bsicos del lenguaje, se inicia la construccin y prueba del primer mdulo de entrada; a partir de las unidades de palabra que genere, evala el desempeo del analizador morfolgico y realiza una prueba exhaustiva de casos. Finalmente el generador lxico haga su parte. A su vez, con base en estos resultados, se agregan las estructuras de datos que otros subsistemas crean como las RI, se prueban en orden inverso los mdulos de salida, comenzando por el generador de morfemas y concluyendo con el expositor fonolgico. Naturalmente, esta estrategia se puede alterar desarrollando en paralelo los mdulos, creando estructuras de datos y casos ad-hoc para cada uno de ellos con el propsito de evaluarlos independientemente para integrarlos al final. El desarrollo incremental es con el fin de abordar problemas sencillos con estructuras de texto simples y cortas en una primera etapa, para gradualmente aumentar el grado de riqueza y profundidad del lenguaje.

CAPTULO 3. ANLISIS SINTNTICO

3. ANLISIS SINTCTICO3.1 DESCRIPCIN DEL ANLISIS SINTCTICOEl anlisis sintctico es la etapa en el proceso de lenguaje natural en donde una oracin lineal de texto alimentado por el usuario es convertida a una estructura jerrquica que corresponde a las unidades de significado de la oracin de acuerdo a la naturaleza, componentes y reglas de interrelacin propias del lenguaje. Generalmente el subsistema tiene dos mdulos principales: Gramtica. Es la representacin declarativa de los elementos sintcticos del lenguaje Traductor. Es el proceso que compara el texto de entrada contra la gramtica para generar las estructuras jerrquicas correspondientes [8].

3.2 ELEMENTOS3.2.1 Gramticas La gramtica de un lenguaje natural representa el ncleo que define la naturaleza de los componentes (verbos, sustantivos, artculos, etc.), sus variantes (conjugacin, tiempos, genero, nmero, etc.) y reglas para su interrelacin (frases, enunciados, interrogaciones, negaciones, etc.). Constituye el fundamento para regular el uso del lenguaje dentro de la sociedad [9]. Los sistemas de lenguaje natural (SLN) dedican una atencin especial a la representacin y uso de aquella parte gramatical del lenguaje natural que pretenden procesar, por lo que es necesario determinar el subconjunto de componentes, variantes y reglas que se van a utilizar dentro del universo del propio lenguaje. Para implementar la gramtica de un lenguaje se usa una parte de las matemticas conocida como lenguajes formales, cuya representacin clsica es a travs de reglas que evalan o generan un espacio de estados para el anlisis o produccin de oraciones. Dentro de este marco, existe una variedad de representaciones gramaticales acordes con el nivel de alcance (finitas), considerando el entorno (libre de contexto) y formas de procesamiento (generativa), entre otros enfoques, por lo que es necesario interpretar correctamente la naturaleza de ellas para elegir la ms apropiada a la aplicacin en turno. En la Figura 12 se presenta un ejemplo de gramtica libre de contexto para el idioma espaol {10]. O --> FN --> FN1 --> Adj --> Adjs --> Art --> Pro --> NomPer-> Nom --> FV --> Verbo-> FN FV Art FN1 Nom Adj e | pequeo el | yo | juan | archivo | Verbo | Imprime

|

Pro

|

NomPer

|

FN1

Adjs Adj | largo la | t | mara | impresora FN | copia

| los l pedro | |

rpido | | los | ... | ... monitor despliega

..... |

en

|

a

|....

Figura 12. Gramtica Libre de Contexto.

38

Lenguaje Natural: Descripcin de las Etapas para su Tratamiento

3.2.2 Redes de Transicin Un modelo ampliamente usado en los SLN para implementar gramticas se conoce por Redes de transicin, cuyo fundamento descansa en la Teora de Grafos y en las Mquinas de Estados Finitos. Existen varios tipos de redes que difieren en complejidad y eficacia: De estados finitos Recursivas Aumentadas

Es esencial reconocer que la gramtica indica las siguientes asociaciones con el lenguaje: Una dbil capacidad generativa, para identificar el significado del conjunto de oraciones contenidas en un lenguaje (sentencias gramaticales) y que pueden ser completamente empatadas por las reglas gramaticales. Una fuerte capacidad para identificar el tipo de estructura que corresponde a cada oracin gramatical del lenguaje. Cada una de estas clases de redes tienen en comn los siguientes fundamentos: Una red gramatical se compone por los siguientes elementos: Mquina. Es un mdulo de proceso que arranca a partir de un estado inicial hacia otros cuando una condicin en particular ocurre conforme a las transformaciones que se van procesando. Estados Finitos. Se dice de aquellas mquinas donde a partir de cualquier punto de transicin el siguiente estado puede determinarse a partir del estado actual y las condiciones que provocan la transicin. Puesto que es conocido el nmero de estados posibles a generar, se considera finito. Estado. Es una descripcin del componente gramatical que est representado como un lugar dentro de la red de alternativas caracterizada por la transicin que provoca el cumplimiento de las condiciones asociadas al estado, para generar uno nuevo. Arcos. Ilustran la condicin que produce la transicin desde un estado a otro, siendo etiquetadas por el identificador de la condicin. Red. Es la representacin grfica y de estructura de datos, integrada por estados (nodos) y condiciones (arcos) que se recorren o generan a lo largo de la evaluacin o emisin de un texto. Ruta. Es el camino formado por un conjunto de nodos y arcos, a partir de un estado dado hasta otro determinado. A continuacin se describen los primeros dos tipos de redes, mientras que la tercera se har en el inciso 3.4.

Anlisis Sintctico

39

Red de Transicin de Estados Finitos (RTEF) Es la red ms elemental que conecta los nodos por medio de arcos dirigidos, para representar la secuencia en la cual las palabras pueden aparecer en una oracin mediante el recorrido de una ruta a travs de la red. Por ejemplo: La red de una gramtica que represente la secuencia: Artculo Nombre Verbo [11]. Para evaluar oraciones tipo: El gato corre, El nio llora Se representa grficamente como aparece en la Figura 13: Art q0 q1 Nom q2 Verbo q3

Figura 13. RTEF para una Simple Gramtica. En ste diagrama los crculos identifican a los nodos o estados mientras que los arcos a las condiciones, es decir, al smbolo terminal que produce la transicin entre un estado actual y el subsiguiente. Gracias al uso de la cabeza de flecha se reconoce la direccin de la transicin. Las redes empleadas en este modelo son dirigidas, tienen un slo estado inicial y uno o varios finales (identificados por una diagonal). Al ampliar los elementos de la gramtica anterior de acuerdo con la red descrita en la Figura 14: Art q0 q1 Nom q2 Verbo Adjetivo q3 Verbo q4

Figura 14. RTEF para una Gramtica. Se pueden reconocer oraciones ms amplias como: El nio gordo corre, La nia juega Los ejemplos presentados de gramticas son determinsticos porque slo se produce un estado especfico a partir de un mismo tipo de palabra, sin e