articulo de revisión - lenguaje natural

7
Procesamiento del Lenguaje Natural medio de comunicación persona-ordenador Autores: Ing. Alexander Gómez Betancourt, Ing. Ingrid Viamontes de Armas, Ing. Alexei Díaz Soto. La Habana, Septiembre 2015 Resumen El Procesamiento del Lenguaje Natural, como disciplina de la Inteligencia Artificial ha brindado al hombre un acercamiento hacia la comunicación con las máquinas. También ha posibilitado que estas últimas puedan ser capaces de generar conocimientos a partir de los datos introducidos en los sistemas. El presente artículo muestra una revisión de la bibliografía de los autores que abordan esta temática, realizando una comparación entre las distintas definiciones con el objetivo de evidenciar la evolución de los conceptos y aplicaciones de esta disciplina. Palabras Claves: Lenguaje natural, procesamiento, inteligencia artificial, comunicación. Abstract The Natural Language Processing, as a discipline of Artificial Intelligence has given the man an approach to communication with machines. It has also enabled the latter to be able to generate knowledge from data entered in the systems. This article presents a review of the literature of authors investigate this subject, making a comparison between the different definitions in order to demonstrate the evolution of the concepts and applications of this discipline. Keywords: Natural language, processing, artificial intelligence, communication. Introducción La comunicación es una facultad principalmente de los seres humanos, que ha contribuido enormemente en la organización y desarrollo de la sociedad (Chavez & Zulueta, 2014). La misma es expresada mediante el lenguaje natural, término definido por varios autores como: una de las manifestaciones de la capacidad cognitiva del ser humano en la que da curso a la exteriorización de sus pensamientos a sus semejantes(Ayala, 2006). Por su parte (Hernández & Gómez, 2013) lo definen como el instrumento que los seres utilizamos para comunicar el conocimiento. En los años 50 el británico Alain Turing hablaba de la inteligencia

Upload: alexandergomez

Post on 09-Dec-2015

8 views

Category:

Documents


3 download

DESCRIPTION

Descripción de los canceptos de lenguaje natural, historia y tendencia

TRANSCRIPT

Page 1: Articulo de Revisión - Lenguaje Natural

Procesamiento del Lenguaje Natural medio de comunicación persona-ordenador

Autores: Ing. Alexander Gómez Betancourt, Ing. Ingrid Viamontes de Armas, Ing. Alexei Díaz Soto.

La Habana, Septiembre 2015

Resumen

El Procesamiento del Lenguaje Natural, como disciplina de la Inteligencia Artificial ha

brindado al hombre un acercamiento hacia la comunicación con las máquinas. También ha

posibilitado que estas últimas puedan ser capaces de generar conocimientos a partir de los

datos introducidos en los sistemas. El presente artículo muestra una revisión de la

bibliografía de los autores que abordan esta temática, realizando una comparación entre las

distintas definiciones con el objetivo de evidenciar la evolución de los conceptos y

aplicaciones de esta disciplina.

Palabras Claves: Lenguaje natural, procesamiento, inteligencia artificial, comunicación.

Abstract

The Natural Language Processing, as a discipline of Artificial Intelligence has given the man

an approach to communication with machines. It has also enabled the latter to be able to

generate knowledge from data entered in the systems. This article presents a review of the

literature of authors investigate this subject, making a comparison between the different

definitions in order to demonstrate the evolution of the concepts and applications of this

discipline.

Keywords: Natural language, processing, artificial intelligence, communication.

Introducción

La comunicación es una facultad principalmente de los seres humanos, que ha contribuido

enormemente en la organización y desarrollo de la sociedad (Chavez & Zulueta, 2014). La

misma es expresada mediante el lenguaje natural, término definido por varios autores como:

“una de las manifestaciones de la capacidad cognitiva del ser humano en la que da curso a

la exteriorización de sus pensamientos a sus semejantes” (Ayala, 2006). Por su parte

(Hernández & Gómez, 2013) lo definen como el instrumento que los seres utilizamos para

comunicar el conocimiento. En los años 50 el británico Alain Turing hablaba de la inteligencia

Page 2: Articulo de Revisión - Lenguaje Natural

artificial. Sus trabajos y publicaciones fueron fundamentales para el desarrollo de esta

materia. Este importante hombre de ciencia postuló lo que se conoce como el “Test de

Turing”. Definiendo que: “si una máquina era capaz de responder con inteligencia, sus

respuestas podían ser indistinguibles de las de un ser humano”. (Turing, 1950). Abriendo así

la brecha de la comunicación entre el humano y la máquina; estableciendo preguntas,

respuestas y con ello una comunicación entendible; de allí surgen incógnitas: ¿será esto

posible? ¿Hasta dónde se ha avanzado en tal sentido? Sobre el tema versa en el presente

artículo abordando conceptos y aplicaciones, de lo que se define como Procesamiento del

Lenguaje Natural.

Procesamiento del Lenguaje Natural

“Uno de los bienes más preciados de la humanidad es el conocimiento”, afirma (Gelbukh,

2010), siendo los libros un registro del mismo. Muchos de estos libros se encuentran

almacenados en formato digital ayudando al almacenamiento e indexación del conocimiento.

Al respecto señala (Vásquez & Huayna, 2009) la computadora permite almacenar datos e

información en archivos, los que puede copiar, respaldar, transmitir, borrar, pero no puede

buscar las respuestas a preguntas formuladas, hacer inferencias lógicas sobre su contenido,

generalizar y resumirlo, es decir, hacer todo lo que las personas normalmente hacemos

con el texto. Es por ello que surge el Procesamiento del Lenguaje Natural (PLN) una rama

muy importante de la Inteligencia Artificial y una de las más antiguas, las primeras

traducciones automáticas iniciaron en la década de los 40`s a la par que la II Guerra mundial,

sin embargo a causa de la escasa potencia computacional los intentos fracasaron, pero a

pesar de ello, a partir de la década del 60 el PLN resurgió nuevamente.

Como parte de la evolución de la solución al problema de la comprensión del lenguaje natural

por parte de las máquinas encontramos a Terry Winograd, creador del programa SHRDLU.

Este programa fue desarrollado en los últimos años de la década de los 60. Estaba diseñado

para comprender el lenguaje natural (Fang, 1966). SHRDLU es un programa que trabaja en

un micro mundo donde solo existe una mesa, y unos bloques de diferentes colores, tamaños

y formas; donde un interlocutor le va ordenando la ejecución de órdenes sobre los objetos

que maneja, siendo capaz de entender ciertas definiciones y manejarse de una manera

impresionante, llevándolas a cabo de forma ingeniosa (Martín, 2002). Estamos ante una de

las primeras veces que un hombre se comunica con una máquina mediante lenguaje natural

de modo totalmente coherente. Sin embargo, las ambiciones que se ocultaban tras SHRDLU

Page 3: Articulo de Revisión - Lenguaje Natural

fueron, rápidamente truncadas. Se diseñaron como el comienzo de algo grandioso.

Winograd pensaba que la única dificultad para que su programa consiguiera manejar

plenamente la totalidad del lenguaje natural era ir progresivamente agrandando su mundo,

aspecto que no fue de esa forma, sino que se convierte en algo más complejo (Periñán

Pascual, 2012).

Para entablar una conversación entendible entre hombre – máquina fue necesario abrir las

líneas de investigación del Procesamiento del Lenguaje Natural (Hernández M.). Según

(Hernández & Gómez, 2013) el procesamiento del lenguaje involucra una transformación a

una representación formal, manipula esta representación y por último, si es necesario, lleva

los resultados nuevamente a lenguaje natural. Encontramos también que (Gelbukh, 2010)

define el PLN como la habilidad de la máquina para procesar la información comunicada, no

simplemente las letras o los sonidos del lenguaje. En este sentido continua (Gelbukh, 2010),

“un perico no es un animal parlante; así, una contestadora telefónica común, una impresora

o un procesador de palabras como Microsoft Word tampoco son dispositivos o software de

PLN, mientras que un traductor automático sin duda lo es”.

Para (Mitkov, 2003) el punto de partida para el procesamiento del lenguaje natural es el

análisis sintáctico. Éste es el encargado de realizar la verificación de las distintas reglas de

formación de un lenguaje y de generar, como resultado de este proceso, representaciones

gráficas en forma de estructura jerárquica o árbol sintáctico. Con estos árboles se define si

una expresión pertenece o no a un lenguaje. Por lo que podría decirse que el procesamiento

del lenguaje natural conlleva a un análisis previo de la sintaxis del lenguaje y sus reglas para

transformarlo en un lenguaje que pueda ser entendido por los programas informáticos con

el fin de alcanzar un resultado.

Para el desarrollo del Procesamiento del Lenguaje Natural debido a su complejidad se hizo

necesario la separación en varios campos de estudios, según autores revisados

encontramos:

La recuperación y extracción de información según (Manning, Raghavan, & Schütze,

2008), es el proceso de encontrar en un repositorio grande de datos y material,

usualmente documentos, de naturaleza no estructurada, usualmente texto o

semiestructurada, como páginas Web, que satisfaga una necesidad de información.

Page 4: Articulo de Revisión - Lenguaje Natural

La minería de datos proporciona herramientas poderosas para descubrir patrones

ocultos y relaciones en datos estructurados (Hernández & Gómez, 2013).

La traducción automática tiene objetivos claros: tomar el texto escrito en un lenguaje

y traducirlo a otro, manteniendo el mismo significado (Hernández & Gómez, 2013).

Los sistemas de búsquedas de respuestas Son sistemas diseñados para tomar una

pregunta en lenguaje natural y proporcionar una respuesta (Hernández & Gómez,

2013).

Generación de resúmenes automáticos son métodos que se basan en los mismos

principios usados en la identificación de términos, frases o párrafos significativos que

definen el significado del texto original. (Hernández & Gómez, 2013)

El análisis de sentimientos en textos es la identificación y extracción de información

subjetiva (Feldman & Sanger, 2006). La forma básica de análisis de sentimientos es

una clasificación polarizada de sentimientos que puede asignar calificaciones de en

un rango de -10 a 10 que se basa en el aprendizaje para evaluar emociones tanto

negativas como positivas en corpus etiquetados de entrenamiento (Hernández &

Gómez, 2013).

Todos estos campos de estudio indican lo complicado que resulta el tema del Procesamiento

del Lenguaje Natural, así como la gran aplicación en diferentes esferas de la vida. Según la

International Data Corporation, el mundo generó 1,8 Zetabytes de información digital en 2011

y se espera que para el 2020 se genere 50 veces esa cantidad (Reinsel, 2011). Con la

llegada de internet y la gran cantidad de volúmenes de textos, en lugar de introspección e

intuición, se convirtió en el estudio estadístico directo de los datos disponibles. La lingüística

computacional, en su etapa actual de desarrollo, es principalmente una rama de las

tecnologías de aprendizaje automático, una parte de la inteligencia artificial y la estadística.

(Gelbukh, 2010)

Aplicaciones

Todos estos avances paralelos hacen que esta rama de la inteligencia artificial contenga un

número de aplicaciones inimaginables. Estas ramas de aplicaciones del PLN se pueden

agrupar en:

Comunicación y transmisión del conocimiento: (Gelbukh, 2010) El conocimiento se

almacena y se transmite en forma de lenguaje humano o los textos escritos. La

Page 5: Articulo de Revisión - Lenguaje Natural

digitalización, la búsqueda, la presentación de la información y su uso directo por el

software son componentes esenciales en su uso eficiente.

Traducción (Gelbukh, 2010) La calidad de la traducción automática se mejoró

dramáticamente en la última década. Estos sistemas son actualmente deficientes en

la calidad del texto que producen y la traducción incorrecta.

Robótica (Geographic, 2010) Según el gobierno de Corea del Sur, cada familia

coreana en el año 2020 tendrá un robot ayudante en la casa con el cual las familias

se podrán comunicar en forma de órdenes.

Composición de textos (Sierra, 2001) Proporcionan ayuda al usuario para escribir

documentos: verifican la ortografía, la gramática y el estilo; completan las palabras o

frases que empieza a escribir el usuario, brindan traducciones, sinónimos y

explicaciones de las palabras o sugieren palabras según su descripción

Publicaciones recientes evidencian la importancia y avances logrados en la tecnología para

un mejor Procesamiento del Lenguaje Natural. Un ejemplo es un androide hecho a mano por

David Hanson que se asemeja al famoso y fallecido escritor de ciencia ficción Philip K. Dick.

Lo que hace que el androide Dick tan notable no es tanto su aspecto como es su capacidad

de mantener una conversación inteligente (Dufty, 2012).

También el sistema ACAT, recientemente fue liberado. Este sistema es usado por el profesor

Hawking y consiste en capturar los movimientos del músculo de la mejilla, estos movimientos

se traducen en palabras, que son dictadas en tiempo real por el programa de síntesis de

voz. Parte importante de este sistema, es que ha sido creado especialmente para Hawking,

gran parte está basado en el sistema de predicción SwiftKey. (Álvarez, 2015).

Conclusiones

El estudio asociado al Lenguaje natural y su procesamiento están orientado a desarrollar

aplicaciones y recursos de ingeniería lingüística que permitan a los usuarios no expertos

acceder a ellos de manera adecuada. Además de propiciar una comunicación mucho más

fluida y menos rígida que la permitida por los lenguajes formales entre la persona y el

ordenador. A pesar de tener grandes avances tecnológicos se requiere de muchos más

esfuerzos y recursos por parte de la comunidad científica, para mejorar la precisión y

rendimiento de las aplicaciones. Lo que permitiría el desarrollo de las investigaciones que

Page 6: Articulo de Revisión - Lenguaje Natural

giran en torno al PLN, rama de la Inteligencia Artificial de vital importancia para la evolución

de la sociedad actual.

Referencias

Álvarez, R. (2015). El software que usa Stephen Hawking para comunicarse ya está

disponible para todos. Weblogs S.L. Xataka. Retrieved from

Ayala, A. P. (2006). Lenguaje Natural: Descripción de las Etapas para su Tratamiento.

México DF, México: Instituto Politécnico Nacional.

Dufty, D. F. (2012). How to Build an Android: The True Story of Philip K. Dick's Robotic

Resurrection: Henry Holt and Company.

Fang, I. E. (1966). It Isn't Etaoin Shrdlu; It's Etaoni Rshdlc. Journalism & Mass

Communication Quarterly, 43(4), 761-762. doi:10.1177/107769906604300418

Feldman, R., & Sanger, J. (2006). The text mining handbook. Londres: Cambridge University

Press.

Gelbukh, A. (2010). Procesamiento de Lenguaje Natural y sus Aplicaciones. Komputer

Sapiens, I, 6-11.

Geographic, N. (2010). A Robot in Every Home by 2020, South Korea Says.

Hernández, M., & Gómez, J. (2013). Aplicaciones de Procesamiento de Lenguaje Natural.

Revista Politécnica, 87-96.

Manning, C. D., Raghavan, P., & Schütze, H. (2008). Introduction to information retrieval.

Londres: Cambridge University Press.

Martín, J. M. M. (2002). Conocimiento de los computadores: Análisis de programas clásicos

Contrastes: revista internacional de filosofía, VII, 177-189.

Mitkov, R. (2003). The Oxford Handbook of Computational Linguistics. New York: Oxford

University Press.

Periñán Pascual, J. C. (2012). En defensa del procesamiento del lenguaje natural

fundamentado en la lingüística teórica. Revista de Lingüística, Filología y Traducción,

26, 13-48.

Reinsel, J. F. G. y. D. (2011). Extracting value from chaos. Retrieved from

S.A., E. (2015). Industria destina 6 millones a procesamiento del lenguaje natural para

tecnologías aplicadas al español. El Economista.

Page 7: Articulo de Revisión - Lenguaje Natural

Sierra, G. (2001). B´usqueda de palabras a partir de las definiciones en los diccionarios de

lengua automatizados. Actas de 70 Simposio Internacional de Comunicación Social

Santiago de Cuba, 2.

Turing, A. M. (1950). Computing Machinery and Intelligence. Mind, 59(236), 433-460.

doi:10.2307/2251299