transferencia sintÁctica superficial

35
Pág. 1 INDICE I. EL PROBLEMA ……………………………………………………………… 02 1.1. Análisis de la situación problemática ……………………………….. 02 1.2. Definición del problema ………………………………………………. 03 1.3. planteamiento del problema ………………………………………….. 04 1.4. Justificación del problema …………………………………………….. 04 II. OBJETIVOS …………………………………………………………………. 06 2.1. Objetivo general ………………………………………………………. 06 2.2. Objetivos específicos …………………………………………………. 06 III. MARCO REFENCIAL ………………………………………………………. 07 3.1. Marco teórico …………………………………………………………… 07 3.2. Marco conceptual ……………………………………………………… 17 IV. HIPÓTESIS Y VARIABLES ………………………………………………… 18 4.1. Hipótesis general ……………………………………………………… 18 4.2. Hipótesis específicas …………………………………………………. 18 4.3. Análisis de variables e indicadores …………………………………. 19 V. DISEÑO DE LA INVESTIGACIÓN ………………………………………… 19 5.1. Tipo y nivel de investigación …………………………………………. 19 5.2. Diseño de la Investigación …………………………………………… 19 5.3. Matriz de consistencia ………………………………………………… 21 5.4. Diseño de prueba de hipótesis ……………………………………… 22 5.5. Población y muestra ………………………………………………… 23 5.6. Diseño de recopilación de información …………………………… 23 VI. PRESUPUESTO Y FINANCIAMIENTO…………………………………. 24 6.1. Prepuesto básico ……………………………………………………… 24 6.2. Cronograma …………………………………………………………… 25 VII. ESTRUCTURA BÁSICA DEL INFORME ……………………………….. 25 VIII. BIBLIOGRAFIA CONSULTADA…………………………………………. 26

Upload: edward-cueva

Post on 25-Dec-2015

28 views

Category:

Documents


1 download

DESCRIPTION

TRADUCTOR AUTOMÁTICO DE TEXTOS DEL IDIOMA ESPAÑOL A LA LENGUA AYMARA

TRANSCRIPT

Page 1: TRANSFERENCIA SINTÁCTICA SUPERFICIAL

Pág. 1

INDICE

I. EL PROBLEMA ……………………………………………………………… 02

1.1. Análisis de la situación problemática ……………………………….. 02

1.2. Definición del problema ………………………………………………. 03

1.3. planteamiento del problema ………………………………………….. 04

1.4. Justificación del problema …………………………………………….. 04

II. OBJETIVOS …………………………………………………………………. 06

2.1. Objetivo general ………………………………………………………. 06

2.2. Objetivos específicos …………………………………………………. 06

III. MARCO REFENCIAL ………………………………………………………. 07

3.1. Marco teórico …………………………………………………………… 07

3.2. Marco conceptual ……………………………………………………… 17

IV. HIPÓTESIS Y VARIABLES ………………………………………………… 18

4.1. Hipótesis general ……………………………………………………… 18

4.2. Hipótesis específicas …………………………………………………. 18

4.3. Análisis de variables e indicadores …………………………………. 19

V. DISEÑO DE LA INVESTIGACIÓN ………………………………………… 19

5.1. Tipo y nivel de investigación …………………………………………. 19

5.2. Diseño de la Investigación …………………………………………… 19

5.3. Matriz de consistencia ………………………………………………… 21

5.4. Diseño de prueba de hipótesis ……………………………………… 22

5.5. Población y muestra ………………………………………………… 23

5.6. Diseño de recopilación de información …………………………… 23

VI. PRESUPUESTO Y FINANCIAMIENTO…………………………………. 24

6.1. Prepuesto básico ……………………………………………………… 24

6.2. Cronograma …………………………………………………………… 25

VII. ESTRUCTURA BÁSICA DEL INFORME ……………………………….. 25

VIII. BIBLIOGRAFIA CONSULTADA…………………………………………. 26

PROYECTO DE TESIS

TRANSFERENCIA SINTÁCTICA SUPERFICIAL PARA TRADUCTOR AUTOMÁTICO DE TEXTOS

DEL IDIOMA ESPAÑOL A LA LENGUA AYMARA

I. EL PROBLEMA

Page 2: TRANSFERENCIA SINTÁCTICA SUPERFICIAL

Pág. 2

1.1. Análisis de la situación problemática

En este mundo, de múltiples culturas, idiomas, y globalizado, los traductores automáticos

como aplicación del procesamiento de lenguaje natural ha aportado significativamente en la

interacción de culturas en esta macro sociedad permitiendo al hombre interrelacionarse con

sus semejantes, mediante la traducción de textos o habla de un lenguaje natural a otro un

claro ejemplo es google, con su traductor automático para diferentes idiomas.

Sin embargo resalta los aportes de estas tecnologías para lenguas nativas como el aymara y

el quechua en nuestro país han sido pocos, no existiendo ningún traductor automático para

estas lenguas y se tiene como consecuencia en nuestro medio la incomprensión de culturas y

conocimientos relegados que podrían aportar al desarrollo de nuestro país.

Asimismo en la Constitución Política del Estado Peruano menciona que toda persona tiene

derecho a usar su propio idioma, y son idiomas oficiales el castellano y también lo son el

quechua y el aymara en las zonas donde predominen [PRES93 Art. 2º enciso 19 y Art. 48º].

El problema una vez más resalta porque no hay herramientas tecnológicas como traductores

automáticos que conlleven esta moción y que apoyen a la interacción entre los individuos de

diferentes idiomas y lenguas.

También se sabe que el Perú es un país pluricultural, porque en el espacio social y geográfico

conviven diversas culturas, entonces se habla de interculturalidad, que es la relación entre

varias culturas. Para ello, una vez más se ve que los aportes científico tecnológicos, no han

trascendido en su magnitud para apoyar este intercambio intercultural en comunidades de

habla aymara, que requieren insertarse a la modernidad o a los cambios tecnológicos,

además considerando que dos culturas diferentes tienen idiomas distintos cabe señalar que la

interculturalidad empieza su acción en comprender y traducir sus idiomas, viéndose la

necesidad álgida que invoca la urgencia de desarrollo e implementación de herramientas

como los traductores automáticos para estas lenguas de la región andina.

Los actuales aymaras se denominan a sí mismos: “la nacionalidad qulla” y se estima que los

hablantes oscilan entre dos millones y medio de personas quienes viven principalmente en

Bolivia y Perú, sobre todo en el altiplano del Titicaca. Quienes realizan estudios e

investigaciones con respecto a esta cultura se encuentra con limitaciones en cuanto al acceso

a la información, por lo que un traductor automático será una puerta abierta en traducción a

otros idiomas.

1.2. Definición del problema

Page 3: TRANSFERENCIA SINTÁCTICA SUPERFICIAL

Pág. 3

La inexistencia de un traductor automático para la lengua aymara es un problema de

desarrollo e implementación tecnológica, como tal es una aplicación del Procesamiento de la

Lengua Natural y esta es una subdisciplina de la Inteligencia Artificial, los traductores

automáticos también son considerados como una rama de la Lingüística Computacional, la

misma que investiga el uso de software para traducir textos de un lenguaje natural a otro.

Por otro lado, a pesar de que la mayor parte de la producción de software se hace como

software privativo, también el desarrollo de software en código abierto (open source o

software libre), las cuales están alcanzando su importancia actualmente, evidentemente se ve

como un símbolo de esta línea al Sistema Operativo Linux, bajo está denominación “Código

Abierto”, de la misma forma existe el software OpenTrad Apertium software de traducción

automática basado en código abierto, cuyo código fuente se reutilizará para la

implementación del traductor automático motivo de la presente investigación.

La investigación sobre el “Transferencia Sintáctica Superficial para Traductor Automático de

Textos del Idioma Español a la Lengua Aymara” está enmarcada como tipo de investigación

Aplicada o tecnológica y el nivel de investigación es experimental.

1.3. Planteamiento del Problema

Dada la gran explosión de información que vive la sociedad del siglo XX, la traducción

automática es una aplicación que ayudará a superar la barrera del idioma, permitiendo

traducir textos del idioma español a la lengua aymara, el aporte que se logrará es relevante

por que conllevará a la comunicación entre individuos de diferentes culturas.

El traductor automático antes de su implantación será evaluada por los “métodos de

evaluación de traducción automática” de esta manera se medirá la eficiencia del traductor

automático.

Por tanto: ¿Será eficiente la calidad del traductor automático del idioma español a la

lengua aymara basado en la transferencia sintáctica superficial?

1.4. Justificación de la Investigación

El aporte fundamental de este proyecto es la de complementar la comunicación entre varias,

como resultado final el traductor automático beneficiará a los estudiantes, profesionales e

investigadores de la lengua aymara, quienes tendrán la posibilidad de traducir información en

esta lengua. Asimismo la investigación busca la reivindicación de esta lengua que cumple un

papel trascendental como vehículo de expresión y pensamiento.

Page 4: TRANSFERENCIA SINTÁCTICA SUPERFICIAL

Pág. 4

Por otro lado la situación problemática actual de las lenguas andinas como el aymara se ha

desarrollado más en su forma oral que escrita y más aún notándose la inexistencia de

herramientas para el apoyo en lecto escritura de esta lengua, por lo que el aporte del

traductor automático coadyuvará en el desarrollo del conocimiento de la lingüística andina.

Además la cultura aymara esta cobrando cada vez mayor importancia por los investigadores

en sus diferentes áreas, pero frente a esta importancia existe una brecha, la lengua, entre la

cultura y los investigadores, razones que hacen que se limite los trabajos de investigación en

este campo, como alternativa para romper esta brecha se propone contribuir con un traductor

automático para impulsar el conocimiento de la cultura aymara.

La sociedad moderna ha desarrollado la idea que las lenguas como el quechua y el aymara

pertenecen al pasado, los jóvenes en las ciudades no quieren hablar el aymara no valoran por

que les parece anticuado, poco utilizable, al navegar en los sitios web confirman su

pensamiento porque no hay herramientas en Internet que se identifiquen con la lengua

aymara, con la implantación de un traductor automático se impulsará el aprendizaje de esta

lengua y por ende el crecimiento del conocimiento.

La Ley de Educación en su Artículo 20, establece que la Educación Intercultural se debe

ofrecer en todo el sistema educativo nacional [PRES04 Art. 20]. Sin embargo no existen

herramientas atractivas orientadas a Internet para conllevar esa direccionalidad del Ministerio

de Educación.

Finalmente, el aymara hablante no encuentra textos o bibliografía en su lengua en las

bibliotecas locales mucho menos en las bibliotecas nacionales y/o internacionales, de modo

que se siente limitado para desarrollar conocimiento en su lengua y cultura, situaciones que le

llevan a contar con una herramienta como traductores automáticos.

Actualmente no hay investigaciones con la idea de contribuir con un traductor automático del

idioma español a la lengua aymara, es evidente que en los sitios Web se ofrecen traductores

de palabras más no de frases.

1.5. Antecedentes de la investigación

En el ámbito regional no existe investigaciones con respecto a traductores automáticos de

textos del idioma español a la lengua aymara. En el ámbito nacional tampoco hay

investigaciones emprendidas con respecto a este tema.

Page 5: TRANSFERENCIA SINTÁCTICA SUPERFICIAL

Pág. 5

Sin embargo existen implementaciones como el opentrad apertium (Traductor automático por

transferencia sintáctica de español a euskera) y maxin para traducción automática profunda,

ambas desarrolladas en España.

Considerando que la lengua aymara mas hablada en Bolivia y Perú, aún no existen

investigaciones para implementar la herramienta como el traductor autómatico.

II. OBJETIVOS

2.1. Objetivos general

Medir la calidad del traductor automático de textos del idioma español a la lengua aymara

basado en la transferencia sintáctica superficial.

2.2. Objetivos específicos

Implementar el traductor automático de textos del idioma español a la lengua aymara

basado en la transferencia sintáctica superficial.

Evaluar el traductor automático de textos del idioma español a la lengua aymara basado

en la transferencia sintáctica superficial con las métricas de evaluación de traductores

automáticos

III. MARCO REFERENCIAL

3.1. Marco teórico

3.1.1. Idioma Español

El idioma español o el castellano es la segunda lengua más hablada del mundo por el

número de hablantes que la tienen como lengua materna (1) (tras el chino mandarín), es

uno de los seis idiomas oficiales de acuerdo la Organización de las Naciones Unidas, se

habla como primera y segunda lengua entre 450 y 500 millones de personas a nivel

mundial. Por otro lado, el idioma español es el segundo idioma más estudiado en el

mundo tras el inglés de acuerdo al Instituto Cervantes (dedicada a la promoción y

enseñanza de la lengua española).

1 SUMMER INSTITUTE of LINGUISTICS.- Instituto que realiza estudios de las lenguas minoritarias y las culturas de todo el mundo, como dominios académicos incluye Lingüística, Traducción, Computación y otros.

Page 6: TRANSFERENCIA SINTÁCTICA SUPERFICIAL

Pág. 6

Gramática del idioma Español

Conjunto finito de reglas que especifican el idioma español basado en la idea de

estructura de la frase donde las cadenas están compuestas de subcadenas llamadas

frases, las cuales pueden pertenecer a distintas categorías como frase nominal (FN) frase

verbal (FV), considerando queel idioma español es una lengua flexiva de tipo fusional, es

decir, en las oraciones se usa preferentemente la flexión para indicar las relaciones entre

sus elementos. En el idioma español como en otros idiomas los lingüistas se afanan en

descubrir propiedades del lenguaje por medio de un proceso de investigación científica y

entonces codificar sus descubrimientos en una gramática.(2)

Oración (frase)

Es la mínima unidad de lenguaje con sentido completo. Por sentido completo se entiende

que se está expresando asume una determinada actitud ante lo que dice, es decir, que

pregunta, afirma, niega, etc. La oración gramatical se divide en dos miembros: Predicado

y sujeto. El núcleo es un elemento clave que nos ayuda a identificar fácilmente tanto al

sujeto como al predicado. El núcleo del predicado es siempre el verbo, ya que este es

indispensable para que exista un predicado. Lo mismo sucede con el sujeto, la palabra

básica en la mayoría de los casos y núcleo del sujeto es el sustantivo. Sin embargo existe

en el español tantas variaciones, que existen otros casos de núcleos del sujeto como:

pronombres personales, un infinitivo, un participio sustantivado, un adjetivo sustantivado,

etc. Los demás elementos que acompañan al sustantivo o al verbo se les llama

modificadores del núcleo.

Categoría gramatical

Categoría gramatical (o parte de la oración o categoría morfológica o clasificación

sintáctica) es una antigua clasificación de las palabras según su tipo La gramática

tradicional distingue nueve partes de la oración: Sustantivo o nombre, Pronombre, Verbo,

Adjetivo, participio, Adverbio, Preposición, Conjunción e Interjección.

Morfología

Como idioma flexivo las palabras del español se forman mediante lexemas o raíces a los

que se agregan morfemas gramaticales o gramemas (como el género masculino o

femenino y el número singular o plural para los sustantivos y adjetivos, y el modo, tiempo,

voz, aspecto y persona y número para el verbo), más todo tipo de afijos que sirven para

formar palabras derivadas. La derivación marca la afectividad con sufijos apreciativos-

valorativos tales como: diminutivos, aumentativos, despectivos, y otros, se tiene en

cuenta las siguientes definiciones:

2 . Stuart Rusell y Meter Norvig, “Inteligencia Artificial un enfoque moderno”, Segunda Edición, Editorial. Pearson Educación S.A. Madrid 2004 , Pág. 899.

Page 7: TRANSFERENCIA SINTÁCTICA SUPERFICIAL

Pág. 7

Palabra es la mínima unidad de significado.

Lexema es el elemento que contiene la significación de la palabra. Tradicionalmente

se le ha llamado raíz.

Morfemas son las letras que van pospuestas al lexema. Indican los accidentes del

vocablo. Estos accidentes son: género, número, tiempo y persona.

Palabras primitivas son las que originan otros vocablos.

Palabras derivadas son las que han sido originadas por las palabras primitivas, a las

que se les ha añadido uno o más sufijos.

Prefijos son elementos que se preceden a las palabras, y que les añaden

significación.

Sufijos son ls elementos que posponen a las palabras y que les añaden significación.

Incremento es la letra o letras que van entre el lexema y el sufijo. Esta letra o letras

se han añadido por eufonía. Los sufijos sirven para formar sustantivos y adjetivos

principalmente.

Composición

La composición consiste en la suma de lexemas. Para componer palabras en español se

recurre a ocho procedimientos:

Sustantivo + preposición + sustantivo: agua de borrajas.

Sustantivo + adjetivo: arma blanca, aguardiente, aguamarina.

Adjetivo + sustantivo: mala pata, media naranja, ricohombre.

Sustantivo + sustantivo: cartón piedra, coche cama, varapalo.

Verbo + complemento: buscavidas, chupatintas, correcalles.

Verbo + verbo: duermevela, ganapierde, picapica, tejemaneje, vaivén.

Sustantivo + i + adjetivo: alicaído, boquiabierto, cabizbajo, pelicano.

Adjetivo + adjetivo: agridulce, anchicorto, grecorromano, todopoderoso.

Adverbio + adjetivo: bien hablado, bienaventurado, malcontento.

3.1.2. Lengua aymara y su gramática

Es una lengua andina hablada por dos millones y medio de personas aproximadamente,

recibe su nombre de la nación colla y es co-oficial con el castellano en Perú y Bolivia. La

lengua aymara se extiende en Perú en los departamentos de Puno, Moquegua, Tacna,

Arequipa (migrantes) Lima (Yauyos, Tupe, Cachuy); en Bolivia en los departamentos de

Oruro, La Paz, Potosí, Cochabamba, Chuquisaca, Beni, Pando, Santa Cruz, y Tarija; en

Chile se habla en las regiones de Tarapacá y Antofagasta; en Argentina (migrantes en

Jujuy, Salta).(3)

3 “Morfología Contrastiva Quechua/Aymara/Castellano”, Escuela de Postgrado de la Universidad Andina Néstor Cáceres Velásquez, Segunda Especialización en Educación Biligue Intercultural.

Page 8: TRANSFERENCIA SINTÁCTICA SUPERFICIAL

Pág. 8

Los aymaras se asocian a sí mismos como la civilización centrada en Tiwanaku, territorio

que fue fundado aproximadamente en 200 adC. El cronista español Pedro Cieza de León

(escritor de crónicas de los Incas, 1540) refirió que cuando los españoles llegaron, todos

los habitantes de los alrededores del lago Titicaca hablaban la lengua Aymara, pero esta

era solo una lengua hablada ya que no tenía alfabeto.

El 1603 en la ciudad de Juli, se estableció una imprenta donde fueron publicados los

trabajos de Ludovico Bertonio. Estos libros son todavía la más importante fuente de

información de la lengua Aymara. Bertonio fue el primero en proponer un alfabeto Aymara

basado en el alfabeto español de la época. Sin embargo, debido a las variaciones de la

pronunciación, este era imperfecto y a través del tiempo más de 30 diferentes alfabetos

fueron propuestos para la lengua Aymara.

Los ochos más importantes alfabetos fueron: Bertonio en 1612; Middendorf en 1891;

Cala, literatura Aymara y comisión de alfabetización en 1968; Ebbing en 1965; Maryknoll

en 1975; Yapita en 1968; IGR (Ivan Guzmán de Rojas en 1984). Después de muchas

propuestas y encuentros, el Decreto Supremo de Bolivia 22227-DS de mayo 9 de 1984 y

la Resolución Ministerial Peruana 1218 -R.M de noviembre 18 de 1958, aprobó por ley el

alfabeto Aymara, conocido como el alfabeto unificado.

Gramática de la lengua aymara

Tomando como unidad de análisis una oración simple y declarativa (es decir, ni

interrogativa ni imperativa), el aymara presenta un orden favorito de los elementos

constitutivos mayores de aquella en virtud del cual el sujeto (S) va delante, siguiéndole el

objeto (O) y luego cerrando el enunciado el verbo (V) entonces se trata de orden SOV,

sin embargo son perfectamente posibles otras desviaciones a partir de ella tales como

OSV, OVS, SVO, VOS y VSO, pero esto atendiendo a factores pragmáticos que

dependen de la intencionalidad del hablante y de su afán por impactar mejor a su oyente.

(4)

Estructura de la frase

La frase es una construcción sintáctica menor que la oración, constituida por un núcleo o

cabeza con o sin modificaciones. Tomando dos de las categorías mayores básicas del

aymara Nombre y Verbo en torno a las cuales se nuclean otras categorías menores, se

puede distinguir fundamentalmente dos tipos de frases: frase nominal (FN) y frase verbal

(FV), donde los núcleos son respectivamente, un nombre y un verbo,

Morfología

4 Rodofo Cerrón Palomino “Quechumara Estructuras Paralelas de las lenguas Qhuachua y Aymara” Pág. 146

Page 9: TRANSFERENCIA SINTÁCTICA SUPERFICIAL

Pág. 9

El Aymara lengua aglutinante expresa conceptos y relaciones gramaticales mediante la

adición de sufijos a los temas radicales y siempre y cuando a cada sufijo corresponda

unívocamente un significado y viceversa. La lengua aymara al ser aglutinante pertenece

al subtipo específico llamado sufijante; dicho apelativo significa que a muchos morfemas

raíces se añaden sufijos para formar palabras cada vez más extensas. En estas lenguas

no hay prefijos, de modo que la expansión de una palabra implica crecimiento hacia la

derecha mediante la adición de sufijos, razón por la cual se puede afirmar que el aymara

es una lengua de morfología derechista.

3.1.3. Inteligencia Artificial (IA)

Se denomina inteligencia artificial a la ciencia que desarrolla procesos que imitan a la

inteligencia de los seres vivos. La principal aplicación de esta ciencia es la creación de

máquinas para la automatización de tareas que requieran un comportamiento inteligente.

La IA estudia cómo lograr que las máquinas realicen tareas que normalmente lo realiza el

ser humano (5).

Son áreas o ramas clásicas de IA: Sistemas Expertos (Sistemas basados en

Conocimiento), Aprendizaje y Razonamiento Automático, Robótica, Procesamiento de

Lenguaje Natural, entre otros.

3.1.4. Procesamiento de lenguaje natural (PLN)

Es una rama de la Inteligencia Artificial, que se ocupa de la formulación e investigación

de mecanismos eficaces computacionalmente para la comunicación entre personas o

entre personas y máquinas por medio de programas que ejecuten o simulen la

comunicación. Los modelos aplicados se enfocan no sólo a la comprensión del lenguaje,

sino a aspectos generales cognitivos humanos y a la organización de la memoria. El

lenguaje natural sirve como medio para estudiar estos fenómenos.

Las aplicaciones de Procesamiento de Lenguaje natural son: Síntesis del discurso,

Análisis del lenguaje, Comprensión del lenguaje, Reconocimiento del habla, Síntesis de

voz, Generación de lenguajes naturales, Traducción automática, Recuperación de la

información, Dictado Automático (6). Teniendo múltiples aplicaciones el Procesamiento

del Lenguaje Natural contempla elementos como: Análisis morfológico, análisis sintáctico,

análisis semántico y análisis pragmático.

3.1.5. Lingüística Computacional

La lingüística computacional es un campo multidisciplinar de la lingüística y la informática

que utiliza la informática para estudiar y tratar el lenguaje humano. Para lograrlo, intenta

modelar de forma lógica el lenguaje natural desde un punto de vista computacional. Dicho

5 Elaine Rich y Kevin Knight “Inteligencia Artificial” Pág. 1.6 Nilsson Nils “Inteligencia Artificial” Primera Edición Pág. 344.

Page 10: TRANSFERENCIA SINTÁCTICA SUPERFICIAL

Pág. 10

modelado no se centra en ninguna de las áreas de la lingüística en particular, sino que es

un campo interdisciplinaria, en el que participan lingüistas, informáticos especializados en

inteligencia artificial, psicólogos cognoscitivos y expertos en lógica, entre otros.

Algunas de las áreas de estudio de la lingüística computacional son: Corpus lingüístico

asistido por ordenador, Diseño de analizadores sintácticos (en inglés: parser), para

lenguajes naturales, Diseño de etiquetadores o lematizadores (en inglés: tagger), tales

como el POS-tagger, Definición de lógicas especializadas que sirvan como fuente para el

Procesamiento de Lenguajes Naturales, y Traducción automática.

3.1.6. Traducción automática

Es una aplicación de Procesamiento de Lenguaje Natural, también considerada como

área de la lingüística computacional que investiga el uso de software para traducir texto o

habla de un lenguaje natural a otro. En un nivel básico, la traducción por computadora

realiza una substitución simple de las palabras atómicas de un lenguaje natural por las de

otro.

El traductor automático debe analizar el texto original, interrelacionar con la situación

referida y como resultado debe encontrar el texto correspondiente en el lenguaje destino.

(7). Los tipos de traducción automática son: Traducción automática basada en reglas,

Traducción automática basada en corpus lingüístico y la traducción automática basado en

contexto.

La traducción automática basada en reglas

Asume varios grados en su fundamento: a) traducción directa o por diccionario como

modelo diccionarios bilingües. La traducción de un texto se obtiene a partir de la

traducción palabra por palabra, sin tener en cuenta ni la relación entre ellas ni el contexto

en que se encuentran; b) Traducción automática por transferencia en donde el análisis

del texto original juega un papel más importante, y da paso a una representación interna

que es la que se utiliza como enlace para traducir entre idiomas distintos finalmente

recomponiendo para el idioma meta; y c) Traducción por Lenguaje Intermedio conocida

también Traducción Automática Mediante Lengua Intermedia (interlingua), en donde el

lenguaje original, por ejemplo un texto que debe ser traducido, es transformado a un

lenguaje intermedio, cuya estructura es independiente a la del lenguaje original y a la del

lenguaje final. El texto en el lenguaje final se obtiene a partir de la representación del

texto en el lenguaje intermedio.

7 Stuart Rusell y Meter Norvig, “Inteligencia Artificial un enfoque moderno”, Segunda Edición, Editorial. Pearson Educación S.A. Madrid 2004 , Pág. 965.

Page 11: TRANSFERENCIA SINTÁCTICA SUPERFICIAL

Pág. 11

Traducción automática basada en corpus lingüísticos se basa en el análisis de muestras

reales con sus respectivas traducciones, entre los mecanismos que utilizan corpus se

incluyen los métodos estadísticos y los basados en ejemplo; finalmente la traducción

automática basado en contexto, utiliza técnicas para hallar la mejor traducción, para una

palabra fijándose en el resto de palabras que la rodean, básicamente este método se

esmera en tratar el texto en unidades de entre 4 y 8 palabras, de manera que se traduce

cada una de ellas por su traducción al idioma destino y se eliminan las traducciones que

han generado una "frase" sin sentido.

3.1.7. Traducción automática por transferencia

En la traducción automática basado en el modelo de transferencia, el texto original se

analiza primero morfológica y sintácticamente, obteniendo como resultado una

representación sintáctica superficial. Esta representación se transforma a continuación en

otra más abstracta que hace especial énfasis en aspectos relevantes para el proceso de

traducción e ignora otro tipo de información. El proceso de transferencia convierte esta

última representación (ligada aún al idioma original) a una representación al mismo nivel

de abstracción pero ligada al lenguaje objetivo. Estas dos representaciones son las

llamadas normalizadas o intermedias. A partir de aquí el proceso se invierte: los

componentes sintácticos generan una representación del texto y finalmente se genera la

traducción en la lengua meta.

Tipos de transferencia

La principal característica de los sistemas de transferencia es la existencia de una fase

que proyecta representaciones intermedias del texto original sobre representaciones del

texto objetivo. Éste componente puede trabajar en distintos niveles de análisis lingüístico,

por lo que se pueden distinguir dos tipos de transferencia: Transferencia superficial y

Transferencia profunda.

Transferencia superficial (sintáctica)

Page 12: TRANSFERENCIA SINTÁCTICA SUPERFICIAL

Pág. 12

Se caracteriza por hacer un análisis sintáctico mediante el que se transfieren las

estructuras sintácticas del lenguaje origen a las estructuras sintácticas del lenguaje

objetivo. Este tipo de transferencia resulta muy apropiado para traducciones entre

idiomas de una misma rama (p.ej. entre lenguas romance como el castellano, el catalán,

el francés, el italiano, o el portugués).

Transferencia profunda (semántica)

Construye una representación semántica que es dependiente del lenguaje original. Esta

representación puede consistir en una serie de estructuras que representen el significado.

En estos sistemas la transferencia se realiza principalmente sobre predicados. La

traducción de palabras normalmente también requiere una transferencia estructural

previa. Este tipo es más común entre idiomas de ramas diferentes (p.ej. castellano-inglés,

castellano-euskera, etc.).

.

3.1.8. Métricas de ingeniería de software

El concepto de métrica es el término que describe variados casos de medición. Siendo

una métrica una medida estadística (no cuantitativa como en otras disciplinas ejemplo

física) que se aplica a todos los aspectos de calidad de software, los cuales deben ser

medidos desde diferentes puntos de vista como el análisis, construcción, funcional,

documentación, métodos, proceso, usuario, entre otros.

Las mediciones de ingeniería de software pueden ser: Medidas Directas que mide el

costo, y el esfuerzo aplicado, las líneas de código producidas, velocidad de ejecución, el

tamaño de memoria y los defectos observados en un determinado periodo de tiempo; y

Medidas Indirectas que mide la funcionalidad, calidad, complejidad, eficiencia, fiabilidad,

facilidad de mantenimiento, etc.

3.1.9. Métricas de evaluación de traductores automáticos

Permite comprobar la calidad de traductores automáticos, dependiendo de la finalidad a

la que esta dirigida la traducción, será necesario un nivel de calidad distinto.

Los métodos objetivos de traductores automáticos, no es necesaria la valoración de la

traducción por un ser humano tales como: WER (word error rate), PER (position-

independent word error rate), mejora de WER para que sea independiente de la posición

de las palabras dentro de la frase, mWER (multi-reference word error rate), BLEU mide la

precisión de los ngramas (unigramas, bigramas, trigramas y cuatrigramas) con respecto a

un conjunto de traducciones de referencia y NIST.

En los métodos subjetivos, los humanos intervienen en la valoración de la traducción los

métodos son: SSER (subjective sentence error rate), un humano califica la traducción de

Page 13: TRANSFERENCIA SINTÁCTICA SUPERFICIAL

Pág. 13

una frase de 0 a 1. Una calificación de 0 se le da una traducción perfecta, mientras que

una de 1 se corresponde una traducción sintáctica y semánticamente incorrecta. IER

(information item error rate) las frases de prueba se dividen en items. Un humano

examina si la información de cada uno de los items se encuentra presente en la

traducción. De esta manera se puede comprobar si siendo la traducción de la frase

incorrecta, existen partes de ésta que en cambio sí son correctas.

3.2. Marco conceptual

3.2.1. Texto de la lengua original

Bloques de texto escritos en el idioma español que requieren la traducción a la lengua

aymara.

3.2.2. Análisis morfológico

Consiste en identificar los elementos del texto y clasificarlos en función de lo que son:

nombres, verbos, adjetivos, etc. Además, también deben reconocerse abreviaturas y

otras expresiones o palabras compuestas.

3.2.3. Categorización léxica

Algunas de las palabras que aparecen en un texto pueden tener más de un significado,

causando así ambigüedad a la hora de hacer su análisis. La categorización léxica analiza

el contexto, es decir, los elementos vecinos al actual, y escoge el significado que mejor

encaja.

3.2.4. Transferencia léxica

La transferencia léxica es equivalente a lo que comúnmente se conoce como traducción

por diccionario. A partir de la forma léxica de la palabra original, se trata de derivar su

equivalente en el nuevo idioma.

3.2.5. Transferencia estructural

Una transferencia estructural analiza el texto desde un punto de vista más amplio. En vez

de centrarse en palabras, amplia su objetivo a fragmentos mayores. De esta manera se

pueden encontrar expresiones que puedan requerir un tratamiento especial (p.ej.

refranes, dichos, etc.).

3.2.6. Generador morfológico

En el momento en que ya se ha realizado el análisis, el generador morfológico es el

encargado de asociar cada elemento identificado en fases anteriores con su equivalente

en la lengua objetivo, procurando que la interpretación sea lo más fiel posible.

3.2.7. Texto de la lengua meta

Page 14: TRANSFERENCIA SINTÁCTICA SUPERFICIAL

Pág. 14

Bloques de texto traducidos del idioma español a la lengua aymara.

3.2.8. Código Abierto (open source)

Es el término con el que se conoce al software distribuido y desarrollado libremente. Fue

utilizado por primera vez en 1998 por algunos usuarios de la comunidad del software

libre, tratando de usarlo como reemplazo al ambiguo nombre original en inglés del

software libre (free software).

IV. HIPOTESIS Y VARIABLES

3.3. Hipótesis general

La calidad del traductor automático de textos del idioma español a la lengua aymara basado en

la transferencia sintáctica es eficiente.

3.4. Hipótesis específicas

El traductor automático de textos del idioma español a la lengua aymara basado en la

transferencia sintáctica superficial cumple los estándares de las métricas de ingeniería de

software.

La evaluación del traductor automático de textos del idioma español a la lengua aymara

basado en la transferencia sintáctica superficial es aceptable.

3.5. Análisis de variables e indicadores

VARIABLES INDICADORES INDICESIndependiente:

1. Transferencia sintáctica superficial

1.1. Estructura sintáctica superficial

1.1.1. Análisis morfológico- Nombres - Verbos- Adjetivos

1.1.2. Categorización léxica1.1.3. Transferencia léxica1.1.4. Transferencia estructural1.1.5. Generador morfológico

Dependiente:

2. Traductor automático de textos del idioma español a

2.1.Métricas de Ingeniería de Software

2.2.Métricas de evaluación de

2.1.1. Valoración de Calidad 2.1.2. Valoración de Funcionalidad2.1.3. Valoración de Utilidad

2.2.1. Nivel de Calidad de traducción

Page 15: TRANSFERENCIA SINTÁCTICA SUPERFICIAL

Pág. 15

la lengua aymara traductores automáticos 2.2.2. Grado de precisión de traducción2.2.3. Nivel de errores y sustituciones

V. DISEÑO DE LA INVESTIGACION

5.1. Tipo y nivel de investigación

Área de Investigación: Ciencias de la Computación

Tipo de Investigación: Investigación Aplicada o tecnológica

Nivel de investigación: Experimental

Línea de Investigación: Inteligencia Artificial

Campo de investigación: Procesamiento de Lenguaje Natural

Tema de Investigación: Traductor automático

5.2. Diseño de la investigación

5.1.1. Etapas de la investigación

Ingeniería de traducción automática por transferencia sintáctica

Desarrollo del traductor automático

Implementación de diccionarios y construcción de reglas gramaticales

Evaluación del traductor automático

5.1.2. Método de la investigación

Para el desarrollo e implementación del traductor automático de textos del idioma español

a la lengua aymara se utilizará el modelo de desarrollo de Software.

Definición de Requerimiento

Análisis y diseño del sistema

Codificación del sistema

Integración del sistema

Pruebas del sistema

Evaluación del sistema

Para evaluación del traductor automático de textos del idioma español a la lengua aymara

se utilizará las métricas de evaluación de traductores automáticos:

WER (word error rate),

Page 16: TRANSFERENCIA SINTÁCTICA SUPERFICIAL

Pág. 16

Donde:

S es el número de sustituciones,

B es el número de borrados,

I es el número de inserciones,

N es el número de palabras que tiene la frase de referencia.

BLEU mide la precisión de los ngramas (unigramas, bigramas, trigramas y cuatrigramas)

Page 17: TRANSFERENCIA SINTÁCTICA SUPERFICIAL

Pág. 17

5.3. Matriz de consistencia

Problemas Objetivos Hipótesis Variables Indicadores

Índices Método

Problema Principal:

La inexistencia de un traductor automático para comprensión de textos del idioma español en la lengua aymara

Objetivo Principal

Medir la calidad del traductor automático de textos del idioma español a la lengua aymara basado en la transferencia sintáctica superficial.

Hipótesis Principal

La calidad del traductor automático de textos del idioma español a la lengua aymara basado en la transferencia sintáctica es eficiente.

Indepen-diente:

1. Transferencia sintáctica superficial

De la VI:

1.1. Estructura sintáctica superficial

1.1.1. Análisis morfológico- Nombres - Verbos- Adjetivos

1.1.2. Categorización léxica1.1.3. Transferencia léxica1.1.4. Transferencia estructural1.1.5. Generador morfológico

-Población: Representada por 300 personas hablantes la lengua aymara y/o que tengan estudios de lingüística andina

- Muestra: No probabilística ha seleccionado por el investigador 50 personas

- Tipo de Investigación: Investigación Tecnológica / Experimental

- Estrategia:

1) Recolección de bibliografía especializada y planificación del proyecto.

2) Ingeniería de traducción automática por transferencia sintáctica

3) Implementación del traductor automático

5) Evaluación del traductor automático.

Problema Específico Nro. 1:

Perú un país pluricultural que no cuenta con herramientas como traductores automáticos para interrelacionar culturas.

Objetivo Específico Nro. 1

Implementar el traductor automático de textos del idioma español a la lengua aymara basado en la transferencia sintáctica superficial.

Hipótesis específica Nro. 1

El traductor automático de textos del idioma español a la lengua aymara basado en la transferencia sintáctica superficial cumple los estándares de las métricas de ingeniería de software.

Dependiente

2. Traductor automático de textos del idioma español a la lengua aymara

2.1. Métricas de Ingeniería de Software

2.2. Métricas de evaluación de traductor automático

2.1.1. Valoración de Calidad 2.1.2. Valoración de Funcionalidad2.1.3. Valoración de Utilidad

2.2.1. Nivel de Calidad de traducción2.2.2. Grado de precisión de traducción2.2.3. Nivel de errores y sustituciones

Problema Específico Nro. 2:

Dos millones y medio de personas ayamara hablantes que no tienen acceso a la información en su propia lengua.

Objetivo Específico Nro. 2

Evaluar el traductor automático de textos del idioma español a la lengua aymara basado en la transferencia sintáctica superficial con las métricas de evaluación de traductores automáticos

Hipótesis específica Nro. 2

La evaluación del traductor automático de textos del idioma español a la lengua aymara basado en la transferencia sintáctica superficial es aceptable.

Page 18: TRANSFERENCIA SINTÁCTICA SUPERFICIAL

Pág. 18

5.4. Diseño de prueba de hipótesis

Prueba de hipótesis para la media

Se usará esta prueba para métricas de ingeniería de software y métricas

de evaluación de traductores automáticos con el procedimiento es el

siguiente:

b) Planteamiento de hipótesis

Ho (hipótesis nula): µ= µo

H1 (hipótesis alterna): µ> µo

c) Estadístico de prueba: Se usará la distribución normal (Z)

d) Nivel de significancia, alfa: 1%, 5% y 10%

e) Regla de decisión

Dibujo

Si Zc > Zα entonces se rechazará Ho

f) Calcular Zc

g) Conclusión

5.5. Población y muestra

POBLACION: La población será representada por las personas hablan,

que investigan la lengua aymara, quienes comprenden textos en la lengua

aymara además su gramática, así como su escritura y su lectura.

MUESTRA: El método de muestreo es no probabilística a selección por

criterio de investigador, para lo cual se seleccionarán 50 personas que

hablan o que investigan la lengua aymara.

Page 19: TRANSFERENCIA SINTÁCTICA SUPERFICIAL

Pág. 19

5.6. Diseño de recopilación de información

Recopilación de información con respecto a la estructura gramatical del

idioma español y de la lengua aymara.

Fichas de observación de métricas de ingeniería de software

Fichas de observación de métricas de evaluación de traductor

automático

Ficha de entrevistas

VI. PRESUPUESTO Y FINANCIAMIENTO

6.1. Presupuesto básico

D E S C R I P C I ONUND. CAN

TPRECIOUNIT.

TOTALS./

MATERIAL DE ESCRITORIOPapel Bond 80 g Millar 02 25.20 50.40Cds Simples Unid. 10 0.80 8.00

Fólder Manila T /A4 Unid. 25 0.15 3.75

Cuaderno cuadriculado 100 h T/A4 Unid. 02 2.80 5.60

Archivador de palanca lomo ancho T /oficio Unid. 01 2.92 2.92

Unidad de Almacenamiento (2 Gigas) Gigas 01 92.50 92.50

BIENES DE CONSUMO

Toner para impresora ML-225 1N Sansumg Unid. 01 460.00 460.00

VIÁTICOS Y ASIGNACIONES

Viáticos a nivel Nacional Días 02 223.5 447.00

PASAJES

Abancay-Puno-Cusco- Abancay persona 01 170.00 170.00

SERVICIOS

Compra de Dominio (Anual)www.aymaramarka.com

Proveedor de Dominios

01 30.00 30.00

Alquiler de Hosting (Anual) 1000 Megas PHP, SSL, MySql, proveedor de servicios de Internet

01 2000.0 2000.00

Servicio de Posicionamiento en Internet (Indexadores, Directorios, Buscadores) proveedor de servicios de Internet

01 450.00 450.00

Elaboración de material de Material de 01 400.00 400.00

Page 20: TRANSFERENCIA SINTÁCTICA SUPERFICIAL

Pág. 20

RecopilaciónServicio de:

- Diseño de encuestas- Impresión de encuestas

- Ejecución de encuestasServicio de Internet Unid. 4 150.00 600.00Impresión de materiales de investigación Unid. 300 1.00 300.00

Bibliografía Unid. 10 50.00 500.00IMPREVISTOS Movilidad local y otros 150.00

Costo Total S/. 5,670.17

6.2. Financiamiento

El presupuesto básico calculado se presenta en su forma estimada para la

realización de la investigación el cual asciende a S/. 5670.17 (Cinco mil

seiscientos setenta nuevos soles con 17/100 céntimos) la cual será

autofinanciado por el investigador.

VII. CRONOGRAMA

N ActividadesDiciembre Enero Febrero Marzo

1 2 3 4 1 2 3 4 1 2 3 4 1 2 3 4

1Elaboración y aprobación del Proyecto

X X

2Diseño de ingeniería de traducción por transferencia sintáctica

X X X

3Desarrollo del traductor automático por transferencia sintáctica

X X X

4Implementación de diccionarios y reglas gramaticales

X X X

5Evaluación del traductor automático por transferencia sintáctica

X X X

6Implementación en el sitio web del traductor automático

X X

7Test de comprensión de textos del idioma español en la lengua aymara

X X

8 Informe y publicaciónX

VIII. ESTRUCTURA TENTATIVA DEL INFORME FINAL

Page 21: TRANSFERENCIA SINTÁCTICA SUPERFICIAL

Pág. 21

I. INTRODUCCIÓN

II. EL PROBLEMA

2.1. Análisis de la situación problemática

2.2. Definición del problema

2.3. Planteamiento del problema

2.4. Justificación del problema

III. OBJETIVOS

3.1. Objetivo general

3.2. Objetivos específicos

IV. MARCO REFENCIAL

4.1. Marco teórico

4.2. Marco conceptual

V. HIPÓTESIS Y VARIABLES

5.1. Hipótesis general

5.2. Hipótesis específicas

5.3. Análisis de variables e indicadores

VI. DISEÑO DE LA INVESTIGACIÓN

6.1. Diseño de la investigación

6.2. Matriz de consistencia

6.3. Diseño de prueba de hipótesis

6.4. Población y muestra

6.5. Métodos de discusión

VII. RESULTADOS Y DISCUSIÓN

VIII. CONCLUSIONES

IX. SUGERENCIAS

X. BIBLIOGRAFIA CONSULTADA

XI. ANEXOS

IX. BIBLIOGRAFIA DE CONSULTADA

Page 22: TRANSFERENCIA SINTÁCTICA SUPERFICIAL

Pág. 22

[ALVA81] ALVARADO, MAITE y otros. Teoría y práctica de un taller de

escritura. Madrid, Altalena 1981.

[RICH94] Elaine RICH y Kevin Knight. Inteligencia Artificial. Segunda Edición.

España. McGraw-Hill/Interamericana S.A. 1994.

[ESPE94] Elvira, ESPEJO AYKA. Jichha nä Parlt'ä (Ahora les voy a Narrar).

Bolivia Ediciones ILCA, 1994.

[LAYME] Felix, LAYME PAIRUMANI. Diccionario Bilingü: Aymara Castellano.

Tercera Edición. Bolivia Consejo Educativo Aymara (CEA) 2004.

[GATT01] GATTI MURIEL, Carlos. Elementos de Gramática Española.

Segunda Edición. Lima Universidad del Pacífico. 2001.

[MEND91] José MENDOZA, Donato GOMEZ etc. Yatichañ Arunaka

(Diccionario Especializado Aymara). Bolivia 1991.

[KOLM97] KOLMAN, BUSBY y ROSS. Estructuras de Matemáticas Discretas

para la Computación, Prentice Hall, 1997.

[SOMM02] Lan, SOMMERVILLE. Ingeniería de Software. Sexta Edición.

México Pearson Educación. 2002.

[LOUD04] Louden, K. C. Construccion de Compiladores Principios y Practica.

Thomson. 2004.

[THER93] Lucy, THERINA BRIGGS. El Idioma Aymara: Variantes Regionales

y Sociales. La Paz, Bolivia Ediciones ILCA. 1993.

[PRES03] Presidente de la República del Perú. Ley General de Educación

28044. Lima 2003.

[PRES93] Presidente del Congreso Constituyente Democrático del Perú.

Constitución Política del Perú. Lima 1993.

[GRON99] Marcelo, GRONDIN N. Método de Aymara: Qullajaqin Arupa. La

Paz, Cochabamba (Bolivia), Editorial Los Amigos del Libro. 1999.

[MEDI03] MEDINA G., Antonia. Lexicografía española. Barcelona Editorial

Ariel. 2003.

[NILS04] Nilsson NILS. Inteligencia Artificial. Madrid. McGraw Madrid.

Hill/Interamericana S.A. 2004.

Page 23: TRANSFERENCIA SINTÁCTICA SUPERFICIAL

Pág. 23

[ALVA06] Octavio, ÁLVAREZ MAURICIO. Método para optar el Título

Profesional y los grados de Magíster y Doctor. Lima, Grupo Editorial

Megabyte S.A.C. 2006.

[CORP84] CORPUNO. Diccionario Aymara-Castellano. Puno, Proyecto

Experimental Educación Bilingüe Puno-Perú. 1984.

[BREÑ03] Ramón BREÑA. Autómatas y Lenguajes. México. 2003.

[CERR87] Rodofo, CERRÓN PALOMINO. Quechumara Estructuras Paralelas

de las lenguas Quechua y Aymara. Perú: Puno. 1987.

[CERR00] Rodolfo CERRÓN PALOMINO. Lingüística Aimara. Lima, 2000.

[PRES02] Roger S. PRESSMAN. Ingeniería de Software: Un Enfoque

Práctico. Quinta Edicción. Madrid, etc. McGraw Madrid.

Hill/Interamericana S.A. 2002.

[RUSE04] RUSELL, Stuart y NORVIG Meter. Inteligencia Artificial un enfoque

moderno. Segunda Edición. Madrid. Pearson Educación S.A. 2004.

[PRAT98] T. PRATT y V. ZELKOWITZ. Lenguajes de Programación Diseño e

Implementación. Prentice-Hall Hispanoamericana S.A. 1998.

[UANC03] UANCV (Universidad Andina Néstor Cáceres Velásquez).

Morfología Contrastiva Quechua/Aymara/Castellano. Escuela de

Postgrado de la, Segunda Especialización en Educación Bilingüe

Intercultural. Perú: Juliaca. 2003.

Page 24: TRANSFERENCIA SINTÁCTICA SUPERFICIAL

UNIVERSIDAD ANDINA “NESTOR CÁCERES VELÁSQUEZ”

ESCUELA DE POSTGRADO

MAESTRIA EN INGENIERIA DE SISTEMAS

“TRANSFERENCIA SINTÁCTICA SUPERFICIAL PARA TRADUCTOR AUTOMÁTICO DE TEXTOS DEL IDIOMA ESPAÑOL A LA LENGUA AYMARA”

Presentado por: Ing. Hugo David Calderon Vilca

PARA OPTAR EL GRADO DEMAGISTER EN INGENIERA DE SISTEMAS

JULIACA – PERU2007

Page 25: TRANSFERENCIA SINTÁCTICA SUPERFICIAL

UNIVERSIDAD ANDINA “NESTOR CÁCERES VELÁSQUEZ”

ESCUELA DE POSTGRADO

MAESTRIA EN INGENIERIA DE SISTEMAS

“TRANSFERENCIA SINTÁCTICA SUPERFICIAL PARA TRADUCTOR AUTOMÁTICO DE TEXTOS DEL IDIOMA ESPAÑOL A LA LENGUA AYMARA”.

PROYECTO DE TESIS

Presentado para optar el grado de:

MAGISTER EN INGENIERIA DE SISTEMASMención: Ingeniería del Software

APROBADA POR

PRESIDENTE DE JURADO :________________________________

MIEMBRO DEL JURADO :________________________________

MIEMBRO DEL JURADO :________________________________

ASESOR DE TESIS :________________________________ M.Cs. Daniel Yucra Sotomayor

ASESOR DE TESIS :________________________________ M.Cs. Juan Reynaldo Paredes Quispe