presentar plan
TRANSCRIPT
2
1. Objetivos1. Objetivos
• Elaborar un corpus digital escrito del quechua con 50 millones de palabras considerando su representatividad y equilibrio.
• Implementar el etiquetado y marcarje gramatical, semántico, sintáctico y pragmático.
• Grabar, transcribir y organizar un corpus oral del quechua teniendo presente las variantes dialectales y los registros.
• Poner a disposición de los investigadores nacionales e internacionales un corpus de referencia del quechua.
3
2. Descripción del proyecto2. Descripción del proyecto
El proyecto se desarrollará durante dos años, que comprenderá la recolección, el procesamiento, organización del corpus
El proyecto está orientado a construir un corpus de referencia digital en quechua con 50 millones de palabra en la lengua escrita y 10 millones de la lengua oral en quechua. Los datos serán tomados del lenguaje natural considerando los dialectos que existen en el quechua, distribuidos de la siguiente manera (Torero, 1974):
Dialectos del quechuaDialectos del quechua
4
Q- I
Q-II
QHISHWA CORPORA
5
Uso de Recursos / Costes
02 años
Concepción
Recopilacióntextosescritos yorales
Marcado, etiquetaje, Recursos informáticos.
Producto: Corpus
3. Metodología:3. Metodología:
tiempo
Esfuerzo
6
1. Planificación y organización de actividades
2. Asignación de responsabilidades
3. Lectura del marco teórico.
FASE IConcepción del proyecto
4. ACTIVIDADES: Tareas y subtareas4. ACTIVIDADES: Tareas y subtareas
7
•TEXTOS ESCRITOS:•Localización de los textos, según zonas geográficas y países.•Recopilar un conjunto de textos de documentos escritos: libros, informes u otros documentos.•Digitalización de los textos•Almacenamiento los textos en archivos clasificados según géneros/ temas•Corrección informática y manual de los textos
•TEXTOS ORALES•Localización de las zonas geográficas y países•Grabación en lugares de destino•Transcripción automática del corpus•Ficha técnica•Corrección manual de la transcripción
FASE II:Recopilación y organización de textos en
contextos naturales.
8
1. Marcaje estructural y etiquetaje2. Preproceso (detección de fechas, números, locuciones, nombres
propios...) 3. Análisis y marcaje morfológicos de acuerdo con los etiquetarios
morfológicos4. Desambiguación lingüística y/o estadística5. Las inferencias (analizadores automáticos), 6. Las anotaciones (actos de habla: información, opinión, aliento, etc.)7. Las colocaciones (para Baker resulta útil porque ayuda a resumir las
relaciones más importantes entre las palabras),8. Los análisis posicionales (dependiendo de los géneros textuales), 9. Los coreferentes, 10. La estructura de la información (Mann y Thompson) 11. Los programas de concordancia12. Análisis léxico (para el examen de los rasgos lingüísticos como los
patrones de nominalización, la atribución, la modalidad, etc.), 13. Los marcados sintácticos y semánticos (Leech y Fligelstone, 1992)
FASE III
El procesamiento informático de la estructura del corpus oral y escrito
9
10
Recursos del ProyectoRecursos del Proyecto
Humanos
Informática y software
Equi
pos
Materiales
Finacieros
Ofici
na/ c
entr
o
de p
roce
sam
ient
o
11
RECURSOS HUMANOS:RECURSOS HUMANOS:Coordinador del Proyecto - ResponsabilidadesCoordinador del Proyecto - Responsabilidades
– Integrar los esfuerzos de los miembros del equipo para alcanzar los objetivos del proyecto
– Definir la metodología de trabajo
– Proveer recursos
– Evaluar progresos
– Establecer medidas correctivas
12
Equipo de ProyectoEquipo de Proyecto
• Grupo de personas lideradas por el Coordinador del proyecto.
• Representan áreas de trabajo funcional y roles específicos:
• Coordinador de la construcción del corpus escrito• Coordinador de la construcción del corpus oral• 03 digitadores• 02 informáticos • Un especialista en lingüística del corpus• Un lingüista quechua
13
Corpus oral y escrito del quechuaCorpus oral y escrito del quechuaCORPORAQHICHWA
Registrarse
Adolfo Zárate Pérez-pa ruwasqan