biblioteca abierta colección general lingüística

23

Upload: others

Post on 01-May-2022

17 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: biblioteca abierta colección general lingüística
Page 2: biblioteca abierta colección general lingüística

bibl ioteca abier taco l e c c i ón gene r a l l ingü ís t i ca

Page 3: biblioteca abierta colección general lingüística
Page 4: biblioteca abierta colección general lingüística

Lingüística computacional aplicada

Page 5: biblioteca abierta colección general lingüística
Page 6: biblioteca abierta colección general lingüística

Lingüística computacional aplicada

Julia Marlén Baquero Velásquez

Universidad Nacional de Colombia

Facultad de Ciencias Humanas / Departamento de Lingüística

Bogotá D. C.

Page 7: biblioteca abierta colección general lingüística

Lingüística computacional aplicada

Biblioteca Abierta

Colección General, serie Lingüística

Universidad Nacional de Colombia

Facultad de Ciencias Humanas

Departamento de Lingüística

© 2010, autora

Julia Marlén Baquero Velásquez

© 2010, Universidad Nacional de Colombia

Bogotá D. C., junio 2010

Preparación editorial

Centro Editorial, Facultad de Ciencias Humanas

Universidad Nacional de Colombia, sede Bogotá

ed. 205, of. 222, tel: 3165000 ext. 16208

e-mail: [email protected]

www.humanas.unal.edu.co

Desarrollo de la versión multimedia: William León Girón

Impreso por Javegraf

Impreso en Colombia

Excepto que se establezca de otra forma, el contenido de este libro cuenta con una licencia Creative Commons

“reconocimiento, no comercial y sin obras derivadas” Colombia 2.5, que puede consultarse en http://creativecommons.org/licenses/by-nc-nd/2.5/co/

catalogación en la publicación universidad nacional de colombia

Baquero Velásquez, Julia Marlén, 1957- Lingüística computacional aplicada / Julia Marlén Baquero Velásquez – Bogotá: Universidad Nacional de Colombia. Facultad de Ciencias Humanas. Departamento de Lingüística, 2010. 228 pp. – (Biblioteca Abierta. Lingüística) Incluye referencias bibliográficas

isbn: 978-958-719-469-2

1. Lingüística computacional 2. Concordancias 3. Análisis lingüístico 4. Lingüística - Programas para computador 5. Lingüística – Investigaciones i. Tít. ii. Serie

cdd-21 410.285 / 2010

Page 8: biblioteca abierta colección general lingüística

Contenido

Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13

PRIMERA PARTE Breve fundamentación teórica en torno a la investigación lingüística

El texto plano y los sistemas de codificación . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21

La lingüística de corpus . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25

Una aproximación a los corpus . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28

Definición . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28

Clasificación . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29

Sobre la construcción de un corpus . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32

Recolección . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32

Anotaciones o etiquetas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33

Procesamiento de un corpus . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35

Corpus del español . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35

El crea . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38

Composición . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38

Etiquetas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39

Búsquedas y resultados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39

Algunas posibilidades de investigación . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40

El Corde . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40

Composición . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40

Etiquetas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41

Búsquedas y resultados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41

Algunas posibilidades de investigación . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42

El Corpus del español . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42

Composición . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42

Etiquetas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43

Búsquedas y resultados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44

Algunas posibilidades de investigación . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48

Page 9: biblioteca abierta colección general lingüística

SEGUNDA PARTE Programas para la consulta de concordancias

Concordancias: concepto y ejemplos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53

Licencia freeware . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58

Licencia shareware . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59

Licencia propietario . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59

AntConc . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61

Instalación . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61

Descripción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61

Preparación del corpus . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62

Trabajo con el programa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64

Word List (Lista de palabras) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65

Concordance Plot (Gráfico de concordancias) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67

Concordancias . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 68

Word Cluster . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71

Collocates (Colocaciones) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 73

File View (Vista de archivo) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 74

Keyword List (Lista de palabras claves) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 74

Utilidad del programa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 75

Limitaciones del programa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 76

T-Lab . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77

Instalación . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77

Descripción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77

Preparación del corpus . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 78

Trabajo con el programa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 84

Consultas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 84

Análisis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 85

Análisis de coocurrencias . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 86

Análisis temáticos de las unidades de contexto . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 90

Análisis comparativos de los subconjuntos del corpus . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 94

TERCERA PARTE Análisis morfológico y sintáctico

Concepto y representación del análisis morfológico y sintáctico . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 101

Análisis morfológico no automático . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 105

Parsers o programas de análisis automático morfológico . . . . . . . . . . . . . . . . . . 107

Page 10: biblioteca abierta colección general lingüística

Graficadores sintácticos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 108

Análisis sintáctico automático . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 109

Alchemist . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 111

Instalación . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 111

Descripción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 111

Preparación del corpus . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 112

Trabajo con el programa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 112

Utilidad del programa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 119

Limitaciones del programa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 119

Toolbox . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 121

Instalación . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 121

Descripción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 121

Preparación del corpus . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 123

Trabajo con el programa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 124

Segmentación . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 128

Interlinearización y configuración de cada campo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 129

Trabajo con el diccionario . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 135

Los campos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 135

Identificación de morfemas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 135

Concordancias . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 140

Fórmulas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 142

Publicación . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 143

Utilidad del programa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 144

Limitaciones del programa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 144

PC-Kimmo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 145

Instalación . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 145

Descripción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 145

Trabajo con el programa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 149

Utilidad del PC-Kimmo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 154

Limitaciones del programa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 154

Treeform . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 155

Instalación . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 155

Descripción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 155

Trabajo con el programa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 156

Utilidad del programa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 157

Limitaciones del programa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 158

Page 11: biblioteca abierta colección general lingüística

CUARTA PARTE Análisis de texto y del discurso

Importancia del análisis de texto y del discurso . . . . . . . . . . . . . . . . . . . . . . . . . . 161

Licencia freeware . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 164

Licencia propietario . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 165

Licencia shareware . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 166

Antmover . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 167

Instalación . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 167

Descripción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 167

Trabajo con el programa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 169

Utilidad del programa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 175

Limitaciones del programa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 175

Diction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 177

Instalación . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 177

Descripción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 177

Trabajo con el programa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 179

Datos del texto . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 180

Texto de entrada . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 181

Tablas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 182

Utilidad del programa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 183

Limitaciones del programa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 183

Goldvarb 2001 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 185

Instalación . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 185

Descripción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 185

Trabajo con el programa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 186

Utilidad del programa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 195

Limitaciones del programa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 196

QUINTA PARTE Organización de bibliografías

La función de los organizadores bibliográficos y listado de programas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 199

Programas con licencia freeware . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 200

Programas con licencia propietario . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 201

Reference Manager . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 203

Instalación . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 203

Page 12: biblioteca abierta colección general lingüística

Descripción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 204

Trabajo con el programa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 205

Creando una base de datos nueva e insertando un ítem . . . . . . . . . . . . . . . . . . . . 205

Ingresar una referencia manualmente . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 205

Insertando un nuevo ítem desde una base de datos remota . . . . . . . . . . . . . . 207

Selección de bases y configuración del host . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 209

Búsqueda . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 210

Trabajando con Word . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 213

Modificando el estilo en rm . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 213

Formato 1. American Psychological Association . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 214

Formato 2. Analythical Biochemistry . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 215

Formato 3. Linguistic Inquiry . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 215

Conclusiones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 217

Bibliografía . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 219

Índice de materias . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 223

Índice de nombres . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 227

Page 13: biblioteca abierta colección general lingüística
Page 14: biblioteca abierta colección general lingüística

13

Introducción*

Los escritos presentados a continuación surgen como re-sultado de la exploración de varios programas de computación para los cursos Informática Aplicada a la Investigación Lingüística y Estudio del Español Apoyado en Computadores, dictados a estu-diantes de la carrera de lingüística desde el año 2005 hasta finales del 2008. Durante el primer curso, la exploración de los programas evidenció la necesidad de escribir pequeños manuales en los que se describieran sus tareas, marco de aplicación y forma de uso, para que los estudiantes tuvieran acceso a ese material y los exploraran por su cuenta, lo que garantizaba que se pudiera avanzar en la ex-ploración de nuevos programas y temáticas relacionadas con la lin-güística computacional.

Por ello, durante el primer semestre del 2006, se comenzó la construcción del material con un modelo único para todos los pro-gramas, el cual se siguió utilizando en los semestres posteriores. Ese modelo constaba básicamente de cinco partes: 1) instrucciones

* Expreso mi agradecimiento al profesor César Arias, ingeniero electrónico de la Universidad Distrital Francisico José de Caldas, quien realizó una primera versión y leyó esta última.

Page 15: biblioteca abierta colección general lingüística

14

de instalación, 2) descripción general, 3) recuento de las tareas que se pueden realizar, 4) utilidad y 5) limitaciones del programa.

Más adelante, se vio la necesidad de elaborar cuadros compa-rativos en los que se pudieran visualizar semejanzas y diferencias entre los programas objeto de instrucción y otros con caracterís-ticas similares. Estos cuadros se incorporaron al inicio de cada ca-pítulo, y le daban al estudiante una idea de la existencia de otros programas a los que podía acceder para abordar tareas semejantes. A partir de ello se logró establecer una tipología no exhaustiva de programas que permitió organizar el manual en cinco capítulos, algunos de los cuales todavía se mantienen en esta última versión.

El resultado final que se ofrece en esta versión tiene en cuenta tanto la necesidad de incluir otros programas de gran interés para docentes y estudiantes —Toolbox1, T-Lab, Treeform y Goldvarb— como también la de agregar un apartado de generalidades en donde básicamente se abordan dos temas: la caracterización del texto plano y tipos de codificación, y una caracterización de los corpus. Adi-cionalmente, se modificó la manera en que se presentaba la mayor parte de los programas, de tal modo que no solo se hiciera alusión a su puesta en funcionamiento, sino, especialmente, a las posibili-dades que brindan a docentes e investigadores. También se cambió la mayoría de las introducciones a las secciones y se incorporó al texto una información que inicialmente aparecía en cuadros in-dependientes, los cuales fueron ampliados en muy pocos casos. Se suprimió, además, la presentación del programa Tree Diagrammer debido a que ya no se encuentra en internet. Desafortunadamente, este trabajo, que tuvo sus bases en los anteriores, no se pudo ela-borar a cuatro manos, como sí sucedió en las versiones anteriores, por lo que en el resultado final, el profesor César A. Arias, ingeniero electrónico de la Universidad Distrital Francisco José de Caldas, no pudo aparecer como coautor, sino como colaborador. No obstante, debo agradecerle su interés hasta el último momento en colaborar

1 Una primera aproximación a este programa la tuvimos a través de una charla que los profesores Frank Seifert y Álvaro Echeverry hicieron para profesores y estudiantes del Departamento de Lingüística.

Page 16: biblioteca abierta colección general lingüística

15

con la lectura de esta versión y por las sugerencias que, indudable-mente, aportaron claridad a algunos pasajes.

Esta última presentación contiene, entonces, cinco grandes partes. La primera introduce al lector en dos generalidades que resultan muy importantes cuando se trabaja con los programas: se caracteriza el texto plano —dado que es el tipo de archivo en el que deben guardarse regularmente los corpus objeto de trabajo— y se presentan algunos tipos de codificación que se pueden usar al guardar estos archivos —esto, con la finalidad de que, más ade-lante, cuando se den instrucciones sobre el tipo de archivos que soporta cada uno de los programas, el usuario comprenda por qué resulta importante hacerlo según lo indicado, y también para que, en caso de que detecte errores que surgen al olvidar la instrucción, pueda resolver el problema sin mayores tropiezos—. De manera semejante, en esta primera sección se incluye un apartado sobre la lingüística de corpus, en donde se presentan algunos antecedentes de esta disciplina y se caracteriza como un método. Además, se ofrece una aproximación al concepto de corpus: su naturaleza, cla-sificación, construcción y procesamiento. Se concluye este apartado con una presentación de listas de distintos corpus del español a los cuales puede acceder el investigador o cualquier usuario de in-ternet, y se presentan con mayor detalle tres de ellos: el CREA y el Corde, construidos por la Real Academia Española y Corpus del Español, cuyo autor principal es el profesor Mark Davies.

La segunda parte introduce al lector en el tema de las concor-dancias, que no es otra cosa que la identificación de los contextos de ocurrencia de un fragmento del texto, lo cual se ilustra princi-palmente con búsquedas realizadas con el Corpus del Español. Después, se describen dos programas que incluyen entre sus tareas la de hacer búsquedas de concordancias: Antconc y T-Lab. El primero es un software libre bastante liviano que, además, muestra en un gráfico la distribución de la expresión en los distintos archivos del corpus objeto de trabajo, hace la lista de palabras con sus frecuencias de ocurrencias, permite visualizar cada uno de los archivos y extrae

Page 17: biblioteca abierta colección general lingüística

16

word clusters2, collocates y keyword list. El segundo es un software propietario bastante robusto que, con la ayuda de la estadística, realiza análisis de coocurrencias, análisis temáticos de las unidades de contexto y análisis comparativo de subconjuntos del corpus. Se trata de una herramienta muy útil para el análisis cuantitativo de los textos, pero para que los resultados sean confiables, se requieren corpus extensos y con características específicas. Si bien el T-Lab realiza concordancias, es posible afirmar que este es más un pro-grama para análisis de textos, antes que un programa de concor-dancias. No obstante, por incluir la función de concordancias, se incluye en este apartado

En la tercera sección se abordan programas que realizan tareas relacionadas con el análisis morfológico y sintáctico. Allí se des-criben cuatro programas de naturaleza muy distinta: Alchemist, Toolbox, PC-Kimmo y Treeform. El primero es un programa con un conjunto de herramientas que facilitan la obtención de están-dares morfológicos a partir de textos reales —esencialmente la identificación de morfemas raíces y afijos— y su organización a la manera de una base de datos. Todo el trabajo lo hace el usuario, pues el programa no realiza ninguna tarea de manera automática. Toolbox es una herramienta que permite construir diccionarios lexicales o morfológicos a partir del trabajo con uno o varios corpus. Este también permite la identificación de los morfemas y su caracterización, aunque de manera un tanto distinta al Al-chemist. El PC-Kimmo, en cambio, es un analizador morfológico automático, cuya función es presentar la estructura morfológica subyacente de las palabras del inglés y generar la forma superficial a partir de la representación subyacente. Está construido, como se verá más adelante, sobre una fonología de dos niveles. Por último, Treeform —como el Tree Diagrammer— es un programa que fa-cilita al usuario la esquematización de la estructura sintáctica de las oraciones de cualquier lengua a través de diagramas arbóreos

2 Esta expresión se usa para referirse a un grupo de palabras, específicamente una secuencia de por lo menos dos palabras dentro de la cual está la palabra-objetivo.

Page 18: biblioteca abierta colección general lingüística

17

construidos siguiendo los últimos lineamientos de la GGT (gra-mática generativa transformacional).

En la cuarta parte se presentan tres programas que pueden ser útiles para quien se adentra en el análisis del texto y del discurso. Esta sección, como ya dijimos, debería contener también los pro-gramas de análisis de concordancias, y muchos otros que realizan tareas relacionadas, como el Atlas-ti, que no incluimos en este primer trabajo. Al final, se incluyó una quinta parte que, si bien no toca un tema exclusivo de la lingüística, también resulta importante en ella: los programas relacionados con la construcción de bases de datos bibliográficos, especialmente, el Reference Manager, un pro-grama de mucha utilidad para quien publica artículos o libros.

Todo el trabajo involucrado en la construcción de este material se enmarca dentro del área, relativamente joven, de la lingüística computacional, un área muy poco desarrollada y explorada en el país, pero con muy interesantes proyecciones y campos de acción. La meta final del presente material es que se convierta en un manual de apoyo para docentes y estudiantes, lo que nos llevó a hacer las modificaciones ya anotadas.

Page 19: biblioteca abierta colección general lingüística
Page 20: biblioteca abierta colección general lingüística

PRIMERA PARTE

Breve fundamentación teórica en torno a la investigación lingüística

Page 21: biblioteca abierta colección general lingüística
Page 22: biblioteca abierta colección general lingüística

21

El texto plano y los sistemas de codificación

Existen en informática editores y procesadores de texto. Se distinguen en que mientras los primeros se usan para escribir texto sin formato y sin imágenes (texto plano), esto es, sin ne-grillas, cursivas, tablas, etc., los segundos brindan la opción para que el usuario haga uso de formatos especiales de diagramación que dan una apariencia de impreso al documento. Estos últimos, adicionalmente, tienen la opción de guardar el archivo como texto plano o texto sin formato, que es el tipo de archivo que suele usarse con un buen número de programas que hacen análisis lingüísticos, y también cuando se quiere realizar tareas de programación.

Ahora bien, a pesar de que los textos planos comparten las características ya mencionadas, pueden diferir como consecuencia del tipo de codificación empleado, esto es, como consecuencia de la forma en que cada carácter o símbolo de la lengua natural se re-presenta en el lenguaje de la máquina (código binario) para garan-tizar que el sistema sea capaz de procesar el texto. En los sistemas de codificación de 8 bits, por ejemplo, cada una de las diferentes combinaciones representará una letra, de suerte que la A podría asociarse con la secuencia 01000001, la a con 01100001, la B con 01110010, y así sucesivamente.

Page 23: biblioteca abierta colección general lingüística

22

Julia Marlén Baquero Velásquez

Este ejemplo, que representa un sistema de codificación com-pletamente arbitrario, deja ver que si cada persona o grupo de personas propusiera su propio sistema de equivalencias, no sería posible visualizar exactamente el mismo texto si se abriera con programas que hicieran uso de sistemas distintos. Ello precisa-mente es lo que sucede cuando al abrir un archivo se usa un tipo de codificación distinto al que se empleó al momento de almacenarlo: los caracteres que se hacen visibles no corresponden con los que el usuario esperaría visualizar. Por ejemplo, si se tiene un archivo con codificación Unicode y posteriormente se abre con codificación ASCII, letras como la ñ o las vocales acentuadas se reemplazan por secuencias de caracteres distintos. Resulta evidente, entonces, la necesidad de estandarizar el sistema de equivalencias de tal manera que la máquina pueda arrojar los mismos resultados en todos los casos. No obstante ello, existen distintos tipos de codificación, pero cada vez hay un mayor interés por incorporar el mayor número de caracteres posible, de suerte que no sea necesario cambiar de codi-ficación dependiendo de la tarea que se quiera realizar.

El más antiguo, y en una época el más generalizado, era el propuesto por el Instituto Norteamericano de Estándares (ANSI), cuyo problema principal tenía que ver con el hecho de que no podía manejar, en principio, más de 128 caracteres diferentes debido a que la longitud del código utilizado era de 7 bits, más uno que se empleaba para detectar errores. Lo anterior le impedía incluir ca-racteres distintos a las mayúsculas, minúsculas y signos de pun-tuación del inglés, cifras y caracteres de control (fin de texto, párrafo, etc.), principalmente. El ANSI deja por fuera, por ejemplo, algunos símbolos del español como la ñ, las vocales acentuadas, el signo de apertura de interrogación, además de muchos otros carac-teres de otras lenguas del mundo o de áreas como la matemática, la lingüística (el alfabeto fonético), etc. El ASCII extendido es un in-tento del ANSI por incluir un set más amplio de caracteres, en tanto que trabaja con 8 bits (256 caracteres), pero de todas maneras este no resulta suficiente. Un estándar mucho más completo y flexible es el propuesto por la Organización Internacional de Estandari-zación (ISO), pero varios programas para apoyo a la investigación