tesauro

Upload: jorge-flores

Post on 17-Jul-2015

33 views

Category:

Documents


0 download

TRANSCRIPT

TESAURO

Por: Teresa de J. Gonzlez Prez CONTEXTO SOCIOHISTORICOEl trmino tesauro tiene su origen etimolgico en la palabra latina thesaurus , que, a su vez, tiene su origen en la palabra griega thesaurs . En ambos casos, el significado era tesoro o repositorio de palabras. En la poca moderna, fue la Lexicografa el primer campo en el que se aplic el trmino tesauro y en el que se elaboraron las primeras definiciones. En 1852 Peter Mark Roget publica su obra ROGET's THESAURUS of English Words and Phrases (en lo sucesivo, tesauro ROGET's ), cuya finalidad es la de proporcionar ayuda y asistencia a la expresin de ideas y a la composicin literaria. El tesauro ROGET's tiene una organizacin conceptual, donde a partir de los conceptos explicitados en las entradas se relacionan y agrupan las palabras que designan o nombran, en diversos contextos, al concepto en cuestin. Es a partir de esta conceptualizacin propuesta por Roget que comienzan a diversificarse las acepciones y usos del trmino tesauro. En 1957 se usa por primera vez el trmino tesauro en el campo de la Biblioteconoma y Documentacin , en un trabajo presentado a la Dorking Conference on Classification por Helen Brownson, miembro de la American National Science Foundation . En dicha contribucin, el trmino tesauro es utilizado al analizar la problemtica de traducir los conceptos y sus relaciones, tal como se expresan en los documentos, a un lenguaje con mayor precisin y sin ambigedades, para facilitar la recuperacin de informacin. Plantear una evolucin histrica de la concepcin de los tesauros como herramienta documental en el campo de la la Biblioteconoma y Documentacin, nos limitaremos a seleccionar algunas definiciones que, desde nuestro punto de vista, permiten delinear sus principales caractersticas.

LOS TESAUROS Sobre los orgenes del tesauro, Norman Roberts , relaciona de algn modo la aparicin de este sistema de organizacin del conocimiento con tres factores: - La llamada explosin de la informacin que dio lugar a la desactualizacin de los sistemas tradicionales. - La necesidad de mecanizar los procesos tcnicos. - La teora de la indizacin post-coordinada del bibliotecario estadounidense Mortimer Taube . Etimolgicamente viene del latn y su significacin era tesoro. Es una definicin que tiene poco que ver con el concepto que tiene hoy para un documentalista, as la norma ISO 2788 / TC 46 nos dice que los tesauros se pueden definir segn su funcin y segn su estructura:

Qu es el Tesauro?

El tesauro es un lenguaje de indizacin controlado constituido por un conjunto de trminos descriptores y no descriptores, y un sistema de relaciones que definen su contenido semntico. La funcin principal del tesauro es controlar los sinnimos de forma que, documentos que tratan sobre los mismos temas o parecidos no sean indizados bajo trminos diferentes. En general, un tesauro interrelaciona los trminos para construir un lenguaje documental estructurado, que es utilizado por los usuarios para la bsqueda de informacin en las bases de datos. El proceso de indizacin del documento Definicin La indizacin consiste en extraer los conceptos fundamentales del contenido de un documento y representarlos mediante unos trminos adecuados, bien procedentes del lenguaje natural empleados por los autores o de un lenguaje documental previamente seleccionado, como es el tesauro. Las variables que intervienen en el proceso de indizacin son las siguientes: nivel de anlisis, cualificacin y pericia de los indizadores, tipo y volumen de informacin que va a indizarse, disponibilidad de tiempo, medios econmicos y caractersticas del sistema de almacenamiento de la base de datos. Metodologa En la prctica la indizacin de un documento se desarrolla en estas tres etapas: 1) Examen del documento Para determinar el tema de que trata. Algunas palabras, grupos de palabras, frases o prrafos tienen ms importancia que otros en la identificacin del contenido temtico del documento. Leer solamente algunas partes de un documento para tener una idea del tema principal. A continuacin presentamos una serie de recomendaciones: o Algunas palabras, grupos de palabras, frases o prrafos tienen ms importancia que otros en la identificacin del contenido temtico del documento. Leer solamente algunas partes de un documento para tener una idea del tema principal. A continuacin presentamos una serie de recomendaciones:o o

Consultar el ndice de materias, el resumen en la cubierta del libro o en la contra cubierta, el prefacio, la introduccin y las conclusiones.

o

No leer todo el documento. Solamente cuando no existe una introduccin, ndice de materias, ttulos de captulos, es necesario leer parte del documento para poder adquirir una buena comprensin del tema principal.

2) Anlisis conceptual Para segmentar el documento en unidades y elementos de anlisis ms operativos, anotar las palabras reflejando el tema principal, subdividir el texto segn el tema y seleccionar los conceptos significativos.o

o o

o

o

Se debe decidir qu conceptos representan el contenido del documento para que sean indizados. Es la etapa ms compleja del proceso, porque, a menudo, se tropieza con los temas secundarios y temas paralelos, que ayudan al desarrollo y exposicin del contenido, pero dificultan la tarea de seleccin y priorizacin. Es conveniente anotar las palabras importantes, es decir, las palabras significativas, o grupos de palabras que reflejan el tema principal. Si el documento trata de varios temas diferentes, hay que subdividirlo en varias partes, pudiendo cada una de ellas considerarse una publicacin independiente. Hay que ponerse en el lugar de los utilizadores potenciales del documento y determinar el contenido informativo de ste mediante la identificacin de la idea o de las dos o tres ideas pasando por alto todas las informaciones superfluas, marginales o imprecisas (de modo que pueda evitarse luego la inclusin de documentos no pertinentes), y detectando las informaciones implcitas (de modo que pueda soslayarse luego la no inclusin de documentos pertinentes). El resultado del anlisis conceptual es una lista preliminar de conceptos significativos, que expresan el objeto preciso del documento.

3) Traduccin al lenguaje del sistema Seleccionando los descriptores pertinentes del tesauro. El tercer paso en el proceso de indizacin es la representacin de los conceptos elegidos utilizando el vocabulario controlado del tesauro elegido. Para expresar los conceptos seleccionados en trminos de indizacin, hay que buscar en el tesauro seleccionado las palabras clave anotadas y seleccionar los descriptores ms apropiados. Para ello, habr que realizar los siguientes pasos: Buscar los conceptos seleccionados en el ndice alfabtico del tesauro. Dirigirse a la parte principal del tesauro (ndice alfabtico estructurado) que contiene toda la informacin sobre cada descriptor. o Localizar la entrada para cada descriptor que traduce mejor cada concepto. o Anotar el nmero del campo semntico en el cual se encuentra el descriptor. Leer la nota de alcance (NA), si esta existe, los descriptores que figuran en la lista como trmino genrico (TG), trmino especfico (TE), y trmino relacionado (TR). De esta manera, se puede determinar si elo o

descriptor original, o uno de los que esta listado abajo, es realmente el ms apropiado. o Si alguno de los conceptos no figuran en el tesauro tras haberlos buscado en la listas alfabticas, habr que explorar el ndice jerrquico y buscar all los descriptores existentes que designen los conceptos ms cercanos a los de la pregunta formulada. El proceso de indizacin est unido al proceso de bsqueda, de tal forma que el xito en la recuperacin de informacin depender de la habilidad para encajar una formulacin especfica de bsqueda con la descripcin y caracterizacin de esa informacin. Indizacin Automtica La indizacin manual y la automtica no son procedimientos equivalentes. No es posible imitar la capacidad cognitivo-lingstica humana por parte de las mquinas. La investigacin en indizacin automtica debe orientarse a la consecucin de mtodos que permitan el anlisis de los textos por parte del ordenador de manera eficaz, pero sin necesidad de que la mquina llegue a comprenderlos. Se trata de lograr un sistema automtico que sea capaz de asignar a los documentos un modo de representarlos que permita su eficaz recuperacin. Distinguiremos tres tipos de indizacin automtica:1) Indizacin

asistida por computadora: tras obtenerse los conceptos intelectualmente y asignarles trminos de descripcin, el almacenamiento de stos se efecta con apoyo informtico. 2) Indizacin semiautomtica: la computadora extrae los conceptos, pero los trminos son propuestos por una persona 3) Indizacin automtica: la computadora hace la extraccin de los conceptos y valida su representacin como descriptores. La facilidad que para la creacin de los contenidos ha supuesto la digitalizacin de los documentos y su distribucin por Internet ha venido a resaltar an ms la necesidad de los procesos de indizacin automtica, de una parte, por el nmero desmedido de documentos a tratar, y de otra, por la rapidez con que debe hacerse. Adems, hemos de considerar que los costes de la indizacin humana son superiores que los de la indizacin automtica. La intervencin de la inteligencia artificial ha facilitado que las computadoras vayan aproximndose a la competencia lingstica de los humanos. Los proyectos actuales de indizacin automtica se caracterizan por la colaboracin estrecha entre la inteligencia artificial y la gestin digital de los documentos. Gran parte de las experiencias actuales en indizacin automtica y bastantes de los programas comercializados combinan el modelo lingstico con las herramientas estadsticas.

Se ofrecen algunos programas de indizacin automtica con su pgina web: http://www.juntadeandalucia.es/cultura/iaph/nav/externos.jsp?seccion=PRODU CTOS&entrada=/portal/Productos/BasesDatos/Tesauro_PHA/

ASK JEEVES. http://www.aj.com EXCALIBUR. http://www.excalib.com LEXIWARE de Lexiquest (ERLI). http://www.lexiquest.com OINGO, de Applied Semantics. http://www.appliedsemantics.com SPIRIT (comercializado desde 1980, en un principio por Systex y luego spor Technologies GID). http://www.t-gid.com o TOPIC, de la empresa Verity. http://www.verity.com/products/o o o o o o

Implementacin Tecnolgica B.E.A.T. Josep Sau, Centre d'Informatica de la Universitat de Barcelona. Versiones en castellano, cataln e ingls. Tiene ayuda en castellano y el listado permutado en forma de KWIC. Como inconvenientes podemos destacar: el nmero mximo de descriptores que permite una familia es de sesenta, sumando las relaciones asociativas, jerrquicas y de equivalencia; hay que teclear de nuevo los trminos cada vez que se establece una relacin en el tesauro; no permite volcar los trminos directamente desde un procesador de textos; y se trata de un programa que puede ocasionar dificultades de actualizacin del tesauro. Multites. Empleado, entre otros, en el Canadian Literacy Thesaurus, WorldBank Thesaurus. El software Multites, empleado, entre otros, en el Canadian Literary Thesaurus, World Bank Thesaurus, en TesQual, permite la conversin de ficheros y la generacin de ficheros en lenguaje HTML permitiendo la inclusin del tesauro en la red Internet. Se desarrolla sobre el sistema operativo Windows y no hace falta teclear los trminos cuando se establecen las relaciones semnticas. Thew. El programa Thew del Profesor Tim Craven tiene como inconveniente que no permite sacar ningn ndice permutado. Lexico. Empleado en los tesauros elaborados por la Library of Congress.

Presentacin del tesauro Los trminos que componen el tesauro y sus relaciones se pueden representar de varias formas, siendo las ms comunes la presentacin alfabtica, la presentacin jerrquica y la presentacin grfica. A continuacin vamos a describir cada una de ellas. Seguiremos para ello el orden de presentacin de

las mismas en el tesauro. En el caso de la presentacin grfica hay tesauros que la utilizan en lugar de la presentacin jerrquica; de tal manera que cuando la presentacin de los trminos se lleve a cabo jerrquica o grficamente, es necesario que el tesauro est provisto de un ndice alfabtico, que permita una primera toma de contacto con la informacin presente en el mismo y remita, mediante un cdigo, a la parte jerrquica o grfica. Como complemento a estas formas de presentacin es aconsejable elaborar un ndice permutado general en donde estarn todos los descriptores alfabetizados tantas veces como trminos lo compongan. Presentacin alfabtica Contiene la siguiente informacin: descriptor, nmero clasificatorio y no descriptor ordenados alfabticamente. Ejemplo de presentacin alfabtica del Tesauro TesQual: Acceso discapacitados USE: Acceso restringido Acceso pblico C5311 Acceso restringido C5312 Acceso universalo o

USE: Acceso pblico Describe las relaciones de equivalencia considerando el nmero clasificatorio del descriptor.

Presentacin jerrquica La parte jerrquica da una visin de conjunto de la informacin contenida en el tesauro y permite conocer en qu medida se ha detallado un tema. Con esta agrupacin jerrquica de los descriptores se puede efectuar un control general rpido de los campos temticos tratados. En la parte jerrquica del Tesauro TesQual aparecen los descriptores agrupados por las grandes reas temticas en las que se ha dividido el tesauro segn la clasificacin adoptada. Cada rea temtica agrupa por tanto nicamente los descriptores de su mbito y sus correspondientes relaciones jerrquicas, situndose as cada descriptor de forma muy precisa en su contexto semntico. La representacin de la cadena jerrquica se hace por medio de cdigos alfanumricos. El nmero de dgitos indica el nivel jerrquico que ocupa cada

trmino con respecto con a aquellos con los que se relaciona: los genricos estarn situados por encima a la izquierda y con un dgito menos; los especficos se situarn por debajo de los anteriores sangrados a la derecha y con un dgito ms. A continuacin puede verse un ejemplo de la representacin jerrquica del Tesauro TesQual:

C2 Calidad universitaria C21 Acreditacin de enseanzas universitarias C211 Programa de acreditacin de la ANECA C2111 Proyectos piloto de acreditacin o C21111

Contiene los descriptores estructurados en funcin de categoras o jerarquas. Presentacin permutada Adems de las formas de presentacin descritas anteriormente, existe la posibilidad de incluir ndices permutados en el tesauro, que facilitan el acceso a la informacin contenida en los ndices alfabtico y jerrquico. A continuacin presentamos a modo de ejemplo dos trminos del ndice KWOC del Tesauro TesQual:

Boletines Boletines de indizacin y resumen Boletines de las comunidades autnomas Boletines de las provincias Boletines de sumarios Boletines oficiales Bolonia Declaracin de Bolonia o Proceso de Bolonia

Existen dos tipos de ndices permutados, el ndice KWIC (Key Word In Context) y el ndice KWOC (Key Word Out Context). Presentacin grfica Los tesauros de representacin grfica se complementan con un ndice alfabtico estructurado que contiene notas aclaratorias, reenvos entre trminos preferentes y no preferentes y referencias a trminos genricos, especficos y relacionados. Por ello, en este tipo de representacin no es necesario asignar smbolos a cada trmino en particular.o

Las tres formas ms usuales de representacin grfica son la estructura arborescente, (Los diagramas arborescentes es la forma de representacin grfica ms simple. Suelen construirse pocos

diagramas por tesauro. En estos tesauros la estructura jerrquica slo aparece en los diagramas, el listado alfabtico se limita a darnos el trmino ms amplio en el que se incluye el descriptor buscado para, en pasos sucesivos, acabar en los descriptores ms genricos que dan nombre a los distintos diagramas.) los diagramas de flechas y los terminogramas. o Muestran sobre todo las relaciones jerrquicas existentes entre descriptores y por lo general, los reenvos hacia trminos asociados se indican en los mrgenes del esquema grfico.

Bibliografa Maria Pinto Molinar Web semnticaNoemi Betancort Cabrera, Lidia Chozas Mahillo Tesauros, Mapas Conceptuales y Topic Maps

Tesauro de Patrimonio Histrico Andaluz http://www.juntadeandalucia.es/cultura/iaph/tesauro/init.htm http://www.juntadeandalucia.es/cultura/iaph/nav/externos.jsp?seccion=PRODUCTOS& entrada=/portal/Productos/BasesDatos/Tesauro_PHA/ http://www.juntadeandalucia.es/cultura/iaph/tesauro/init2.htm?alfabetica=B%FAsqueda +Alfab%E9tica Garca, A. (2004). "Instrumentos de representacin del conocimiento: tesauros versus ontologas". [en lnea]. EN: Anales de Documentacin (7). 79-95. http://www.um.es/fccd/anales/ad07/ad0706.pdf [Consulta: 19 marzo 2005] Para definicin de tesauro Silvia Arano. Los tesauros y las ontologas en la Biblioteconoma y la Documentacin [on line]. "Hipertext.net", nm. 3, 2005. [Consulta: 11/06/2006]. ISSN 1695-5498