indexado de texto completo en textos digitalizados 5a jornada sobre la biblioteca digital...

14
“Indexado de texto completo en textos digitalizados” 5a Jornada sobre la Biblioteca Digital Universitaria 9 Noviembre de 2007 Marcio Luis Andrade Lessa Biblioteca Nacional de Maestros

Upload: desiderio-melchor

Post on 12-Jan-2015

5 views

Category:

Documents


2 download

TRANSCRIPT

Page 1: Indexado de texto completo en textos digitalizados 5a Jornada sobre la Biblioteca Digital Universitaria 9 Noviembre de 2007 Marcio Luis Andrade Lessa Biblioteca

“Indexado de texto completo en textos

digitalizados”5a Jornada sobre la Biblioteca Digital

Universitaria9 Noviembre de 2007

Marcio Luis Andrade Lessa

Biblioteca Nacional de Maestros

Page 2: Indexado de texto completo en textos digitalizados 5a Jornada sobre la Biblioteca Digital Universitaria 9 Noviembre de 2007 Marcio Luis Andrade Lessa Biblioteca

En que consiste

Es un buscador que le da al usuario la posibilidad de buscar frases o palabras en textos digitalizados en formato de imagen.

Page 3: Indexado de texto completo en textos digitalizados 5a Jornada sobre la Biblioteca Digital Universitaria 9 Noviembre de 2007 Marcio Luis Andrade Lessa Biblioteca

El material en una biblioteca digital se somete a:

• Catalogación• Digitalización• Indexado de texto completo del

contenido

Page 4: Indexado de texto completo en textos digitalizados 5a Jornada sobre la Biblioteca Digital Universitaria 9 Noviembre de 2007 Marcio Luis Andrade Lessa Biblioteca

Catalogación

Interfases de catalogación: IsisMarc – Catalis – Aguapey Software de catalogación y OPAC: microIsis – OpenIsis - Malette

Page 5: Indexado de texto completo en textos digitalizados 5a Jornada sobre la Biblioteca Digital Universitaria 9 Noviembre de 2007 Marcio Luis Andrade Lessa Biblioteca

Proceso para la digitalización

• Imágenes: registro asociado y metadatos• Digitalización de videos: registro asociado

y metadatos• Texto en imagen: se lo digitaliza y se

realiza un control de calidad.– OCR: Se realiza de manera automática un

conocimiento óptico de caracteres y se somete a algoritmos de depuración.

– Indexación: Se alimenta una base de datos con el documento asociado.

Page 6: Indexado de texto completo en textos digitalizados 5a Jornada sobre la Biblioteca Digital Universitaria 9 Noviembre de 2007 Marcio Luis Andrade Lessa Biblioteca

Organización del material

• Material organizado por inventario y páginas

• Software que actúa como “book reader” con conversión automática de formatos.

• Software para “streaming” de los videos digitalizados

Page 7: Indexado de texto completo en textos digitalizados 5a Jornada sobre la Biblioteca Digital Universitaria 9 Noviembre de 2007 Marcio Luis Andrade Lessa Biblioteca

Almacenaje

Inventario

Número de página

Sistema de archivos: ReiserFS

(Permite hasta 2.000.0000 de archivos por directorio)

Imagen: 200-360 DPI (2 MBY aprox en JPG)

00011354 - 0003 . JPG

00011354

Page 8: Indexado de texto completo en textos digitalizados 5a Jornada sobre la Biblioteca Digital Universitaria 9 Noviembre de 2007 Marcio Luis Andrade Lessa Biblioteca

Automatización

• Se cataloga el material agregando el registro correspondiente a la base de datos.• Se procede a la digitalización del material en las estaciones de trabajo• Control de calidad del material digitalizado• Ejecución de “script” de actualización del buscador

Page 9: Indexado de texto completo en textos digitalizados 5a Jornada sobre la Biblioteca Digital Universitaria 9 Noviembre de 2007 Marcio Luis Andrade Lessa Biblioteca

Reconocimiento óptico de caracteres

• Se tiene un porcentaje bajo de errores en la digitalización el mas bajo es de 2 % para implementar un buscador en un muy buen índice de errores…

• Software: GOCR –Ocrad• Mediante IPC (Interprocess comunication)• Salida mediante una (pipe)

Page 10: Indexado de texto completo en textos digitalizados 5a Jornada sobre la Biblioteca Digital Universitaria 9 Noviembre de 2007 Marcio Luis Andrade Lessa Biblioteca

Algoritmos de depuración

• Por distancia: vectorizado de palabras• Algoritmo de “Bayer”• B-Tree*

Page 11: Indexado de texto completo en textos digitalizados 5a Jornada sobre la Biblioteca Digital Universitaria 9 Noviembre de 2007 Marcio Luis Andrade Lessa Biblioteca

Software de bases de datos

Se puede implementar en:

• Berkeley DB (base de datos no relacional: MySQL y Oracle fueron construidos con ella)

• MYSQL o cualquier otro motor de base datos relacional• ZODB (Base datos orientada a objetos – Python)

Page 12: Indexado de texto completo en textos digitalizados 5a Jornada sobre la Biblioteca Digital Universitaria 9 Noviembre de 2007 Marcio Luis Andrade Lessa Biblioteca

Arquitectura informáticaEstaciones de trabajo

Internet

Servicios:

Sitio web

Catálogos

Lectura de documentos on-line

Streaming de video

Cluster

Linux: etherblades + GFS

Page 13: Indexado de texto completo en textos digitalizados 5a Jornada sobre la Biblioteca Digital Universitaria 9 Noviembre de 2007 Marcio Luis Andrade Lessa Biblioteca

ConclusionesPros: • Manera fácil y barata de implementar un buscador de texto completo en imágenes utilizando software libre.• Se realiza todo de manera casi automatizada.

Contras: • El material debe estar en buen estado y hay ciertas restricciones a algunas tipografías de los documentos (dependiendo

del OCR).• Hay que realizar una buena gestión de la calidad en los documentos digitalizados.

Page 14: Indexado de texto completo en textos digitalizados 5a Jornada sobre la Biblioteca Digital Universitaria 9 Noviembre de 2007 Marcio Luis Andrade Lessa Biblioteca

Contacto

Marcio Luis Andrade Lessa

Biblioteca Nacional de Maestros

Teléfono: 4129-1203

E-Mail: [email protected]