el archivo de internet, bibliotecas que piensan en el futuro. mar pérez morillo

20
El archivo de Internet, bibliotecas que piensan en el futuro Mar Pérez Morillo Jefe del Servicio de Coordinación Web, Biblioteca Nacional de España

Upload: biblioteca-nacional-de-espana

Post on 05-Jul-2015

6.049 views

Category:

Technology


1 download

DESCRIPTION

Presentada en "FESABID, XII Jornada Española de Documentación". 26 de mayo de 2011. Málaga

TRANSCRIPT

Page 1: El archivo de Internet, bibliotecas que piensan en el futuro. Mar Pérez Morillo

El archivo de Internet, bibliotecas que piensan en el futuro

Mar Pérez MorilloJefe del Servicio de Coordinación Web, Biblioteca Nacional de España

Page 2: El archivo de Internet, bibliotecas que piensan en el futuro. Mar Pérez Morillo

BIBLIOTECA NACIONAL DE ESPAÑA2

Índice

– Contexto• Consideraciones generales

– Panorama internacional• IIPC• Biblioteca Nacional de Francia• Biblioteca Nacional de Austria• ISO TC 46/SC 8/WG 9

– La ley de Depósito Legal– El proyecto de la BNE

• Primeros pasos• Situación actual – Planes inmediatos• Perspectivas de futuro

El archivo de Internet, bibliotecas que piensan en el futuro

Page 3: El archivo de Internet, bibliotecas que piensan en el futuro. Mar Pérez Morillo

BIBLIOTECA NACIONAL DE ESPAÑA3

Contexto

Directrices de la UNESCO para la Preservación del Patrimonio Digital (marzo, 2003)

– Volumen de los datos.

– Duración de la información en línea (44 días y 2 años).

– Internet constituye un invalorable espejo de la sociedad.

– La producción de información en el mundo en medios tradicionales disminuye año tras año frente a los objetos digitales que crecen sin cesar.

El archivo de Internet, bibliotecas que piensan en el futuro

Page 4: El archivo de Internet, bibliotecas que piensan en el futuro. Mar Pérez Morillo

BIBLIOTECA NACIONAL DE ESPAÑA4

Contexto: consideraciones generales

– Tarea llena de retos

– Finales de los 90: Internet → fundamental en la difusión del conocimiento

– Los documentos en línea desaparecen de repente

– Falta de perspectiva histórica: valor impredecible

– La web no es un depósito de ejemplares

– Características de la web: grande, global, rápida, intangible, universal

El archivo de Internet, bibliotecas que piensan en el futuro

Page 5: El archivo de Internet, bibliotecas que piensan en el futuro. Mar Pérez Morillo

BIBLIOTECA NACIONAL DE ESPAÑA5

Panorama Internacional: IIPC

– Fundada en 2003 por 11 bibliotecas nacionales e Internet Archive

– Adquirir, preservar y hacer accesible la información en internet para el futuro

– Objetivos:• Posibilitar recolección, preservación y acceso a largo plazo

a contenidos de internet• Desarrollar herramientas comunes para crear archivos

internacionales• Defender iniciativas internacionales con este propósito• Apoyar a instituciones dedicadas a esta tarea

El archivo de Internet, bibliotecas que piensan en el futuro

Page 6: El archivo de Internet, bibliotecas que piensan en el futuro. Mar Pérez Morillo

BIBLIOTECA NACIONAL DE ESPAÑA6

Panorama Internacional: IIPC

– Grupos de trabajo muy activos:• Recolección• Acceso• Preservación

– Proyectos de colaboración:• Facebook• Wikileaks• Terremoto y tsunami en Japón (Internet Archive - National Diet)• Olimpiadas 2012• Memento

El archivo de Internet, bibliotecas que piensan en el futuro

Page 7: El archivo de Internet, bibliotecas que piensan en el futuro. Mar Pérez Morillo

BIBLIOTECA NACIONAL DE ESPAÑA7

Panorama Internacional

– BnF (Biblioteca Nacional de Francia) → desde 2002• Al amparo de su ley de DL• Sólo acceso para investigadores en sus instalaciones• Combinan recolección masiva y selectiva• Empezaron con Internet Archive y se independizaron

– Biblioteca Nacional de Austria• Empezaron haciendo sólo recolección selectiva y por

acontecimientos• En 2010 hicieron su primera recolección del dominio .at• Su política es combinar los tres modelos (selectiva, por

acontecimientos y masiva)– Ambas utilizan Netarchive Suite

El archivo de Internet, bibliotecas que piensan en el futuro

Page 8: El archivo de Internet, bibliotecas que piensan en el futuro. Mar Pérez Morillo

BIBLIOTECA NACIONAL DE ESPAÑA8

Panorama Internacional: Iniciativas de archivado web

El archivo de Internet, bibliotecas que piensan en el futuro

Page 9: El archivo de Internet, bibliotecas que piensan en el futuro. Mar Pérez Morillo

BIBLIOTECA NACIONAL DE ESPAÑA9

Panorama Internacional: ISO TC 46/SC 8/WG 9

El archivo de Internet, bibliotecas que piensan en el futuro

Estadísticas y aspectos de calidad en los archivos web

– Objetivo: elaborar un informe técnico– Definición de términos y elementos relativos a estos proyectos– Establecer aspectos cuantificables para medir la calidad– Repaso de distintos aspectos relacionados con este tipo de proyectos:

• Personal• Costes• Evaluación → establecimiento de indicadores de calidad• Tipos de proyectos según distintos criterios

– Estado actual de la cuestión

Page 10: El archivo de Internet, bibliotecas que piensan en el futuro. Mar Pérez Morillo

BIBLIOTECA NACIONAL DE ESPAÑA10

La Ley de Depósito Legal en España

El archivo de Internet, bibliotecas que piensan en el futuro

– Decreto del 57:• Preocupación por regular “las obras derivadas de los inventos

modernos”– Anteproyecto de ley de DL (2011)

• Publicaciones digitales → patrimonio a preservar• Acceso y consulta de publicaciones almacenadas• Publicaciones digitales →objeto de DL• Sitios web → incluidos en el DL• Centros de conservación → habilitados para rastrearlos y

conservarlos• Límites: propiedad intelectual y protección de datos

Page 11: El archivo de Internet, bibliotecas que piensan en el futuro. Mar Pérez Morillo

BIBLIOTECA NACIONAL DE ESPAÑA11

El proyecto de la BNE: Primeros pasos

El archivo de Internet, bibliotecas que piensan en el futuro

• Primer contrato con Internet Archive: 2009-2010

• Objetivo: recolectar, archivar y preservar el dominio .es

• Primeras recolecciones

4 recolecciones masivas: 1 en 2009 y 3 complementarias en 2010

• Después de cada recolección:

Deduplicación

Indización

Rastreo de parcheado

Page 12: El archivo de Internet, bibliotecas que piensan en el futuro. Mar Pérez Morillo

BIBLIOTECA NACIONAL DE ESPAÑA12

El proyecto de la BNE: Primeros pasos

El archivo de Internet, bibliotecas que piensan en el futuro

Page 13: El archivo de Internet, bibliotecas que piensan en el futuro. Mar Pérez Morillo

BIBLIOTECA NACIONAL DE ESPAÑA13

El proyecto de la BNE: Situación actual

El archivo de Internet, bibliotecas que piensan en el futuro

• Resultados:

30 TB de información almacenada

Más de 875 millones de URL:

Más de 317 millones en la primera recolección

Cantidades menores en las tres siguientes complementarias

• Acceso a la colección

• Interfaz de consulta que necesita personalización

• Búsquedas:

Por URL

Por palabra a texto completo (necesita depuración)

Page 14: El archivo de Internet, bibliotecas que piensan en el futuro. Mar Pérez Morillo

BIBLIOTECA NACIONAL DE ESPAÑA14

El proyecto de la BNE: Situación actual

El archivo de Internet, bibliotecas que piensan en el futuro

• Informes

MIME (Multipurpose Internet Mail Extension)

Respuestas de servidores

Servidores

Exclusiones

• Análisis de la colección mediante calas:

Páginas recolectadas con éxito

Niveles de navegación que se han guardado

Porcentaje de webs guardadas que han desaparecido (casi un 3%)

Otros dominios capturados aparte de .es

Aproximación a porcentaje de temáticas

Page 15: El archivo de Internet, bibliotecas que piensan en el futuro. Mar Pérez Morillo

BIBLIOTECA NACIONAL DE ESPAÑA15

El proyecto de la BNE: Planes inmediatos

El archivo de Internet, bibliotecas que piensan en el futuro

• Perspectivas de crecimiento 2011-2012

• Nuevo contrato con Internet Archive:

2 recolecciones masivas (2011), alternadas con

2 recolecciones selectivas (2011 y 2012):

Temáticas

Acontecimientos (Elecciones Generales 2012)

• Buscar colaboradores para las recolecciones selectivas

• Probablemente estaremos cerca de duplicar la colección actual

• Análisis de la colección muy de cerca durante los rastreos

• Pruebas de rastreo propias con NetarchiveSuite → podremos evaluar en algunos aspectos nuestra capacidad de autogestión

Page 16: El archivo de Internet, bibliotecas que piensan en el futuro. Mar Pérez Morillo

BIBLIOTECA NACIONAL DE ESPAÑA16

El proyecto de la BNE: Planes inmediatos

El archivo de Internet, bibliotecas que piensan en el futuro

Page 17: El archivo de Internet, bibliotecas que piensan en el futuro. Mar Pérez Morillo

BIBLIOTECA NACIONAL DE ESPAÑA17

El proyecto de la BNE: Planes inmediatos

El archivo de Internet, bibliotecas que piensan en el futuro

Page 18: El archivo de Internet, bibliotecas que piensan en el futuro. Mar Pérez Morillo

BIBLIOTECA NACIONAL DE ESPAÑA18

El proyecto de la BNE: Perspectivas de futuro

El archivo de Internet, bibliotecas que piensan en el futuro

• Acceso a la colección ¿en local o en remoto?

• Personalización de la interfaz

• Traslado de la colección:

Propuesta con varias alternativas por parte de IA

Habilitación de espacio físico

Recursos para el mantenimiento de la colección

• Recolectamos nosotros → adopción y desarrollo de un software

• Gestión de la colección:

Organización temática

Planificación de nuevas recolecciones

Inclusión de otros dominios españoles fuera del .es

• Colaboración con Comunidades Autónomas (??)

Page 19: El archivo de Internet, bibliotecas que piensan en el futuro. Mar Pérez Morillo

BIBLIOTECA NACIONAL DE ESPAÑA19

Referencias de interés

– IIPC: www.netpreserve.org

– Proyecto Memento: http://www.mementoweb.org/

– Wiki de proyectos de archivado web: http://en.wikipedia.org/wiki/List_of_Web_Archiving_Initiatives

– Internet Archive: www.archive.org

– Archivos de internet en la BnF: http://www.bnf.fr/fr/collections_et_services/livre_presse_medias/a.archives_internet.html

– Archivo web de la Biblioteca Nacional de Austria: http://www.onb.ac.at/ev/about/webarchive.htm

– Preservación digital del dominio .es: http://www.bne.es/es/LaBNE/PreservacionDominioES/index.html

– NetarchiveSuite: http://netarchive.dk/suite/Welcome

– “A Memory of Webs Past”, http://spectrum.ieee.org/telecom/internet/a-memory-of-webs-past/0

El archivo de Internet, bibliotecas que piensan en el futuro

Page 20: El archivo de Internet, bibliotecas que piensan en el futuro. Mar Pérez Morillo

Mar Pérez MorilloServicio de Coordinación Web

[email protected]

Pº de Recoletos, 20-22 28071 Madrid

EspañaT +34 915 807 800

www.bne.es

BIBLIOTECA NACIONAL DE ESPAÑA