2º periodismo documentación informativa david rodríguez mateos - 2004 almacenamiento y...

27
2º Periodism umentación Informativa David Rodríguez Mateos - 2 ALMACENAMIENTO Y RECUPERACIÓN DE LA INFORMACIÓN GENERADA POR UN MEDIO PERIODÍSTICO Tema 11 Documentación Informativa Licenciatura en Periodismo Universidad Carlos III de Madrid Curso 2004/2005

Upload: xiomara-zarco

Post on 23-Jan-2016

214 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: 2º Periodismo Documentación Informativa David Rodríguez Mateos - 2004 ALMACENAMIENTO Y RECUPERACIÓN DE LA INFORMACIÓN GENERADA POR UN MEDIO PERIODÍSTICO

2º Periodismo

Documentación Informativa David Rodríguez Mateos - 2004

ALMACENAMIENTO Y RECUPERACIÓN DE LA INFORMACIÓN GENERADA POR

UN MEDIO PERIODÍSTICO

Tema 11

Documentación InformativaLicenciatura en Periodismo

Universidad Carlos III de Madrid

Curso 2004/2005

Page 2: 2º Periodismo Documentación Informativa David Rodríguez Mateos - 2004 ALMACENAMIENTO Y RECUPERACIÓN DE LA INFORMACIÓN GENERADA POR UN MEDIO PERIODÍSTICO

2º Periodismo

Documentación Informativa David Rodríguez Mateos - 2004

Índice

1. Almacenamiento de contenidos

2. El control físico de los documentos

3. Los contenidos digitales

4. Guardar para recuperar: productos documentales de almacenamiento

5. Sistemas de recuperación de información (SRI)

6. Recuperación de datos / recuperación de documentos

7. Diseño y uso de los SRI

8. Cómo recuperar documentos relevantes

9. ¿Cómo representar la información para que pueda ser recuperada?

10. Algunos parámetros de evaluación de SRI

11. Efectividad de los SRI

12. Los grandes problemas de la recuperación de información

Page 3: 2º Periodismo Documentación Informativa David Rodríguez Mateos - 2004 ALMACENAMIENTO Y RECUPERACIÓN DE LA INFORMACIÓN GENERADA POR UN MEDIO PERIODÍSTICO

2º Periodismo

Documentación Informativa David Rodríguez Mateos - 2004

1. Almacenamiento de contenidos

• Funciones– Mantener el control físico de los documentos

durante un periodo de tiempo• ¿Dónde están?• ¿Cuánto tiempo pueden durar? Conservación

– Permitir su reutilización• ¿Cómo localizar físicamente un documento?

– Necesidad de una buena descripción formal Especialmente, de los elementos materiales (soporte,

tamaño, ubicación, duración...)– Necesidad de una buena clasificación

Válida para ordenar los documentos por unos mismos criterios

11.1.2.3.4.5.6.7.8.9.10.11.12

Page 4: 2º Periodismo Documentación Informativa David Rodríguez Mateos - 2004 ALMACENAMIENTO Y RECUPERACIÓN DE LA INFORMACIÓN GENERADA POR UN MEDIO PERIODÍSTICO

2º Periodismo

Documentación Informativa David Rodríguez Mateos - 2004

2. El control físico de los documentos•  Diferentes tipos de soporte

– Papel• Diferentes calidades

– Soporte magnético • Disquetes, discos duros (internos/externos), unidades ZIP, memorias

flash...)

– Soporte óptico• CD, DVD, Laserdisc...

• ¿Cómo elegir un soporte?• Por su duración física

– Los soportes ópticos, a priori, son más duraderos– Los soportes magnéticos, a priori, son mucho más frágiles

• Por su facilidad de acceso– Los soportes magnéticos y ópticos requieren un reproductor– Pero permiten almacenar contenidos digitales

11.1.2.3.4.5.6.7.8.9.10.11.12

Page 5: 2º Periodismo Documentación Informativa David Rodríguez Mateos - 2004 ALMACENAMIENTO Y RECUPERACIÓN DE LA INFORMACIÓN GENERADA POR UN MEDIO PERIODÍSTICO

2º Periodismo

Documentación Informativa David Rodríguez Mateos - 2004

3. Los contenidos digitales• ¿Por qué usar contenidos digitales?

– Estructuración• Los contenidos pueden estar físicamente en distintos

lugares– Pero pueden verse como un solo conjunto– Distintos objetos pueden verse en diferentes conjuntos

– Interrelación• Hiperenlaces: desde un documento se puede acceder a

otros directamente

– Reutilización• Copiar y cortar contenidos digitales es más fácil

– Multimedia• Un soporte puede almacenar múltiples formatos• Un documento puede estar formado por diferentes formatos

11.1.2.3.4.5.6.7.8.9.10.11.12

Page 6: 2º Periodismo Documentación Informativa David Rodríguez Mateos - 2004 ALMACENAMIENTO Y RECUPERACIÓN DE LA INFORMACIÓN GENERADA POR UN MEDIO PERIODÍSTICO

2º Periodismo

Documentación Informativa David Rodríguez Mateos - 2004

4. Guardar para recuperar: productos documentales de almacenamiento

• Productos documentales– Sirven para facilitar la recuperación de

información

• Recuperación de información– Conjunto de tareas mediante las cuales el

usuario localiza y accede a la información pertinente (útil) para la resolución de un problema planteado

11.1.2.3.4.5.6.7.8.9.10.11.12

Page 7: 2º Periodismo Documentación Informativa David Rodríguez Mateos - 2004 ALMACENAMIENTO Y RECUPERACIÓN DE LA INFORMACIÓN GENERADA POR UN MEDIO PERIODÍSTICO

2º Periodismo

Documentación Informativa David Rodríguez Mateos - 2004

4. Guardar para recuperar: productos documentales de almacenamiento

• Productos documentales– Carpetas

• Agrupan todos los documentos sobre un tema o un personaje concreto

• No tienen ninguna relación explícita entre ellos (son un mero soporte físico)

– Originalmente, en papel

– Actualmente, también se usan en soportes digitales

– Dossieres• Información sobre un tema concreto, un personaje, etc.• Organizada y relacionada entre sí

11.1.2.3.4.5.6.7.8.9.10.11.12

Page 8: 2º Periodismo Documentación Informativa David Rodríguez Mateos - 2004 ALMACENAMIENTO Y RECUPERACIÓN DE LA INFORMACIÓN GENERADA POR UN MEDIO PERIODÍSTICO

2º Periodismo

Documentación Informativa David Rodríguez Mateos - 2004

4. Guardar para recuperar: productos documentales de almacenamiento

• Productos documentales– Cronologías

• Recopilación de referencias sobre hechos agrupadas por orden temporal

– Previsiones• Recopilación de menciones a hechos futuros que, con

certeza o con una alta probabilidad, se van a producir– A veces, son denominadas calendarios

– Sistemas de recuperación de información (SRI)• Formas de almacenar contenidos digitales

– Pueden agrupar contenidos sobre un mismo tema o sobre temas distintos

– Permiten recuperar esos contenidos buscando por palabras que estén insertas en esos contenidos

11.1.2.3.4.5.6.7.8.9.10.11.12

Page 9: 2º Periodismo Documentación Informativa David Rodríguez Mateos - 2004 ALMACENAMIENTO Y RECUPERACIÓN DE LA INFORMACIÓN GENERADA POR UN MEDIO PERIODÍSTICO

2º Periodismo

Documentación Informativa David Rodríguez Mateos - 2004

5. Sistemas de recuperación de información (SRI)

• Referenciales: bases de datos (SGBD)– Contienen datos (referencias) sobre objetos del

mundo real• Ejemplos

– Datos personales– Datos formales sobre documentos– Datos estadísticos– Etc.

• Texto completo: bases documentales (SBD)– Permiten búsqueda sobre el contenido completo de

los documentos• A veces, una base documental puede incorporar datos

adjuntos (por ejemplo, descriptores documentales o datos formales)

11.1.2.3.4.5.6.7.8.9.10.11.12

Page 10: 2º Periodismo Documentación Informativa David Rodríguez Mateos - 2004 ALMACENAMIENTO Y RECUPERACIÓN DE LA INFORMACIÓN GENERADA POR UN MEDIO PERIODÍSTICO

2º Periodismo

Documentación Informativa David Rodríguez Mateos - 2004

6. Recuperación de datos / recuperación de documentos

• Recuperación directa que responde la pregunta del usuario.

• Ej: Quiero saber el nombre del director de Casablanca.

• Necesariamente, existe una relación entre una pregunta bien construida y la respuesta correcta.

• Recuperación indirecta que proporciona o referencia a un conjunto de documentos que probablemente contenga la respuesta a lo que pregunta el usuario

Ej: Quiero encontrar información sobre Casablanca.

• Probablemente, existe una relación entre una pregunta bien construida y la respuesta correcta.

11.1.2.3.4.5.6.7.8.9.10.11.12

Recuperación de datos Recuperación de documentos

Page 11: 2º Periodismo Documentación Informativa David Rodríguez Mateos - 2004 ALMACENAMIENTO Y RECUPERACIÓN DE LA INFORMACIÓN GENERADA POR UN MEDIO PERIODÍSTICO

2º Periodismo

Documentación Informativa David Rodríguez Mateos - 2004

6. Recuperación de datos / recuperación de documentos

• El criterio para medir el éxito de una búsqueda es la corrección de la respuesta

• Evaluación objetiva• ¿Es la respuesta correcta?

• La velocidad de la recuperación depende sobre todo de la velocidad del acceso físico del sistema que se utilice

• Un buen ordenador• Un buen SRI• Una buena red de

comunicacion

• El criterio para medir el éxito de una búsqueda es su utilidad.

• Evaluación subjetiva• ¿Se ha satisfecho la

necesidad del usuario?

• La velocidad de la recuperación depende

• sobre todo del número de decisiones lógicas que el usuario debe tomar durante el desarrollo de la búsqueda

• sólo secundariamente de la velocidad del acceso del sistema que se utilice.

11.1.2.3.4.5.6.7.8.9.10.11.12

Recuperación de datos Recuperación de documentos

Page 12: 2º Periodismo Documentación Informativa David Rodríguez Mateos - 2004 ALMACENAMIENTO Y RECUPERACIÓN DE LA INFORMACIÓN GENERADA POR UN MEDIO PERIODÍSTICO

2º Periodismo

Documentación Informativa David Rodríguez Mateos - 2004

7. Diseño y uso de los SRI• El diseño de los sistemas de recuperación de datos es simple

– Cada ítem (característica) de un dato sólo tiene un punto de acceso

• Si un usuario busca el nombre del autor del artículo en una base de datos de referencias sobre artículos, solo podrá encontrarlo en un lugar de la base de datos (un campo de autores)

• Los documentos tienen múltiples y distintos puntos de acceso• Si un usuario busca menciones a una persona en un

documento, ¿dónde puede estar?• Un sistema de recuperación de documentos debe

– Proporcionar un gran número de puntos de acceso a un documento

– Proporcionar el acceso a ese documento a través de un gran número de combinaciones booleanas de esos puntos de acceso.

11.1.2.3.4.5.6.7.8.9.10.11.12

Page 13: 2º Periodismo Documentación Informativa David Rodríguez Mateos - 2004 ALMACENAMIENTO Y RECUPERACIÓN DE LA INFORMACIÓN GENERADA POR UN MEDIO PERIODÍSTICO

2º Periodismo

Documentación Informativa David Rodríguez Mateos - 2004

7. Diseño y uso de los SRI

• Expectativas del usuario– En un sistema de recuperación de datos

• El usuario espera conocer con exactitud el dato por el que preguntaba.

– En un sistema de recuperación de documentos • El usuario raramente espera recuperar todos los

documentos y sólo la información que buscaba• Normalmente espera documentos no relevantes (que

deberá visualizar y desechar)• Además, nunca tiene la certeza de qué documentos

relevantes no ha encontrado (por indización incorrecta, por búsqueda incorrecta...)

11.1.2.3.4.5.6.7.8.9.10.11.12

Page 14: 2º Periodismo Documentación Informativa David Rodríguez Mateos - 2004 ALMACENAMIENTO Y RECUPERACIÓN DE LA INFORMACIÓN GENERADA POR UN MEDIO PERIODÍSTICO

2º Periodismo

Documentación Informativa David Rodríguez Mateos - 2004

8. Cómo recuperar documentos relevantes

• La recuperación de documentos relevantes (útiles) debe equilibrar dos objetivos:1. Predecir cómo están representados o indexados

los documentos que le van a ser útiles.• El que busca en un SBD debe tratar de predecir

– Los términos que han servido para representar un documento en el SBD

– Los términos utilizados para representar documentos no relevantes.

2. Recuperar un conjunto de documentos lo suficientemente pequeño para visualizarlos y encontrar los más útiles.

11.1.2.3.4.5.6.7.8.9.10.11.12

Page 15: 2º Periodismo Documentación Informativa David Rodríguez Mateos - 2004 ALMACENAMIENTO Y RECUPERACIÓN DE LA INFORMACIÓN GENERADA POR UN MEDIO PERIODÍSTICO

2º Periodismo

Documentación Informativa David Rodríguez Mateos - 2004

8. Cómo recuperar documentos relevantes

• La recuperación de documentos relevantes (útiles) debe equilibrar dos objetivos:1. Predecir cómo están representados o indexados

los documentos que le van a ser útiles.• El que busca en un SBD debe tratar de predecir

– Los términos que han servido para representar un documento en el SBD

– Los términos utilizados para representar documentos no relevantes.

11.1.2.3.4.5.6.7.8.9.10.11.12

Page 16: 2º Periodismo Documentación Informativa David Rodríguez Mateos - 2004 ALMACENAMIENTO Y RECUPERACIÓN DE LA INFORMACIÓN GENERADA POR UN MEDIO PERIODÍSTICO

2º Periodismo

Documentación Informativa David Rodríguez Mateos - 2004

8. Cómo recuperar documentos relevantes

• La recuperación de documentos relevantes (útiles) debe equilibrar dos objetivos:

2. Recuperar un conjunto de documentos lo suficientemente pequeño para visualizarlos y encontrar los más útiles

• Criterio de predicción ideal: conjunto de palabras, frases o descripciones contextuales que representan únicamente al conjunto de documentos relevantes en los que se está interesado.

• Importa el objetivo final, no solo la estrategia inicial • El número de documentos recuperados en una búsqueda

debe ser más pequeño que el punto de futilidad del usuario = el número máximo de documentos recuperados que la persona que busca está dispuesto a visualizar

11.1.2.3.4.5.6.7.8.9.10.11.12

Page 17: 2º Periodismo Documentación Informativa David Rodríguez Mateos - 2004 ALMACENAMIENTO Y RECUPERACIÓN DE LA INFORMACIÓN GENERADA POR UN MEDIO PERIODÍSTICO

2º Periodismo

Documentación Informativa David Rodríguez Mateos - 2004

9. ¿Cómo representar la información para que pueda ser recuperada?

• La representación de datos es un conjunto de descripciones completas del dato que se referencia: una dirección, un precio, etc.

• La representación de documentos es una representación incompleta del contenido intelectual o contexto del documento– Incluso cuando se trata de SBD (a texto completo)

• Muchas SRI son híbridos– Tienen los contenidos a texto completo– Añaden una parte de BD (campos de descripción documental)

• Pero ni siquiera así se pueden cubrir todos los posibles puntos de acceso a un documento PROBLEMA LINGÜISTICO

– ¿De cuántas formas se pueden mencionar todos los temas tratados en un documento?

11.1.2.3.4.5.6.7.8.9.10.11.12

Page 18: 2º Periodismo Documentación Informativa David Rodríguez Mateos - 2004 ALMACENAMIENTO Y RECUPERACIÓN DE LA INFORMACIÓN GENERADA POR UN MEDIO PERIODÍSTICO

2º Periodismo

Documentación Informativa David Rodríguez Mateos - 2004

10. Algunos parámetros de evaluación de SRI

• Tiempos  – De entrada – Para una búsqueda simple – Para una búsqueda complicada – Para truncados – Para visualizar índices – Para visualizar resultados – Para imprimir resultados – Para descargar registros – Para comenzar una nueva sesión – Para salir 

11.1.2.3.4.5.6.7.8.9.10.11.12

Page 19: 2º Periodismo Documentación Informativa David Rodríguez Mateos - 2004 ALMACENAMIENTO Y RECUPERACIÓN DE LA INFORMACIÓN GENERADA POR UN MEDIO PERIODÍSTICO

2º Periodismo

Documentación Informativa David Rodríguez Mateos - 2004

10. Algunos parámetros de evaluación de SRI

• Módulo de búsqueda  – Permite perfiles de usuario – Operadores booleanos – Operadores de proximidad – Adyacencia según un orden – Adyacencia sin orden – N palabras entre dos términos – La misma frase – El mismo descriptor – En el mismo subcampo – En el mismo campo– Operadores relacionales – >,<,=, intervalos, fuera de intervalos. 

11.1.2.3.4.5.6.7.8.9.10.11.12

Page 20: 2º Periodismo Documentación Informativa David Rodríguez Mateos - 2004 ALMACENAMIENTO Y RECUPERACIÓN DE LA INFORMACIÓN GENERADA POR UN MEDIO PERIODÍSTICO

2º Periodismo

Documentación Informativa David Rodríguez Mateos - 2004

10. Algunos parámetros de evaluación de SRI

• Módulo de búsqueda– Truncados – De longitud definida – De longitud indefinida – Truncado a la izquierda – Recuperación de singulares y plurales – Corrección de las expresiones de búsqueda – Longitud máxima de una expresión de búsqueda – Combinación de búsquedas – Búsquedas por índices de campos – Que el índice se sitúe en el término según tecleamos – Número máximo de términos que se pueden elegir del índice.– Historial de búsqueda – Borrado de búsquedas anteriores – Existencia de tesauro

11.1.2.3.4.5.6.7.8.9.10.11.12

Page 21: 2º Periodismo Documentación Informativa David Rodríguez Mateos - 2004 ALMACENAMIENTO Y RECUPERACIÓN DE LA INFORMACIÓN GENERADA POR UN MEDIO PERIODÍSTICO

2º Periodismo

Documentación Informativa David Rodríguez Mateos - 2004

10. Algunos parámetros de evaluación de SRI

• Visualización de la información  – Visualizar los resultados de cualquier búsqueda sin

tener que volver a realizarla – Número de formatos de visualización – Definición de formatos por el usuario – Guardar y reutilizar los formatos de usuario – Ir hacia delante y hacia atrás en la visualización – Visualizar un registro concreto, por su número – Marcar los registros que se necesitan – Marcar los registros que no se necesitan – Que resalte los términos por los que se ha buscado

11.1.2.3.4.5.6.7.8.9.10.11.12

Page 22: 2º Periodismo Documentación Informativa David Rodríguez Mateos - 2004 ALMACENAMIENTO Y RECUPERACIÓN DE LA INFORMACIÓN GENERADA POR UN MEDIO PERIODÍSTICO

2º Periodismo

Documentación Informativa David Rodríguez Mateos - 2004

10. Algunos parámetros de evaluación de SRI

• Salidas de la información  – Imprimir o descargar – Número de registros que se pueden imprimir (se

puede ajustar) – Salida sólo de los registros marcados o de un

intervalo de registros– Capacidad del usuario para definir, guardar y

reutilizar formatos de salida– Descarga de la estrategia junto con los resultados – Clasificar la salida por uno o más campos 

11.1.2.3.4.5.6.7.8.9.10.11.12

Page 23: 2º Periodismo Documentación Informativa David Rodríguez Mateos - 2004 ALMACENAMIENTO Y RECUPERACIÓN DE LA INFORMACIÓN GENERADA POR UN MEDIO PERIODÍSTICO

2º Periodismo

Documentación Informativa David Rodríguez Mateos - 2004

11. Efectividad de los SRI

• Medida por dos parámetros– Exhaustividad

• De todos los posibles documentos relevantes en un SRI, ¿qué porcentaje hemos encontrado en nuestra búsqueda?

– Puede haber otros documentos relevantes que no hayamos encontrado = SILENCIO

– Precisión• De todos los documentos encontrados tras una

búsqueda en un SRI, ¿qué porcentaje incluye documentos relevantes?

– Puede haber documentos recuperados que no sean relevantes (no nos sirvan) = RUIDO

11.1.2.3.4.5.6.7.8.9.10.11.12

Page 24: 2º Periodismo Documentación Informativa David Rodríguez Mateos - 2004 ALMACENAMIENTO Y RECUPERACIÓN DE LA INFORMACIÓN GENERADA POR UN MEDIO PERIODÍSTICO

2º Periodismo

Documentación Informativa David Rodríguez Mateos - 2004

11. Efectividad de los SRI

RELEVANTE NO RELEVANTE

RECUPERADO A B

NO RECUPERADO

C D

• Exhaustividad = a/(a+c) • Nº docs. relevantes recup. / nº docs. relevantes

• Precisión = a/(a+b) Nº docs. relevantes recuperados / nº docs. recuperados

11.1.2.3.4.5.6.7.8.9.10.11.12

Page 25: 2º Periodismo Documentación Informativa David Rodríguez Mateos - 2004 ALMACENAMIENTO Y RECUPERACIÓN DE LA INFORMACIÓN GENERADA POR UN MEDIO PERIODÍSTICO

2º Periodismo

Documentación Informativa David Rodríguez Mateos - 2004

11. Efectividad de un SRI

• Principio que guía una búsqueda– Una búsqueda debe alcanzar alta exhaustividad

• Recuperando casi todo aquello que es relevante• Manteniendo al mismo tiempo una alta precisión• Rechazando una gran proporción de lo que no se desea

• Realidad de una búsqueda– Exhaustividad y precisión tienden a variar inversamente

• A mayor precisión menor exhaustividad, y viceversa.

– ¿Cómo se alcanzaría la "perfecta" exhaustividad?• Recuperando toda la base de datos precisión nula.• ¿Cómo se alcanzaría la precisión "perfecta"?

– Conociendo y recuperando previamente un documento que sabemos que se adecúa a lo que buscamos.

– Pero la exhaustividad sería nula.

11.1.2.3.4.5.6.7.8.9.10.11.12

Page 26: 2º Periodismo Documentación Informativa David Rodríguez Mateos - 2004 ALMACENAMIENTO Y RECUPERACIÓN DE LA INFORMACIÓN GENERADA POR UN MEDIO PERIODÍSTICO

2º Periodismo

Documentación Informativa David Rodríguez Mateos - 2004

12. Los grandes problemas de la recuperación de la información

1. ¿Qué significa relevancia?• Si se realizan dos búsquedas en un SRI, y se

recupera un documento que ya se conoce, puede resultar no relevante No aporta nueva información

2. ¿Cómo se mide la exhaustividad cuando su definición requiere conocer el número de documentos relevantes no recuperados?

• Cuánto más grande es el número de documentos, más difícil resulta saber cuáles de ellos podrían ser relevantes para una determinada búsqueda

11.1.2.3.4.5.6.7.8.9.10.11.12

Page 27: 2º Periodismo Documentación Informativa David Rodríguez Mateos - 2004 ALMACENAMIENTO Y RECUPERACIÓN DE LA INFORMACIÓN GENERADA POR UN MEDIO PERIODÍSTICO

2º Periodismo

Documentación Informativa David Rodríguez Mateos - 2004

Bibliografía

• HERNÁNDEZ PÉREZ, Antonio. "La búsqueda y recuperación de información en Internet." En: CARIDAD SEBASTIÁN, Mercdes (coordinadora). La sociedad de la información: Política, Tecnología e Industria de los contenidos. Madrid: Centro de Estudios Ramón Areces, 1999. p. 213-42.

• RODRÍGUEZ YUNTA, Luis. "Evaluación e indicadores de calidad en bases de datos." En: Revista Española de Documentación Científica, vol. 21, nº 1, (1998), p. 9-23.

• VALLE GASTAMINZA, Félix del. Teoría de la recuperación de información. Curso 2003/2004. http://www.ucm.es/info/multidoc/prof/fvalle/temamod.htm [Consulta: 24/01/2005]