![Page 1: Información no Estructurada MC Beatriz Beltrán Martínez Primavera 2015](https://reader035.vdocuments.co/reader035/viewer/2022062807/5665b4981a28abb57c927c42/html5/thumbnails/1.jpg)
Información no EstructuradaMC Beatriz Beltrán Martínez
Primavera 2015
![Page 2: Información no Estructurada MC Beatriz Beltrán Martínez Primavera 2015](https://reader035.vdocuments.co/reader035/viewer/2022062807/5665b4981a28abb57c927c42/html5/thumbnails/2.jpg)
Clasificación de la Información• La vida actual requiere de mucha información y
normalmente la información la podemos encontrar principalmente en:• Bibliotecas (es posible consultar sus catálogos en
Internet y la información en si misma).• Organismos de gobierno y no gubernamentales.• Expertos en el campo que estudiamos (muy útiles
para aclarar la estructura y las relaciones del tema que investigamos).• Sistemas comerciales de bases de datos como
EBSCO o Dialog
FCC
- BU
AP
Prim
aver
a 20
15M
C. B
eatr
iz B
eltr
án M
Artín
ez
2
![Page 3: Información no Estructurada MC Beatriz Beltrán Martínez Primavera 2015](https://reader035.vdocuments.co/reader035/viewer/2022062807/5665b4981a28abb57c927c42/html5/thumbnails/3.jpg)
Datos vs Información
• Los datos son componentes tangibles y cuantificables, por ejemplo de un artículo de congreso. Si se consideran los “datos” del artículo, se estarán considerando cosas como el título, el autor, las palabras clave, etc., que de alguna forma componen los “metadatos” del artículo.• Por otro lado, la información consiste en el
contenido del artículo, los temas que trata, las fórmulas que emplea, etc.
FCC
- BU
AP
Prim
aver
a 20
15M
C. B
eatr
iz B
eltr
án M
Artín
ez
3
![Page 4: Información no Estructurada MC Beatriz Beltrán Martínez Primavera 2015](https://reader035.vdocuments.co/reader035/viewer/2022062807/5665b4981a28abb57c927c42/html5/thumbnails/4.jpg)
•En el caso de los datos, se puede definir atributos de los documentos que parecen sobresalientes, al momento de realizar búsquedas; mientras que con la información se tendría primero que leer el material para determinar qué es relevante y qué no lo es.
Datos vs Información
FCC
- BU
AP
Prim
aver
a 20
15M
C. B
eatr
iz B
eltr
án M
Artín
ez
4
![Page 5: Información no Estructurada MC Beatriz Beltrán Martínez Primavera 2015](https://reader035.vdocuments.co/reader035/viewer/2022062807/5665b4981a28abb57c927c42/html5/thumbnails/5.jpg)
Definición
• La Recuperación de Información (o Information Retrieval) es la representación, almacenamiento, organización y acceso a ítems de información.• El objetivo principal de la Recuperación de
Información es satisfacer la necesidad de información planteada por un usuario en una consulta en lenguaje natural especificada a través de un conjunto de palabras claves.• Un sistema de recuperación de información
encuentra datos importantes que hagan la mejor coincidencia parcial con el patrón dado.
FCC
- BU
AP
Prim
aver
a 20
15M
C. B
eatr
iz B
eltr
án M
Artín
ez
5
![Page 6: Información no Estructurada MC Beatriz Beltrán Martínez Primavera 2015](https://reader035.vdocuments.co/reader035/viewer/2022062807/5665b4981a28abb57c927c42/html5/thumbnails/6.jpg)
Definición
• Dada una colección de documentos y una consulta del usuario, el objetivo de una estrategia de búsqueda es obtener todos y sólo los documentos relevantes a la consulta. • El proceso hacia la recuperación de documentos
relevantes a la consulta, no es un proceso simple debido a la complejidad semántica del vocabulario.• Esto se debe a que generalmente trata con texto en
lenguaje natural, el cual no está siempre bien estructurado y podría ser semánticamente ambiguo.
FCC
- BU
AP
Prim
aver
a 20
15M
C. B
eatr
iz B
eltr
án M
Artín
ez
6
![Page 7: Información no Estructurada MC Beatriz Beltrán Martínez Primavera 2015](https://reader035.vdocuments.co/reader035/viewer/2022062807/5665b4981a28abb57c927c42/html5/thumbnails/7.jpg)
Expansión de consultas
•Encontrar otros términos equivalentes o más adecuados para expresar un concepto es realizar una expansión de consulta.•Para esta expansión, que puede ser desarrollada manual, automática o interactivamente, se pueden utilizar recursos lingüísticos (diccionarios, tesauros y ontologías).
FCC
- BU
AP
Prim
aver
a 20
15M
C. B
eatr
iz B
eltr
án M
Artín
ez
7
![Page 8: Información no Estructurada MC Beatriz Beltrán Martínez Primavera 2015](https://reader035.vdocuments.co/reader035/viewer/2022062807/5665b4981a28abb57c927c42/html5/thumbnails/8.jpg)
• Un recurso lingüístico puede incluir sinónimos, variantes de escritura, ampliación de siglas, variaciones de deletreo, términos equivalentes en otros idiomas, hiperónimos, hipónimos, merónimos, entre otros.
• La expansión de consultas es el proceso de suplementar la consulta original con términos adicionales, y es un método para mejorar el desempeño en la recuperación de información.
Expansión de consultas
FCC
- BU
AP
Prim
aver
a 20
15M
C. B
eatr
iz B
eltr
án M
Artín
ez
8
![Page 9: Información no Estructurada MC Beatriz Beltrán Martínez Primavera 2015](https://reader035.vdocuments.co/reader035/viewer/2022062807/5665b4981a28abb57c927c42/html5/thumbnails/9.jpg)
Medición
• Precisión (Precision): cuántos documentos recuperados son relevantes = Relevantes recuperados / Recuperados• Cobertura (Recall): cuántos documentos relevantes se
recuperaron = Relevantes recuperados / Relevantes
FCC
- BU
AP
Prim
aver
a 20
15M
C. B
eatr
iz B
eltr
án M
Artín
ez
9
![Page 10: Información no Estructurada MC Beatriz Beltrán Martínez Primavera 2015](https://reader035.vdocuments.co/reader035/viewer/2022062807/5665b4981a28abb57c927c42/html5/thumbnails/10.jpg)
Problemática
• De forma general – según Baeza-Yates – el problema de la RI puede ser estudiado desde dos puntos de vista: el computacional y el humano.
FCC
- BU
AP
Prim
aver
a 20
15M
C. B
eatr
iz B
eltr
án M
Artín
ez
10
![Page 11: Información no Estructurada MC Beatriz Beltrán Martínez Primavera 2015](https://reader035.vdocuments.co/reader035/viewer/2022062807/5665b4981a28abb57c927c42/html5/thumbnails/11.jpg)
• El primer caso tiene que ver con la construcción de estructuras de datos y algoritmos eficientes que mejoren la calidad de las respuestas. El segundo caso corresponde al estudio del comportamiento y de las necesidades de los usuarios. • Si se analiza la problemática de la RI desde un
alto nivel de abstracción se puede establecer:• Existe una colección de documentos que
contienen información de interés (sobre uno o varios temas).
Problemática
FCC
- BU
AP
Prim
aver
a 20
15M
C. B
eatr
iz B
eltr
án M
Artín
ez
11
![Page 12: Información no Estructurada MC Beatriz Beltrán Martínez Primavera 2015](https://reader035.vdocuments.co/reader035/viewer/2022062807/5665b4981a28abb57c927c42/html5/thumbnails/12.jpg)
• Existen usuarios con necesidades de información, quienes las plantean al SRI en forma de una consulta (en inglés, query. En adelante, ambas palabras se utilizarán indistintamente).• Como respuesta, el sistema retorna – de
forma ideal – referencias a documentos “relevantes”, es decir aquellos que satisfacen la necesidad expresada, generalmente en forma de una lista rankeada.
Problemática
FCC
- BU
AP
Prim
aver
a 20
15M
C. B
eatr
iz B
eltr
án M
Artín
ez
12
![Page 13: Información no Estructurada MC Beatriz Beltrán Martínez Primavera 2015](https://reader035.vdocuments.co/reader035/viewer/2022062807/5665b4981a28abb57c927c42/html5/thumbnails/13.jpg)
• Para cumplir con sus objetivos, un SRI debe realizar algunas tareas básicas, las cuales se encuentran planteadas en términos computacionales:• Representación lógica de los documentos y –
opcionalmente – almacenamiento del original. Algunos sistemas solo almacenan porciones de los documentos y otros lo hacen de manera completa.• Representación de la necesidad de
información del usuario en forma de consulta.
Problemática
FCC
- BU
AP
Prim
aver
a 20
15M
C. B
eatr
iz B
eltr
án M
Artín
ez
13
![Page 14: Información no Estructurada MC Beatriz Beltrán Martínez Primavera 2015](https://reader035.vdocuments.co/reader035/viewer/2022062807/5665b4981a28abb57c927c42/html5/thumbnails/14.jpg)
• Evaluación de los documentos respecto de una consulta para establecer la relevancia de cada uno.• Ranking de los documentos considerados
relevantes para formar el “conjunto solución” o respuesta.• Presentación de la respuesta al usuario.• Retroalimentación o refinamiento de las
consultas (para aumentar la calidad de la respuesta)
Problemática
FCC
- BU
AP
Prim
aver
a 20
15M
C. B
eatr
iz B
eltr
án M
Artín
ez
14
![Page 15: Información no Estructurada MC Beatriz Beltrán Martínez Primavera 2015](https://reader035.vdocuments.co/reader035/viewer/2022062807/5665b4981a28abb57c927c42/html5/thumbnails/15.jpg)
Problemática
FCC
- BU
AP
Prim
aver
a 20
15M
C. B
eatr
iz B
eltr
án M
Artín
ez
15