![Page 1: Marco de Trabajo para Indexación, Clasificación y Recopilación Automática de Documentos Digitales Javier Caicedo Espinoza Gonzalo Parra Chico](https://reader036.vdocuments.co/reader036/viewer/2022062315/56a188a31a28abe545956eb0/html5/thumbnails/1.jpg)
Marco de Trabajo para Indexación, Clasificación y Recopilación Automática de Documentos Digitales
Javier Caicedo Espinoza
Gonzalo Parra Chico
![Page 2: Marco de Trabajo para Indexación, Clasificación y Recopilación Automática de Documentos Digitales Javier Caicedo Espinoza Gonzalo Parra Chico](https://reader036.vdocuments.co/reader036/viewer/2022062315/56a188a31a28abe545956eb0/html5/thumbnails/2.jpg)
Introducción Internet es el recurso más valioso
para el desarrollo de investigaciones Gran cantidad de información actualizada
disponible Su tamaño dificulta la tarea de obtener
información relevante No existe administración centralizada
Solución actual: motores de búsqueda Basan su funcionamiento en palabras
clave Desempeño disminuye en búsquedas
específicas
![Page 3: Marco de Trabajo para Indexación, Clasificación y Recopilación Automática de Documentos Digitales Javier Caicedo Espinoza Gonzalo Parra Chico](https://reader036.vdocuments.co/reader036/viewer/2022062315/56a188a31a28abe545956eb0/html5/thumbnails/3.jpg)
Introducción Nuevos enfoques gracias a la
inteligencia artificial (IA) Análisis estadísticos y matemáticos sobre
el contenido de los documentos Tomar en cuenta las áreas de interés del
usuario
Este trabajo busca la integración de herramientas de IA dentro de un marco único 3 tareas específicas: exploración,
clasificación e indexación de documentos Facilitando desarrollar aplicaciones
posteriores
![Page 4: Marco de Trabajo para Indexación, Clasificación y Recopilación Automática de Documentos Digitales Javier Caicedo Espinoza Gonzalo Parra Chico](https://reader036.vdocuments.co/reader036/viewer/2022062315/56a188a31a28abe545956eb0/html5/thumbnails/4.jpg)
Objetivos Analizar los diferentes enfoques de
solución para las tareas clasificación, indexación y recopilación automática de documentos digitales en línea
Experimentar y luego escoger qué tipo de técnicas basadas en IA pueden ser utilizadas en dichas tareas
Diseñar e implementar un marco de trabajo (framework), cumpliendo los requerimientos definidos en el análisis Se emplearán herramientas de código
abierto
![Page 5: Marco de Trabajo para Indexación, Clasificación y Recopilación Automática de Documentos Digitales Javier Caicedo Espinoza Gonzalo Parra Chico](https://reader036.vdocuments.co/reader036/viewer/2022062315/56a188a31a28abe545956eb0/html5/thumbnails/5.jpg)
Objetivos
Diseñar e implementar una aplicación que utilice las capacidades del marco de trabajo
Comprobar el grado de efectividad del marco de trabajo
![Page 6: Marco de Trabajo para Indexación, Clasificación y Recopilación Automática de Documentos Digitales Javier Caicedo Espinoza Gonzalo Parra Chico](https://reader036.vdocuments.co/reader036/viewer/2022062315/56a188a31a28abe545956eb0/html5/thumbnails/6.jpg)
Exploración Agente explorador
Diseñado para explorar el Internet en una forma metódica y organizada
Aprovecha la estructura del Internet para moverse de una página a otra
Varias estrategias para escoger el siguiente vínculo a analizar Primer vínculo
encontrado Evaluar vínculos de
acuerdo a algún criterio y tomar el mejor
Inicio
Inicializar frontera con
semillas
Añadir nuevos vínculos a la
frontera
Obtener página
Escoger vínculo de la frontera
Ha terminado?
Analizar página
No
FinSi
Frontera vacía
Iteración del agente
![Page 7: Marco de Trabajo para Indexación, Clasificación y Recopilación Automática de Documentos Digitales Javier Caicedo Espinoza Gonzalo Parra Chico](https://reader036.vdocuments.co/reader036/viewer/2022062315/56a188a31a28abe545956eb0/html5/thumbnails/7.jpg)
Clasificación Es asignar o ubicar documentos en
categorías previamente definidas, basándose en el contenido del mismo Facilita el manejo de grandes cantidades
de información
Una máquina no puede entender documentos en lenguaje natural Se requiere un procesamiento para
obtener una representación estructurada del documento
![Page 8: Marco de Trabajo para Indexación, Clasificación y Recopilación Automática de Documentos Digitales Javier Caicedo Espinoza Gonzalo Parra Chico](https://reader036.vdocuments.co/reader036/viewer/2022062315/56a188a31a28abe545956eb0/html5/thumbnails/8.jpg)
Clasificación Una vez obtenida una
representación, se puede proceder a clasificar el documento Generalmente se
requiere un entrenamiento del clasificador
Algoritmos basados en estadística y matemáticas
Inicio
Quitar stopwords
Evaluación
Construir modelo del documento
Reducir palabras a su
raíz
Valor numérico
Fin
documento
Entrenamiento
Modelo de
clasificación
![Page 9: Marco de Trabajo para Indexación, Clasificación y Recopilación Automática de Documentos Digitales Javier Caicedo Espinoza Gonzalo Parra Chico](https://reader036.vdocuments.co/reader036/viewer/2022062315/56a188a31a28abe545956eb0/html5/thumbnails/9.jpg)
Indexación Un índice es cualquier
estructura de datos que mejora el proceso de búsqueda de un documento
Puede ser generado a partir de: Texto completo del
documento Campos descriptivos del
documento Autor, fecha, palabras clave
Una combinación de ambos
Inicio
Quitar stopwords
Construir índice
Reducir palabras a su
raíz
Fin
documento
Obtener metadatos
![Page 10: Marco de Trabajo para Indexación, Clasificación y Recopilación Automática de Documentos Digitales Javier Caicedo Espinoza Gonzalo Parra Chico](https://reader036.vdocuments.co/reader036/viewer/2022062315/56a188a31a28abe545956eb0/html5/thumbnails/10.jpg)
Diseño General del Marco de Trabajo
Manejo de Configuración
Clasificación
IndexaciónExploración
Representación de tópicos
Almacenamiento permanente
Archivos XML
Internet
Estadísticas
![Page 11: Marco de Trabajo para Indexación, Clasificación y Recopilación Automática de Documentos Digitales Javier Caicedo Espinoza Gonzalo Parra Chico](https://reader036.vdocuments.co/reader036/viewer/2022062315/56a188a31a28abe545956eb0/html5/thumbnails/11.jpg)
Exploración Automática de Páginas Web
Exploración
Frontera de vínculos
Recolección de
estadísticas
Caché de recursos visitados
Extracción y evaluación de
contenido
Extracción de vínculos
Obtención de semillas
Clasificación
Internet
![Page 12: Marco de Trabajo para Indexación, Clasificación y Recopilación Automática de Documentos Digitales Javier Caicedo Espinoza Gonzalo Parra Chico](https://reader036.vdocuments.co/reader036/viewer/2022062315/56a188a31a28abe545956eb0/html5/thumbnails/12.jpg)
Exploración Automática de Páginas Web
Aplicación Cliente
Extracción de vínculos
Extracción y evaluación de
contenido
Frontera de vínculos
vínculos(calif)
resultados(ord)
Recolección de estadísticas
Caché de recursos visitados
Almacenamiento
vínculo
doc(calif) doc(calif)
doc(calif)
Obtención de semillas
Palabras clave
semillas
![Page 13: Marco de Trabajo para Indexación, Clasificación y Recopilación Automática de Documentos Digitales Javier Caicedo Espinoza Gonzalo Parra Chico](https://reader036.vdocuments.co/reader036/viewer/2022062315/56a188a31a28abe545956eb0/html5/thumbnails/13.jpg)
Clasificación de Documentos
Clasificación
Preparación de texto
Evaluación de documentos
Entrenamiento
Administración de documentos
Exploración
![Page 14: Marco de Trabajo para Indexación, Clasificación y Recopilación Automática de Documentos Digitales Javier Caicedo Espinoza Gonzalo Parra Chico](https://reader036.vdocuments.co/reader036/viewer/2022062315/56a188a31a28abe545956eb0/html5/thumbnails/14.jpg)
Clasificación de Documentos
Aplicación Cliente
Preparación de texto
Administración de Documentos
Evaluación
Almacenamiento
documento
calificación
texto*texto*
texto texto
Doc ejemplo*(+/-)
Modelo de evaluación
Tópico a Clasificar
Entrenamiento
![Page 15: Marco de Trabajo para Indexación, Clasificación y Recopilación Automática de Documentos Digitales Javier Caicedo Espinoza Gonzalo Parra Chico](https://reader036.vdocuments.co/reader036/viewer/2022062315/56a188a31a28abe545956eb0/html5/thumbnails/15.jpg)
Indexación de Documentos
Indexación
Administración de Repositorio
Local
Extracción de Metadatos
Búsqueda Local
![Page 16: Marco de Trabajo para Indexación, Clasificación y Recopilación Automática de Documentos Digitales Javier Caicedo Espinoza Gonzalo Parra Chico](https://reader036.vdocuments.co/reader036/viewer/2022062315/56a188a31a28abe545956eb0/html5/thumbnails/16.jpg)
Indexación de Documentos
Aplicación Cliente
Administración de RepositorioBúsqueda Local
Repositorio
documento
Resultados(ord)
Parámetros de búsqueda
Extracción de Metadatos
documentometadatos
![Page 17: Marco de Trabajo para Indexación, Clasificación y Recopilación Automática de Documentos Digitales Javier Caicedo Espinoza Gonzalo Parra Chico](https://reader036.vdocuments.co/reader036/viewer/2022062315/56a188a31a28abe545956eb0/html5/thumbnails/17.jpg)
Implementación Plataforma Java
Portabilidad Gran popularidad dentro de la
comunidad de código abierto Numerosas librerías disponibles
Se desarrollaron: Componentes del marco de trabajo Aplicación de ejemplo
Prueba las capacidades del marco No pensada para un usuario final
![Page 18: Marco de Trabajo para Indexación, Clasificación y Recopilación Automática de Documentos Digitales Javier Caicedo Espinoza Gonzalo Parra Chico](https://reader036.vdocuments.co/reader036/viewer/2022062315/56a188a31a28abe545956eb0/html5/thumbnails/18.jpg)
Pruebas
Se evaluó la capacidad del marco de trabajo para obtener resultados relevantes
Dos mecanismos de evaluación: Usuarios reales Automática, basada en métricas
Pruebas realizadas en el idioma inglés
![Page 19: Marco de Trabajo para Indexación, Clasificación y Recopilación Automática de Documentos Digitales Javier Caicedo Espinoza Gonzalo Parra Chico](https://reader036.vdocuments.co/reader036/viewer/2022062315/56a188a31a28abe545956eb0/html5/thumbnails/19.jpg)
Usuarios reales Se escogieron tres tópicos
relacionados con el área de computación Gráficos por computadora Aprendizaje automatizado Computación distribuida
Se pidió a usuarios con conocimiento en la materia evaluar los 10 primeros resultados (vínculos) de cada proceso
![Page 20: Marco de Trabajo para Indexación, Clasificación y Recopilación Automática de Documentos Digitales Javier Caicedo Espinoza Gonzalo Parra Chico](https://reader036.vdocuments.co/reader036/viewer/2022062315/56a188a31a28abe545956eb0/html5/thumbnails/20.jpg)
Usuarios realesComputer Graphics
0
2
4
6
8
10
12
Usuarios
Vínc
ulos
rele
vant
es Usuario 1
Usuario 2
Usuario 3
Machine Learning
0
2
4
6
8
10
12
Usuarios
Vínc
ulos
rele
vant
es Usuario 1
Usuario 2
Usuario 3
Distributed Computing
0
1
2
3
4
5
6
7
8
9
Usuarios
Vínc
ulos
rele
vant
es Usuario 1
Usuario 2
Usuario 3
![Page 21: Marco de Trabajo para Indexación, Clasificación y Recopilación Automática de Documentos Digitales Javier Caicedo Espinoza Gonzalo Parra Chico](https://reader036.vdocuments.co/reader036/viewer/2022062315/56a188a31a28abe545956eb0/html5/thumbnails/21.jpg)
Evaluación automática Dos métricas de evaluación
Precisión: R ∩ S / S Retentiva: R ∩ S / R
Dado que en Internet no se puede conocer el total de R, se usará T como una aproximación
S(Explorados)
R(Documentos relevantes)
T(Documentos
objetivo)
R ∩ S
T ∩ S
![Page 22: Marco de Trabajo para Indexación, Clasificación y Recopilación Automática de Documentos Digitales Javier Caicedo Espinoza Gonzalo Parra Chico](https://reader036.vdocuments.co/reader036/viewer/2022062315/56a188a31a28abe545956eb0/html5/thumbnails/22.jpg)
Evaluación automática
Se evaluará la capacidad del marco de trabajo para encontrar estos documentos objetivo, partiendo de un conjunto al azar de sus ancestros Distancia = 0
(documentos Objetivo)
Distancia = N (semillas)
Distancia = N - 1Distancia = 1
![Page 23: Marco de Trabajo para Indexación, Clasificación y Recopilación Automática de Documentos Digitales Javier Caicedo Espinoza Gonzalo Parra Chico](https://reader036.vdocuments.co/reader036/viewer/2022062315/56a188a31a28abe545956eb0/html5/thumbnails/23.jpg)
Evaluación automática
Dos algoritmos de exploración Best First (El mejor vínculo) Breadth First (Primer vínculo
encontrado)
Aplicando las fórmulas anteriores, obtenemos un gráfico Métrica vs. Tiempo (medido en número de páginas exploradas)
![Page 24: Marco de Trabajo para Indexación, Clasificación y Recopilación Automática de Documentos Digitales Javier Caicedo Espinoza Gonzalo Parra Chico](https://reader036.vdocuments.co/reader036/viewer/2022062315/56a188a31a28abe545956eb0/html5/thumbnails/24.jpg)
Evaluación automática
Precisión
0
0.01
0.02
0.03
0.04
0.05
0.06
0.07
0.08
1 201 401 601 801
Páginas exploradas
Índ
ice
de
Pre
cisi
ón
Best First
Breadth First
![Page 25: Marco de Trabajo para Indexación, Clasificación y Recopilación Automática de Documentos Digitales Javier Caicedo Espinoza Gonzalo Parra Chico](https://reader036.vdocuments.co/reader036/viewer/2022062315/56a188a31a28abe545956eb0/html5/thumbnails/25.jpg)
Evaluación automática
Retentiva
00.020.040.060.080.1
0.120.140.160.18
1 201 401 601 801
Páginas Exploradas
Índ
ice
de
Ret
enti
va
Best First
Breadth First
![Page 26: Marco de Trabajo para Indexación, Clasificación y Recopilación Automática de Documentos Digitales Javier Caicedo Espinoza Gonzalo Parra Chico](https://reader036.vdocuments.co/reader036/viewer/2022062315/56a188a31a28abe545956eb0/html5/thumbnails/26.jpg)
Evaluación automática
Precisión vs. Retentiva
0
0.01
0.02
0.03
0.04
0.05
0.06
0.07
0.08
0 0.05 0.1 0.15 0.2
Retentiva
Pre
cisi
ón
Best First
Breadth First
![Page 27: Marco de Trabajo para Indexación, Clasificación y Recopilación Automática de Documentos Digitales Javier Caicedo Espinoza Gonzalo Parra Chico](https://reader036.vdocuments.co/reader036/viewer/2022062315/56a188a31a28abe545956eb0/html5/thumbnails/27.jpg)
Conclusiones
Trabajos previos en las áreas de la inteligencia artificial relacionadas, facilitaron el análisis de las soluciones
El poder añadir nuevas funcionalidades al marco de trabajo, permitió modificar y desarrollar diferentes enfoques de solución
![Page 28: Marco de Trabajo para Indexación, Clasificación y Recopilación Automática de Documentos Digitales Javier Caicedo Espinoza Gonzalo Parra Chico](https://reader036.vdocuments.co/reader036/viewer/2022062315/56a188a31a28abe545956eb0/html5/thumbnails/28.jpg)
Conclusiones
Se obtienen mejores resultados al aplicar esta herramienta dentro de un campo específico
Para la búsqueda de documentos digitales en línea, se decidió escoger la estrategia de “primero el mejor”
Enfoque más general
![Page 29: Marco de Trabajo para Indexación, Clasificación y Recopilación Automática de Documentos Digitales Javier Caicedo Espinoza Gonzalo Parra Chico](https://reader036.vdocuments.co/reader036/viewer/2022062315/56a188a31a28abe545956eb0/html5/thumbnails/29.jpg)
Conclusiones Para la tarea de clasificación de
documentos digitales, se escogió el algoritmo “Naive Bayes”
Tiempo requerido para su utilización es menor comparado con otras opciones existentes
Soporta el aprendizaje activo
Se decidió incorporar la técnica de índices invertidos como solución a la indexación de documentos
Desempeño adecuado en un gran número de situaciones
![Page 30: Marco de Trabajo para Indexación, Clasificación y Recopilación Automática de Documentos Digitales Javier Caicedo Espinoza Gonzalo Parra Chico](https://reader036.vdocuments.co/reader036/viewer/2022062315/56a188a31a28abe545956eb0/html5/thumbnails/30.jpg)
Conclusiones
La calidad de los documentos de ejemplo utilizados para entrenar al clasificador bayesiano, afecta directamente al proceso de exploración
Los parámetros de la exploración pueden afectar el rendimiento del algoritmo a utilizar
![Page 31: Marco de Trabajo para Indexación, Clasificación y Recopilación Automática de Documentos Digitales Javier Caicedo Espinoza Gonzalo Parra Chico](https://reader036.vdocuments.co/reader036/viewer/2022062315/56a188a31a28abe545956eb0/html5/thumbnails/31.jpg)
Recomendaciones
Estar atento a nuevos enfoques y proyectos en el área, a fin de implementar nuevas características dentro del marco
Considerar a futuro la búsqueda de otro mecanismo independiente del URL para tener un identificador único
Evitar resultados repetidos.
![Page 32: Marco de Trabajo para Indexación, Clasificación y Recopilación Automática de Documentos Digitales Javier Caicedo Espinoza Gonzalo Parra Chico](https://reader036.vdocuments.co/reader036/viewer/2022062315/56a188a31a28abe545956eb0/html5/thumbnails/32.jpg)
Recomendaciones
Las herramientas que brinda el marco de trabajo pueden ser integradas en sistemas de manejo de contenidos
Soporte para otros idiomas dentro del marco de trabajo
![Page 33: Marco de Trabajo para Indexación, Clasificación y Recopilación Automática de Documentos Digitales Javier Caicedo Espinoza Gonzalo Parra Chico](https://reader036.vdocuments.co/reader036/viewer/2022062315/56a188a31a28abe545956eb0/html5/thumbnails/33.jpg)
Recomendaciones
Promover entre la comunidad científica de ESPOL el uso de herramientas alternativas para la búsqueda de documentos digitales en Internet
![Page 34: Marco de Trabajo para Indexación, Clasificación y Recopilación Automática de Documentos Digitales Javier Caicedo Espinoza Gonzalo Parra Chico](https://reader036.vdocuments.co/reader036/viewer/2022062315/56a188a31a28abe545956eb0/html5/thumbnails/34.jpg)
Gracias por su atención