marco de trabajo para indexación, clasificación y recopilación automática de documentos...
Post on 25-Jan-2016
222 Views
Preview:
TRANSCRIPT
Marco de Trabajo para Indexación, Clasificación y Recopilación Automática de Documentos Digitales
Javier Caicedo Espinoza
Gonzalo Parra Chico
Introducción Internet es el recurso más valioso
para el desarrollo de investigaciones Gran cantidad de información actualizada
disponible Su tamaño dificulta la tarea de obtener
información relevante No existe administración centralizada
Solución actual: motores de búsqueda Basan su funcionamiento en palabras
clave Desempeño disminuye en búsquedas
específicas
Introducción Nuevos enfoques gracias a la
inteligencia artificial (IA) Análisis estadísticos y matemáticos sobre
el contenido de los documentos Tomar en cuenta las áreas de interés del
usuario
Este trabajo busca la integración de herramientas de IA dentro de un marco único 3 tareas específicas: exploración,
clasificación e indexación de documentos Facilitando desarrollar aplicaciones
posteriores
Objetivos Analizar los diferentes enfoques de
solución para las tareas clasificación, indexación y recopilación automática de documentos digitales en línea
Experimentar y luego escoger qué tipo de técnicas basadas en IA pueden ser utilizadas en dichas tareas
Diseñar e implementar un marco de trabajo (framework), cumpliendo los requerimientos definidos en el análisis Se emplearán herramientas de código
abierto
Objetivos
Diseñar e implementar una aplicación que utilice las capacidades del marco de trabajo
Comprobar el grado de efectividad del marco de trabajo
Exploración Agente explorador
Diseñado para explorar el Internet en una forma metódica y organizada
Aprovecha la estructura del Internet para moverse de una página a otra
Varias estrategias para escoger el siguiente vínculo a analizar Primer vínculo
encontrado Evaluar vínculos de
acuerdo a algún criterio y tomar el mejor
Inicio
Inicializar frontera con
semillas
Añadir nuevos vínculos a la
frontera
Obtener página
Escoger vínculo de la frontera
Ha terminado?
Analizar página
No
FinSi
Frontera vacía
Iteración del agente
Clasificación Es asignar o ubicar documentos en
categorías previamente definidas, basándose en el contenido del mismo Facilita el manejo de grandes cantidades
de información
Una máquina no puede entender documentos en lenguaje natural Se requiere un procesamiento para
obtener una representación estructurada del documento
Clasificación Una vez obtenida una
representación, se puede proceder a clasificar el documento Generalmente se
requiere un entrenamiento del clasificador
Algoritmos basados en estadística y matemáticas
Inicio
Quitar stopwords
Evaluación
Construir modelo del documento
Reducir palabras a su
raíz
Valor numérico
Fin
documento
Entrenamiento
Modelo de
clasificación
Indexación Un índice es cualquier
estructura de datos que mejora el proceso de búsqueda de un documento
Puede ser generado a partir de: Texto completo del
documento Campos descriptivos del
documento Autor, fecha, palabras clave
Una combinación de ambos
Inicio
Quitar stopwords
Construir índice
Reducir palabras a su
raíz
Fin
documento
Obtener metadatos
Diseño General del Marco de Trabajo
Manejo de Configuración
Clasificación
IndexaciónExploración
Representación de tópicos
Almacenamiento permanente
Archivos XML
Internet
Estadísticas
Exploración Automática de Páginas Web
Exploración
Frontera de vínculos
Recolección de
estadísticas
Caché de recursos visitados
Extracción y evaluación de
contenido
Extracción de vínculos
Obtención de semillas
Clasificación
Internet
Exploración Automática de Páginas Web
Aplicación Cliente
Extracción de vínculos
Extracción y evaluación de
contenido
Frontera de vínculos
vínculos(calif)
resultados(ord)
Recolección de estadísticas
Caché de recursos visitados
Almacenamiento
vínculo
doc(calif) doc(calif)
doc(calif)
Obtención de semillas
Palabras clave
semillas
Clasificación de Documentos
Clasificación
Preparación de texto
Evaluación de documentos
Entrenamiento
Administración de documentos
Exploración
Clasificación de Documentos
Aplicación Cliente
Preparación de texto
Administración de Documentos
Evaluación
Almacenamiento
documento
calificación
texto*texto*
texto texto
Doc ejemplo*(+/-)
Modelo de evaluación
Tópico a Clasificar
Entrenamiento
Indexación de Documentos
Indexación
Administración de Repositorio
Local
Extracción de Metadatos
Búsqueda Local
Indexación de Documentos
Aplicación Cliente
Administración de RepositorioBúsqueda Local
Repositorio
documento
Resultados(ord)
Parámetros de búsqueda
Extracción de Metadatos
documentometadatos
Implementación Plataforma Java
Portabilidad Gran popularidad dentro de la
comunidad de código abierto Numerosas librerías disponibles
Se desarrollaron: Componentes del marco de trabajo Aplicación de ejemplo
Prueba las capacidades del marco No pensada para un usuario final
Pruebas
Se evaluó la capacidad del marco de trabajo para obtener resultados relevantes
Dos mecanismos de evaluación: Usuarios reales Automática, basada en métricas
Pruebas realizadas en el idioma inglés
Usuarios reales Se escogieron tres tópicos
relacionados con el área de computación Gráficos por computadora Aprendizaje automatizado Computación distribuida
Se pidió a usuarios con conocimiento en la materia evaluar los 10 primeros resultados (vínculos) de cada proceso
Usuarios realesComputer Graphics
0
2
4
6
8
10
12
Usuarios
Vínc
ulos
rele
vant
es Usuario 1
Usuario 2
Usuario 3
Machine Learning
0
2
4
6
8
10
12
Usuarios
Vínc
ulos
rele
vant
es Usuario 1
Usuario 2
Usuario 3
Distributed Computing
0
1
2
3
4
5
6
7
8
9
Usuarios
Vínc
ulos
rele
vant
es Usuario 1
Usuario 2
Usuario 3
Evaluación automática Dos métricas de evaluación
Precisión: R ∩ S / S Retentiva: R ∩ S / R
Dado que en Internet no se puede conocer el total de R, se usará T como una aproximación
S(Explorados)
R(Documentos relevantes)
T(Documentos
objetivo)
R ∩ S
T ∩ S
Evaluación automática
Se evaluará la capacidad del marco de trabajo para encontrar estos documentos objetivo, partiendo de un conjunto al azar de sus ancestros Distancia = 0
(documentos Objetivo)
Distancia = N (semillas)
Distancia = N - 1Distancia = 1
Evaluación automática
Dos algoritmos de exploración Best First (El mejor vínculo) Breadth First (Primer vínculo
encontrado)
Aplicando las fórmulas anteriores, obtenemos un gráfico Métrica vs. Tiempo (medido en número de páginas exploradas)
Evaluación automática
Precisión
0
0.01
0.02
0.03
0.04
0.05
0.06
0.07
0.08
1 201 401 601 801
Páginas exploradas
Índ
ice
de
Pre
cisi
ón
Best First
Breadth First
Evaluación automática
Retentiva
00.020.040.060.080.1
0.120.140.160.18
1 201 401 601 801
Páginas Exploradas
Índ
ice
de
Ret
enti
va
Best First
Breadth First
Evaluación automática
Precisión vs. Retentiva
0
0.01
0.02
0.03
0.04
0.05
0.06
0.07
0.08
0 0.05 0.1 0.15 0.2
Retentiva
Pre
cisi
ón
Best First
Breadth First
Conclusiones
Trabajos previos en las áreas de la inteligencia artificial relacionadas, facilitaron el análisis de las soluciones
El poder añadir nuevas funcionalidades al marco de trabajo, permitió modificar y desarrollar diferentes enfoques de solución
Conclusiones
Se obtienen mejores resultados al aplicar esta herramienta dentro de un campo específico
Para la búsqueda de documentos digitales en línea, se decidió escoger la estrategia de “primero el mejor”
Enfoque más general
Conclusiones Para la tarea de clasificación de
documentos digitales, se escogió el algoritmo “Naive Bayes”
Tiempo requerido para su utilización es menor comparado con otras opciones existentes
Soporta el aprendizaje activo
Se decidió incorporar la técnica de índices invertidos como solución a la indexación de documentos
Desempeño adecuado en un gran número de situaciones
Conclusiones
La calidad de los documentos de ejemplo utilizados para entrenar al clasificador bayesiano, afecta directamente al proceso de exploración
Los parámetros de la exploración pueden afectar el rendimiento del algoritmo a utilizar
Recomendaciones
Estar atento a nuevos enfoques y proyectos en el área, a fin de implementar nuevas características dentro del marco
Considerar a futuro la búsqueda de otro mecanismo independiente del URL para tener un identificador único
Evitar resultados repetidos.
Recomendaciones
Las herramientas que brinda el marco de trabajo pueden ser integradas en sistemas de manejo de contenidos
Soporte para otros idiomas dentro del marco de trabajo
Recomendaciones
Promover entre la comunidad científica de ESPOL el uso de herramientas alternativas para la búsqueda de documentos digitales en Internet
Gracias por su atención
top related