la próxima generación de motores de búsqueda · – página oficial de un evento (“forum...
TRANSCRIPT
La próxima generación de La próxima generación de motores de búsquedamotores de búsqueda
Julio GonzaloJulio GonzaloGrupo UNED en Recuperación de Grupo UNED en Recuperación de Información y Procesamiento de Información y Procesamiento de
Lenguaje NaturalLenguaje Naturalhttp://http://nlpnlp..uneduned.es.es
El modelo clásico de IR...El modelo clásico de IR...
consulta
Docs relevantes
Necesidadinformación
(precisa)
coleccióndocumentos
(estática)
Expansión de la consulta
Modelos formales(solapamiento consulta/documento)
Representación de documentos (índices)
Técnicas de agrupación
Comparación consulta/documento
Heurísticas de pesado (tf.idf)
Estructuras de datos
Visualización
Realimentación
Filtrado
...frente a la búsqueda WWW
Buscadores web: GoogleBuscadores web: Googleweb web retrievalretrieval: búsqueda simple y eficiente + : búsqueda simple y eficiente + pagerank pagerank + ...+ ...Funciona muy bien para necesidades de información que Funciona muy bien para necesidades de información que se resuelven con uno o dos enlaces:se resuelven con uno o dos enlaces:–– Páginas personales (e.g. “Julio Gonzalo”)Páginas personales (e.g. “Julio Gonzalo”)–– Portal de calidad sobre un tema (e.g. “Cámaras digitales”)Portal de calidad sobre un tema (e.g. “Cámaras digitales”)–– Portal de una empresa/institución/servicio web (e.g. “Instituto Portal de una empresa/institución/servicio web (e.g. “Instituto
Cervantes”)Cervantes”)–– Página oficial de un evento (“Forum 2004”)Página oficial de un evento (“Forum 2004”)
Pero cuando es necesario examinar varias páginas, Pero cuando es necesario examinar varias páginas, reuniendo y relacionando información de varias fuentes, reuniendo y relacionando información de varias fuentes, las listas ordenadas de Google no son suficiente:las listas ordenadas de Google no son suficiente:–– Las listas ordenadas de enlaces no organizan conceptualmente losLas listas ordenadas de enlaces no organizan conceptualmente los
resultados de búsqueda.resultados de búsqueda.–– Google no extrae ni relaciona Google no extrae ni relaciona informacióninformación de los documentos.de los documentos.–– Google nos “abandona” una vez que entramos en un portal, y los Google nos “abandona” una vez que entramos en un portal, y los
buscadores de portales son muy elementales.buscadores de portales son muy elementales.
posicionamiento
Líneas de futuro inmediatoLíneas de futuro inmediato
Las listas de enlaces no organizan Las listas de enlaces no organizan conceptualmente los resultados de conceptualmente los resultados de búsqueda. búsqueda.
Google no extrae ni relaciona Google no extrae ni relaciona informacióninformaciónde los documentos.de los documentos.
Google nos “abandona” una vez que Google nos “abandona” una vez que entramos en un portalentramos en un portal
1. Organización y visualización de resultados
2. Buscadores “verticales”
3. Buscadores sobre portales
1. Organización y visualización 1. Organización y visualización de los resultados de búsquedade los resultados de búsqueda
Sugerencia de filtros: Sugerencia de filtros: AltavistaAltavista, , TeomaTeomaAgrupación jerárquica: Agrupación jerárquica: VivísimoVivísimo,, iBoogieiBoogieAgrupación jerárquica + Visualización: Agrupación jerárquica + Visualización: GrokkerGrokkerResúmen multidocumentoResúmen multidocumento
Estupendo...
pero sólo funciona para información clasificada manualmente.
“every topic deserves its own first page”
Búsqueda: “Julio Gonzalo”:
- informático: 69 enlaces
- físico: 7 enlaces
- coronel: 1 enlace
- alcalde: 1enlace
Agrupación jerárquica: Vivísimo
Recuperación de información
Redes semánticas
Física
Agrupación jerárquica + visualización: Grokker
Análisis Formal de ConceptosAnálisis Formal de ConceptosMatriz objetos/atributos
Retículo conceptual
UNED JBraindead
UNED JBraindead: UNED JBraindead: exploración mediante retículosexploración mediante retículos
(consulta: virus informáticos)
UNED JBraindead
2. Buscadores verticales2. Buscadores verticales
datos
NecesidadDe información
Colección dedocumentos
extracción
consulta
2. Buscadores verticales2. Buscadores verticales
Agrupación: Google Agrupación: Google NewsNewsExtracción:Extracción: CiteseerCiteseer (publicaciones (publicaciones científicas)científicas)TrypAdvisor TrypAdvisor (viajes)(viajes)Froogle Froogle (compras)(compras)
Filtrado y agrupación de resultados en dominio específico
Extracción de información: compras
Extracción + minería: Citeseer
El complementario de los El complementario de los buscadores verticales: buscadores verticales:
la la Web SemánticaWeb Semántica
pregunta
datos, gestiones
NecesidadDe información Web semántica
QL
Agente de búsqueda
RDF
ontologías
3. Buscadores sobre portales3. Buscadores sobre portales
Ejemplo de búsqueda/navegación en portalEjemplo de búsqueda/navegación en portalAsistentes virtuales de búsquedaAsistentes virtuales de búsquedaVisualizadores: Visualizadores: HyperbrowsingHyperbrowsingUso de Uso de metadatos metadatos ChaCha--Cha (Cha (visualizacion visualizacion de caminos)de caminos)
Ejemplo: busco impreso solicitud Ejemplo: busco impreso solicitud reintegro ADSL en reintegro ADSL en uneduned.es.es
Primero veremos cómo se llega navegando.Primero veremos cómo se llega navegando.Después cómo se puede llegar buscando.Después cómo se puede llegar buscando.Ambas opciones son catastróficas, a pesar Ambas opciones son catastróficas, a pesar de que se trata de una web premiada y un de que se trata de una web premiada y un buscador por encima de la media.buscador por encima de la media.
¡No
apar
ece
el v
icer
rect
orad
o de
nue
vas t
ecno
logí
as!
Hab
ía q
ue b
usca
r en
el B
ICI..
.
Cur
so 2
003/
2004
...
BIC
Is 2
1 a
30...
Al f
in!
Hay
una
opc
ión
de b
úsqu
eda
Bus
co “
AD
SL”
Bus
co “
impr
eso
solic
itud
AD
SL”
Bus
co “
solic
itud
rein
tegr
o fa
ctur
as A
DSL
”
Cam
bio
“tod
as”
por “
cual
quie
ra”
Uso
las p
alab
ras c
lave
del
doc
umen
to (l
o co
nozc
o)
Asistentes virtuales: CajaMadridB
uena
impr
esió
n si
la re
spue
sta
está
en
el F
AQ
...
Pero
¿có
mo
hace
rse
ente
nder
cua
ndo
se e
quiv
oca?
Los
asi
sten
tes
virt
uale
s le
dan
a la
beb
ida
virt
ual..
.
Visualización del sitio web: árbol hiperbólico
árbol hiperbólico + búsquedaárbol hiperbólico + búsqueda
Páginas en contexto: Cha-Cha
¡La estructuradel portal
es un buen criteriode agrupamiento!
(en la WWW no es posible)
Volvamos al problema del Volvamos al problema del vocabulariovocabulario
Consulta: “reintegro ADSL”Consulta: “reintegro ADSL”
Documento: “ayuda nuevas Documento: “ayuda nuevas tecnologiastecnologias..Impreso número 1. Convocatoria Abril Impreso número 1. Convocatoria Abril 2004”2004”
Ni Google ni el buscador UNED lo Ni Google ni el buscador UNED lo encuentran!encuentran!
Expansión y traducción de la consultaProhibiciónembargoentredichointerdiccióninterdictoproscripción
baninterdictionprohibitionproscription
Pruebascata, cataduradegustaciónensayoescandalloexperimentogustaciónmuestreo, tanteo
demonstrateestablish, exhibitexperimentexperimentationfall, fittingindicate, pointpresent, proofprove, runsample, samplingshew,show, tastetest, trial, try
de Nucleares
nuclear
nuclear
de
Nuclear fitting interdiction manage? Nuclear taste proscription process?
Expa
nsió
nTr
aduc
ción
Tratadosacuerdocapitulaciónconcertaciónconveniocuidar, pactomanejarprocesar
accorddiscoursehandlemanagepactprocesstreattreatisetreaty
UNED Website Term Browser
consulta
Refinar consulta
Explorar sintagmaExplorar documento
UNED Website Term Browser
UNED Website Term Browser
UNED Website Term Browser
¿Y a medio plazo?¿Y a medio plazo?
Eliminación de barreras idiomáticas y Eliminación de barreras idiomáticas y terminológicasterminológicasTécnicas genéricas de localización y síntesis Técnicas genéricas de localización y síntesis de de informacióninformación
Un detalle que se nos escapó sobre la WWW...
49
Algoritmo de alineación
abortion issue
abortion
issue
aborto
tema
número
asunto
edición
emisión
•tema del aborto•asunto del aborto•asuntos como el aborto•asuntos del aborto•temas como el aborto•asunto aborto
abortion issue tema del aborto
UNED NOODLE
HERMES (UNED/UPC/UB/UPV): búsqueda y exploración multilingüe por entidades nombradas
UNED Hermes
Síntesis de información con la ayuda de Google.. y alguien más
UNED Prisma
PRISMA: asistente para síntesis de informaciónUNED PRiSMA
¿Por qué agentes?¿Por qué agentes?UNED PRiSMA
Implicaciones para Implicaciones para posicionamientoposicionamiento
El modelo de Google seguirá siendo válido para El modelo de Google seguirá siendo válido para consultas de “dame un enlace”... Pero ¿son esas las consultas de “dame un enlace”... Pero ¿son esas las más interesantes en temas culturales? más interesantes en temas culturales? En otro tipo de En otro tipo de consultas, la agrupación y los buscadores consultas, la agrupación y los buscadores verticales harán menos crucial el posicionamiento.verticales harán menos crucial el posicionamiento.Prepararse para (o crear!) Prepararse para (o crear!) buscadores verticalesbuscadores verticalessobre temas culturales/educativos/científicos...sobre temas culturales/educativos/científicos...¿web ¿web semántica?semántica?La pregunta más básica: ¿Dispone su sitio web de un La pregunta más básica: ¿Dispone su sitio web de un buscador apropiado para portalesbuscador apropiado para portales??
Más informaciónMás información
www.searchenginewatch.comwww.searchenginewatch.comwww.sigir.www.sigir.orgorghttp://nlp.uned.eshttp://nlp.uned.es