baeza 2006 mineria de consulta

ARTCULO

Un modelo de minera de consultas para el diseo del

contenido y la estructura de un sitio Web

Ricardo Baeza-Yates, Brbara Poblete

Universitat Pompeu Fabra

Barcelona, Espaa

& Centro de Investigacin de la Web,

DCC, Universidad de Chile

Santiago, Chile

{ricardo.baeza,barbara.poblete}@upf.edu

Resumen

En este trabajo presentamos un modelo para hacer minera de consultas en sitios Web. Este modelo rela-

ciona la informacin aportada por las consultas encontradas en un sitio, con los datos de uso, contenido

y estructura de ste. El principal objetivo de nuestro modelo es descubrir en forma simple, informacin

valiosa acerca de cmo mejorar la estructura y contenido del sitio, permitiendo que ste sea ms intuitivo

y adecuado a las necesidades de sus usuarios. Este modelo propone el anlisis de los diferentes tipos de

consultas registradas en las bitcoras o logs de uso de un sitio Web, tales como las consultas formuladas por

los usuarios en el motor de bsqueda interno del sitio y las consultas realizadas en buscadores externos, que

condujeron hacia documentos en el sitio. Estas consultas proveen informacin til acerca de los temas que

interesan a los usuarios que visitan un sitio Web, y los patrones de navegacin asociados a estas consultas

indican si los documentos encontrados en el sitio fueron satisfactorios para las necesidades de los usuarios

en ese momento. Este modelo adems propone una validacin visual de la organizacin jerrquica del sitio,

dada por los enlaces entre documentos y sus contenidos, adems de su relacin con las consultas.

Palabras clave: Minera de datos, Minera Web, Mejoramiento de sitios Web, Anlisis de consultas.

1. Introduccin

La Web se caracteriza por su acelerado crecimien-

to, su uso cada vez ms masivo y ser un medio

facilitador de nuevos negocios. Esto ha genera-

do la necesidad por parte de los proveedores de

sitios Web de hacer sitios ms intuitivos y acce-

sibles para los usuarios. Es de vital importancia

que los interesados en los contenidos de un sitio,

sean capaces de encontrarlo en la Web y a su vez

recorrerlo de una forma que les resulte cmoda y

fcil. El no tomar conciencia de este hecho puede

signicar la prdida de muchos clientes.

Los motores de bsqueda surgen como la apli-

cacin por excelencia en este nuevo medio, ya que

se han convertido en la herramienta ms utiliza-

da para alcanzar sitios en la red y conducir a los

usuarios hacia la informacin que ellos buscan en

un momento determinado.

Al navegar a travs de la Web los usuarios de-

jan registro de todas sus acciones, principalmente

en las bitcoras o logs de acceso de los servido-

res de los sitios y buscadores que visitan. En los

logs de un sitio Web, en particular, se pueden

encontrar las consultas formuladas en el busca-

dor interno del sitio (si es que existe uno) y las

consultas realizadas en buscadores externos que

produjeron visitas al sitio. Esta informacin es

sumamente valiosa, ya que puede entregar la cla-

ve hacia los gustos e intereses de los usuarios en

general y dentro de los diferentes sitios que estos

recorren.

En este trabajo presentamos un modelo de mi-

nera de uso, contenido y estructura en un sitio

Web, enfocado en consultas, con el objetivo de

Inteligencia Articial, Revista Iberoamericana de Inteligencia Articial. No 29 (2006), pp. 89-98.

ISSN: 1137-3601.

cAEPIA (http://www.aepia.org/revista)

ARTCULO

descubrir informacin novedosa e interesante re-

ferente a nuevas formas en que el sitio puede ser

mejorado. Nuestro modelo adems genera una vi-

sualizacin de la distribucin de los contenidos en

relacin a la organizacin de los enlaces entre do-

cumentos, as como tambin de las URLs seleccio-

nadas como resultados de consultas. El resultado

de este anlisis consiste de diversos informes des-

de los cuales se pueden inferir mejoras al sitio.

A partir de los informes generados se puede:

obtener nuevos contenidos para ampliar la cober-

tura de ciertos temas, cambiar o agregar palabras

a las descripciones de los enlaces, agregar nuevos

enlaces entre documentos similares y revisar los

enlaces existentes entre documentos muy diferen-

tes.

Hemos aplicado este modelo en diferentes ti-

pos de sitios, desde sitios pequeos a sitios gran-

des, medido en nmero de documentos y cantidad

de visitas. En sitios grandes resulta especialmente

til, dada la dicultad que presentan en el manejo

de sus contenidos. En todos los casos planteados,

nuestro modelo ayuda a visualizar posibles pun-

tos conictivos en el sitio y formas de mejorar su

organizacin.

Este trabajo se organiza de la siguiente forma.

La seccin 2 presenta el trabajo relacionado. En

la seccin 3 presentamos los conceptos que se uti-

lizarn en el resto de este trabajo. La seccin 4

describe nuestro modelo, mientras que la seccin

5 resume nuestro prototipo y algunos resultados

obtenidos con ste. En la ltima seccin entrega-

mos nuestras conclusiones y discutimos el trabajo

futuro.

2. Trabajo relacionado

La minera Web [9] es el proceso de descubrir di-

ferentes patrones y relaciones en un conjunto de

datos de la Web. La minera Web puede dividir-

se en tres reas principales: minera de conteni-

do, minera de estructura y minera de uso. En

[26] se plantea que la clave para descubrir nuevos

conocimientos en una base de datos es obtener un

conjunto de datos apropiado para realizar mine-

ra de datos. En el caso de la minera Web los

datos pueden ser obtenidos desde el lado del ser-

vidor, del cliente, de los servidores proxy o de la

base de datos corporativa de la entidad a la cual

pertenece el sitio. Desde este punto de vista, los

datos encontrados en un sitio Web en particular,

pueden ser clasicados en tres tipos:

Contenido: Son los datos reales que se entregan

a los usuarios. Es decir, los datos que almace-

nan los sitios Web, los cuales consisten gene-

ralmente de texto e imgenes u otros medios.

Este tipo de dato es el ms importante y dif-

cil de procesar, por ser multimedial, aunque

consiste principalmente de texto.

Estructura: Son los datos que describen la or-

ganizacin del contenido de un sitio. Esto in-

cluye, la organizacin dentro de una pgina,

la distribucin de los enlaces tanto internos

al sitio como externos y la jerarqua de todo

el sitio.

Uso: Son aquellos datos que describen el uso al

cual se ve sometido un sitio, registrado en los

logs de acceso de los servidores Web.

En el rea de la minera de uso en sitios Web

existe un alto inters comercial, lo cual es men-

cionado en [3, 11]. Al analizar los logs de acceso

de servidores Web se puede determinar si una p-

gina es altamente visitada o no. A partir de esta

informacin se podra concluir, por ejemplo, que

un documento que nunca es visitado no tiene ra-

zn de ser, o por el contrario, si una pgina muy

visitada no se encuentra en los primeros niveles de

jerarqua de un sitio, esto sera un indicador para

mejorar la organizacin y navegacin del mismo.

Existe una extensa lista de trabajos previos que

utilizan la minera Web para mejorar sitios, los

que incluyen: el anlisis de patrones frecuentes

de navegacin y reglas de asociacin basadas en

las pginas visitadas por los usuarios [23, 7, 6]

y modelamiento de sesiones de usuarios, perles

y anlisis de clusters [13, 16, 17, 19, 18]. Ade-

ms, son numerosas las herramientas de minera

de uso y de sistemas de recomendacin. WebSIFT

[8] es una herramienta de minera Web creada

para encontrar reglas y patrones interesantes en

un sitio, deniendo como interesantes las reglas

y patrones que son nuevos o inesperados. Otras

herramientas dedicadas al mejoramiento de sitios

[24, 15, 25] estn enfocadas en la navegacin (y a

veces la estructura) de un sitio en forma dinmica

e individual para cada visitante.

Las consultas formuladas en los motores de bs-

queda son una herramienta valiosa para mejorar

sitios Web. En [12] se propone un mtodo pa-

ra analizar consultas similares en buscadores. En

[5, 4] se presenta un modelo vectorial para la re-

comendacin de consultas. Otro tipo de anlisis,

presentado en [2] consiste en estudiar las consul-

tas formuladas en el motor de bsqueda interno

de un sitio Web e indica que puede descubrirse

informacin valiosa a partir del estudio del com-

portamiento de los usuarios despus de realizada

una consulta. Esta propuesta es el punto de par-

tida de nuestro trabajo.

90 Inteligencia Artificial Vol. 10 No 29 (2006)

3. Conceptos preliminares

Sesin: Una sesin corresponde a todos los ac-

cesos registrados para un usuario, en los logs

de uso de un sitio, dentro de un intervalo

de tiempo mximo. Este intervalo es denido

por defecto en 30 minutos, pero puede modi-

carse a cualquier otro valor adecuado para

el sitio [10]. Cada usuario es identicado en

forma nica por su direccin IP y software de

acceso o User-Agent (esto es una heurstica

que puede ser mejorada).

Motor de bsqueda: Un motor de bsqueda

puede ser tanto interno como externo a un

sitio Web. La principal diferencia entre un

motor de bsqueda interno y uno externo,

es que el motor de bsqueda interno slo se

remite a las pginas encontradas en un sitio

Web, mientras que el externo en general re-

copila los documentos de la Web en forma

global.

Consulta: Una consulta corresponde a un con-

junto de una o ms palabras claves, formula-

das por un usuario en un motor de bsqueda

y representan una necesidad de informacin

de ese usuario (en la mayora de los casos).

Esencia de la informacin: La esencia de la

informacin [20] es un trmino que indica qu

tan buena es una palabra (o un conjunto de

palabras) para describir cierto concepto en

relacin a otras palabras con la misma se-

mntica. Por ejemplo, las palabras polismi-

cas (palabras con ms de un signicado) tie-

nen menor esencia de la informacin debido

a su ambigedad.

4. Descripcin del modelo

En esta seccin presentamos una descripcin de

nuestro modelo de minera para el uso, contenido

y estructura de un sitio Web, enfocado en consul-

tas. Los datos de entrada del modelo son los logs

de uso, la estructura del sitio y sus contenidos. La

estructura del sitio es obtenida de los enlaces en-

tre documentos y los contenidos corresponden al

texto asociado a cada una de sus pginas. El ob-

jetivo de este modelo es generar informacin que

permitir mejorar la estructura y los contenidos

de un sitio Web, adems de evaluar la interconec-

tividad entre documentos de contenidos similares.

En un sitio Web se pueden encontrar dos tipos de

consultas diferentes, las cuales quedan registradas

en los logs de acceso. Estas consultas son:

Navegacin

Sitio WebConsultasexternas

Consultasinternas

Contenido Enlaces

Contenido

Enlaces

+

Esencia dela informacin

Clustering ycomponentes

conexas

Figura 1: Descripcin del modelo.

Consultas externas: Son las consultas realiza-

das a un buscador de la Web (externo al si-

tio), a partir de las cuales los usuarios selec-

cionaron y visitaron los documentos de un si-

tio en particular. Estas consultas pueden ser

descubiertas utilizando el campo referer de

los logs de acceso y siempre son consultas

satisfactorias para el usuario (es decir que

tienen respuesta).

Consultas internas: Son aquellas consultas

formuladas en la caja de bsqueda interna de

un sitio. En este tipo de consultas, se pueden

dar las consultas sin resultados. Adicional-

mente, consultas en buscadores externos res-

tringidas a un sitio en particular, sern con-

sideradas como consultas internas para ese

sitio. Por ejemplo, consultas en Google.com

que incluyen site:example.org son consul-

tas internas para el sitio example.org.

Para cada consulta formulada en un motor de

bsqueda, si una pgina de resultados es gene-

rada, esta pgina contiene enlaces a documentos

considerados como respuestas apropiadas por el

buscador. Al revisar el resumen que acompaa a

cada documento (el cual permite al usuario esta-

blecer supercialmente si un documento es apro-

piado a su consulta) el usuario puede decidir vi-

sitar cero o ms documentos de la lista.

En la gura 1 se muestra una descripcin glo-

bal del modelo, el cual recopila informacin de las

consultas internas y externas del sitio, los patro-

nes de navegacin y los contenidos para descubrir

esencia de la informacin que se puede utilizar pa-

ra mejorar el contenido del sitio. Adicionalmente

los datos de los enlaces y contenidos del sitio, son

Inteligencia Artificial Vol. 10 No 29 (2006) 91

analizados usando clustering de documentos simi-

lares y componentes conexas. Este procedimiento

ser explicado en mayor detalle ms adelante.

4.1. Modelo de navegacin

Al analizar el comportamiento de navegacin de

los usuarios que visitan un sitio Web, durante un

periodo de tiempo determinado, el modelo puede

establecer diferentes tipos de documentos en el

sitio, estos son: Documentos alcanzados Sin Bus-

cador (DSB), Documentos alcanzados desde el

Buscador Interno (DBI) y Documentos alcanza-

dos desde un Buscador Externo (DBE). A con-

tinuacin se presentar la denicin de estos tres

tipos de documentos.

DSB: Son aquellos documentos que en el trans-

curso de una sesin, fueron alcanzados reco-

rriendo enlaces sin la necesidad de utilizar

un motor de bsqueda (interno al sitio o ex-

terno). Es decir, los documentos alcanzados

desde la pgina de resultados de un busca-

dor y los documentos recorridos desde estos

resultados no son considerados en este con-

junto. S son considerados en este conjunto

todos los documentos navegados desde docu-

mentos visitados antes de utilizar un busca-

dor. De esta manera se admite la posibilidad

de que el usuario realice una o varias bsque-

das para luego volver a alguna de las pginas

previas a estas consultas y retomar la nave-

gacin a travs de enlaces.

DBI: Son aquellos documentos que en el trans-

curso de una sesin, slo son alcanzados por

ser resultados directos de una consulta en un

buscador interno del sitio Web.

DBE: Son aquellos documentos que en el trans-

curso de una sesin, slo son alcanzados por

ser resultados directos de una consulta en un

buscador externo al sitio Web.

Es importante notar que DSB, DBI y DBE no

son conjuntos disjuntos de documentos. Esto se

debe a que en una sesin un documento puede

ser alcanzado utilizando un motor de bsqueda

(y por lo tanto pertenecer a DBI o DBE) y en

otra sesin el mismo documento puede ser alcan-

zado navegando a travs de enlaces (pertenecien-

do a DSB). Lo importante entonces es registrar

cuantas veces cada uno de estos diferentes even-

tos ocurre para cada documento. Consideraremos

la frecuencia de cada evento directamente propor-

cional a la relevancia de ste para mejorar el sitio

Web. La clasicacin de los documentos, en estas

Agregar URLa DSB (URL = consulta) o

(REFERER no est en DSB) o(REFERER = consulta)

Nueva sesin:(REFERER = URL de otro sitio) o(REFERER = VACO) o(REFERER est en DSB)

No agregarURL a DSB

Iguala (1)

(REFERER = URL de otro sitio) o(REFERER = VACO) o(REFERER est en DSB)

Nueva sesin:(URL = consulta) o(REFERER no est en DSB) o(REFERER = consulta)

(1)

(2)

Iguala (2)

Figura 2: Heurstica para DSB.

tres categoras, ser esencial para que el modelo

descubra informacin til desde las consultas en

un sitio.

Los documentos que pertenecen a los conjuntos

DBI y DBE son fciles de descubrir, y pueden ser

identicados cuando la URL en un requerimien-

to HTTP es igual a la pgina de resultados de

un buscador (interno o externo). En estos casos,

slo la primera vez que un documento es solici-

tado en una sesin se clasica. Por otra parte, los

documentos en el conjunto DSB son ms difci-

les de clasicar, debido a que la navegacin hacia

adelante y hacia atrs en el historial de documen-

tos previamente visitados por el navegador no se

registra en los logs de acceso del servidor. Para re-

solver este problema, hemos creado la heurstica

mostrada en la gura 2, la cual ha sido valida-

da por nuestros resultados empricos. La gura

2 muestra un diagrama de estados que comienza

un nuevo ciclo de clasicacin al inicio de cada

sesin y luego procesa secuencialmente cada re-

querimiento producido por esa sesin al servidor

Web del sitio. Al comienzo del ciclo de clasica-

cin el conjunto DSB es inicializado con el valor

de la pgina (o pginas) de inicio del sitio Web

y cualquier documento solicitado desde un docu-

mento en el conjunto DSB, desde otro sitio o des-

de un referer vaco (es el caso de los documentos

que son bookmarks o favoritos) son agregados al

conjunto DSB.

4.2. Consultas satisfactorias

El comportamiento de los usuarios en un sitio

Web, reejado en su navegacin, permite estable-

cer diferentes tipos de consultas dependiendo del

comportamiento que se produce a partir de estas.


Si un usuario decide visitar documentos desde la

pgina de resultados de una consulta, diremos que

esa consulta es de clase A o B. Este tipo de anli-

sis puede realizarse para consultas internas o ex-

ternas. A continuacin deniremos formalmente

las consultas de clase A y B (ver la gura 3):

Consultas clase A: Son consultas para las cua-

les la sesin visit uno o ms documentos en

DA, en donde DA contiene documentos en-

contrados en el conjunto DSB. En otras pala-

bras, los documentos en DA son documentos

que, en otra u otras sesiones, a su vez han si-

do alcanzados navegando sin utilizar un mo-

tor de bsqueda.

Consultas clase B: Son consultas para las cua-

les la sesin visit uno o ms documentos

en DB, en donde DB contiene documentos

que slo han sido clasicados en DBI y/o en

DBE y no en DSB. En otras palabras, los

documentos en DB slo han sido alcanzados

utilizando bsquedas, para todas las sesiones

analizadas.

El propsito de denir estas dos clases de con-

sultas es que las consultas A y B contienen pa-

labras claves que pueden ayudar a describir los

documentos que son alcanzados como resultado

de estas consultas. En el caso de consultas clase

A, estas palabras pueden ser utilizadas en el tex-

to que describe los enlaces a documentos en DA,

contribuyendo con esencia de la informacin adi-

cional para las descripciones de los enlaces exis-

tentes hacia estos documentos. El caso de con-

sultas clase B es an ms interesante, debido a

que las palabras utilizadas en en estas consultas

describen los documentos en DB mejor que las pa-

labras utilizadas actualmente en las descripciones

de los enlaces de estos documentos, contribuyen-

do con nueva esencia de la informacin para los

documentos en DB. Adems, los documentos de

DB ms frecuentes debern ser considerados por

el administrador del sitio como buenas sugeren-

cias para ser documentos alcanzables desde los

primeros niveles del sitio (esto tambin se aplica,

en menor grado a los documentos DA). De esta

forma, es posible sugerir hotlinks basndose en

las consultas y no en la navegacin, como se suele

hacer. En este punto, es importante notar, que la

misma consulta puede ser clasicada como clase

A y clase B (lo que no puede ocurrir es que un

mismo documento pertenezca a DA y DB), as es

que la relevancia que se asocia a cada consulta es

proporcional a su frecuencia en cada una de las

clases en relacin a la frecuencia de los documen-

tos en DA y DB.

A B

Motorde

Bsqueda

DA DB

Sitio Web

Navegacin

Consulta Consulta

Figura 3: Consultas clase A y B.

4.3. Consultas no satisfactorias

En el caso de que el anlisis de la navegacin para

una sesin, muestre que una consulta realizada al

motor de bsqueda interno tuvo cero resultados

visitados, esto normalmente puede signicar una

de dos cosas:

1. El buscador despleg cero documentos en la

pgina de resultados, debido a que no existen

documentos apropiados para la consulta en el

sitio.

2. El buscador despleg uno o ms resultados,

pero ninguno de estos pareci apropiado a la

consulta desde el punto de vista del usuario.

Esto puede ocurrir cuando el contenido del

sitio es reducido o con consultas que tienen

ms de un signicado (palabras polismicas).

Para clasicar estas consultas es necesario separar

las diferentes causas. Con este objetivo denimos

las clases C, C', D y E (ver gura 4), en donde

las consultas C', D y E son obtenidas por me-

dio de una clasicacin manual realizada por el

administrador del sitio:

Consultas clase C: Corresponde a consultas

para las cuales el buscador despleg uno o

ms resultados, pero sin embargo el usuario

no eligi documentos para visitar. Esto pue-

de ocurrir en el caso de consultas que tie-

nen signicados ambiguos y para las cuales

el sitio tiene documentos que reejan las pa-

labras de la consulta, pero no el signicado

que el usuario estaba buscando. Las consul-

tas clase C representan conceptos que deben

ser desarrollados en los contenidos del sitio

con el signicado que los usuarios necesitan,

enfocndose en las palabras claves de la con-

sulta.

Consultas clase C': Corresponde a consultas

para las cuales el buscador despleg cero do-

cumentos como resultado, debido a que las


Cero resultadosvisitados

El conceptono existeen el sitio

El motor de bsquedamostr ms de un

resultado

El motor de bsquedamostr cero resultados

Motorde

Bsqueda

Consulta

C

El conceptoexiste en el sitio

ClasificacinManual

C D ENo es interesante

Figura 4: Consultas clase C, C', D y E.

palabras utilizadas en la consulta no existen

dentro del sitio. En el caso de que la clasica-

cin manual establezca que el signicado de

la consulta existe en el sitio, pero descrito con

otras palabras, entonces la consulta es clase

C'. Estas consultas representan palabras que

deberan ser utilizadas en el texto que descri-

be los enlaces y documentos que comparten

el mismo signicado que estas consultas.

Consultas clase D: Al igual que en las consul-

tas clase C', para estas consultas el busca-

dor despleg cero documentos como resulta-

do, debido a que las palabras utilizadas en la

consulta no existen dentro del sitio. Sin em-

bargo, despus de hacer la clasicacin ma-

nual se establece que el concepto expresado

por la consulta no existe en el sitio (ni si-

quiera explicado con otras palabras) y que

debera ser incorporado a los contenidos del

sitio Web ya que representa nuevos temas de

inters para los usuarios.

Consultas clase E: Son aquellas consultas pa-

ra las cuales no existen resultados en el sitio

y que no son de inters para ste, ya que no

pertenece a las consultas clase C' ni D. Estas

consultas deben ser omitidas de la clasica-

cin e incluyen aquellas que poseen errores ti-

pogrcos. Sin embargo, si hay un error muy

frecuente, puede ser importante incluir esta

palabra en las pginas que poseen la pala-

bra escrita en forma correcta. En este caso

pasaran a ser consultas de una de las clases

anteriores.

Cada clase de consulta es til de forma diferen-

te al momento de mejorar la estructura y el conte-

nido de un sitio. La importancia de cada consulta

se considerar proporcionalmente a su frecuencia

Clase Existe Respuestas Visitas Tipo Inters

semntica Documento

A s s s DB DSB bajoB s s s DB DSB medio

C s s no bajo

C' s no no medio

D debera no no alto

E no no no ninguno

Cuadro 1: Clases de consultas.

en los logs de uso y cada consulta ser contada

slo una vez por sesin. En el cuadro 1 se mues-

tra una comparacin entre las diferentes clases de

consultas (en este cuadro DB = DBI DBE).La clasicacin de este tipo de consultas es con

memoria, es decir, una consulta previamente cla-

sicada manualmente no necesita ser clasicada

en ejecuciones posteriores de la herramienta. Ade-

ms se utiliza un tesauro simple para asociar con-

sultas con sus sinnimos. De hecho, con el tiempo,

esta herramienta construye un tesauro a la medi-

da para cada sitio.

4.4. Patrones frecuentes de

consulta

Todas las consultas formuladas en el motor de

bsqueda interno del sitio Web se analizan para

descubrir patrones frecuentes de consulta. Estos

patrones son conjuntos de palabras que se repiten

frecuentemente en las consultas. Una vez descu-

biertos estos conjuntos, estos son vericados en el

motor de bsqueda interno para ver si tienen res-

puestas en el sitio o no. Si patrones altamente fre-

cuentes no tienen respuestas en el sitio, entonces

es necesario revisar los contenidos relacionados a

estas palabras para profundizar estos temas.

4.5. Clustering de texto

Nuestro modelo de minera de sitios Web realiza

clustering de los documentos en el sitio de acuer-

do a la similaridad de su texto (el nmero de clus-

ters utilizado es un parmetro para el modelo).

En esta etapa de clustering los documentos son

representados como vectores, en los cuales cada

coordenada representa una palabra del vocabula-

rio del sitio Web y el valor de esa coordenada es

la frecuencia con que ocurre esta palabra en el si-

tio. Esto se hace para obtener una representacin

simple y global de la distribucin del contenido

entre los documentos y para comparar esto con

la organizacin de los enlaces en el sitio. Esta ca-

racterstica es utilizada para evaluar si es que do-

cumentos con texto similar, que no tienen enlaces

entre ellos, deberan ser enlazados para mejorar la


estructura del sitio Web. Es importante destacar

que no estamos diciendo que todos los documen-

tos de texto similar deberan tener enlaces entre

s, ni que este sea el nico criterio existente para

asociar documentos, pero consideramos que este

es un mtodo til y directo para evaluar la inter-

conectividad de sitios Web (en especial sitios muy

grandes).

El modelo adems relaciona los resultados del

clustering con la informacin de la clasicacin de

consultas. Esto permite conocer cuales documen-

tos en cada cluster pertenecen a los conjuntos DA

y DB, y la frecuencia con que estos eventos ocu-

rren. Esto apoya la idea de aadir nuevos grupos

de documentos (o temas) de inters en la distri-

bucin de contenidos de los primeros niveles del

sitio. Enfocando, tal vez, los contenidos del si-

tio hacia los clusters ms visitados. Adems este

anlisis entrega informacin de los clusters ms

visitados y de si fueron alcanzados utilizando un

buscador o por medio de navegacin a travs de

enlaces en el sitio.

5. Nuestro prototipo y un

caso de uso

La implementacin del modelo involucr diferen-

tes tareas de minera Web, tales como: limpieza de

datos, identicacin de sesiones y usuarios, descu-

brimiento de patrones, clasicacin de consultas,

separacin de contenido y estructura, y anlisis

de clusters de texto. Los datos de los contenidos

y la estructura se extrae del ndice generado por

el recolector de pginas del motor de bsqueda

del sitio [1], la herramienta utilizada para el clus-

tering de texto es CLUTO [14] por ser de gran e-

ciencia y rapidez. Este proceso utiliza el mtodo

de bisecciones secuenciales, el cual genera buenos

resultados para clustering de texto [14], aunque

nuestro modelo puede incorporar cualquier otra

tcnica de clustering. Para el anlisis de patrones

de consulta se utiliz LPMINER [22]. Las con-

sultas internas provienen del buscador interno y

consideramos slo consultas externas provenien-

tes de Google.com (aunque pueden incorporarse

ms buscadores externos). Ms detalles de la im-

plementacin se encuentran en [21].

El cuadro 2 contiene una muestra de las dife-

rentes clases de consultas obtenidas de un log de

dos meses perteneciente a un portal chileno diri-

gido a estudiantes universitarios. El log contiene

ms de 595 mil sesiones, 3.8 millones de docu-

mentos visitados (contando slo visitas nicas por

sesin), 57 mil consultas internas y 162 mil con-

sultas externas. En este cuadro se muestran las

consultas ms frecuentes para cada clase. Algu-

nas de las sugerencias que se ineren son el aadir

informacin sobre becas en Espaa y proveer un

test vocacional. Adems, los usuarios no gustan

de los resultados entregados para la consulta le-

yes y no encuentran informacin acerca de clases

nocturnas ya que en el sitio no se utiliza la pa-

labra vespertinas. Las consultas de clase E no se

muestran ya que no son relevantes para el portal

(ej. msn o inteligencia emocional).

Clase A

examen admisin

universidades

chat

insercin laboral

becas universidades

ensayos admisin

tesis

Clase B

exmenes admisin

currculum vitae

libreras

universidades

carta presentacin

examen ingls

becas universidades

Clase C

becas

admisin

carreras

ensayo

universidad chile

leyes

resultados admisin

Clase C'

carreras vespertinas

diplomas

Espaa

Clase D

test vocacional

becas Espaa

calcular puntaje

Cuadro 2: Ejemplos de diferentes clases.

La gura 5 muestra parte de la visualizacin del

anlisis del clustering, mencionado en la seccin

anterior. El nmero de enlaces entre documentos

de diferentes nodos y clusters se presenta para

cada nivel del rbol jerrquico de clustering. Las

reas problemticas, tales como los clusters que

no tienen enlaces entre sus documentos o clus-

ters muy similares que tienen pocos enlaces, son

representadas utilizando diferentes colores, y pue-

den ser exploradas inmediatamente. Esto permite

a un humano experto decidir cuales clusters ne-

cesitan mejorar su interconectividad.

Al aplicar las principales sugerencias obteni-

das desde los reportes de la herramienta, se pu-

do observar un incremento de aproximadamente

un 20% en las visitas desde buscadores externos.

Esto se tradujo en un aumento en el nmero de

visitas diarias al sitio. Este aumento se debi prin-

cipalmente al mejoramiento del contenido del si-

tio y las descripciones de los enlaces, lo cual fue

validado por el anlisis de las palabras claves uti-

lizadas en las consultas externas. Adicionalmente

a esto, se pudo observar una leve disminucin en

el nmero de consultas internas, lo cual coincide


Resultados del clustering de texto y comparacin con la jerarqua de enlaces enel sitio

http://www.example.orgNmero de clusters: 30Nmero total de enlaces en el sitio: 167.696Nmero total de documentos analizados: 8.175Promedio de enlaces por documento: 20,51

rbol jerrquico basado en el clustering Enlaces entre documentos por niveles

58 |- 55 | |- 50 | | |- 44 | | | |- 41 | | | | |- 34 | | | | | |- 14 | | | | | - 30 | | | | | |- 15 | | | | | - 6 | | | | - 9 | | | - 8 | | - 45 | | |- 11 | | - 40 | | |- 12 | | - 36 | | |- 13 | | - 17 | - 53 | |- 48 | | |- 37 | | | |- 19 | | | - 24 | | - 46 | | |- 18 | | - 31 | | |- 16 | | - 20 | - 52 | |- 47 | | |- 39 | | | |- 21 | | | - 32 | | | |- 23 | | | - 29 | | - 42 | | |- 33 | | | |- 26 | | | - 27 | | - 38 | | |- 25 | | - 28 | - 49 | |- 43 | | |- 10 | | - 35 | | |- 22 | | - 7 | - 5 - 57 |- 0 - 56 |- 51 | |- 3 | - 4 - 54 |- 1 - 2

Nivel 0nid 5858 167.696

Nivel 1nid 55 5755 98.564 5.47557 52.734 10.923

Nivel 2nid 0 50 53 560 2.766 0 13.144 0

50 0 8 27.740 1.79953 14 4.090 66.726 3.66256 0 0 39.590 8.157

Nivel 3nid 44 45 48 51 52 5444 0 0 1.898 995 13.470 045 0 8 1.538 804 10.834 048 46 73 7.483 2.289 18.854 051 0 0 0 3.795 19.221 052 2.151 1.820 1.907 1.338 38.482 3554 0 0 0 0 20.369 4.362

Nivel 4nid 1 2 3 4 8 11 37 40 41 46 47 491 1.766 0 0 0 0 0 0 0 0 0 7.398 1.0572 0 2.596 0 0 0 0 0 0 0 0 10.360 1.5543 0 0 1.912 0 0 0 0 0 0 0 7.614 1.1434 0 0 0 1.883 0 0 0 0 0 0 9.051 1.4138 0 0 0 125 0 0 79 0 0 79 1.040 250

11 0 0 0 214 0 7 193 0 0 207 2.372 42137 0 0 0 553 0 0 0 0 0 0 1.107 1.10640 0 0 0 590 0 0 568 1 0 570 6.862 1.17941 0 0 0 870 0 0 870 0 0 870 10.440 1.74046 0 0 0 1.736 46 48 1.421 25 0 6.062 14.029 2.61247 16 19 23 624 0 0 289 0 0 277 14.658 2.99649 0 0 0 691 242 556 671 1.264 1.909 670 7.720 13.108

Nivel 5nid 5 9 12 18 19 24 31 34 36 39 42 435 5.622 0 0 0 0 134 133 3 0 1.791 0 3039 226 0 0 0 0 226 226 0 0 2.712 0 226

12 120 0 1 1 0 99 100 0 0 1.234 0 12118 237 0 5 1.741 0 237 2.424 0 0 3.933 0 47419 315 0 0 0 0 0 0 0 0 630 0 31524 238 0 0 0 0 0 0 0 0 477 0 23831 639 0 20 636 315 869 1.261 0 0 10.096 0 1.26234 644 0 0 0 0 644 644 0 0 7.728 0 64436 469 0 0 0 0 469 469 0 0 5.628 0 46939 411 0 0 1 0 285 272 0 0 7.305 38 68042 950 0 0 0 0 4 4 0 0 4.840 2.475 95543 558 365 301 0 0 537 537 1.541 963 5.928 1 6.625

Nivel 6nid 10 13 14 16 17 20 21 30 32 33 35 3810 2.492 260 178 0 198 285 0 686 3.155 0 307 013 0 0 0 0 0 167 0 0 2.004 0 167 014 0 0 0 0 0 204 0 0 2.448 0 204 016 0 0 0 0 0 630 0 0 5.040 0 630 017 0 0 0 0 0 302 0 0 3.624 0 302 020 0 0 0 0 0 631 0 0 5.056 0 632 021 0 0 0 0 0 1 911 0 181 0 65 030 0 0 0 0 0 440 0 0 5.280 0 440 032 15 0 0 0 0 271 10 0 6.203 25 600 1333 0 0 0 0 0 1 3 0 2.165 1.099 424 6735 146 177 225 0 328 252 0 452 2.773 1 3.680 038 0 0 0 0 0 3 0 0 2.672 201 531 1.108

Nivel 7nid 6 7 15 22 23 25 26 27 28 296 0 0 0 57 342 0 0 0 0 3427 26 1.041 76 84 322 0 0 1 0 273

15 0 0 0 383 2.298 0 0 0 0 2.29822 34 31 316 2.524 1.206 0 0 0 0 97223 0 0 0 115 1.348 4 2 21 0 34525 0 0 0 224 458 462 3 67 15 67026 0 0 0 184 383 4 527 26 40 55227 0 0 0 240 508 13 45 501 10 72228 0 0 0 307 619 29 87 44 602 92529 0 10 0 475 2.278 0 0 2 9 2.232

Figura 5: Visualizacin de clustering.

con nuestra teora de que, gracias a las sugeren-

cias, los contenidos estn siendo encontrados ms

fcilmente por los usuarios. Todas estas mejoras

se han mantenido en los informes generados por

la herramienta para los meses posteriores.

6. Conclusiones y trabajo

futuro

En este artculo hemos presentado el primer mo-

delo de minera de sitios Web enfocado en con-

sultas. El objetivo de este modelo es encontrar

mejor esencia de la informacin, contenidos y es-

tructura de enlaces para un sitio Web. Nuestra

herramienta descubre, en forma muy simple y di-

recta, informacin interesante. Por ejemplo, las

consultas de clase D pueden representar carencia

de contenidos, productos o servicios importantes

en el sitio. Aunque la clasicacin manual pueda

parecer algo lenta en un principio, en nuestra ex-

periencia, a largo plazo es casi insignicante, ya

que son pocas las consultas nuevas importantes

que se presentan.

El trabajo futuro incluye mejorar nuestras vi-

sualizaciones del anlisis de clustering y extender

nuestro modelo para incluir el origen de consul-

tas internas (pginas desde las cuales se formula

la consulta). Tambin, aadiremos informacin de

la clasicacin y/o el tesauro, adems del texto de

los enlaces, para mejorar la etapa de clustering.

Asimismo nos gustara modicar el algoritmo de

clustering para que determine automticamente

el nmero de clusters adecuado para el sitio y pa-

ra que realice un anlisis ms en profundidad de

los clusters ms visitados. La etapa de clustering

de texto posiblemente ser extendido para que in-

cluya lematizacin en al menos dos idiomas, ingls

y espaol.

Otra caracterstica que nuestro modelo debe-

ra incluir es la cuanticacin incremental de la

evolucin del sitio, midiendo los cambios en las

consultas y los comportamientos de los usuarios

en la medida que pasa el tiempo. En este punto

nos interesara evaluar y validar la calidad de los

cambios realizados al sitio gracias a las recomen-

daciones generadas a partir del modelo.

Finalmente, tenemos la certeza de que existe

un gran potencial para descubrir nuevos usos de

las consultas para mejorar sitios Web.


Referencias

[1] Akwan Information Technologies. Myweb

search. http://www.akwan.com.br.

[2] Ricardo Baeza-Yates. Excavando la web (mi-

ning the web, original in spanish). El profe-

sional de la informacin (The Information

Professional), 13(1):410, Jan-Feb 2004.

[3] Ricardo Baeza-Yates. Web usage mining in

search engines. InWeb Mining: Applications

and Techniques, Anthony Scime, editor. Idea

Group, 2004.

[4] Ricardo Baeza-Yates, Carlos Hurtado, and

Marcelo Mendoza. Query recommendation

using query logs in search engines. In Web

Clustering Workshop at EDBT 2004, Crete,

Greece, 2004. LNCS Springer.

[5] Ricardo Baeza-Yates, Carlos Hurtado, and

Marcelo Mendoza. Ranking boosting based

in query clustering. In Atlantic Web Inte-

lligence Conference, Cancun, Mexico, 2004.

LNCS Springer.

[6] Paulo Batista and Mario J. Silva. Mining

on-line newspaper web access logs, 2002.

[7] Bettina Berendt and Myra Spiliopoulou.

Analysis of navigation behaviour in web sites

integrating multiple information systems. In

VLDB Journal, Vol. 9, No. 1 (special issue

on "Databases and the Web"), pages 5675,

2000.

[8] R. Cooley, P. Tan, and J. Srivastava. Web-

sift: the web site information lter system. In

KDD Workshop on Web Mining, San Diego,

CA. Springer-Verlag, in press, 1999.

[9] Robert Cooley, Bamshad Mobasher, and Jai-

deep Srivastava. Web mining: information

and pattern discovery on the world wide web.

In 9th International Conference on Tools

with Articial Intelligence (ICTAI '97), pa-

ges 558567, 1997.

[10] Robert Cooley, Bamshad Mobasher, and Jai-

deep Srivastava. Data preparation for mining

world wide web browsing patterns. Know-

ledge and Information Systems, 1(1):532,

1999.

[11] Robert Cooley, Pang-Ning Tan, and Jaideep

Srivastava. Discovery of interesting usage

patterns from web data. InWEBKDD, pages

163182, 1999.

[12] Brian D. Davison, David G. Deschenes, and

David B. Lewanda. Finding relevant website

queries. In Poster Proceedings of the Twelfth

International World Wide Web Conference,

Budapest, Hungary, May 2003.

[13] Z. Huang, J.g, D. Cheung, M.g, and

W. Ching. A cube model for web access

sessions and cluster analysis. In Proc. of

WEBKDD 2001 (San Francisco CA, August

2001), 47-57., 2001.

[14] George Karypis. CLUTO a clustering tool-

kit. Technical Report 02-017, Dept. of Com-

puter Science, University of Minnesota, 2002.

Available at http://www.cs.umn.edu/~cluto.

[15] F. Masseglia, P. Poncelet, and M. Teisseire.

Using data mining techniques on web access

logs to dynamically improve hypertext struc-

ture. ACM SigWeb Letters vol. 8, num. 3,

pages 119, 1999.

[16] O. Nasraoui and R. Krishnapuram. An evo-

lutionary approach to mining robust multi-

resolution web proles and context sensiti-

ve url associations. Intl' Journal of Compu-

tational Intelligence and Applications, Vol.

2, No. 3, pages 339348, 2002.

[17] O. Nasraoui, R. Krishnapuram, and A. Joshi.

Relational clustering based on a new robust

estimator with application to web mining. In

Proceedings of NAFIPS 99, (New York), pa-

ges 705 709, 1999.

[18] O. Nasraoui and C. Petenes. Combining web

usage mining and fuzzy inference for web-

site personalization. In Proceedings of the

WebKDD workshop, pages 3746, 2003.

[19] Jian Pei, Jiawei Han, Behzad Mortazavi-asl,

and Hua Zhu. Mining access patterns e-

ciently from web logs. In Pacic-Asia Confe-

rence on Knowledge Discovery and Data Mi-

ning, pages 396407, 2000.

[20] Peter Pirolli. Computational models of infor-

mation scent-following in a very large brow-

sable text collection. In CHI, pages 310,

1997.

[21] Barbara Poblete. A web mining model and

tool centered in queries. M.sc. in Computer

Science, CS Dept., Univ. of Chile, 2004.

[22] Masakazu Seno and George Karypis. Lpmi-

ner: An algorithm for nding frequent item-

sets using length-decreasing support cons-

traint. In Proceedings of the 2001 IEEE In-


ternational Conference on Data Mining, pa-

ges 505512. IEEE Computer Society, 2001.

[23] Myra Spiliopoulou. Web usage mining

for web site evaluation. Commun. ACM,

43(8):127134, 2000.

[24] Myra Spiliopoulou and Lukas C. Faulstich.

WUM: a Web Utilization Miner. In Works-

hop on the Web and Data Bases (WebDB98),

pages 109115, 1998.

[25] Myra Spiliopoulou, Carsten Pohle, and Lu-

kas Faulstich. Improving the eectiveness

of a web site with web usage mining. In

WEBKDD, pages 142162, 1999.

[26] Jaideep Srivastava, Robert Cooley, Mukund

Deshpande, and Pang-Ning Tan. Web usage

mining: Discovery and applications of usage

patterns from web data. SIGKDD Explora-

tions, 1(2):1223, 2000.


baeza 2006 mineria de consulta

Documents