baeza 2006 mineria de consulta

10
   ARTÍCULO 

Upload: jose-rafael-cruz

Post on 05-Oct-2015

213 views

Category:

Documents


0 download

DESCRIPTION

data mining

TRANSCRIPT

  • ARTCULO

    Un modelo de minera de consultas para el diseo del

    contenido y la estructura de un sitio Web

    Ricardo Baeza-Yates, Brbara Poblete

    Universitat Pompeu Fabra

    Barcelona, Espaa

    & Centro de Investigacin de la Web,

    DCC, Universidad de Chile

    Santiago, Chile

    {ricardo.baeza,barbara.poblete}@upf.edu

    Resumen

    En este trabajo presentamos un modelo para hacer minera de consultas en sitios Web. Este modelo rela-

    ciona la informacin aportada por las consultas encontradas en un sitio, con los datos de uso, contenido

    y estructura de ste. El principal objetivo de nuestro modelo es descubrir en forma simple, informacin

    valiosa acerca de cmo mejorar la estructura y contenido del sitio, permitiendo que ste sea ms intuitivo

    y adecuado a las necesidades de sus usuarios. Este modelo propone el anlisis de los diferentes tipos de

    consultas registradas en las bitcoras o logs de uso de un sitio Web, tales como las consultas formuladas por

    los usuarios en el motor de bsqueda interno del sitio y las consultas realizadas en buscadores externos, que

    condujeron hacia documentos en el sitio. Estas consultas proveen informacin til acerca de los temas que

    interesan a los usuarios que visitan un sitio Web, y los patrones de navegacin asociados a estas consultas

    indican si los documentos encontrados en el sitio fueron satisfactorios para las necesidades de los usuarios

    en ese momento. Este modelo adems propone una validacin visual de la organizacin jerrquica del sitio,

    dada por los enlaces entre documentos y sus contenidos, adems de su relacin con las consultas.

    Palabras clave: Minera de datos, Minera Web, Mejoramiento de sitios Web, Anlisis de consultas.

    1. Introduccin

    La Web se caracteriza por su acelerado crecimien-

    to, su uso cada vez ms masivo y ser un medio

    facilitador de nuevos negocios. Esto ha genera-

    do la necesidad por parte de los proveedores de

    sitios Web de hacer sitios ms intuitivos y acce-

    sibles para los usuarios. Es de vital importancia

    que los interesados en los contenidos de un sitio,

    sean capaces de encontrarlo en la Web y a su vez

    recorrerlo de una forma que les resulte cmoda y

    fcil. El no tomar conciencia de este hecho puede

    signicar la prdida de muchos clientes.

    Los motores de bsqueda surgen como la apli-

    cacin por excelencia en este nuevo medio, ya que

    se han convertido en la herramienta ms utiliza-

    da para alcanzar sitios en la red y conducir a los

    usuarios hacia la informacin que ellos buscan en

    un momento determinado.

    Al navegar a travs de la Web los usuarios de-

    jan registro de todas sus acciones, principalmente

    en las bitcoras o logs de acceso de los servido-

    res de los sitios y buscadores que visitan. En los

    logs de un sitio Web, en particular, se pueden

    encontrar las consultas formuladas en el busca-

    dor interno del sitio (si es que existe uno) y las

    consultas realizadas en buscadores externos que

    produjeron visitas al sitio. Esta informacin es

    sumamente valiosa, ya que puede entregar la cla-

    ve hacia los gustos e intereses de los usuarios en

    general y dentro de los diferentes sitios que estos

    recorren.

    En este trabajo presentamos un modelo de mi-

    nera de uso, contenido y estructura en un sitio

    Web, enfocado en consultas, con el objetivo de

    Inteligencia Articial, Revista Iberoamericana de Inteligencia Articial. No 29 (2006), pp. 89-98.

    ISSN: 1137-3601.

    cAEPIA (http://www.aepia.org/revista)

    ARTCULO

  • descubrir informacin novedosa e interesante re-

    ferente a nuevas formas en que el sitio puede ser

    mejorado. Nuestro modelo adems genera una vi-

    sualizacin de la distribucin de los contenidos en

    relacin a la organizacin de los enlaces entre do-

    cumentos, as como tambin de las URLs seleccio-

    nadas como resultados de consultas. El resultado

    de este anlisis consiste de diversos informes des-

    de los cuales se pueden inferir mejoras al sitio.

    A partir de los informes generados se puede:

    obtener nuevos contenidos para ampliar la cober-

    tura de ciertos temas, cambiar o agregar palabras

    a las descripciones de los enlaces, agregar nuevos

    enlaces entre documentos similares y revisar los

    enlaces existentes entre documentos muy diferen-

    tes.

    Hemos aplicado este modelo en diferentes ti-

    pos de sitios, desde sitios pequeos a sitios gran-

    des, medido en nmero de documentos y cantidad

    de visitas. En sitios grandes resulta especialmente

    til, dada la dicultad que presentan en el manejo

    de sus contenidos. En todos los casos planteados,

    nuestro modelo ayuda a visualizar posibles pun-

    tos conictivos en el sitio y formas de mejorar su

    organizacin.

    Este trabajo se organiza de la siguiente forma.

    La seccin 2 presenta el trabajo relacionado. En

    la seccin 3 presentamos los conceptos que se uti-

    lizarn en el resto de este trabajo. La seccin 4

    describe nuestro modelo, mientras que la seccin

    5 resume nuestro prototipo y algunos resultados

    obtenidos con ste. En la ltima seccin entrega-

    mos nuestras conclusiones y discutimos el trabajo

    futuro.

    2. Trabajo relacionado

    La minera Web [9] es el proceso de descubrir di-

    ferentes patrones y relaciones en un conjunto de

    datos de la Web. La minera Web puede dividir-

    se en tres reas principales: minera de conteni-

    do, minera de estructura y minera de uso. En

    [26] se plantea que la clave para descubrir nuevos

    conocimientos en una base de datos es obtener un

    conjunto de datos apropiado para realizar mine-

    ra de datos. En el caso de la minera Web los

    datos pueden ser obtenidos desde el lado del ser-

    vidor, del cliente, de los servidores proxy o de la

    base de datos corporativa de la entidad a la cual

    pertenece el sitio. Desde este punto de vista, los

    datos encontrados en un sitio Web en particular,

    pueden ser clasicados en tres tipos:

    Contenido: Son los datos reales que se entregan

    a los usuarios. Es decir, los datos que almace-

    nan los sitios Web, los cuales consisten gene-

    ralmente de texto e imgenes u otros medios.

    Este tipo de dato es el ms importante y dif-

    cil de procesar, por ser multimedial, aunque

    consiste principalmente de texto.

    Estructura: Son los datos que describen la or-

    ganizacin del contenido de un sitio. Esto in-

    cluye, la organizacin dentro de una pgina,

    la distribucin de los enlaces tanto internos

    al sitio como externos y la jerarqua de todo

    el sitio.

    Uso: Son aquellos datos que describen el uso al

    cual se ve sometido un sitio, registrado en los

    logs de acceso de los servidores Web.

    En el rea de la minera de uso en sitios Web

    existe un alto inters comercial, lo cual es men-

    cionado en [3, 11]. Al analizar los logs de acceso

    de servidores Web se puede determinar si una p-

    gina es altamente visitada o no. A partir de esta

    informacin se podra concluir, por ejemplo, que

    un documento que nunca es visitado no tiene ra-

    zn de ser, o por el contrario, si una pgina muy

    visitada no se encuentra en los primeros niveles de

    jerarqua de un sitio, esto sera un indicador para

    mejorar la organizacin y navegacin del mismo.

    Existe una extensa lista de trabajos previos que

    utilizan la minera Web para mejorar sitios, los

    que incluyen: el anlisis de patrones frecuentes

    de navegacin y reglas de asociacin basadas en

    las pginas visitadas por los usuarios [23, 7, 6]

    y modelamiento de sesiones de usuarios, perles

    y anlisis de clusters [13, 16, 17, 19, 18]. Ade-

    ms, son numerosas las herramientas de minera

    de uso y de sistemas de recomendacin. WebSIFT

    [8] es una herramienta de minera Web creada

    para encontrar reglas y patrones interesantes en

    un sitio, deniendo como interesantes las reglas

    y patrones que son nuevos o inesperados. Otras

    herramientas dedicadas al mejoramiento de sitios

    [24, 15, 25] estn enfocadas en la navegacin (y a

    veces la estructura) de un sitio en forma dinmica

    e individual para cada visitante.

    Las consultas formuladas en los motores de bs-

    queda son una herramienta valiosa para mejorar

    sitios Web. En [12] se propone un mtodo pa-

    ra analizar consultas similares en buscadores. En

    [5, 4] se presenta un modelo vectorial para la re-

    comendacin de consultas. Otro tipo de anlisis,

    presentado en [2] consiste en estudiar las consul-

    tas formuladas en el motor de bsqueda interno

    de un sitio Web e indica que puede descubrirse

    informacin valiosa a partir del estudio del com-

    portamiento de los usuarios despus de realizada

    una consulta. Esta propuesta es el punto de par-

    tida de nuestro trabajo.

    90 Inteligencia Artificial Vol. 10 No 29 (2006)

  • 3. Conceptos preliminares

    Sesin: Una sesin corresponde a todos los ac-

    cesos registrados para un usuario, en los logs

    de uso de un sitio, dentro de un intervalo

    de tiempo mximo. Este intervalo es denido

    por defecto en 30 minutos, pero puede modi-

    carse a cualquier otro valor adecuado para

    el sitio [10]. Cada usuario es identicado en

    forma nica por su direccin IP y software de

    acceso o User-Agent (esto es una heurstica

    que puede ser mejorada).

    Motor de bsqueda: Un motor de bsqueda

    puede ser tanto interno como externo a un

    sitio Web. La principal diferencia entre un

    motor de bsqueda interno y uno externo,

    es que el motor de bsqueda interno slo se

    remite a las pginas encontradas en un sitio

    Web, mientras que el externo en general re-

    copila los documentos de la Web en forma

    global.

    Consulta: Una consulta corresponde a un con-

    junto de una o ms palabras claves, formula-

    das por un usuario en un motor de bsqueda

    y representan una necesidad de informacin

    de ese usuario (en la mayora de los casos).

    Esencia de la informacin: La esencia de la

    informacin [20] es un trmino que indica qu

    tan buena es una palabra (o un conjunto de

    palabras) para describir cierto concepto en

    relacin a otras palabras con la misma se-

    mntica. Por ejemplo, las palabras polismi-

    cas (palabras con ms de un signicado) tie-

    nen menor esencia de la informacin debido

    a su ambigedad.

    4. Descripcin del modelo

    En esta seccin presentamos una descripcin de

    nuestro modelo de minera para el uso, contenido

    y estructura de un sitio Web, enfocado en consul-

    tas. Los datos de entrada del modelo son los logs

    de uso, la estructura del sitio y sus contenidos. La

    estructura del sitio es obtenida de los enlaces en-

    tre documentos y los contenidos corresponden al

    texto asociado a cada una de sus pginas. El ob-

    jetivo de este modelo es generar informacin que

    permitir mejorar la estructura y los contenidos

    de un sitio Web, adems de evaluar la interconec-

    tividad entre documentos de contenidos similares.

    En un sitio Web se pueden encontrar dos tipos de

    consultas diferentes, las cuales quedan registradas

    en los logs de acceso. Estas consultas son:

    Navegacin

    Sitio WebConsultasexternas

    Consultasinternas

    Contenido Enlaces

    Contenido

    Enlaces

    +

    Esencia dela informacin

    Clustering ycomponentes

    conexas

    Figura 1: Descripcin del modelo.

    Consultas externas: Son las consultas realiza-

    das a un buscador de la Web (externo al si-

    tio), a partir de las cuales los usuarios selec-

    cionaron y visitaron los documentos de un si-

    tio en particular. Estas consultas pueden ser

    descubiertas utilizando el campo referer de

    los logs de acceso y siempre son consultas

    satisfactorias para el usuario (es decir que

    tienen respuesta).

    Consultas internas: Son aquellas consultas

    formuladas en la caja de bsqueda interna de

    un sitio. En este tipo de consultas, se pueden

    dar las consultas sin resultados. Adicional-

    mente, consultas en buscadores externos res-

    tringidas a un sitio en particular, sern con-

    sideradas como consultas internas para ese

    sitio. Por ejemplo, consultas en Google.com

    que incluyen site:example.org son consul-

    tas internas para el sitio example.org.

    Para cada consulta formulada en un motor de

    bsqueda, si una pgina de resultados es gene-

    rada, esta pgina contiene enlaces a documentos

    considerados como respuestas apropiadas por el

    buscador. Al revisar el resumen que acompaa a

    cada documento (el cual permite al usuario esta-

    blecer supercialmente si un documento es apro-

    piado a su consulta) el usuario puede decidir vi-

    sitar cero o ms documentos de la lista.

    En la gura 1 se muestra una descripcin glo-

    bal del modelo, el cual recopila informacin de las

    consultas internas y externas del sitio, los patro-

    nes de navegacin y los contenidos para descubrir

    esencia de la informacin que se puede utilizar pa-

    ra mejorar el contenido del sitio. Adicionalmente

    los datos de los enlaces y contenidos del sitio, son

    Inteligencia Artificial Vol. 10 No 29 (2006) 91

  • analizados usando clustering de documentos simi-

    lares y componentes conexas. Este procedimiento

    ser explicado en mayor detalle ms adelante.

    4.1. Modelo de navegacin

    Al analizar el comportamiento de navegacin de

    los usuarios que visitan un sitio Web, durante un

    periodo de tiempo determinado, el modelo puede

    establecer diferentes tipos de documentos en el

    sitio, estos son: Documentos alcanzados Sin Bus-

    cador (DSB), Documentos alcanzados desde el

    Buscador Interno (DBI) y Documentos alcanza-

    dos desde un Buscador Externo (DBE). A con-

    tinuacin se presentar la denicin de estos tres

    tipos de documentos.

    DSB: Son aquellos documentos que en el trans-

    curso de una sesin, fueron alcanzados reco-

    rriendo enlaces sin la necesidad de utilizar

    un motor de bsqueda (interno al sitio o ex-

    terno). Es decir, los documentos alcanzados

    desde la pgina de resultados de un busca-

    dor y los documentos recorridos desde estos

    resultados no son considerados en este con-

    junto. S son considerados en este conjunto

    todos los documentos navegados desde docu-

    mentos visitados antes de utilizar un busca-

    dor. De esta manera se admite la posibilidad

    de que el usuario realice una o varias bsque-

    das para luego volver a alguna de las pginas

    previas a estas consultas y retomar la nave-

    gacin a travs de enlaces.

    DBI: Son aquellos documentos que en el trans-

    curso de una sesin, slo son alcanzados por

    ser resultados directos de una consulta en un

    buscador interno del sitio Web.

    DBE: Son aquellos documentos que en el trans-

    curso de una sesin, slo son alcanzados por

    ser resultados directos de una consulta en un

    buscador externo al sitio Web.

    Es importante notar que DSB, DBI y DBE no

    son conjuntos disjuntos de documentos. Esto se

    debe a que en una sesin un documento puede

    ser alcanzado utilizando un motor de bsqueda

    (y por lo tanto pertenecer a DBI o DBE) y en

    otra sesin el mismo documento puede ser alcan-

    zado navegando a travs de enlaces (pertenecien-

    do a DSB). Lo importante entonces es registrar

    cuantas veces cada uno de estos diferentes even-

    tos ocurre para cada documento. Consideraremos

    la frecuencia de cada evento directamente propor-

    cional a la relevancia de ste para mejorar el sitio

    Web. La clasicacin de los documentos, en estas

    Agregar URLa DSB (URL = consulta) o

    (REFERER no est en DSB) o(REFERER = consulta)

    Nueva sesin:(REFERER = URL de otro sitio) o(REFERER = VACO) o(REFERER est en DSB)

    No agregarURL a DSB

    Iguala (1)

    (REFERER = URL de otro sitio) o(REFERER = VACO) o(REFERER est en DSB)

    Nueva sesin:(URL = consulta) o(REFERER no est en DSB) o(REFERER = consulta)

    (1)

    (2)

    Iguala (2)

    Figura 2: Heurstica para DSB.

    tres categoras, ser esencial para que el modelo

    descubra informacin til desde las consultas en

    un sitio.

    Los documentos que pertenecen a los conjuntos

    DBI y DBE son fciles de descubrir, y pueden ser

    identicados cuando la URL en un requerimien-

    to HTTP es igual a la pgina de resultados de

    un buscador (interno o externo). En estos casos,

    slo la primera vez que un documento es solici-

    tado en una sesin se clasica. Por otra parte, los

    documentos en el conjunto DSB son ms difci-

    les de clasicar, debido a que la navegacin hacia

    adelante y hacia atrs en el historial de documen-

    tos previamente visitados por el navegador no se

    registra en los logs de acceso del servidor. Para re-

    solver este problema, hemos creado la heurstica

    mostrada en la gura 2, la cual ha sido valida-

    da por nuestros resultados empricos. La gura

    2 muestra un diagrama de estados que comienza

    un nuevo ciclo de clasicacin al inicio de cada

    sesin y luego procesa secuencialmente cada re-

    querimiento producido por esa sesin al servidor

    Web del sitio. Al comienzo del ciclo de clasica-

    cin el conjunto DSB es inicializado con el valor

    de la pgina (o pginas) de inicio del sitio Web

    y cualquier documento solicitado desde un docu-

    mento en el conjunto DSB, desde otro sitio o des-

    de un referer vaco (es el caso de los documentos

    que son bookmarks o favoritos) son agregados al

    conjunto DSB.

    4.2. Consultas satisfactorias

    El comportamiento de los usuarios en un sitio

    Web, reejado en su navegacin, permite estable-

    cer diferentes tipos de consultas dependiendo del

    comportamiento que se produce a partir de estas.

    92 Inteligencia Artificial Vol. 10 No 29 (2006)

  • Si un usuario decide visitar documentos desde la

    pgina de resultados de una consulta, diremos que

    esa consulta es de clase A o B. Este tipo de anli-

    sis puede realizarse para consultas internas o ex-

    ternas. A continuacin deniremos formalmente

    las consultas de clase A y B (ver la gura 3):

    Consultas clase A: Son consultas para las cua-

    les la sesin visit uno o ms documentos en

    DA, en donde DA contiene documentos en-

    contrados en el conjunto DSB. En otras pala-

    bras, los documentos en DA son documentos

    que, en otra u otras sesiones, a su vez han si-

    do alcanzados navegando sin utilizar un mo-

    tor de bsqueda.

    Consultas clase B: Son consultas para las cua-

    les la sesin visit uno o ms documentos

    en DB, en donde DB contiene documentos

    que slo han sido clasicados en DBI y/o en

    DBE y no en DSB. En otras palabras, los

    documentos en DB slo han sido alcanzados

    utilizando bsquedas, para todas las sesiones

    analizadas.

    El propsito de denir estas dos clases de con-

    sultas es que las consultas A y B contienen pa-

    labras claves que pueden ayudar a describir los

    documentos que son alcanzados como resultado

    de estas consultas. En el caso de consultas clase

    A, estas palabras pueden ser utilizadas en el tex-

    to que describe los enlaces a documentos en DA,

    contribuyendo con esencia de la informacin adi-

    cional para las descripciones de los enlaces exis-

    tentes hacia estos documentos. El caso de con-

    sultas clase B es an ms interesante, debido a

    que las palabras utilizadas en en estas consultas

    describen los documentos en DB mejor que las pa-

    labras utilizadas actualmente en las descripciones

    de los enlaces de estos documentos, contribuyen-

    do con nueva esencia de la informacin para los

    documentos en DB. Adems, los documentos de

    DB ms frecuentes debern ser considerados por

    el administrador del sitio como buenas sugeren-

    cias para ser documentos alcanzables desde los

    primeros niveles del sitio (esto tambin se aplica,

    en menor grado a los documentos DA). De esta

    forma, es posible sugerir hotlinks basndose en

    las consultas y no en la navegacin, como se suele

    hacer. En este punto, es importante notar, que la

    misma consulta puede ser clasicada como clase

    A y clase B (lo que no puede ocurrir es que un

    mismo documento pertenezca a DA y DB), as es

    que la relevancia que se asocia a cada consulta es

    proporcional a su frecuencia en cada una de las

    clases en relacin a la frecuencia de los documen-

    tos en DA y DB.

    A B

    Motorde

    Bsqueda

    DA DB

    Sitio Web

    Navegacin

    Consulta Consulta

    Figura 3: Consultas clase A y B.

    4.3. Consultas no satisfactorias

    En el caso de que el anlisis de la navegacin para

    una sesin, muestre que una consulta realizada al

    motor de bsqueda interno tuvo cero resultados

    visitados, esto normalmente puede signicar una

    de dos cosas:

    1. El buscador despleg cero documentos en la

    pgina de resultados, debido a que no existen

    documentos apropiados para la consulta en el

    sitio.

    2. El buscador despleg uno o ms resultados,

    pero ninguno de estos pareci apropiado a la

    consulta desde el punto de vista del usuario.

    Esto puede ocurrir cuando el contenido del

    sitio es reducido o con consultas que tienen

    ms de un signicado (palabras polismicas).

    Para clasicar estas consultas es necesario separar

    las diferentes causas. Con este objetivo denimos

    las clases C, C', D y E (ver gura 4), en donde

    las consultas C', D y E son obtenidas por me-

    dio de una clasicacin manual realizada por el

    administrador del sitio:

    Consultas clase C: Corresponde a consultas

    para las cuales el buscador despleg uno o

    ms resultados, pero sin embargo el usuario

    no eligi documentos para visitar. Esto pue-

    de ocurrir en el caso de consultas que tie-

    nen signicados ambiguos y para las cuales

    el sitio tiene documentos que reejan las pa-

    labras de la consulta, pero no el signicado

    que el usuario estaba buscando. Las consul-

    tas clase C representan conceptos que deben

    ser desarrollados en los contenidos del sitio

    con el signicado que los usuarios necesitan,

    enfocndose en las palabras claves de la con-

    sulta.

    Consultas clase C': Corresponde a consultas

    para las cuales el buscador despleg cero do-

    cumentos como resultado, debido a que las

    Inteligencia Artificial Vol. 10 No 29 (2006) 93

  • Cero resultadosvisitados

    El conceptono existeen el sitio

    El motor de bsquedamostr ms de un

    resultado

    El motor de bsquedamostr cero resultados

    Motorde

    Bsqueda

    Consulta

    C

    El conceptoexiste en el sitio

    ClasificacinManual

    C D ENo es interesante

    Figura 4: Consultas clase C, C', D y E.

    palabras utilizadas en la consulta no existen

    dentro del sitio. En el caso de que la clasica-

    cin manual establezca que el signicado de

    la consulta existe en el sitio, pero descrito con

    otras palabras, entonces la consulta es clase

    C'. Estas consultas representan palabras que

    deberan ser utilizadas en el texto que descri-

    be los enlaces y documentos que comparten

    el mismo signicado que estas consultas.

    Consultas clase D: Al igual que en las consul-

    tas clase C', para estas consultas el busca-

    dor despleg cero documentos como resulta-

    do, debido a que las palabras utilizadas en la

    consulta no existen dentro del sitio. Sin em-

    bargo, despus de hacer la clasicacin ma-

    nual se establece que el concepto expresado

    por la consulta no existe en el sitio (ni si-

    quiera explicado con otras palabras) y que

    debera ser incorporado a los contenidos del

    sitio Web ya que representa nuevos temas de

    inters para los usuarios.

    Consultas clase E: Son aquellas consultas pa-

    ra las cuales no existen resultados en el sitio

    y que no son de inters para ste, ya que no

    pertenece a las consultas clase C' ni D. Estas

    consultas deben ser omitidas de la clasica-

    cin e incluyen aquellas que poseen errores ti-

    pogrcos. Sin embargo, si hay un error muy

    frecuente, puede ser importante incluir esta

    palabra en las pginas que poseen la pala-

    bra escrita en forma correcta. En este caso

    pasaran a ser consultas de una de las clases

    anteriores.

    Cada clase de consulta es til de forma diferen-

    te al momento de mejorar la estructura y el conte-

    nido de un sitio. La importancia de cada consulta

    se considerar proporcionalmente a su frecuencia

    Clase Existe Respuestas Visitas Tipo Inters

    semntica Documento

    A s s s DB DSB bajoB s s s DB DSB medio

    C s s no bajo

    C' s no no medio

    D debera no no alto

    E no no no ninguno

    Cuadro 1: Clases de consultas.

    en los logs de uso y cada consulta ser contada

    slo una vez por sesin. En el cuadro 1 se mues-

    tra una comparacin entre las diferentes clases de

    consultas (en este cuadro DB = DBI DBE).La clasicacin de este tipo de consultas es con

    memoria, es decir, una consulta previamente cla-

    sicada manualmente no necesita ser clasicada

    en ejecuciones posteriores de la herramienta. Ade-

    ms se utiliza un tesauro simple para asociar con-

    sultas con sus sinnimos. De hecho, con el tiempo,

    esta herramienta construye un tesauro a la medi-

    da para cada sitio.

    4.4. Patrones frecuentes de

    consulta

    Todas las consultas formuladas en el motor de

    bsqueda interno del sitio Web se analizan para

    descubrir patrones frecuentes de consulta. Estos

    patrones son conjuntos de palabras que se repiten

    frecuentemente en las consultas. Una vez descu-

    biertos estos conjuntos, estos son vericados en el

    motor de bsqueda interno para ver si tienen res-

    puestas en el sitio o no. Si patrones altamente fre-

    cuentes no tienen respuestas en el sitio, entonces

    es necesario revisar los contenidos relacionados a

    estas palabras para profundizar estos temas.

    4.5. Clustering de texto

    Nuestro modelo de minera de sitios Web realiza

    clustering de los documentos en el sitio de acuer-

    do a la similaridad de su texto (el nmero de clus-

    ters utilizado es un parmetro para el modelo).

    En esta etapa de clustering los documentos son

    representados como vectores, en los cuales cada

    coordenada representa una palabra del vocabula-

    rio del sitio Web y el valor de esa coordenada es

    la frecuencia con que ocurre esta palabra en el si-

    tio. Esto se hace para obtener una representacin

    simple y global de la distribucin del contenido

    entre los documentos y para comparar esto con

    la organizacin de los enlaces en el sitio. Esta ca-

    racterstica es utilizada para evaluar si es que do-

    cumentos con texto similar, que no tienen enlaces

    entre ellos, deberan ser enlazados para mejorar la

    94 Inteligencia Artificial Vol. 10 No 29 (2006)

  • estructura del sitio Web. Es importante destacar

    que no estamos diciendo que todos los documen-

    tos de texto similar deberan tener enlaces entre

    s, ni que este sea el nico criterio existente para

    asociar documentos, pero consideramos que este

    es un mtodo til y directo para evaluar la inter-

    conectividad de sitios Web (en especial sitios muy

    grandes).

    El modelo adems relaciona los resultados del

    clustering con la informacin de la clasicacin de

    consultas. Esto permite conocer cuales documen-

    tos en cada cluster pertenecen a los conjuntos DA

    y DB, y la frecuencia con que estos eventos ocu-

    rren. Esto apoya la idea de aadir nuevos grupos

    de documentos (o temas) de inters en la distri-

    bucin de contenidos de los primeros niveles del

    sitio. Enfocando, tal vez, los contenidos del si-

    tio hacia los clusters ms visitados. Adems este

    anlisis entrega informacin de los clusters ms

    visitados y de si fueron alcanzados utilizando un

    buscador o por medio de navegacin a travs de

    enlaces en el sitio.

    5. Nuestro prototipo y un

    caso de uso

    La implementacin del modelo involucr diferen-

    tes tareas de minera Web, tales como: limpieza de

    datos, identicacin de sesiones y usuarios, descu-

    brimiento de patrones, clasicacin de consultas,

    separacin de contenido y estructura, y anlisis

    de clusters de texto. Los datos de los contenidos

    y la estructura se extrae del ndice generado por

    el recolector de pginas del motor de bsqueda

    del sitio [1], la herramienta utilizada para el clus-

    tering de texto es CLUTO [14] por ser de gran e-

    ciencia y rapidez. Este proceso utiliza el mtodo

    de bisecciones secuenciales, el cual genera buenos

    resultados para clustering de texto [14], aunque

    nuestro modelo puede incorporar cualquier otra

    tcnica de clustering. Para el anlisis de patrones

    de consulta se utiliz LPMINER [22]. Las con-

    sultas internas provienen del buscador interno y

    consideramos slo consultas externas provenien-

    tes de Google.com (aunque pueden incorporarse

    ms buscadores externos). Ms detalles de la im-

    plementacin se encuentran en [21].

    El cuadro 2 contiene una muestra de las dife-

    rentes clases de consultas obtenidas de un log de

    dos meses perteneciente a un portal chileno diri-

    gido a estudiantes universitarios. El log contiene

    ms de 595 mil sesiones, 3.8 millones de docu-

    mentos visitados (contando slo visitas nicas por

    sesin), 57 mil consultas internas y 162 mil con-

    sultas externas. En este cuadro se muestran las

    consultas ms frecuentes para cada clase. Algu-

    nas de las sugerencias que se ineren son el aadir

    informacin sobre becas en Espaa y proveer un

    test vocacional. Adems, los usuarios no gustan

    de los resultados entregados para la consulta le-

    yes y no encuentran informacin acerca de clases

    nocturnas ya que en el sitio no se utiliza la pa-

    labra vespertinas. Las consultas de clase E no se

    muestran ya que no son relevantes para el portal

    (ej. msn o inteligencia emocional).

    Clase A

    examen admisin

    universidades

    chat

    insercin laboral

    becas universidades

    ensayos admisin

    tesis

    Clase B

    exmenes admisin

    currculum vitae

    libreras

    universidades

    carta presentacin

    examen ingls

    becas universidades

    Clase C

    becas

    admisin

    carreras

    ensayo

    universidad chile

    leyes

    resultados admisin

    Clase C'

    carreras vespertinas

    diplomas

    Espaa

    Clase D

    test vocacional

    becas Espaa

    calcular puntaje

    Cuadro 2: Ejemplos de diferentes clases.

    La gura 5 muestra parte de la visualizacin del

    anlisis del clustering, mencionado en la seccin

    anterior. El nmero de enlaces entre documentos

    de diferentes nodos y clusters se presenta para

    cada nivel del rbol jerrquico de clustering. Las

    reas problemticas, tales como los clusters que

    no tienen enlaces entre sus documentos o clus-

    ters muy similares que tienen pocos enlaces, son

    representadas utilizando diferentes colores, y pue-

    den ser exploradas inmediatamente. Esto permite

    a un humano experto decidir cuales clusters ne-

    cesitan mejorar su interconectividad.

    Al aplicar las principales sugerencias obteni-

    das desde los reportes de la herramienta, se pu-

    do observar un incremento de aproximadamente

    un 20% en las visitas desde buscadores externos.

    Esto se tradujo en un aumento en el nmero de

    visitas diarias al sitio. Este aumento se debi prin-

    cipalmente al mejoramiento del contenido del si-

    tio y las descripciones de los enlaces, lo cual fue

    validado por el anlisis de las palabras claves uti-

    lizadas en las consultas externas. Adicionalmente

    a esto, se pudo observar una leve disminucin en

    el nmero de consultas internas, lo cual coincide

    Inteligencia Artificial Vol. 10 No 29 (2006) 95

  • Resultados del clustering de texto y comparacin con la jerarqua de enlaces enel sitio

    http://www.example.orgNmero de clusters: 30Nmero total de enlaces en el sitio: 167.696Nmero total de documentos analizados: 8.175Promedio de enlaces por documento: 20,51

    rbol jerrquico basado en el clustering Enlaces entre documentos por niveles

    58 |- 55 | |- 50 | | |- 44 | | | |- 41 | | | | |- 34 | | | | | |- 14 | | | | | - 30 | | | | | |- 15 | | | | | - 6 | | | | - 9 | | | - 8 | | - 45 | | |- 11 | | - 40 | | |- 12 | | - 36 | | |- 13 | | - 17 | - 53 | |- 48 | | |- 37 | | | |- 19 | | | - 24 | | - 46 | | |- 18 | | - 31 | | |- 16 | | - 20 | - 52 | |- 47 | | |- 39 | | | |- 21 | | | - 32 | | | |- 23 | | | - 29 | | - 42 | | |- 33 | | | |- 26 | | | - 27 | | - 38 | | |- 25 | | - 28 | - 49 | |- 43 | | |- 10 | | - 35 | | |- 22 | | - 7 | - 5 - 57 |- 0 - 56 |- 51 | |- 3 | - 4 - 54 |- 1 - 2

    Nivel 0nid 5858 167.696

    Nivel 1nid 55 5755 98.564 5.47557 52.734 10.923

    Nivel 2nid 0 50 53 560 2.766 0 13.144 0

    50 0 8 27.740 1.79953 14 4.090 66.726 3.66256 0 0 39.590 8.157

    Nivel 3nid 44 45 48 51 52 5444 0 0 1.898 995 13.470 045 0 8 1.538 804 10.834 048 46 73 7.483 2.289 18.854 051 0 0 0 3.795 19.221 052 2.151 1.820 1.907 1.338 38.482 3554 0 0 0 0 20.369 4.362

    Nivel 4nid 1 2 3 4 8 11 37 40 41 46 47 491 1.766 0 0 0 0 0 0 0 0 0 7.398 1.0572 0 2.596 0 0 0 0 0 0 0 0 10.360 1.5543 0 0 1.912 0 0 0 0 0 0 0 7.614 1.1434 0 0 0 1.883 0 0 0 0 0 0 9.051 1.4138 0 0 0 125 0 0 79 0 0 79 1.040 250

    11 0 0 0 214 0 7 193 0 0 207 2.372 42137 0 0 0 553 0 0 0 0 0 0 1.107 1.10640 0 0 0 590 0 0 568 1 0 570 6.862 1.17941 0 0 0 870 0 0 870 0 0 870 10.440 1.74046 0 0 0 1.736 46 48 1.421 25 0 6.062 14.029 2.61247 16 19 23 624 0 0 289 0 0 277 14.658 2.99649 0 0 0 691 242 556 671 1.264 1.909 670 7.720 13.108

    Nivel 5nid 5 9 12 18 19 24 31 34 36 39 42 435 5.622 0 0 0 0 134 133 3 0 1.791 0 3039 226 0 0 0 0 226 226 0 0 2.712 0 226

    12 120 0 1 1 0 99 100 0 0 1.234 0 12118 237 0 5 1.741 0 237 2.424 0 0 3.933 0 47419 315 0 0 0 0 0 0 0 0 630 0 31524 238 0 0 0 0 0 0 0 0 477 0 23831 639 0 20 636 315 869 1.261 0 0 10.096 0 1.26234 644 0 0 0 0 644 644 0 0 7.728 0 64436 469 0 0 0 0 469 469 0 0 5.628 0 46939 411 0 0 1 0 285 272 0 0 7.305 38 68042 950 0 0 0 0 4 4 0 0 4.840 2.475 95543 558 365 301 0 0 537 537 1.541 963 5.928 1 6.625

    Nivel 6nid 10 13 14 16 17 20 21 30 32 33 35 3810 2.492 260 178 0 198 285 0 686 3.155 0 307 013 0 0 0 0 0 167 0 0 2.004 0 167 014 0 0 0 0 0 204 0 0 2.448 0 204 016 0 0 0 0 0 630 0 0 5.040 0 630 017 0 0 0 0 0 302 0 0 3.624 0 302 020 0 0 0 0 0 631 0 0 5.056 0 632 021 0 0 0 0 0 1 911 0 181 0 65 030 0 0 0 0 0 440 0 0 5.280 0 440 032 15 0 0 0 0 271 10 0 6.203 25 600 1333 0 0 0 0 0 1 3 0 2.165 1.099 424 6735 146 177 225 0 328 252 0 452 2.773 1 3.680 038 0 0 0 0 0 3 0 0 2.672 201 531 1.108

    Nivel 7nid 6 7 15 22 23 25 26 27 28 296 0 0 0 57 342 0 0 0 0 3427 26 1.041 76 84 322 0 0 1 0 273

    15 0 0 0 383 2.298 0 0 0 0 2.29822 34 31 316 2.524 1.206 0 0 0 0 97223 0 0 0 115 1.348 4 2 21 0 34525 0 0 0 224 458 462 3 67 15 67026 0 0 0 184 383 4 527 26 40 55227 0 0 0 240 508 13 45 501 10 72228 0 0 0 307 619 29 87 44 602 92529 0 10 0 475 2.278 0 0 2 9 2.232

    Figura 5: Visualizacin de clustering.

    con nuestra teora de que, gracias a las sugeren-

    cias, los contenidos estn siendo encontrados ms

    fcilmente por los usuarios. Todas estas mejoras

    se han mantenido en los informes generados por

    la herramienta para los meses posteriores.

    6. Conclusiones y trabajo

    futuro

    En este artculo hemos presentado el primer mo-

    delo de minera de sitios Web enfocado en con-

    sultas. El objetivo de este modelo es encontrar

    mejor esencia de la informacin, contenidos y es-

    tructura de enlaces para un sitio Web. Nuestra

    herramienta descubre, en forma muy simple y di-

    recta, informacin interesante. Por ejemplo, las

    consultas de clase D pueden representar carencia

    de contenidos, productos o servicios importantes

    en el sitio. Aunque la clasicacin manual pueda

    parecer algo lenta en un principio, en nuestra ex-

    periencia, a largo plazo es casi insignicante, ya

    que son pocas las consultas nuevas importantes

    que se presentan.

    El trabajo futuro incluye mejorar nuestras vi-

    sualizaciones del anlisis de clustering y extender

    nuestro modelo para incluir el origen de consul-

    tas internas (pginas desde las cuales se formula

    la consulta). Tambin, aadiremos informacin de

    la clasicacin y/o el tesauro, adems del texto de

    los enlaces, para mejorar la etapa de clustering.

    Asimismo nos gustara modicar el algoritmo de

    clustering para que determine automticamente

    el nmero de clusters adecuado para el sitio y pa-

    ra que realice un anlisis ms en profundidad de

    los clusters ms visitados. La etapa de clustering

    de texto posiblemente ser extendido para que in-

    cluya lematizacin en al menos dos idiomas, ingls

    y espaol.

    Otra caracterstica que nuestro modelo debe-

    ra incluir es la cuanticacin incremental de la

    evolucin del sitio, midiendo los cambios en las

    consultas y los comportamientos de los usuarios

    en la medida que pasa el tiempo. En este punto

    nos interesara evaluar y validar la calidad de los

    cambios realizados al sitio gracias a las recomen-

    daciones generadas a partir del modelo.

    Finalmente, tenemos la certeza de que existe

    un gran potencial para descubrir nuevos usos de

    las consultas para mejorar sitios Web.

    96 Inteligencia Artificial Vol. 10 No 29 (2006)

  • Referencias

    [1] Akwan Information Technologies. Myweb

    search. http://www.akwan.com.br.

    [2] Ricardo Baeza-Yates. Excavando la web (mi-

    ning the web, original in spanish). El profe-

    sional de la informacin (The Information

    Professional), 13(1):410, Jan-Feb 2004.

    [3] Ricardo Baeza-Yates. Web usage mining in

    search engines. InWeb Mining: Applications

    and Techniques, Anthony Scime, editor. Idea

    Group, 2004.

    [4] Ricardo Baeza-Yates, Carlos Hurtado, and

    Marcelo Mendoza. Query recommendation

    using query logs in search engines. In Web

    Clustering Workshop at EDBT 2004, Crete,

    Greece, 2004. LNCS Springer.

    [5] Ricardo Baeza-Yates, Carlos Hurtado, and

    Marcelo Mendoza. Ranking boosting based

    in query clustering. In Atlantic Web Inte-

    lligence Conference, Cancun, Mexico, 2004.

    LNCS Springer.

    [6] Paulo Batista and Mario J. Silva. Mining

    on-line newspaper web access logs, 2002.

    [7] Bettina Berendt and Myra Spiliopoulou.

    Analysis of navigation behaviour in web sites

    integrating multiple information systems. In

    VLDB Journal, Vol. 9, No. 1 (special issue

    on "Databases and the Web"), pages 5675,

    2000.

    [8] R. Cooley, P. Tan, and J. Srivastava. Web-

    sift: the web site information lter system. In

    KDD Workshop on Web Mining, San Diego,

    CA. Springer-Verlag, in press, 1999.

    [9] Robert Cooley, Bamshad Mobasher, and Jai-

    deep Srivastava. Web mining: information

    and pattern discovery on the world wide web.

    In 9th International Conference on Tools

    with Articial Intelligence (ICTAI '97), pa-

    ges 558567, 1997.

    [10] Robert Cooley, Bamshad Mobasher, and Jai-

    deep Srivastava. Data preparation for mining

    world wide web browsing patterns. Know-

    ledge and Information Systems, 1(1):532,

    1999.

    [11] Robert Cooley, Pang-Ning Tan, and Jaideep

    Srivastava. Discovery of interesting usage

    patterns from web data. InWEBKDD, pages

    163182, 1999.

    [12] Brian D. Davison, David G. Deschenes, and

    David B. Lewanda. Finding relevant website

    queries. In Poster Proceedings of the Twelfth

    International World Wide Web Conference,

    Budapest, Hungary, May 2003.

    [13] Z. Huang, J.g, D. Cheung, M.g, and

    W. Ching. A cube model for web access

    sessions and cluster analysis. In Proc. of

    WEBKDD 2001 (San Francisco CA, August

    2001), 47-57., 2001.

    [14] George Karypis. CLUTO a clustering tool-

    kit. Technical Report 02-017, Dept. of Com-

    puter Science, University of Minnesota, 2002.

    Available at http://www.cs.umn.edu/~cluto.

    [15] F. Masseglia, P. Poncelet, and M. Teisseire.

    Using data mining techniques on web access

    logs to dynamically improve hypertext struc-

    ture. ACM SigWeb Letters vol. 8, num. 3,

    pages 119, 1999.

    [16] O. Nasraoui and R. Krishnapuram. An evo-

    lutionary approach to mining robust multi-

    resolution web proles and context sensiti-

    ve url associations. Intl' Journal of Compu-

    tational Intelligence and Applications, Vol.

    2, No. 3, pages 339348, 2002.

    [17] O. Nasraoui, R. Krishnapuram, and A. Joshi.

    Relational clustering based on a new robust

    estimator with application to web mining. In

    Proceedings of NAFIPS 99, (New York), pa-

    ges 705 709, 1999.

    [18] O. Nasraoui and C. Petenes. Combining web

    usage mining and fuzzy inference for web-

    site personalization. In Proceedings of the

    WebKDD workshop, pages 3746, 2003.

    [19] Jian Pei, Jiawei Han, Behzad Mortazavi-asl,

    and Hua Zhu. Mining access patterns e-

    ciently from web logs. In Pacic-Asia Confe-

    rence on Knowledge Discovery and Data Mi-

    ning, pages 396407, 2000.

    [20] Peter Pirolli. Computational models of infor-

    mation scent-following in a very large brow-

    sable text collection. In CHI, pages 310,

    1997.

    [21] Barbara Poblete. A web mining model and

    tool centered in queries. M.sc. in Computer

    Science, CS Dept., Univ. of Chile, 2004.

    [22] Masakazu Seno and George Karypis. Lpmi-

    ner: An algorithm for nding frequent item-

    sets using length-decreasing support cons-

    traint. In Proceedings of the 2001 IEEE In-

    Inteligencia Artificial Vol. 10 No 29 (2006) 97

  • ternational Conference on Data Mining, pa-

    ges 505512. IEEE Computer Society, 2001.

    [23] Myra Spiliopoulou. Web usage mining

    for web site evaluation. Commun. ACM,

    43(8):127134, 2000.

    [24] Myra Spiliopoulou and Lukas C. Faulstich.

    WUM: a Web Utilization Miner. In Works-

    hop on the Web and Data Bases (WebDB98),

    pages 109115, 1998.

    [25] Myra Spiliopoulou, Carsten Pohle, and Lu-

    kas Faulstich. Improving the eectiveness

    of a web site with web usage mining. In

    WEBKDD, pages 142162, 1999.

    [26] Jaideep Srivastava, Robert Cooley, Mukund

    Deshpande, and Pang-Ning Tan. Web usage

    mining: Discovery and applications of usage

    patterns from web data. SIGKDD Explora-

    tions, 1(2):1223, 2000.

    98 Inteligencia Artificial Vol. 10 No 29 (2006)