articulo mineria

9
Universidad Autónoma de Manizales. Angarita García, Muñoz Franco, Minería Web y Análisis Estadístico Aplicado a un Archivo Log de Acceso. ResumenEl aumento desproporcionado de la información que se encuentra almacenada en la web se viene comportando de manera exponencial, esto debido a que cada vez es más necesario tener datos con una mayor interrelación entre ellos y así poder interrelacionar el mundo en el que actualmente nos encontramos. En dicho mundo son infinitos los datos y de igual forma los sitios donde se genera, es por esto que usar técnicas que permitan descubrir patrones de comportamientos de los usuarios anteriormente mencionados es de suprema importancia; para esto existe la minería y el análisis de log, siendo técnicas efectivas, usadas y probadas. Tomar un archivo log, procesarlo, limpiarlo, generar un archivo que sirva como guía y finalmente obtener de este archivo uno con características que permita que Weka lo interprete, nos dara la posibilidad de realizar un proceso de minería web, lo que nos conduciría a determinar patrones de comportamiento en usuarios de determinado sitio web. Para este proceso se eligió el log de acceso de la página web de la empresa <<Oferto>>. Índice de Términos— Análisis estadísticos, ip, minería de datos, reglas de asociación, url. I. INTRODUCCIÓN EL DESENFRENADO CRECIMIENTO DE LA WEB NOS HA LLEVADO A CONTAR CON INFORMACIÓN INFINITA DE DIFERENTES FORMATOS Y ALMACENADA EN MÚLTIPLES FUENTES, ES POR ESTO QUE LA WEB SE HA CONVERTIDO EN UN ELEMENTO DE GRAN IMPORTANCIA PARA LA GRAN MAYORÍA DE EMPRESAS Y PROFESIONALES. ESTO FUE IDENTIFICADO DESDE QUE LA INTERNET ESTABA EN SUS INICIOS, SOLO POR CITAR UN EJEMPLO BRAY ENCONTRÓ PATRONES MUY LLAMATIVOS EN UN MILLÓN Y MEDIO DE DOCUMENTOS, DANDO ASÍ UNA DE LAS PRIMERAS MUESTRAS DE LO COMPLEJA QUE PODÍA SER LA WEB [BRAY, 1996]. ES POR ESTO QUE NACE LA LLAMADA <<MINERÍA WEB>> QUE BUSCA RELACIONES, CORRELACIONES, DEPENDENCIAS, MODELOS, ESTRUCTURAS, TENDENCIAS, CLASES, SEGMENTOS, A PARTIR DE LA INFORMACIÓN ALMACENADA EN LOS DOCUMENTOS Y SERVICIOS OFRECIDOS EN LA WEB, ENTRE LOS QUE PODEMOS ENCONTRAR ARCHIVOS LOG, IMÁGENES, TEXTOS, VIDEOS, HIPERENLACES, …, ETC. PARA REALIZAR EL PROCESO DE EXTRAER CONOCIMIENTO DEL CONTENIDO DE LOS Minería Web y Análisis Estadístico Aplicado a un Archivo Log Angarita García, David Alberto., Muñoz Franco, Juan José. Universidad Autónoma de Manizales 1

Upload: david-alberto-angarita-garcia

Post on 16-Sep-2015

218 views

Category:

Documents


1 download

DESCRIPTION

Cómo hacer mineria de datos a una página web

TRANSCRIPT

6Universidad Autnoma de Manizales. Angarita Garca, Muoz Franco, Minera Web y Anlisis Estadstico Aplicado a un

Archivo Log de Acceso.

(Minera Web y Anlisis Estadstico Aplicado a un

Archivo LogAngarita Garca, David Alberto., Muoz Franco, Juan Jos.Universidad Autnoma de ManizalesResumenEl aumento desproporcionado de la informacin que se encuentra almacenada en la web se viene comportando de manera exponencial, esto debido a que cada vez es ms necesario tener datos con una mayor interrelacin entre ellos y as poder interrelacionar el mundo en el que actualmente nos encontramos. En dicho mundo son infinitos los datos y de igual forma los sitios donde se genera, es por esto que usar tcnicas que permitan descubrir patrones de comportamientos de los usuarios anteriormente mencionados es de suprema importancia; para esto existe la minera y el anlisis de log, siendo tcnicas efectivas, usadas y probadas. Tomar un archivo log, procesarlo, limpiarlo, generar un archivo que sirva como gua y finalmente obtener de este archivo uno con caractersticas que permita que Weka lo interprete, nos dara la posibilidad de realizar un proceso de minera web, lo que nos conducira a determinar patrones de comportamiento en usuarios de determinado sitio web. Para este proceso se eligi el log de acceso de la pgina web de la empresa .

ndice de Trminos Anlisis estadsticos, ip, minera de datos, reglas de asociacin, url. I. INTRODUCCINEl desenfrenado crecimiento de la web nos ha llevado a contar con informacin infinita de diferentes formatos y almacenada en mltiples fuentes, es por esto que la web se ha convertido en un elemento de gran importancia para la gran mayora de empresas y profesionales. Esto fue identificado desde que la internet estaba en sus inicios, solo por citar un ejemplo bray encontr patrones muy llamativos en un milln y medio de documentos, dando as una de las primeras muestras de lo compleja que poda ser la web [bray, 1996].

Es por esto que nace la llamada que busca relaciones, correlaciones, dependencias, modelos, estructuras, tendencias, clases, segmentos, a partir de la informacin almacenada en los documentos y servicios ofrecidos en la web, entre los que podemos encontrar archivos log, imgenes, textos, videos, hiperenlaces, , etc. Para realizar el proceso de extraer conocimiento del contenido de los documentos y de sus descripciones, algo que tambin se conoce como explotacin minera y que permite identificar patrones de comportamiento en los registros de acceso a Internet, existen variadas herramientas. Estas herramientas son sistemas inteligentes que trabajan tanto del lado del servidor, como del lado del cliente, para poder minar la informacin que se genera con el uso de Internet y su anlisis se realiza a partir de la informacin que existe en los archivos Log del servidor de Internet y el servidor de correo [1]. Esto con el fin de aprender de los comportamientos de los usuarios de la web partiendo de informacin almacenada en los servidores por medio del uso de tcnicas efectivas y software diseado para este proceso

II. planteamiento del problemaActualmente la empresa Oferto cuenta con una web por medio de la cual los consumidores pueden consultar lo que se encuentra en oferta en el lugar donde se encuentran ubicados, pero no se tienen claros los patrones de comportamiento que estn teniendo los usuarios de dicha plataforma; lo que no permite saber cules son las empresas que ms podran favorecerse de los servicios de esta plataforma con el fin de generar informacin que satisfaga a los usuarios finales de la misma, es por esto que aplicar minera web es esencial para lograr lo anteriormente mencionado, esto a travs del archivo de log del servidor del sitio web www.oferto.co. Partiendo de lo anterior se busc partir del siguiente interrogante:Cmo identificar los patrones de comportamiento de los usuarios de la plataforma Oferto.co aplicando tcnicas de minera web y anlisis estadstico de un archivo log de acceso?III. ObjetivosIII-A.Objetivo General

III-A.Objetivos Especficos

Conseguir el log de acceso de la plataforma web oferto.co

Configurar el software Analog 6.0 para procesar el archivo .log

Realizar la limpieza del archivo .log

Parametrizar atributos del archivo .log

Generar archivo .arff y procesarlo con Weka

Determinar reglas de asociacin aplicando algoritmo A priori

Interpretar reglas de asociacin y estadsticas obtenidas

IV. Metodologa

ULa web de Oferto cuenta con un Servidor del cual se va a obtener el log de acceso con el que se buscar llevar a cabo el proceso de minera web.

La web cuenta con una estructura donde existen unas categoras generales dentro de las cuales estn un conjunto de productos de caractersticas similares y son esos productos los que se buscan analizar en medio de este proceso.

IV-A. Descripcin de la Empresa

Fig. 1. Logo de la empresa Oferto

Nombre: Oferto Direccin: Cmara de Comercio de Armenia y del Quindo Piso 2. Armenia, Quindo. (Col). Telfonos: 576-7412300 Ext 152 Pgina Web: www.oferto.co Misin: Generar servicios que mejoren los proceso de mercadeo y venta de las empresas. Visin: Ser una empresa lder en el eje cafetero en la prestacin de servicios tecnolgicos que permitan a las empresas mejorar sus procesos de mercadeo y ventas. Contacto: [email protected] los resultados obtenidos en este estudio estarn enfocados a la empresa en mencin.

Fig. 2. Configuracin de Analog

Fig. 3. Estructura del archivo log sin modificaciones

IV-BAnlisis con Software Analog

En este punto del proceso se utiliz el log sin haber hecho ningn tipo de modificacin, con el fin de procesar todos los datos que se encuentran dentro de l con la ayuda del software Analog 6.0, obteniendo de esta manera resultados estadsticos. Vase la configuracin del Analog para procesar.

IV-C.Minera Web con Software Weka

En esta fase inicialmente se debe realizar una limpieza del log, determinando que conjunto de datos se van a tratar, logrando de esta forma la extraccin de la informacin necesaria para el buen fin del anlisis, esto se logra eliminando la informacin innecesaria dentro del estudio, para despus de esto dar una estructura que permita que la aplicacin pueda interpretarla.

Fig. 4. Estructura de log limpioPartiendo del log original, se busca tener un archivo que conserve la estructura de l, pero que tenga informacin normalizada, con el fin de eliminar informacin que no es relevante en el proceso a realizar. A partir de este nuevo archivo se busca que la aplicacin de minera de datos (Weka) lo interprete y procese. Este nuevo fichero no tendr la estructura del log original sino que buscar tener la estructura indispensable para que se apliquen sobre l algoritmos que fueron seleccionados para este estudio.

A partir del archivo de log inicial se eligen y separan los elementos de cada una de sus lneas. Este proceso fue realizado usando el software Plant Simulation, el cual nos permite a partir de un archivo log que tiene un formato (.txt) separar los registros de tal manera que tengan el orden requerido para procesarlos. Luego de esto es importante eliminar todos aquellos registros que para el anlisis final no son necesarios, esto partiendo de los patrones a analizar de acuerdo a las necesidades del anlisis a realizar, para este caso en especfico se determin eliminar todas aquellas lneas que tuvieran las siguientes caractersticas: Archivos de imagen de cualquier extensin

Archivos de flash

Datos de navegadores Robots.txt

Datos de fechas distintas al 29/Sep/2014El proceso de eliminacin de informacin innecesaria se llev a cabo usando el software Plant Simulation separando la informacin necesaria de la innecesaria, partiendo de las bases mencionadas anteriormente.

Posteriormente se gener el fichero intermedio que solo tenia la informacin necesaria. Para el anlisis se tuvieron en cuenta todos los atributos identificados dentro de un archivo log (IP, hora, categora consultada, estado de la peticin y servidor), el paso seguido fue determinar las etiquetas necesarias para y su respectivo estndar para a continuacin procesar dicha informacin por medio de la aplicacin de minera de datos (Weka) y de igual manera con el algoritmo Apriori.

Finalmente se realiz el anlisis de los resultados obtenidos despus de la ejecucin de la aplicacin anteriormente Weka y de esta manera los patrones de navegacin identificados. V. RESULTADOS

V-A.Anlisis Estadstico con Software AnalogResultados del anlisis estadstico generado por el software Analog sobre el log de acceso de www.oferto.co

Fig. 5. Resumen general del archivo de log de acceso

Fig. 6. Resumen del informe del mes

Figura. 7. Resumen de cdigos de estados

Figura. 8. Resumen de horarios de acceso

De la figura 5 a la 9 podemos ver los datos estadsticos extrados de Analog, donde podemos identificar que las peticiones al servidor se ejecutaron en un 95%, lo que nos indica que el servidor est funcionando adecuadamente, claramente se puede visualizar que el horario en el que ms se tienen peticiones al servidor es a las 22 horas, sin embargo el horario en donde ms pginas se consultan es a las 12, lo que es objetivo debido a que en estos horarios las personas no se encuentran en jornada laboral ni estudiantil, lo que nos permite identificar los horarios en donde se debe aprovechar para enviar nuevas ofertas o establecer estrategias de marketing en esos tiempos.

V-B.Minera con Weka

Los datos entregados por Weka luego de ejecutar el archivo con extensin .arff, se asemejan a los visualizados anteriormente, sin embargo al aplicar las tcnicas de minera podemos identificar reglas de asociacin por medio del algoritmo Apriori, logrando de esta manera identificar patrones de comportamiento de los usuarios al ingresar al sitio web, muchos de ellos que no fueron identificados solamente con el Analog.

Figura. 9.Consultas por horas

Figura. 10.Visitas por categoras y horas.

Figura. 9.Categoras ms visitadas por horas.

Se identifican como principales reglas de asociacin que las peticiones a la categora servicios son en un 99% exitosas, de igual forma que el servidor es un 94% confiable, lo que da un parte de tranquilidad en ese aspecto; tambin que la mayor cantidad de peticiones est en las horas entre las 12 y las 18, que son horas de la tarde, adems de esto es tambin importante resaltar que la categora ms visitada es servicios, mientras que la menos visitada es Msica.

Por otra parte es importante resaltar que la categora ms visitada en la madrugada, en la maana y en la noche es servicios, lo que respalda la hiptesis planteada anteriormente, mientras que en las horas de la tarde la categora ms visitada es ModaVI. Conclusiones La utilizacin de tcnicas de minera de datos permite a las empresas tomar decisiones basadas en informacin entregada por los usuarios reales del negocio, en este caso de oferto Identificar los gustos de los usuarios y las horas en las que ingresan a ciertas categoras, permiten establecer estrategias de marketing que apunten a llegar a los clientes de manera oportuna y con informacin relevante para ellos.

El servidor con el que cuenta actualmente www.oferto.co es confiable, teniendo accesos exitosos con una alta frecuencia.

Se tienen en las ip una fuente de informacin relevante, ya que al identificar geogrficamente la ubicacin de las mismas podemos identificar las zonas en donde se encuentran ubicados los clientes que hacen uso de Oferto. Se propone enviar notificaciones push con contenido de cada una de las categoras identificadas en el horario adecuado con respecto a los resultados obtenidos.

Se propone ubicar las categoras en el home del sitio de Oferto de acuerdo al horario de acceso a las mismas con el fin de brindar informacin de fcil acceso a los usuarios.

referencias

[1] Fuentes, S., & Lovaina, M. Minera Web: Un Recurso Insoslayable para el Profesional de la Informacin. ACIMED, 16(4).

[2] Hernndez Orallo, J., Ramrez Quintana, M. J., & Ferri Ramrez, C. (2004). Introduccin a la Minera de Datos. Editorial Pearson Educacin SA, Madrid.[3] Segrera Francia, S., Garca, M., & Navelonga, M. (2006). Minera Web para el comercio electrnico.

[4] Maldonado, M., & Unzaga, S. (2008). Un Modelo de Usuario para personalizar la oferta en Comercio Electrnico. In X Workshop de Investigadores en Ciencias de la Computacin.

[5] Riquelme, J. C., Ruiz, R., & Gilbert, K. (2006). Mineria de datos: Conceptos y tendencias. Revista Iberoamericana de Inteligencia Artificial, 10(29), 11-18.[6] Baeza-Yates, R. Castillo, C. Marin, M. and Rodrguez, A. ((Crawling aCountry: Better Strategies than BreadthFirst for Web Page Ordering)), WWW Conference / Industrial Track, ACM, pp. 864-872. Chiba, Japan, 2005.[7] Vieites, A. G. (2007). LAS POSIBILIDADES OFRECIDAS POR EL WEB MINING. In Mundo Internet 2007: libro de ponencias (pp. 165-172).Configuracin Analog

Log Inicial