aplicaciones de reglas de asociaciÓn para...

93
UNIVERSIDAD AUTONOMA METROPOLITANA APLICACIONES DE REGLAS DE ASOCIACIÓN PARA WEB MINING TESIS QUE PARA OBTENER EL GRADO DE MAESTRO EN CIENCIAS DE LA COMPUTACION PRESENTA: ING. JOSE GUADALUPE MEJIA VEGA EN LA UNIVERSIDAD AUTONOMA METROPOLITANA UNIDAD AZCAPOTZALCO DIRIGIDA POR: DR. ENRIQUE POULAIN GARCIA ©JOSE MEJIA 2002 UNIVERSIDAD AUTONOMA METROPOLITANA DICIEMBRE 2002 TODOS LOS DERECHOS RESERVADOS. ESTA OBRA NO PUEDE SER REPRODUCIDA EN PARTES O EN SU TOTALIDAD POR MEDIO DE FOTOCOPIADORA U OTROS MEDIOS SIN EL PERMISO EXPRESO DEL AUTOR

Upload: lythien

Post on 06-Oct-2018

219 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: APLICACIONES DE REGLAS DE ASOCIACIÓN PARA …newton.azc.uam.mx/mcc/01_esp/11_tesis/tesis/term... · en la Web para obtener conocimiento. El Web mining (minería de datos de la Web)

UNIVERSIDAD AUTONOMA METROPOLITANA

APLICACIONES DE REGLAS DE ASOCIACIÓN PARA WEB MINING

TESIS

QUE PARA OBTENER EL GRADO DE MAESTRO EN CIENCIAS DE LACOMPUTACION PRESENTA:

ING. JOSE GUADALUPE MEJIA VEGA

EN LA UNIVERSIDAD AUTONOMA METROPOLITANA UNIDADAZCAPOTZALCO

DIRIGIDA POR: DR. ENRIQUE POULAIN GARCIA

©JOSE MEJIA 2002UNIVERSIDAD AUTONOMA METROPOLITANA

DICIEMBRE 2002

TODOS LOS DERECHOS RESERVADOS. ESTA OBRA NO PUEDE SER REPRODUCIDA EN PARTESO EN SU TOTALIDAD POR MEDIO DE FOTOCOPIADORA U OTROS MEDIOS SIN EL PERMISOEXPRESO DEL AUTOR

Page 2: APLICACIONES DE REGLAS DE ASOCIACIÓN PARA …newton.azc.uam.mx/mcc/01_esp/11_tesis/tesis/term... · en la Web para obtener conocimiento. El Web mining (minería de datos de la Web)

RESUMEN

El crecimiento explosivo de Internet y particularmente de la World Wide Web(WWW), ha hecho cada vez más necesario para las instituciones y empresasutilizar herramientas automatizadas para encontrar, extraer, filtrar y evaluar losrecursos de información disponibles. La minería de datos (data mining) ha sidodefinida como una metodología para la identificación de patrones no trivialesvalidos, nuevos, comprensibles y potencialmente útiles posibles de extraer de unconjunto enorme de datos. Los factores antes mencionados dan lugar a lanecesidad de crear sistemas inteligentes, que puedan hacer búsquedas o mineríaen la Web para obtener conocimiento. El Web mining (minería de datos de la Web)puede definirse como el descubrimiento y análisis de información útil que se puedeobtener de la WWW. El presente trabajo tiene como finalidad minar un campo delrepositorio de datos que contiene los localizadores uniformes de recursos (URL’s odirecciones electrónicas) de los sitios buscados y utilizados por los usuarios de unservidor de Red, estos sitios son analizados y se diseña un algoritmo de búsquedapara asociar los atributos que caracterizan a los empleados de una institución oempresa (estado civil, sexo, nivel, profesión, ,,,) a dichos URL`s con la finalidad deencontrar reglas asociadas a alguna característica de búsqueda en la Web, enparticular en este caso se presenta la utilización de sitios asociados a lapornografía. Para ello, se analiza el URL mediante búsqueda de patrones dentrodel mismo campo. Es decir por medio de las reglas de asociación, que es unatécnica de la minería de datos que asocia la pornografía mediante un conjunto depalabras: diccionario, a las variables socioeconómicas de un conjunto deindividuos y por otra se determinan los usuarios que visitan sitios Webpornográficos.

Page 3: APLICACIONES DE REGLAS DE ASOCIACIÓN PARA …newton.azc.uam.mx/mcc/01_esp/11_tesis/tesis/term... · en la Web para obtener conocimiento. El Web mining (minería de datos de la Web)

NOMBRE: JOSE GUADALUPE MEJIA VEGA

GRADO: MAESTRO EN CIENCIAS DE LA CONPUTACION

TITULO DE LA TESIS: APLICACIONES DE REGLAS DE ASOCIACIONPARA WEBMINING

JURADO: M.C. ROBERTO FLORES RODRIGUEZPRESIDENTE

__________________________________

DR. ANA LILIA LAUREANO CRUCESSECRETARIO

__________________________________

DR ENRIQUE GRABRIEL POULAIN GARCIAVOCAL

____________________________

FECHA DE APROBACION: 15 de enero del 2003

Page 4: APLICACIONES DE REGLAS DE ASOCIACIÓN PARA …newton.azc.uam.mx/mcc/01_esp/11_tesis/tesis/term... · en la Web para obtener conocimiento. El Web mining (minería de datos de la Web)

Queridos jóvenes estudiantes: Les escribo esta carta con el fin de transmitirles unpoco de mi experiencia de vida, buscando que contribuya a su formación, a sumanera de pensar y de vivir, a su equilibrio emocional, a su sentido deresponsabilidad para con ustedes y para con los demás, a su madurez y, sobretodo, a su felicidad producto de un ser y que hacer cotidiano.

Son ustedes privilegiados dentro de la sociedad por la razón más importante, supropio valor.

El éxito no es hacer bien o muy bien las cosas y tener el reconocimiento de losdemás. No es una opinión exterior, es un estado interior. Es la armonía del alma yde sus emociones, que necesita del amor, la familia, la amistad, la autenticidad, laintegridad.

El ser tan destacado como ustedes significa un privilegio, pero entraña tambiénmuchos riesgos que puedan afectar valores muy superiores al “éxito” profesional,económico, social o político. La fortaleza y el equilibrio emocional están en la vidainterior, y en evitar aquellos sentimientos que corroen el alma, la envidia, los celos,la soberbia, la lujuria, el egoísmo, la venganza, la avaricia, la pereza y que sonvenenos que se ingieren poco a poco.

Cuando den, no esperen recibir, “queda aroma en la mano que da rosas”, nopermitan que sentimientos y opiniones negativas dominen su ánimo. El dañoemocional no viene de terceros, se fragua y se desarrolla dentro de nosotros.

No confundan los valores, ni menosprecien sus principios. El camino de la vida esmuy largo, pero se transita muy rápido. Vivan el presente intensa y plenamente,que el pasado no sea un lastre y el futuro sea un estímulo. Cada quien forja sudestino y puede influir sobre su realidad, pero no la ignoren.

Lo que más vale en la vida no cuesta y cuesta mucho: el amor, la amistad, lanaturaleza y lo que sobre ella ha logrado el hombre de formas, colores, sonidos,olores, que percibimos con nuestros sentidos, pero sólo si los tenemos despiertos.

Vivan sin miedos y sin culpas; los miedos son los peores sentimientos del hombre,lo debilitan, inhiben su acción y lo deprimen, y las culpas son un lastre enorme ennuestro pensar, al actuar y en la vida. Hacen difícil el presente y obstruyen elfuturo. Para combatirlos seamos sensatos, aceptémonos como somos, nuestrasrealidades, nuestros gozos y nuestras penas.

La ocupación desplaza a la preocupación y los problemas al enfrentarlosdesaparecen, así los problemas deben hacernos más fuertes, de los fracasosaprender y hacer de los éxitos estímulos callados. Actúen siempre como les dictesu conciencia pues a ésta nunca se le engaña, así los miedos y las culpas seránmínimas. No se encierren, ni arruinen su vida, vívanla con la inteligencia, el alma y

Page 5: APLICACIONES DE REGLAS DE ASOCIACIÓN PARA …newton.azc.uam.mx/mcc/01_esp/11_tesis/tesis/term... · en la Web para obtener conocimiento. El Web mining (minería de datos de la Web)

los sentidos despiertos y alerta; debemos conocer sus manifestaciones yeducarnos para apreciarlas y disfrutarlas.

El trabajo bien hecho no es sólo una responsabilidad con la sociedad, es tambiénuna necesidad emocional.

Al final nos vamos sin nada, sólo dejamos nuestras obras, familia, amigos, y quizála influencia, por las ideas que en ellos hayamos dejado.

Con mis mejores deseos.

Carlos Slim Helú.25 de agosto de 1996

Page 6: APLICACIONES DE REGLAS DE ASOCIACIÓN PARA …newton.azc.uam.mx/mcc/01_esp/11_tesis/tesis/term... · en la Web para obtener conocimiento. El Web mining (minería de datos de la Web)

AGRADECIMIENTOS

Muchas personas han influido en mi camino dentro de la universidad en el periodotranscurrido desde que obtuve el título de licenciado hasta llegar a optar por elgrado de maestro; afortunadamente, la mayoría de ellas lo han hecho bien. Esperono omitir a ninguna de ellas en estos agradecimientos, y si alguna se me escapa leruego sea tolerante a mis fallos.

En primer lugar quiero expresar mi agradecimiento al Instituto Mexicano delPetróleo, donde me inicie en el mundo de la investigación y la docencia y que meha animado constantemente en mi camino. Quiero citar aquí al M.C. RobertoFlores, Jefe del Departamento de soporte técnico, quien siempre ha mostradoapoyo y me ha depositado su confianza.

Igualmente, quiero manifestar mi agradecimiento al director de este trabajo, Dr.Enrique Poulain García, quien con su asesoramiento científico, sus consejos en ladirección, su estima y el empuje que siempre me ha transmitido ha hecho posibleesta memoria de investigación, al igual que ha hecho posible otras muchosproyectos aún más complejos dentro de esta universidad.

No puedo dejar de nombrar a los compañeros de Tecnología Informática que hanestado en el proyecto desde un principio, con los cuales he tenido unas excelentesrelaciones, hemos compartido diversos proyectos y me han apoyado en todos mispasos; especialmente Ing. Felipe Beltran, Ing. Edel Angel, y al Ing. AlfredoRaymundo; también quiero nombrar al Lic. Alejandro Romero quien me dio laoportunidad de desarrollarme como administrador de base de datos. Quieroademás agradecer el trato recibido por el resto de compañeros del departamento ypor una larga lista de personas dentro de la comunidad Institucional.

Un párrafo adicional a todos los compañeros de sistemas, empezando por miscompañeros Lic. Salvador Velazco, Ing. Roberto Nicolás, Ing. Ismael Ruiz, Lic.Anabel Ceballos, Lic. Martha Melchor, Lic. Alfonso Suarez... Todos ellos expertosen base de datos, la lista es casi interminable, a parte de variable(incrementalmente), por lo cual no puedo nombrar personalmente; dense todospor agradecidos al leer esto.

Quedo al servicio de todos ustedes y animo a todos los que tienen que defendersus tesis en un futuro no lejano. Reflejo aquí la cordialidad recibida, con un cariñoespecial para el Ing. Roberto Nicolás y para los futuros maestros, que tanto mehan ayudado y animado, en la revisión del algoritmo minero y además handeseado el buen fin de este trabajo, casi tanto como el del suyo propio.

Page 7: APLICACIONES DE REGLAS DE ASOCIACIÓN PARA …newton.azc.uam.mx/mcc/01_esp/11_tesis/tesis/term... · en la Web para obtener conocimiento. El Web mining (minería de datos de la Web)

DEDICATORIA

A mi Mamá, Papá y a mis hermanos, por todo el amor y fortaleza que me handado, porque cada uno de ustedes forma parte de lo que soy, esta tesis es unasuperación no solo personal sino también familiar, sin ustedes jamás lo hubieralogrado.

A mis amigos, por su inmenso cariño y apoyo, por estar conmigo en todomomento.

A mis compañeros de trabajo, aquellos que desean siempre lo mejor para mí.

A Janet, Teresa y Karen, que tantas alegrías me dan y a las que a veces nodedico el cariño y la paciencia que merecen.

A mi amigo y compañero Roberto Nicolás por compartir sus conocimientos, por sugran ayuda y apoyo. Gracias a el he terminado este trabajo

A mi asesor de tesis Profesor Enrique Poulain García por su dedicación y tiempo.

Al Instituto Mexicano del Petróleo y la UAM-A por darme la oportunidad deaprender en estas dos grandes Instituciones.

Page 8: APLICACIONES DE REGLAS DE ASOCIACIÓN PARA …newton.azc.uam.mx/mcc/01_esp/11_tesis/tesis/term... · en la Web para obtener conocimiento. El Web mining (minería de datos de la Web)

ESTRUCTURA DE LA MEMORIA

El presente trabajo consta de seis capítulos, bibliografía general y anexos. Encapitulo I se presentan los antecedentes de la minería de datos, se proporciona elpanorama general de cómo surge a partir de los almacenes de datos o datawarehouse (DW) y de la tecnología OLTP (On Line Transaction Process), asícomo también se enfatiza el crecimiento explosivo de Internet.

El capitulo II muestra la justificación (motivación) del presente trabajo deinvestigación, se aborda el tema de minería de datos desde el punto de vista dealmacenamiento masivo de información y alto costo que conlleva el análisis de lainformación.

El capitulo III se dan los objetivos generales y particulares del presente trabajo, seacentúa en la búsqueda de patrones dentro de un conjunto enorme de datos, conuna metodología que permita hacer minería de datos: técnica de reglas deasociación.

En el IV capitulo se proporciona la metodología, la preparación del archivo para elminado y se hace la descripción del proceso de extracción, transformación ytransportación de los datos. También se muestra un diagrama entidad-relación delrepositorio y se presentan las preguntas más comunes que el webmining pretenderesponder.

El capitulo V describe que son las reglas de asociación, se mencionan algunasaplicaciones de las mismas y se explica el algoritmo Apriori-i mediante un ejemplo,se abordan los contenidos de la pornografía en la Internet, que es el caso deaplicación del algoritmo y se muestran las gráficas de las reglas de asociaciónmás importantes encontradas en esta investigación y una tabla de elementos depatrones de pornografía.

Los posibles riesgos, tanto éticos como profesionales por el uso de la minería dedatos se muestran en el capitulo VI, se puede dañar moralmente o invadir laprivacidad e integridad de las personas, se presenta un caso real, así como lasconsideraciones que se deben de tomar en cuenta para no caer en problemaséticos o legales.

Finalmente, se incluyen conclusiones de la presente investigación, a continuaciónse dan las referencias, en su mayoría son de las revistas de IEEE y ELSEVIER.

El anexo A muestra la estructura del archivo que se mina en esta investigación yse proporciona el código de los scripts utilizados en el proceso de extracción,transformación y transportación de los datos. El anexo B muestra los recursosrequeridos y disponibles para este proyecto.

Page 9: APLICACIONES DE REGLAS DE ASOCIACIÓN PARA …newton.azc.uam.mx/mcc/01_esp/11_tesis/tesis/term... · en la Web para obtener conocimiento. El Web mining (minería de datos de la Web)

INTRODUCCION

En la actualidad se cuenta con una gran variedad de herramientas paracoleccionar enormes cantidades de datos, muchos de ellos han sidocontinuamente almacenados en bases de datos, las cuales crean una inminentenecesidad y grandes oportunidades para encontrar conocimiento que puede estarinmerso en ese gran conjunto de datos y que no es visible a simple vista. Lasreglas de asociación es una de las técnicas de la minería de datos la cual tienecomo objetivo encontrar reglas fuertes o correlación entre datos. Las reglasdescubiertas pueden ayudar a realizar un análisis de los datos mas detallados yanalizar los eventos que se encuentran dentro de ellos, por ejemplo:administración de negocios, toma de decisiones, análisis de ventas o la bolsa devalores.

En esta tesis se propone y desarrolla una aproximación de lo que son las reglasde asociación, las cuales tienen su origen en la tecnología OLAP (on line analyticalprocess), para ello se emplea una metodología que propone la construcción delrepositorio de datos (extracción, transformación y transportación de los datos) paraposteriormente implementar un algoritmo asociativo que nos proporciona reglasfuertes basadas en los parámetros frecuencia (support) y confianza (conffidence),nuestro estudio muestra que esta aproximación presenta grandes ventajas entérminos de flexibilidad y eficiencia.

Page 10: APLICACIONES DE REGLAS DE ASOCIACIÓN PARA …newton.azc.uam.mx/mcc/01_esp/11_tesis/tesis/term... · en la Web para obtener conocimiento. El Web mining (minería de datos de la Web)

1

INDICE

INTRODUCCION

1 ANTECEDENTES 5

2 JUSTIFICACION 8

3 OBJETIVOS GENERALES Y PARTICULARES 13

4 METODOLOGIA 14

4.1 FASE I 15

4.1.1 PROCESAMIENTO Y EXTRACCION DE DATOS 15

4.1.2 TRANSFORMACION DE DATOS 20

4.1.3 TRANSPORTACION DE DATOS 20

4.2 FASE II 22

4.2.1 MINERIA DE DATOS PARA EL WEB 22

4.2.2 VISION GLOBAL 24

4.2.3 EJEMPLO DE SESION DE UN SITIO WEB 26

4.2.4 INTERACTIVIDAD DESDE EL PRINCIPIO 26

4.2.5 ESTADO SOLIDO 27

4.2.6 CONJUNTO DE DATOS 29

5 ASOCIACION DE LA INFORMACION 31

5.1 DESCUBRIENDO REGLAS DE ASOCIACION 34

5.2 APLICACIONES DE LAS REGLAS DE ASOCIACION

38

5.3 ALGORITMO A PRIORI 41

Page 11: APLICACIONES DE REGLAS DE ASOCIACIÓN PARA …newton.azc.uam.mx/mcc/01_esp/11_tesis/tesis/term... · en la Web para obtener conocimiento. El Web mining (minería de datos de la Web)

2

5.4 LA PORNOGRAFIA EN EL INTERNET 50

6 LA PRIVACIDAD DE LOS DATOS 72

6.1 DATOS DE CLIENTES, PRIVACIDAD Y MINERIA DE DATOS

72

6.2 PRIVACIDAD Y MINERIA DE DATOS 72

6.3 DIRECTRICES PARA LA PRIVACIDAD 73

6.4 INFORMACION ANONIMA Y NO ANONIMA 74

6.5 DATOS DETALLADOS Y AGRGADOS 74

6.6 INFORMACION PARA OBJETIVO O PARA MEDICION

75

6.7 FUENTES COMBINADAS 75

6.8 ASUNTOS LEGALES ASOCIADOS CON MINERIA DE DATOS

76

CONCLUSIONES 78

REFERENCIAS 79

ANEXO A 81

ANEXO B 88

Page 12: APLICACIONES DE REGLAS DE ASOCIACIÓN PARA …newton.azc.uam.mx/mcc/01_esp/11_tesis/tesis/term... · en la Web para obtener conocimiento. El Web mining (minería de datos de la Web)

3

INDICE DE FIGURAS

FIGURA 4.1 DIAGRAMA ENTIDAD RELACION 21

FIGURA 5.1 MATRIZ MIF Y EL VECTOR STE 44

FIGURA 5.2 MATRIZ MIF DSPUES DE EJECUTAR EL MIF 45

FIGURA 5.3 ASOCIACION DEL CAMPO ESTADO CIVIL 55

FIGURA 5.4 ASOCIACION DEL CAMPO SEXO 56

FIGURA 5.5 ASOCIACION DEL CAMPO FECHA 56

FIGURA 5.6 ASOCIACION DEL CAMPO FECHA POR DIA 58

FIGURA 5.7 ASOCIACION DEL CAMPO POR DIA DE LA SEMANA

59

FIGURA 5.8 ASOCIACION DEL CAMPO TABULADOR 60

FIGURA 5.9 ASOCIACION DEL CAMPO TABULADOR Y PUESTO

61

FIGURA 5.10 ASOCIACION DEL CAMPO EDIFICIO 62

FIGURA 5.11 ASOCIACION DEL CAMPO CONTENIDO 63

FIGURA 5.12 ASOCIACION DEL CAMPO CODIGO 64

FIGURA 5.13 ASOCIACION DEL CAMPO TIPO DE EMPLEADO 65

FIGURA 5.14 SITIOS PORNOGRAFICOS CON SUPPORT MAYOR A 11000

66

FIGURA 5.15 ASOCIACION DEL CAMPO ESTADO 67

FIGURA 5.16 ASOCIACION DEL CAMPO ZONA 68

Page 13: APLICACIONES DE REGLAS DE ASOCIACIÓN PARA …newton.azc.uam.mx/mcc/01_esp/11_tesis/tesis/term... · en la Web para obtener conocimiento. El Web mining (minería de datos de la Web)

4

INDICE DE TABLAS

TABLA 4.1 RESUMEN DE TRANSACCIONES DE SERVIDORES PROXY

22

TABLA 4.2 ACCIONES DE UNA SESION WEB 28

TABLA 5.1 CONJUNTO DE TRANSACCIONES ALMACENADAS EN D

42

TABLA 5.2 ITEMS FRECUENTES, IF 42

TABLA 5.3 ITEMS ORDENADOS SEGÚN IF 43

TABLA 5.4 SOPORTE CALCULADO DEL PATRON CONDICIONAL I

45

TABLA 5.5 SOPORTE CALCULADO DEL PATRON CONDICIONAL F

46

TABLA 5.6 SOPORTE CALCULADO DEL PATRON CONDICIONAL A

46

TABLA 5.7 SOPORTE CALCULADO DEL PATRON CONDICIONAL DA

47

TABLA 5.8 SOPORTE CALCULADO DEL PATRON CONDICIONAL CDA

47

TABLA 5.9 SOPORTE CALCULADO DEL PATRON CONDICIONAL D

48

TABLA 5.10 PASO A PASO LAS OPERACIONES PRINCIPALES DEL ALGORITMO

49

TABLA 5.11 PATRONES DE PORNOGRAFIA MAS COMUNES 53

TABLA 5.12 TABLA DE CORRELACIÓN ENTRE LOS PATRONES DE PORNOGRAFÍA

71

Page 14: APLICACIONES DE REGLAS DE ASOCIACIÓN PARA …newton.azc.uam.mx/mcc/01_esp/11_tesis/tesis/term... · en la Web para obtener conocimiento. El Web mining (minería de datos de la Web)

5

TITULO

APLICACIONES DE REGLAS DE ASOCIACIÓN PARA WEB MINING

1 ANTECEDENTES

El crecimiento explosivo de Internet y particularmente de la World Wide Web, hahecho cada vez más necesario para las empresas utilizar herramientasautomatizadas para encontrar, extraer, filtrar y evaluar los recursos de informacióndisponibles. Unido a ello y con la transformación de la Web, como la herramientaprimaria para el acceso a cualquier tipo de información, se hace indispensablepara las empresas que basan su negocio en Internet poder rastrear y analizarmodelos de acceso de usuarios con el fin de cumplir sus objetivos y sus metas.

En los últimos años se ha desarrollado un enorme crecimiento en la capacidad degeneración y almacenamiento de información, debido a la crecienteautomatización de procesos, en general, y a los avances tecnológicos en lacapacidad de almacenamiento de la información.

Conjuntamente, las herramientas de software también han desarrollado un fuertecrecimiento, el proceso de descubrir conocimiento o como es conocida, la mineríade datos (data mining) ha sido definida como la identificación de patrones notriviales validos, nuevos, comprensibles y potencialmente útiles de un conjuntoenorme de datos definidos así en las ref. [1, 2]. Los factores antes mencionadosdan lugar a la necesidad de crear sistemas inteligentes, tanto del lado cliente y delservidor, que puedan hacer búsquedas o minería en la Web para obtenerconocimiento.

Web mining (minería del Web) puede definirse como el descubrimiento y análisisde información útil en la World Wide Web (WWW).

Existen varias técnicas para hacer minería de datos, como son las reglas deasociación ref. [3], reglas de extracción, clustering ref. [4], algoritmos genéticos yredes neuronales ref. [5]. Cada una de ellas se aplica con menor o mayor grado dedificultad a las bases de datos relacionales, en que se ha visto que la primeratécnica mencionada es más exitosa que las demás, debido a que su aplicación esinmediata en un lenguaje de cuarta generación, por otra parte, tiene la limitantede ser estrictamente predictiva y no de búsqueda. En el caso de la aplicación deinteligencia artificial es más complejo aterrizar o encontrar un camino que lleve aalgoritmos de búsqueda inteligentes debido a que no existe una completaconexión entre las bases de datos relacionales y la inteligencia artificial.

La minería de datos es una área nueva de investigación de las cienciascomputacionales. Intenta trasladar los objetivos y las tareas propias de la minería

Page 15: APLICACIONES DE REGLAS DE ASOCIACIÓN PARA …newton.azc.uam.mx/mcc/01_esp/11_tesis/tesis/term... · en la Web para obtener conocimiento. El Web mining (minería de datos de la Web)

6

de datos al dominio de las bases de datos o en general, al dominio de lainformación que no esta estructurada para poder encontrar conocimiento en ella.

Debido a su reciente desarrollo es recomendable para entender la minería dedatos, hacer énfasis en sus dos principales antecedentes: El concepto de Datawarehouse y las herramientas OLAP (On Line Analitical Process) como lo planteala ref. [6].

Un almacén de datos o Data warehouse (DW) es una enorme colección de datosprovenientes de sistemas operacionales o mejor conocidos como OLTP (On LineTransaction Process), seleccionados y transformados para facilitar el proceso deanálisis de información ref. [7]. Algunas de las características de los llamados Datawarehouses son: los datos están separados de los sistemas operacionales(sistemas transaccionales), los datos son transformados lógicamente antes deestar dentro del Data Warehouse, los cuales solo contienen un resumen delsistema operacional ya que estos permiten hacer análisis rápidos y visualizar lainformación desde varias perspectivas.

Los Data warehouses no son un requisito indispensable para hacer minería dedatos, pero sientan las bases para poder efectuar una buena minería de datos,como lo detalla la ref. [6].

Por otra parte las herramientas OLTP permiten hacer estructuras correlaciónales oo arreglos tridimensionales llamados cubos de información de los atributos denuestras entidades, las ref. [8, 9] explican los modelos mas usado, pero estasherramientas no son inteligentes y generan una minería de datos menos robusta,para ello se necesita de un operador para tomar decisiones en el minado de datos.

Debido al desarrollo de la tecnología actual, resulta sencillo coleccionar grandesvolúmenes de información. Con el uso de almacenes de datos de gran capacidady densidad, lectura óptica, códigos de barras, las entidades públicas o empresaspueden fácilmente coleccionar información a partir de cada una de lastransacciones. Por ejemplo, ¿cuál es el conjunto de artículos que un clientecompra? Un concepto similar es el estado de cuenta mensual de una tarjeta decrédito. En él se describe un conjunto de artículos que el tarjeta-habiente adquirióen ese mes. De igual manera, gobiernos, instituciones públicas y privadas, estánen la posibilidad de conjuntar millones y millones de datos de actividadesindividuales que contienen información altamente detallada sobre montos, fechas,horas, lugares, productos y servicios.

Esta información cruda es tan voluminosa que resulta inútil, pues no aportaconocimiento o fundamento para apoyar la toma de decisiones. El resumen dedatos para la toma de decisiones es el campo tradicional de la estadística. Porejemplo, la comparación del valor promedio de la canasta de compra del fin desemana, con el valor promedio entre semana, puede ser un elemento deinformación para la gestión de una entidad publica, empresa o negocio y puede

Page 16: APLICACIONES DE REGLAS DE ASOCIACIÓN PARA …newton.azc.uam.mx/mcc/01_esp/11_tesis/tesis/term... · en la Web para obtener conocimiento. El Web mining (minería de datos de la Web)

7

usarse como base para una política de ofertas o para establecer algunas bases detrabajo como horarios de apertura.

Resulta de gran importancia traducir estos grandes volúmenes de datos eninformación útil. Desde tiempo, es claro que sólo las computadoras puedenmanipular rápidamente la inmensa masa de datos y producir reportes que apoyanla toma de decisiones. Sin embargo, los resúmenes estadísticos no son lo únicooculto en el mar de datos. La identificación de patrones comunes, asociaciones,reglas generales y nuevo conocimiento es hoy en día de gran interés. Una reglaque nos dice que el 80% de los médicos varones tarjeta-habientes compraartículos para dama en la ultima semana de abril o la primera de mayo, puede sermuy útil para orientar y dirigir la publicidad que se incorpora en su estado decuenta, sin tener que imprimir publicidad sobrante o enviarla a otros tarjeta-habientes que no exhiben ese comportamiento. Por eso la minería de datos revelapatrones o asociaciones que usualmente son desconocidas, por ello se le hallamado también descubrimiento de Conocimiento (Knowledge Discovery).

Page 17: APLICACIONES DE REGLAS DE ASOCIACIÓN PARA …newton.azc.uam.mx/mcc/01_esp/11_tesis/tesis/term... · en la Web para obtener conocimiento. El Web mining (minería de datos de la Web)

8

2 JUSTIFICACION

Utilizando la técnica de la minería de datos que es una área relativamente nuevay que se encarga básicamente, como su nombre lo indica, de excavar los datoscon el objetivo de encontrar en ello información que parece interesante y que noes evidente ni fácil de entender a simple vista, este trabajo de tesis pretendealcanzar un conocimiento básico aplicado como lo es trabajo reportado en la ref.[4].

Varios han sido los enfoques aplicados para enfrentar este problema. El análisismatemático y el análisis estadístico proporcionan buenos resultados en la solucióndel problema, pero estos enfoques tienen como meta la prueba de hipótesispredefinidas y no la búsqueda de patrones no predefinidos en diferentesescenarios de análisis.

La minería de datos es un nuevo enfoque que los especialistas en base de datosy/o inteligencia artificial proponen como una solución al problema de adquirir yutilizar la información de las organizaciones buscando patrones decomportamiento para apoyar la toma de decisiones. La minería de datos permitedesarrollar y seleccionar una estrategia para construir y aplicar un algoritmo debúsqueda en un proceso complejo para descubrir conocimiento en bases dedatos.

La minería de Datos o Data Mining es una tecnología nueva concebida a finalesde los años 90's, que haciendo uso de las herramientas de ese momento sepudiera lograr el objetivo de encontrar algún conocimiento oculto (patrón,asociación, regla de comportamiento) dentro de las bases de datos para ayudar enla toma de decisiones.

Esta tecnología surge principalmente de tres factores:

1) El abaratamiento en los costos de almacenamiento y procesamiento deinformación (equipos de cómputo y discos duros cada vez más grandes y deprecio mas bajo).

2) El desarrollo de nuevas tecnologías, métodos y programas para manejar lainformación.

3) La cultura de la informatización del procesamiento de datos, que en laactualidad se esta empezando a conocer como la infoera.

Se denomina minería de datos (data mining) al análisis de archivos y bitácoras detransacciones con el fin de descubrir patrones, relaciones, reglas, asociaciones oincluso excepciones que pueden ser útiles para la toma de decisiones. Los sereshumanos poseen habilidades extremadamente sofisticadas para detectar patronesy descubrir tendencias. Por tal motivo, una imagen dice más que mil palabras y

Page 18: APLICACIONES DE REGLAS DE ASOCIACIÓN PARA …newton.azc.uam.mx/mcc/01_esp/11_tesis/tesis/term... · en la Web para obtener conocimiento. El Web mining (minería de datos de la Web)

9

una gráfica o una tabulación permite, de una mirada, identificar tendencias en eltiempo o relaciones entre dos mediciones de un fenómeno. Por otro lado, no esclaro que nuestras habilidades puedan realizar, con la misma eficiencia, la tareade analizar los miles de millones de datos almacenados electrónicamente almonitorear las transacciones comerciales de una base de datos.

Así pues, Data Mining es una solución a muchos de los procesos actuales en loscuales se manejan volúmenes de datos cada vez mayores, de forma tal que nosresulta muy difícil percibir algunas características o anomalías decomportamientos basados solo en el estudio de las bases de datos. De maneramás profunda, Data Mining está compuesta por una serie de técnicas (traducidasen algoritmos), la mayoría proveniente de la inteligencia artificial, pero aplicados alas bases de datos. Sin confundirse con un sistema experto, está tecnología sebasa mas bien en las orientaciones de los expertos para ver la mejor manera deprocesar y encontrar correlaciones, patrones en los datos, en este punto se tienenque considerar los elementos de las bases de datos, minería de datos y algunoselementos de sistemas expertos, de otra manera puede resultar en un modeladoerróneo de los datos.

El proceso que conlleva la minería de datos comienza desde definir objetivos, esdecir cual es el problema en cuestión. Posteriormente una etapa de pre-procesamiento de datos, para quitar ruido y prepararlos de forma adecuada alalgoritmo. Existe la etapa llamada de Data Mining, en la cual se introducen losdatos para el algoritmo y finalmente una etapa de post-procesamiento queconsiste en eliminar conocimientos, que muchas veces resultan obvios y solo dejaraquellos que verdaderamente puede servir para una toma de decisión.

Descubrir patrones o relaciones útiles en una colección de datos ha recibidotradicionalmente muchos nombres. El término data mining llegó incluso a ser muydesprestigiado en estadística, pues representaba masajear suficientemente losdatos hasta que los mismos confirmasen lo que uno quería postular. En estesentido, la minería de datos es un proceso que invierte la dinámica del métodocientífico.

En el método científico, primero se formula la hipótesis y luego se diseña elexperimento para coleccionar los datos que confirmen o refuten la hipótesis. Siesto se hace con la formalidad adecuada (cuidando cuáles son las variablescontroladas y cuáles experimentales), se obtiene un nuevo conocimiento.

En la minería de datos, se coleccionan los datos y esperamos que de ellosemerjan hipótesis. Queremos que los datos describan o indiquen por qué soncomo son. La más inocente mirada a los datos por un humano, puede inspirarleuna hipótesis. Se debe recordar que los seres humanos tenemos grandeshabilidades de generalización e identificación de patrones. Entonces, validar unahipótesis inspirada por los datos en los datos mismos que sea numéricamentesignificativa, pero que experimentalmente puede no ser necesariamente válida opuede ser incompleta. De ahí que la minería de datos debe presentar un enfoque

Page 19: APLICACIONES DE REGLAS DE ASOCIACIÓN PARA …newton.azc.uam.mx/mcc/01_esp/11_tesis/tesis/term... · en la Web para obtener conocimiento. El Web mining (minería de datos de la Web)

10

exploratorio y no necesariamente confirmativo. Por esto, usar la minería de datospara confirmar nuestras hipótesis puede ser peligroso, pues estamos haciendo sepuede estar realizando una inferencia poco válida.

Afortunadamente, las técnicas de validación desarrolladas a lo largo de los años80 en el campo del Aprendizaje Automático, hacen posible que las inferencias dela Minería de Datos pueden ser validadas para obtener patrones o asociacionesreales y ciertas y no sólo reflejos de un manipuleo de los datos.

El campo del Descubrimiento de Conocimiento en Bases de Datos, denominadoen inglés Knowledge Discovery in Data Bases, usualmente abreviado KDD en loscongresos y en la prensa, es la convergencia del Aprendizaje Automático, laEstadística, el Reconocimiento de Patrones, la Inteligencia Artificial, las Bases deDatos, la Visualización de Datos, los Sistemas para el Apoyo a la Toma deDecisiones, la Recuperación de Información, y otros muchos campos. Parece, quesólo hasta ahora, existe un nivel de madurez en todas estas áreas, para que seaposible extraer los más bellos diamantes del conocimiento a partir de los datos.

Las Bases de Datos proporcionan la infraestructura necesaria para almacenar,recuperar y manipular datos. La construcción y mantenimiento de un almacén deDatos (Data Warehouse) es una actividad que ha cobrado mucha popularidad enestos últimos años. A pesar de que un almacén de Datos es una Base de Datos,su modo de operar y sus aplicaciones son distintos al de una aplicación de Basede Datos para soportar transacciones y la actividad de negocio en línea [10].Típicamente, el Data Warehouse (DW) almacena y resume información sobretransacciones cotidianas a lo largo del tiempo. Puede que contenga informaciónque ya no es posible reproducir del sistema para la operación cotidiana, esinformación arcaica pero útil por su crónica histórica del funcionamientooperacional del sistema de información, las ref. [11] [12] hacen una explicaciónmás exhaustiva de los DW. Las consultas al almacén no son tan sistemáticascomo las transacciones y usualmente demandan más recursos de cómputo.Resulta incluso conveniente separar los equipos y sistemas de la operacióncotidiana de transacciones en línea del Almacén de Datos. El Almacén de Datoshace viable la revisión y el análisis de su información para el apoyo a lasdecisiones ejecutivas. Un enfoque que ha cobrado fuerza es el Análisis en Línea(en inglés, denominado On-Line Analytical Processing, o OLAP) la ref. [8] hace unanálisis del impacto de dicha tecnología.

Las herramientas OLAP ofrecen un mayor poderío para revisar, graficar yvisualizar información multidimensional, en características temporales, espacialeso propias, pero aunado a que los lenguajes restringidos y estructurados comoSQL no son suficientes para el carácter explorador de esta tecnología. La consultaenunciada con SQL es motivada por la asociatividad de cada uno de los camposque se van a minar, que en si son las aplicaciones y los reportes generados deuna base de datos en línea, suponen que esta es la información necesaria para laadministración cotidiana de la actividad de negocio y que sólo de maneraesporádica se requiere de otra información.

Page 20: APLICACIONES DE REGLAS DE ASOCIACIÓN PARA …newton.azc.uam.mx/mcc/01_esp/11_tesis/tesis/term... · en la Web para obtener conocimiento. El Web mining (minería de datos de la Web)

11

El análisis de datos almacenados en un Data warehouse tiene un carácteraltamente exploratorio. El usuario está en busca de nueva información, de nuevospatrones que le sugieran relaciones entre diferentes aspectos conmensurables desu actividad cotidiana. Si el usuario sabe esas asociaciones, no necesita el análisisde los datos. Las herramientas actuales del OLAP, requieren todavía de una altaparticipación de un usuario humano, pues son interactivas y requieren la guía deun experto. Sin embargo, se espera que en el futuro la búsqueda de patrones seamás automatizada, simplemente porque los volúmenes de información por analizarcrecen mucho más que los recursos humanos para analizarlos.

A pesar de que el Descubrimiento de Conocimiento tiene sus inicios en elAprendizaje Automático o la Estadística, hay ciertas componentes que lo hacendiferente. En particular, el objetivo fundamental es encontrar conocimiento útil,válido, relevante y nuevo sobre un fenómeno o actividad mediante algoritmoseficientes, debido a las crecientes órdenes de magnitud en los datos. Al mismotiempo hay un profundo interés por presentar los resultados de manera visual o almenos de manera que su interpretación pueda ser muy clara. Otro aspecto es quela interacción humano-máquina debe ser flexible, dinámica y colaborativa.

El resultado de la exploración, en principio, debe ser interesante y su calidad nodebe ser afectada por los mayores volúmenes de datos o por el ruido en los datos.En este sentido, los algoritmos de descubrimiento de información deben seraltamente robustos. Desdichadamente, como ya se mencionó, las técnicas deanálisis de la información no tienen un desarrollo equivalente, por lo que existeuna necesidad de una nueva generación de técnicas y herramientascomputacionales que puedan asistir a quien toma decisiones en el análisisautomático e inteligente de grandes volúmenes de información. Encontrarconocimiento útil en grandes cantidades de datos es el objetivo principal del áreade descubrimiento de conocimiento en bases de datos.

No cabe duda de que el valor táctico o estratégico de los grandes almacenes dedatos está en proporción directa con la capacidad de analizarlos. Dada la grangama de hipótesis plausibles que se ajustan a los datos, el problemacomputacional representa un reto poco enfrentado. Sin embargo, estas nuevascondiciones abren un nuevo mundo de oportunidades a la investigación y aldesarrollo de nueva tecnología.

El objetivo de este trabajo y del documento es proponer y realizar unainvestigación en el campo de la minería de datos para aplicarlo a una base dedatos relacional construida a partir de la información general que se registra enservidores Web, la aplicación que se propone es especifica para un campo dadopero la metodología que se propone es general y puede ser transferida paradiferentes propósitos de búsqueda de patrones en muchos y diferentes camposdel conocimiento.

Page 21: APLICACIONES DE REGLAS DE ASOCIACIÓN PARA …newton.azc.uam.mx/mcc/01_esp/11_tesis/tesis/term... · en la Web para obtener conocimiento. El Web mining (minería de datos de la Web)

12

3 OBJETIVOS GENERALES

Se realiza una investigación en bases de datos, utilizando los métodos y lasposibilidades que otorga el campo de la minería de datos, con la finalidad deencontrar caminos de búsqueda de patrones típicos que caractericen eventos.

Se utiliza la técnica de Reglas de asociación para la búsqueda de atributos en lasbitácoras propias de un servidor de Web, los que se generan en los servidores decomunicaciones y se asocian los contenidos y direcciones de las bitácoras paraencontrar patrones característicos que permiten identificar el origen del evento.

Se busca un camino de conciliación entre los patrones que caracterizan elementosdefinitorios de comportamiento en las bases de datos relacionales y la aplicaciónde elementos característicos de las aplicaciones de inteligencia artificial.

OBJETIVOS PARTICULARES

Diseñar una metodología que permita desarrollar la minería de datos sobrepatrones de comportamiento en el uso de acceso a los componentes de la RedMundial, teniendo como elemento básico la información y las ligas que quedangrabadas sobre una bitácora de accesos a Internet.

A partir de esa información, se diseña y construye un repositorio de datos quepermite hacer el proceso de Web Mining con la finalidad antes descrita.

Para el proceso de Web Mining se propone la utilización de la técnica de Reglasde asociación que es una de las técnicas aplicables a la minería de datos para elanálisis de datos, que resulta más simple y adecuada para el proceso propuesto,una descripción de ella se da mas adelante.

Para cumplir este propósito, se requiere diseñar un algoritmo que permita minarlas paginas web explícitas e implícitas, que los usuarios han utilizado directa oindirectamente, con la finalidad de descubrir patrones típicos de uso de la redMundial.

Desde el punto de vista de contenidos y diversidad de patrones posibles deanalizar, se aplicaran estas técnicas para caracterizar el uso y acceso a sitios yportales de tipo pornográficos en la Web y encontrar un modelo relacional quepermita facilitar una metodología aplicada para la minería de datos en bitácorasweb.

Page 22: APLICACIONES DE REGLAS DE ASOCIACIÓN PARA …newton.azc.uam.mx/mcc/01_esp/11_tesis/tesis/term... · en la Web para obtener conocimiento. El Web mining (minería de datos de la Web)

13

4 METODOLOGIA

La metodología que se aplica en el presente trabajo, hace uso de técnicastradicionales OLAP para la creación de la base de datos, la cual se diseña y creapara minar datos y técnicas de Minería de datos de Asociación de información.Para el desarrollo de este proyecto se contemplaron 2 fases:

I.- A partir de las bitácoras del servidor Web, se crea el repositorio de datos(extracción, transformación y transportación de los datos) de manera de lograr losdos primeros objetivos.

II.- Desarrollo de un proceso de asociación de la información de la base de datoscreada en la fase anterior, se entregan los resultados encontrados en el repositoriode datos.

Para la búsqueda de patrones que caracterizan el comportamiento de un grupo, serequiere definir el o los conceptos base que definen esos patrones, en particularpara este caso de aplicación se requiere definir los conceptos que determinan lapornografía, así mismo existen muchos conceptos que no necesariamente estánincluidos en ella, pero que aparecen en conjunción, y por lo tanto debemosconsiderar que los patrones pueden incluir el tema central de búsqueda y factoresque por separado, no tienen el carácter. Por esto, el contenido base de búsqueda,su definición y las características son ajenas a este trabajo y fueron adaptados detrabajos desarrollados por expertos, de esta forma nos interesa encontrar, sobre labase de estas definiciones, los patrones que se utilizan para la asociación de lainformación y también poder discriminar bajo que situación los contenidos, auncuando contengan elementos que pueden ser considerados parte del tema centralde búsqueda, no es necesariamente elementos típicos de pornografía, así es quehemos incluido en el algoritmo una metodología que cuantifica y selecciona lospatrones que tienen mayor probabilidad de ser objetos de la búsqueda.

Para este trabajo se escogió como tema de la búsqueda de patrones, aquellos quecaracterizan el acceso y la utilización por los usuarios de un sistema de acceso ala Red Mundial a sitios con y de contenido pornográficos, independiente de losaccesos otros sitios de cualquier contenido. La razón fundamental de elegir estetipo de búsqueda es debido a la gran cantidad de esta información en la red ytambién porque puede confundirse con sitios que no necesariamente son del tipo,también y en función de la cantidad de información existente, la efectividad denuestro algoritmo puede ser evaluado con gran certeza.

4.1 FASE I

4.1.1 PROCESAMIENTO Y EXTRACCIÓN DE DATOS

Page 23: APLICACIONES DE REGLAS DE ASOCIACIÓN PARA …newton.azc.uam.mx/mcc/01_esp/11_tesis/tesis/term... · en la Web para obtener conocimiento. El Web mining (minería de datos de la Web)

14

Esta es una actividad que inicia desde la selección de los datos en loscuales se va enfocar el descubrimiento de patrones, para ello se requiere de unreceptáculo de datos afín con esta actividad, también se llevan a cabo lasoperaciones de preparación de los datos: limpieza de los datos, esto es eliminardiferencias en formato de los datos, asignación de tipos de datos, se definenunidades de medida, el objetivo es estandarizar el formato de los mismos, decidirlas estrategias para manejar los campos (i.e. atributos), se elimina el posible ruidode los datos y en general, se realizan todas las tareas necesarias paraestandarizar la información.

La bitácora sobre la cual se trabaja es la de un servidor de proxy, cuyoscampos se especifican en el anexo A1.

A continuación se muestra la estructura y las características de unas cuantaslíneas del archivo sin formatear:

1016565602.385 603 123.123.129.90 TCP_MISS/200 748 GEThttp://www.viajar.com/imgviajar/dest/footer_column2_2.gif - DIRECT/www.viajar.com image/gif1016565602.398 404 123.123.142.168 TCP_MISS/304 137 GEThttp://www.bbmundo.com/Registro/new_01.gif - TIMEOUT_DIRECT/www.bbmundo.com -1016565602.403 816 123.123.144.43 TCP_MISS/200 10435 GEThttp://relay.cameraware.com/cwimages/Stiffkitten.jpg - DIRECT/relay.cameraware.com image/jpeg1016565602.419 0 123.456.181.86 UDP_MISS/000 94 ICP_QUERYhttp://logs.eresmas.com/www.fantasiax.com/www.marquese.net/ocio/anal.html - NONE/- -1016565602.419 0 123.456.181.86 UDP_MISS/000 94 ICP_QUERYhttp://logs.eresmas.com/www.fantasiax.com/www.marquese.net/ocio/anal.html - NONE/- -1016565602.423 345 123.123.142.168 TCP_MISS/304 137 GEThttp://www.bbmundo.com/images/anuncio_i.gif - DIRECT/www.bbmundo.com -1016565602.428 475 123.123.150.10 TCP_MISS/200 1324 GEThttp://encarta.msn.com/images/UK.gif - TIMEOUT_DIRECT/encarta.msn.com image/gif1016565602.439 53 123.123.147.15 TCP_SWAPFAIL_MISS/000 0 GEThttp://www.cruzazul.com.mx/txton_05.jpg - DIRECT/www.cruzazul.com.mx -1016565602.473 431 123.123.150.10 TCP_MISS/200 756 GEThttp://encarta.msn.com/images/DE.gif - DIRECT/encarta.msn.com image/gif1016565602.496 0 123.456.181.86 UDP_MISS/000 59 ICP_QUERYhttp://123.123.143.191/fotos/13806.jpg - NONE/- -1016565602.496 0 123.456.181.86 UDP_MISS/000 59 ICP_QUERYhttp://123.123.143.191/fotos/13806.jpg - NONE/- -

El archivo es generado por un servidor de proxy, versión 1.0, aproximadamente esde un tamaño de 3.3 Gigabytes y contiene 23.3 millones de registros (instancias)las cuales están compuestos por 10 campos, mostrados anteriormente. Estearchivo fue generado a partir del 20 de diciembre del 2001 al 13 de febrero del2002, el archivo debió de ser procesado ya que no tiene en un formato adecuadopara ser cargado a la base de datos, para ello nos apoyamos en 2 herramientasdel sistema operativo UNIX y que se conocen como sed (editor de cadenas) y awk(lenguaje para procesamiento de patrones) los cuales se llaman así por las siglas

Page 24: APLICACIONES DE REGLAS DE ASOCIACIÓN PARA …newton.azc.uam.mx/mcc/01_esp/11_tesis/tesis/term... · en la Web para obtener conocimiento. El Web mining (minería de datos de la Web)

15

de los nombres de sus creadores, estas dos herramientas son un estándar tantoen UNIX como en LINUX. Estas dos herramientas permiten dar el formatoadecuado para procesar el archivo de la bitácora del proxy, que lleva por nombreaccess.log, se muestra el script que procesa el archivo en el anexo A2:

A continuación se muestran unas cuantas líneas del archivo procesado yformateado:

Tue Mar 19 13:20:022002,603,123.123.129.90,TCP_MISS/200,748,GET,http://www.viajar.com,,DIRECT/www.viajar.com,image/gifTue Mar 19 13:20:022002,404,123.123.142.168,TCP_MISS/304,137,GET,http://www.bbmundo.com,,TIMEOUT_DIRECT/www.bbmundo.com,Tue Mar 19 13:20:022002,816,123.123.144.43,TCP_MISS/200,10435,GET,http://relay.cameraware.com,,DIRECT/relay.cameraware.com,image/jpegTue Mar 19 13:20:022002,0,123.456.181.86,UDP_MISS/000,94,ICP_QUERY,http://logs.eresmas.com,,NONE/-,Tue Mar 19 13:20:022002,0,123.456.181.86,UDP_MISS/000,94,ICP_QUERY,http://logs.eresmas.com,,NONE/-,Tue Mar 19 13:20:022002,345,123.123.142.168,TCP_MISS/304,137,GET,http://www.bbmundo.com,,DIRECT/www.bbmundo.com,Tue Mar 19 13:20:022002,475,123.123.150.10,TCP_MISS/200,1324,GET,http://encarta.msn.com,,TIMEOUT_DIRECT/encarta.msn.com,image/gifTue Mar 19 13:20:022002,53,123.123.147.15,TCP_SWAPFAIL_MISS/000,0,GET,http://www.cruzazul.com.mx,,DIRECT/www.cruzazul.com.mx,Tue Mar 19 13:20:022002,431,123.123.150.10,TCP_MISS/200,756,GET,http://encarta.msn.com,,DIRECT/encarta.msn.com,image/gif

El procesamiento total de la bitácora de web tarda alrededor de 3 horas con 20minutos para un total de 23.3 millones de registros. Una vez terminada la bitácorade web se procede a procesar otros dos archivos:

1. La bitácora del correo, la cual contiene los campos: clave de empleado ycorreo, y que nos permite conjuntamente con la bitácora del punto 2,relacionar la bitácora web con la información laboral de un empleado.

A continuación se muestra un fragmento del archivo que contiene dicha bitácora:

[email protected],[email protected],[email protected],[email protected],1036647

Page 25: APLICACIONES DE REGLAS DE ASOCIACIÓN PARA …newton.azc.uam.mx/mcc/01_esp/11_tesis/tesis/term... · en la Web para obtener conocimiento. El Web mining (minería de datos de la Web)

16

[email protected],[email protected],[email protected],[email protected],[email protected],[email protected],[email protected],[email protected],[email protected],[email protected],[email protected],[email protected],[email protected],[email protected],[email protected],[email protected],[email protected],[email protected],[email protected],331112

Esta bitácora fue procesada con el script que se muestra en el anexo A3:

Dando como resultado un archivo de la siguiente forma:

aagcia,58531aagzal,1013431aaglar,823851aage,123613aaho,52516aalaon,62810aalct,520111aalcta,229611aalcar,459912aalfo,2352019aala,2312932aalrad,3412341aalrez,2350136aador,673135aaaro,7812233aartin,897455aaelio,123734aaeles,231411aaolan,2353555aapaci,2350133

Page 26: APLICACIONES DE REGLAS DE ASOCIACIÓN PARA …newton.azc.uam.mx/mcc/01_esp/11_tesis/tesis/term... · en la Web para obtener conocimiento. El Web mining (minería de datos de la Web)

17

aapie,3411923

De esta manera el archivo esta listo para ser cargado a la base de datos utilizandoel script que se describe en el anexo A4:El script del anexo A4 carga la información en la base de datos en una tabla quehemos llamado mail la cual tiene tres campos (correo, clave, ip).

2. La bitácora de sendmail, la cual contiene dirección IP y la clave de correo.

A continuación se muestra un fragmento de dicha bitácora:

May 6 00:00:17 7C:www ipop3d[2995605]: pop3 service init from 123.123.123.28May 6 00:00:17 7C:www ipop3d[2993986]: pop3 service init from 123.123.109.49May 6 00:00:17 6C:www ipop3d[2993986]: Login user=hsilvahost=[123.123.109.49] nmsgs=0/0May 6 00:00:17 6C:www ipop3d[2993986]: Logout user=hsilvahost=[123.123.109.49] nmsgs=0 ndele=0May 6 00:00:18 6C:www ipop3d[2995605]: Login user=fbeltranhost=[123.123.123.28 ] nmsgs=43/43May 6 00:00:18 6C:www ipop3d[2995605]: Logout user=fbeltranhost=[123.123.123.2 8] nmsgs=43 ndele=0May 6 00:00:29 6C:www sendmail[2998900]: LAA65007:[email protected] ctladdr=<[email protected]> (5233/203),delay=2+12:56:54, xdelay=00:00:40, mailer=esmtp,relay=wizard.notaria215.com.mx. [200.53.1.52], stat=I/O errorMay 6 00:00:29 6C:www sendmail[2998900]: LAA07675:to=<[email protected]>, ctlad dr=<[email protected]> (826/203),delay=3+12:14:31, xdelay=00:00:00, mailer=esmtp,relay=oule.com. [64.29.20.133],stat=Deferred: Connection refused by oule.com.May 6 00:00:29 6C:www sendmail[2998900]: XAA71488: to=<[email protected]>, delay=4+00:36:47,xdelay=00:00:00, mailer=esmtp, relay=bounce.3web45.com., stat=Deferred:Connection timed out with bounce.3web45.com.May 6 00:00:29 6C:www sendmail[2998900]: NAA87609:[email protected] ctladdr=<[email protected]> (5233/203),delay=3+10:03:23, xdelay=00:00:00, mailer =esmtp,relay=wizard.notaria215.com.mx., stat=I/O error: I/O error

Como podemos ver es un archivo irregular como el de la bitácora del web por loque primero se tiene que procesar para poder cargarlo a la base de datos. En elanexo A5 se muestra el script que procesa el archivo sendmail.log y que tambiénla carga a la base de datos:

Page 27: APLICACIONES DE REGLAS DE ASOCIACIÓN PARA …newton.azc.uam.mx/mcc/01_esp/11_tesis/tesis/term... · en la Web para obtener conocimiento. El Web mining (minería de datos de la Web)

18

Después de aplicar el script del anexo A5 a la bitácora del sendmail se obtiene unarchivo de la siguiente forma:

hsirva,123.123.11.49fbertran,123.123.223.28ecayyares,192.111.181.86rfar,123.123.134.10jatdrres,146.545.1jdidz,192.167.137.37hsida,123.123.109.49ecaxres,191.100.181.86jorxnez,191.168.100.88rfxx,192.161.155.10jaxxrres,146.9.5.1gchxxea,192.193.123.211hgaryyia,192.169.123.70masyyis,192.198.129.63ecazyyes,192.900.181.86jdyyz,123.123.197.37rflyyes,192.169.123.21rfyyx,123.123.195.10hsylva,192.169.109.49omootine,146.9.6.101evluun,192.169.101.116jatorus,146.5.9.3

El archivo se carga posteriormente a la base de datos, mediante el script que semuestra en el anexo A6:

El script del anexo A6 carga el archivo final.txt a la tabla IP la cual contiene loscampos correo e IP.

4.1.2 TRANSFORMACIÓN DE LOS DATOS

Este proceso consiste en integrar, corregir, limpiar, verificar y validar, (en casonecesario) atributos y colocar el sello del tiempo al conjunto de datosseleccionados que caracterizan el evento. El resultado de transformar los datosseleccionados entrega una fuente de datos estandarizada y lista para sertransportada a un manejador de base de datos.

Una vez que se ha procesado la información del archivo de proxy, correo e IP seprocede a realizar la transformación de dichos datos, para ello se tiene que incluirlas estructura de las bitácoras de texto en la base de datos, es decir se tienen quediseñar los moldes tanto de datos como de índices para dicha información, en el

Page 28: APLICACIONES DE REGLAS DE ASOCIACIÓN PARA …newton.azc.uam.mx/mcc/01_esp/11_tesis/tesis/term... · en la Web para obtener conocimiento. El Web mining (minería de datos de la Web)

19

anexo A7 se muestra el script que crea la estructura para la bitácora del web(proxy):

En el anexo A8 se muestra la estructura final de la bitácora mail.

Por último en el anexo A9 se muestra el script que crea la estructura de la bitácorade sendmail en la base de datos:

Ya procesada la información (limpieza, extracción y eliminación de datos) ycreados las estructuras en la base de datos se procede a realizar la transportaciónde dicha información a la base de datos.

4.1.3 TRANSPORTACIÓN DE LOS DATOS

Realizar el proceso de integración de los archivos planos al repositorio de datos esun tarea de los mas arduo ya que en nuestra investigación la transportación delarchivo de proxy tardo alrededor de 60 horas.

El desarrollo se realiza con las herramientas propias de los manejadores de datos.En particular SQL dispone de herramientas para este propósito, si no se deseausar un lenguaje de uso genérico tal como SQL, se puede utilizar las queproporcionan los manejadores de base de datos, que en principio no difierenmucho de SQL.

El manejador que estamos usando, como cualquier otro posee una herramientapara cargar archivos planos a la base de datos, este se llama sql-loader, En elanexo A10 se muestra un ejemplo de cómo usarlo.

A continuación se muestra un diagrama entidad relación en la figura 4.1 dondepodemos ver el repositorio de datos completo. El modelo es muy semejante alpresentado en la ref. [18], la diferencia fundamental es que en este trabajo se tieneun tema de búsqueda (la pornografía) como un caso de estudio mientras que en eltrabajo citado se estudia el rendimiento del proxy como tal, además de que en estetrabajo se cuenta con un repositorio de empleados para asociar la pornografía avarios atributos del empleado como lo son tabulador, estado civil, dependencia yvarios más.

Page 29: APLICACIONES DE REGLAS DE ASOCIACIÓN PARA …newton.azc.uam.mx/mcc/01_esp/11_tesis/tesis/term... · en la Web para obtener conocimiento. El Web mining (minería de datos de la Web)

20

Figura 4.1 Diagrama entidad relación del repositorio de datos

Como se menciona previamente, la base de datos tiene 23646259 registros deinformación de proxy, los cuales comprenden las transacciones del 20 dediciembre del 2001 al 13 de febrero del 2002 (55 días), el número detransacciones es generado por un conjunto de 4729 usuarios, esto significa que enpromedio se generan 4990 transacciones por usuario en el transcurso de esos 55días.

Por otra parte, en promedio se generan 91 transacciones por usuario al día,comparando con la tabla 4.1 que ha sido obtenida de la ref. [25], estos usuariosde la Web caen en el periodo 3 con la excepción que esta generado por 4410usuarios con una cantidad similar de registros, es decir con la cuarta parte de losusuarios del caso 3, en nuestro caso se genera la misma cantidad de registros. Sedebe mencionar que en el caso 3 de la tabla se generan 64.42 en el transcurso de20 días mientras que en nuestro caso es de 55 días.

Page 30: APLICACIONES DE REGLAS DE ASOCIACIÓN PARA …newton.azc.uam.mx/mcc/01_esp/11_tesis/tesis/term... · en la Web para obtener conocimiento. El Web mining (minería de datos de la Web)

21

PERIODO NUMERO DE CLIENTES TRANSACCIONESJun17– Jul7,1997 1858 5.28

Abr20 – May10, 1997 2247 3.19Ago 29 – Sep 18, 1996 16663 21.47

Jun4 – Jun26, 1997 953 1.36Jun4 – Jun24, 1997 310 1.86May1 – May21, 1997 990 1.59Jun3 – Jun27, 1997 711 12.65

Tabla 4.1 Resumen de transacciones de servidores proxy

En los trabajos reportado en las ref. [22], [23], [24] y [26] se hacen estudios delrendimiento de los proxys respecto al numero de transacciones, tamaño del cache,periodo de colección, tamaño del archivo access.log, total de transacciones,promedio de transacciones por día, total de bytes transferidos, numero detransacciones exitosas y no exitosas. Estos parámetros permiten orientar elpresente trabajo para conocer la información que se esta analizando en la base dedatos y marcan pautas de cómo es recomendable analizar una bitácora de estetipo ya que los artículos antes mencionados basan sus estudios en archivos quetienen la misma estructura con la que se esta trabajando en este proyecto, por loque son una referencia necesaria y obligada para este trabajo.

4.2 FASE II

4.2.1 MINERÍA DE DATOS DE UN SITIO WEB

El webmining o minería de datos es el proceso iterativo de análisis de los patronesde las transacciones en línea y de obtención de información sobre problemas talescomo: quién está comprando y qué, cuándo, por qué. Además está relacionadocon la extracción de conocimiento desconocido, si existe, a partir de las peticionesde información en Internet. El webmining está relacionado con el empleo detecnologías de reconocimiento de patrones que pretenden responder preguntassimilares o equivalentes a las siguientes:

• ¿Qué dominios son los más buscados?• ¿Qué sitios son los mas visitados?• ¿A que hora se consultan dichos sitios?• ¿Qué tipo de usuarios consultan los sitios?• ¿Cuál es el porcentaje de mujeres y hombres que los visitan?• ¿Hay alguna asociación entre la edad y los sitios buscados?• ¿Quiénes son los usuarios que gastan más ancho de banda?• ¿Qué es lo mas solicitado en las paginas, el texto o las imágenes?

Actualmente los sitios web, cualquiera que sean sus tamaños, estánexperimentando un crecimiento explosivo en sus capacidades de generar

Page 31: APLICACIONES DE REGLAS DE ASOCIACIÓN PARA …newton.azc.uam.mx/mcc/01_esp/11_tesis/tesis/term... · en la Web para obtener conocimiento. El Web mining (minería de datos de la Web)

22

cantidades de datos en el servidor. Sin embargo, pocos administradores están encapacidad de emplear tecnologías de minería de datos para transformar estosdatos web en algún tipo de conocimiento producto de la inteligencia competitivaque pueda optimizar sus esfuerzos en el comercio o atención electrónica. Elwebmining es un método poderoso de "recordar" los contactos diarios del sitioweb de una empresa con sus visitantes y clientes y "observar" su comportamiento.Por supuesto, la memoria y las observaciones son funciones humanas quebasándose en las tecnologías de la Inteligencia Artificial, las herramientas ytécnicas del Data Mining, intentan reproducir en el procesamiento y análisis degrandes cantidades de datos. Este tipo de análisis de datos inductivo puederesponder a preguntas que una empresa nunca se plantea, porque puededescubrir relaciones de las cuales no estaba consciente y pueden descubrirpatrones ocultos en miles de interacciones de visitantes del sitio web.

El webmining ayuda a descubrir qué necesitan y buscan exactamente los clientesen el Internet y proporcionarles precisamente eso. Puede ayudar a mejorar losmárgenes comerciales o de atención, permite mejorar el control sobre inventariode datos y, en suma, mejorar el diseño y el secuenciamiento de las páginas web.Lo mejor de todo es que puede ayudar a mantener satisfecho al clientepermitiendo a una empresa crear perfiles de este tipo de clientes, a través de larepresentación gráfica de su comportamiento y de los datos demográficos. Estoelimina mucho trabajo de investigación al hacer negocios u ofrecer servicios en lared. A través del webmining aplicado a los datos de las transacciones de unaempresa, la empresa puede mejorar su respuesta a los clientes, dificultando quelos clientes se marchen a otra parte.

Además de proporcionar a los clientes el producto adecuado y las opciones delservicio, el webmining puede guiar a una empresa en la creación de una fuerterelación con los clientes. Si el sitio web de una empresa proporciona un producto oservicio que tiene éxito a los ojos de los clientes de esta empresa, y éstapermanece atenta constantemente a las necesidades de sus clientes, entonces lainversión de éstos en dicha empresa puede crear una relación duradera defidelidad, ayudando a la empresa a aumentar su cuota de mercado de este tipo declientes. En el siguiente ejemplo, se muestra cómo se pueden utilizar las técnicasde la minería de datos para realizar este tipo de enfoque, a través de un análisisdel comportamiento de los visitantes de un sitio web o la Internet, que a la vezpuede proporcionar un perfil compuesto de quiénes son.

Sin embargo, cómo ocurre con todos los proyectos de minería de datos, se debeempezar en primer lugar con disponer de una buena base: los datos y susdistintos componentes. Para estos análisis se debe empezar con algunos ficheroslog básicos del servidor relacionados con la información del cliente extraída de unabase de datos de registro de clientes. Después, se mezclan estos datos del sitioweb con los propios datos del datawarehouse, datos propios de un departamentoen particular y algunas informaciones externas como datos demográficos einformación de la familia. Se ejecutan análisis de minería de datos para demostrarel enfoque y los resultados que cada una de estas tecnologías y herramientas

Page 32: APLICACIONES DE REGLAS DE ASOCIACIÓN PARA …newton.azc.uam.mx/mcc/01_esp/11_tesis/tesis/term... · en la Web para obtener conocimiento. El Web mining (minería de datos de la Web)

23

proporcionan para especialistas de web, marketing y finanzas implicados en elcomercio electrónico. El proceso del webmining se desglosa del siguiente modo:

4.2.2 VISIÓN GLOBAL

En el momento actual, los futuros clientes están accediendo al sitio web de laempresa. ¿Conoce la empresa quiénes son, dónde viven, a qué se dedican, cómoviven, qué compran y qué les gusta?

En este capítulo se ponen en práctica una serie de conceptos, todos ellosaglutinados bajo el nombre de minería de datos: marketing relacional, reglas deasociación, cookies (es una pequeña cantidad de información enviada por unservidor de Web al navegador de un usuario) y aprendizaje relacional. Se aprendea distinguir cada concepto de los demás a través de una serie de ejemplos,utilizando varias metodologías, tecnologías y herramientas de minería de datos.

En primer lugar, se revisa el proceso implicado en la captura de los datos devisitantes y clientes en el nivel del servidor y en la utilización posterior de estoscomponentes para añadir información adicional al usuario o cliente que haceconsultas en la Internet. El conjunto de datos resultante es sometido después a unproceso de minería de datos (reglas de asociación). Los resultados finales deestos análisis son diferentes, aunque todos ellos están diseñados paraproporcionar a la empresa un nuevo enfoque en la identificación de los visitantesque hacen uso del Internet, de su origen, de sus gustos y los que es másimportante, cómo se puede conseguir y retener una relación con ellos a través desu ciclo de cliente.

En cuanto al sitio web, el principal concepto que hay que tener claro,especialmente en un entorno de red, es que el sitio web no es un simpletransmisor, sino, en mayor medida, también es un receptor. Lo que recibe el sitioweb es la información del comportamiento del visitante: información sobre quiénesson los visitantes, qué están buscando, cómo y qué información, servicios yproductos que quieren y a qué tipo de ofertas responden con mayor probabilidad.Hay que empezar a pensar en el sitio web como una lupa, capaz de descubrir losrasgos y características de sus muchos visitantes y de los potenciales nuevosclientes. Para obtener un análisis del comportamiento y de rasgos de estosvisitantes a un sitio web, para ejecutar estas tareas se pueden utilizar muchastécnicas como las siguientes:

Hay que tener en cuenta que estos análisis no son excluyentes, no necesitan serejecutados secuencialmente; las necesidades del sistema determinan cuándoponerlas en marcha. Como se comentó anteriormente, la mayoría de lasherramientas de minería de datos se basan en tecnologías de Inteligencia Artificialdiseñadas para imitar la percepción y aprendizaje humanos, a diferencia de los

Page 33: APLICACIONES DE REGLAS DE ASOCIACIÓN PARA …newton.azc.uam.mx/mcc/01_esp/11_tesis/tesis/term... · en la Web para obtener conocimiento. El Web mining (minería de datos de la Web)

24

programas de búsqueda de bases de datos, los generadores de informes deanálisis web, software de filtrado cooperativo o paquetes estadísticos, lasherramientas de la minería de datos se diferencian en que ejecutan sus análisis depatrones de una manera insesgada (es decir, que los items asociados tienen unaalta probabilidad de tomar un valor cercano al valor del parámetro esperado) yautónoma; estos dos parámetros son dirigidos por los datos contenidos en losficheros log y en las bases de datos generadas por el sitio web, en vez de estarbasados en una hipótesis o interpretación personal del comportamiento del tráficodel sitio web. La minería de datos puede utilizarse para resumir y simplificar lascaracterísticas de miles de sesiones del sitio web y de los patrones de visitantesen forma de una puntuación, una regla o un gráfico de un árbol de decisión.

Al igual que la mayoría de las fuentes tradicionales de minería de datos, la clavepara predecir el futuro está en el análisis de los datos históricos de lastransacciones. Por ejemplo, en la industria de venta al detalle, está normalmenteen forma de datos de código de barras. En el sector de servicios financieros,puede estar en el análisis de los préstamos previos, de las cuentas de las tarjetasde crédito, carteras de clientes, etc. En ambos ejemplos, la clave para laconstrucción de modelos predictivos empieza con el modelamiento de lastransacciones pasadas y de las interacciones con los clientes. En la minería dedatos de un sitio web, estos elementos son los componentes de las transaccionesen línea capturadas al nivel del servidor. Estos componentes de datos, junto conun motor de filtrado cooperativo o información externa, permiten trazar el perfil delos visitantes y futuros clientes potenciales, y descubrir sus preferenciasanalizando su comportamiento y sus patrones de compra.4.2.3 EJEMPLO DE SESIÓN EN UN SITIO WEB

1. Las visitas a los sitios web generan una entrada en el fichero log del servidor.Componentes de los Datos Generados: hora de acceso, sitio de referencia,palabras clave de búsqueda, dominio del visitante, etc.

2. El servidor envía una cookie al navegador. Nuevos Componentes de Datos:nombre o valor numérico únicos de identificación del visitante.

3. El visitante del sitio web completa un formulario (si lo hay). NuevosComponentes: edad, género, código postal, etc... del visitante.

4. Los componentes de los datos del sitio web se relacionan con otras bases dedatos. Nuevos Componentes: comportamiento de consumo del visitante, valorde la vivienda y del coche, número de niños, etc.

5. Finalmente, la minería de los datos de los sitios web enriquecidos se realiza.Nuevos Componentes: edad, género, código postal, etc del visitante.

Page 34: APLICACIONES DE REGLAS DE ASOCIACIÓN PARA …newton.azc.uam.mx/mcc/01_esp/11_tesis/tesis/term... · en la Web para obtener conocimiento. El Web mining (minería de datos de la Web)

25

4.2.4 INTERACTIVIDAD DESDE EL PRINCIPIO

Antes de empezar la minería de datos del sitio web, en primer lugar debedisponerse de una estrategia para identificar quiénes son los clientes y visitantesdel sitio web, y qué tipo de información se quiere capturar a través de ficheros log,cookies, formularios y software personalizado o de filtrado cooperativo, o lacombinación de ambos. Con los pasos o puntos siguientes, se puede empezar areunir información de quiénes son los clientes y visitantes del sitio web. Dichospasos son los siguientes:

Ficheros log, para descubrir de donde vienen los clientes visitantes, cómoencontraron el sitio web y qué vieron.

Este fichero de texto delimitado por espacios puede ser importado fácilmente auna base de datos para la realización de preprocesamiento y ser preparado parasu fusión con otros datos para la minería de datos. Esta es la génesis del análisisde la minería de datos, porque el auténtico valor de los datos del sitio web aparececuando se mezclan estos con la demás información personal del cliente. Elconocimiento y valor verdadero se obtiene una vez realizado la minería de datoscon estos nuevos datos y realizada la excavación y la extracción de los datos másvaliosos. Una de las estrategias clave es mezclar datos insustanciales de Internetcon las bases de datos de recursos humanos, demográficos, etc y operar con elloshasta convertirlos en un "estado sólido".

4.2.5 ESTADO SÓLIDO

El web y los datos que genera son considerados a menudo insustanciales, debidoal diseño arquitectónico de TCP/IP. A veces, esto convierte la tarea de la mineríade datos de los datos del servidor en una metodología de búsqueda muy difícil.Sin embargo, pueden enlazarse ciertos datos capturados a nivel del servidor coninformación del estilo de vida del clientes con el fin de convertir estos datos en unestado sólido. A través del cruce estratégico de datos específicos del sitio web condatos externos, se podrá "perfilar" quienes son los clientes del sitio web. Porejemplo, la preparación de los datos puede implicar la mezcla de la base de datosde formularios de registro con un conjunto de datos demográficos, utilizando elcódigo postal como enlace de fusión o, suponer la fusión de los ficheros log conun servicio cooperativo o de personalización, utilizando cookies compartidas,agrupados a través de una red de sitios web. En ambos casos, se crea un nuevo ymás rico conjunto de datos, al que se le aplica la minería de datos para descubrirrasgos y comportamientos específicos sobre los visitantes del web.

Una metodología común para la extracción de rasgos a partir de los ficheros deinformación de los clientes y de los almacenes de datos, especialmente parasectores mercantiles altamente competitivos como la venta al por menor, los

Page 35: APLICACIONES DE REGLAS DE ASOCIACIÓN PARA …newton.azc.uam.mx/mcc/01_esp/11_tesis/tesis/term... · en la Web para obtener conocimiento. El Web mining (minería de datos de la Web)

26

servicios financieros, las empresas de seguros y las telecomunicaciones, implicael enriquecimiento de los datos internos de los clientes con la información externa,por ejemplo la de recursos humanos, demográfica y psicográfica. Este tipo debases de datos comerciales se basan normalmente en la información de censoque han sido mejoradas por los revendedores de bases de datos de marketing.Estos vendedores de datos normalmente ofrecen la información obtenida deregistros públicos como:

• Registros inmobiliarios• Publicaciones del gobierno• Registros de vehículos• Archivos de registros públicos• Archivos de asesores de impuestos• Tarjetas de garantía• Cuestionarios• Registros de nacimientos• Páginas blancas• Correo directo• Censo

La información del recurso humano detallada de estas fuentes diversas no sóloayuda a determinar los tipos de productos y servicios que los clientes son másreceptivos a comprar, sino que también ayuda en la selección de los tipos deanuncios, banners, enlaces y mensajes para presentárselos. El comercioelectrónico está dirigido en gran medida por la gestión de marcas y métodos deinvestigación de productos. El estilo de vida y los valores de los visitantes puedeinfluir en el diseño global del sitio web y en el método por el cual se venden losproductos y servicios. Los datos del factor humano de los visitantes puedenconducir también a formar alianzas o colaboraciones con otras empresas o sitiosweb. De hecho, el nivel por el cual los datos web pueden ser mejorados a travésde su mezcla con otras fuentes de información varía en relación con la actividadque ocurre con cada visitantes o cliente. Se puede enlazar la información con losdatos que son generados por las interacciones que tienen lugar en el sitio web.

A continuación en la tabla 4.2 se muestran las posibles opciones que se puedentener al asociar información durante una sesión web.

Page 36: APLICACIONES DE REGLAS DE ASOCIACIÓN PARA …newton.azc.uam.mx/mcc/01_esp/11_tesis/tesis/term... · en la Web para obtener conocimiento. El Web mining (minería de datos de la Web)

27

Acción Datos capturados Pueden enlazarse con

Navegar Sitio web de referencia,cookie

Filtrado cooperativo y red publicitaria

Registro Código postal, género, edad Base de datos demográficos

Compra Dirección del clienteArchivo de datos de cabeza de familia,

almacén de datos.

Tabla 4.2: Acciones de una sesión web.

Luego de cada transacción, los visitantes del sitio web proporcionan másinformación sobre ellos mismos que puede utilizarse para ser combinada con otrasfuentes de estilo de vida y base de datos de preferencias de clientes. Además, concada compra, un vendedor al por menor puede determinar las preferencias de uncliente y la tasa de consumo. Estos datos empiezan a un nivel muy bajo, dondesólo se esta capturando la información log del servidor y donde el únicoemparejamiento que puede ocurrir es con los filtrados y comparición de cookies.En la siguiente fase, cuando un visitante completa un formulario de registro en elsitio web, se puede capturar importante información como su código postal, quepuede ser contrastado con una base de datos como los del recurso humano ocualquier otra.Por último, cuando un visitante se convierte en cliente y realiza una compra querequiere que se envíe un producto a su casa, se captura su dirección física, quepuede ser contrastada con una selección de otras fuentes de información. Estasfuentes incluyen información personal, como edad, sexo, que ofrecen informaciónde clientes procedente de tarjetas de garantía y otros registros públicos y fuentesde información de clientes. Todos estos proveedores de datos de tercera víavarían en la cantidad de detalle que pueden proporcionar sobre los consumidores,empezando por el código postal y llegando hasta los datos mas detallados como lopueden ser la fecha de nacimiento o el registro federal de contribuyentes. Esrecomendable realizar comparaciones comprando y verificando el sistema paradeterminar que vendedores ofrecen la información más fiable de los clientes delsitio web en cuestión. Se debe solicitar la lista de estadísticas disponibles y elporcentaje de cobertura de la población.

Se puede también enlazar la información de los clientes del sitio web con elalmacén de datos propio, permitiendo así realizar algunos análisis adicionales dela minería de datos, cómo la clasificación de datos y las reglas de asociación. Unode los beneficios inmediatos de este contraste del sitio web y del datawarehouse

Page 37: APLICACIONES DE REGLAS DE ASOCIACIÓN PARA …newton.azc.uam.mx/mcc/01_esp/11_tesis/tesis/term... · en la Web para obtener conocimiento. El Web mining (minería de datos de la Web)

28

es que se puede localizar, comparar y analizar los datos con la finalidad decomparar los rasgos de los clientes existentes con los de los nuevos clientespotenciales. Se pueden descubrir algunas similaridades en su localizaciónregional, edad, género u otras características demográficas, como ingresos oestilo de vida. Un beneficio colateral importante, es que se puede encontrar unnuevo segmento de mercado o un tipo de cliente completamente nuevo.

4.2.6 CONJUNTO DE DATOS

A medida que se interactúa con los visitantes y los clientes, se capturagradualmente más y más información sobre ellos. Se empieza averiguando cómoencontraron este sitio web y qué palabras clave utilizaron para encontrarlo, que secaptura a partir del fichero log. A continuación, si los clientes completan unformulario, se obtiene el código postal de su domicilio e información importantecómo sus preferencias, edad o género. Finalmente, si ellos hacen una compra, sedispone de la dirección física. Todos estos datos capturados se pueden utilizarpara contrastarlos con otros archivos de información con el fin de obtener unacomprensión adicional de estilo de vida y de preferencias. Y lo que es másimportante, los conjuntos de datos combinados pueden ser minados con el fin deasociar y construir perfiles sobre quienes son dichos sujetos. Haciendo uso deuna serie de herramientas de minería de datos este conjunto de informaciónpuede construirse como una cadena delimitada por comas, importable fácilmente.

Page 38: APLICACIONES DE REGLAS DE ASOCIACIÓN PARA …newton.azc.uam.mx/mcc/01_esp/11_tesis/tesis/term... · en la Web para obtener conocimiento. El Web mining (minería de datos de la Web)

29

5 ASOCIACIÓN DE INFORMACIÓN

Para el caso de nuestra investigación, una vez que los archivos planos formanparte de la base de datos, se encuentra con el problema de relacionar o asociar elcampo de la dirección IP con un empleado en particular, es decir la bitácora Websolo cuenta con un campo que indica la maquina de donde se realiza la peticiónde un URL (uniform resource locator), por otra parte se tiene que contar con unarchivo que relacione este campo con el número o nombre de empleado. De otromodo es difícil asociar la información de la bitácora con un empleado odepartamento de la empresa. Con la información relacionada de esta manera sepueden realizar búsquedas sobre los datos y encontrar las asociaciones o reglasque existen entre el departamento X de la empresa con determinados sitios dedominio, cuando y a que hora y si hay coincidencias con la hora de mayor traficoen la empresa, definir cuales son los dominios mas buscados por los empleadosde la empresa y si hay coincidencias en su utilización por departamentos o grupos.

En el momento de poder integrar el repositorio de datos, se puede analizar ypredecir la conducta de los empleados de la empresa.

Una breve explicación de las reglas de asociación se da en lo que sigue:

Un ejemplo de las reglas de asociación es de la forma: el 98% de los clientes quecompran llantas y accesorios de autos además compran herramientas.

Consideramos el problema de descubrir reglas de asociación entre columnas oatributos en bases de datos como un problema que no puede ser resuelto pormedio de la asociación clásica entre columnas mediante los factores deconffidence y support donde cada uno de ellos esta definido de la siguientemanera:

Si (if) x entonces y, donde x ∈ X, y ∈ Y, en que X, Y son conjuntos de datos talque X ∩ Y = ∅

Cada regla esta regida por dos factores:

Support = (# de registros con X y Y) / (Total de registros)

Conffidence = (# de registros con X y Y) / (Total de registros con X)

Definiendo externamente los parámetros Support Superior y Conffidence Mínimose puede plantear el objetivo de descubrir todas las reglas posibles tales quecumplan lo siguiente:

Page 39: APLICACIONES DE REGLAS DE ASOCIACIÓN PARA …newton.azc.uam.mx/mcc/01_esp/11_tesis/tesis/term... · en la Web para obtener conocimiento. El Web mining (minería de datos de la Web)

30

Support ≥ Support Superior

Conffidence ≤ Conffidence Mínimo

En nuestro caso no se puede aplicar este método ya que los valores de lascolumnas en la base de datos no son discretos, es decir son cadenas de ncaracteres y que no se pueden discretizar ya que implica otro tipo de problemas yque están lejos del alcance de esta investigación. Ahora bien el problema de ladiscretización se corrige mediante agrupaciones de datos sobre la columna, esdecir se recurre al álgebra relacional para poder conseguir una agrupaciónselectiva y efectiva.

Una regla de asociación es una relación que se puede expresar de la siguienteforma: X => Y definido de la misma manera en las ref. [4][9][11], donde X y Y sonun conjunto de columnas. El significado intuitivo de tales reglas es que lastransacciones de la base de datos las cuales contienen X tienden a contener Y. Elplanteamiento formal de este problema se muestra a continuación.

Sea I = {i1, i2, i3, i4.........im} un conjunto de literales llamados columnas.Sea D un conjunto de transacciones donde cada transacción T es un conjunto decolumnas tales que T ∈ I. En otras palabras, I= { i1, i2, i3, i4.........im} es un conjuntode atributos con valor binario {0,1}. Una tupla T de la base de datos esrepresentada por los atributos con valor {1} asociada con cada transacción es unidentificador único, llamando a esto TID.

Decimos que una transacción T contiene un conjunto de columnas X si X ⊆ T. Unaregla de asociación es una implicación de la forma X => Y donde X ⊂ I, Y ⊂ I y X∩ Y= ∅. Los valores negativos o que están fuera del espacio {0,1} no sonconsiderados de interés para esta aproximación, la discusión es neutral respecto ala representación de D ya que esta puede ser un archivo de datos, una tablarelacional o un resultado de una expresión relacional.

El algoritmo para descubrir reglas de asociación se compone de 2 fases:

Dado el conjunto de datos mas frecuentes dentro de un atributo o columna.

Descubrir todos los conjuntos de datos con un support mayor o igual al mínimopropuesto externamente por el usuario, como lo cita la ref. [11].

Descubrir reglas con otros atributos mediante un conffidence mayor o igual almínimo propuesto por el usuario.

Conffidence denota lo robusto de la implicación y support indica la frecuencia delas ocurrencias encontradas en la regla, la ref. [4] los define de esta forma. Acontinuación se presentan las primitivas para ordenar y unir tablas, estasprimitivas están expresadas en queries (consultas) SQL que se muestran en la ref.

Page 40: APLICACIONES DE REGLAS DE ASOCIACIÓN PARA …newton.azc.uam.mx/mcc/01_esp/11_tesis/tesis/term... · en la Web para obtener conocimiento. El Web mining (minería de datos de la Web)

31

[11], las reglas de asociación se derivaran de las agrupaciones resultantes deestas consultas.

A partir de lo anterior y utilizando SQL, todas las transacciones son almacenadasen la tabla llamada transacciones, primero se genera la frecuencia o cuenta decada una de las columnas, esto es el número de transacciones de cada columna,posteriormente se comparan con el support mínimo requerido para cada uno delas consultas, la salida puede ser almacenada en un reporte o en otra tabla, acontinuación se muestra el esquema de la consulta:

Insert intoSelect columna1, columna2 , columna3……, columnan , count(*)From transaccionesGroup by columna1, columna2 , columna3……, columnan

Having count(*) >= support mínimo

El siguiente paso es generar las asociaciones de las columnas de la tabla yverificar si ellas cumplen con el support mínimo. Para cada columna, es fácilexpresar las asociaciones que pueden ser generadas usando una relación deunión (join) con la tabla transacciones, la expresión es la siguiente:

Insert intoSelect columna1, columna2 , columna3……, columnan, count(*)From transacciones, datos1, datos2, datosn

Where columna1 like ‘%cadena%’ andcolumna2 like ‘%cadena%’ and...columna3 like ‘%cadena%’ andGroup by columna1, columna2 , columna3……, columnan

Having count(*) >= support mínimo

Este tipo de expresiones generan patrones con un conjunto de columnasespecificas. La expresión puede ser generalizada para generar patronesarbitrarios, como vemos el orden de las columnas en el patrón no es relevante, elorden es importante solamente en el proceso final para la generación de la regla.Podemos tomar ventaja para encontrar asociaciones en orden lexicográfico, porejemplo podemos generar AB pero no BA como lo menciona la ref. [11].

El algoritmo tiene como finalidad minar un campo del repositorio de datos quecontiene los URL’s de los sitios buscados por los usuarios, estos sitios seránanalizados y se diseñara un algoritmo de búsqueda para poder asociar los

Page 41: APLICACIONES DE REGLAS DE ASOCIACIÓN PARA …newton.azc.uam.mx/mcc/01_esp/11_tesis/tesis/term... · en la Web para obtener conocimiento. El Web mining (minería de datos de la Web)

32

atributos de los empleados (tabulador, estado civil, sexo) a dichos URL`s con lafinalidad de encontrar reglas asociadas a la pornografía. Para ello se tiene queanalizar el URL mediante búsqueda de patrones dentro del mismo campo,

La Mayoría de las páginas pornográficas de Internet, son muy difíciles de localizarya que tienen muchos espejos de una misma red, o los sitios estánredireccionados a otra red, es decir, automáticamente busca a otra. Las páginaspornográficas están íntimamente ligadas a los hackers, ya que su clandestinidadse mantiene de esto, para evitar el rastreo, mucho sitios hackers, se cubren conlas páginas pornográficas.

El problema de rastrear una Web, tiene mucho que ver con el direccionamiento, yademás del hecho que se puede registrar una Web en cualquier parte del mundo,donde el control no existe, y luego cargarla desde cualquier computadora conacceso a Internet.

Otro problema es el de las paginas “ocultas”, o páginas alojadas en servidores enforma gratuita, en el cual el registro se hace en forma libre, y puede tenercontenidos pornográficos o redireccionados. (Xoom, Angelfire, El sitio, Geocities,Demasiado.com, etc. ) Muchos de estos proveedores advierten que estas paginasserán dadas de bajas si tiene contenidos pornográficos, pero son tantas, ya queson de difícil detección).

5.1 DESCUBRIENDO REGLAS DE ASOCIACION

¿Que es una regla de asociación? Como hemos mencionado anteriormente minarreglas de asociación es encontrar asociaciones interesantes o relaciones decorrelación entre un conjunto grande de datos, esto es, identificar conjuntos deatributos - valores (columnas) que frecuentemente ocurren en conjunto y entoncesestas formulan reglas que caracterizan esas relaciones. Una definición formal delas reglas de asociación se muestra a continuación:

Definición: Una regla de asociación es una regla de la forma:

A1, A2, A3, …….., Am B1, B2,……., BN

Donde A y B son predicados o columnas. Tales reglas son usualmenteinterpretadas como “cuando las columnas A1, A2, A3, …….., Am ocurren lascolumnas B1, B2,……., BN también ocurren en la misma transacción. Lo queexactamente constituye una columna o transacción depende de la aplicación.

A continuación mostramos algunas reglas de asociación con conceptos diferentesde una columna (item) y una transacción.

Page 42: APLICACIONES DE REGLAS DE ASOCIACIÓN PARA …newton.azc.uam.mx/mcc/01_esp/11_tesis/tesis/term... · en la Web para obtener conocimiento. El Web mining (minería de datos de la Web)

33

Ejemplo 1: La siguiente es una regla de una transacción de base de datos deproductos electrónicos.

Producto (X, “computadora portátil IBM”) Producto (X, impresorasony”)

Donde X es una variable que representa una transacción.

En este caso, las columnas (items) son los artículos que el cliente compra, y unatransacción es el conjunto de todos los artículos involucrados en la compra. Laregla dice que los clientes que compran una computadora portátil IBM tienden acomprar impresoras sony al mismo tiempo.

Ejemplo 2: La siguiente regla sacada de un data warehouse con 3 dimensiones:edad, ocupación y producto.

Age (X, “30-39”), Ocupación (X, “estudiante”) Producto (X, laptop”)

Los artículos aquí son los distintos valores de atributos para las 3 dimensionesdadas y una transacción es una tupla en el data warehouse. La regla dice que losclientes quienes son estudiantes y que tienen una edad de entre 30 y 39 añoscompraran probablemente laptops.

La capacidad de generar y coleccionar datos se ha incrementado rápidamente enlas últimas décadas, y por consecuencia, este explosivo crecimiento en elalmacenamiento de datos ha generado la necesidad de nuevas técnicas yherramientas automatizadas que puedan asistir inteligentemente al usuario en latransformación de la inmensa cantidad de datos en conocimiento e informaciónútil.

Según [6] la cantidad de información almacenada en todo el mundo se duplicacada 20 meses, se espera que los satélites de observación de la Tierra generenaproximadamente un petabyte de datos diariamente. Muchos investigadoresconsideran la minería de datos como sinónimo de Descubrimiento deConocimiento en Bases de Datos (Knowledge Discovery in Databases, KDD)como lo menciona la ref. [4]. Sin embargo, la ref. [11] define a la minería de datoscomo un paso esencial en el proceso de descubrimiento de conocimiento enbases de datos y es justamente este el enfoque adoptado en el presente trabajo.

El descubrimiento de conocimiento en bases de datos es la extracción no trivial deinformación implícita, previamente desconocida y potencialmente útil almacenada

Page 43: APLICACIONES DE REGLAS DE ASOCIACIÓN PARA …newton.azc.uam.mx/mcc/01_esp/11_tesis/tesis/term... · en la Web para obtener conocimiento. El Web mining (minería de datos de la Web)

34

en un repositorio de información, así lo define la ref. [8]. El proceso KDD estácompuesto de las siguientes fases:

• Limpieza de datos - eliminación de ruido y datos irrelevantes.• Integración de datos, donde se combinan datos de diversos orígenes.• Selección de datos, donde los datos relevantes para el análisis se recuperan

de la base de datos.• Transformación de datos, donde los datos se transforman o consolidan.• Minería de datos - proceso esencial donde algoritmos inteligentes se aplican

para extraer patrones o regularidades; evaluación de patrones para identificarlos patrones que representan conocimientos, a través de medidas;presentación de conocimiento, donde se utilizan técnicas de representación yvisualización de conocimiento, para presentar el conocimiento minado alusuario.

La minería de información y conocimiento a partir de repositorios de informaciónha sido reconocida por muchos investigadores como un tópico importante deinvestigación en sistemas de bases de datos y aprendizaje de máquinas. Es uncampo multidisciplinario, incluye tecnología de base de datos, inteligencia artificial,redes neuronales, estadística, reconocimiento de patrones, sistemas basados enconocimiento, adquisición de conocimiento, recuperación de información yvisualización de datos.

La minería de datos es la extracción o minería de conocimiento a partir de grandescantidades de datos. El término minería caracteriza el proceso de encontrar unconjunto pequeño de patrones realmente interesantes entre una enorme cantidadde datos.

Recientemente, se han desarrollado varias técnicas de minería de datos, en estasección se describen algunas de las más utilizadas.

Caracterización y discriminación

Para realizar el análisis de una base de datos voluminosa es útil que sus datossean generalizados en diferentes niveles de abstracción, lo cual facilita a losusuarios el estudio general del comportamiento de los datos.

La caracterización de datos proporciona un resumen conciso de las característicasgenerales o rasgos relevantes de una colección de datos.

La discriminación de datos es una comparación de las características generalesde dos o más colecciones de datos. Los siguientes ejemplos se mencionan en laref. [9], corresponden a la caracterización y la discriminación respectivamente.

Page 44: APLICACIONES DE REGLAS DE ASOCIACIÓN PARA …newton.azc.uam.mx/mcc/01_esp/11_tesis/tesis/term... · en la Web para obtener conocimiento. El Web mining (minería de datos de la Web)

35

• Mostrar las características de los clientes que gastaron más de $1000 al añoen AllElectronics. El resultado puede ser un perfil general de los clientes, porejemplo, la edad oscila entre 40-50 años, son empleados, y tienen unaexcelente valoración de crédito.

• Comparar las características generales de los productos software cuyas ventasincrementaron en un 10% en el último año con aquellos cuyas ventasdecrecieron en un 30% durante el mismo período.

Agrupamiento

Esta técnica analiza el agrupamiento de los datos, para lo cual se forman gruposde objetos de tal manera que un objeto dentro de un grupo tiene alto grado desimilitud comparado con otro objeto del mismo grupo, pero son muy diferentescomparados con objetos de otros grupos.

Un ejemplo práctico de esta técnica sería identificar grupos de clientes que habitanen una determinada área geográfica, para establecer puntos estratégicos decomunicación (sucursales de bancos, tiendas, etc.).

Reglas de asociación

La minería de reglas de asociación busca asociaciones fuertes o relaciones decorrelación entre items en un enorme conjunto de datos y tiene una variedad deaplicaciones como lo menciona la ref. [9]:

5.2 APLICACIONES DE LAS REGLAS DE ASOCIACION

Análisis de DNA

Secuencias de DNA. Búsqueda de similitudes en las secuencias de DNA. identificación de co-ocurrencias de secuencias de genes. enlaces de secuencias de genes en los diferentes estados de una enfermedad.

Análisis de datos financieros

Estudio de riesgos para la aprobación de créditos. Segmentación de clientes. Detección de lavado de dinero y otros crímenes financieros. Identificación de comportamientos de compra de los clientes. Descubrir patrones de compra y tendencias. Análisis de la efectividad de las campañas de ventas.

Page 45: APLICACIONES DE REGLAS DE ASOCIACIÓN PARA …newton.azc.uam.mx/mcc/01_esp/11_tesis/tesis/term... · en la Web para obtener conocimiento. El Web mining (minería de datos de la Web)

36

Telecomunicaciones

Identificar patrones fraudulentos. Encontrar patrones de uso de los servicios de comunicación. Promover descuentos en servicios específicos. Mejorar la disponibilidad de servicios particulares en una región.

El análisis de la canasta del mercado analiza los hábitos de compra del clienteencontrando asociaciones entre los diferentes items (artículos) que el clienteselecciona en su canasta de compras. El descubrimiento de tales asociacionespuede ayudar a desarrollar estrategias de mercadeo, descubriendo los items quefrecuentemente se compran juntos, así lo plantea la ref. [9].

Aun cuando minar reglas de asociación se origina con el problema analítico de labolsa de valores, estas pueden ser aplicadas a muchas otras áreas como lo sonlos negocios, ingeniería, medicina y finanzas. Es mas, como una de las tareasbásicas de la minería de datos, las reglas de asociación han sido usadas paraalcanzar otras tareas de la minería de datos, tales como modelar datos, predicciónde ingresos y soporte de decisiones.

Comprender los hábitos y preferencias de compras es esencial para las empresasy en particular las pequeñas, ya que necesitan tomar decisiones para saber queproductos se promocionan, como se diseñan los descuentos, como coloca lamercancía en los anaqueles para maximizar las ganancias, etc. Minar reglas deasociación puede proporcionar tal información. Una efectiva aplicación de mineríade dato se desarrolló en el ambiente de los vendedores al menudeo en el mercadode la bolsa de valores, esta analiza las características de los clientes desde elpunto de vista de ventas electrónicas y encuentra como y cuando lanzarpromociones efectivas. Un ejemplo es la propaganda de la bebidas de coladietética, la cual primero aplican una campaña publicitaria para poderposteriormente subir los precios después de conseguir que suban las ventas.

En el presente trabajo se investiga el problema de la generación eficiente de todaslas reglas de asociación que existen en un conjunto de transacciones dado conrespecto a un soporte y una confianza mínima. El rendimiento del problemaconcerniente a esta tarea no está aún resuelta adecuadamente, es por esta razónque se desarrolló el algoritmo Apriori-I, en base al análisis cuidadoso de lasfortalezas y debilidades de los algoritmos mencionados en las referencias.

Un ejemplo de tal regla se menciona en la ref. [17], el 98% de los clientes quecompran neumáticos y accesorios de automóviles también necesitan servicio automotriz.

Patrones Frecuentes

Page 46: APLICACIONES DE REGLAS DE ASOCIACIÓN PARA …newton.azc.uam.mx/mcc/01_esp/11_tesis/tesis/term... · en la Web para obtener conocimiento. El Web mining (minería de datos de la Web)

37

Un patrón, es un conjunto o secuencia de items, que ocurren juntos en una basede datos, así esta definido en la ref. [9]. Un patrón es frecuente, si la frecuenciade ocurrencia del conjunto de items en la base de datos supera un valor mínimoesperado definido por el usuario.

La minería de patrones frecuentes es el fundamento de varias técnicas de mineríay por ésta razón es considerada la piedra angular de la minería de datos.

• Reglas de asociación.• Agrupamiento.• Clasificación, análisis de clasificación basado en asociación.• Análisis de patrones secuenciales.

Descripción del problema

La mayoría de los estudios realizados sobre minería de reglas de asociaciónadopta la lógica anti-monotónica de Apriori propuesta por la ref. [3]: si un patrón delongitud k no es frecuente ningún super-conjunto de longitud k+1 que contenga elpatrón será frecuente. Sin embargo, el aspecto crítico de Apriori es la generaciónde candidatos y su validación.

Para solucionar este problema, FP-growth propuesto por la ref. [3] proponela estructura de datos árbol (FP-tree), donde cada nodo almacena un item, sufrecuencia de ocurrencia en la base de datos, y el campo enlace al siguiente nodo.Para mejorar el proceso de recorrido a través del árbol se recurre a una tablaauxiliar denominada header, que almacena el item y la dirección del primer nodoque almacena el item en FP-tree.

En el presente trabajo se propone la utilización de matrices y vectores parasolucionar el problema de minar reglas de asociación, el cual se descompone demanera similar al propuesto por [3], en los siguientes pasos:

• Descubrir los patrones frecuentes.• Utilizar los patrones frecuentes descubiertos para generar las reglas de

asociación.

Es importante aclarar que el soporte se define en el presente trabajo, como unafrecuencia de ocurrencia absoluta. A pesar de que en algunas de las referenciasbibliográficas está definida como relativa, es decir, el cociente de la frecuencia deocurrencia del itemset candidato y el número total de transacciones de la base dedatos.

Matriz de itemsets frecuentes

Sea L = { I1 , I2 , …, Im } un conjunto de literales denominados items, D unconjunto de transacciones (D puede representar un archivo plano, una tabla

Page 47: APLICACIONES DE REGLAS DE ASOCIACIÓN PARA …newton.azc.uam.mx/mcc/01_esp/11_tesis/tesis/term... · en la Web para obtener conocimiento. El Web mining (minería de datos de la Web)

38

relacional o el resultado de una consulta), cada transacción T y x el soportemínimo predefinido.

La matriz de itemsets frecuentes (MIF) almacena el conjunto de itemsfrecuentes identificados en el primer recorrido del repositorio D, en laimplementación los items pueden ser representados a través de la filas o lascolumnas, de acuerdo a las características del compilador y las funcionalidadesque ofrezca para el redimensionamiento de la matriz MIF como ocurre con VisualBasic y la función redim. Sin embargo, para que la explicación sea sencilla, lositems frecuentes serán representados por las columnas de MIF.

Definición 1 La matriz de itemsets frecuentes es una estructura definida comosigue:

Las columnas representan los items frecuentes determinados en el primerrecorrido de D. Mientras que las filas (a excepción de la primera) representan a lositemsets candidatos. Adicionalmente, se utiliza el vector STE para almacenar elsoporte de los itemsets candidatos

• El elemento MIF [ i, j ] <> 0 si el item j pertenece al i-ésimo itemset candidato,caso contrario MIF [ i, j ] = 0.

• Si MIF[ i, j ] <>1 entonces almacena la fila de la siguiente ocurrencia del itemfrecuente j.

• El elemento ( i – 1 ) del vector STE, almacena el soporte o la frecuencia deocurrencia del itemset candidato de la fila i en MIF.

Es importante aclarar que la matriz MIF se construye en dos etapas, en laprimera se almacenan los itemsets candidatos y se llena el vector STE con susrespectivos soportes.

En la segunda etapa la matriz MIF será modificada con el fin de almacenar lasfilas en las que los items frecuentes ocurren, esto con el objetivo de descubrir lospatrones frecuentes.

5.3 ALGORITMO APRIORI-I

El algoritmo Apriori-I se descompone en tres prodedimientos: MIF_STE,Posiciones_MIF y Patrones_frecuentes. El primero construye la matriz MIF dondese almacenan los items frecuentes y los itemsets candidatos, además, se encargade llenar el vector STE que almacena el soporte de cada uno de los itemsetscandidatos. El segundo procedimiento, modifica la matriz MIF para almacenar lasfilas en las que los items frecuentes están presentes. Finalmente, el tercerprocedimiento se encarga de determinar los itemsets o patrones frecuentes.Apriori-I aplica el método de patrones crecientes, que consiste básicamente encombinar items frecuentes y determinar el soporte asociado a ésta combinación.

Page 48: APLICACIONES DE REGLAS DE ASOCIACIÓN PARA …newton.azc.uam.mx/mcc/01_esp/11_tesis/tesis/term... · en la Web para obtener conocimiento. El Web mining (minería de datos de la Web)

39

El proceso inicia con el item frecuente cuyo soporte es el más pequeño, a esteitem se denominará patrón condicional, como se verá más adelante el patróncondicional puede estar formado por uno o más items. En este punto se procede acombinar el patrón condicional con los items frecuentes que se encuentran a suizquierda, luego se calcula el soporte que corresponde a cada una de lascombinaciones, aquellas que satisfacen el soporte mínimo esperado se conviertenen itemsets o patrones frecuentes.

Definición 2 El patrón condicional de un k-itemset agrupa el conjunto detransacciones donde el k-itemset está presente.

Ejemplo. Sea la base de datos transaccional, D dada en la Tabla 5.1 y elsoporte mínimo esperado x = 6.

Identificador de latransacción

Items comprados

1001 c,d,e,g,h,i,k,p1002 b,e,f,g,h,i,p1003 c,e1004 a,b,c,d,e,f,g,i,p1005 a,b,c,d,e,p1006 a,b,c,d,f,h,p1007 b,e,f,h,i,p1008 a,c,d,e,k,p1009 a,c,d,e,f,i,p1010 a,c,d,e,f,h,i,p

Tabla 5.1: Conjunto de transacciones almacenadas en D

Procedimiento MIF_STE

Se procede a determinar el conjunto de items frecuentes IF y sus respectivossoportes.

Page 49: APLICACIONES DE REGLAS DE ASOCIACIÓN PARA …newton.azc.uam.mx/mcc/01_esp/11_tesis/tesis/term... · en la Web para obtener conocimiento. El Web mining (minería de datos de la Web)

40

Item Soporte Item frecuentes IF ( x >= 6)A 6 AB 5C 8 CD 7 DE 9 EF 6 FG 3H 5I 6 IK 2P 9 P

Tabla 5.2: Items frecuentes, IF

Se ordena IF de forma descendente según el soporte.IF={<e:9>,<p:9>,<c:8>,<d:7>,<a:6>,<f:6>,<i:6>}

El número de items frecuentes se almacena en NIF, en el ejemplo la cantidad deitems frecuentes es 7 este valor será almacenado en la variable NIF. Este paso sedetalla en la tabla 5.2.

Se realiza el segundo recorrido del repositorio de información D para construir lamatriz MIF y el vector STE, en la Tabla 5.3 se excluyen de las transacciones lositems no frecuentes y se ordenan los items frecuentes según IF.

Identificador de latransacción

Items frecuentes ordenadossegún IF

1001 e,p,c,d,i1002 e,p,f,i1003 e,c1004 e,p,c,d,a,f,i1005 e,p,c,d,a1006 p,c,d,a,f1007 e,p,f,i1008 e,p,c,d,a1009 e,p,c,d,a,f,i1010 e,p,c,d,a,f,i

Tabla 5.3: Items ordenados según IF

Page 50: APLICACIONES DE REGLAS DE ASOCIACIÓN PARA …newton.azc.uam.mx/mcc/01_esp/11_tesis/tesis/term... · en la Web para obtener conocimiento. El Web mining (minería de datos de la Web)

41

Los items frecuentes IF = { e, p, c, d, a, f, i } son representados en la matriz MIF dela siguiente manera, la primera columna representará al item frecuente e, lasegunda columna al item p, la tercera columna al item c y así sucesivamente.Para insertar la primera transacción del repositorio D (1001,<e,p,c,d,i>) en lamatriz MIF, se identifican las columnas que corresponden a los items frecuentesincluidos en la transacción, <e,p,c,d,i> ? <1,2,3,4,7>, ésta información se utilizapara determinar los elementos distintos de cero que serán insertados en lasegunda fila de la matriz, para este ejemplo se tiene [1,1,1,1,0,0,1].A la segunda transacción le corresponden las siguientes columnas <e,p,f,i> ?<1,2,6,7> y los elementos que probablemente serán insertados en la tercera fila dela matriz MIF quedan de la siguiente manera [1,1,0,0,0,1,1]. Pero, antes deinsertar la fila en la matriz MIF es necesario comparar las filas: [1,1,0,0,0,1,1] y[1,1,1,1,0,0,1], donde, la primera fila corresponde a la transacción en proceso y lasegunda corresponde a la única fila que actualmente tiene la matriz MIF, si soniguales se debe incrementar el soporte y almacenar el resultado en el vector STE,caso contrario se inserta como una nueva fila en la matriz, asignándole el soporteigual a 1 en el vector STE.

Concluido el recorrido del repositorio D, se observa en la Fig. 5.1 la matriz y elVector resultante.

MIF 1 2 3 4 5 6 7

1 STE2 1 1 1 1 0 0 1 1 13 1 1 0 0 0 1 1 2 24 1 0 1 0 0 0 0 3 15 1 1 1 1 1 1 1 4 36 1 1 1 1 1 0 0 5 27 0 1 1 1 1 1 0 6 1

e p c d a f i

Fig. 5.1: Matriz MIF y el vector STE

En la matriz MIF se observa, por ejemplo, que el cuarto itemset candidato(almacenado en la fila 5) tiene un soporte igual a 3, éste valor esta siendoalmacenado en el vector STE en la cuarta posición.

Page 51: APLICACIONES DE REGLAS DE ASOCIACIÓN PARA …newton.azc.uam.mx/mcc/01_esp/11_tesis/tesis/term... · en la Web para obtener conocimiento. El Web mining (minería de datos de la Web)

42

Procedimiento Posiciones_MIF

Concluida la ejecución del procedimiento MIF_STE se observa que la primera filade la matriz MIF queda vacía y es precisamente para que el procedimientoPosiciones_MIF la utilice para almacenar el número de fila donde el item frecuentej-ésimo aparece por primera vez.

Por ejemplo, el item frecuente f aparece por primera vez en la tercera fila entoncesel elemento MIF[ 1, 6 ] = 3. La siguiente fila en la que f está presente es la 5, éstevalor debe ser almacenado en MIF[ 3, 6 ]. La última fila que contiene a f es la 7,éste valor será almacenado en MIF[ 5, 6 ]. Finalmente, el elemento MIF[ 7, 6 ]debe almacenar el valor de 1 para indicar que no existen más filas que contienenal item f.

Se hace notar que no se toma aleatoriamente MIF[ 3, 6 ] ó MIF[ 5, 6 ] paraalmacenar los números de fila, es importante que cada fila en la que el item estápresente almacene el siguiente número de fila donde el item también estápresente. En la Fig. 5.2 se observa el resultado de aplicar Posiciones_MIF.

MIF 1 2 3 4 5 6 7

1 2 2 2 2 5 3 2 STE2 3 3 4 5 0 0 3 1 13 4 5 0 0 0 5 5 2 24 5 0 5 0 0 0 0 3 15 6 6 6 6 6 7 1 4 36 1 1 1 1 1 0 0 5 27 1 7 7 7 7 0 0 6 1

e p c d a f I

Fig. 5.2: Matriz MIF después de ejecutar el procedimiento Posiciones_MIF

Concluida la construcción de las estructuras MIF y STE se ejecuta un ciclo NIF - 1veces, a través de éste proceso se determinará el conjunto de patrones frecuentesasociado al repositorio de información D. Se hace notar que los items frecuentesidentificados a través del procedimiento MIF_STE (e, p, c, d, a, f, i), tambiénforman parte del conjunto de patrones frecuentes.El algoritmo Apriori-I aplica el método de patrones crecientes, que consistebásicamente en combinar items frecuentes y determinar el soporte asociado aésta combinación. El proceso inicia con el item i el cual se denominará patróncondicional, como se verá más adelante el patrón condicional puede estar formadopor uno o más items, el item i es combinado con los items frecuentes que seencuentran a su izquierda (f, a, d, c, p y e), luego se calcula el soporte que

Page 52: APLICACIONES DE REGLAS DE ASOCIACIÓN PARA …newton.azc.uam.mx/mcc/01_esp/11_tesis/tesis/term... · en la Web para obtener conocimiento. El Web mining (minería de datos de la Web)

43

corresponde a cada una de las combinaciones, obteniendo el resultado que semuestra en la Tabla 5.4.

Items combinados Soportef - i 5a - i 3d - i 4c - i 4p - i 6e - i 6

Tabla 5.4 : Soporte calculado del patrón condicional i.Se observa que la combinación <p,i> junto con <e,i> satisfacen el soporte mínimoesperado (x = 6) y se convierten en patrones frecuentes. Para la siguientebúsqueda se tiene:

Patrón condicional <p,i>, existe un único item que se encuentra a la izquierda dep, es el item e, luego se obtiene la siguiente combinación <e,p,i> cuyo soporte es6, en consecuencia, se convierte en un patrón frecuente.

Patrón condicional <e,i>, no existen items a la izquierda de e, por lo tanto no sepueden generar combinaciones.

Concluido el análisis sobre el item i, el proceso continúa con el patrón condicionalf, se efectúan las combinaciones con los items que se encuentran a la izquierdade f (a, d, c, p y e), en la Tabla 5.5 se muestra el soporte obtenido para cada unade las combinaciones.

Items combinados Soportea - f 4d - f 4c - f 4p - f 6e – f 5

Tabla 5.5: Soporte calculado del patrón condicional f.

Se identifica un nuevo patrón frecuente <p,f> y termina el análisis sobre el item f.El nuevo patrón condicional a ser analizado es a, cuyas combinaciones sepresentan en la Tabla 5.6.

Page 53: APLICACIONES DE REGLAS DE ASOCIACIÓN PARA …newton.azc.uam.mx/mcc/01_esp/11_tesis/tesis/term... · en la Web para obtener conocimiento. El Web mining (minería de datos de la Web)

44

Items combinados Soported - a 6c - a 6p - a 6e - a 5

Tabla 5.6: Soporte calculado del patrón condicional a.

Se identifican los siguientes patrones frecuentes: <d,a>, <c,a> y <p,a>, en lasiguiente búsqueda se convierten en patrones condicionales.

Patrón condicional <d,a>, en la Tabla 5.7 se muestran las combinaciones con lositems que se encuentran a la izquierda de d y sus correspondientes soportes.

Items combinados Soportec - d, a 6p - d, a 6e - d, a 5

Tabla 5.7: Soporte calculado del patrón condicional da

Se identifican los patrones frecuentes <c,d,a> y <p,d,a>, que a su vez generan lossiguientes patrones condicionales:

Patrón condicional <c,d,a>, en la Tabla 5.8 se puede verificar que el patróncondicional <c,d,a> genera el patrón frecuente <p,c,d,a>.

Items combinados Soportep - c, d 6e - c, d 5

Tabla 5.8: Soporte calculado del patrón condicional cda.

Patrón condicional <p,d,a>, la única combinación que se puede generar es<e,p,d,a> cuyo soporte es 5, la cual no es un patrón frecuente porque no satisfaceel soporte mínimo esperado.

Page 54: APLICACIONES DE REGLAS DE ASOCIACIÓN PARA …newton.azc.uam.mx/mcc/01_esp/11_tesis/tesis/term... · en la Web para obtener conocimiento. El Web mining (minería de datos de la Web)

45

Patrón condicional <c,a>, genera dos combinaciones <p,c,a> y <e,c,a> de lascuales <p,c,a> representa un patrón frecuente porque el soporte de éstacombinación es 6, mientras que el soporte de <e,c,a> es 5.

Patrón condicional <p,a>, genera la combinación <e,p,a> que no es un patrónfrecuente porque el soporte es 5.

El proceso continúa con el análisis del patrón condicional d, en la Tabla 5.9 seobservan los soportes calculados de cada una de las combinaciones válidas.

Items combinados Soportec - d 7p - d 7e - d 6

Tabla 5.9: Soporte calculado del patrón condicional d.

De acuerdo al resultado obtenido las tres combinaciones son patrones frecuentes,en el siguiente ciclo se convierten en patrones condicionales.

Patrón condicional <c,d>, genera dos combinaciones <p,c,d> y <e,c,d> cuyossoportes respectivamente son 7 y 6, por lo tanto, se convierten en patronesfrecuentes.

Patrón condicional <p,c,d>, genera el patrón frecuente <e,p,c,d> cuyo soporte es6. Patrón condicional <e,c,d>, no genera ninguna combinación.

Patrón condicional <p,d>, genera la combinación <e,p,d> cuyo soporte es 6, enconsecuencia se identifica un nuevo patrón frecuente.

Patrón condicional <e,d> no genera combinaciones.

De acuerdo a la lista de items frecuentes, el proceso continúa con el análisis delpatrón condicional c, que genera las combinaciones <p,c> y <e,c>, el soporteobtenido para ambas combinaciones es 7, por lo tanto, se determinan dos nuevospatrones frecuentes. Patrón condicional <p,c>, genera el patrón frecuente <e,p,c>cuyo soporte es 6. El patrón condicional <e,c> no genera combinaciones. Elproceso continúa con el patrón condicional p, que genera la combinación <e,p>cuyo soporte es 8, este valor satisface el soporte mínimo esperado, por lo tanto,<e,p> es un patrón frecuente. La minería de patrones frecuentes concluye, en laTabla 5.10 se presenta la lista de los patrones frecuentes encontrados a través delalgoritmo Apriori-I.

Page 55: APLICACIONES DE REGLAS DE ASOCIACIÓN PARA …newton.azc.uam.mx/mcc/01_esp/11_tesis/tesis/term... · en la Web para obtener conocimiento. El Web mining (minería de datos de la Web)

46

Resultados obtenidos de laejecución del algoritmo Apriori-I

Iteración oLlamadarecursiva

Patrones frecuentes encontradosLlamada recursiva a lafunción patrones frecuentes

j = 7'2,7'≡'p,i''1,7'≡'e,i'

Callpatrones_frecuentes(2,'2,7')

Patrones_frecuentes(2,'2,7')

'1,2,7'≡'e,p,i'

j = 6 '2,6'≡'p,f'

j = 5'4,5'≡'d,a''3,5'≡'c,a''2,5'≡'p,a'

Callpatrones_frecuentes(4,'4,5')Callpatrones_frecuentes(3,'3,5')

Patrones_frecuentes(4,'4,5')

'3,4,5'≡'c,d,a''2,4,5'≡'p,d,a'

Callpatrones_frecuentes(3,'3,4,5')

Patrones_frecuentes(3,'3,4,5')

'2,3,4,5'≡'p,c,d,a'

Patrones_frecuentes(3,'3,5')

'2,3,5'≡'p,c,a'

j = 4'3,4'≡'c,d''2,4'≡'p,d''1,4'≡'e,d'

Callpatrones_frecuentes(3,'3,4')Callpatrones_frecuentes(2,'2,4')

Patrones_frecuentes(3,'3,4')

'2,3,4'≡'p,c,d''1,3,4'≡'e,c,d'

Callpatrones_frecuentes(2,'2,3,4')

Patrones_frecuentes(2,'2,3,4')

'1,2,3,4'≡'e,p,c,d'

Patrones_frecuentes(2,'2,4')

'1,2,4'≡'e,p,d'

j = 3'2,3'≡'p,c''1,3'≡'e,c'

Callpatrones_frecuentes(2,'2,3')

Patrones_frecuentes(2,'2,3')

'1,2,3'≡'e,p,c'

j = 2 '1,2'≡'e,p'

Tabla 5.10: Paso a paso las operaciones principales del algoritmo Apriori-I

Rendimiento

El algoritmo propuesto comprime el repositorio de información en la matriz MIF y elvector STE, si bien se reduce la información del repositorio que será almacenadaen la matriz, esta contiene la información necesaria para minar el conjunto

Page 56: APLICACIONES DE REGLAS DE ASOCIACIÓN PARA …newton.azc.uam.mx/mcc/01_esp/11_tesis/tesis/term... · en la Web para obtener conocimiento. El Web mining (minería de datos de la Web)

47

completo de itemsets frecuentes, además, es evidente que la estructura MIF enningún momento será más grande que el repositorio original.Con respecto a los costos de acceso y lectura de datos, Apriori-I realizaexactamente dos recorridos sobre el repositorio de información, la primera paraidentificar los items frecuentes y la segunda para construir las estructuras MIF ySTE, de esta manera, evita el costo de realizar múltiples recorridos sobre elrepositorio.

La minería de patrones frecuentes se efectúa sobre MIF y STE:Para cada uno de los patrones condicionales identificados se realiza la unión delpatrón condicional con los items frecuentes que se encuentran a su izquierda, deesta manera el algoritmo reduce el espacio de búsqueda, para el conjuntoobtenido se calcula el soporte a través del recorrido no secuencial de la matrizMIF, esto es posible porque los elementos de cada una de las columnas de lamatriz MIF almacenan las posiciones en las que aparece el item frecuente que esrepresentado por la columna. Si el soporte calculado satisface el soporte mínimoesperado el conjunto de items es un patrón frecuente.

En lugar de la generación de candidatos Apriori-I aplica el método de patronescrecientes, superando de esta forma el aspecto crítico observado en el algoritmoApriori.

Finalmente, la gestión de las estructuras en las que el algoritmo propuestoalmacena el repositorio de información son definitivamente menos complejas quelas estructuras de datos dinámicas que utiliza FP-growth.

5.4 LA PORNOGRAFIA EN EL INTERNET

La pornografía en Internet: Una de las fuentes económicas mas prominentes, yque mueve más dinero que las mejores empresas multinacionales.

La idea de éste informe preliminar, es establecer las bases de las conexioneslocales relacionadas con la pornografía en general. Hecho ilegal y delicado ya queintervienen factores de cultura, creencias y moral de cada persona.

En méxico no hay legislación para el uso de Internet. Esto genera un efecto decrecimiento descontrolado y provocando que millones de personas tengan accesoa la pornografía.

Para esto se sugiere la atención de algunos términos:

Hay distintos niveles de pornografía y de “estilos”

- Tipo artístico. Play Boy, Mujeres y hombres desnudos

Page 57: APLICACIONES DE REGLAS DE ASOCIACIÓN PARA …newton.azc.uam.mx/mcc/01_esp/11_tesis/tesis/term... · en la Web para obtener conocimiento. El Web mining (minería de datos de la Web)

48

- Relaciones sexuales- Relaciones con Niños/ adolescentes ( entre 12 a 18)- Relaciones de sexo Oral- Relaciones sexo Anal- Relaciones de mas de dos Hombres o mujeres- Relaciones Gay- Relaciones Lesbianas- Juegos sexuales con instrumentos- Relaciones Hard sex (sexo duro): sadismo, perversión, mujeres embarazadas,niños, necrofilias, zoofilias)- Mujeres de la tercera edad.Estos términos serían, las clasificaciones a Grandes Rasgos de la tipología de laoferta y demanda sexual en Internet.

La mayoría de las páginas sexuales de Internet, son muy difíciles de localizar, yasea por la información o por la localización geográfica, ya que tienen muchosmirrors (espejos de una misma red), o sino redireccionadas, es decir, de unadirección de internet, automáticamte se busca otra. Están íntimamete ligadas a loshackers, ya que su principal arma se mantiene de esto, para evitar el rastreo,mucho sitios hackers, se esponsorizan con las páginas pornográficas.

Sobre el rastreo de la información:

El problema de rastrear una web, tiene mucho que ver con el direccionamiento, yademás del hecho que uno puede registrar una web en cualquier parte del mundo,y luego cargarla desde cualquier computadora casera.

Lo mismo, al revés, yo soy extranjero y registro una web en México, y la puedocargar en los servidores locales o en cualquier parte del mundo.

El otro problema son las paginas “free”, o páginas alojadas en servidores enforma Gratuitas, en el cual el registro se hace en forma libre, y puede tenercontenidos pornográficos o redireccionados; servidores gratis como xoom,angelfire, el sitio, Geocities, demasiado.com, etc. Muchos de estos proveedoresadvierten que estas paginas serán dadas de bajas si tiene contenidospornográficos, pero son tantas, que son de difícil detección.

Se han adjuntados a este informe, una serie de dominios: .com.mx, en el cualpueden haber direcciones falsas, o nombres falsos, a los efectos de establecer elcriterio de saber si son o no pornográficas.

Otros registros son a solicitud de los interesados y lo realizan las empresasproveedoras de Internet. Pero También están los que lo hacen por su cuenta y conla idea de vender servicios de tipo sexual.

Se notara que una pagina del tipo www.buscasexo.com.mx, habla de servicios deInternet, no especificando en realidad nada.

Page 58: APLICACIONES DE REGLAS DE ASOCIACIÓN PARA …newton.azc.uam.mx/mcc/01_esp/11_tesis/tesis/term... · en la Web para obtener conocimiento. El Web mining (minería de datos de la Web)

49

Sobre las paginas de Intenet:

Una vez que se realiza el registro se procede a cargar la información de tiposexual, en algún servidor. Pudiendo darse a conocer o no el nombre o contactoreal de la gente que mantiene el hosting (el lugar).

De nuestra experiencia se ha observado que se llega al servidor, que lo aloja, porejemplo, hay páginas nacionales que tienen contenidos extranjeros alojadas enEstados Unidos (donde la legislación es mas dura, o bien al menos existelegislación).

Cómo es el Negocio?

El usuario que se registra de manera local cobra los derechos o vende el dominio,como parte del negocio, a los que generan la web.

Patrocinar el sitio: se arma una Web y se publica banners ( cartelitos), en su Webcon la dirección de la pagina pornográfica. Es decir, la actividad comercial no tieneningún tipo de control.

Como se sabe si hay contenidos sexuales?

Es bastante difícil, En realidad un sitio pornográfico, no necesariamente le muestraen la entrada que hay sexo explícito, se habla siempre de mayores de 18 años,pero, quien sabe la edad?, además adentro se redirecciona a un sitio especial conun plus en la tarjeta de crédito al lugar de sexo duro. Pero a nivel portal o entradano se ve nada, salvo insinuaciones. Y esto es clave ya que las insinuaciones sonpor demás detonadores de curiosidad.

A continuación se muestra una tabla de los patrones de pornografía más comunesen paginas pornográficas, son alrededor de 300 y vienen acompañados con lassiguientes columnas:

Page 59: APLICACIONES DE REGLAS DE ASOCIACIÓN PARA …newton.azc.uam.mx/mcc/01_esp/11_tesis/tesis/term... · en la Web para obtener conocimiento. El Web mining (minería de datos de la Web)

50

PT WEB PORN TOTAL FWEB FPORN PWEB PPORN8m 5329 4676 10005 5351.4422 4272.7468 0.00057209 0.00045677akamai 359967 278441 638408 341469.618 272639.254 0.0365043 0.02914609angel 21623 18337 39960 21373.6763 17065.3635 0.00228492 0.00182435babe 65618 41206 106824 57137.6776 45620.3802 0.00610822 0.00487698backdoor 106 48 154 82.371 65.7674 8.8057E-06 7.0308E-06beach 1891 902 2793 1493.9109 1192.7818 0.0001597 0.00012751beast 13121 6319 19440 10398.0047 8302.0687 0.00111158 0.00088752bikini 7676 5094 12770 6830.3765 5453.5709 0.00073019 0.00058301bisexual 3141 1053 4194 2243.2732 1791.0945 0.00023981 0.00019147blow 2345 1304 3649 1951.7654 1558.3461 0.00020865 0.00016659boob 8544 6301 14845 7940.2459 6339.7228 0.00084884 0.00067774breast 2539 1787 4326 2313.877 1847.4665 0.00024736 0.0001975burst 4133 4133 8266 4421.2915 3530.0875 0.00047265 0.00037738

Tabla 5.11: Patrones de pornografía más comunes

PT : Patrón de pornografía.WEB: Frecuencia encontrada en el universo.PORN: Frecuencia encontrada en un subconjunto del universo.TOTAL: Suma de las columnas WEB y PORN.EWEB: Frecuencia esperada para la columna WEB.EPORN: Frecuencia esperada para la columna PORNPWEB: Probabilidad de que suceda el patrón dentro del universo.PPORN: Probabilidad de que suceda el patrón dentro del subconjunto.FACTOR: Es el cociente de la columna PORN y WEB.FPWEB: El producto del FACTOR y PWEB.FPPORN: El producto del FACTOR y PPORN.

En la tabla se muestra un análisis de frecuencias de los patrones, lo que sepretende es encontrar un “peso” a cada uno de los patrones y con ello conseguircaracterizar un URL pornográfico, para ello nos tendremos que valer de laestadística para conseguirlo.

Los patrones de esta lista fueron seleccionados de una lista de 450 patronesaproximadamente, cada uno de ellos fue buscado en un universo de 23.3 millonesde URL’s para poder conocer su frecuencia de aparición(esto nos da los valoresde la columna web), por otra parte se realizo el mismo barrido para crear unsubconjunto del universo el cual contiene URL’s muy susceptibles de serpornográficos, este subconjunto con 4.5 millones de URL’s fue examinado parapoder seleccionar los que son verdaderamente pornográficos de lo que no lo son,resultando un subconjunto de 3.3 millones de registros. Sobre este subconjunto sehace un segundo rastreo para poder obtener nuestra tercera columna de la tablaanterior.

Con estos datos obtenemos una tabla de contingencia y procedemos a calcular laprobabilidad de que ocurra dicho patrón tanto en el universo como en el

Page 60: APLICACIONES DE REGLAS DE ASOCIACIÓN PARA …newton.azc.uam.mx/mcc/01_esp/11_tesis/tesis/term... · en la Web para obtener conocimiento. El Web mining (minería de datos de la Web)

51

subconjunto. Con ello podremos hacer una primer aproximación para poder darlepeso a cada patrón.

La probabilidad total de encontrar pornografía en un url esta dada por la sumatoriade las probabilidades:

Donde:

pi es la probabilidad esperada del patrón en el subespacio, comparado con eluniverso.

El factor o peso esta dado por:

Donde:

frecsu es la frecuencia del patrón en el subespacio yfrecun es la frecuencia del patrón en el universo

Al realizar el rastreo de los patrones por medio del sistema experto en el campourl, se recobran el 95% de los registros, es decir 3.1 millones de registros.

Una vez que se tiene se tiene el repositorio pornográfico se procede a asociarlocon el repositorio del recurso humano, a continuación se muestra en la figura 5.3una asociación del campo estado civil con la pornografía:

∑ iifp

i

ii

frecun

frecsuf =

Page 61: APLICACIONES DE REGLAS DE ASOCIACIÓN PARA …newton.azc.uam.mx/mcc/01_esp/11_tesis/tesis/term... · en la Web para obtener conocimiento. El Web mining (minería de datos de la Web)

52

Figura 5.3 Asociación del campo estado civil.

La gráfica muestra que los casados son más susceptibles de ver pornografía, laregla muestra que tiene un support del 72%, es decir que una persona que escasada tiene 72% de probabilidad de ver pornografía.

Ahora bien la asociación del campo fecha que se ilustra en la figura 5.4 muestraque la pornografía también es consultada por el sexo femenino y aunque elporcentaje es bajo es significativo (12.7%).

Page 62: APLICACIONES DE REGLAS DE ASOCIACIÓN PARA …newton.azc.uam.mx/mcc/01_esp/11_tesis/tesis/term... · en la Web para obtener conocimiento. El Web mining (minería de datos de la Web)

53

Figura 5.4 Asociación del campo sexo.

Ahora se muestra el resultado obtenido para el campo fecha en la figura 5.5 en elcual se puede observar que la consulta de la pornografía alcanza su pico a las15:00 PM, que es la hora en la que se regresa de comer.

Figura 5.5 Asociación del fecha.

Page 63: APLICACIONES DE REGLAS DE ASOCIACIÓN PARA …newton.azc.uam.mx/mcc/01_esp/11_tesis/tesis/term... · en la Web para obtener conocimiento. El Web mining (minería de datos de la Web)

54

Dentro del mismo análisis del campo fecha se observa que las consultas en lapornografía es un fenómeno constante en el transcurso de los 55 días estudiados,ahora bien se muestra en la figura 5.6 donde se hace la asociación de cada díacon la pornografía.

Page 64: APLICACIONES DE REGLAS DE ASOCIACIÓN PARA …newton.azc.uam.mx/mcc/01_esp/11_tesis/tesis/term... · en la Web para obtener conocimiento. El Web mining (minería de datos de la Web)

55

Figura 5.6 Asociación del campo fecha por día.

Page 65: APLICACIONES DE REGLAS DE ASOCIACIÓN PARA …newton.azc.uam.mx/mcc/01_esp/11_tesis/tesis/term... · en la Web para obtener conocimiento. El Web mining (minería de datos de la Web)

56

Ahora se tiene la figura 5.7 que muestra la asociación de los día de la semana, ytambién se observa que no hay diferencia significativa entre cada día de lasemana, entre el lunes (1) y el domingo (7), la diferencia de porcentaje es mínima,esto comprueba que el fenómeno de las consultas es constante.

Figura 5.7 Asociación del campo fecha por días de la semana.

En la figura 5.8 tenemos la asociación del tabulador del empleado a la pornografía.

Page 66: APLICACIONES DE REGLAS DE ASOCIACIÓN PARA …newton.azc.uam.mx/mcc/01_esp/11_tesis/tesis/term... · en la Web para obtener conocimiento. El Web mining (minería de datos de la Web)

57

Figura 5.8 Asociación del campo tabulador.

Ahora aunque la asociación anterior es subjetiva ahora mostramos un nivel masde minado en la figura 5.9 mostramos la asociación tanto del tabulador como delpuesto.

Page 67: APLICACIONES DE REGLAS DE ASOCIACIÓN PARA …newton.azc.uam.mx/mcc/01_esp/11_tesis/tesis/term... · en la Web para obtener conocimiento. El Web mining (minería de datos de la Web)

58

Figura 5.9 Asociación de los campos tabulador y puesto.

Page 68: APLICACIONES DE REGLAS DE ASOCIACIÓN PARA …newton.azc.uam.mx/mcc/01_esp/11_tesis/tesis/term... · en la Web para obtener conocimiento. El Web mining (minería de datos de la Web)

59

Ahora bien, en la figura 5.10 tenemos un diagrama de pastel donde se muestra elporcentaje de accesos por cada edificio:

Figura 5.10 Asociación del campo edificio.

Page 69: APLICACIONES DE REGLAS DE ASOCIACIÓN PARA …newton.azc.uam.mx/mcc/01_esp/11_tesis/tesis/term... · en la Web para obtener conocimiento. El Web mining (minería de datos de la Web)

60

Ahora se muestra la asociación del campo contenido en la figura 5.11, donde semuestra que lo más consultado son las imágenes de tipo jpeg y gif además deltexto, por otra parte el audio y el vídeo tienen un porcentaje bajo en comparacióncon los mencionados anteriormente.

Figura 5.11 Asociación del campo contenido.

Page 70: APLICACIONES DE REGLAS DE ASOCIACIÓN PARA …newton.azc.uam.mx/mcc/01_esp/11_tesis/tesis/term... · en la Web para obtener conocimiento. El Web mining (minería de datos de la Web)

61

Ahora mostramos en la figura 5.12 el campo código que describe como fue tratadala petición de Internet:

Figura 5.12 Asociación del campo código.

Page 71: APLICACIONES DE REGLAS DE ASOCIACIÓN PARA …newton.azc.uam.mx/mcc/01_esp/11_tesis/tesis/term... · en la Web para obtener conocimiento. El Web mining (minería de datos de la Web)

62

En la gráfica anterior se muestra que el 45 por ciento de las peticiones que hacenson buscadas en el Internet directamente ya que no están dentro del servidor deproxy, este porcentaje son semejantes a los mostrados en la ref. [23].

Ahora mostramos la clasificación de empleados en la figura 5.13 y observamosque la regla indica que entre mas alto sea la clasificación se es más susceptible dever pornografía y además nos percatamos que dicha regla se rompe en la a partirde la clasificación F.

Figura 5.13 Asociación del campo tipo de empleado.

En la figura 5.14 se muestran todos los sitios pornográficos consultados, quetuvieron support mayor a 11000.

Page 72: APLICACIONES DE REGLAS DE ASOCIACIÓN PARA …newton.azc.uam.mx/mcc/01_esp/11_tesis/tesis/term... · en la Web para obtener conocimiento. El Web mining (minería de datos de la Web)

63

Figura 5.14 Sitios pornográficos con support mayor a 11000.

Page 73: APLICACIONES DE REGLAS DE ASOCIACIÓN PARA …newton.azc.uam.mx/mcc/01_esp/11_tesis/tesis/term... · en la Web para obtener conocimiento. El Web mining (minería de datos de la Web)

64

Las siguientes gráficas 5.15 y 5.16 son un ejemplo de que la muestra estasobrerrepresentada, ya que estamos usando para estas dos reglas una muestrapredispuesta, por lo que las inferencias que resultan de estas asociaciones no sonvalidas.

Figura 5.15 Asociación del campo estado.

Page 74: APLICACIONES DE REGLAS DE ASOCIACIÓN PARA …newton.azc.uam.mx/mcc/01_esp/11_tesis/tesis/term... · en la Web para obtener conocimiento. El Web mining (minería de datos de la Web)

65

Figura 5.16 Asociación del campo zona.

A continuación se muestra la tabla 5.12 de correlación entre los patronesencontrados durante la investigación y por causas de espacio solo se mostraronsolo una parte de la tabla:

Page 75: APLICACIONES DE REGLAS DE ASOCIACIÓN PARA …newton.azc.uam.mx/mcc/01_esp/11_tesis/tesis/term... · en la Web para obtener conocimiento. El Web mining (minería de datos de la Web)

66

PATRON1 PATRON 2 FRECUENCIAadult Babe 1204adult Bouncer 14026adult Core 1044adult Free 13791adult Hard 1044adult Hot 2637adult Movies 4936adult Photo 1305adult Pic 1577adult Porn 1653adult Sex 3143adult Video 1604adult Xxx 5358amateur asian 1977amateur beast 2332amateur black 1626amateur chic 1468amateur core 1428amateur ero 1292amateur forbidden 3228amateur free 4430amateur galler 1111amateur girl 17782amateur hard 1428amateur hot 1421amateur mate 95082amateur movies 2211amateur nude 1304amateur pic 3098amateur porn 1713amateur sex 5838amateur sweet 1164amateur teen 9266anal ass 2344anal hot 1196anal passion 1995anal pic 1567anal sex 5543anal slut 1377anal teen 1053anal tight 1377angel movies 2950animal passion 1473asian delight 1896asian ero 1286asian free 1672asian mate 1977asian nude 1216asian pleasure 1743

Page 76: APLICACIONES DE REGLAS DE ASOCIACIÓN PARA …newton.azc.uam.mx/mcc/01_esp/11_tesis/tesis/term... · en la Web para obtener conocimiento. El Web mining (minería de datos de la Web)

67

asian sex 1169asian xxx 1356awe raw 1835awe xxx 2112babe bony 1185babe core 1069babe ero 2918babe free 13256babe galler 1341babe hard 2115babe hot 3169babe necro 4126babe nude 1437babe sex 8088babe sin 1198babe xxx 2144beast mate 2338beast movies 2992beast teen 5561beast whore 1606beast xxx 1882bikini free 1245bikini wicked 1638bisexual girl 3033bisexual sex 3141black blonde 6489black bony 1182black cock 1846black fantas 1206black fart 4323black free 5234black interracial 3230black mate 1626black porn 1878black pussy 1260black racial 3230black sex 1435black teen 1118black xxx 1118blonde fart 4323blonde free 2998blonde interracial 2934blonde racial 2934blonde sex 1030bony ebony 10459bony fantas 2120bony free 1672bony porn 1072bony pussy 1311bony sex 1817

Page 77: APLICACIONES DE REGLAS DE ASOCIACIÓN PARA …newton.azc.uam.mx/mcc/01_esp/11_tesis/tesis/term... · en la Web para obtener conocimiento. El Web mining (minería de datos de la Web)

68

bony teen 1078boob facial 1194bouncer hot 1072bouncer video 1289breast lover 1600butt lick 1032cam ero 1693cam free 3158cam girl 2827cam mate 1018cam pic 1364cam porn 3192cam raw 137236cam sex 4063cam skirt 1114cam spy 3849cam voyeur 1938candy girl 1170celeb free 4217celeb heat 1144celeb hot 2172celeb naked 5434celeb nude 6639celeb pic 3621chic linda 1758chic mate 1468chic porn 2071chix movies 8487chix porn 8487cock sex 1510core ero 1988core free 7282core gay 4091core girl 1206core hard 55509core hot 1400core junky 2961core mate 1428Core movies 2527Core pic 4963Core porn 7418Core sex 11117Core teen 2913Core video 2811Core xxx 4187

Tabla 5.12 Tabla de correlación entre los patrones de pornografía.

Page 78: APLICACIONES DE REGLAS DE ASOCIACIÓN PARA …newton.azc.uam.mx/mcc/01_esp/11_tesis/tesis/term... · en la Web para obtener conocimiento. El Web mining (minería de datos de la Web)

69

6 LA PRIVACIDAD DE LOS DATOS

6.1 DATOS DE CLIENTES, PRIVACIDAD Y MINERIA DE DATOS

No importa cuál es la estructura interna de datos del cliente o cómo se obtienenlos datos de fuentes externas, lo importante es la privacidad del cliente. Laprivacidad es algo que está ahí, pero que adquiere relevancia a medida que elsistema se vuelve más poderoso y empieza a utilizar una metodología de mineríade datos cada vez más efectiva. La privacidad va ganando importancia en lasociedad actual, donde los comerciantes, las aseguradoras y los organismosgubernamentales disponen de grandes almacenes de datos personales. Lassuspicacias que la gente tiene acerca de la recolección de datos de estos datosse empiezan a extender, como era de esperar, hacia los tratamientos analíticos delos mismos. Los usuarios de hacen uso de herramientas de minería de datostienen que pensar sobre cómo los asuntos relacionados con la privacidad va aafectar esta tecnología.

Además de la privacidad, a medida que la minería de datos empieza a ganarimportancia en los asuntos empresariales, surgirán muchas cuestiones legalesque merecen la máxima atención. ¿Qué pasaría si un modelo destinado a decidira quién se le envía una oferta de crédito se basará en características como raza osexo? ¿Qué tipo de responsabilidad habría en estas circunstancias? El analistatiene que tener claro que tendrá que enfrentarse a estos asuntos si se utiliza laminería de datos para tomar decisiones de carácter delicado.

6.2 PRIVACIDAD Y MINERIA DE DATOS

En febrero de 1998 en los EE.UU., estalló un escándalo sobre la empresafarmacéutica CVS y su colaboración con Elensys, una empresa de marketingdirecto de Massachusetts que enviaba a los clientes de CVS avisos de que nohabían renovado sus prescripciones. Al ser criticada por lo que se consideró unaviolación de privacidad de registros médicos de sus clientes, CVS rescindió elcontrato con Elensys. Aunque la minería de datos no se mencionó públicamentedurante la controversia, se sabe que en los debates sobre la privacidad médicaque hubo al respecto en el Senado de los EE.UU. se habló de Elensys y el uso deminería de datos en actividades de marketing. Puede que no sea lejano el día enel que se impongan limitaciones legales sobre el uso de la tecnología de mineríade datos.

Y sólo es la punta del iceberg. Los EE.UU. tienen un enfoque mucho más relajadosobre la privacidad que el resto del mundo. En contra, la Unión Europea promulgóen octubre de 1998 una directiva muy restrictiva sobre la Protección de Datos que,

Page 79: APLICACIONES DE REGLAS DE ASOCIACIÓN PARA …newton.azc.uam.mx/mcc/01_esp/11_tesis/tesis/term... · en la Web para obtener conocimiento. El Web mining (minería de datos de la Web)

70

probablemente, sea el primer contratiempo de los muchos que afectarán latecnología de minería de datos.

Esta directiva europea, por ejemplo, prohibe la transferencia de datos personalesa los países que no disponen de suficientes leyes sobre la privacidad de datos.Además, posee muchos requisitos para las empresas que manejan datosprivados, incluyendo el derecho de una persona a acceder, restringir y eliminar lainformación personal que sobre la misma posee una empresa.

La industria estadounidense afirma que el control voluntario en vigor en losEE.UU. es suficiente. Los abogados especializados opinan que cualquier controldebe apoyarse en la legislación. Los recientes comentarios de los representantesdel gobierno estadounidense fueron críticos con el enfoque voluntario. Consideranimprescindible el consentimiento de consumidor informado: el cliente tiene queestar informado acerca del uso que se les va da a los datos sobre él recogidos y siserán o no revelados a terceros. Y recomiendan proporcionar a los clientes tresniveles de elección para cualquier dato recogido:

• No permitir la minería de datos de los datos de clientes.• Permitir la minería de datos sólo para el uso interno.• Permitir minería de datos tanto para el uso interno como externo.

Estas controversias entre la minería de datos y la privacidad sólo son el comienzo.En los próximos años aumentará el control sobre la minería de datos en relacióncon su impacto en la privacidad. La enorme cantidad de datos que se recogesobre los individuos, unida a las poderosas nuevas tecnologías en minería dedatos, despertaran muchas suspicacias por parte de clientes que, seguramente,empezarán a emprender acciones legales contra el uso indebido de estatecnología de.

6.3 DIRECTRICES PARA LA PRIVACIDAD

En cualquier caso, existen algunas pautas generales para la construcción delsistema de minero que, aunque no infalibles, ayudarán a reducir problemasfuturos. Por supuesto, estas directrices se basan en la experiencia dentro delmarco de leyes y límites tecnológicos habituales. Como se puede ver en elejemplo de Elensys, incluso si las leyes no están claras y se toman precauciones,una empresa puede tener verdaderos problemas si sus clientes tienen laimpresión de que la política de la privacidad de la empresa no es la adecuada.

Page 80: APLICACIONES DE REGLAS DE ASOCIACIÓN PARA …newton.azc.uam.mx/mcc/01_esp/11_tesis/tesis/term... · en la Web para obtener conocimiento. El Web mining (minería de datos de la Web)

71

6.4 INFORMACIÓN ANÓNIMA Y NO ANÓNIMA

En general, hay que distinguir entre la información que contiene la identidad delcliente y la que no la contiene. Un ejemplo obvio puede ser el nombre completo ylos ingresos. Pero incluso el segundo apellido o los apellidos junto con la direcciónpodrían ser suficientes para identificar al individuo. Hay que intentar, siempre quesea posible, que el sistema de minería de datos trabaje con datos anónimos yresumir el concepto del cliente como individuo en un único identificador codificado.Por ejemplo, un número de diez dígitos que sólo el analista puede traducir en elnombre y dirección de un cliente individual.

No es difícil generar un identificador anónimo. Sólo tiene que ser único y, con finespromocionales, hay que tener una tabla donde se guarde el identificador junto conel nombre y la dirección del individuo. Por supuesto, el identificador no puede seruna simple permutación del Número de Identificación Fiscal. Debería asignarse alazar y ser completamente independiente de cualquier información descriptiva,promocional o transaccional disponibles sobre el cliente.

6.5 DATOS DETALLADOS Y DATOS AGREGADOS

Aun si los datos sobre el cliente están anonimizados, pero todavía son detallados(individuales), hay riesgo que alguien pueda ser identificado. Por ejemplo, si sesabe el código postal, la edad y el modelo del coche de una persona, se puedeaveriguar quién es esta persona.

Una de las maneras de asegurar un mayor nivel de privacidad para los clientes estrabajar sólo con datos agregados. Por ejemplo, se puede tratar de realizar lasacciones de marketing basándose sólo en la edad y el sexo de los clientes.Suponiendo que la base de datos tiene un millón de clientes y agrupándolos en240 grupos distintos (unas 120 edades y 2 sexos), se tiene de promedio algo másde 4.000 clientes por grupo. El fichero resultante de esta segmentación es todavíaútil para realizar minería de datos, mediciones de marketing y determinaciones delpúblico objetivo, pero un individuo y su información están (casi) protegidos.

Aun así, hay que tener cuidado al utilizar los datos agregados porque algunosgrupos resultantes del proceso pueden contener unos pocos clientes o incluso aun solo cliente. Por ejemplo, el segmento de edad de 120 años puede, si es quecontiene a alguien, contener a un solo cliente. Por lo tanto, algunos clientes nopueden preservar su anonimato, incluso siendo uno entre un millón, si son muyviejos. La mejor forma de prevenir estos problemas es realizar una inspecciónmanual de los tamaños de los segmentos y fusionar los segmentos poco poblados

Page 81: APLICACIONES DE REGLAS DE ASOCIACIÓN PARA …newton.azc.uam.mx/mcc/01_esp/11_tesis/tesis/term... · en la Web para obtener conocimiento. El Web mining (minería de datos de la Web)

72

entre sí. Esto también es importante para los sistemas OLAP, que utilizan datosagregados y, además, disponen de herramientas para poder desmenuzar losgrupos resultantes según gran variedad de características.

6.6 INFORMACIÓN PARA OBJETIVO O PARA MEDICIÓN

Otro momento importante es determinar qué uso se les va a dar a los datos delcliente: se utilizarán para determinar el público objetivo o sólo para medir. Losclientes se preocupan menos si creen que la empresa utiliza la informaciónrecogida para conocer lo que hacen y medir sus respuestas a una promoción quecuando creen que la empresa utiliza la información para emprender accionesagresivas de marketing.

Puede ser inquietante recibir por correo promociones con ocasión deacontecimientos de la vida personal (el nacimiento del niño) o informaciónpersonal (una nueva medicina que trata una enfermedad específica del cliente).

En realidad, todas las mediciones se realizan con el fin de determinar el públicoobjetivo, pues la única razón para realizarlas es la de modificar las accionesbasándose en lo aprendido. Se puede decir que la diferencia entre medir ydeterminar el objetivo no está muy clara. Aun así, desde el punto de vista práctico,medir es siempre una estrategia más segura.

6.7 FUENTES COMBINADAS

Una cuestión más que afecta a la privacidad del cliente es la utilización dedistintas fuentes de datos. Esta cuestión es relativamente reciente, porquehabitualmente era bastante complicado recoger datos sobre un cliente fuera de lasestructuras de la empresa. Actualmente, gracias a los avances de las tecnologíasde información (ordenadores, bases de datos, etc), es mucho más fácil combinardatos procedentes de diferentes fuentes y formar una visión más completa delcliente. Suele ser información sobre el comportamiento y preferencias de uncliente referente a mercados y productos que no son propios de la empresa (porejemplo, la compra de la base de datos de una revista).

6.8 ASUNTOS LEGALES ASOCIADOS CON MINERIA DE DATOS

Cada decisión que toma una empresa implica repercusiones legales: a quién darel crédito, qué transacciones pueden ser fraudulentas, qué clientes merecenrecibir una oferta hipotecaria especial, son asuntos delicados. Si la decisión

Page 82: APLICACIONES DE REGLAS DE ASOCIACIÓN PARA …newton.azc.uam.mx/mcc/01_esp/11_tesis/tesis/term... · en la Web para obtener conocimiento. El Web mining (minería de datos de la Web)

73

incorpora una característica que no está permitida por la ley pueden surgirproblemas. En los EE.UU. durante los últimos diez años algunas empresas deservicios financieros fueron multadas a causa de una aplicación impropia de lastécnicas para marketing de tarjetas de crédito y otros tipos de préstamos. Unejemplo típico de las prácticas ilegales sería la exclusión de la gente que vive enun barrio determinado de una ciudad de las promociones de créditos u otrosservicios financieros. Estas exclusiones ocurrían a menudo a causa de carácterracial de los vecinos excluidos. Ahora, cuando los procesos de selección serealizan automáticamente mediante minería de datos, hay que asegurarse de quelos patrones descubiertos por la minería de datos no contengan las exclusionesprohibidas.

En minería de datos, las decisiones se ocultan detrás de funciones matemáticas ycriterios de selección complicados. Los algoritmos estadísticos y de aprendizajeincrustados en la herramienta de minería de datos no distinguen entre variablesconflictivas (raza, sexo, edad, etc.) y cualquier otra característica a la hora detomar una decisión. Para estos algoritmos un campo de datos es un campo dedatos y, realmente, poco importa qué esta detrás de un número. Por ello, esimportante asegurarse de que las variables “incorrectas” no participan en elmodelo.

Un problema más surge debido a que la minería de datos permite un desarrollomuy rápido de modelos predictivos, basándose en el análisis de grandescantidades de datos, habitualmente, todos los datos que se encuentran en un datawarehouse (almacén de datos). Esto supone menos tiempo para revisiones de losdatos a analizar, es decir, menos tiempo para la participación humana en elproceso.

También hay que tener en cuenta las variables que contienen informacióncodificada sobre otras variables como, por ejemplo, la variable “soltero” que llevaimplícita la información sobre el sexo.

La clave para reducir los problemas es revisar directamente los datos antes dehacer cualquier análisis mediante la minería de datos. Cualquier partecuestionable de los datos debería evaluarse para determinar si su inclusión en elmodelo es legal y/o deseable. Incluso si un tipo determinado de datos no estáprohibido, el hecho de poder usar esta variable no necesariamente implica quesea aconsejable usarla. En la sociedad actual puede ser mejor pecar de prudente.

Por supuesto, sería aconsejable realizar un análisis post-mining para determinar sialguno de los patrones encontrados por el algoritmo de minería de datos afectadesproporcionadamente a alguna clase protegida. Un perfilado estadísticorelativamente simple de cada clase protegida permitiría evaluar si el modelopredictivo ha excluido algún grupo (protegido). En EE.UU., las empresas deservicios financieros que prestan créditos personales están obligadas a evaluarcada etapa de decisión de sus campañas de marketing para determinar si

Page 83: APLICACIONES DE REGLAS DE ASOCIACIÓN PARA …newton.azc.uam.mx/mcc/01_esp/11_tesis/tesis/term... · en la Web para obtener conocimiento. El Web mining (minería de datos de la Web)

74

contiene alguna discriminación implícita. Lógicamente, esto ha incrementadosignificativamente la complejidad de los esfuerzos de marketing.

Finalmente, un abogado legal competente debería revisar cualquier duda sobre eluso de datos cuestionables en un modelo predictivo.

Las Técnicas Estadísticas proporcionan un análisis descriptivo, inferencial ymultivariante de los datos, mientras que Data Mining profundiza más, buscandopatrones ocultos que se escapan a técnicas tradicionales.

Es necesario y se tiene que mencionar que no pretendemos ser una autoridadmoral sobre lo que es bueno y malo en la pornografía, pero si queremosasegurarnos (por medio de la Minería de Datos) que algunos de los sitios opágina visitados por los empleados tienen patrones que son característicos de lapornografía en la Web, como se explica anteriormente la búsqueda de sitios deesta índole es fundamentalmente practica y debido a que existen grandesposibilidades de encontrar un mejor algoritmo con gran cantidad de característicaso atributos que otro tipo de sitios no lo permiten fácilmente. Así mismo como sudefinición conceptual será tomada de la literatura experta en el tema.

Page 84: APLICACIONES DE REGLAS DE ASOCIACIÓN PARA …newton.azc.uam.mx/mcc/01_esp/11_tesis/tesis/term... · en la Web para obtener conocimiento. El Web mining (minería de datos de la Web)

75

CONCLUSIONES

La mejora obtenida en el algoritmo propuesto Apriori-I para minar reglas deasociación está relacionada con el descubrimiento del conjunto completo depatrones frecuentes que es el fundamento de otras técnicas de minería, porejemplo:

• Agrupamiento .

• Clasificación, Análisis de clasificación basado en asociación.

• Análisis de patrones secuenciales.

• En consecuencia, el presente trabajo no se limita a la minería de reglas deasociación, de manera general se extiende a todas aquellas técnicas deminería cuyo fundamento este basado en la minería de patrones frecuentes.

• El algoritmo Apriori-I realiza exactamente dos recorridos sobre el repositorio D,reduce el espacio de búsqueda almacenando la información relevante de formacomprimida en las estructuras MIF y STE. Se mejora la eficiencia de minarpatrones frecuentes a través de:

Toda la información necesaria para minar los patrones frecuentes seencuentran en MIF (matriz de items frecuentes) y STE (vector que almacena elsoporte), no requiere almacenar la información en estructuras complejas como sonla lista enlazada, el árbol y como ocurre en los métodos basados en instancias.

Se limita a la validación de los candidatos aplicando la búsqueda de patronesfrecuentes, de ésta manera, se evita la generación del conjunto de itemsetscandidatos, que se considera el cuello de botella del algoritmo Apriori.

Considerando las características mencionadas del algoritmo Apriori-I, seconcluye, que el algoritmo propuesto posee una eficiencia para buscar y obtener(minar) reglas de asociación porque no genera un número exponencial de itemsetscandidatos como ocurre en Apriori, tampoco utiliza la estructura que básicamentees un árbol cuyo recorrido merma el rendimiento de la asociatividad.

Page 85: APLICACIONES DE REGLAS DE ASOCIACIÓN PARA …newton.azc.uam.mx/mcc/01_esp/11_tesis/tesis/term... · en la Web para obtener conocimiento. El Web mining (minería de datos de la Web)

76

REFERENCIAS

[1] FAYYAD, PIATETSKY-SHAPIRO, P.SMYTH. FROM DATA MINING TO KNOWLEDGE DISCOVERY: ANOVERVIEW, ADVANCES IN KNOWLEDGE DISCOVERY AND DATA MINING. PAGS 1-34. MIT PRESS1996.

[2] FERNANDO BERZAL, JUAN CARLOS CUBERO. TBAR: AN EFFICIENT METHOD FOR ASSOCIATIONRULE MINING IN RELATIONAL DATABASE. ELSEVIER DATA AND KNOWLEDGE ENGINEERING. PAGS47-64. ARTICULO 37 DEL 2001.

[3] MOHAMMED J. ZAKI. SCALABLE ALGORITHMS FOR ASSOCIATION MINING. IEEE TRANSACTIONSON KNOWLEDGE ANDA DATA ENGINEERING VOL 12. No 3 PAGS 372-390. MAYO/JUNIO 2000.

[4] MING-SYAN CHEN, JIAWEI HAN. DATA MINING: AN OVERVIEW FROM A DATABASE PRESPECTIVE.IEEE TRANSACTIONS ON KNOWLEDGE ANDA DATA ENGINEERING VOL 8 No 6 PAGS 866-881.DICIEMBRE 1996.

[5] HONGJUN LU, HUAN LIU. EFFECTIVE DATA MINING USING NEURAL NETWORKS. IEEETRANSACTIONS ON KNOWLEDGE AND DATA ENGINEERING VOL 8. PAGS 957-961. No 6 DICIEMBRE1996.

[6] JAIDEEP SRIVASTAVA, PING YAO CHEN. WAREHOUSE CREATION—A POTENTIAL ROADBLOCK TODATA WAREHOUSING. IEEE TRANSACTIONS ON KNOWLEDGE ANDA DATA ENGINEERING VOL 11.PAGS 118-126. No 1 ENERO-FEBRERO 1999.

[7] DIMITRI THEODORATOS, TIMOS SELLIS. DESIGNING DATA WAREHOUSES. ELSEVIER DATA ANDKNOWLEDGE ENGINEERING. PAGS 279-301. ARTICULO 31 DE 1999.

[8] JIAWEI HAN, SHOJIRO NISHIO, HIROYUKI KAWANO. GENERALIZATION-BASED DATA MINING INOBJECT-ORIENTED DATABASES USING AN OBJECT CUBE MODEL. ELSEVIER DATA ANDKNOWLEDGE ENGINEERING. PAGS 55-97. ARTICULO 25 DE 1998.

[9] JIAWEI HAN, YONGJIAN FU. MINING MULTIPLE LEVEL ASSOCIATION RULES IN LARGEDATABASES. IEEE TRANSACTIONS ON KNOWLEDGE ANDA DATA ENGINEERING VOL 11. PAGS 798-805. No 5 SEPTIEMBRE/OCTUBRE 1999.

[10] C.I EZEIFE. SELECTTING AND MATERIALIZING HORIZONTALLY PARTITIONED WAREHOUSEVIEWS. ELSEVIER DATA AND KNOWLEDGE ENGINEERING. PAGS 185-210. ARTICULO 36 DEL 2001.

[11] MAURICE HOUTSMA, ARUN SWAMI. SET-ORIENTED DATA MINING IN RELATIONAL DATABASE.ELSEVIER DATA AND KNOWLEDGE ENGINEERING. PAGS 245-262. ARTICULO 17 DE 1995.

[12] ENDRE BOROS, PETER L. HAMMER. AN IMPLEMENTATION OF LOGICAL ANALYSIS OF DATA. IEEETRANSACTIONS ON KNOWLEDGE ANDA DATA ENGINEERING VOL 12. PAGS 292-306. No 2 MARZO-ABRIL 2000.

[13] SARABJOT S. ANAND, DAVID A. BELL. EDM: A GENERAL FRAMEWORK FOR DATA MINING BASEDON EVIDENCE THEORY. ELSEVIER DATA AND KNOWLEDGE ENGINEERING. PAGS 189-223. ARTICULO18 DE 1996.

[14] PAOLO FRASCONI, MARCO GORI. DATA CATEGORIZATION USING DECISION TRELLISES. IEEETRANSACTIONS ON KNOWLEDGE ANDA DATA ENGINEERING VOL 11. PAGS 697-712. No 5SEPTIEMBRE/OCTUBRE 1999.

[15] LIMIN FU. KNOWLEDGE DISCOVERY BY INDUCTIVE NEURAL NETWORKS. IEEE TRANSACTIONSON KNOWLEDGE ANDA DATA ENGINEERING VOL 11. PAGS 992-998. No 6 NOVIEMBRE/DICIEMBRE1999.

Page 86: APLICACIONES DE REGLAS DE ASOCIACIÓN PARA …newton.azc.uam.mx/mcc/01_esp/11_tesis/tesis/term... · en la Web para obtener conocimiento. El Web mining (minería de datos de la Web)

77

[16] JONG SOO PARK, MING-SYAN CHEN. USING A HASH-BASED METHOD WITH TRANSACTIONTRIMMING FOR MINING ASSOCIATION RULES. IEEE TRANSACTIONS ON KNOWLEDGE ANDA DATAENGINEERING VOL 9. PAGS 813-825. No 5 SEPTIEMBRE/OCTUBRE 1997.

[17] CHARU C. AGGARWAL, PHILIP S. YU. A NEW APPROACH TO ONLINE GENERATION OFASSOCIATION RULES. IEEE TRANSACTIONS ON KNOWLEDGE ANDA DATA ENGINEERING VOL 13.PAGS 527-539. No 4 JULIO/AGOSTO 2001.

[18] F. BONCHI, F. GIANNOTTI, C. GOZZI. WEB LOG DATA WAREHOUSING AND MINING FORINTELLIGENT WEB CACHING. ELSEVIER DATA AND KNOWLEDGE ENGINEERING. PAGS 165-189.ARTICULO 39 DE 2001.

[19] YONGQIAO XIAO, MARGARET H. DUNHAM. EFFICIENT MINING OF TRANSVERSAL PATTERNS.ELSEVIER DATA AND KNOWLEDGE ENGINEERING. PAGS 191-214. ARTICULO 39 DE 2001.

[20] OSMAR R. ZAIANE. BUILDING VIRTUAL WEB VIEWS. ELSEVIER DATA AND KNOWLEDGEENGINEERING. PAGS 143-163. ARTICULO 39 DE 2001.

[21] ALEXANDROS NANOPOULOS, YANNIS MANOLOPOULOS. MINING PATTERNS FROM GRAPHTRAVERSALS. ELSEVIER DATA AND KNOWLEDGE ENGINEERING. PAGS 243-266. ARTICULO 37 DE2001.

[22] M.F. ARLITT AND C.J. WILLIAMSOM, INTERNET WEB SERVERS: WORKLOAD CHARACTERIZATIONANDA PERFORMANCE IMPLICATIONS, IEEE/ACM TRANSACTIONS ON NETWORKING 5 PAGS 631-645.1997.

[23] P. BARFORD, A. BESTAVROS, A. BRADLEY AND M.E. CROVELLA, CHANGES IN WEB CLIENTACCESS PATTERNS: CHARACTERISTICS AND CACHING IMPLICATION, WORLD WIDE WEB 2 PAGS 15-28. 1999.

[24] L. BRESLAU, P. CAO, L. FAN, G. PHILLIPS, AND S. SHENKER, WEB CACHING AND ZIPF-LIKEDSITRIBUTIOS: EVIDENCE AND IMPLICATIONS, IN: PROC. OF THE INFOCOM 99 CONFERENCE. PAGS163-174. 1999.

[25] B.M. DUSKA, D. MARWOOD, M.J. FELLEY, THE MEASURED ACCESS CHARACTERISTICS OFWORLD-WIDE-WEB CLIENT PROXY CACHES, IN: PROC. OF THE USENIX SYMPOSIUM ON INTERNETTECHNOLOGIES AND SYSTEMS (1997).

[26] S. JIN AND A.BESTAVROS, TEMPORAL LOCALITY IN WEB REQUEST STREAMS: SOURCES,CHARACTERISTICS AND CAHING IMPLICATIONS (POSTER), IN: IN PROC. OF THE SIGMETRICS 2000CONFERENCE. PGAS 110-111. 2000.

Page 87: APLICACIONES DE REGLAS DE ASOCIACIÓN PARA …newton.azc.uam.mx/mcc/01_esp/11_tesis/tesis/term... · en la Web para obtener conocimiento. El Web mining (minería de datos de la Web)

78

ANEXO A

A1 Campos de la bitácora del servidor proxy.

Fecha: Es la fecha y hora en la cual se realizo la transacción de petición deInternet. El formato esta el estándar de UNIX con una resolución en milisegundosy la cual tendrá que ser transformado a otro formato para su transportación a albase de datos.

Tiempo: Es el tiempo en milisegundos el cual el socket se abre y cierra durante latransacción.

Dirección del cliente: Es la dirección Ip (protocol Internet) con el cual el cliente seidentifica.

Código: Describe como fue tratada la petición de Internet.

Los valores que puede tomar esta columna son los siguientes:

TCP_HITUna copia válida del objeto pedido estaba en el cache.

TCP_MISSEl objeto pedido no estaba en el cache.

TCP_REFRESH_HITEl objeto estaba en él cache, pero envejeció. Una requisición Si-modificar-desdefue hecha y un “304 no Modificaron” es recibida.

TCP_REF_FAIL_HITEl objeto estaba en él cache, pero envejeció. La demanda para validar el objetofallo, se entrega el envejecido.

TCP_REFRESH_MISSEl objeto estaba en él cache, pero envejeció. Una requisición Si-modificar-desdefue hecha y la contestación contuvo el nuevo contenido.TCP_CLIENT_REFRESHEl cliente emitió una requisición en la cual se refresca el cache del cliente con lainformación del cache.

TCP_CLIENT_REFRESH_MISSEl cliente emitió un mensaje de no esta en él cache. Así, él cache tiene que reenviar el objeto del servidor de origen. Esto es usuarios que obligan al apoderadoa verificar si ya hay una nueva copia. Para abreviar, el navegador le obligó alproxy a que verifique si existe una nueva versión.

TCP_IMS_HIT

Page 88: APLICACIONES DE REGLAS DE ASOCIACIÓN PARA …newton.azc.uam.mx/mcc/01_esp/11_tesis/tesis/term... · en la Web para obtener conocimiento. El Web mining (minería de datos de la Web)

79

El cliente emitió un requisición Si-modificar-desde y el objeto estaba en él cache ytodavía se mantenía fresco. TCP_HIT y TCP_IMS_HIT son los HITS, la únicadiferencia en el caso de TCP_IMS_HIT el navegador ha tenido que actualizar laversión así que no hubo ninguna necesidad de enviar la copia del cache al cliente.

TCP_IMS_MISSEl cliente emitió una requisición Si-modificar-desde para un objeto que envejeció.

TCP_SWAPFAILSe creía que el objeto estaba en el cache, pero no podía ser accesado.

TCP_DENIEDSe negó el acceso a esta requisición.

“UDP_” se refiere a las demandas en el puerto de ICP

UDP_HITUna copia válida del objeto estaba en el cache.

UDP_HIT_OBJIgual que UDP_HIT, pero el objeto es demasiado pequeño para ser enviado en larespuesta UDP. Guarda la petición de TCP siguiente.

UDP_MISSEl objeto pedido no estaba en el cache.

UDP_DENIEDSe negó el acceso a esta requisición.

UDP_INVALIDUna demanda no válida fue recibida.

UDP_RELOADINGLa demanda de ICP fue negada porque el cache estaba ocupado cargando sumetadata.Bytes: El número de bytes escritos al cliente.

Método: El método de requisición HTTP o ICP_QUERY para requisiciones ICP.

Url: El url requerido.

Id: El campo tiene el nombre de usuario el cual realizo la solicitud. Para nuestrocaso esta vacío.

Lugar: Da una descripción de donde fue traida la pagina.

Contenido: Tipo de contenido, por ejemplo HTML, vídeo, sonido, etc.

Page 89: APLICACIONES DE REGLAS DE ASOCIACIÓN PARA …newton.azc.uam.mx/mcc/01_esp/11_tesis/tesis/term... · en la Web para obtener conocimiento. El Web mining (minería de datos de la Web)

80

A2 Script que procesa el archivo access.log

1. sh pp.awk2. sh ppp.awk3. sed "s/http\:\/\//http\:/g" tmp00.txt > tmp000.txt4. sh pppp.awk5. sed "s/,//g" tmp0000.txt> tmp2.txt6. sed "s/ - /,,/g" tmp2.txt> tmp3.txt7. sed "s/ -/,/g" tmp3.txt> tmp4.txt8. sed "s/ /,/g" tmp4.txt> tmp5.txt9. cat tmp5.txt | perl -nwe 's/^(\d+)/localtime ($1)/e; print ' > tmp6.txt10. sed "s/http\:/http\:\/\//g" tmp6.txt > tmp7.txt11. cp carga.ctl final1.ctl12. cat tmp7.txt >>final1.ctl13. ORACLE_SID=saf; export ORACLE_SID14. ORACLE_HOME=/usr1/oracle/app/oracle/product/8.1.5; export

ORACLE_HOME15. /usr1/oracle/app/oracle/product/8.1.5/bin/sqlldr jmejia/lolitas00

control=/usr16/tp/dm/final1.ctl

La primera línea es un script que lleva por contenido el siguiente código:

awk '{print $1,$2,$3,$4,$5,$6,substr($7,1,50),$8,$9,$10}' access.log > tmp0.txt

Este script corta la cadena del url a 50 caracteres de longitud. Ya que de formaeliminamos ruido de los datos, entendiendo por ruido todos los caracteresposteriores a la primer diagonal. La segunda línea es otro script de awk que llevael siguiente código:

awk '{print substr($1,1,10),$2,$3,$4,$5,$6,$7,$8,$9,$10}' tmp0.txt> tmp00.txt

Este código tiene la finalidad de obtener los primeros diez dígitos del primercampo el cual contiene el tiempo en segundos a partir del primero de febrero de1970.

La cuarta línea nos ayuda a extraer la raíz del url:

awk '{z = split($7, array, "/")for (i = 1; i <= 1; ++i) print $1,$2,$3,$4,$5,$6,array[i],$8,$9,$10 }' tmp000.txt > tmp0000.txt

Page 90: APLICACIONES DE REGLAS DE ASOCIACIÓN PARA …newton.azc.uam.mx/mcc/01_esp/11_tesis/tesis/term... · en la Web para obtener conocimiento. El Web mining (minería de datos de la Web)

81

La línea 9 es muy importante en el procesado de la información ya que es unscript de perl que nos ayuda a convertir el primer campo a un formato de fechaestándar de UNIX y que a continuación se muestra:

Mon May 6 16:28:27 CDT 2002

Las líneas 3,5,6,7,8 nos ayudan a quitar caracteres indeseados en el archivo, lalínea 11 a la 15 sirven para proporcionar las variables de ambiente al usuario ypoder realizar la carga a la base de datos.

A3 Script que procesa la bitacora de correo.

sed "s/@.*,/,/" plano.txt >plano2.txt

A4 Script que carga la bitacora de correo dentro de la base de datos.

load datainfile 'plano2.txt'appendinto table mailfields terminated by ',' optionally enclosed by '"'trailing nullcols(correo,clave,ip)begindata

A5 Script que procesa el archivo sendmail.log

grep -v 'sendmail' sendmail.log > tmp0.loggrep -v 'pop3 service init' tmp0.log > tmp1.loggrep -v 'Logout user' tmp1.log > tmp2.logsed "s/.*user/user/" tmp2.log > tmp3.logsed "s/host=.*\[/\[/" tmp3.log > tmp4.loggrep -v 'ipop3d' tmp4.log > tmp5.loggrep -v 'user=???' tmp5.log > tmp6.loggrep -v 'imapd' tmp6.log > tmp7.logsed "s/ nmsgs=.*//" tmp7.log > tmp8.logsed "s/user=//" tmp8.log > tmp9.logsed "s/ \[/,/" tmp9.log > tmp10.logsed "s/\].*//" tmp10.log > final.txtrm tmp*.log

Page 91: APLICACIONES DE REGLAS DE ASOCIACIÓN PARA …newton.azc.uam.mx/mcc/01_esp/11_tesis/tesis/term... · en la Web para obtener conocimiento. El Web mining (minería de datos de la Web)

82

A6 Script que carga el archivo de la bitacora sendmail.log procesado a la base dedatos.

load datainfile 'final.txt'appendinto table ipfields terminated by ',' optionally enclosed by '"'trailing nullcols(correo,ip)begindata

A7 Script que crea la estructura de la bitacora del proxy en la base de datos.

create table web ( fecha date, tiempo number(8), ip varchar(19), codigo varchar(28), bytes number(8), metodo varchar(9), url varchar(60), id varchar(20), lugar varchar(90), contenido varchar(50) ) tablespace webdata storage (initial 500M next 500M);

create index ipurl on web(ip,url) compress 1tablespace webindi storage (initial 500M next 500M);

La tabla creada por el script mostrada anteriormente crea una estructura en labase de datos llamada web y además crea un índice llamado ipurl para loscampos ip y url.A8 Script que crea la estructura de la bitacora de correo en la base de datos.

create table mail ( correo varchar(15), clave number(6), ip varchar(19) ) tablespace webdata storage (initial 300K next 100K);

create index ipcorreocve on mail(correo,clave,ip) compress 1

Page 92: APLICACIONES DE REGLAS DE ASOCIACIÓN PARA …newton.azc.uam.mx/mcc/01_esp/11_tesis/tesis/term... · en la Web para obtener conocimiento. El Web mining (minería de datos de la Web)

83

tablespace webindi storage (initial 300K next 100K);

El script anterior crea una tabla llamada mail en la base de datos con un índicellamado ipcorreocve para los campos correo,clave e IP.

A9 Script que crea la estructura de la bitacora del sendmail en la base de datos.

create table ip ( correo varchar(15), ip varchar(19) ) tablespace webdata storage (initial 7M next 7M);

create unique index correoip on ip(correo,ip) compress 1tablespace webindi storage (initial 7M next 7M);

El script crea una tabla llamada IP con un índice único llamado correoip para loscampos correo e IP:

A10 Ejemplo de cómo usar la herramienta sql-loader.

load datainfile 'plano2.txt'appendinto table mailfields terminated by ',' optionally enclosed by '"'trailing nullcols(correo,clave,ip)

La primera línea contiene las palabras reservadas que indican que se van cargardatos, la segunda línea indica la fuente de los datos ( es decir el archivo quecontiene los datos), la línea tres es otra palabra reservada que indica añadir a losdatos que ya previamente se encuentran en la base de datos.

La instrucción cuatro nos indica el nombre de la tabla mail que se encuentra en labase de datos y la cual será poblada (esta estructurada ya debe haber sidopreviamente creada), la instrucción cinco indica cual es el separador de campo (eneste ejemplo es ‘,’).

La instrucción seis tiene palabras reservadas que indican que en caso de no haberdatos el manejador de base de datos insertara valores nulos para unadeterminada columna y por ultimo la instrucción 7 nos muestra los campos de latabla mail.

Page 93: APLICACIONES DE REGLAS DE ASOCIACIÓN PARA …newton.azc.uam.mx/mcc/01_esp/11_tesis/tesis/term... · en la Web para obtener conocimiento. El Web mining (minería de datos de la Web)

84

ANEXO B

RECURSOS REQUERIDOS

- Bitácora web, la cual esta depositada en varios servidores de correo y cuyosistema operativo es genéricamente Unix.

- Sistema operativo Tru 64 Unix de Compaq o Linux Red Hat 7.2 montado en unequipo WS alpha server disponible en el IMP.

- Un manejador de base de datos relacional compatible SQL ANSI.

- Un compilador de lenguaje de cuarta generación, SQL.

- Un compilador de lenguaje Java y un compilador de lenguaje Perl.

RECURSOS DISPONIBLES

Son las características descritas previamente:

- Bitácora web y acceso a los servidores que la contienen.

- Equipo de computo con Sistema operativo Tru 64 Unix o Linux Red Hat.

- Un manejador de base de datos con SQL y compilador para lenguaje de cuartageneración.

- Compiladores Java y Perl.