mineria de datos ultimo

32
PROYECTO Nº1 MINERIA DE DATOS

Upload: felix-hipperdinger

Post on 31-Dec-2015

45 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Mineria de Datos Ultimo

PROYECTO Nº1

MINERIA DE DATOS

MAIER, DANILO

Page 2: Mineria de Datos Ultimo

Índice

1. Introducción

2. Concepto de Minería de Datos

3. Proceso de Descubrimiento de Conocimiento en Bases de Datos (KDD)

Proceso de KDD

4. Técnicas de Minería de Datos Descriptivos Predictivos Auxiliares

5. Fases Filtrado de datos Selección de Variables Extracción de Conocimiento Interpretación y Evaluación

6. Aplicación de Minería de Datos

7. Software Relacionado SPSS Clementine SAS Enterprise Miner WEKA R ORANGE

8. Ejemplo Practica con Weka

Minería de Datos2

Page 3: Mineria de Datos Ultimo

1. Introducción

La minería de datos es una nueva tecnología muy poderosa con un gran potencial para ayudar a las compañías a enfocarse en la información más importante en sus bases de datos o almacenes de datos. Las herramientas de minería de datos predicen comportamientos, permitiendo a los gerentes y empresarios ser más eficientes en la toma de decisiones y el manejo del conocimiento.La perspectiva automatizada de análisis que ofrece la minería de datos va más allá del análisis de eventos pasados y puede responder a preguntas gerenciales que antes consumían demasiado tiempo responder.La tecnología actual como los códigos de barras, la automatización de procesos, los avances en técnicas de almacenamiento de información y los precios bajos de los dispositivos de almacenamiento, permite capturar y almacenar grandes cantidades de información.En la actualidad, alrededor del mundo, se ha estimado que el crecimiento de los datos almacenados en las bases de datos se duplica cada 20 meses, mientras que la técnicas de análisis de información no han tenido un desarrollo equivalente, dicho en otras palabras, la velocidad en que se almacena la información es muy superior a la velocidad en que se analizan.Existe un gran interés comercial por explotar los grandes volúmenes de información, pero no saben de qué forma se puede transformar toda esa información en conocimiento o sabiduría que apoye, efectivamente, la toma de decisiones, especialmente, a nivel gerencial.

2. Concepto de Minería de Datos

La minería de datos es un conjunto de herramientas y técnicas de análisis de datos que por medio de la identificación de patrones extrae información interesante, novedosa y potencialmente útil de grandes bases de datos que puede ser utilizada como soporte para la toma de decisiones.Si se analiza la definición anteriormente descrita, se dice que la minería de datos es un conjunto de herramientas y técnicas, una gran parte de estas técnicas son una combinación directa de madurez en tecnología de bases de datos y data warehousing, con técnicas de aprendizaje automático y de estadística.Para descubrir conocimiento de la información se pueden utilizar varias formas de análisis por medio de las cuales se puede llegar a identificar patrones y reglas en los datos para luego crear escenarios, esta información se puede representar por medio de modelos matemáticos sobre datos históricos y con esto se crea un modelo de minería de datos. Después de haber creado un modelo de minería de datos, se puede examinar nueva información a través del modelo evaluando si se apega a los patrones o reglas definidos.A continuación se presentan varias definiciones de Minería de Datos (MD):

3

Page 4: Mineria de Datos Ultimo

• “MD es la extracción no trivial de información implícita, desconocida previamente, y potencialmente útil desde los datos” [PSF91].• “MD es el proceso de extracción y refinamiento de conocimiento útil desde grandes bases de datos” [SLK96].• “MD es el proceso de extracción de información previamente desconocida, válida y procesable desde grandes bases de datos para luego ser utilizada en la toma de decisiones” [CHSVZ].• "MD es la exploración y análisis, a través de medios automáticos y semiautomáticos, de grandes cantidades de datos con el fin de descubrir patrones y reglas significativos" [BERR97].• "MD es el proceso de planteamiento de distintas consultas y extracción de información útil, patrones y tendencias previamente desconocidas desde grandes cantidades de datos posiblemente almacenados en bases de datos” [THUR99].• “MD es el proceso de descubrir modelos en los datos” [WF00].

3. Proceso de Descubrimiento de Conocimiento en Bases de Datos (KDD)

Es el proceso completo de extracción de información, que se encarga además de la preparación de los datos y de la interpretación de los resultados obtenidos. KDD se ha definido como “el proceso no trivial de identificación en los datos de patrones válidos, nuevos, potencialmente útiles, y finalmente comprensibles”. Se trata de interpretar grandes cantidades de datos y encontrar relaciones o patrones.Para conseguirlo harán falta técnicas de aprendizaje automático, estadística, bases de datos, técnicas de representación del conocimiento, razonamiento basado en casos, razonamiento aproximado, adquisición de conocimiento, redes de neuronas y visualización de datos. Tareas comunes en KDD son la inducción de reglas, los problemas de clasificación y clustering, el reconocimiento de patrones, el modelado predictivo, la detección de dependencias, etc.KDD es un campo creciente: hay muchas metodologías del descubrimiento del conocimiento en uso y bajo desarrollo. Algunas de estas técnicas son genéricas, mientras otros son de dominio específico.Los datos recogen un conjunto de hechos (una base de datos) y los patrones son expresiones que describen un subconjunto de los datos (un modelo aplicable a ese subconjunto). KDD involucra un proceso iterativo e interactivo de búsqueda de modelos, patrones o parámetros. Los patrones descubiertos han de ser válidos, novedosos para el sistema (para el usuario siempre que sea posible) y potencialmente útiles.Se han de definir medidas cuantitativas para los patrones obtenidos (precisión, utilidad, beneficio obtenido...). Se debe establecer alguna medida de interés que considere la validez, utilidad y simplicidad de los patrones obtenidos mediante alguna de las técnicas de Minería de Datos. El objetivo final de todo esto es incorporar el conocimiento obtenido en algún sistema real, tomar decisiones a

4

Page 5: Mineria de Datos Ultimo

partir de los resultados alcanzados o, simplemente, registrar la información conseguida y suministrársela a quien esté interesado.Ha llegado un momento en el que disponemos de tanta información que nos vemos incapaces de sacarle provecho. Los datos tal cual se almacenan no suelen proporcionar beneficios directos. Su valor real reside en la información que podamos extraer de ellos: información que nos ayude a tomar decisiones o a mejorar nuestra comprensión de los fenómenos que nos rodean.Se requiere de grandes cantidades de datos que proporcionen información suficiente para derivar un conocimiento adicional. Dado que se requieren grandes cantidades de datos, es esencial el proceso de la eficiencia. La exactitud es requerida para asegurar que el descubrimiento del conocimiento es válido. Los resultados deberán ser presentados de una manera entendible para el ser humano. Una de las premisas mayores de KDD es que el conocimiento es descubierto usando técnicas de aprendizaje inteligente que van examinando los datos a través de procesos automatizados. Para que una técnica sea considerada útil para el descubrimiento del conocimiento, éste debe ser interesante; es decir, debe tener un valor potencial para el usuario.KDD rápidamente excede la capacidad humana para analizar grandes cantidades de datos. La cantidad de datos que requieren procesamiento y análisis en grandes bases de datos exceden las capacidades humanas y la dificultad de transformar los datos con precisión es un conocimiento que va más allá de los límites de las bases de datos tradicionales. Por consiguiente, la utilización plena de los datos almacenados depende del uso de técnicas del descubrimiento del conocimiento.La utilidad de aplicaciones futuras en KDD es de largo alcance. KDD puede usarse como un medio de recuperación de información, de la misma manera que los agentes inteligentes realizan la recuperación de información en el Web.Nuevos modelos o tendencias en los datos podrán descubrirse usando estas técnicas. KDD también puede usarse como una base para las interfaces inteligentes del mañana, agregando un componente del descubrimiento del conocimiento a un sistema de bases de datos o integrando KDD con las hojas de cálculo y visualizaciones.

3.1 El proceso de KDD

Se inicia con la identificación de los datos. Para ello hay que imaginar qué datos se necesitan, dónde se pueden encontrar y cómo conseguirlos. Una vez que se dispone de datos, se deben seleccionar aquellos que sean útiles para los objetivos propuestos. Se preparan, poniéndolos en un formato adecuado.Una vez se tienen los datos adecuados se procede a la minería de datos, proceso en el que se seleccionarán las herramientas y técnicas adecuadas para lograr los objetivos pretendidos. Y tras este proceso llega el análisis de resultados, con lo que se obtiene el conocimiento pretendido.KDD es un proceso interactivo e iterativo, que involucra numerosos pasos e incluye muchas decisiones que deben ser tomadas por el usuario, y se estructura en las siguientes etapas:

5

Page 6: Mineria de Datos Ultimo

• Comprensión del dominio de la aplicación, del conocimiento relevante y de los objetivos del usuario final.• Creación del conjunto de datos: consiste en la selección del conjunto de datos, o del subconjunto de variables o muestra de datos, sobre los cuales se va a realizar el descubrimiento.• Limpieza y preprocesamiento de los datos: Se compone de las operaciones, tales como: recolección de la información necesaria sobre la cual se va a realizar el proceso, decidir las estrategias sobre la forma en que se van a manejar los campos de los datos no disponibles, estimación del tiempo de la información y sus posibles cambios.• Reducción de los datos y proyección: Encontrar las características más significativas para representar los datos, dependiendo del objetivo del proceso. En este paso se pueden utilizar métodos de transformación para reducir el número efectivo de variables a ser consideradas o para encontrar otras representaciones de los datos.• Elegir la tarea de Minería de Datos: Decidir si el objetivo del proceso de KDD es: Regresión, Clasificación, Agrupamiento, etc.• Elección del algoritmo(s) de Minería de Datos: Selección del método(s) a ser utilizado para buscar los patrones en los datos. Incluye además la decisión sobre que modelos y parámetros pueden ser los más apropiados.• Minería de Datos: Consiste en la búsqueda de los patrones de interés en una determinada forma de representación o sobre un conjunto de representaciones, utilizando para ello métodos de clasificación, reglas o árboles, regresión, agrupación, etc.• Interpretación de los patrones encontrados. Dependiendo de los resultados, a veces se hace necesario regresar a uno de los pasos anteriores.• Consolidación del conocimiento descubierto: consiste en la incorporación de este conocimiento al funcionamiento del sistema, o simplemente documentación e información a las partes interesadas.El proceso de KDD puede involucrar varias iteraciones y puede contener ciclos entre dos de cualquiera de los pasos. La mayoría de los trabajos que se han realizado sobre KDD se centran en la etapa de minería. Sin embargo, los otros pasos se consideran importantes para el éxito del KDD. Por eso aunque la Minería de Datos es una parte del proceso completo de KDD, en buena parte de la literatura los términos Minería de Datos y KDD se identifican como si fueran lo mismo.

Fase de selecciónEl proceso de extracción del conocimiento (KDD) comienza con la recopilación e integración de la información a partir de unos datos iniciales de que se dispone (fase de selección de datos). Las primeras fases del KDD son muy importantes porque determinan que las fases sucesivas sean capaces de extraer conocimiento valido y útil a partir de la información original. Generalmente, la información que se quiere investigar sobre un cierto dominio de la organización se encuentra en bases de datos y otras fuentes muy diversas, tanto internas como externas. En general la información se encuentra ordenada en almacenes de datos. El análisis posterior

6

Page 7: Mineria de Datos Ultimo

será mucho más sencillo si la fuente es unificada, accesible (interna) y desconectada del trabajo transaccional. Aparte de información interna de organización, los almacenes de datos pueden recoger información externa, como demografías (censo), páginas amarillas, psicografías (perfiles de zona), uso de internet, información de otras organizaciones y bases de datos externas compradas a otras compañías. La disponibilidad de grandes volúmenes de información en esta fase nos lleva a la necesidad de usar técnicas de muestreo para la selección de datos.En la fase de selección se integran y recopilan los datos, se determinan las fuentes de información que pueden ser útiles y donde conseguirlas, se identifican y seleccionan las variables relevantes en los datos y se aplican las técnicas de muestreo adecuado. Todo ello se facilita disponiendo de un almacén de datos (Data Warehouse) con la información en formato común y sin inconsistencias.

Fase de ExploraciónDespués de la fase de selección, el proceso de extracción del conocimiento contempla la fase de exploración. Dado que los datos provienen de diferentes fuentes, es necesaria su exploración mediante técnicas formales de análisis exploratorio de datos, buscando entre otras cosas la distribución de los datos, su simetría y normalidad y las correlaciones existentes en la información.Las técnicas del análisis exploratorio de datos permiten analizar la información exhaustivamente y detectar las posibles anomalías que presentan las observaciones. Los estadísticos descriptivos más habitualmente utilizados han sido la media y la desviación típica. Sin embargo, el uso automático de estos índices no es muy aconsejable. La media y la desviación típica son índices convenientes solo cuando la distribución de datos es aproximadamente normal o, al menos, simétrica y unimodal. . Por lo tanto es necesario un examen a fondo de la estructura de los datos.Se recomienda iniciar un análisis exploratorio de datos con gráficos que permitan visualizar su estructura. Estamos ante las herramientas de exploración visual. Sin embargo, para la exploración formal, el uso de estadísticos robustos es muy aconsejable cuando los datos no se ajustan a una distribución normal.

Fase de Limpieza y TransformaciónDespués de la fase de exploración, el proceso de extracción del conocimiento contempla la fase de limpieza de datos (data clining). La información puede contener valores atípicos, valores faltantes y valores erróneos. En esta fase se analiza la influencia de los datos atípicos, se imputa la información faltante y se eliminan o corrigen los datos incorrectos. La presencia de datos atípicos y desaparecidos (data missing) puede llevarnos a usar algoritmos robustos a datos atípicos y desaparecidos (p. ej. Arboles de decisión), a filtrar la información, a reemplazar valores mediante técnicas de imputación y a transformar datos continuos en discretos mediante técnicas de discretización.

Fase de Minería de Datos

7

Page 8: Mineria de Datos Ultimo

La fase de minería de datos incluye la selección de la tarea de descubrimiento a realizar, por ejemplo, clasificación, agrupamiento o clustering, regresión, etc. La selección de él o de los algoritmos a utilizar. La transformación de los datos al formato requerido por el algoritmo específico de minería de datos. Y llevar a cabo el proceso de minería de datos, se buscan patrones que puedan expresarse como un modelo o simplemente que expresen dependencias de los datos, el modelo encontrado depende de su función (clasificación) y de su forma de representarlo (árboles de decisión, reglas, etc.), se tiene que especificar un criterio de preferencia para seleccionar un modelo dentro de un conjunto posible de modelos, se tiene que especificar la estrategia de búsqueda a utilizar (normalmente está predeterminada en el algoritmo de minería).

Fase de Interpretación y EvaluaciónInterpretar los resultados y posiblemente regresar a los pasos anteriores. Esto puede involucrar repetir el proceso, quizás con otros datos, otros algoritmos, otras metas y otras estrategias. Este es un paso crucial en donde se requiere tener conocimiento del dominio. La interpretación puede beneficiarse de procesos de visualización, y sirve también para borrar patrones redundantes o irrelevantes.

4. Técnicas de Minería8

Page 9: Mineria de Datos Ultimo

Son variadas las técnicas propuestas como útiles para el proceso de minería de datos, y son varias también las propuestas de clasificación de dichas técnicas.La clasificación inicial de las técnicas de minería de datos distingue entre técnicas predictivas, en las que las variables pueden clasificarse inicialmente en dependiente e independiente (similares a las técnicas del análisis de la dependencia o métodos explicativos del análisis multivariante), técnicas descriptivas, en las que todas las variables tienen inicialmente el mismo estatus (similares a las técnicas del análisis de la interdependencia o métodos descriptivos del análisis multivariante) y técnicas auxiliares.

4.1 Predictivas Especifican el modelo para los datos en base a un conocimiento teórico previo. El modelo supuesto para los datos debe contrastarse después del proceso de minería de datos antes de aceptarlo como válido. Formalmente, la aplicación de todo modelo debe superar las fases de identificación objetiva (a partir de los datos se aplican reglas que permitan identificar el mejor modelo posible que ajuste los datos), estimación (proceso de cálculo de los parámetros del modelo elegido para los datos en la fase de identificación), diagnosis (proceso de contraste de la validez del modelo estimado) y predicción (proceso de utilización del modelo identificado, estimado y validado para predecir valores futuros de las variables dependientes). En algunos casos, el modelo se obtiene como mezcla del conocimiento obtenido antes y después del Data Mining y también debe contrastarse antes de aceptarse como válido.Podemos incluir entre estas técnicas todos los tipos de regresión, series temporales, análisis de la varianza y covarianza, análisis discriminante, arboles de decisión, redes neuronales, algoritmos genéticos y técnicas bayesianas. Tanto los arboles de decisión, como las redes neuronales y el análisis discriminante son a su vez técnicas de clasificación que pueden extraer perfiles de comportamiento o clases, siendo el objetivo construir un modelo que permita clasificar cualquier dato.

Arboles de decisión: Se pueden aplicar a casi todo. Los sistemas de aprendizaje basados en árboles de decisión son quizás el método más fácil de utilizar y de entender. Un árbol de decisión es un conjunto de condiciones organizadas en una estructura jerárquica, de tal manera que la decisión final a tomar se puede determinar siguiendo las condiciones que se cumplen desde la raíz del árbol hasta alguna de sus hojas. Los árboles de decisión se utilizan desde hace siglos, y son especialmente apropiados para expresar procedimientos médicos, legales, comerciales, estratégicos, matemáticos, lógicos, etc. Una de las grandes ventajas de los árboles de decisión es que, en su forma más general, las opciones posibles a partir de una determinada condición son excluyentes. Esto permite analizar una situación y, siguiendo el árbol de decisión apropiadamente, llegar a una sola acción o decisión a tomar. Estos algoritmos se llaman algoritmos de partición o algoritmos de “divide y vencerás”. Otra característica importante de los primeros algoritmos de aprendizaje de árboles de decisión es que

9

Page 10: Mineria de Datos Ultimo

una vez elegida la partición dicha partición no se podía cambiar, aunque más tarde se pensara que había sido una mala elección. Por tanto, uno de los aspectos más importantes en los sistemas de aprendizaje de árboles de decisión es el denominado criterio de partición, ya que una mala elección de la partición (especialmente en las partes superiores del árbol) generará un peor árbol.

Redes Neuronales: Esta técnica de inteligencia artificial, en los últimos años se ha convertido en uno de los instrumentos de uso frecuente para detectar categorías comunes en los datos, debido a que son capaces de detectar y aprender complejos patrones, y características de los datos. Una de las principales características de las redes neuronales, es que son capaces de trabajar con datos incompletos e incluso paradójicos, que dependiendo del problema puede resultar una ventaja o un inconveniente. Además esta técnica posee dos formas de aprendizaje: supervisado y no supervisado.

4.2 DescriptivasEn las técnicas descriptivas no se asigna ningún papel predeterminado a las variables. No se supone la existencia de variables dependientes ni independientes y tampoco se supone la existencia de un modelo previo para los datos. Los modelos se crean automáticamente partiendo del reconocimiento de patrones. En este grupo se incluyen las técnicas de clustering y segmentación (que también son técnicas de clasificación en cierto modo), las técnicas de asociación y dependencia, las técnicas de análisis exploratorio de datos y las técnicas de reducción de la dimensión (factorial, componentes principales, correspondencias, etc.) y de escalamiento multidimensional.

Reglas de Asociación: Se utilizan para descubrir hechos que ocurren en común dentro de un determinado conjunto de datos.1 Se han investigado ampliamente diversos métodos para aprendizaje de reglas de asociación que han resultado ser muy interesantes para descubrir relaciones entre variables en grandes conjuntos de datos.

Clustering: Agrupan datos dentro de un número de clases preestablecidas o no, partiendo de criterios de distancia o similitud, de manera que las clases sean similares entre sí y distintas con las otras clases. Su utilización ha proporcionado significativos resultados en lo que respecta a los clasificadores o reconocedores de patrones, como en el modelado de sistemas. Este método debido a su naturaleza flexible se puede combinar fácilmente con otro tipo de técnica de minería de datos, dando como resultado un sistema híbrido. Un problema relacionado con el análisis de cluster es la selección de factores en tareas de clasificación, debido a que no todas las variables tienen la misma importancia a la hora de agrupar los objetos. Otro problema de gran importancia y que actualmente despierta un gran interés es la fusión de conocimiento, ya que existen múltiples fuentes

10

Page 11: Mineria de Datos Ultimo

de información sobre un mismo tema, los cuales no utilizan una categorización homogénea de los objetos. Para poder solucionar estos inconvenientes es necesario fusionar la información a la hora de recopilar, comparar o resumir los datos.

4.3 AuxiliaresLas técnicas auxiliares son herramientas de apoyo más superficiales y limitadas. Se trata de nuevos métodos basados en técnicas estadísticas descriptivas, consultas e informes y enfocados en general hacia la verificación.

5. FasesLos pasos a seguir para la realización de un proyecto de minería de datos son siempre los mismos, independientemente de la técnica específica de extracción de conocimiento usada.

El proceso de minería de datos pasa por las siguientes fases:• Filtrado de datos• Selección de Variables• Extracción de Conocimiento• Interpretación y Evaluación

Filtrado de Datos

11

Page 12: Mineria de Datos Ultimo

El formato de los datos contenidos en la fuente de datos (base de datos, Data Warehouse...) nunca es el idóneo, y la mayoría de las veces no es posible ni siquiera utilizar ningún algoritmo de minería sobre los datos "en bruto".Mediante el preprocesado, se filtran los datos (de forma que se eliminan valores incorrectos, no válidos, desconocidos... según las necesidades y el algoritmo a usar), se obtienen muestras de los mismos (en busca de una mayor velocidad de respuesta del proceso), o se reducen el número de valores posibles (mediante redondeo, clustering,...).

Selección de VariablesAún después de haber sido preprocesados, en la mayoría de los casos se tiene una cantidad ingente de datos. La selección de características reduce el tamaño de los datos eligiendo las variables más influyentes en el problema, sin apenas sacrificar la calidad del modelo de conocimiento obtenido del proceso de minería.Los métodos para la selección de características son básicamente dos:• Aquellos basados en la elección de los mejores atributos del problema,• Y aquellos que buscan variables independientes mediante tests de sensibilidad, algoritmos de distancia o heurísticos.

Extracción de ConocimientoMediante una técnica de minería de datos, se obtiene un modelo de conocimiento, que representa patrones de comportamiento observados en los valores de las variables del problema o relaciones de asociación entre dichas variables. También pueden usarse varias técnicas a la vez para generar distintos modelos, aunque generalmente cada técnica obliga a un preprocesado diferente de los datos.

Interpretación y EvaluaciónUna vez obtenido el modelo, se debe proceder a su validación, comprobando que las conclusiones que arroja son válidas y suficientemente satisfactorias. En el caso de haber obtenido varios modelos mediante el uso de distintas técnicas, se deben comparar los modelos en busca de aquel que se ajuste mejor al problema. Si ninguno de los modelos alcanza los resultados esperados, debe alterarse alguno de los pasos anteriores para generar nuevos modelos.

6. Aplicación de Minería de Datos

En el Gobierno:El FBI analizará las bases de datos comerciales para detectar terroristas.A principios del mes de julio de 2002, el director del Federal Bureau ofInvestigation (FBI), John Aschcroft, anunció que el Departamento de Justicia comenzará a introducirse en la vasta cantidad de datos comerciales referentes a los hábitos y preferencias de compra de los consumidores, con el fin de descubrir potenciales terroristas antes de que ejecuten una acción. Algunos expertos aseguran que, con esta información, el FBI unirá todas las bases de datos

12

Page 13: Mineria de Datos Ultimo

probablemente mediante el número de la Seguridad Social y permitirá saber si una persona fuma, qué talla y tipo de ropa usa, su registro de arrestos, su salario, las revistas a las que está suscrito, su altura y peso, sus contribuciones a la Iglesia, grupos políticos u organizaciones no gubernamentales, sus enfermedades rónicas (como diabetes o asma), los libros que lee, los productos de supermercado que compra, si tomó clases de vuelo o si tiene cuentas de banco abiertas, entre otros. La inversión inicial ronda los setenta millones de dólares estadounidenses para consolidar los almacenes de datos, desarrollar redes de seguridad para compartir información e implementar nuevo software analítico y de visualización.

En la Empresa: Hábitos de compra en supermercados. Un estudio muy citado detectó que los viernes había una cantidad inusualmente elevada de clientes que adquirían a la vez pañales y cerveza. Se detectó que se debía a que dicho día solían acudir al supermercado padres jóvenes cuya perspectiva para el fin de semana consistía en quedarse en casa cuidando de su hijo y viendo la televisión con una cerveza en la mano. El supermercado pudo incrementar sus ventas de cerveza colocándolas próximas a los pañales para fomentar las ventas compulsivas,Prediciendo el tamaño de las audiencias televisivas. La British Broadcasting Corporation (BBC) del Reino Unido emplea un sistema para predecir el tamaño de las audiencias televisivas para un programa propuesto, así como el tiempo óptimo de exhibición (Brachman y otros, 1996). El sistema utiliza redes neuronales y árboles de decisión aplicados a datos históricos de la cadena para determinar los criterios que participan según el programa que hay que presentar. La versión final se desempeña tan bien como un experto humano con la ventaja de que se adapta más fácilmente a los cambios porque es constantemente reentrenada con datos actuales.

En la UniversidadConociendo si los recién titulados de una universidad llevan a cabo actividades profesionales relacionadas con sus estudios.Se hizo un estudio sobre los recién titulados de la carrera de Ingeniería en Sistemas Computacionales del Instituto Tecnológico de Chihuahua II, en Méjico (Rodas, 2001). Se quería observar si sus recién titulados se insertaban en actividades profesionales relacionadas con sus estudios y, en caso negativo, se buscaba saber el perfil que caracterizó a los exalumnos durante su estancia en la universidad. El objetivo era saber si con los planes de estudio de la universidad y el aprovechamiento del alumno se hacía una buena inserción laboral o si existían otras variables que participaban en el proceso. Dentro de la información considerada estaba el sexo, la edad, la escuela de procedencia, el desempeño académico, la zona económica donde tenía su vivienda y la actividad profesional, entre otras variables. Mediante la aplicación de conjuntos aproximados se descubrió que existían cuatro variables que determinaban la adecuada inserción laboral, que son citadas de acuerdo con su importancia: zona económica donde habitaba el estudiante, colegio de donde provenía, nota al ingresar y promedio final al salir de la carrera. A partir de estos resultados, la universidad tendrá que hacer un estudio socioeconómico sobre grupos de alumnos que pertenecían a las

13

Page 14: Mineria de Datos Ultimo

clases económicas bajas para dar posibles soluciones, debido a que tres de las cuatro variables no dependían de la universidad.

7. Software Relacionado

SPSS ClementineEs una herramienta integrada de minería de datos que incluye diversas Fuentes de datos (ASCII, XLS, ODBC, etc), una interfaz visual basado en procesos/flujos de datos, distintas herramientas de minería de datos (correlación, reglas de asociación, regresión, segmentación, clasificación, redes neuronales, reglas y árboles de decisión, etc), combinación de modelos, visualización de datos, exportación de modelos a distintos lenguajes, exportación de datos integrada a otros programas y generación de informes.Web: SPSS (www.spss.com).

SAS Enterprise MinerSolución de minería de datos que proporciona gran cantidad de modelos y de alternativas. Permite determinar pautas y tendencias, explica resultados conocidos e identifica factores que permiten asegurar efectos deseados. Además, compara los resultados de las distintas técnicas de modelado, tanto en términos estadísticos como de negocio, dentro de un marco sencillo y fácil de interpretar.Web: SAS (www.sas.com).

WEKAEscrito en Java, Weka (Waikato Enviroment for Knowledge Analysis) es una conocida suite de software para el aprendizaje y la máquina que soporta varias tareas de minería de datos típicos, especialmente los datos del proceso previo, el agrupamiento, clasificación, regresión, visualización y selección de características. Sus técnicas se basan en la hipótesis de que los datos están disponibles en un único archivo plano o una relación, donde se etiqueta cada punto de datos por un número fijo de atributos. WEKA proporciona acceso a bases de datos SQL utilizando Java Database Connectivity y puede procesar el resultado devuelto por una consulta de base de datos. Su interfaz de usuario principal es el Explorer, pero la misma funcionalidad que se puede acceder desde la línea de comandos oa través de la interfaz basada en componentes de flujo de conocimientos.Web: WEKA (www.cs.waikato.ac.nz/ml/weka).

RSe trata de un proyecto de software libre, resultado de la implementación GNU del premiado lenguaje S. R y S-Plus son, probablemente, los dos lenguajes mas utilizados en investigación por la comunidad estadística, siendo además muy populares en el campo de la investigación biomédica, la bioinformática y las matemáticas financieras.Web: R-project (www.cran.r-project.org).

14

Page 15: Mineria de Datos Ultimo

ORANGEOrange es una base de datos de minería y de los componentes y de aprendizaje automático suite de software que cuenta con fácil y potente, rápido y versátil de programación visual frontal-end para el análisis exploratorio de datos y visualización, y los enlaces de Python y bibliotecas de secuencias de comandos. Contiene juego completo de componentes para preprocesamiento de datos, característica que anota y filtrado, modelado, evaluación del modelo, y las técnicas de exploración. Está escrito en C + + y Python, y su interfaz gráfica de usuario se basa en el marco de Qt multiplataforma. Web: ORANGE(www.orange.biolab.si).

8. Practica

Ejemplo de Minería de Datos en Weka

Se trabajará sobre una base de datos clásica incluida en el propio programa. Se trata de una base de datos en la que se pretende determinar cuáles son los factores que hacen que una cierta persona practique o no el tenis.Cada instancia de la base de datos se corresponde con un cierto día en el que la persona se plantea si jugar o no al tenis, y recoge los siguientes atributos:· Aspecto del cielo: {soleado, cubierto, lluvioso}.· Temperatura: medida en grados.· Humedad: medida en %.· Viento: {si, no}.· Juega al tenis: {si, no}.Se dispone de datos recogidos durante 14 días distintos, y el objetivo es determinar cuál es la relación entre las condiciones del tiempo y la decisión de jugar o no al tenis.

PASO 1: Lanzar el interfaz ExplorerEn esta primera práctica se utilizará WEKA desde el interfaz Explorer. Se lanzará este interfaz de acuerdo con lo indicado en la introducción.

PASO 2: Cargar la base de datos

15

Page 16: Mineria de Datos Ultimo

Para cargar la base de datos se utilizará el botón OPEN FILE del interfaz Explorer (pestaña Preprocess), se seleccionará el directorio data y dentro de él, el fichero weather.arff. El resultado será una pantalla como la que se muestra en la figura:

En la parte izquierda de la pantalla aparecen los cinco atributos mencionados:· Outlook· Temperature.· Humidity.· Windy.· Play.Haciendo clic sobre cada uno de los atributos, se muestra información sobre el mismo en la parte derecha de la ventana. En el caso de atributos discretos se indica el número de instancias que toman cada uno de los valores posibles; y en el caso de atributos reales se muestran los valores máximo, mínimo, medio y la desviación estándar. Asimismo, se muestra un gráfico en el que las distintas clases (juega o no juega) se representan con colores distintos, en función de los valores del atributo elegido.

PASO 3: Generación de gráficosPara generar gráficos con los datos del ejemplo, se seleccionará la pestaña Visualice. Por defecto, se muestran gráficos para todas las combinaciones de atributos tomadas dos a dos, de modo que se pueda estudiar la relación entre dos

16

Page 17: Mineria de Datos Ultimo

atributos cualesquiera. El aspecto de la pantalla es el mostrado en la figura siguiente:

Si se desea mostrar un gráfico concreto, basta con hacer doble clic sobre él. Por ejemplo, haciendo doble clic sobre el gráfico que relaciona el aspecto del cielo con la decisión de jugar o no (play / outlook) se muestra el gráfico de la figura siguiente:

17

Page 18: Mineria de Datos Ultimo

Según el gráfico, cuando el día es soleado puede tomarse la decisión de jugar o no (aparecen ejemplos de valor ‘si’ (azules) y ejemplos de valor ‘no’ (rojos). Cuando el cielo está cubierto, se juega siempre; y cuando el día es lluvioso también se pueden tomar las dos decisiones.Un problema que presenta el gráfico es que los puntos se superponen, con lo cual es imposible determinar cuántos ejemplos representa cada cruz. Para solucionar este problema, se introduce un ruido en el gráfico (perturbaciones aleatorias de los valores) de modo que los puntos superpuestos se separen. Para introducir el ruido se utiliza la función jitter, desplazando el cursor hasta que la visualización sea la deseada. Una posible visualización se muestra en la figura siguiente:

18

Page 19: Mineria de Datos Ultimo

4. GENERACIÓN DE UN ÁRBOL DE DECISIÓN CON WEKA

Una vez vistas las posibilidades de representación gráfica, se probará uno de los algoritmos de aprendizaje automático incluidos en WEKA: los árboles de decisión. Se intentará generar un árbol de decisión que se corresponda con los ejemplos de la base de datos anterior.Para ello se seleccionará la pestaña Classify y se elegirá un clasificador pulsando el botón Choose. Aparecerá una estructura de directorios en la que se seleccionará el directorio trees y dentro del él el algoritmo J48. Se mantendrán las opciones por defecto del clasificador (J48 –C 0.25 –M 2), tal y como muestra la pantalla siguiente.

19

Page 20: Mineria de Datos Ultimo

El resto de opciones para el experimento también se mantendrán en los valores por defecto: activa la opción de test ‘cross validation’ e inactivas las restantes. Para generar el árbol se pulsará Start.El resultado será el que muestra la pantalla siguiente, donde se muestran en modo texto tanto el árbol generado como la capacidad de clasificación del mismo:

20

Page 21: Mineria de Datos Ultimo

Si se analiza la información que se ofrece en modo texto, se puede destacar lo siguiente:En primer lugar, se muestra información sobre el tipo de clasificador utilizado (algoritmo J48), la base de datos sobre la que se trabaja (weather) y el tipo de test (cross validation).

=== Run information ===Scheme: weka.classifiers.trees.J48 -C 0.25 -M 2Relation: weatherInstances: 14Attributes: 5outlooktemperaturehumiditywindyplayTest mode: 10-fold cross-validation

A continuación se muestra el árbol que se ha generado y el número de instancias que clasifica cada nodo:

=== Classifier model (full training set) ===J48 pruned tree------------------outlook = sunny

21

Page 22: Mineria de Datos Ultimo

| humidity <= 75: yes (2.0)| humidity > 75: no (3.0)outlook = overcast: yes (4.0)outlook = rainy| windy = TRUE: no (2.0)| windy = FALSE: yes (3.0)Number of Leaves : 5Size of the tree : 8Time taken to build model: 0 seconds

Y por último se muestran los resultados del test (indican la capacidad de clasificación esperable para el árbol y la matriz de confusión):

=== Stratified cross-validation ====== Summary ===Correctly Classified Instances 9 64.2857 %Incorrectly Classified Instances 5 35.7143 %Kappa statistic 0.186Mean absolute error 0.2857Root mean squared error 0.4818Relative absolute error 60 %Root relative squared error 97.6586 %Total Number of Instances 14=== Detailed Accuracy By Class ===TP Rate FP Rate Precision Recall F-Measure Class0.778 0.6 0.7 0.778 0.737 yes0.4 0.222 0.5 0.4 0.444 no=== Confusion Matrix ===a b <-- classified as7 2 | a = yes3 2 | b = no

También es posible visualizar el árbol de decisión de una forma más legible. Para ello se debe hacer clic con el botón derecho en la ventana de resultados, sobre el resultado de la generación del árbol. Aparecerá un menú desplegable:

22

Page 23: Mineria de Datos Ultimo

Y dentro de ese menú se deberá seleccionar la opción ‘Visualize tree’. El resultado se muestra en la figura siguiente:

23

Page 24: Mineria de Datos Ultimo

Bibliografía

Libros:

INTRODUCCIÓN A LA MINERÍA DE DATOS. José Hernández Orallo, Ramírez Quintana, Ferri Ramírez.Editorial Pearson – Prentice Hall.2004

MINERÍA DE DATOS. TÉCNICAS Y HERRAMIENTAS. Pérez López César,Santin Gonzalez DanielEditorial Paraninfo2007

Artículos:

ANALISIS Y EXTRACCIÓN DE CONOCIMIENTO EN SISTEMAS DE INFORMACIÓN: DATAWAREHOUSE YDATAMINING.José Hernández Orallo.Universidad Politécnica de Valencia

MINERÍA DE DATOS UNA HERRAMIENTA PARA LA TOMA DE DECISIONES Tesis Universidad de San Carlos de Guatemala. 2006Web: http://biblioteca.usac.edu.gt/tesis/08/08_0307_CS.pdf

TÉCNICAS DE ANÁLISIS DE DATOSAplicaciones prácticas utilizando Microsoft Excel y Weka.Artículo perteneciente al “Grupo de Inteligencia Artificial Aplicada” (GIAA).Web: http://www.giaa.inf.uc3m.es/docencia/II/ADatos/apuntesAD.pdf

Software:

Weka 3: Software de minería de datos en Java.Web: http://www.cs.waikato.ac.nz/ml/weka

24