practica 1 jackelin

11
ALUMNO: JESUS GIOVANNY ALVAREZ HERRA CARRERA: INGENIERÍA EN COMPUTACIÓN MATERIA: MINERÍA DE DATOS PRACTICA 3 PROFESOR: L.S.C JAQUELINE SÁNCHEZ ESPINOZA

Upload: gio-alvarez-herrera

Post on 14-Aug-2015

22 views

Category:

Documents


1 download

TRANSCRIPT

Page 1: Practica 1 Jackelin

ALUMNO:

JESUS GIOVANNY ALVAREZ HERRA

CARRERA:

INGENIERÍA EN COMPUTACIÓN

MATERIA:

MINERÍA DE DATOS

PRACTICA 3

PROFESOR:

L.S.C JAQUELINE SÁNCHEZ ESPINOZA

Page 2: Practica 1 Jackelin

PRÁCTICA 3

Uso del entorno Weka para Minería de Datos

OBJETIVO:

Conocer el entorno general del software para minería de datos Weka a través de un ejemplo.

INTRODUCCIÓN:

Weka es un conjunto de librerías JAVA para la extracción de conocimientos desde bases de datos.

Es un software ha sido desarrollado bajo licencia GPL lo cual ha impulsado que sea una de las

suites más utilizadas en el área en los últimos años.

La versión 3.4.7 incluye las siguientes características:

Diversas fuentes de datos (ASCII, JDBC).

Interfaz visual basado en procesos/flujos de datos (rutas).

Distintas herramientas de minería de datos: reglas de asociación (a priori, Tertius,

agrupación/segmentación/conglomerado (Cobweb, EM y k-medias), clasificación (redes

neuronales, reglas y árboles de decisión, aprendizaje Bayesiona) y regresión (Regresión

lineal, SVM).

Manipulación de datos (pick & mix, muestreo, combinación y separación).

Combinación de modelos (Bagging, Boosting ).

Visualización anterior (datos en múltiples gráficas) y posterior (árboles, curvas ROC, curvas

de coste).

Entorno de experimentos, con la posibilidad de realizar pruebas estadísticas (t-test).

Page 3: Practica 1 Jackelin

Como se puede observar en la figura1, Weka define 4 entornes de trabajo:

Simple CLI: Entorno consola para invocar directamente con java a los paquetes de weka

Explorer: Entorno visual que ofrece una interfaz gráfica para el uso de los paquetes

Experimenter: Entorno centrado en la automatización de tareas de manera que se facilite la realización de experimentos a gran escala.

KnowledgeFlow: Permite generar proyectos de minería de datos mediante la generación de flujos de información.

Explorer

Permite el acceso a la mayoría de las funcionalidades integradas en Weka de una manera sencilla.

Fig. 1 Pantalla inicial Weka.

Page 4: Practica 1 Jackelin

Como se puede observar en la figura anterior existen 6 sub-entornos de ejecución:

Preprocess: Incluye las herramientas y filtros para cargar y manipular los datos.

Classification: Acceso a las técnicas de clasificación y regresión

Cluster: Integra varios métodos de agrupamiento.

Associate: Incluye una pocas técnicas de reglas de asociación.

Select Attributes: Permite aplicar diversas técnicas para la reducción del número de

atributos.

Visualize: En este apartado podemos estudiar el comportamiento de los datos mediante

técnicas de visualización.

MATERIAL Y EQUIPO A UTILIZAR:

Tener instalado Weka de preferencia la versión 3.4.7 en el equipo de cómputo a trabajar.

Realizar la base de datos en formato arff o csv.

Sistema operativo Windows o Linux (cualquier versión).

Uso de PC.

DESARROLLO:

Crear el archivo CSV

Diseñar la base de datos en Microsoft Access de preferencia versión 2007 o 2010.

Exportar la base de datos a Microsoft Excel versión 2007 o 2010

Fig. 2 Ventana del explorador Weka.

Fig. 2 Ventana del explorador Weka.

Fig. 3 Exportar archivo a Excel.

Page 5: Practica 1 Jackelin

Guardar la base de datos de Microsoft Excel con la extensión CSV.

Actividad

Realizar la siguiente base de datos (ver fig. 5) con la extensión arff o csv y guardarlo con el

nombre weather.arff .

Determinar con los datos acerca de los días que se ha podido jugar al tenis, dependiendo de

diversos aspectos meteorológicos. El objetivo es poder determinar (predecir) si hoy se podrá jugar

al tenis, los datos son los siguientes:

Fig. 4 Guardar archivo con extensión CSV.

Fig. 5 Registro de una base de datos.

Page 6: Practica 1 Jackelin

Cargar los datos en el área de trabajo. Para ello, darle click en el botón “Open file” del entorno

“preprocess”, seleccionando el fichero “weather.arff” y aparecerá la pantalla siguiente (ver fig.

6).

Pulsando en el botón Choose en Filter, tendremos acceso a multitud de herramientas para el pre

procesamiento de datos. Estas herramientas permiten (entre otras muchas funcionalidades):

Realizar un filtrado de atributos.

Cambiar el tipo de los atributos (discretizar o numerizar).

Realizar muestreos sobre los datos.

Normalizar atributos numéricos.

Unificar valores de un mismo atributo.

Elegir el archivo

para realizar el

filtrado de los

datos.

Fig. 6 Exportar al dataset en Weka.

Page 7: Practica 1 Jackelin

Base De Datos

Abrir Archivo ” weather.arff”

Pantallazos de las diferentes opciones:

Page 8: Practica 1 Jackelin
Page 9: Practica 1 Jackelin
Page 10: Practica 1 Jackelin

algoritmos que Weka utiliza son: classify, cluster, asocciate, selección de atributos y visualización

de minería de datos.

Page 11: Practica 1 Jackelin

Reporte

Llenar el siguiente cuadro con los resultados obtenidos del ejercicio anterior.

ALGORITMO CARACTERÍSTICAS Classify Permite al usuario aplicar algoritmos de clasificación estadística y

análisis de regresión a los conjuntos de datos resultantes, para estimar la exactitud del modelo predictivo resultante, y para visualizar predicciones erróneas.

Cluster Da acceso a las técnicas de clustering o agrupamiento de Weka como por ejemplo el algoritmo K-means.

Associate Proporciona acceso a las reglas de asociación aprendidas que intentan identificar todas las interrelaciones importantes entre los atributos de los datos.

Visualización Muestra una matriz de puntos dispersos (Scatterplot) donde cada punto individual puede seleccionarse y agrandarse para ser analizados en detalle usando varios operadores de selección.