dataminig con weka. caso: Árboles de decisión

Download Dataminig con Weka. Caso: Árboles de decisión

If you can't read please download the document

Upload: jorge-ivan-pincay-ponce

Post on 10-May-2015

913 views

Category:

Documents


2 download

DESCRIPTION

Este documento expone un ejemplo de cómo generar un árbol de decisión empleando WEKA. WEKA que es la herramienta libre de Datamining seleccionada para éste trabajo y el algoritmo de árbol de decisión que constituye una de las técnicas de toma de decisiones más empleadas en Datamining. Se trabajará sobre una base de datos clásica incluida en el propio programa. Se trata de una base de datos llamada WEATHER.ARFF , en la que se pretende determinar cuáles son los factores que hacen que una cierta persona practique o no el tenis. Cada instancia de la base de datos se corresponde con un cierto día en el que la persona se plantea si jugar o no al tenis, y recoge los siguientes atributos: • Aspecto del cielo: {soleado, cubierto, lluvioso}. • Temperatura: medida en grados. • Humedad: medida en %. • Viento: {si, no}. • Juega al tenis: {si, no}.

TRANSCRIPT

  • 1.WEKA - WEKA - WEKA - WEKA - WEKA - WEKA - WEKA - WEKA - WEKA - WEKA - WEKA - WEKA - WEKA - WEKA - WEKA - WEKA - WEKA - WEKAUniversidad Nacional de Piura Per y Universidad Laica Eloy Alfaro de Manab - Ecuador. Datamining rboles de DecisinRBOL DE DECISINDataminingconSoftware LibreCristhian Ivn Jacho Castillo, Efran Chiln Santana, ErnestoEnmanuel Pazmio, Jorge Ivn Pincay Ponce

2. WEKA - WEKA - WEKA - WEKA - WEKA - WEKA - WEKA - WEKA - WEKA - WEKA - WEKA - WEKA - WEKA - WEKA - WEKA - WEKA - WEKA - WEKAUniversidad Nacional de Piura Per y Universidad Laica Eloy Alfaro de Manab - Ecuador. Datamining rboles de Decisin 3. WEKA - WEKA - WEKA - WEKA - WEKA - WEKA - WEKA - WEKA - WEKA - WEKA - WEKA - WEKA - WEKA - WEKA - WEKA - WEKA - WEKA - WEKAUniversidad Nacional de Piura Per y Universidad Laica Eloy Alfaro de Manab - Ecuador. Datamining rboles de DecisinWEKA Weka es un conjunto de libreras JAVA para la extraccinde conocimientos desde bases de datos. Desarrolladobajo licencia GPL. Las prcticas presentadas en ste documento serealizaron en WEKA (Waikato Environment forKnowledge Analysis) Versin 3.5.8. Cuyos crditos (c)1999 2008 pertenecen a la The University of WaikatoHamilton, New Zealandes el proceso de analizar los datos desdediferentes perspectivas y resumirla eninformacin til, informacin que puede serutilizada para aumentar los ingresos, reducelos costos, o ambos. (UCLA Anderson, 2009.)DATAMINING 4. WEKA - WEKA - WEKA - WEKA - WEKA - WEKA - WEKA - WEKA - WEKA - WEKA - WEKA - WEKA - WEKA - WEKA - WEKA - WEKA - WEKA - WEKAUniversidad Nacional de Piura Per y Universidad Laica Eloy Alfaro de Manab - Ecuador. Datamining rboles de DecisinObjetivos de la Prctica: GENERAR DE UN RBOL DEDECISIN Este documento expone un ejemplo de cmo generar un rbol de decisin empleandoWEKA. WEKA que es la herramienta libre de Datamining seleccionada para ste trabajo y elalgoritmo de rbol de decisin que constituye una de las tcnicas de toma dedecisiones ms empleadas en Datamining. Se trabajar sobre una base de datos clsica incluida en el propio programa. Se tratade una base de datos llamada WEATHER.ARFF, en la que se pretende determinarcules son los factores que hacen que una cierta persona practique o no el tenis. Cada instancia de la base de datos se corresponde con un cierto da en el que lapersona se plantea si jugar o no al tenis, y recoge los siguientes atributos: Aspecto del cielo: {soleado, cubierto, lluvioso}. Temperatura: medida en grados. Humedad: medida en %. Viento: {si, no}. Juega al tenis: {si, no}. 5. WEKA - WEKA - WEKA - WEKA - WEKA - WEKA - WEKA - WEKA - WEKA - WEKA - WEKA - WEKA - WEKA - WEKA - WEKA - WEKA - WEKA - WEKAUniversidad Nacional de Piura Per y Universidad Laica Eloy Alfaro de Manab - Ecuador. Datamining rboles de DecisinWeather.arff 6. WEKA - WEKA - WEKA - WEKA - WEKA - WEKA - WEKA - WEKA - WEKA - WEKA - WEKA - WEKA - WEKA - WEKA - WEKA - WEKA - WEKA - WEKAUniversidad Nacional de Piura Per y Universidad Laica Eloy Alfaro de Manab - Ecuador. Datamining rboles de DecisinMATERIALES UTILIZADOSLos materiales corresponden a los recursos de software empleados:Prcticas de DataminigWEKA (Waikato Environment for Knowledge Analysis) Versin 3.5.8. Cuyos crditos (c) 1999 2008 pertenecen a la The University of Waikato.JRE (Java Runtime Edition) versin 1.7 de 64 Bits.JDK (Java Development Kit) 1.7 de 64 Bits, aunque realmente para las prcticas mostradas solose us JRE y no el JDK.Opcionanlmente Weka incorpora una versin reducida de JRE que garantiza la funcionalidadal menos de Weka.Sistema operativoMicrosoft Windows 8 Enterprise, versin de 64 Bits.La Base de Datos del EjemploSe trabajar sobre una base de datos clsica incluida en el propio programa. Se trata de unabase de datos llamada WEATHER.ARFF, en la que se pretende determinar cules son losfactores que hacen que una cierta persona practique o no el tenis. 7. WEKA - WEKA - WEKA - WEKA - WEKA - WEKA - WEKA - WEKA - WEKA - WEKA - WEKA - WEKA - WEKA - WEKA - WEKA - WEKA - WEKA - WEKAUniversidad Nacional de Piura Per y Universidad Laica Eloy Alfaro de Manab - Ecuador. Datamining rboles de DecisinPrincipales Caractersticas de WEKA 49 herramientas de preprocesamiento de datos 76 algoritmos de clasificacin / regresin 8 algoritmos de agrupamiento 15 atributos/subconjunto evaluadores + 10 algoritmos de bsqueda paraconfigurar la seleccin. 3 algoritmos para encontrar reglas de asociacin 3 interfaces grficas de usuario- "The Explorer" (anlisis exploratorio de datos)- " The Experimenter (entorno experimental)- "El KnowledgeFlow" (nuevo modelo de proceso inspirado interfaz)Diversas fuentes de datos (ASCII, JDBC). Distintas herramientas de minera de datos: reglas de asociacin (a priori,Tertius, ...), agrupacin/segmentacin/conglomerado (Cobweb, EM y k-medias),clasificacin (redes neuronales, reglas y rboles de decisin, aprendizajeBayesiona) y regresin (Regresin lineal, SVM..). Manipulacin de datos (pick & mix, muestreo, combinacin y separacin). Combinacin de modelos (Bagging, Boosting) 8. WEKA - WEKA - WEKA - WEKA - WEKA - WEKA - WEKA - WEKA - WEKA - WEKA - WEKA - WEKA - WEKA - WEKA - WEKA - WEKA - WEKA - WEKAUniversidad Nacional de Piura Per y Universidad Laica Eloy Alfaro de Manab - Ecuador. Datamining rboles de Decisinrboles de decisinEl algoritmo de rboles de decisin de es unalgoritmo hbrido que incorpora distintosmtodos para crear un rbol, y admite variastareas de anlisis, incluyendo la regresin, laclasificacin y la asociacin. El algoritmo derboles de decisin de admite el modelado delos atributos discretos y continuos (MSDN,2013). 9. WEKA - WEKA - WEKA - WEKA - WEKA - WEKA - WEKA - WEKA - WEKA - WEKA - WEKA - WEKA - WEKA - WEKA - WEKA - WEKA - WEKA - WEKAUniversidad Nacional de Piura Per y Universidad Laica Eloy Alfaro de Manab - Ecuador. Datamining rboles de DecisinLAS TRESINTERFACES DEWEKA 10. WEKA - WEKA - WEKA - WEKA - WEKA - WEKA - WEKA - WEKA - WEKA - WEKA - WEKA - WEKA - WEKA - WEKA - WEKA - WEKA - WEKA - WEKAUniversidad Nacional de Piura Per y Universidad Laica Eloy Alfaro de Manab - Ecuador. Datamining rboles de DecisinPantallaPrincipal 11. WEKA - WEKA - WEKA - WEKA - WEKA - WEKA - WEKA - WEKA - WEKA - WEKA - WEKA - WEKA - WEKA - WEKA - WEKA - WEKA - WEKA - WEKAUniversidad Nacional de Piura Per y Universidad Laica Eloy Alfaro de Manab - Ecuador. Datamining rboles de DecisinApertura delArchivoWeather.arff 12. WEKA - WEKA - WEKA - WEKA - WEKA - WEKA - WEKA - WEKA - WEKA - WEKA - WEKA - WEKA - WEKA - WEKA - WEKA - WEKA - WEKA - WEKAUniversidad Nacional de Piura Per y Universidad Laica Eloy Alfaro de Manab - Ecuador. Datamining rboles de DecisinVista 13. WEKA - WEKA - WEKA - WEKA - WEKA - WEKA - WEKA - WEKA - WEKA - WEKA - WEKA - WEKA - WEKA - WEKA - WEKA - WEKA - WEKA - WEKAUniversidad Nacional de Piura Per y Universidad Laica Eloy Alfaro de Manab - Ecuador. Datamining rboles de DecisinResultados 14. WEKA - WEKA - WEKA - WEKA - WEKA - WEKA - WEKA - WEKA - WEKA - WEKA - WEKA - WEKA - WEKA - WEKA - WEKA - WEKA - WEKA - WEKAUniversidad Nacional de Piura Per y Universidad Laica Eloy Alfaro de Manab - Ecuador. Datamining rboles de Decisinrbol 15. WEKA - WEKA - WEKA - WEKA - WEKA - WEKA - WEKA - WEKA - WEKA - WEKA - WEKA - WEKA - WEKA - WEKA - WEKA - WEKA - WEKA - WEKAUniversidad Nacional de Piura Per y Universidad Laica Eloy Alfaro de Manab - Ecuador. Datamining rboles de DecisinA modo de finalizacin: Propiamente en trminos de Datamining, el rbol de decisin al estar basado enalgoritmos de extraccin en reglas de asociacin, no solo que es eficiente, sino quetambin es escalable. Esta es una caracterstica esencial en la resolucin deproblemas de Data Mining, pues permite la utilizacin extraer informacin deenormes conjuntos de datos. Es de vital importancia el conocimiento de tcnicas que permitan anticiparse ypredecir los posibles resultados de las decisiones a tomar, apuntando siempre atener mayores posibilidades de xito y una adecuada gestin en administracin dediversos frentes. El manejo de tcnicas sencillas y compresibles de cmo llevar a cabo un adecuadoproceso de eleccin de estrategias y decisiones supone un paso adelante eneficiencia. 16. WEKA - WEKA - WEKA - WEKA - WEKA - WEKA - WEKA - WEKA - WEKA - WEKA - WEKA - WEKA - WEKA - WEKA - WEKA - WEKA - WEKA - WEKAUniversidad Nacional de Piura Per y Universidad Laica Eloy Alfaro de Manab - Ecuador. Datamining rboles de DecisinFuentes Mark Hall, Eibe Frank, Geoffrey Holmes, & Bernhard P. (2009). TheWEKA Data Mining Software: An Update; SIGKDD Explorations (Vol.XI). MSDN. (2013). Minera de datos. Recuperado el 31 de Marzo de2013, de http://msdn.microsoft.com/es-ec/library/bb510516.aspx MSDN. (2013). Referencia tcnica del algoritmo de rboles de decisinde Microsoft. Recuperado el 30 de Marzo de 2013, dehttp://msdn.microsoft.com/es-ec/library/cc645868(v=sql.100).aspxVer video en SkyDrive:https://skydrive.live.com/?cid=a1edc377dca0b10f#cid=A1EDC377DCA0B10F&id=A1EDC377DCA0B10F%21492