taller práctico de analítica predictiva con rapid miner

7

Click here to load reader

Upload: lpi-ong

Post on 13-Apr-2017

747 views

Category:

Education


8 download

TRANSCRIPT

Page 1: Taller práctico de Analítica Predictiva  con Rapid Miner

Limitless Power of Information (LPI) AddKw S.r.L.

TALLER PRÁCTICO DE ANÁLISIS PREDICTIVO CON RAPID MINER

CONSTRUCCION DE MODELOS MATEMÁTICOS PARA LA TOMA DE DECISIONES

1

FORMACION PRÁCTICA EN ANALITICA PREDICTIVA

24 DE FULL PRÁCTICA

Page 2: Taller práctico de Analítica Predictiva  con Rapid Miner

Limitless Power of Information (LPI) AddKw S.r.L.

TALLER PRÁCTICO DE ANÁLISIS PREDICTIVO CON RAPID MINER

CONSTRUCCION DE MODELOS MATEMÁTICOS PARA LA TOMA DE DECISIONES

2

1. SUMILLA El análisis predictivo relaciona los datos con las acciones efectuadas por las organizaciones tal que permitan llegar a conclusiones fiables sobre eventos actuales y futuros, permite mejorar el conocimiento del negocio tal como el comportamiento de los clientes, empleados, pacientes, estudiantes y ciudadanos. Los dominios de aplicación pueden estar en empresas comercializadoras, de producción, finanzas, energía, gobierno, etc. La minería de datos es el proceso de descubrir conocimiento desde bases de datos, mediante un proceso de extracción no trivial de información implícita, previamente desconocida y potencialmente útil. Descubrir conocimiento implica buscar patrones de comportamiento aún no conocidos en los datos. El conocimiento se puede manifestar como: patrones, reglas de conocimiento, asociaciones, grupos, restricciones, tendencias, etc. La minería de textos es el proceso para descubrir conocimiento almacenado en documentos (datos no estructurados). Comprende las siguientes actividades fundamentales: Clasificación de documentos para la asignación automática a clases pre-definidas; Agrupamiento de documentos para la identificación de documentos similares; Recuperación de información (similar a un buscador); Extracción de la información incluida en esos textos (hechos); y Extracción de asociaciones entre los hechos extraídos. 2. OBJETIVOS Al final del curso los alumnos estarán en capacidad de:

Comprender y usar las técnicas para el muestreo, descripción, limpieza y transformación de datos mediante la identificación y eliminación de datos extremos, valores nulos y datos mal clasificados, la selección de características y el balanceo de datos.

Comprender el proceso de la minería de datos para extraer patrones de comportamiento haciendo uso de la metodología CRISP-DM.

Diseñar, desarrollar, evaluar y comprender los modelo descriptivos – reglas de asociación y agrupamiento y los modelos predictivos – clasificación y regresión, con la finalidad de identificar patrones de comportamiento (conocimiento oculto).

Comprender y aplicar los conceptos necesarios para evaluar el rendimiento de los modelos basado en su efectividad haciendo uso de la matriz de clasificación y del MAPE

Comprender, usar y entender los resultados entregados por los programas de software.

Entender y aplicar los algoritmos de redes neuronales, árboles de decisión, modelo naive bayes, regresión logística, k-means, maximización de expectativas y algoritmo a priori.

Page 3: Taller práctico de Analítica Predictiva  con Rapid Miner

Limitless Power of Information (LPI) AddKw S.r.L.

TALLER PRÁCTICO DE ANÁLISIS PREDICTIVO CON RAPID MINER

CONSTRUCCION DE MODELOS MATEMÁTICOS PARA LA TOMA DE DECISIONES

3

3. LA METODOLOGIA DE ENSEÑANZA El curso se desarrolla a través de procesos de e-learning de transferencia de conocimiento, basados en la plataforma TeamViewer (TeamViewer es un plataforma altamente eficiente en el proceso de intercambio de conocimiento). Se presentarán diapositivas y transparencias para las sesiones del curso.

En cada sesión se desarrolla un grupo de conceptos que luego son reforzados mediante el desarrollo de un caso de aplicación práctica.

Tareas domiciliarias para desarrollar casos que integran los conceptos previamente aprendidos.

4. DOMINIOS DE APLICACIÓN

Riesgos Financieros

Riesgos de Fraudes

Riesgos de Accidentes de Trabajo

Deserción de clientes

Detección de fraudes

Segmentación de Clientes

Ventas Cruzadas

Patrones Secuenciales

Análisis de opiniones subjetivas

Similaridad de documentos

Búsqueda e indexación de documentos

Análisis de mensajes en redes sociales

Análisis de encuestas abiertas.

Análisis de post en blogs.

Análisis de correos electrónicos (spam).

Estructuración de base de datos. 5. REQUISITOS

Cada estudiante debe disponer de una computadora personal. 1. Una Línea de Internet mínimo de 2 MB. 2. Un equipo I5 con mínimo 4 GB de RAM, Tercera Generación, ya que se les entregará

una máquina virtual con el Software Base Instalado. 3. Debe tener el Audio y el video correcto.

Es deseable que los alumnos tengan experiencia en (no indispensable) en: 4. Base de datos relacionales (MS SQL, mySQL, Oracle, Sybase, etc.) 5. Estadística y probabilidades 6. Hoja de cálculo.

Page 4: Taller práctico de Analítica Predictiva  con Rapid Miner

Limitless Power of Information (LPI) AddKw S.r.L.

TALLER PRÁCTICO DE ANÁLISIS PREDICTIVO CON RAPID MINER

CONSTRUCCION DE MODELOS MATEMÁTICOS PARA LA TOMA DE DECISIONES

4

6. QUIENES PUEDEN ASISTIR

Analistas de riesgos.

Analistas de marketing en la web.

Analistas de marketing, mercadeo o de pronóstico.

Investigadores de mercado que desean analizar encuestas abiertas.

Personal involucrado en proyectos de Business Intelligence.

Personal involucrado en proyectos de pronóstico y predicción.

Profesionales de estadísticos y economía.

Profesionales en estadística interesados en analizar el contenido de textos no estructurados (formularios, encuestas, etc.).

Administradores de Bases de Datos. 7. EVALUACIONES

Se plantea el desarrollo de casos de aplicación que deben ser entregado durante el desarrollo del curso.

El enunciado de los casos de aplicación se entregá al finalizar cada sesión. 8. CERTIFICADO

Para recibir el certificado de aprobación del curso, los alumnos deben asistir al 100% de las sesiones y desarrollar un conjunto de ejercicios que demuestran su aprendizaje.

Los alumnos que asistan al 100% de las sesiones y no entregan la tareas reciben una constancia de asistencia por 16 horas.

9. DURACION

24 horas 10. SOFTWARE PARA EL DESARROLLO DEL CURSO

Para el desarrollo del curso se hace uso del software libre Rapidminer.

Page 5: Taller práctico de Analítica Predictiva  con Rapid Miner

Limitless Power of Information (LPI) AddKw S.r.L.

TALLER PRÁCTICO DE ANÁLISIS PREDICTIVO CON RAPID MINER

CONSTRUCCION DE MODELOS MATEMÁTICOS PARA LA TOMA DE DECISIONES

5

11. BIBLIOGRAFIA

1. Introducción a la minería de datos. 2004. José Hernández, M.José Ramírez, Cèsar

Ferri. Editorial Pearson, ISBN: 84 205 4091 9 2. Data Mining with Microsoft SQL Server 2008. 2009 Jamie MacLennan, ZhaoHui Tang,

Bogdan Crivat. Wiley Publishing Inc. ISBN 908-0-470-27774-4 3. Data Mining: Practical Machine Learning Tools and Techniques. 2005 Ian H.

Witten, Eibe Frank. Morgan Kaufmann; 2st edition. 560 pp. ISBN: 0120884070 4. Data Mining: Concepts and Techniques, 2000 Jiawei Han, Micheline Kamber.

Morgan Kaufmann; 1st edition, 500 pp. ISBN: 1558604898

Page 6: Taller práctico de Analítica Predictiva  con Rapid Miner

Limitless Power of Information (LPI) AddKw S.r.L.

TALLER PRÁCTICO DE ANÁLISIS PREDICTIVO CON RAPID MINER

CONSTRUCCION DE MODELOS MATEMÁTICOS PARA LA TOMA DE DECISIONES

6

12. UNIDADES Y CONTENIDOS TEMÁTICOS POR SESIÓN 24 Horas

Sesión HRS. TEMA

1 4

INTRODUCCIÓN A LOS FUNDAMENTOS DE MINERÍA DE DATOS

Fundamentos de análisis de datos. Conceptos y conocimientos previos. Datos, información conocimiento, patrón de comportamiento, reconocimiento de patrones Definición de la Minería de Datos. Herramientas de software disponibles. Modelo de minería de datos. Evaluación del desempeño. Matriz de confusión. Lift charts. Curva ROC. El proceso de la minería de datos. Metodologías para la minería de datos. CRISP-DM. SEMMA. El proceso de la minería de datos (CRISP). Caso de Aplicación (Uso del RapidMiner) Administración y gestión del Rapidminer, conexión a DBMS, consultas y actualizaciones de datos. Desarrollo de ejemplos de aplicación con datasets de prueba, ejemplos de modelos de clasificación, consultas al modelo.

2 4

ENTENDIMIENTO Y PREPARACIÓN DE

Entendimiento de los datos. Recolección de datos iníciales. Descripción de los datos. Estadísticas descriptiva univariada y multivariada. Relaciones entre series de datos. Exploración de los datos. Verificación de la calidad de los datos. Preparación de datos. Limpieza de datos. Datos perdidos. Valores extremos. Datos con ruido. Datos mal clasificados. Datos inconsistentes. Integración de datos. Transformación de datos. Reducción de datos. Reducción de datos. Reducción de instancias. Caso de Aplicación (Construcción del Dataset) Preparación del DataSet de un modelo de crediscoring, desde el historial crediticio de clientes en una entidad financiera.

3 4

MODELOS DE CLASIFICACIÓN – ARBOLES DE DECISION (

Métodos de Clasificación. Inducción. Atributos y clase. Evaluación de modelos de clasificación. Probabilidad de una clasificación. Clasificador Naive Bayes. Probabilidades. Clasificador Naive Bayes. Arboles de Decisión. Árbol de decisión. Información y entropía. Generación del árbol de decisión. Poda del árbol. Regresión Logística. Discretización y numerización. Caso de Aplicación (Propensión de compras) Modelo para el cálculo de la propensión de compras de productos, identificación de la conducta de los clientes, identificación de los factores de compra.

Page 7: Taller práctico de Analítica Predictiva  con Rapid Miner

Limitless Power of Information (LPI) AddKw S.r.L.

TALLER PRÁCTICO DE ANÁLISIS PREDICTIVO CON RAPID MINER

CONSTRUCCION DE MODELOS MATEMÁTICOS PARA LA TOMA DE DECISIONES

7

4 4

MODELOS DE REGRESIÓN – REDES NEURONALES

Modelos de Regresión. Evaluación de modelos de regresión. MAPE. Neuronas naturales y artificiales. Épocas, función de transferencia. Aprendizaje de la red neuronal. Preparación de datos. Red Perceptrón. Red de retro propagación. Análisis de las Redes Neuronales. Sub-ajuste y sobre-ajuste. Normalización de datos. Neuronas de la capa intermedia. Caso de Aplicación (Pronóstico de la Demanda) Modelo para pronosticar la demanda de efectivo en cajeros electrónicos, desde datos históricos. Cálculo de la efectividad del pronóstico.

5 2

MODELOS DE AGRUPAMIENTO – K-MEANS Y ALGORITMO EM

Modelos de agrupamiento. Conceptos de agrupamiento. Conceptos de agrupamiento. Medidas de distancias. Tipos de agrupamiento. Componentes Principales. Modelos de Agrupamiento. K-means. Jerárquico. Modelos de agrupamiento y modelos de clasificación. Caso de Aplicación (Segmentación de Clientes) Segmentación de clientes, desde su comportamiento de compra. Generación del modelo de clasificación.

6 2

MODELOS DE ASOCIACIÓN – ALGORITMO A PRIORI

Conceptos acerca de modelos de asociación, entendiendo conceptos como: soporte, confianza, itemset. Buscando itemsets frecuentes. Graficando las reglas de asociación. Generando reglas de asociación. Predicción. Ventas cruzadas, Canasta de mercado. Caso de Aplicación (Canasta de Mercado) Construcción del Dataset Identificación de reglas en el comportamiento de compras de clientes desde datos de facturación, cálculo del soporte y cálculo de la confianza.

7 4

MODELADO DE PRECIO Y PROMOCIÓN

Análisis de la demanda. Factores de compra, sustitutos. Curva de demanda, elasticidad de la demanda, análisis de la elasticidad de la demanda. Variaciones en los precios. Factores de compra, análisis de la mezcla, programación de las promociones. Caso de Aplicación Ejemplo de modelado de precios. Ejemplo del modelado de promociones.