open analytics - minería de datos con knime

13
Introducción a la Minería de Datos con KNIME Diego García Saiz Grupo de Lenguajes y Sistemas Informáticos Universidad de Cantabria

Upload: openanalytics-spain

Post on 04-Jul-2015

652 views

Category:

Technology


0 download

DESCRIPTION

Knime es una plataforma de minería de datos que permite el desarrollo de modelos en un entorno visual y amigable. Su desarrollo está bajo licencia GPL y está programado sobre la plataforma Eclipse y Java.En la charla se mostrará cómo realizar un proyecto de minería de datos y análisis con algoritmos conocidos para clasificación, asociación o predicción de datos empresariales. Presentado por Diego García : Ingeniero informático e investigador en la Universidad de Cantabria. Profesor de asignaturas del grado en informática de DataMining, Inteligencia Artificial y Algoritmia. En el campo de la investigación busca detectar patrones de comportamiento en plataformas E-learning para mejorar la docencia.

TRANSCRIPT

Page 1: Open Analytics - Minería de Datos con Knime

Introducción a la Minería de Datos con

KNIMEDiego García Saiz

Grupo de Lenguajes y Sistemas Informáticos

Universidad de Cantabria

Page 2: Open Analytics - Minería de Datos con Knime

Introducción al contexto

• Gran cantidad de datos almacenados.

– Por parte de empresas: marketing, hipermercados, servicios, banca,

etc.

– Redes Sociales: Facebook, Twitter, Tuenti, LinkedIn y otras muchas.

– Y en muchos otros ámbitos: educativo (cursos online), institucional

(gobierno), médico, etc.

• ¿Qué hacer con todos esos datos?.

– Podríamos utilizarlos para extraer información relevante con el objeto

de ayudar a la toma de decisiones en el negocio, el gobierno, la

sanidad, la educación, las ventas, etc.

– Para esto tenemos la Minería de Datos.

Page 3: Open Analytics - Minería de Datos con Knime

¿Minería de datos?. Definición formal

• El datamining (minería de datos), es el conjunto de

técnicas y tecnologías que permiten explotar grandes

cantidades de datos, de forma automática o

semiautomática, con el objetivo de encontrar patrones

repetitivos, tendencias o reglas que expliquen el

comportamiento de los datos en un determinado

contexto.

Más simple: La minería de datos es un

proceso consistente en entender y

extraer información relevante para el

desarrollo del negocio, que no podría

extraerse de otra forma.

Page 4: Open Analytics - Minería de Datos con Knime

No sólo de extraer patrones viven los

“datamineros”: CRIPS-DM

Page 5: Open Analytics - Minería de Datos con Knime

Tres grandes grupos de

algoritmos• Agrupamiento (clustering).

• Reglas de asociación.

• Predicción: clasificación.

Page 6: Open Analytics - Minería de Datos con Knime
Page 7: Open Analytics - Minería de Datos con Knime

• Conjunto de técnicas de Minería de Datos que determinan y

asignan a los individuos o elementos a grupos de similares

características.

Consiste en diferenciar subconjuntos de datos que comparten

características similares.

Ejemplos:

Identificar rasgo comunes en un conjunto de la población.

Conocer los perfiles de usuario de una red social según su actividad.

Agrupar los datos de una campaña de marketing según sus

resultados.

Agrupamiento (clustering)

Page 8: Open Analytics - Minería de Datos con Knime

Agrupamiento (clustering)

Page 9: Open Analytics - Minería de Datos con Knime

• Ejemplo: Perfil de los alumnos en un curso online según la

actividad que desarrollan.

• Como datos, tenemos su actividad en el curso medida

en, tiempo dedicado, número de sesiones, mensajes

leídos y escritos en el foro, etc.

Resultado de aplicar el algoritmo Kmeans:

Agrupamiento (clustering)

Cluster 1 Cluster 2 Cluster 3

Tiempo Dedicado 103 minutos 1394 minutos 2917 minutos

Sesionesdedicadas

10 sesiones 90 sesiones 180 sesiones

Mensajes escritos en el foro

5 mensajes 21 mensajes 89 mensajes

Page 10: Open Analytics - Minería de Datos con Knime

Predicción: Clasificación

• Consiste en la clasificación de individuos en una determinada clase

según sus características, para poder inferir predicciones en un

futuro.

• Ejemplos: conocer si…

• … un cliente realizará una hipoteca con el banco.

• … las acciones de una empresa subirán o bajarán en un

momento determinado.

• … un alumno aprobará o suspenderá una asignatura.

• … un paciente tiene una enfermedad concreta según sus

síntomas y datos personales.

• … una campaña de marketing tendrá éxito.

Page 11: Open Analytics - Minería de Datos con Knime

Clasificación: Ejemplo

• Campaña de marketing telefónico de un banco portugués para

atraer clientes de depósitos

• Conjunto de datos: contiene información personal de los

clientes, incluida información bancaria.

• Estado civil (soltero, casado, viudo)

• Sexo

• Edad

• Mes de la llamada

• Hipotecas del cliente en el banco

• Créditos del cliente en el banco

• Y muchos otros…

Page 12: Open Analytics - Minería de Datos con Knime

• Resultados (algoritmo C4.5)

Duration

Age

Married

Credit

<= 211

> 211 and <=645

Clasificación: Ejemplo

> 645

> 60

yes

yesno

no

NO

YESNO

Page 13: Open Analytics - Minería de Datos con Knime