técnicas del aprendizaje automático para la asistencia en la toma de...

39
SIINCO 2004 1 Técnicas del aprendizaje automático para la asistencia en la toma de decisiones Cèsar Ferri Ramírez Chihuahua, 12 de octubre de 2004. Departament de Sistemes Informàtics i Computació Universitat Politècnica de València, Valencia, Spain [email protected]

Upload: others

Post on 28-Aug-2020

0 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Técnicas del aprendizaje automático para la asistencia en la toma de …users.dsic.upv.es/~cferri/chihuahua.pdf · 2018. 12. 24. · Aprendizaje Automático • El área de aprendizaje

SIINCO 2004 1

Técnicas del aprendizaje automático para la asistencia en la toma de

decisiones

Cèsar Ferri Ramírez

Chihuahua, 12 de octubre de 2004.

Departament de Sistemes Informàtics i ComputacióUniversitat Politècnica de València,Valencia, [email protected]

Page 2: Técnicas del aprendizaje automático para la asistencia en la toma de …users.dsic.upv.es/~cferri/chihuahua.pdf · 2018. 12. 24. · Aprendizaje Automático • El área de aprendizaje

SIINCO 2004 2

Resumen

• Introducción• Aprendizaje Automático y Minería de

Datos• Caso Práctico• Análisis ROC• Ejemplo de Mailing• Conclusiones

Page 3: Técnicas del aprendizaje automático para la asistencia en la toma de …users.dsic.upv.es/~cferri/chihuahua.pdf · 2018. 12. 24. · Aprendizaje Automático • El área de aprendizaje

SIINCO 2004 3

Introducción

• El aumento del volumen y variedad de información que se encuentra informatizada en bases de datos ha crecido espectacularmente en las últimas décadas:– Ventas– Carga de urgencias– Evolución de los valores bursátiles– Número de estudiantes que abandonan la universidad– Accidentes automovilísticos

• Esta información es útil para explicar el pasado, entender el presente y predecir la información futura.

Page 4: Técnicas del aprendizaje automático para la asistencia en la toma de …users.dsic.upv.es/~cferri/chihuahua.pdf · 2018. 12. 24. · Aprendizaje Automático • El área de aprendizaje

SIINCO 2004 4

Introducción

• La mayoría de decisiones de empresas, organizaciones e instituciones se basan en la información almacenada sobre experiencias pasadas– Cuántos productos se deben mantener en stock?– Cuántas camas se deben reservar para urgencias– Debo vender mis valores?– Cuántos aulas debo reservar para el próximo curso?– Que cuota debo cobrar a un cliente por su seguro del auto?

• Tradicionalmente, estas decisiones las tomaban personas expertas a partir de un análisis e interpretación de los datos realizados de forma manual– Método caro, lento y subjetivo.– Impracticable cuando el volumen de los datos es alto

Page 5: Técnicas del aprendizaje automático para la asistencia en la toma de …users.dsic.upv.es/~cferri/chihuahua.pdf · 2018. 12. 24. · Aprendizaje Automático • El área de aprendizaje

SIINCO 2004 5

Aprendizaje Automático

• El área de aprendizaje automático aporta varias técnicas que pueden asistir a las personas en la toma de decisiones en estos contextos.

• El aprendizaje automático ha sido definido en [Mitchell1997] como el área de la informática que se centra en el problema de cómo construir programas que son capaces de mejorar su comportamiento automáticamente mediante la experiencia.

• La aplicación de técnicas de aprendizaje automático para la extracción de conocimiento desde bases de datos ha sido denominado como minería de datos [Hernández, Ramírez & Ferri 2004].

Page 6: Técnicas del aprendizaje automático para la asistencia en la toma de …users.dsic.upv.es/~cferri/chihuahua.pdf · 2018. 12. 24. · Aprendizaje Automático • El área de aprendizaje

SIINCO 2004 6

Minería de Datos

• La minería de datos es el proceso de extraer conocimiento útil y comprensible, previamente desconocido, desde grandes cantidades de datos almacenados en distintos formatos [Witten & Frank2000] .

• Otro término utilizado es el de extracción o “descubrimiento de conocimiento en bases de datos” (Knowledge Discovery in Databases, KDD).

• En [Fayyad et al. 1996] se define el KDD como “el proceso no trivial de identificar patrones válidos, novedosos, potencialmente útiles y, en última instancia, comprensibles a partir de los datos”.

Page 7: Técnicas del aprendizaje automático para la asistencia en la toma de …users.dsic.upv.es/~cferri/chihuahua.pdf · 2018. 12. 24. · Aprendizaje Automático • El área de aprendizaje

SIINCO 2004 7

Minería de datos

Sistema de información

KDD

Conocimiento Evaluación /

Interpretación / Visualización

Preparación de los datos

Patrones Minería

de datos

• Últimamente se ha usado el término KDD para referirse a un proceso que consta de una serie de fases, mientras que la minería de datos es sólo una de estas fases.

Page 8: Técnicas del aprendizaje automático para la asistencia en la toma de …users.dsic.upv.es/~cferri/chihuahua.pdf · 2018. 12. 24. · Aprendizaje Automático • El área de aprendizaje

SIINCO 2004 8

Fases del Proceso de Extracción de Conocimiento

+ + + + - - -

conocimiento

decisiones

datos iniciales

datos seleccionados(vista minable)

5. difusión y uso

1. integración y recopilación

2. selección, limpieza y transformación

3. minería de datos

4. evaluación einterpretación

almacén de datos

patrones

Page 9: Técnicas del aprendizaje automático para la asistencia en la toma de …users.dsic.upv.es/~cferri/chihuahua.pdf · 2018. 12. 24. · Aprendizaje Automático • El área de aprendizaje

SIINCO 2004 9

Tareas de la Minería de Datos

• Clasificación. Cada instancia pertenece a una clase (categórica), la cual se indica mediante el valor de un atributo que llamamos la clase de la instancia.– ¿El cliente X comprará el producto?

• Regresión. Consiste en aprender una función real que asigna a cada instancia un valor real.– ¿Cuántas camas tendrá libre el hospital la semana próxima?

• Agrupamiento. Consiste en obtener grupos “naturales” a partir de los datos.– Identificar grupos de clientes de una librería en base a sus

preferencias de compras que le permita dar un servicio más personalizado.

Page 10: Técnicas del aprendizaje automático para la asistencia en la toma de …users.dsic.upv.es/~cferri/chihuahua.pdf · 2018. 12. 24. · Aprendizaje Automático • El área de aprendizaje

SIINCO 2004 10

Tareas de la Minería de Datos

• Correlaciones. son una tarea descriptiva que se usa para examinar el grado de similitud de los valores de dos variables numéricas.– Conocer la correlación entre los días de helada y la

producción de naranjas en un año.

• Reglas de asociación. Tiene como objetivo identificar relaciones no explícitas entre atributos categóricos.– Análisis de la cesta de la compra

Page 11: Técnicas del aprendizaje automático para la asistencia en la toma de …users.dsic.upv.es/~cferri/chihuahua.pdf · 2018. 12. 24. · Aprendizaje Automático • El área de aprendizaje

SIINCO 2004 11

Tareas de la Minería de Datos

• Reglas de asociación secuenciales. Sirven para determinar patrones secuenciales en los datos.– El 30% de los clientes que compran un televisor compran

un reproductor de DVD dentro del mes siguiente.

Page 12: Técnicas del aprendizaje automático para la asistencia en la toma de …users.dsic.upv.es/~cferri/chihuahua.pdf · 2018. 12. 24. · Aprendizaje Automático • El área de aprendizaje

SIINCO 2004 12

Técnicas de la Minería de Datos

• Métodos estadísticos. Regresión, funciones discriminantes...

• Métodos basados en núcleo. SVM...

• Métodos Bayesianos. Naive Bayes..

• Reglas y árboles de decisión. ILP..

• Técnicas de conteo y soporte mínimo. Apriori...

Page 13: Técnicas del aprendizaje automático para la asistencia en la toma de …users.dsic.upv.es/~cferri/chihuahua.pdf · 2018. 12. 24. · Aprendizaje Automático • El área de aprendizaje

SIINCO 2004 13

Técnicas de la Minería de Datos

• Redes neuronales.

• Aprendizaje basado en casos.

• Algoritmos evolutivos.

Page 14: Técnicas del aprendizaje automático para la asistencia en la toma de …users.dsic.upv.es/~cferri/chihuahua.pdf · 2018. 12. 24. · Aprendizaje Automático • El área de aprendizaje

SIINCO 2004 14

Aplicaciones de la Minería de Datos

– Aplicaciones financieras y bancarias– Análisis de mercado, distribución y, en general, comercio– Seguros y salud privada– Medicina– Educación– Procesos Industriales– Biología, bioingeniería y otras ciencias– Telecomunicaciones

Page 15: Técnicas del aprendizaje automático para la asistencia en la toma de …users.dsic.upv.es/~cferri/chihuahua.pdf · 2018. 12. 24. · Aprendizaje Automático • El área de aprendizaje

SIINCO 2004 15

Caso Práctico

• Deseamos mejorar el rendimiento académico de unos alumnos de una determinada asignatura.

• ¿Cómo podemos utilizar el aprendizaje automático para ayudarnos en estos fines?– Utilizar las experiencias pasadas de estudiantes para guiar

a los alumnos en sus hábitos de estudio.

Page 16: Técnicas del aprendizaje automático para la asistencia en la toma de …users.dsic.upv.es/~cferri/chihuahua.pdf · 2018. 12. 24. · Aprendizaje Automático • El área de aprendizaje

SIINCO 2004 16

Caso Práctico: Recopilación de datos

• Encuestas al alumnado que acaban de realizar el examen de la asignatura– Datos generales

• Sexo• Edad• ¿Trabajas?

– Datos académicos• Años de estudio• Nota de acceso

– Hábitos de estudio• Horas de dedicación• Material empleado: Exámenes anteriores, otras fuentes

– Resultados académicos• Nota del examen

Page 17: Técnicas del aprendizaje automático para la asistencia en la toma de …users.dsic.upv.es/~cferri/chihuahua.pdf · 2018. 12. 24. · Aprendizaje Automático • El área de aprendizaje

SIINCO 2004 17

Caso Práctico: Recopilación de datos

• Pase de encuestas:

– Hoja de encuestas.• Permite una mejor recopilación de los datos• Requiere más trabajo: Recopilación y tratamiento manual de

los datos

– Formulario web (Servidor web + PHP).• Datos sesgados• Recopilación y tratamiento automático de los datos

Page 18: Técnicas del aprendizaje automático para la asistencia en la toma de …users.dsic.upv.es/~cferri/chihuahua.pdf · 2018. 12. 24. · Aprendizaje Automático • El área de aprendizaje

SIINCO 2004 18

Caso Práctico: Selección, Limpieza y Transformación

• Selección: En este caso dado que el volumen de los datos (registros o atributos) es limitado no es necesario este paso.

• Limpieza: Tratamiento de valores desconocidos o anómalos. Eliminación de los registros que puedan parecer sospechosos de ser falsos o bien problemáticos.

• Transformación: Podemos decidir convertir algún atributo de numérico a categórico, o viceversa. Por ejemplo, convertir la nota del examen en valor categórico con dos valores: Aprobado (5<=X<=10) o suspendido (0<=X<5).

Page 19: Técnicas del aprendizaje automático para la asistencia en la toma de …users.dsic.upv.es/~cferri/chihuahua.pdf · 2018. 12. 24. · Aprendizaje Automático • El área de aprendizaje

SIINCO 2004 19

Caso Práctico: Minería de datos

• Aprender un modelo predictivo que determine si un alumno aprueba o no de acuerdo a los atributos recopilados.

• Utilizamos árboles de decisión como técnica de aprendizaje:– Técnica de aprendizaje que construye modelos precisos de

manera eficiente.– Modelo fácilmente comprensible e implementable

Page 20: Técnicas del aprendizaje automático para la asistencia en la toma de …users.dsic.upv.es/~cferri/chihuahua.pdf · 2018. 12. 24. · Aprendizaje Automático • El área de aprendizaje

SIINCO 2004 20

Caso Práctico: Minería de datos

• Árbol de decisión para determinar recomendación o no de cirugía ocular:

¿Edad?≤25

>25 y ≤50 >50

≤1.5 >1.5 y ≤10 >10

NO

NO

NO SÍ

NO SÍ

NO

>6 ≤6

no sí

¿Miopía?

¿Miopía?

¿Astigmatismo?

Page 21: Técnicas del aprendizaje automático para la asistencia en la toma de …users.dsic.upv.es/~cferri/chihuahua.pdf · 2018. 12. 24. · Aprendizaje Automático • El área de aprendizaje

SIINCO 2004 21

Caso Práctico: Minería de datos

• Multi-clasificadores: Aumentan la precisión a costa de perder comprensibilidad

Datos

Árbol de decisión

Árbol de decisión

a1a2

c0

C1

a1a2

c0

a1a2

c0

C2

Cn

Predicción CombinadaCombinación

Árbol de decisión

Page 22: Técnicas del aprendizaje automático para la asistencia en la toma de …users.dsic.upv.es/~cferri/chihuahua.pdf · 2018. 12. 24. · Aprendizaje Automático • El área de aprendizaje

SIINCO 2004 22

Caso Práctico: Minería de datos

• Weka,suite informática de minería de datos de libre distribución.

• Multitud de técnicas de aprendizaje

• Permite tratamiento previo de datos

• Visualización de modelos

• Experimentos de comparación de métodos de aprendizaje

Page 23: Técnicas del aprendizaje automático para la asistencia en la toma de …users.dsic.upv.es/~cferri/chihuahua.pdf · 2018. 12. 24. · Aprendizaje Automático • El área de aprendizaje

SIINCO 2004 23

Caso Práctico: Evaluación de modelos

• Debemos medir la calidad de los modelos aprendidos.

• Se suele utilizar la precisión como métrica de calidad: – Precisión= Nº de casos acertados/ Nº de casos totales

• Técnicas de evaluación:– Evaluar sobre los datos de entrenamiento: Peligro de

sobreajuste.– Partir los datos en entrenamiento/test: Perdemos datos

para el aprendizaje– Validación cruzada.

Page 24: Técnicas del aprendizaje automático para la asistencia en la toma de …users.dsic.upv.es/~cferri/chihuahua.pdf · 2018. 12. 24. · Aprendizaje Automático • El área de aprendizaje

SIINCO 2004 24

Caso Práctico: Difusión y Uso de Modelos

• Una vez comprobado la validez del modelo aprendido se puede utilizar

• Implementación del modelo en un formulario web.1. El alumno introduce sus datos en el formulario2. El modelo devuelve una predicción acerca del resultado

del examen de acuerdo con los datos introducidos3. Si la respuesta es negativa, incluso podemos utilizar el

árbol de decisión para averiguar qué aspectos debe el alumno modificar para aprobar el examen

• Necesidad de re-evaluar y re-entrenar el modelo de acuerdo a los cambios en el contexto

Page 25: Técnicas del aprendizaje automático para la asistencia en la toma de …users.dsic.upv.es/~cferri/chihuahua.pdf · 2018. 12. 24. · Aprendizaje Automático • El área de aprendizaje

SIINCO 2004 25

Aprendizaje Sensible al Coste

• La precisión es una medida de evaluación de modelos de clasificación bastante utilizada.

• No es muy conveniente en contextos con diferentes costes asociados a los errores

• Matriz de coste de un modelo de detección de fraude en tarjetas de crédito

0100€No10€0SíNoSí

Real

Predicho

Page 26: Técnicas del aprendizaje automático para la asistencia en la toma de …users.dsic.upv.es/~cferri/chihuahua.pdf · 2018. 12. 24. · Aprendizaje Automático • El área de aprendizaje

SIINCO 2004 26

Aprendizaje Sensible al Coste

• Se han definido varios métodos específicos para contextos con costes de clasificación errónea asociados

• Existen varios métodos que permiten adaptar métodos de aprendizaje clásicos a estos contextos– Estratificación: (Sobremuestreo y submuestreo)

• Sin embargo, no siempre es posible conocer el contexto de costes en el momento del aprendizaje

Page 27: Técnicas del aprendizaje automático para la asistencia en la toma de …users.dsic.upv.es/~cferri/chihuahua.pdf · 2018. 12. 24. · Aprendizaje Automático • El área de aprendizaje

SIINCO 2004 27

Análisis ROC

• Cuando no se conoce la matriz de coste, existen técnicas que permiten seleccionar un conjunto de modelos para un determinado contexto de coste.– Análisis ROC: Receiver Operating Characteristic

• Técnica utilizada en medicina para optimizar las decisiones cuando hay incertidumbre

• Ha sido adaptada recientemente en el área del aprendizaje automático

Page 28: Técnicas del aprendizaje automático para la asistencia en la toma de …users.dsic.upv.es/~cferri/chihuahua.pdf · 2018. 12. 24. · Aprendizaje Automático • El área de aprendizaje

SIINCO 2004 28

Análisis ROC

• Dado un clasificador con la siguiente matriz de confusión:

• Normalizamos por columna

4010No2030SíNoSí

Real

Predicho

0.670.25No0.330.75SíNoSí

Real

PredichoTPR

FPR

Diagrama ROC

0 1

1

0FPR

TPR

Page 29: Técnicas del aprendizaje automático para la asistencia en la toma de …users.dsic.upv.es/~cferri/chihuahua.pdf · 2018. 12. 24. · Aprendizaje Automático • El área de aprendizaje

SIINCO 2004 29

Análisis ROC

• Dado un conjunto de modelos:

– Podemos construir la curva convexa con sus puntos (FPR,TPR) y los clasificadores triviales (0,0), (1,1), (1,0).

– Los clasificadores que se encuentran dentro de la curva ROC pueden ser descartados

– El mejor modelo (perteneciente a la curva) puede ser seleccionado cuando se conozca el contexto de aplicación

Diagrama ROC

0 1

1

0FPR

TPR

ClasificadoresTriviales

Page 30: Técnicas del aprendizaje automático para la asistencia en la toma de …users.dsic.upv.es/~cferri/chihuahua.pdf · 2018. 12. 24. · Aprendizaje Automático • El área de aprendizaje

SIINCO 2004 30

Análisis ROC

• Si deseáramos seleccionar sólo un clasificador sin conocer el contexto de aplicación:

– Calculamos el área bajo la curva ROC (AUC) de cada modelo y escogemos el de mayor área.

ROC diagram

0 1

1

0FPR

TPR

Clasificador con mayor AUC

AUC

Page 31: Técnicas del aprendizaje automático para la asistencia en la toma de …users.dsic.upv.es/~cferri/chihuahua.pdf · 2018. 12. 24. · Aprendizaje Automático • El área de aprendizaje

SIINCO 2004 31

Análisis ROC: Ejemplo

• Deseamos aprender un modelo para la detección automática de correos basura

• El coste de clasificar un correo como basura cuando realmente no lo es (FP) es mucho más alto que no detectar un correo basura (FN)

• Construimos un conjunto de modelos utilizando para ello diferentes técnicas de aprendizaje– Utilizamos el Análisis ROC para seleccionar el subconjunto

óptimo de modelos• Si conocemos el contexto de aplicación seleccionamos el

modelo con menor coste• En otro caso seleccionamos el modelo con mayor AUC

Page 32: Técnicas del aprendizaje automático para la asistencia en la toma de …users.dsic.upv.es/~cferri/chihuahua.pdf · 2018. 12. 24. · Aprendizaje Automático • El área de aprendizaje

SIINCO 2004 32

Diseño de Campañas

• Utilización aprendizaje automático puede ayudar en el diseño de campañas de publicidad por correo

• Esta empresa desea promocionar la venta de un nuevo producto: un mando de piloto para ser utilizado en programas de simulación de vuelo.

• Supongamos que una empresa de venta de productos informáticos por catálogo posee una base de datos de clientes, con datos sobre estos clientes.

Page 33: Técnicas del aprendizaje automático para la asistencia en la toma de …users.dsic.upv.es/~cferri/chihuahua.pdf · 2018. 12. 24. · Aprendizaje Automático • El área de aprendizaje

SIINCO 2004 33

Diseño de Campañas

• Podríamos enviar propaganda a todos sus clientes– Solución poco rentable

• Podemos utilizar técnicas de aprendizaje automático para poder predecir la respuesta de un determinado cliente al envío de la propaganda y utilizar esta información para optimizar el diseño de la campaña.

Page 34: Técnicas del aprendizaje automático para la asistencia en la toma de …users.dsic.upv.es/~cferri/chihuahua.pdf · 2018. 12. 24. · Aprendizaje Automático • El área de aprendizaje

SIINCO 2004 34

Diseño de Campañas

1. Selección de una muestra aleatoria y suficientemente numerosa de clientes

2. Se realiza el envío de la propaganda a los clientes seleccionados

3. Una vez pasado un tiempo prudencial etiquetamos a los clientes de la muestra: 1 ha comprado el producto, 0 no ha comprado el producto

4. Con la muestra etiqueta aprendemos un clasificador probabilístico

• asigna a cada ejemplo (cliente) no la clase predicha, sino una estimación de la probabilidad de respuesta de ese cliente

Page 35: Técnicas del aprendizaje automático para la asistencia en la toma de …users.dsic.upv.es/~cferri/chihuahua.pdf · 2018. 12. 24. · Aprendizaje Automático • El área de aprendizaje

SIINCO 2004 35

Diseño de Campañas

• Con el clasificador probablístico podemos ordenar a los clientes según su interés y dibujar un gráfico de respuesta acumulada

• Nos indican qué porcentaje de las posibles respuestas vamos a obtener dependiendo del porcentaje de envíos que realicemos sobre la población total

0%10%20%30%40%50%60%70%80%90%

100%

0% 10%

20%

30%

40%

50%

60%

70%

80%

90%

100%

Sin modelo

Modelo

Page 36: Técnicas del aprendizaje automático para la asistencia en la toma de …users.dsic.upv.es/~cferri/chihuahua.pdf · 2018. 12. 24. · Aprendizaje Automático • El área de aprendizaje

SIINCO 2004 36

Diseño de Campañas

• Además si estimamos la matriz de coste, podemos conocer la configuración optima mediante los gráficos de beneficio

– Configuración 1: Coste inicial de la campaña 10.000€, coste de envío de cada folleto 1,5€. Por cada producto vendido ganamos 3€

– Configuración 2: Coste inicial de la campaña 20.000€, coste de envío de cada folleto 0,8€. Por cada producto vendido ganamos 2,5€

-60.000 €

-50.000 €

-40.000 €

-30.000 €

-20.000 €

-10.000 €

0 €

10.000 €

20.000 €

30.000 €

0% 10%

20%

30%

40%

50%

60%

70%

80%

90%

100%

Configuración 1Configuración 2

Page 37: Técnicas del aprendizaje automático para la asistencia en la toma de …users.dsic.upv.es/~cferri/chihuahua.pdf · 2018. 12. 24. · Aprendizaje Automático • El área de aprendizaje

SIINCO 2004 37

Conclusiones

• Hemos presentado el proceso de extracción de conocimiento desde bases de datos

• Se ha ilustrado con un caso práctico cómo podemos utilizar esta técnica para la asistencia en la toma de decisiones

• Análisis ROC para la selección de modelos de acuerdo con el contexto de aplicación

• Ilustrado un ejemplo de cómo utilizar los métodos para optimizar el diseño de campañas

Page 38: Técnicas del aprendizaje automático para la asistencia en la toma de …users.dsic.upv.es/~cferri/chihuahua.pdf · 2018. 12. 24. · Aprendizaje Automático • El área de aprendizaje

SIINCO 2004 38

Bibliografía Básica

• “Introducción a la Minería de Datos”, José Hernández, Mª José Ramírez y Cèsar Ferri. Pearson, 2004

• “Machine Learning”, T.M. Mitchell. McGraw-Hill, 1997.

• “Data Mining: Concepts and Techniques”, J. Han y M. Kamber. Morgan Kaufmann Publishers, 2000.

• “Data Mining. Practical Machine Learning Tools andTechniques with Java Implementations”, I. Witten y E. Frank.Morgan Kaufmann Publishers, 2000.

Page 39: Técnicas del aprendizaje automático para la asistencia en la toma de …users.dsic.upv.es/~cferri/chihuahua.pdf · 2018. 12. 24. · Aprendizaje Automático • El área de aprendizaje

SIINCO 2004 39

Agradecimientos

• El Instituto Tecnológico de Chihuahua II y en especial a Ricardo Blanco por su amable invitación

• José Hernández Orallo y María José Ramírez Quintana por la formación científica y personal que me han proporcionado

• Los asistentes a este acto por su enorme paciencia y atención

GRACIAS!!!