introducción a machine learning

Download Introducción a Machine Learning

Post on 17-Jan-2017

578 views

Category:

Data & Analytics

3 download

Embed Size (px)

TRANSCRIPT

Machine Learning - introduccin

ContenidoModelos populares de Machine Learning

Conceptos de Clustering y Anlisis Predictivo

Deteccin de anomalas

Decision Trees / Random Forest

Preparacin de datos

Seleccin de variables

.

La naturaleza de los datos

Varios mundos: Predictive ModelingEl objetivo se conoce, y puede ser:

Continuo - N valores posibles, ej, cantidad de visitas a un sitio web, a concentracin de glbulos rojos en la sangre despus de cierta medicacin.

Binario - 2 valores posibles, ej, comprar el producto cierto cliente? Tendr un paciente un ataque al corazn dada la historia clnica?

> Dadas ciertas variables de entrada, se mapea a una salida ( variable a predecir).

Varios mundos: Predictive ModelingEjemplo variable binaria

InputOutput/Target/OutcomeCmo se necesitan los datos para modelar?

1 registro = 1 caso de estudio para aprender.

Cada variable representa una caracterstica.

Ejemplo: 1 registro = 1 paciente 1 cliente 1 auto...

Varios mundos: Predictive ModelingEjemplo variable continua

Output/Target

Input

Empresa que vende estufas, visitas a la pgina en funcin de la temperatura

Varios mundos: ClusteringSe deja que los datos hablen no se tiene una variable a predecir.

Los datos se agrupan por similitud.

Normalmente se define la cantidad mxima de clusters (ej: 3).

Fraude/Anomalas: Se define un comportamiento normal (clusters)Se encuentran los elementos ms alejados de esta normalidad

La esencia en clustering:Mxima similitud entre los casos dentro de un clusterMaxima disimilitud entre los clusters

Varios mundos: Time Series ForecastingEjemplo

A diferencia de los modelos anterioresen time series se puede predecir slo con el valor de la propia serie.

Como se leera un ejemplo de modelo?: Las visitas del prximo viernes, sera el promedio del martes, miercoles y jueves pasados.

Cada caso de estudio est relacionado con los anteriores (a diferencia de las otras predicciones donde cada caso es independiente)

Varios mundos: Time Series ForecastingSon los modelos que involucran tiempo y variable continua como prediccin.

Conceptualmente est relacionado con prediccin de variable continua.

El grfico muestra los page view del trmino FIFA en la wikipedia.Los crculos son anomalas.Post explicativo del anlisis (y usar otros trminos):https://goo.gl/KhriHb

Excelente libro on line: https://www.otexts.org/fpp cubre todos losaspectos de time series.

Resumen planetarioEstos 2 segmentos, abarcan la mayora de modelos que son requeridos en ambientes laborales.

Predictive Modeling

Ordenando el caos con Decision TreeLos rboles de decisin son buenos para explicar un evento en reglas de SI-ENTONCES.

Permiten anlisis descriptivos y predictivo.

La esencia: Encontrar las variables -y sus valores- que ms separen las clases a predecir.

Conceptos: Teora de la informacin, reduccin de entropa. Information Gain.

Ordenando el caos con Decision TreePASO 1

No hay rbol.

La distribucin de has_heart_disease (variable a predecir) es:

55% para no45% para yes

Ordenando el caos con Decision TreePASO 2

Cul es la variable, que mayor separa las clases? bien...Cual es la variable ms predictiva?

La segmentacin est basada en hechos. Se puede verificar haciendo un filtro en SQL o excel.

Como se lee?

Rama de la izquierda: Si thal=3 entonces la probabilidad de tener un heart disease es de 22%,

Rama de la derecha: Si thal es distinto de 3, entonces la probabilidad es del 76%

thal=talasemia=tipo de anemia hereditaria

Ordenando el caos con Decision TreeY voila! Se crea el resto del rbol.

Cada nodo es una regla IF-THEN >>>

Ordenando el caos con Decision Tree

Composicin de una regla

Antecedente: If thal is not 3 and chest_pain is 1, 2 or 3Consecuente: Then the lilkelihod of having heart_disease is 92%

Mtricas de calidad

Confianza/Precisin: Tasa de acierto, 92% en el caso anterior.

Soporte: Cuantos casos cubre el antecedente (independientemente de su resultado)

Ordenando el caos con Decision Tree

Excelente animacion explicando decision trees interactivamente: http://www.r2d3.us/visual-intro-to-machine-learning-part-1/?lang=en

Breve teora de decision trees & Information Gain: https://goo.gl/snISWm

Libro para aprender R desde 0, (entretenido): http://nathanieldphillips.com/thepiratesguidetor/

Construccin y validacin del modelo

Construccin y validacin del modelo

"Bien! Contestaste casi todo bien. Tens un 4, pods sentarte."

Lectura recomendada Measuring Error: http://scott.fortmann-roe.com/docs/MeasuringError.html

Construccin y validacin del modelo

De ac se desprenden algunas mtricas de calidad, como la matriz de confusin Accuracy. >>>>>

El foco est en que el modelo devuelva una probabilidad de que suceda un evento, no una prediccin yes/no. Mas info: http://livebook.datascienceheroes.com/scoring/scoring.html

Construccin y validacin del modeloBueno pero que es "un modelo"?

Ej. prediccin variable binaria:

Ej. prediccin variable continua (regresin lineal):

y=m*x+b (Si! ms simple que el teorema de Green)

Visitas = 2 * inversion_en_publicidad + 4.51

Construccin y validacin del modeloPero no todos los modelos pueden verse

Redes neuronales artificiales:Cajas negras. Se tiene control sobre ellas en base a ver su salida y comparar con lo esperado.

Random ForestSon un conjunto de rboles como los vistos anteriormenteSe modelan entre cientos y miles en un mismo modelo

Random ForestModela la realidad como el resultado de verdades parciales.

Si k1 dijo yes, k2 no y k3 yes, entonces el resultado final=yes.

Es el algoritmo que mejor se desempea en escenarios reales; en trminos generales, y casi sin parametrizacin: Plug & Play.

Por qu?

Dos conceptos muy fuertes:

> Bootstrapping: Tcnica de muestreo> Bagging: Usar N modelos predictivos, con muestreo, para producir 1 resultado.

Preparacin de Datos

Preparacin de datos90% del tiempo = limpieza y preparacin de datos10% restante = modelado

RuidoValores extremosValores nulosCasos imposiblesAlta cardinalidad en variables categricasotros..La seleccin de variables es importantsima, siempre.

Los modelos deben tener la menor cantidad de variables, que expliquen la mayor informacin posible.

Mas info desde un enfoque visual: livebook.datascienceheroes.com/selecting_best_variables/introduction.html

La naturaleza de los datos

La naturaleza de los datosLos datos de entrada son puntos en un espacio de mltiples dimensiones, (una por cada variable de entrada).

Los modelos son aproximaciones (superficie violeta) a la verdadera forma de los datos, que permanece oculta.

Ningn modelo tiene la verdad absoluta, pero s algunos puede aproximarse mejor que otros.

La preparacin de datos facilita la obtencin de una superficie. Modelos mas simples.

Mas historias de datoslivebook.datascienceheroes.com (libro on-line y open source)blog.datascienceheroes.com

Recommended

View more >