machine learning: evaluación de hipótesis

30
Evaluación de hipótesis Machine Learning Estudiante Paola Cárdenas Universidad de Cuenca Escuela de Ingeniería de Sistemas

Upload: angel-vazquez-patino

Post on 28-Jan-2018

117 views

Category:

Data & Analytics


3 download

TRANSCRIPT

Page 1: Machine learning: evaluación de hipótesis

Evaluación de hipótesisMachine Learning

EstudiantePaola Cárdenas

Universidad de CuencaEscuela de Ingeniería de Sistemas

Page 2: Machine learning: evaluación de hipótesis

Objetivo

Comparar los resultados que dan diferentes modelos luego del entrenamiento para poder escoger el mejor modelo a utlizar.

Page 3: Machine learning: evaluación de hipótesis

Contenido

● Comparación entre modelos● Comparación de algoritmos de aprendizaje

○ Análisis ROC● Ejemplo

Page 4: Machine learning: evaluación de hipótesis

Comparación entre modelos

Page 5: Machine learning: evaluación de hipótesis
Page 6: Machine learning: evaluación de hipótesis

Comparación entre modelos

Error

● Medida natural de rendimiento de un clasifcador

● Tasa de error: proporción del número de errores cometdos sobre un conjunto de instancias

Page 7: Machine learning: evaluación de hipótesis

Comparación entre modelos

Error de resubsttución

● Tasa de error calculada sobre el conjunto de entrenamiento.

● Muy optmista. Estma tasas de error menores que el error verdadero.

Page 8: Machine learning: evaluación de hipótesis

Comparación entre modelos

Validación de Modelos

Un modelo que puede sufrir de:

● Underfing (alto sesgo o bias) si el modelo es demasiado simple.

● Overfing en los datos de entrenamiento (alta varianza) si el modelo es demasiado complejo.

Page 9: Machine learning: evaluación de hipótesis

Comparación entre modelos

Page 10: Machine learning: evaluación de hipótesis

Comparación entre modelos

Validación de Modelos

Para encontrar un compromiso aceptable entre el bias y la varianza tenemos las técnicas:

● cross-validaton● holdout● k-fold cross-validaton,

Estmaciones fables de error de generalización.

Page 11: Machine learning: evaluación de hipótesis

Comparación entre modelos

El método holdout (reserva)

● Dividir los datos originales en entrenamiento y prueba.

● Típicamente 2/3 , 1/3 , de forma aleatoria. � �● Estratfcación para muestras representatvas.

Page 12: Machine learning: evaluación de hipótesis
Page 13: Machine learning: evaluación de hipótesis

Comparación entre modelos

k-fold cross-validaton

En la validación cruzada k veces, dividimos aleatoriamente el conjunto de datos de entrenamiento en k sub-conjuntos sin reemplazo, donde se usan k-1 para el entrenamiento modelo y se usa 1 para la prueba.

Page 14: Machine learning: evaluación de hipótesis

k-fold cross-validaton

Page 15: Machine learning: evaluación de hipótesis

Comparación entre modelos

k-fold cross-validaton

Por lo general, utlizamos k-fold cross-validaton para el ajuste del modelo, es decir, encontrar los valores de hiperparámetro óptmos que producen un rendimiento de generalización satsfactorio.

Page 16: Machine learning: evaluación de hipótesis

Comparación entre modelos

k-fold cross-validaton

Una vez encontrados valores de hiperparámetros satsfactorios, se vuelve a entrenar el modelo en el conjunto de entrenamiento completo y obtener una estmación de rendimiento fnal utlizando el conjunto de pruebas independiente.

Page 17: Machine learning: evaluación de hipótesis

Comparación entre modelos

Validación de Modelos

.

Page 18: Machine learning: evaluación de hipótesis

Comparación entre modelos

Se evaluan los modelos utlizando la precisión (accuracy) del modelo, que es una medida útl para cuantfcar el rendimiento de un modelo en general.

Sin embargo, hay otras métricas de rendimiento que se pueden usar para medir la relevancia de un modelo, como la precisión, la recuperación y el score-F1.

Page 19: Machine learning: evaluación de hipótesis

Comparación algoritmos de aprendizaje

Page 20: Machine learning: evaluación de hipótesis

Comparación algoritmos de aprendizaje

Comparar la precisión promedio de hipótesis producidas por dos métodos distntos de aprendizaje es más difcil dado que se debe promediar sobre múltples casos de entrenamiento.

Page 21: Machine learning: evaluación de hipótesis

Comparación algoritmos de aprendizaje

Matriz de Confusión

Establece el rendimiento de un algoritmo de aprendizaje.

● verdadero positvo,● verdadero negatvo,● falso positvo ● falso negatvo

predicciones de un clasifcador

Page 22: Machine learning: evaluación de hipótesis

Análisis ROC

Page 23: Machine learning: evaluación de hipótesis

Análisis ROC

El Análisis ROC (Receiver operatng characteristcs) es una metodología desarrollada para analizar un sistema de decisión

El Análisis ROC trabaja con las nociones de Sensibilidad y Especifcidad. (Valor predictvo positvo y Valor predictvo negatvo)

Page 24: Machine learning: evaluación de hipótesis

Análisis ROC

El objetvo básico del Análisis ROC es dibujar la llamada curva ROC e incluso calcular un área bajo dicha curva

La llamada AUC (Area Under Curve). Que es un valor que va de 0 a 1

Page 25: Machine learning: evaluación de hipótesis

Curvas ROC

Page 26: Machine learning: evaluación de hipótesis

Característica operativa del receptor

La diagonal de un gráfco ROC se puede interpretar como adivinar al azar, y los modelos de clasifcación que se encuentran debajo de la diagonal se consideran peores que las adivinanzas al azar.

Page 27: Machine learning: evaluación de hipótesis

Característica operativa del receptor

Un clasifcador perfecto caería en la esquina superior izquierda del gráfco con una tasa positva verdadera de 1 y una tasa de falsos positvos de 0.

Sobre la base de la curva ROC, podemos calcular el área bajo la curva (AUC) para caracterizar el rendimiento de un modelo de clasifcación.

Page 28: Machine learning: evaluación de hipótesis

Ejemplo

Page 29: Machine learning: evaluación de hipótesis

Curvas ROC de un dataset evaluado con 4 algoritmos de clasifcación.

Regresión Logistca, Árbol de decisión, Knn, Majority Votng.

Page 30: Machine learning: evaluación de hipótesis

Fuentes

[1] Raschka, S., 2016. Python machine learning. Community experience distlled. Packt Publishing, Birmingham Mumbai.

[2] Curso de Estadístca. Jaume Llopis Pérez.htps://estadistcaorquestainstrumento.wordpress.com/2013/02/13/tema-23-analisis-roc/