métodos predictivos: aplicación a la detección de fraudes en tarjetas de crédito
TRANSCRIPT
Métodos Predictivos: Aplicación a la
Detección de Fraudes en Tarjetas de Crédito
Modelo general de los métodos de Clasificación |Id Reembolso Estado
Civil Ingresos Anuales Fraude
1 Sí Soltero 125K No
2 No Casado 100K No
3 No Soltero 70K No
4 Sí Casado 120K No
5 No Divorciado 95K Sí
6 No Casado 60K No 10
Tabla de Aprendizaje Id Reembolso Estado
Civil Ingresos Anuales Fraude
7 No Soltero 80K No
8 Si Casado 100K No
9 No Soltero 70K No 10
Tabla de Testing
Generar el
Modelo
Aplicar el
Modelo
Modelo
Algoritmo de
Aprendizaje
Nuevos Individuos
Evaluar
Definición de Clasificación
• Dada una base de datos 𝐷 = {𝑡1, 𝑡2, … , 𝑡𝑛} de tuplas o registros (individuos) y un conjunto de clases 𝐶 = {𝐶1, 𝐶2, … , 𝐶𝑚}, el problema de la clasificación es encontrar una función 𝑓: 𝐷 → 𝐶 tal que cada 𝑡𝑖 es asignada una clase 𝐶𝑗 .
• 𝑓:𝐷 → 𝐶 podría ser una Red Neuronal, un Árbol de Decisión, un modelo basado en Análisis Discriminante, o una Red Beyesiana.
Aprendizaje Supervisado K - Vecinos más cercanos
KNN-Method
Como de los K=6 “individuos” de entrenamiento 4 son patos entonces el “individuo” de testing se clasifica como pato. Criterio “Majority Vote”
Para K=1 (círculo más pequeño), la clase de la nueva instancia sería la Clase 1, ya que es la clase de su vecino más cercano, mientras que para K=3 la clase de la nueva instancia sería la Clase 2 pues habrían dos vecinos de la Clase 2 y solo 1 de la Clase 1
Aprendizaje Supervisado Método de Bayes
Teorema de Naïve Bayes
Ejemplo: Créditos en un Banco
Dada esta de Aprendizaje predecir para los siguientes individuos si van a ser buenos o malos pagadores.
Ejemplo: Créditos en un Banco Nuevos Individuos
• Se $ene una nueva fila de la base de datos t = (100,2,4,2,2,3,?). • El problema es: a par$r de la tabla de aprendizaje y usando
Clasificación Bayesiana predecir si el individuo #100 corresponde a un buen pagador o a un mal pagador.
• Lo que se hace en estos caso es calcular P(Bueno|t) y P(Malo|t) para determinar cuál es mayor, donde por bueno se en$ende que la variable BuenPagador=1 y por malo que BuenPagador=2.
Ejemplo de Clasificación Bayesiana
𝑃(𝐵𝑢𝑒𝑛𝑜|𝑡) =𝑃(𝑡|𝐵𝑢𝑒𝑛𝑜) ∙ 𝑃(𝐵𝑢𝑒𝑛𝑜)
𝑃(𝑡|𝐵𝑢𝑒𝑛𝑜) ∙ 𝑃(𝐵𝑢𝑒𝑛𝑜) + 𝑃(𝑡|𝑀𝑎𝑙𝑜) ∙ 𝑃(𝑀𝑎𝑙𝑜)
𝑃(𝐵𝑢𝑒𝑛𝑜) =610 𝑦 𝑃
(𝑀𝑎𝑙𝑜) =410
Como t = (100,2,4,2,2,3,?), este es un evento que corresponde realmente a 5 eventos independientes, ser MontoCredito=2, IngresoNeto=4, CoeficienteCreditoAvaluo=2, MontoCuota=2 y GradoAcademico=3. Así:
𝑃(𝑡|𝐵𝑢𝑒𝑛𝑜)= 𝑃((MontoCredito = 2)|𝐵𝑢𝑒𝑛𝑜) ∙ 𝑃A(IngresoNeto = 4)F𝐵𝑢𝑒𝑛𝑜G∙ 𝑃A(CoeficienteCreditoAvaluo= 2)F𝐵𝑢𝑒𝑛𝑜G ∙ 𝑃((MontoCuota = 2 )|𝐵𝑢𝑒𝑛𝑜)
∙ 𝑃((GradoAcademico = 3)|𝐵𝑢𝑒𝑛𝑜) =26 ∙46 ∙26 ∙16 ∙16 =
167776 = 0,002.
Ejemplo de Clasificación Bayesiana 𝑃(𝑡|𝑀𝑎𝑙𝑜)
= 𝑃((MontoCredito = 2)|𝑀𝑎𝑙𝑜) ∙ 𝑃6(IngresoNeto = 4)<𝑀𝑎𝑙𝑜=∙ 𝑃6(CoeficienteCreditoAvaluo = 2)<𝑀𝑎𝑙𝑜= ∙ 𝑃((MontoCuota = 2 )|𝑀𝑎𝑙𝑜)
∙ 𝑃((GradoAcademico = 3)|𝑀𝑎𝑙𝑜) =04 ∙04 ∙04 ∙04 ∙04 = 0.
𝑃(𝐵𝑢𝑒𝑛𝑜|𝑡) =𝑃(𝑡|𝐵𝑢𝑒𝑛𝑜) ∙ 𝑃(𝐵𝑢𝑒𝑛𝑜)
𝑃(𝑡|𝐵𝑢𝑒𝑛𝑜) ∙ 𝑃(𝐵𝑢𝑒𝑛𝑜) + 𝑃(𝑡|𝑀𝑎𝑙𝑜) ∙ 𝑃(𝑀𝑎𝑙𝑜) =167776 ∙
610
167776 ∙
610 + 0 ∙
410
= 1
Por lo que 𝑃(𝑀𝑎𝑙𝑜|𝑡) = 0. Pero lo vamos a verificar:
𝑃(𝑀𝑎𝑙𝑜|𝑡) =𝑃(𝑡|𝑀𝑎𝑙𝑜) ∙ 𝑃(𝑀𝑎𝑙𝑜)
𝑃(𝑡|𝐵𝑢𝑒𝑛𝑜) ∙ 𝑃(𝐵𝑢𝑒𝑛𝑜) + 𝑃(𝑡|𝑀𝑎𝑙𝑜) ∙ 𝑃(𝑀𝑎𝑙𝑜) =0 ∙ 410
167776 ∙
610 + 0 ∙
410
= 0.
Por lo que claramente el individuo #100 tiene una probabilidad máxima de ser un buen pagador.
Aprendizaje Supervisado Redes Neuronales
Redes Neuronales - Perceptrón • El cerebro humano está
compuesto principalmente de células nerviosas llamada Neuronas.
• Estas neuronas están ligadas mediante unas fibras llamadas “Axons”.
• Una Neurona está conectada al Axón de otra Neorona mediante las Dentritas.
• En punto de contacto entre una Dentrita y el Axón se llama Synapse.
• Las Redes Neuronales Artificiales tratan de emular este esquema mediante Nodos y Links.
Estructura General de una Red Neuronal
Activationfunction
g(Si )Si Oi
I1
I2
I3
wi1
wi2
wi3
Oi
Neuron iInput Output
threshold, t
InputLayer
HiddenLayer
OutputLayer
x1 x2 x3 x4 x5
y
Entrenar una Red Neuronal significa descubrir los pesos de las neuronas
Perceptrón - xor
Aprendizaje Supervisado Máquinas de Soporte
Vectorial
x1
x2 Margen
x+
x+
x- n
Vectores de Soporte
Vector Director
¿Por qué se denominan Máquinas de Soporte Vectorial (Support Vector Machines)?
n g(x) es una función lineal:
x1
x2
w∙x + b < 0
w∙x+ b > 0
n Se busca un hiperplano en el espacio de las variables
n n es el vector normal del hiperplano
=wnw
n
Función discriminante lineal
n ¿Cómo clasificar estos puntos mediante una función discriminante lineal reduciendo al mínimo el error?
x1
x2
n Podrían existir una cantidad infinita de posibles hiperplanos!
Función discriminante lineal
x1
x2 n ¿Cómo clasificar estos puntos mediante una función discriminante lineal reduciendo al mínimo el error?
n Podrían existir una cantidad infinita de posibles hiperplanos!
Función discriminante lineal
x1
x2 n ¿Cómo clasificar estos puntos mediante una función discriminante lineal reduciendo al mínimo el error?
n Podrían existir una cantidad infinita de posibles hiperplanos!
Función discriminante lineal
x1
x2
n ¿Cuál es el mejor?
n ¿Cómo clasificar estos puntos mediante una función discriminante lineal reduciendo al mínimo el error?
n Podrían existir una cantidad infinita de posibles hiperplanos!
Función discriminante lineal
Clasificador lineal con el margen más amplio
“zona segura” n La función discriminante
lineal con el máximo margen es la mejor
n El margen se define como la ancho que limita los datos (podría no existir)
n ¿Por qué es la mejor? q Generalización robusta y
resistente a los valores atípicos x1
x2 Margen
Resolver un Problema Optimización
MVS no linealmente separables n Idea general: Los datos de entrada se puede trasladar a
algún espacio de mayor dimensión en el que la Tabla de Entrenamiento sí sea separable:
Φ: x → φ(x)
Aprendizaje Supervisado Árboles de Decisión
Un ejemplo de un árbol de decisión
Casado
Reembolso
Es-Civil
Ingresos
SÍ NO
NO
NO
Sí No
Soltero, Divorciado
< 80K > 80K
Variables de División Id Reembolso Estado
Civil Ingresos Anuales Fraude
1 Sí Soltero 125K No
2 No Casado 100K No
3 No Soltero 70K No
4 Sí Casado 120K No
5 No Divorciado 95K Sí
6 No Casado 60K No
7 Sí Divorciado 220K No
8 No Soltero 85K Sí
9 No Casado 75K No
10 No Soltero 90K Sí 10
Tabla de Aprendizaje Modelo: Árbol de Decisión
Información Ganada à IGSplit ü Cada vez que se va a hacer una nueva división en el árbol (split
the tree) se debe comparar el grado de impureza del nodo padre respecto al grado de impureza de los nodos hijos.
ü Esto se calcula con el índice de Información Ganada (IG), que es la resta de la impureza del nodo padre menos el promedio ponderado de las impurezas de los nodos hijos.
ü La idea en IGSplit sea máximo y esto se logra si el promedio ponderado de las impurezas de los nodos hijos es mínimo.
• Donde I es el índice de GINI, la Entropía o el Error de Clasificación.
⎟⎠
⎞⎜⎝
⎛−==Δ ∑
=
k
i
isplit iI
nnpadreIIG
1)()(
Aprendizaje Supervisado Métodos de Consenso
(Bagging)
Bosques Aleatorios (Random Forest) n El caso en el que todos los clasificadores del
Método de Consenso son Árboles dicho método se denomina Bosques Aleatorios (Random Forest)
Bosques Aleatorios (Random Forest)
Cada árbol usa m diferentes variables, aleatoriamente escogidas del conjunto de p variables m<p (m=mtry en R)
Aprendizaje Supervisado Métodos Potenciación
Métodos de Potenciación "Best off-the-shelf classifier in the world”
[Breiman, NIPS Workshop, 1996]
Breiman Friedman
Métodos de Potenciación n La idea es tomar una muestra aleatoria de los
datos originales y aplicar sobre esta un método clasificatorio luego aumentar el peso (potenciar) a los individuos mal clasificados para que en la siguiente aplicación del método clasificatorio se enfoque más en estos individuos mal clasificados, mejorando su clasificación, y así sucesivamente …
n Observación: Solo funciona para problemas de clasificación binarios (de 2 clases).
Métodos de Potenciación
G(x)= Clasificador Final
Tabla de Entrenamiento
1° Muestra con nuevos pesos
2° Muestra con nuevos pesos
M° Muestra con nuevos
pesos
Métodos de Potenciación Algoritmo:AdaBoost.M1
Ejemplo: Algoritmo:AdaBoost.M1
Aprendizaje Supervisado Regresión Logística LASSO
“LASSO” Regression Método LASSO
(Propuesto por Robert Tibshirani en 1996)
“Lasso” Regression (Método Lasso-Tibshirani)
Matricialmente
Solución à NO hay solución explícita
Lasso Ridge
Solución
Aplicación a la Detección de Fraudes en Tarjetas de Crédito
Proceso de Monitoreo
Transacciones
Vector Personal
Modelos Predictivos
Proceso de Análisis (en línea)
Problema del Fraude en tarjetas de crédito y débito
Reglas de Experto
Validación cruzada usando K grupos (K-fold cross-validation)
K grupos → K iteraciones
Muchas Gracias….