métodos predictivos: aplicación a la detección de fraudes en tarjetas de crédito

Métodos Predictivos: Aplicación a la

Detección de Fraudes en Tarjetas de Crédito

Modelo general de los métodos de Clasificación |Id Reembolso Estado

Civil Ingresos Anuales Fraude

1 Sí Soltero 125K No

2 No Casado 100K No

3 No Soltero 70K No

4 Sí Casado 120K No

5 No Divorciado 95K Sí

6 No Casado 60K No 10

Tabla de Aprendizaje Id Reembolso Estado


7 No Soltero 80K No

8 Si Casado 100K No

9 No Soltero 70K No 10

Tabla de Testing

Generar el

Modelo

Aplicar el

Modelo

Modelo

Algoritmo de

Aprendizaje

Nuevos Individuos

Evaluar

Definición de Clasificación

• Dada una base de datos 𝐷 = {𝑡1, 𝑡2, … , 𝑡𝑛} de tuplas o registros (individuos) y un conjunto de clases 𝐶 = {𝐶1, 𝐶2, … , 𝐶𝑚}, el problema de la clasificación es encontrar una función 𝑓: 𝐷 → 𝐶 tal que cada 𝑡𝑖 es asignada una clase 𝐶𝑗 .

• 𝑓:𝐷 → 𝐶 podría ser una Red Neuronal, un Árbol de Decisión, un modelo basado en Análisis Discriminante, o una Red Beyesiana.

Aprendizaje Supervisado K - Vecinos más cercanos

KNN-Method

Como de los K=6 “individuos” de entrenamiento 4 son patos entonces el “individuo” de testing se clasifica como pato. Criterio “Majority Vote”

Para K=1 (círculo más pequeño), la clase de la nueva instancia sería la Clase 1, ya que es la clase de su vecino más cercano, mientras que para K=3 la clase de la nueva instancia sería la Clase 2 pues habrían dos vecinos de la Clase 2 y solo 1 de la Clase 1

Aprendizaje Supervisado Método de Bayes

Teorema de Naïve Bayes

Ejemplo: Créditos en un Banco

Dada esta de Aprendizaje predecir para los siguientes individuos si van a ser buenos o malos pagadores.

Ejemplo: Créditos en un Banco Nuevos Individuos

•  Se $ene una nueva fila de la base de datos t = (100,2,4,2,2,3,?). •  El problema es: a par$r de la tabla de aprendizaje y usando

Clasificación Bayesiana predecir si el individuo #100 corresponde a un buen pagador o a un mal pagador.

•  Lo que se hace en estos caso es calcular P(Bueno|t) y P(Malo|t) para determinar cuál es mayor, donde por bueno se en$ende que la variable BuenPagador=1 y por malo que BuenPagador=2.

Ejemplo de Clasificación Bayesiana

𝑃(𝐵𝑢𝑒𝑛𝑜|𝑡) =𝑃(𝑡|𝐵𝑢𝑒𝑛𝑜) ∙ 𝑃(𝐵𝑢𝑒𝑛𝑜)

𝑃(𝑡|𝐵𝑢𝑒𝑛𝑜) ∙ 𝑃(𝐵𝑢𝑒𝑛𝑜) + 𝑃(𝑡|𝑀𝑎𝑙𝑜) ∙ 𝑃(𝑀𝑎𝑙𝑜)

𝑃(𝐵𝑢𝑒𝑛𝑜) =610 𝑦 𝑃

(𝑀𝑎𝑙𝑜) =410

Como t = (100,2,4,2,2,3,?), este es un evento que corresponde realmente a 5 eventos independientes, ser MontoCredito=2, IngresoNeto=4, CoeficienteCreditoAvaluo=2, MontoCuota=2 y GradoAcademico=3. Así:

𝑃(𝑡|𝐵𝑢𝑒𝑛𝑜)= 𝑃((MontoCredito = 2)|𝐵𝑢𝑒𝑛𝑜) ∙ 𝑃A(IngresoNeto = 4)F𝐵𝑢𝑒𝑛𝑜G∙ 𝑃A(CoeficienteCreditoAvaluo= 2)F𝐵𝑢𝑒𝑛𝑜G ∙ 𝑃((MontoCuota = 2 )|𝐵𝑢𝑒𝑛𝑜)

∙ 𝑃((GradoAcademico = 3)|𝐵𝑢𝑒𝑛𝑜) =26 ∙46 ∙26 ∙16 ∙16 =

167776 = 0,002.

Ejemplo de Clasificación Bayesiana 𝑃(𝑡|𝑀𝑎𝑙𝑜)

= 𝑃((MontoCredito = 2)|𝑀𝑎𝑙𝑜) ∙ 𝑃6(IngresoNeto = 4)<𝑀𝑎𝑙𝑜=∙ 𝑃6(CoeficienteCreditoAvaluo = 2)<𝑀𝑎𝑙𝑜= ∙ 𝑃((MontoCuota = 2 )|𝑀𝑎𝑙𝑜)

∙ 𝑃((GradoAcademico = 3)|𝑀𝑎𝑙𝑜) =04 ∙04 ∙04 ∙04 ∙04 = 0.

𝑃(𝐵𝑢𝑒𝑛𝑜|𝑡) =𝑃(𝑡|𝐵𝑢𝑒𝑛𝑜) ∙ 𝑃(𝐵𝑢𝑒𝑛𝑜)

𝑃(𝑡|𝐵𝑢𝑒𝑛𝑜) ∙ 𝑃(𝐵𝑢𝑒𝑛𝑜) + 𝑃(𝑡|𝑀𝑎𝑙𝑜) ∙ 𝑃(𝑀𝑎𝑙𝑜) =167776 ∙

610

167776 ∙

610 + 0 ∙

410

= 1

Por lo que 𝑃(𝑀𝑎𝑙𝑜|𝑡) = 0. Pero lo vamos a verificar:

𝑃(𝑀𝑎𝑙𝑜|𝑡) =𝑃(𝑡|𝑀𝑎𝑙𝑜) ∙ 𝑃(𝑀𝑎𝑙𝑜)

𝑃(𝑡|𝐵𝑢𝑒𝑛𝑜) ∙ 𝑃(𝐵𝑢𝑒𝑛𝑜) + 𝑃(𝑡|𝑀𝑎𝑙𝑜) ∙ 𝑃(𝑀𝑎𝑙𝑜) =0 ∙ 410

167776 ∙

610 + 0 ∙

410

= 0.

Por lo que claramente el individuo #100 tiene una probabilidad máxima de ser un buen pagador.

Aprendizaje Supervisado Redes Neuronales

Redes Neuronales - Perceptrón •  El cerebro humano está

compuesto principalmente de células nerviosas llamada Neuronas.

•  Estas neuronas están ligadas mediante unas fibras llamadas “Axons”.

•  Una Neurona está conectada al Axón de otra Neorona mediante las Dentritas.

•  En punto de contacto entre una Dentrita y el Axón se llama Synapse.

•  Las Redes Neuronales Artificiales tratan de emular este esquema mediante Nodos y Links.

Estructura General de una Red Neuronal

Activationfunction

g(Si )Si Oi

I1

I2

I3

wi1

wi2

wi3

Oi

Neuron iInput Output

threshold, t

InputLayer

HiddenLayer

OutputLayer

x1 x2 x3 x4 x5

y

Entrenar una Red Neuronal significa descubrir los pesos de las neuronas

Perceptrón - xor

Aprendizaje Supervisado Máquinas de Soporte

Vectorial

x1

x2 Margen

x+

x+

x- n

Vectores de Soporte

Vector Director

¿Por qué se denominan Máquinas de Soporte Vectorial (Support Vector Machines)?

n  g(x) es una función lineal:

x1

x2

w∙x + b < 0

w∙x+ b > 0

n  Se busca un hiperplano en el espacio de las variables

n  n es el vector normal del hiperplano

=wnw

n

Función discriminante lineal

n  ¿Cómo clasificar estos puntos mediante una función discriminante lineal reduciendo al mínimo el error?

x1

x2

n  Podrían existir una cantidad infinita de posibles hiperplanos!


x1

x2 n  ¿Cómo clasificar estos puntos mediante una función discriminante lineal reduciendo al mínimo el error?



x1

x2

n  ¿Cuál es el mejor?

n  ¿Cómo clasificar estos puntos mediante una función discriminante lineal reduciendo al mínimo el error?



Clasificador lineal con el margen más amplio

“zona segura” n  La función discriminante

lineal con el máximo margen es la mejor

n  El margen se define como la ancho que limita los datos (podría no existir)

n  ¿Por qué es la mejor? q  Generalización robusta y

resistente a los valores atípicos x1

x2 Margen

Resolver un Problema Optimización

MVS no linealmente separables n  Idea general: Los datos de entrada se puede trasladar a

algún espacio de mayor dimensión en el que la Tabla de Entrenamiento sí sea separable:

Φ: x → φ(x)

Aprendizaje Supervisado Árboles de Decisión

Un ejemplo de un árbol de decisión

Casado

Reembolso

Es-Civil

Ingresos

SÍ NO

NO

NO

Sí No

Soltero, Divorciado

< 80K > 80K

Variables de División Id Reembolso Estado


1 Sí Soltero 125K No

2 No Casado 100K No

3 No Soltero 70K No

4 Sí Casado 120K No

5 No Divorciado 95K Sí

6 No Casado 60K No

7 Sí Divorciado 220K No

8 No Soltero 85K Sí

9 No Casado 75K No

10 No Soltero 90K Sí 10

Tabla de Aprendizaje Modelo: Árbol de Decisión

Información Ganada à IGSplit ü  Cada vez que se va a hacer una nueva división en el árbol (split

the tree) se debe comparar el grado de impureza del nodo padre respecto al grado de impureza de los nodos hijos.

ü  Esto se calcula con el índice de Información Ganada (IG), que es la resta de la impureza del nodo padre menos el promedio ponderado de las impurezas de los nodos hijos.

ü  La idea en IGSplit sea máximo y esto se logra si el promedio ponderado de las impurezas de los nodos hijos es mínimo.

•  Donde I es el índice de GINI, la Entropía o el Error de Clasificación.

⎟⎠

⎞⎜⎝

⎛−==Δ ∑

=

k

i

isplit iI

nnpadreIIG

1)()(

Aprendizaje Supervisado Métodos de Consenso

(Bagging)

Bosques Aleatorios (Random Forest) n  El caso en el que todos los clasificadores del

Método de Consenso son Árboles dicho método se denomina Bosques Aleatorios (Random Forest)

Bosques Aleatorios (Random Forest)

Cada árbol usa m diferentes variables, aleatoriamente escogidas del conjunto de p variables m<p (m=mtry en R)

Aprendizaje Supervisado Métodos Potenciación

Métodos de Potenciación "Best off-the-shelf classifier in the world”

[Breiman, NIPS Workshop, 1996]

Breiman Friedman

Métodos de Potenciación n  La idea es tomar una muestra aleatoria de los

datos originales y aplicar sobre esta un método clasificatorio luego aumentar el peso (potenciar) a los individuos mal clasificados para que en la siguiente aplicación del método clasificatorio se enfoque más en estos individuos mal clasificados, mejorando su clasificación, y así sucesivamente …

n  Observación: Solo funciona para problemas de clasificación binarios (de 2 clases).

Métodos de Potenciación

G(x)= Clasificador Final

Tabla de Entrenamiento

1° Muestra con nuevos pesos

2° Muestra con nuevos pesos

M° Muestra con nuevos

pesos

Métodos de Potenciación Algoritmo:AdaBoost.M1

Ejemplo: Algoritmo:AdaBoost.M1

Aprendizaje Supervisado Regresión Logística LASSO

“LASSO” Regression Método LASSO

(Propuesto por Robert Tibshirani en 1996)

“Lasso” Regression (Método Lasso-Tibshirani)

Matricialmente

Solución à NO hay solución explícita

Lasso Ridge

Solución

Aplicación a la Detección de Fraudes en Tarjetas de Crédito

Proceso de Monitoreo

Transacciones

Vector Personal

Modelos Predictivos

Proceso de Análisis (en línea)

Problema del Fraude en tarjetas de crédito y débito

Reglas de Experto

Validación cruzada usando K grupos (K-fold cross-validation)

K grupos → K iteraciones

Muchas Gracias….

métodos predictivos: aplicación a la detección de fraudes en tarjetas de crédito

Data & Analytics