sesión 6: clasificadores bayesianosesucar/clases-mgp/pgm06-clasif-2012-bn.pdf · sesión 6:...
TRANSCRIPT
![Page 1: Sesión 6: Clasificadores Bayesianosesucar/Clases-mgp/pgm06-clasif-2012-bn.pdf · Sesión 6: Clasificadores Bayesianos “ La teoría de probabilidades en el fondo no es nada más](https://reader030.vdocuments.co/reader030/viewer/2022041120/5f338e9b013598145652a041/html5/thumbnails/1.jpg)
Sesión 6: Clasificadores Bayesianos
“ La teoría de probabilidades en el fondo no es nada más que sentido común reducido a cálculos ...” [Pierre Simon Laplace, 1819]
Modelos Gráficos Probabilistas L. Enrique Sucar
INAOE
![Page 2: Sesión 6: Clasificadores Bayesianosesucar/Clases-mgp/pgm06-clasif-2012-bn.pdf · Sesión 6: Clasificadores Bayesianos “ La teoría de probabilidades en el fondo no es nada más](https://reader030.vdocuments.co/reader030/viewer/2022041120/5f338e9b013598145652a041/html5/thumbnails/2.jpg)
© L.E. Sucar: MGP - Básicos 2
Clasificadores
• Introducción a Clasificación • Clasificador bayesiano simple • Extensiones - TAN, BAN • Mejora estructural • Clasificadores multidimensionales • Discriminadores lineales y discretización • Evaluación
![Page 3: Sesión 6: Clasificadores Bayesianosesucar/Clases-mgp/pgm06-clasif-2012-bn.pdf · Sesión 6: Clasificadores Bayesianos “ La teoría de probabilidades en el fondo no es nada más](https://reader030.vdocuments.co/reader030/viewer/2022041120/5f338e9b013598145652a041/html5/thumbnails/3.jpg)
© L.E. Sucar: MGP - Básicos 3
Clasificación
• El concepto de clasificación tiene dos significados: – No supervisada: dado un conjunto de datos,
establecer clases o agrupaciones (clusters) – Supervisada: dadas ciertas clases, encontrar una
regla para clasificar una nueva observación dentro de las clases existentes
![Page 4: Sesión 6: Clasificadores Bayesianosesucar/Clases-mgp/pgm06-clasif-2012-bn.pdf · Sesión 6: Clasificadores Bayesianos “ La teoría de probabilidades en el fondo no es nada más](https://reader030.vdocuments.co/reader030/viewer/2022041120/5f338e9b013598145652a041/html5/thumbnails/4.jpg)
© L.E. Sucar: MGP - Básicos 4
Clasificación
• El problema de clasificación (supervisada) consiste en obtener el valor más probable de una variable (hipótesis) dados los valores de otras variables (evidencia, atributos)
ArgH [ Max P(H | E1, E2, ...EN) ] ArgH [ Max P(H | E) ]
E = {E1, E2, ...EN}
![Page 5: Sesión 6: Clasificadores Bayesianosesucar/Clases-mgp/pgm06-clasif-2012-bn.pdf · Sesión 6: Clasificadores Bayesianos “ La teoría de probabilidades en el fondo no es nada más](https://reader030.vdocuments.co/reader030/viewer/2022041120/5f338e9b013598145652a041/html5/thumbnails/5.jpg)
© L.E. Sucar: MGP - Básicos 5
Tipos de Clasificadores
• Métodos estadísticos clásicos – Clasificador bayesiano simple (naive Bayes) – Descriminadores lineales
• Modelos de dependencias – Redes bayesianas
• Aprendizaje simbólico – Árboles de decisión, reglas, …
• Redes neuronales, SVM, …
![Page 6: Sesión 6: Clasificadores Bayesianosesucar/Clases-mgp/pgm06-clasif-2012-bn.pdf · Sesión 6: Clasificadores Bayesianos “ La teoría de probabilidades en el fondo no es nada más](https://reader030.vdocuments.co/reader030/viewer/2022041120/5f338e9b013598145652a041/html5/thumbnails/6.jpg)
© L.E. Sucar: MGP - Básicos 6
Clasificación
• Consideraciones para un clasificador: – Exactitud – proporción de clasificaciones
correctas – Rapidez – tiempo que toma hacer la
clasificación – Claridad – que tan comprensible es para los
humanos – Tiempo de aprendizaje – tiempo para obtener o
ajustar el clasificador a partir de datos
![Page 7: Sesión 6: Clasificadores Bayesianosesucar/Clases-mgp/pgm06-clasif-2012-bn.pdf · Sesión 6: Clasificadores Bayesianos “ La teoría de probabilidades en el fondo no es nada más](https://reader030.vdocuments.co/reader030/viewer/2022041120/5f338e9b013598145652a041/html5/thumbnails/7.jpg)
© L.E. Sucar: MGP - Básicos 7
Regla de Bayes
• La probabilidad posterior se puede obtener en base a la regla de Bayes:
P(H | E) = P(H) P(E | H) / P(E) P(H | E) = P(H) P(E | H) / Σi P(E | Hi ) P(Hi)
• Normalmente no se requiere saber el valor de probabilidad, solamente el valor más probable de H
![Page 8: Sesión 6: Clasificadores Bayesianosesucar/Clases-mgp/pgm06-clasif-2012-bn.pdf · Sesión 6: Clasificadores Bayesianos “ La teoría de probabilidades en el fondo no es nada más](https://reader030.vdocuments.co/reader030/viewer/2022041120/5f338e9b013598145652a041/html5/thumbnails/8.jpg)
© L.E. Sucar: MGP - Básicos 8
Regla de Bayes
• Para el caso de 2 clases H:{0, 1}, la regla de decisión de Bayes es:
H*(E) = 1 si P(H=1 | E) > 1/2 0, de otra forma
• Se puede demostrar que la regla de Bayes es óptima
![Page 9: Sesión 6: Clasificadores Bayesianosesucar/Clases-mgp/pgm06-clasif-2012-bn.pdf · Sesión 6: Clasificadores Bayesianos “ La teoría de probabilidades en el fondo no es nada más](https://reader030.vdocuments.co/reader030/viewer/2022041120/5f338e9b013598145652a041/html5/thumbnails/9.jpg)
© L.E. Sucar: MGP - Básicos 9
Valores Equivalentes
• Se puede utilizar cualquier función monotónica para la clasificación:
ArgH [ Max P(H | E) ] ArgH [ Max P(H) P(E | H) / P(E) ]
ArgH [ Max P(H) P(E | H) ] ArgH [ Max log {P(H) P(E | H)} ]
ArgH [ Max ( log P(H) + log P(E | H) ) ]
![Page 10: Sesión 6: Clasificadores Bayesianosesucar/Clases-mgp/pgm06-clasif-2012-bn.pdf · Sesión 6: Clasificadores Bayesianos “ La teoría de probabilidades en el fondo no es nada más](https://reader030.vdocuments.co/reader030/viewer/2022041120/5f338e9b013598145652a041/html5/thumbnails/10.jpg)
© L.E. Sucar: MGP - Básicos 10
Clasificador bayesiano simple
• Estimar la probabilidad: P(E | H) es complejo, pero se simplifica si se considera que los atributos son independientes dada la hipotesis: P(E1, E2, ...EN | H) = P(E1 | H) P(E2 | H) ... P(EN | H)
• Por lo que la probabilidad de la hipótesis dada la evidencia puede estimarse como:
P(H | E1, E2, ...EN) = P(H) P(E1 | H) P(E2 | H) ... P(EN | H) P(E)
• Esto se conoce como el clasificador bayesiano simple
![Page 11: Sesión 6: Clasificadores Bayesianosesucar/Clases-mgp/pgm06-clasif-2012-bn.pdf · Sesión 6: Clasificadores Bayesianos “ La teoría de probabilidades en el fondo no es nada más](https://reader030.vdocuments.co/reader030/viewer/2022041120/5f338e9b013598145652a041/html5/thumbnails/11.jpg)
© L.E. Sucar: MGP - Básicos 11
Clasificador bayesiano simple
• Como veíamos, no es necesario calcular el denominador: P(H | E1, E2, ...EN) ~ P(H) P(E1 | H) P(E2 | H) ... P(EN | H)
• P(H) se conoce como la probabilidad a priori, P(Ei | H) es la probabilidad de los atributos dada la hipótesis (verosimilitud), y P(H | E1, E2, ...EN) es la probabilidad posterior
![Page 12: Sesión 6: Clasificadores Bayesianosesucar/Clases-mgp/pgm06-clasif-2012-bn.pdf · Sesión 6: Clasificadores Bayesianos “ La teoría de probabilidades en el fondo no es nada más](https://reader030.vdocuments.co/reader030/viewer/2022041120/5f338e9b013598145652a041/html5/thumbnails/12.jpg)
© L.E. Sucar: MGP - Básicos 12
Ejemplo
• Para el caso del golf, cuál es la acción más probable (jugar / no-jugar) dado el ambiente y la temperatura?
Hoja de cálculo de Microsoft Excel
![Page 13: Sesión 6: Clasificadores Bayesianosesucar/Clases-mgp/pgm06-clasif-2012-bn.pdf · Sesión 6: Clasificadores Bayesianos “ La teoría de probabilidades en el fondo no es nada más](https://reader030.vdocuments.co/reader030/viewer/2022041120/5f338e9b013598145652a041/html5/thumbnails/13.jpg)
© L.E. Sucar: MGP - Básicos 13
Ventajas
• Bajo tiempo de clasificación • Bajo tiempo de aprendizaje • Bajos requerimientos de memoria • “Sencillez” • Buenos resultados en muchos dominios
![Page 14: Sesión 6: Clasificadores Bayesianosesucar/Clases-mgp/pgm06-clasif-2012-bn.pdf · Sesión 6: Clasificadores Bayesianos “ La teoría de probabilidades en el fondo no es nada más](https://reader030.vdocuments.co/reader030/viewer/2022041120/5f338e9b013598145652a041/html5/thumbnails/14.jpg)
© L.E. Sucar: MGP - Básicos 14
Limitaciones
• En muchas ocasiones la suposición de independencia condicional no es válida
• Para variables continuas, existe el problema de discretización
• Alternativas – dependencias: – Estructuras que consideran dependencias – Mejora estructural del clasificador
• Alternativas – variables continuas: – Descriminador lineal (variables gaussianas) – Técnicas de discretización
![Page 15: Sesión 6: Clasificadores Bayesianosesucar/Clases-mgp/pgm06-clasif-2012-bn.pdf · Sesión 6: Clasificadores Bayesianos “ La teoría de probabilidades en el fondo no es nada más](https://reader030.vdocuments.co/reader030/viewer/2022041120/5f338e9b013598145652a041/html5/thumbnails/15.jpg)
© L.E. Sucar: MGP - Básicos 15
CBS – modelo gráfico
![Page 16: Sesión 6: Clasificadores Bayesianosesucar/Clases-mgp/pgm06-clasif-2012-bn.pdf · Sesión 6: Clasificadores Bayesianos “ La teoría de probabilidades en el fondo no es nada más](https://reader030.vdocuments.co/reader030/viewer/2022041120/5f338e9b013598145652a041/html5/thumbnails/16.jpg)
© L.E. Sucar: MGP - Básicos 16
Enfoques para clasificación
C
A
C
A
Generativo Descriminativo
P(C) P(A|C) P(C|A)
![Page 17: Sesión 6: Clasificadores Bayesianosesucar/Clases-mgp/pgm06-clasif-2012-bn.pdf · Sesión 6: Clasificadores Bayesianos “ La teoría de probabilidades en el fondo no es nada más](https://reader030.vdocuments.co/reader030/viewer/2022041120/5f338e9b013598145652a041/html5/thumbnails/17.jpg)
© L.E. Sucar: MGP - Básicos 17
Extensiones
• TAN
C
A2 A1 An …
Se incorpora algunas dependencias entre atributos mediante la construcción de un “árbol” entre ellos
![Page 18: Sesión 6: Clasificadores Bayesianosesucar/Clases-mgp/pgm06-clasif-2012-bn.pdf · Sesión 6: Clasificadores Bayesianos “ La teoría de probabilidades en el fondo no es nada más](https://reader030.vdocuments.co/reader030/viewer/2022041120/5f338e9b013598145652a041/html5/thumbnails/18.jpg)
© L.E. Sucar: MGP - Básicos 18
Extensiones
• BAN
C
A2
A1 An …
Se incorpora una “red” para modelar las dependencias entre atributos
![Page 19: Sesión 6: Clasificadores Bayesianosesucar/Clases-mgp/pgm06-clasif-2012-bn.pdf · Sesión 6: Clasificadores Bayesianos “ La teoría de probabilidades en el fondo no es nada más](https://reader030.vdocuments.co/reader030/viewer/2022041120/5f338e9b013598145652a041/html5/thumbnails/19.jpg)
Extensiones
• Los clasificadores TAN y BAN son en casos particulares de redes bayesianas, por lo que para realizar el aprendizaje y clasificación en base a estos modelos se utilizan técnicas de redes bayesianas
![Page 20: Sesión 6: Clasificadores Bayesianosesucar/Clases-mgp/pgm06-clasif-2012-bn.pdf · Sesión 6: Clasificadores Bayesianos “ La teoría de probabilidades en el fondo no es nada más](https://reader030.vdocuments.co/reader030/viewer/2022041120/5f338e9b013598145652a041/html5/thumbnails/20.jpg)
© L.E. Sucar: MGP - Básicos 20
Mejora estructural
• Otra alternativa para mejorar el CBS es partir de una estructura “simple” y modificarla mediante: – Eliminación de atributos irrelevantes (selección de
atributos) – Verificación de las relaciones de independencia entre
atributos y alterando la estructura: • Eliminar nodos • Combinar nodos • Insertar nodos
![Page 21: Sesión 6: Clasificadores Bayesianosesucar/Clases-mgp/pgm06-clasif-2012-bn.pdf · Sesión 6: Clasificadores Bayesianos “ La teoría de probabilidades en el fondo no es nada más](https://reader030.vdocuments.co/reader030/viewer/2022041120/5f338e9b013598145652a041/html5/thumbnails/21.jpg)
© L.E. Sucar: MGP - Básicos 21
Eliminación de atributos • Medir la “dependencia” entre la clase y atributos
(por ejemplo con la información mutua), y eliminar aquellos con “poca” aportación
C
A2 A1 A4 A3
![Page 22: Sesión 6: Clasificadores Bayesianosesucar/Clases-mgp/pgm06-clasif-2012-bn.pdf · Sesión 6: Clasificadores Bayesianos “ La teoría de probabilidades en el fondo no es nada más](https://reader030.vdocuments.co/reader030/viewer/2022041120/5f338e9b013598145652a041/html5/thumbnails/22.jpg)
© L.E. Sucar: MGP - Básicos 22
Mejora estructural
• Medir la dependencia entre pares de atributos dada la clase (por ejemplo mediante la información mutua condicional), alterar la estructura si hay 2 dependientes:
1. Eliminación: quitar uno de los dos (redundantes) 2. Unión: juntar los 2 atributos en uno, combinando sus
valores 3. Inserción: insertar un atributo “virtual” entre la clase
y los dos atributos que los haga independientes.
![Page 23: Sesión 6: Clasificadores Bayesianosesucar/Clases-mgp/pgm06-clasif-2012-bn.pdf · Sesión 6: Clasificadores Bayesianos “ La teoría de probabilidades en el fondo no es nada más](https://reader030.vdocuments.co/reader030/viewer/2022041120/5f338e9b013598145652a041/html5/thumbnails/23.jpg)
© L.E. Sucar: MGP - Básicos 23
Mejora Estructural
Y X
Z
X
Z
XY
Z W
Z
Y X
![Page 24: Sesión 6: Clasificadores Bayesianosesucar/Clases-mgp/pgm06-clasif-2012-bn.pdf · Sesión 6: Clasificadores Bayesianos “ La teoría de probabilidades en el fondo no es nada más](https://reader030.vdocuments.co/reader030/viewer/2022041120/5f338e9b013598145652a041/html5/thumbnails/24.jpg)
© L.E. Sucar: MGP - Básicos 24
Atributos redundantes
• Prueba de dependencia entre cada atributo y la clase
• Información mutua:
I(C, Ai) = Σ P(C, Ai) log [P(C, Ai) / P(C) P(Ai)]
• Eliminar atributos que no provean información a la clase
![Page 25: Sesión 6: Clasificadores Bayesianosesucar/Clases-mgp/pgm06-clasif-2012-bn.pdf · Sesión 6: Clasificadores Bayesianos “ La teoría de probabilidades en el fondo no es nada más](https://reader030.vdocuments.co/reader030/viewer/2022041120/5f338e9b013598145652a041/html5/thumbnails/25.jpg)
© L.E. Sucar: MGP - Básicos 25
Atributos dependientes
• Prueba de independencia de cada atributo dada la clase
• Información mutua condicional I(Ai, Aj | C) =
Σ P(Ai,Aj|C) log [P(Ai,Aj|C) / P(Ai|C) P(Aj|C)] • Eliminar, unir o (insertar) atributos
![Page 26: Sesión 6: Clasificadores Bayesianosesucar/Clases-mgp/pgm06-clasif-2012-bn.pdf · Sesión 6: Clasificadores Bayesianos “ La teoría de probabilidades en el fondo no es nada más](https://reader030.vdocuments.co/reader030/viewer/2022041120/5f338e9b013598145652a041/html5/thumbnails/26.jpg)
© L.E. Sucar: MGP - Básicos 26
Ejemplo: clasificación de piel
• 9 atributos - 3 modelos de color: RGB, HSV, YIQ
S
G R B I Y Q S H V
![Page 27: Sesión 6: Clasificadores Bayesianosesucar/Clases-mgp/pgm06-clasif-2012-bn.pdf · Sesión 6: Clasificadores Bayesianos “ La teoría de probabilidades en el fondo no es nada más](https://reader030.vdocuments.co/reader030/viewer/2022041120/5f338e9b013598145652a041/html5/thumbnails/27.jpg)
© L.E. Sucar: MGP - Básicos 27
Mejora estructural
S
G R I Y Q S H V
Elimina B
![Page 28: Sesión 6: Clasificadores Bayesianosesucar/Clases-mgp/pgm06-clasif-2012-bn.pdf · Sesión 6: Clasificadores Bayesianos “ La teoría de probabilidades en el fondo no es nada más](https://reader030.vdocuments.co/reader030/viewer/2022041120/5f338e9b013598145652a041/html5/thumbnails/28.jpg)
© L.E. Sucar: MGP - Básicos 28
S
G R I Y S H V
Elimina Q
![Page 29: Sesión 6: Clasificadores Bayesianosesucar/Clases-mgp/pgm06-clasif-2012-bn.pdf · Sesión 6: Clasificadores Bayesianos “ La teoría de probabilidades en el fondo no es nada más](https://reader030.vdocuments.co/reader030/viewer/2022041120/5f338e9b013598145652a041/html5/thumbnails/29.jpg)
© L.E. Sucar: MGP - Básicos 29
S
G R I Y S V
Elimina H
![Page 30: Sesión 6: Clasificadores Bayesianosesucar/Clases-mgp/pgm06-clasif-2012-bn.pdf · Sesión 6: Clasificadores Bayesianos “ La teoría de probabilidades en el fondo no es nada más](https://reader030.vdocuments.co/reader030/viewer/2022041120/5f338e9b013598145652a041/html5/thumbnails/30.jpg)
© L.E. Sucar: MGP - Básicos 30
S
RG I Y S V
Unir RG
![Page 31: Sesión 6: Clasificadores Bayesianosesucar/Clases-mgp/pgm06-clasif-2012-bn.pdf · Sesión 6: Clasificadores Bayesianos “ La teoría de probabilidades en el fondo no es nada más](https://reader030.vdocuments.co/reader030/viewer/2022041120/5f338e9b013598145652a041/html5/thumbnails/31.jpg)
© L.E. Sucar: MGP - Básicos 31
S
RG I Y S
Elimina V
![Page 32: Sesión 6: Clasificadores Bayesianosesucar/Clases-mgp/pgm06-clasif-2012-bn.pdf · Sesión 6: Clasificadores Bayesianos “ La teoría de probabilidades en el fondo no es nada más](https://reader030.vdocuments.co/reader030/viewer/2022041120/5f338e9b013598145652a041/html5/thumbnails/32.jpg)
© L.E. Sucar: MGP - Básicos 32
S
RG I Y
Elimina S Exactitud: inicial 94% final 98%
![Page 33: Sesión 6: Clasificadores Bayesianosesucar/Clases-mgp/pgm06-clasif-2012-bn.pdf · Sesión 6: Clasificadores Bayesianos “ La teoría de probabilidades en el fondo no es nada más](https://reader030.vdocuments.co/reader030/viewer/2022041120/5f338e9b013598145652a041/html5/thumbnails/33.jpg)
Clasificadores Multidimensionales
• A diferencia de los clasificadores tradicionales (de una dimensión), los clasificadores multidimensionales asignan cada instancia a varias clases a la vez
• Ejemplos: – Textos, un documento puede pertenecer a varias
categorías – Genética, un gen puede tener varias funciones – Imágenes, una imagen puede tener varios objetos
![Page 34: Sesión 6: Clasificadores Bayesianosesucar/Clases-mgp/pgm06-clasif-2012-bn.pdf · Sesión 6: Clasificadores Bayesianos “ La teoría de probabilidades en el fondo no es nada más](https://reader030.vdocuments.co/reader030/viewer/2022041120/5f338e9b013598145652a041/html5/thumbnails/34.jpg)
Clasificadores Multidimensionales
• En un clasificador multidimensional se desea maximizar la probabilidad del conjunto posible de clases dados los atributos:
ArgH [ Max P(H1, H2, …Hm | E1, E2, ...EN) ] ArgH [ Max P(H1, H2, …Hm | E) ]
E = {E1, E2, ...EN}
![Page 35: Sesión 6: Clasificadores Bayesianosesucar/Clases-mgp/pgm06-clasif-2012-bn.pdf · Sesión 6: Clasificadores Bayesianos “ La teoría de probabilidades en el fondo no es nada más](https://reader030.vdocuments.co/reader030/viewer/2022041120/5f338e9b013598145652a041/html5/thumbnails/35.jpg)
Enfoques Básicos
• Existen dos enfoques básicos para resolver este problema: – Binario: se separa en “m” clasificadores independientes
y se obtiene un clasificador independiente para cada clase, y luego se concatena el resultado (no considera la dependencia entre clases)
– Conjunto potencia: se forma una variable clase global que es la combinación de todas las clases individuales (complejidad computacional, aumenta exponencialmente con el número de clases base)
![Page 36: Sesión 6: Clasificadores Bayesianosesucar/Clases-mgp/pgm06-clasif-2012-bn.pdf · Sesión 6: Clasificadores Bayesianos “ La teoría de probabilidades en el fondo no es nada más](https://reader030.vdocuments.co/reader030/viewer/2022041120/5f338e9b013598145652a041/html5/thumbnails/36.jpg)
Clasificadores Bayesianos Multidimensionales
• Para considerar las dependencias entre clases y atributos, se construye un modelo gráfico de 3 capas: – Dependencias entre Clases – Dependencias entre Atributos – Dependencias entre Clases y Atributos
• Aprender y clasificar con este modelo es computacionalmente complejo (explicación más probable o MAP)
![Page 37: Sesión 6: Clasificadores Bayesianosesucar/Clases-mgp/pgm06-clasif-2012-bn.pdf · Sesión 6: Clasificadores Bayesianos “ La teoría de probabilidades en el fondo no es nada más](https://reader030.vdocuments.co/reader030/viewer/2022041120/5f338e9b013598145652a041/html5/thumbnails/37.jpg)
Clasificadores Bayesianos Multidimensionales
c2 c1 c3
a4 a3 a5 a1
c4
a2
Subgrafo de Clases
Puente
Subgrafo de atributos
![Page 38: Sesión 6: Clasificadores Bayesianosesucar/Clases-mgp/pgm06-clasif-2012-bn.pdf · Sesión 6: Clasificadores Bayesianos “ La teoría de probabilidades en el fondo no es nada más](https://reader030.vdocuments.co/reader030/viewer/2022041120/5f338e9b013598145652a041/html5/thumbnails/38.jpg)
Clasificadores en Cadena
• Otra alternativa más sencilla es partir de clasificadores binarios y agregar otras clases como atributos para de cierta forma tomar en cuenta las dependencias entre clases
• Se forma una “cadena” entre las clases de forma que las clases previas en la cadena se incluyen como atributos de las siguientes clases
![Page 39: Sesión 6: Clasificadores Bayesianosesucar/Clases-mgp/pgm06-clasif-2012-bn.pdf · Sesión 6: Clasificadores Bayesianos “ La teoría de probabilidades en el fondo no es nada más](https://reader030.vdocuments.co/reader030/viewer/2022041120/5f338e9b013598145652a041/html5/thumbnails/39.jpg)
Clasificadores en Cadena
c2 c1 c3 c4
![Page 40: Sesión 6: Clasificadores Bayesianosesucar/Clases-mgp/pgm06-clasif-2012-bn.pdf · Sesión 6: Clasificadores Bayesianos “ La teoría de probabilidades en el fondo no es nada más](https://reader030.vdocuments.co/reader030/viewer/2022041120/5f338e9b013598145652a041/html5/thumbnails/40.jpg)
Clasificadores en Cadena Bayesianos
• Se aprende un modelo de dependencias entre clases (red bayesiana)
• El modelo de dependencias puede ser de diversos tipos: árbol, poliárbol, red multiconectada
• Dicho modelo se utiliza para definir el orden de la cadena y los atributos adicionales que se incluyen en cada clase
![Page 41: Sesión 6: Clasificadores Bayesianosesucar/Clases-mgp/pgm06-clasif-2012-bn.pdf · Sesión 6: Clasificadores Bayesianos “ La teoría de probabilidades en el fondo no es nada más](https://reader030.vdocuments.co/reader030/viewer/2022041120/5f338e9b013598145652a041/html5/thumbnails/41.jpg)
Clasificadores en Cadena Bayesianos
![Page 42: Sesión 6: Clasificadores Bayesianosesucar/Clases-mgp/pgm06-clasif-2012-bn.pdf · Sesión 6: Clasificadores Bayesianos “ La teoría de probabilidades en el fondo no es nada más](https://reader030.vdocuments.co/reader030/viewer/2022041120/5f338e9b013598145652a041/html5/thumbnails/42.jpg)
© L.E. Sucar: MGP - Básicos 42
Descriminador lineal
• Se define un hiperplano (descriminante) que es una combinación lineal de los atributos:
g(X) = Σ aj xj, xj – valores de los atributos, a1 ...an - coeficientes
• Asumiendo una distribución normal multivariada, se puede obtener la ecuación del hiperplano en función de los promedios y covarianzas de las clases
![Page 43: Sesión 6: Clasificadores Bayesianosesucar/Clases-mgp/pgm06-clasif-2012-bn.pdf · Sesión 6: Clasificadores Bayesianos “ La teoría de probabilidades en el fondo no es nada más](https://reader030.vdocuments.co/reader030/viewer/2022041120/5f338e9b013598145652a041/html5/thumbnails/43.jpg)
© L.E. Sucar: MGP - Básicos 43
Descriminador lineal
C2
X2
X1
![Page 44: Sesión 6: Clasificadores Bayesianosesucar/Clases-mgp/pgm06-clasif-2012-bn.pdf · Sesión 6: Clasificadores Bayesianos “ La teoría de probabilidades en el fondo no es nada más](https://reader030.vdocuments.co/reader030/viewer/2022041120/5f338e9b013598145652a041/html5/thumbnails/44.jpg)
© L.E. Sucar: MGP - Básicos 44
Descriminador Lineal
• Para el caso gaussiano, la probabilidad posterior es una función logística (rampa):
P( Cn | X ) = 1 / [ 1 + exp ( -θTX) ] • Donde el parámetro θ depende de las
medias y covarianzas de las distribuciones condicionales de cada clase
![Page 45: Sesión 6: Clasificadores Bayesianosesucar/Clases-mgp/pgm06-clasif-2012-bn.pdf · Sesión 6: Clasificadores Bayesianos “ La teoría de probabilidades en el fondo no es nada más](https://reader030.vdocuments.co/reader030/viewer/2022041120/5f338e9b013598145652a041/html5/thumbnails/45.jpg)
© L.E. Sucar: MGP - Básicos 45
Discretización
• Si los atributos no siguen una distribución gaussiana, la alternativa es convertirlos a discretos agrupando los valores en un conjunto de rangos o intervalos
• Dos tipos de técnicas de discretización: – No supervisada: no considera la clase – Supervisada: en base a la clase
![Page 46: Sesión 6: Clasificadores Bayesianosesucar/Clases-mgp/pgm06-clasif-2012-bn.pdf · Sesión 6: Clasificadores Bayesianos “ La teoría de probabilidades en el fondo no es nada más](https://reader030.vdocuments.co/reader030/viewer/2022041120/5f338e9b013598145652a041/html5/thumbnails/46.jpg)
© L.E. Sucar: MGP - Básicos 46
Discretización no supervisada
• Intervalos iguales • Intervalos con los mismos datos • En base al histograma
![Page 47: Sesión 6: Clasificadores Bayesianosesucar/Clases-mgp/pgm06-clasif-2012-bn.pdf · Sesión 6: Clasificadores Bayesianos “ La teoría de probabilidades en el fondo no es nada más](https://reader030.vdocuments.co/reader030/viewer/2022041120/5f338e9b013598145652a041/html5/thumbnails/47.jpg)
© L.E. Sucar: MGP - Básicos 47
Discretización supervisada
• Considerando los posibles “cortes” entre clases: – Probar clasificador (con datos diferentes) – Utilizar medidas de información (p. ej., reducir
la entropía) • Problema de complejidad computacional
![Page 48: Sesión 6: Clasificadores Bayesianosesucar/Clases-mgp/pgm06-clasif-2012-bn.pdf · Sesión 6: Clasificadores Bayesianos “ La teoría de probabilidades en el fondo no es nada más](https://reader030.vdocuments.co/reader030/viewer/2022041120/5f338e9b013598145652a041/html5/thumbnails/48.jpg)
© L.E. Sucar: MGP - Básicos 48
Costo de mala clasificación
• En realidad, no sólo debemos considerar la clase más probable si no también el costo de una mala clasificación – Si el costo es igual para todas las clases,
entonces es equivalente a seleccionar la de mayor probabilidad
– Si el costo es diferente, entonces se debe minimizar el costo esperado
![Page 49: Sesión 6: Clasificadores Bayesianosesucar/Clases-mgp/pgm06-clasif-2012-bn.pdf · Sesión 6: Clasificadores Bayesianos “ La teoría de probabilidades en el fondo no es nada más](https://reader030.vdocuments.co/reader030/viewer/2022041120/5f338e9b013598145652a041/html5/thumbnails/49.jpg)
© L.E. Sucar: MGP - Básicos 49
Costo de mala clasificación • El costo esperado (para dos clases, + y -) está dado
por la siguiente ecuación: CE = FN p(-) C(-|+) + FP p(+) C(+|-)
FN: razón de falsos negativos FP: razón de falsos positivos p: probabilidad de negativo o positivo C(-|+): costo de clasificar un positivo como negativo C(+|-): costo de clasificar un negativo como positivo
• Considerando esto y también la proporción de cada clase, existen técnicas más adecuadas para comparar clasificadores como la curva ROC y las curvas de costo
![Page 50: Sesión 6: Clasificadores Bayesianosesucar/Clases-mgp/pgm06-clasif-2012-bn.pdf · Sesión 6: Clasificadores Bayesianos “ La teoría de probabilidades en el fondo no es nada más](https://reader030.vdocuments.co/reader030/viewer/2022041120/5f338e9b013598145652a041/html5/thumbnails/50.jpg)
© L.E. Sucar: MGP - Básicos 50
Referencias • Clasificadores:
– D. Michie, D.J. Spiegelhalter , C.C. Taylor, “Machine Learning, Neural and Statistical Classification”, Ellis Horwood, 1994
– L. E. Sucar, D. F. Gillies, D. A. Gillies, "Objective Probabilities in Expert Systems", Artificial Intelligence Journal, Vol. 61 (1993) 187-208.
– J. Cheng, R. Greiner, “Comparing Bayesian network classifiers”, UAI´99, 101-108.
– M. Pazzani, “Searching for attribute dependencies in Bayesian classifiers”, Preliminary Papers of Intelligence and Statistics, 424-429.
– M. Martínez, L.E. Sucar, “Learning an optimal naive Bayesian classifier”, ICPR, 2006
![Page 51: Sesión 6: Clasificadores Bayesianosesucar/Clases-mgp/pgm06-clasif-2012-bn.pdf · Sesión 6: Clasificadores Bayesianos “ La teoría de probabilidades en el fondo no es nada más](https://reader030.vdocuments.co/reader030/viewer/2022041120/5f338e9b013598145652a041/html5/thumbnails/51.jpg)
© L.E. Sucar: MGP - Básicos 51
Referencias • Clasificadores multidimensionales:
– Read, et al., “Classifier chains for multilabel classification”, ECML/PKDD, 2009
– Bielza, Li, Larrañaga, “Multidimensional classification with Bayesian networks”, IJAR, 2011
– Zaragoza, Sucar, Morales, Larrañaga, Bielza, “Bayesian chain classifiers for multidimensional classification”, IJCAI, 2011
• Evaluación: – C. Drummond, R. C. Holte, “Explicitly representing
expected cost: an alternative to the ROC representation”.
![Page 52: Sesión 6: Clasificadores Bayesianosesucar/Clases-mgp/pgm06-clasif-2012-bn.pdf · Sesión 6: Clasificadores Bayesianos “ La teoría de probabilidades en el fondo no es nada más](https://reader030.vdocuments.co/reader030/viewer/2022041120/5f338e9b013598145652a041/html5/thumbnails/52.jpg)
© L.E. Sucar: MGP - Básicos 52
Actividades
• Leer referencias de clasificadores • Ejercicios clasificación • Ejercicios con Weka (entregar)