jlb-mineriadatos.pdf
TRANSCRIPT
-
7/30/2019 jlb-MineriaDatos.pdf
1/314
Minera de Datos
Jose L. Balcazar
Dept. LSI, UPC
UNED Febrero de 2012
http://find/ -
7/30/2019 jlb-MineriaDatos.pdf
2/314
IndiceIntroduccion
Repaso de Probabilidad
Generalidades sobre Modelado
Predictores Basicos y su Evaluacion
Sesgos de Continuidad
Mas Sobre Evaluacion de Predictores
Predictores Lineales y Metodos de NucleoModelos Descriptivos: Asociacion
Priorizacion de Resultados y Pagerank
Modelos Descriptivos: Segmentacion por K-means
Modelos Descriptivos: Segmentacion por EMRegresion versus Clasificacion
Error cuadratico, sesgo y varianza
Predictores Arborescentes
Metapredictores (Ensemble Methods)
http://find/http://goback/ -
7/30/2019 jlb-MineriaDatos.pdf
3/314
IndiceIntroduccion
Repaso de Probabilidad
Generalidades sobre ModeladoPredictores Basicos y su Evaluacion
Sesgos de Continuidad
Mas Sobre Evaluacion de Predictores
Predictores Lineales y Metodos de NucleoModelos Descriptivos: Asociacion
Priorizacion de Resultados y Pagerank
Modelos Descriptivos: Segmentacion por K-means
Modelos Descriptivos: Segmentacion por EMRegresion versus Clasificacion
Error cuadratico, sesgo y varianza
Predictores Arborescentes
Metapredictores (Ensemble Methods)
http://find/ -
7/30/2019 jlb-MineriaDatos.pdf
4/314
Los Top-Ten Algorithms en Minera de Datos, IIEEE Int. Conf. Data Mining, ICDM06
Ver: http://www.cs.uvm.edu/icdm/algorithms/index.shtml(Y bajar a: Panel Slides with Voting Results.)
http://find/ -
7/30/2019 jlb-MineriaDatos.pdf
5/314
El Proceso KDD: Knowledge Discovery in Data, IIntuicion
Los datos suelen ser poco sofisticados.
El proceso KDD
pretende encontrar informacion implcita en los datos, dando lugara descripciones mas sofisticadas de los mismos:
correctas, se corresponden con los mismos datos,
novedosas, no triviales ni explcitas,
accionables, sugieren como actuar.
Es difcil precisar con suficiente exactitud estas condiciones.
http://find/ -
7/30/2019 jlb-MineriaDatos.pdf
6/314
El Proceso KDD: Knowledge Discovery in Data, IILa descripcion academica intuitiva de Fayyad (1996)
http://find/ -
7/30/2019 jlb-MineriaDatos.pdf
7/314
El Proceso KDD: Knowledge Discovery in Data, IIILa descripcion academica intuitiva de Fayyad (1996)
1. Seleccion de los datos a tratar,
2. Preproceso,
3. Transformacion,
4. Modelado, construccion de modelos o patrones,5. Evaluacion, interpretacion, despliegue de decisiones en base
a los resultados.
http://find/http://goback/ -
7/30/2019 jlb-MineriaDatos.pdf
8/314
El Proceso KDD: Knowledge Discovery in Data, IIILa descripcion academica intuitiva de Fayyad (1996)
1. Seleccion de los datos a tratar,
2. Preproceso,
3. Transformacion,
4. Modelado, construccion de modelos o patrones,5. Evaluacion, interpretacion, despliegue de decisiones en base
a los resultados.
La expresion minera de datos a veces se refiere al proceso KDD
completo, y a veces se refiere unicamente a la fase de modelado.Es la fase en que se aplican algoritmos procedentesmayoritariamente del ambito Machine Learning.
http://goforward/http://find/http://goback/ -
7/30/2019 jlb-MineriaDatos.pdf
9/314
El Proceso KDD: Knowledge Discovery in Data, IVLa descripcion desde la perspectiva industrial: CRISP-DM (1996)
http://find/ -
7/30/2019 jlb-MineriaDatos.pdf
10/314
Los Top-Ten Algorithms en Minera de Datos, IIEn concreto, con nombres y apellidos
Los resultados que se obtuvieron:1. C4.5 (61 votos)
2. K-Means (60 votos)
3. SVM (58 votos)
4. Apriori (52 votos)
5. EM (48 votos)
6. PageRank (46 votos)
7. AdaBoost (45 votos), kNN (45 votos), Nave Bayes (45 votos)
8. (empate a votos)
9. (empate a votos)
10. CART (34 votos)
http://find/ -
7/30/2019 jlb-MineriaDatos.pdf
11/314
El Proceso KDD: Knowledge Discovery in Data, VEl rol de la parte Data Mining
La parte de Data Mining es central al proceso KDD, aunque elresto de fases aun son mayora y requieren la mayor parte deltrabajo.
http://find/ -
7/30/2019 jlb-MineriaDatos.pdf
12/314
El Proceso KDD: Knowledge Discovery in Data, VEl rol de la parte Data Mining
La parte de Data Mining es central al proceso KDD, aunque elresto de fases aun son mayora y requieren la mayor parte deltrabajo.
Sin embargo, es la que se trata en mas profundidad en todos loslibros y cursos.
La razon es que es donde hay mas cantidad de algortmica notrivial, pero bastante sistematizable.
Para las otras fases de KDD hay poco que ensenar: hayestudios publicados pero queda todo muy ad-hoc.
En la fase de Data Mining, es irrelevante si los datos vienen de unabase de datos, de un Data Warehouse, de una hoja de Excel o deficheros planos (ASCII).
http://find/http://goback/ -
7/30/2019 jlb-MineriaDatos.pdf
13/314
El Proceso KDD: Knowledge Discovery in Data, VILas fases de preproceso y transformacion
Como son los datos?
Su formato e incluso su codificacion dependen del algoritmo que sedesee usar, o incluso de su implementacion.
Transaccional: Secuencia de conjuntos de tems (atributosbinarios, interpretacion de presencia)
Transaccional binario: Secuencia de bitvectors (similar aatributos binarios) [arff, csv];
Transaccional relacional: Tabla relacional que contiene lamisma informacion que el formato transaccional.
Relacional: Como una tabla para SQL [arff, csv]; Multirelacional: Varias tablas, posibles claves foraneas; Piedrecitas en el zapato:
Encabezamientos de columnas? Identificadores de filas? Separadores? Algun separador que no debera estar? Una marca de fin de datos donde mas estorba?
http://find/ -
7/30/2019 jlb-MineriaDatos.pdf
14/314
Analisis de DatosTendremos todos los datos?
Objetivo:
una ventaja economica o (menos frecuentemente) humana.
La intencion es lograrla mediante predicciones acertadas, almenos parcialmente.
Dos posturas frecuentes: La herramienta software me proporciona modelos predictivos; La herramienta software me proporciona modelos descriptivos,
que yo estudio hasta obtener una comprension mas profundaque me permite hacer yo las predicciones.
http://goforward/http://find/http://goback/ -
7/30/2019 jlb-MineriaDatos.pdf
15/314
Analisis de DatosTendremos todos los datos?
Objetivo:
una ventaja economica o (menos frecuentemente) humana.
La intencion es lograrla mediante predicciones acertadas, almenos parcialmente.
Dos posturas frecuentes: La herramienta software me proporciona modelos predictivos; La herramienta software me proporciona modelos descriptivos,
que yo estudio hasta obtener una comprension mas profundaque me permite hacer yo las predicciones.
Predecir al azar difcilmente proporciona ventajas: queremos
hacerlo mejor que al azar. Para ello, habremos de basarnos en algo. Por ejemplo, en datos disponibles. Pero, si tenemos todos los datos, no hay nada a predecir.
Ingrediente imprescindible: la incertidumbre.
A l d D II
http://find/ -
7/30/2019 jlb-MineriaDatos.pdf
16/314
Analisis de Datos, IITorturar los datos hasta que confiesen todo lo que sepan no va a funcionar
Tenemos pocos datos o muchos?Las actitudes intuitivas naturales pueden no ser del todocorrectas. He medido tambien esta otra variable adicional, para tener
mas datos.
A li i d D II
http://find/ -
7/30/2019 jlb-MineriaDatos.pdf
17/314
Analisis de Datos, IITorturar los datos hasta que confiesen todo lo que sepan no va a funcionar
Tenemos pocos datos o muchos?Las actitudes intuitivas naturales pueden no ser del todocorrectas. He medido tambien esta otra variable adicional, para tener
mas datos. Pero entonces no tienes mas datos, tienes menos!:
el mismo numero de observaciones, en un espacio de dimensionmayor.
Si tenemos pocos datos, obtendremos poca informacion;pero extraigamos toda la que se pueda.
A li i d D II
http://find/ -
7/30/2019 jlb-MineriaDatos.pdf
18/314
Analisis de Datos, IITorturar los datos hasta que confiesen todo lo que sepan no va a funcionar
Tenemos pocos datos o muchos?Las actitudes intuitivas naturales pueden no ser del todocorrectas. He medido tambien esta otra variable adicional, para tener
mas datos. Pero entonces no tienes mas datos, tienes menos!:
el mismo numero de observaciones, en un espacio de dimensionmayor.
Si tenemos pocos datos, obtendremos poca informacion;pero extraigamos toda la que se pueda. Con menos datos, obtendremos mas informacion.
A li i d D t II
http://find/ -
7/30/2019 jlb-MineriaDatos.pdf
19/314
Analisis de Datos, IITorturar los datos hasta que confiesen todo lo que sepan no va a funcionar
Tenemos pocos datos o muchos?Las actitudes intuitivas naturales pueden no ser del todocorrectas. He medido tambien esta otra variable adicional, para tener
mas datos. Pero entonces no tienes mas datos, tienes menos!:
el mismo numero de observaciones, en un espacio de dimensionmayor.
Si tenemos pocos datos, obtendremos poca informacion;pero extraigamos toda la que se pueda. Con menos datos, obtendremos mas informacion. Pero sera mas falsa!
La mente humana tiene serios problemas para enfrentarse aespacios de dimensionalidad elevada.
http://find/http://goback/ -
7/30/2019 jlb-MineriaDatos.pdf
20/314
IndiceIntroduccion
Repaso de Probabilidad
Generalidades sobre ModeladoPredictores Basicos y su Evaluacion
Sesgos de Continuidad
Mas Sobre Evaluacion de Predictores
Predictores Lineales y Metodos de NucleoModelos Descriptivos: Asociacion
Priorizacion de Resultados y Pagerank
Modelos Descriptivos: Segmentacion por K-means
Modelos Descriptivos: Segmentacion por EMRegresion versus Clasificacion
Error cuadratico, sesgo y varianza
Predictores Arborescentes
Metapredictores (Ensemble Methods)
Probabilidad
http://find/ -
7/30/2019 jlb-MineriaDatos.pdf
21/314
ProbabilidadReencontramos algunos viejos conocidos
Espacios de probabilidad X.Distribucion de probabilidad D : X [0, 1], reparte una masaunitaria de probabilidad entre todos los elementos de X.Diferencia formal entre distribuciones de probabilidad y suscorrespondientes densidades.
El motivo de las dificultades formales: el deseo de admitir espaciosde probabilidad infinitos (y mucho!), como los reales: obliga aasignar probabilidad cero a la inmensa mayora de los puntos.
En nuestro caso no habra este tipo de problemas: trabajaremosdirectamente con distribuciones dando en realidad susfunciones de densidad.
Evaluacion de la Probabilidad
http://find/http://goback/ -
7/30/2019 jlb-MineriaDatos.pdf
22/314
Evaluacion de la ProbabilidadCaso discreto
Probabilidad conceptual o probabilidad emprica?Slogan: Casos favorables dividido por casos posibles.
Ejemplos:
tiradas de uno o varios dados (legtimos o cargados),
extraccion de bolitas de una o varias urnas, extraccion de una carta de un mazo previamente barajado. . .
Evaluacion de la Probabilidad
http://find/ -
7/30/2019 jlb-MineriaDatos.pdf
23/314
Evaluacion de la ProbabilidadCaso discreto
Probabilidad conceptual o probabilidad emprica?Slogan: Casos favorables dividido por casos posibles.
Ejemplos:
tiradas de uno o varios dados (legtimos o cargados),
extraccion de bolitas de una o varias urnas, extraccion de una carta de un mazo previamente barajado. . .
Con eventos concretos:
Pr(resultado del dado es 4) =16 (dado legtimo),
Pr(resultado par del dado) = 12 (id.),
Pr(la carta es una figura) = 1240 =3
10 .
Repaso de la Distribucion Normal
http://goforward/http://find/http://goback/ -
7/30/2019 jlb-MineriaDatos.pdf
24/314
Repaso de la Distribucion NormalTambien conocida como campana de Gauss
Fuente: Wikipedia.
Probabilidad en los Reales
http://find/ -
7/30/2019 jlb-MineriaDatos.pdf
25/314
Probabilidad en los RealesComo nos lo vamos a montar entonces?
Todos nuestros valores seran floats de precision finita.
Probabilidad en los Reales
http://find/ -
7/30/2019 jlb-MineriaDatos.pdf
26/314
Probabilidad en los RealesComo nos lo vamos a montar entonces?
Todos nuestros valores seran floats de precision finita.
Cada valor se interpretara, en realidad, como un intervalo de reales.
Probabilidad en los Reales
http://goforward/http://find/http://goback/ -
7/30/2019 jlb-MineriaDatos.pdf
27/314
Probabilidad en los RealesComo nos lo vamos a montar entonces?
Todos nuestros valores seran floats de precision finita.
Cada valor se interpretara, en realidad, como un intervalo de reales.
Ejemplo: Una longitud de petalo de 1.234cm es indistinguible deuna longitud de petalo de 1.234000001.
Probabilidad en los Reales
http://goforward/http://find/http://goback/ -
7/30/2019 jlb-MineriaDatos.pdf
28/314
Probabilidad en los RealesComo nos lo vamos a montar entonces?
Todos nuestros valores seran floats de precision finita.
Cada valor se interpretara, en realidad, como un intervalo de reales.
Ejemplo: Una longitud de petalo de 1.234cm es indistinguible deuna longitud de petalo de 1.234000001.
En efecto: la diferencia corresponde aproximadamente a lacuarta parte del tamano medio de un atomo de hidrogeno
(Radio de Bohr).
Eventos
http://find/ -
7/30/2019 jlb-MineriaDatos.pdf
29/314
EventosEn un espacio de probabilidad X
Eventos son subconjuntos del espacio a los que podemos asociarun valor de probabilidad.
En todos nuestros casos, todos los subconjuntos son validos comoeventos. (No es as con los reales de verdad, donde es preciso
restringirse a -algebras y seguir los axiomas de Kolmogorov.)Variable aleatoria: manera informal de referirnos a un proceso deevaluacion de la probabilidad de un evento.
Informalmente, imaginamos que la variable representa un elemento
de Xelegido segun la probabilidad, del cual preguntamos sipertenece al evento.
(En los reales no es posible implementar esta interpretacion.)
Independencia, I
http://find/ -
7/30/2019 jlb-MineriaDatos.pdf
30/314
Independencia, INocion crucial
Cuando podemos decir que dos eventos son independientes?
Al lanzar dos dados, el resultado de cada uno no debera
influir en el resultado del otro.
Independencia, I
http://find/ -
7/30/2019 jlb-MineriaDatos.pdf
31/314
p ,Nocion crucial
Cuando podemos decir que dos eventos son independientes?
Al lanzar dos dados, el resultado de cada uno no debera
influir en el resultado del otro.
Extraemos una carta: el que sea o no una figura no deberatener relacion con el que sea o no un basto.
Independencia, II
http://find/ -
7/30/2019 jlb-MineriaDatos.pdf
32/314
p ,Comparamos algunos casos
Ejemplos:
Pr(la carta es un basto) = 14 , Pr(la carta es una figura) = 1240 =
310 ,
Pr(la carta es una figura de bastos) = 340 .
Se cumple:3
40 =3
10 1
4 .
Independencia, II
http://goforward/http://find/http://goback/ -
7/30/2019 jlb-MineriaDatos.pdf
33/314
pComparamos algunos casos
Ejemplos:
Pr(la carta es un basto) = 14 , Pr(la carta es una figura) = 1240 =
310 ,
Pr(la carta es una figura de bastos) = 340 .
Se cumple:3
40 =3
10 1
4 .
Pr(la carta es 5) = 12 , Pr(la carta es par (J = 8, K = 10)) = 12 ,
Pr(la carta es par y 5) = 210 = 15 .Sin embargo: 15 = 12 12 = 14 .
Independencia, II
http://find/http://goback/ -
7/30/2019 jlb-MineriaDatos.pdf
34/314
pComparamos algunos casos
Ejemplos:
Pr(la carta es un basto) = 14 , Pr(la carta es una figura) = 1240 =
310 ,
Pr(la carta es una figura de bastos) = 340 .
Se cumple:3
40 =3
10 1
4 .
Pr(la carta es 5) = 12 , Pr(la carta es par (J = 8, K = 10)) = 12 ,
Pr(la carta es par y 5) = 210 = 15 .Sin embargo: 15 = 12 12 = 14 .
Intuicion: el conocer el resultado de un evento nos modifica la
probabilidad del otro? (Pero considerados a la vez!)
Probabilidad Condicional, I
http://find/ -
7/30/2019 jlb-MineriaDatos.pdf
35/314
Para analizar la dependencia entre eventos
Sobre una variable aleatoria, supongamos que sabemos que secumple el evento A.
Podemos decir algo sobre el evento B?
Probabilidad Condicional, I
http://find/ -
7/30/2019 jlb-MineriaDatos.pdf
36/314
Para analizar la dependencia entre eventos
Sobre una variable aleatoria, supongamos que sabemos que secumple el evento A.
Podemos decir algo sobre el evento B?
Ejemplo: Sabemos que la carta es
5. Cual es ahora laprobabilidad de que sea par?
De nuevo el slogan: Casos favorables dividido por casos posibles; elresultado es:
Pr(la carta es par la carta es 5) = 2
5
,
(Ojo: De nuevo, la probabilidad condicional en los reales requieremas cuidado en las definiciones.)
Probabilidad Condicional, II
http://find/ -
7/30/2019 jlb-MineriaDatos.pdf
37/314
En caso de independencia
Los eventos A y B son independientes cuando:
Pr(A B) = Pr(A)*Pr(B) Pr(A
B) = Pr(A) Pr(B
A) = Pr(B)
Ejemplos:
Pr(la carta es una figura de bastos) = 340 =3
10 14 . Pr(la carta es un basto
la carta es una figura) =
14 .
Pr(la carta es una figura la carta es un basto) = 310 .
Probabilidad e IndependenciaS C fi Lif
http://find/ -
7/30/2019 jlb-MineriaDatos.pdf
38/314
Soporte, Confianza y Lift
Costumbres terminologicasIdeas basicas de probabilidad en Minera de Datos: Probabilidad emprica (soporte, coverage); no es raro
mantenerlo sin normalizar:
supp(A): numero de observaciones en que A se da.
(La probabilidad emprica propiamente dicha se obtienedividiendo por el numero total de observaciones.)
Probabilidad e IndependenciaS t C fi Lift
http://find/http://goback/ -
7/30/2019 jlb-MineriaDatos.pdf
39/314
Soporte, Confianza y Lift
Costumbres terminologicas
Ideas basicas de probabilidad en Minera de Datos: Probabilidad emprica (soporte, coverage); no es raro
mantenerlo sin normalizar:
supp(A): numero de observaciones en que A se da.
(La probabilidad emprica propiamente dicha se obtienedividiendo por el numero total de observaciones.)
Probabilidad condicional (renombrada confianza); sueleescribirse sugiriendo una implicacion:
conf(A
B) = supp(AB)supp(A)
Probabilidad e IndependenciaS t C fi Lift
http://find/ -
7/30/2019 jlb-MineriaDatos.pdf
40/314
Soporte, Confianza y Lift
Costumbres terminologicas
Ideas basicas de probabilidad en Minera de Datos: Probabilidad emprica (soporte, coverage); no es raro
mantenerlo sin normalizar:
supp(A): numero de observaciones en que A se da.
(La probabilidad emprica propiamente dicha se obtienedividiendo por el numero total de observaciones.)
Probabilidad condicional (renombrada confianza); sueleescribirse sugiriendo una implicacion:
conf(A
B) = supp(AB)supp(A)
Es habitual denominar lift a la desviacion (multiplicativa)respecto de la independencia:
lift(A B) = supp(AB)supp(A)supp(B)
Casos Contraintuitivos de la Probabilidad, IDesconfianza en la confianza
http://find/ -
7/30/2019 jlb-MineriaDatos.pdf
41/314
Desconfianza en la confianza
Confianza y correlacion negativa
La confianza como grado de implicacion no es fiable. Dataset CMC (Contraceptive Method Choice): Survey sobre
metodos anticonceptivos en Indonesia en 1987.
Con soporte mas de 10% y confianza aproximada 90%
aparece la implicacionnear-low-wife-education no-contraception-method
good-media-exposure
Casos Contraintuitivos de la Probabilidad, IDesconfianza en la confianza
http://find/ -
7/30/2019 jlb-MineriaDatos.pdf
42/314
Desconfianza en la confianza
Confianza y correlacion negativa
La confianza como grado de implicacion no es fiable. Dataset CMC (Contraceptive Method Choice): Survey sobre
metodos anticonceptivos en Indonesia en 1987.
Con soporte mas de 10% y confianza aproximada 90%
aparece la implicacionnear-low-wife-education no-contraception-method
good-media-exposure
Pero el soporte de good-media-exposure es. . . mas del 92%!
Casos Contraintuitivos de la Probabilidad, IDesconfianza en la confianza
http://find/ -
7/30/2019 jlb-MineriaDatos.pdf
43/314
Desconfianza en la confianza
Confianza y correlacion negativa
La confianza como grado de implicacion no es fiable. Dataset CMC (Contraceptive Method Choice): Survey sobre
metodos anticonceptivos en Indonesia en 1987.
Con soporte mas de 10% y confianza aproximada 90%
aparece la implicacionnear-low-wife-education no-contraception-method
good-media-exposure
Pero el soporte de good-media-exposure es. . . mas del 92%! La correlacion es de hecho negativa!
Casos Contraintuitivos de la Probabilidad, IDesconfianza en la confianza
http://find/ -
7/30/2019 jlb-MineriaDatos.pdf
44/314
Desconfianza en la confianza
Confianza y correlacion negativa
La confianza como grado de implicacion no es fiable. Dataset CMC (Contraceptive Method Choice): Survey sobre
metodos anticonceptivos en Indonesia en 1987.
Con soporte mas de 10% y confianza aproximada 90%
aparece la implicacionnear-low-wife-education no-contraception-method
good-media-exposure
Pero el soporte de good-media-exposure es. . . mas del 92%! La correlacion es de hecho negativa!
Si normalizamos para resolver el problema, vamos a parar allift, y se pierde la nocion de orientacion de la implicacion.
Casos Contraintuitivos de la Probabilidad, IIRosencrantz y Guildenstern han muerto
http://goforward/http://find/http://goback/ -
7/30/2019 jlb-MineriaDatos.pdf
45/314
Rosencrantz y Guildenstern han muerto
En la escena que abre la pelcula, Rosencrantz va lanzando
monedas al aire.Si sale cara, la pierde y se la lleva Guildenstern; de lo contrario, sesupone que recibe una moneda de Guildenstern.
Lleva lanzadas noventa y una.
Casos Contraintuitivos de la Probabilidad, IIRosencrantz y Guildenstern han muerto
http://find/ -
7/30/2019 jlb-MineriaDatos.pdf
46/314
Rosencrantz y Guildenstern han muerto
En la escena que abre la pelcula, Rosencrantz va lanzando
monedas al aire.Si sale cara, la pierde y se la lleva Guildenstern; de lo contrario, sesupone que recibe una moneda de Guildenstern.
Lleva lanzadas noventa y una.
Todas han salido cara (y, por tanto, se las ha llevado Guildenstern).A la proxima vez, la probabilidad de cruz es mayor, no?
Casos Contraintuitivos de la Probabilidad, IIRosencrantz y Guildenstern han muerto
http://goforward/http://find/http://goback/ -
7/30/2019 jlb-MineriaDatos.pdf
47/314
y
En la escena que abre la pelcula, Rosencrantz va lanzando
monedas al aire.Si sale cara, la pierde y se la lleva Guildenstern; de lo contrario, sesupone que recibe una moneda de Guildenstern.
Lleva lanzadas noventa y una.
Todas han salido cara (y, por tanto, se las ha llevado Guildenstern).A la proxima vez, la probabilidad de cruz es mayor, no?
Pues, de hecho. . . no!
Son eventos independientes!
Casos Contraintuitivos de la Probabilidad, IIRosencrantz y Guildenstern han muerto
http://goforward/http://find/http://goback/ -
7/30/2019 jlb-MineriaDatos.pdf
48/314
y
En la escena que abre la pelcula, Rosencrantz va lanzando
monedas al aire.Si sale cara, la pierde y se la lleva Guildenstern; de lo contrario, sesupone que recibe una moneda de Guildenstern.
Lleva lanzadas noventa y una.
Todas han salido cara (y, por tanto, se las ha llevado Guildenstern).A la proxima vez, la probabilidad de cruz es mayor, no?
Pues, de hecho. . . no!
Son eventos independientes!
(Y, en efecto, Rosencrantz lanza la nonagesimo segunda moneday. . . adivina lo que ocurre.)
2011: El regreso de la martingala!
Casos Contraintuitivos de la Probabilidad, IIIUn ejemplo famoso
http://find/ -
7/30/2019 jlb-MineriaDatos.pdf
49/314
La paradoja de Monty Hall(El Kiko Ledgard de otros tiempos y otras latitudes.)Se supone que todos los participantes en el juego conocen lasreglas.
Detras de una de las tres puertas esta el coche; tu eliges unapuerta.
Kiko abre una puerta distinta de la elegida, y te muestra queel coche no esta tras ella.
Y te pregunta: seguro que no quieres cambiar?
Es mejor cambiar? es mejor mantener la eleccion? da igual?
Casos Contraintuitivos de la Probabilidad, IIIUn ejemplo famoso
http://find/ -
7/30/2019 jlb-MineriaDatos.pdf
50/314
La paradoja de Monty Hall(El Kiko Ledgard de otros tiempos y otras latitudes.)Se supone que todos los participantes en el juego conocen lasreglas.
Detras de una de las tres puertas esta el coche; tu eliges una
puerta.
Kiko abre una puerta distinta de la elegida, y te muestra queel coche no esta tras ella.
Y te pregunta: seguro que no quieres cambiar?
Es mejor cambiar? es mejor mantener la eleccion? da igual?
Para que el problema este bien planteado hemos de acordar quesignifica mejor!
Casos Contraintuitivos de la Probabilidad, IVOtro ejemplo famoso
http://find/ -
7/30/2019 jlb-MineriaDatos.pdf
51/314
La paradoja de Simpson
Supongamos que las encuestas nos dicen:
que en la provincia de Caceres, los vegetarianos son menospropensos a tener ojeras que los no vegetarianos;
Casos Contraintuitivos de la Probabilidad, IVOtro ejemplo famoso
http://find/ -
7/30/2019 jlb-MineriaDatos.pdf
52/314
La paradoja de Simpson
Supongamos que las encuestas nos dicen:
que en la provincia de Caceres, los vegetarianos son menospropensos a tener ojeras que los no vegetarianos;
y que en la provincia de Badajoz, los vegetarianos tambien sonmenos propensos a tener ojeras que los no vegetarianos.
Casos Contraintuitivos de la Probabilidad, IVOtro ejemplo famoso
http://find/ -
7/30/2019 jlb-MineriaDatos.pdf
53/314
La paradoja de Simpson
Supongamos que las encuestas nos dicen:
que en la provincia de Caceres, los vegetarianos son menospropensos a tener ojeras que los no vegetarianos;
y que en la provincia de Badajoz, los vegetarianos tambien sonmenos propensos a tener ojeras que los no vegetarianos.
Podemos deducir que esa correlacion se da en toda Extremadura,no?
Casos Contraintuitivos de la Probabilidad, IVOtro ejemplo famoso
http://find/ -
7/30/2019 jlb-MineriaDatos.pdf
54/314
La paradoja de Simpson
Supongamos que las encuestas nos dicen:
que en la provincia de Caceres, los vegetarianos son menospropensos a tener ojeras que los no vegetarianos;
y que en la provincia de Badajoz, los vegetarianos tambien sonmenos propensos a tener ojeras que los no vegetarianos.
Podemos deducir que esa correlacion se da en toda Extremadura,no?
Error! Es posible que, en la poblacion conjunta, la ratio vaya a lainversa.
Espacios numericosLa ventaja de poder tomar terminos medios
http://goforward/http://find/http://goback/ -
7/30/2019 jlb-MineriaDatos.pdf
55/314
Casos en que el espacio de probabilidad es un conjunto (ennuestros casos, siempre finito) de vectores de reales.
Espacios numericosLa ventaja de poder tomar terminos medios
http://find/ -
7/30/2019 jlb-MineriaDatos.pdf
56/314
Casos en que el espacio de probabilidad es un conjunto (ennuestros casos, siempre finito) de vectores de reales.
(Mas en general, lo crucial es que sea un TAD que admita laoperacion de suma y la de multiplicar por un real.)
Espacios numericosLa ventaja de poder tomar terminos medios
http://find/ -
7/30/2019 jlb-MineriaDatos.pdf
57/314
Casos en que el espacio de probabilidad es un conjunto (ennuestros casos, siempre finito) de vectores de reales.
(Mas en general, lo crucial es que sea un TAD que admita laoperacion de suma y la de multiplicar por un real.)
Si podemos multiplicar probabilidades por eventos, podemos
evaluar esperanzas, que son terminos medios.
Ejemplos:
Dado legtimo:1
1
6+ 2
1
6+ 3
1
6+ 4
1
6+ 5
1
6+ 6
1
6= 3.5;
Dado cargado:1 110 + 2 110 + 3 110 + 4 110 + 5 110 + 6 12 = 4.5.
Esperanza, IEsperanza como funcion lineal: Linearity of expectation
http://find/ -
7/30/2019 jlb-MineriaDatos.pdf
58/314
Por definicion: E[X] =
x(x Pr[X = x]).
Esperanza, IEsperanza como funcion lineal: Linearity of expectation
http://find/ -
7/30/2019 jlb-MineriaDatos.pdf
59/314
Por definicion: E[X] =
x(x Pr[X = x]).(Ojo: En espacios de probabilidad infinitos la suma no vale y hayque recurrir a una integral.)
Propiedades importantes: E[X + Y] = E[X] + E[Y],
E[ X] = E[X], y, mas en general, E[
ii Xi] =
i(i E[Xi]).
Entre eventos independientes, E[X Y] = E[X] E[Y].
http://find/ -
7/30/2019 jlb-MineriaDatos.pdf
60/314
IndiceIntroduccion
-
7/30/2019 jlb-MineriaDatos.pdf
61/314
Repaso de Probabilidad
Generalidades sobre Modelado
Predictores Basicos y su Evaluacion
Sesgos de Continuidad
Mas Sobre Evaluacion de Predictores
Predictores Lineales y Metodos de Nucleo
Modelos Descriptivos: Asociacion
Priorizacion de Resultados y Pagerank
Modelos Descriptivos: Segmentacion por K-means
Modelos Descriptivos: Segmentacion por EM
Regresion versus Clasificacion
Error cuadratico, sesgo y varianza
Predictores Arborescentes
Metapredictores (Ensemble Methods)
Ser Humano y RealidadLa realidad suele ser complicada
http://find/ -
7/30/2019 jlb-MineriaDatos.pdf
62/314
El ser humano aprovecha su capacidad de abstraccion (lenguaje)para intentar interactuar con la realidad de manera mas eficaz.
Comunicacion entre personas (o entre momentos distintos de
la misma persona), Memorizacion,
Creacion (sobre todo colectiva),
Toma de decisiones hacia un objetivo. . .
Actitud humana casi permanente de modelado.
ModeladoDonde hay modelos?
http://find/ -
7/30/2019 jlb-MineriaDatos.pdf
63/314
Ejemplos:
Realidades o potencialidades:
Este edificio, un circuito sumador, una sinfona, un sistemasoftware. . .
ModeladoDonde hay modelos?
http://find/ -
7/30/2019 jlb-MineriaDatos.pdf
64/314
Ejemplos:
Realidades o potencialidades:
Este edificio, un circuito sumador, una sinfona, un sistemasoftware. . .
Modelos:
Los planos del edificio, el diagrama del circuito, la partitura,las especificaciones UML. . .
Lenguaje de modelado: convencion verbal, escrita, grafica. . .
Dependencia de los objetivos.
ModelosAyudas a la comprension humana
http://goforward/http://find/http://goback/ -
7/30/2019 jlb-MineriaDatos.pdf
65/314
Llamamos modelo a la expresion de una descripcion simplificadapero que se espera util de un conjunto de hechos actuales opotenciales.
A partir de que se construye? Conceptualizacion de la realidad (permite la invencion). Observaciones, mas o menos mediatizadas (muestra bien
parametrizada, datos disponibles por otros motivos,interacciones. . . ).
Lenguajes de ModeladoVariopintos y de todos los sabores
http://find/ -
7/30/2019 jlb-MineriaDatos.pdf
66/314
El lenguaje y los modelos convenientes dependeran de la tarea arealizar.
El slogan de G E P Box (conocido por los metodos Box-Jenkins deanalisis de series temporales):
all models are wrong; some models are useful.
Lenguajes de ModeladoVariopintos y de todos los sabores
http://find/ -
7/30/2019 jlb-MineriaDatos.pdf
67/314
El lenguaje y los modelos convenientes dependeran de la tarea arealizar.
El slogan de G E P Box (conocido por los metodos Box-Jenkins deanalisis de series temporales):
all models are wrong; some models are useful.
(Busca un poco en Internet y encontraras deliciosas disputas sobreesa afirmacion.)
Lenguajes de ModeladoVariopintos y de todos los sabores
http://find/ -
7/30/2019 jlb-MineriaDatos.pdf
68/314
El lenguaje y los modelos convenientes dependeran de la tarea arealizar.
El slogan de G E P Box (conocido por los metodos Box-Jenkins deanalisis de series temporales):
all models are wrong; some models are useful.
(Busca un poco en Internet y encontraras deliciosas disputas sobreesa afirmacion.)
El problema radica en que suele ser difcil, cuando no imposible,demostrar que un modelo esta mal. Es facil caer en la tentacionde fiarse mas del modelo que de los datos.
Taxonoma de ModelosNo hay acuerdo general
http://goforward/http://find/http://goback/ -
7/30/2019 jlb-MineriaDatos.pdf
69/314
Segun algunas fuentes:
Modelos descriptivos Modelos predictivos (prediccion)
Clasificacion (o discriminacion): prediccion no numerica Regresion: prediccion numerica
Regresion (o interpolacion) lineal Regresion (o interpolacion) polinomica Regresion SVR (maximizacion de margenes)
Taxonoma de ModelosNo hay acuerdo general
http://find/ -
7/30/2019 jlb-MineriaDatos.pdf
70/314
Segun otras fuentes:
Modelos descriptivos Modelos predictivos
Clasificacion o discriminacion Prediccion
Regresion (lineal si no se especifica otra cosa) Regresion polinomica Regresion SVR (maximizacion de margenes)
IndiceIntroduccion
R d P b bilid d
http://find/ -
7/30/2019 jlb-MineriaDatos.pdf
71/314
Repaso de Probabilidad
Generalidades sobre Modelado
Predictores Basicos y su Evaluacion
Sesgos de Continuidad
Mas Sobre Evaluacion de Predictores
Predictores Lineales y Metodos de Nucleo
Modelos Descriptivos: Asociacion
Priorizacion de Resultados y Pagerank
Modelos Descriptivos: Segmentacion por K-means
Modelos Descriptivos: Segmentacion por EM
Regresion versus Clasificacion
Error cuadratico, sesgo y varianza
Predictores Arborescentes
Metapredictores (Ensemble Methods)
http://find/ -
7/30/2019 jlb-MineriaDatos.pdf
72/314
-
7/30/2019 jlb-MineriaDatos.pdf
73/314
Prediccion ProbabilsticaModelos predictivos basados en probabilidades
Podemos calcular diversas probabilidades empricas a la vista de
-
7/30/2019 jlb-MineriaDatos.pdf
74/314
Podemos calcular diversas probabilidades empricas a la vista delos datos: meras frecuencias normalizadas.
Diferenciamos la prediccion a priori de la prediccion aposteriori
(antes o despues de conocer los valores de los demas atributospara la prediccion).
Probabilidad a priori: frecuencia de cada valor de la clase. Maximo a priori: Predecimos el valor mas frecuente.
Prediccion ProbabilsticaModelos predictivos basados en probabilidades
Podemos calcular diversas probabilidades empricas a la vista de
http://goforward/http://find/http://goback/ -
7/30/2019 jlb-MineriaDatos.pdf
75/314
Podemos calcular diversas probabilidades empricas a la vista delos datos: meras frecuencias normalizadas.
Diferenciamos la prediccion a priori de la prediccion aposteriori
(antes o despues de conocer los valores de los demas atributospara la prediccion).
Probabilidad a priori: frecuencia de cada valor de la clase.
Maximo a priori: Predecimos el valor mas frecuente.
Probabilidad a posteriori: frecuencia de cada posible valorde la clase, condicionada a cada posible configuracion de losdemas atributos.
Maximo a posteriori (MAP): Predecimos el valor masfrecuente para esos valores de los demas atributos:
arg maxC{Pr(C|A1 . . .An)}
InconvenientePor que hemos de hacerlo de otro modo
http://goforward/http://find/http://goback/ -
7/30/2019 jlb-MineriaDatos.pdf
76/314
Un caso concreto, pequeno:
Diez atributos con una media de cuatro valores en cada uno;
Clasificacion binaria.
InconvenientePor que hemos de hacerlo de otro modo
http://find/ -
7/30/2019 jlb-MineriaDatos.pdf
77/314
Un caso concreto, pequeno:
Diez atributos con una media de cuatro valores en cada uno;
Clasificacion binaria.
Necesitamos conservar 220 resultados.
http://find/http://goback/ -
7/30/2019 jlb-MineriaDatos.pdf
78/314
-
7/30/2019 jlb-MineriaDatos.pdf
79/314
-
7/30/2019 jlb-MineriaDatos.pdf
80/314
El Predictor Nave BayesFunciona mejor de lo que uno se espera
P l l P (A |C ) d l l i di id l d l
-
7/30/2019 jlb-MineriaDatos.pdf
81/314
Precalculamos Pr(Ai|C) para todos los valores individuales de los
atributos condicionados a los valores de la clase.En vez de predecir
arg maxC{Pr(C|A1 . . .An)},
predecimos
arg maxC{Pr(A1|C) . . . Pr(An|C) Pr(C)}
El Predictor Nave BayesFunciona mejor de lo que uno se espera
P l l P (A |C ) t d l l i di id l d l
http://find/ -
7/30/2019 jlb-MineriaDatos.pdf
82/314
Precalculamos Pr(Ai|C) para todos los valores individuales de los
atributos condicionados a los valores de la clase.En vez de predecir
arg maxC{Pr(C|A1 . . .An)},
predecimos
arg maxC{Pr(A1|C) . . . Pr(An|C) Pr(C)}
En el caso anterior (diez atributos con una media de cuatro valoresen cada uno, clasificacion binaria) son 41 valores a estimar yconservar.
(Ejemplos y comparativa sobre Titanic, por separado y en KNIME.)
IndiceIntroduccion
Repaso de Probabilidad
http://find/ -
7/30/2019 jlb-MineriaDatos.pdf
83/314
p
Generalidades sobre Modelado
Predictores Basicos y su Evaluacion
Sesgos de Continuidad
Mas Sobre Evaluacion de Predictores
Predictores Lineales y Metodos de Nucleo
Modelos Descriptivos: Asociacion
Priorizacion de Resultados y Pagerank
Modelos Descriptivos: Segmentacion por K-means
Modelos Descriptivos: Segmentacion por EM
Regresion versus Clasificacion
Error cuadratico, sesgo y varianza
Predictores Arborescentes
Metapredictores (Ensemble Methods)
Atributos NumericosSe asimilan a reales o racionales
http://find/ -
7/30/2019 jlb-MineriaDatos.pdf
84/314
Atributos:
Binarios, o Booleanos (caso particular del siguiente),
Nominales, tambien llamados categoricos,
Numericos, tambien llamados continuos.
Los predictores MAP y Nave Bayes, tal como los hemos vistohasta ahora, suponen atributos nominales. Pero los datos sonfrecuentemente numericos.
Prediccion con Atributos NumericosQue significa Pr(Ai|C) con atributos numericos?
M d di
http://find/ -
7/30/2019 jlb-MineriaDatos.pdf
85/314
Modus operandi:
Suponemos una familia concreta de distribuciones deprobabilidad en (un intervalo de) los reales.
En vez de usar los datos para aproximar las probabilidadescalculando la frecuencia relativa, los usamos para aproximar
parametros de la distribucion.Habitual:
1. Suponer que Pr(A|C) sera una distribucion normal,2. usar los datos para evaluar su media y su desviacion estandar y
3. calcular la clase de probabilidad maxima a posteriori porNave Bayes a partir de las distribuciones obtenidas.
Estudios recientes sugieren que puede ser preferible discretizar.
Modelos Predictivos sin Calcular ModelosLos propios datos como modelo predictivo
http://find/ -
7/30/2019 jlb-MineriaDatos.pdf
86/314
Intuicion de continuidad:
Datos que se parecen llevaran etiquetas similares.
Modelos Predictivos sin Calcular ModelosLos propios datos como modelo predictivo
http://find/ -
7/30/2019 jlb-MineriaDatos.pdf
87/314
Intuicion de continuidad:
Datos que se parecen llevaran etiquetas similares.
Conservamos todos los datos (en una estructura de datosadecuada).
Cuando hemos de clasificar un dato nuevo, calculamos laetiqueta mas frecuente entre los k datos mas similares
(kNN, k nearest neighbors).
Modelos Predictivos sin Calcular ModelosLos propios datos como modelo predictivo
http://find/ -
7/30/2019 jlb-MineriaDatos.pdf
88/314
Intuicion de continuidad:
Datos que se parecen llevaran etiquetas similares.
Conservamos todos los datos (en una estructura de datosadecuada).
Cuando hemos de clasificar un dato nuevo, calculamos laetiqueta mas frecuente entre los k datos mas similares
(kNN, k nearest neighbors).
La intuicion de continuidad muchas veces es correcta, ymuchas no lo es.
En dimensiones elevadas, calcular los vecinos escomputacionalmente costoso.
IndiceIntroduccion
Repaso de Probabilidad
http://find/ -
7/30/2019 jlb-MineriaDatos.pdf
89/314
Generalidades sobre Modelado
Predictores Basicos y su Evaluacion
Sesgos de Continuidad
Mas Sobre Evaluacion de Predictores
Predictores Lineales y Metodos de Nucleo
Modelos Descriptivos: Asociacion
Priorizacion de Resultados y Pagerank
Modelos Descriptivos: Segmentacion por K-means
Modelos Descriptivos: Segmentacion por EM
Regresion versus Clasificacion
Error cuadratico, sesgo y varianza
Predictores Arborescentes
Metapredictores (Ensemble Methods)
Medidas AlternativasLa accuracy no basta
Si la mayora de los ejemplos estan etiquetados negativamente, un
http://find/ -
7/30/2019 jlb-MineriaDatos.pdf
90/314
y j p q g ,predictor que contesta siempre que no tiene una accuracy elevada.(Problema analogo en information retrieval, IR.)
Confianza de bueno aceptadoSensitivity (en IR recall): positivos ciertos dividido porbuenos.
Confianza de aceptado bueno:En IR precision: positivos ciertos dividido por aceptados.
Confianza de malo rechazado:Specificity: negativos ciertos dividido por malos.
Relacion con la accuracy: combinacion lineal de Sensitivity(ponderada por la ratio de casos buenos) y Specificity (ponderadapor el numero de casos malos).
Curvas ROCCuando tenemos mas informacion
Frecuentemente podemos ordenar los casos aceptados:
http://find/ -
7/30/2019 jlb-MineriaDatos.pdf
91/314
Frecuentemente podemos ordenar los casos aceptados:
En IR: concepto de top-k, los k objetos que parecen masrelevantes (lo sean o no);
Si usamos un regresor como predictor: el valor float de laregresion permite ordenar los casos aceptados.
Para cada k, de 0 a N: En abscisas, ratio de falsos positivos a casos malos: restar de
1 la Specificity.
O sea, la Specificity pero de derecha a izquierda.
En ordenadas, ratio de positivos ciertos a casos buenos: laSensitivity.
Curva ROC: Receiver/Relative Operating Characteristics.
Curvas ROC: EjemplosFuente: Wikipedia, 2009
http://find/ -
7/30/2019 jlb-MineriaDatos.pdf
92/314
El Area Bajo la Curva, AUCEsta de moda pero no se ha de usar como comparativa
http://find/ -
7/30/2019 jlb-MineriaDatos.pdf
93/314
Reduce a un unico numero el comportamiento de un clasificadorque ordena, sin tener que fijarnos en toda la curva.
Corresponde a:
Ponderar de manera distinta los errores por falso positivo que
los errores por falso negativo,
El Area Bajo la Curva, AUCEsta de moda pero no se ha de usar como comparativa
http://find/ -
7/30/2019 jlb-MineriaDatos.pdf
94/314
Reduce a un unico numero el comportamiento de un clasificadorque ordena, sin tener que fijarnos en toda la curva.
Corresponde a:
Ponderar de manera distinta los errores por falso positivo que
los errores por falso negativo, pero con una ponderacion que depende del clasificador!
(Hand, 2009, Machine Learning Journal.)
Evitemos el uso de AUC para comparar clasificadores.
Alternativas: AUC con una medida no uniforme.
Validacion CruzadaTal como la hemos visto hasta ahora
T d
http://goforward/http://find/http://goback/ -
7/30/2019 jlb-MineriaDatos.pdf
95/314
Tenemos nuestros datos.
Primera opcion:
1. entrenamos nuestro modelo y2. vemos si se equivoca mucho o poco sobre esos datos.
Nos dara una evaluacion demasiado optimista, porque hemos
entrenado justo con esos datos. Segunda opcion: Separamos en datos de entrenamiento y
datos de prueba, para evitar evaluar el modelo con los mismosdatos a los que se ha ajustado: pero existe arbitrariedad.
Tercera opcion: N folds separando training set de test set deN maneras distintas, de forma que cada dato este enexactamente un test set.
http://find/http://goback/ -
7/30/2019 jlb-MineriaDatos.pdf
96/314
-
7/30/2019 jlb-MineriaDatos.pdf
97/314
-
7/30/2019 jlb-MineriaDatos.pdf
98/314
Predictores Lineales en el PlanoUn ejemplo en R2: 12 x + 1
-
7/30/2019 jlb-MineriaDatos.pdf
99/314
Predictores Lineales en el EspacioUn ejemplo en R3: 2x + y 1
http://find/http://goback/ -
7/30/2019 jlb-MineriaDatos.pdf
100/314
http://find/ -
7/30/2019 jlb-MineriaDatos.pdf
101/314
SigmoidesUna posibilidad y una variante
1 2
-
7/30/2019 jlb-MineriaDatos.pdf
102/314
1
1 + 2x
2
1 + 2x 1La segunda, de lejos y de cerca:
PerceptronNombres clasicos y resultones para los predictores lineales
http://find/ -
7/30/2019 jlb-MineriaDatos.pdf
103/314
Perceptron, Neurona Formal, Neurodo. . .
http://find/ -
7/30/2019 jlb-MineriaDatos.pdf
104/314
-
7/30/2019 jlb-MineriaDatos.pdf
105/314
Entrenamiento de PerceptronCalculo del hiperplano a partir de los datos, 1958
Confusion entre especificacion e implementacion: el hiperplano se
-
7/30/2019 jlb-MineriaDatos.pdf
106/314
p p p p
describe implcitamente mediante el algoritmo que lo construye.
Reduccion del error:Dado un hiperplano candidato (w, b), reducimos su error
iMyi(wT
x + b) M = {i yi = sign(wT
x + b)}
modificando aditivamente los valores de w y b segun las derivadasparciales sugieran que se reduce mas el error.
Empezamos con un hiperplano al azar y lo vamos corrigiendo.La minimizacion del error mediante los metodos clasicos dederivadas parciales no se puede aplicar con umbral duro.
Vision Actual del PerceptronEl entrenamiento clasico esta obsoleto
Problematica:
http://find/ -
7/30/2019 jlb-MineriaDatos.pdf
107/314
b
Si los datos son linealmente separables, esta garantizado queel algoritmo converge pero: no sabemos a que solucion, porque hay muchas; puede tardar mucho en converger; el hiperplano final depende de la inicializacion.
Si los datos no son linealmente separables, el algoritmo entraen un bucle que puede ser largo y difcil de detectar.
Se puede encontrar un hiperplano solucion mucho masrapidamente mediante Programacion Lineal, usando las
restricciones:yi(w
Txi + b) > 0
http://find/ -
7/30/2019 jlb-MineriaDatos.pdf
108/314
Separabilidad Lineal con Margen MaximoUn ejemplo
-
7/30/2019 jlb-MineriaDatos.pdf
109/314
Support Vector Machines y Separabilidad LinealMargen duro y margen blando
Si los datos no son linealmente separables ni siquiera en el espacio
http://find/ -
7/30/2019 jlb-MineriaDatos.pdf
110/314
asociado al nucleo; o si lo son pero nos parece que corremos riesgode sobreajustar: opcion margen blando.
Margen duro en el entrenamiento (hard margin, no confundircon umbral duro en la prediccion): todos los datos han deobedecer el margen. Solo es factible en datos linealmenteseparables.
Margen blando en el entrenamiento (soft margin): datoslinealmente separables o no. Permiten que algunos de los datos queden por debajo del
margen, incluso mal clasificados. Estos errores se penalizan con un peso por error (queusualmente se denota C).
Un Ejemplo Linealmente SeparableConstruimos las envolventes convexas de cada clase
http://find/ -
7/30/2019 jlb-MineriaDatos.pdf
111/314
http://find/ -
7/30/2019 jlb-MineriaDatos.pdf
112/314
Hiperplano de Margen MaximoBisecando el segmento que une los puntos mas proximos de las envolventes convexas
-
7/30/2019 jlb-MineriaDatos.pdf
113/314
Un Ejemplo Linealmente InseparableNo hay hiperplanos solucion
http://find/ -
7/30/2019 jlb-MineriaDatos.pdf
114/314
Un Hiperplano con Margen BlandoCuanto error comete?
http://find/ -
7/30/2019 jlb-MineriaDatos.pdf
115/314
Otro Hiperplano con Margen BlandoCual es su margen?
http://find/ -
7/30/2019 jlb-MineriaDatos.pdf
116/314
Ese Mismo Hiperplano con Margen BlandoCuanto error comete?
http://find/ -
7/30/2019 jlb-MineriaDatos.pdf
117/314
Baricentros de Pares de PuntosLa traduccion del margen blando en envolventes convexas
http://find/ -
7/30/2019 jlb-MineriaDatos.pdf
118/314
Envolventes Convexas ReducidasProblema reducido a linealmente separable
http://find/ -
7/30/2019 jlb-MineriaDatos.pdf
119/314
http://find/ -
7/30/2019 jlb-MineriaDatos.pdf
120/314
-
7/30/2019 jlb-MineriaDatos.pdf
121/314
-
7/30/2019 jlb-MineriaDatos.pdf
122/314
NucleosCambiamos de espacio de Hilbert con el truco del nucleo
Reproducing Kernel Hilbert Spaces:
-
7/30/2019 jlb-MineriaDatos.pdf
123/314
Determinadas funciones en el espacio de entrada dan el mismoresultado que el que dara el producto escalar en otros espacios.
Por ejemplo: una conica en dos dimensiones,
w1x21 + w2x
22 + wsx1x2 + w4x1 + w5X2 + w6
es un producto escalar de (w1,w2,w3,w4,w5,w6) con unatransformacion f de (x1, x2) a R
6:
f(x1, x2) = (x21 , x
22 , x1x2, x1, x2, 1)
Calcula ((x1, x2)(y1, y2) + 1)2. El producto escalar en R6
f(x1, x2)f(y1, y2) se puede calcular sin movernos de R2.
Support Vector Machines: ResumenEl mas prominente ejemplo de kernel methods
Son predictores lineales.
Entrenamiento: consiste en calcular el hiperplano de margen
http://find/ -
7/30/2019 jlb-MineriaDatos.pdf
124/314
maximo. Se aplica para ello una variante dual de programacion
cuadratica convexa que opera con los datos medianteproductos escalares.
En lugar del producto escalar, es posible emplear una funcionnucleo (kernel) que tenga determinadas propiedades; equivalea usar hiperplanos en un espacio de dimension mayor, con laconsiguiente flexibilidad adicional.
La opcion de margen blando permite relajar la
obligatoriedad de separabilidad lineal.
La idea de nucleos es aplicable en otros dominios: es posiblereplantear el algoritmo del perceptron, por ejemplo, en terminos deproductos escalares, y entonces se puede aplicar la misma idea.
IndiceIntroduccion
Repaso de Probabilidad
Generalidades sobre Modelado
P di B i E l i
http://find/http://goback/ -
7/30/2019 jlb-MineriaDatos.pdf
125/314
Predictores Basicos y su EvaluacionSesgos de Continuidad
Mas Sobre Evaluacion de Predictores
Predictores Lineales y Metodos de Nucleo
Modelos Descriptivos: AsociacionPriorizacion de Resultados y Pagerank
Modelos Descriptivos: Segmentacion por K-means
Modelos Descriptivos: Segmentacion por EM
Regresion versus ClasificacionError cuadratico, sesgo y varianza
Predictores Arborescentes
Metapredictores (Ensemble Methods)
ImplicacionesRedescubriendo el Mediterraneo
La logica implicacional y sus variantes aparecen en:
Geometra, Geometras convexas,
http://find/ -
7/30/2019 jlb-MineriaDatos.pdf
126/314
Antimatroides;
Logica, Calculo proposicional,
Clausulas de Horn;
Algebra de ordenes, Semiretculos, operadores de clausura,
Diagramas de conceptos formales;
Inteligencia Artificial, Representacion del conocimiento,
Knowledge compilation;
Bases de Datos, Teora de la normalizacion,
Dependencias funcionales.
http://find/ -
7/30/2019 jlb-MineriaDatos.pdf
127/314
MotivacionPor que tantos caminos llevan a Roma?
Comprobar si una afirmacion es consecuencia de otra,
l i l i bl ( i d )
-
7/30/2019 jlb-MineriaDatos.pdf
128/314
en cualquier logica razonable (como primer orden), esdesafortunadamente indecidible;
incluso en logicas muy limitadas (como la proposicional) esdesafortunadamente intratable (NP-hard).
Que podemos hacer?
Si nos limitamos un poco mas aun, encontramos una logica que es,poco mas o menos, lo mas expresiva posible bajo la condicion detratabilidad de la nocion de consecuencia logica.
Y el concepto es tan natural que la gente se lo ha idoencontrando: logica de Horn, conjunciones de clausulas de tipo(a b c) o, lo que es lo mismo, (a b c)
Ejemplos en Minera de DatosUn clasico y un desconocido
Adult Dataset
http://find/ -
7/30/2019 jlb-MineriaDatos.pdf
129/314
Exec-managerial Husband Married-civ-spouse
Ejemplos en Minera de DatosUn clasico y un desconocido
Adult Dataset
http://find/ -
7/30/2019 jlb-MineriaDatos.pdf
130/314
Exec-managerial Husband Married-civ-spouse
ML Abstracts Dataset
support margin vectordescent gradienthilbert space
Ejemplos en Minera de DatosUn clasico y un desconocido
Adult Dataset
http://find/ -
7/30/2019 jlb-MineriaDatos.pdf
131/314
Exec-managerial Husband Married-civ-spouse
ML Abstracts Dataset
support margin vectordescent gradienthilbert spacecarlo montemonte carlo
http://find/ -
7/30/2019 jlb-MineriaDatos.pdf
132/314
Formalizaciones de la InferenciaNo todas son del todo correctas
Intuicion util:Para muchas personas, se encuentran muy proximos
el concepto de implicacion logica y
-
7/30/2019 jlb-MineriaDatos.pdf
133/314
el concepto de implicacion logica y el concepto de causalidad.
Formalizaciones de la InferenciaNo todas son del todo correctas
Intuicion util:Para muchas personas, se encuentran muy proximos
el concepto de implicacion logica y
http://find/ -
7/30/2019 jlb-MineriaDatos.pdf
134/314
el concepto de implicacion logica y el concepto de causalidad.
(Aunque la correspondencia es ilusoria!)
Formalizaciones de la InferenciaNo todas son del todo correctas
Intuicion util:Para muchas personas, se encuentran muy proximos
el concepto de implicacion logica y
http://find/ -
7/30/2019 jlb-MineriaDatos.pdf
135/314
el concepto de implicacion logica y el concepto de causalidad.
(Aunque la correspondencia es ilusoria!)
Procesos deductivos:
Deduccion: dado p q, si observamos p, inferimos q.(Lindas propiedades de soundness y completitud.)
Abduccion: dado p q, si observamos q, inferimos p. Incorrecto (unsound) en general; muy frecuente en el razonamiento cotidiano humano; el grado de correccion puede admitir un analisis estadstico.
http://find/ -
7/30/2019 jlb-MineriaDatos.pdf
136/314
Implicaciones y AsociacionesCausalidad versus Simultaneidad
Las relaciones de causalidad son un motor para la Ciencia.
Pero no basta con predecir hay que construir teoras que
-
7/30/2019 jlb-MineriaDatos.pdf
137/314
Pero no basta con predecir, hay que construir teoras queexpliquen relaciones de causa y efecto entre los hechos.
5.1361 Der Glaube an den Kausalnexus ist der Aberglaube
(LW, T L-Ph)
La nocion crucial es la de implicacion.
La piedra angular de la Logica, y el gran avance de Aristotelessobre Platon.
2350 anos de estudio.
Implicaciones y AsociacionesUna sintaxis muy atractiva
Nuestro sesgo computacional de hoy:
http://goforward/http://find/http://goback/ -
7/30/2019 jlb-MineriaDatos.pdf
138/314
Nuestro sesgo computacional de hoy:
No nos alejemos de la Logica Proposicional.
Enfoque sobre implicaciones, consecuencia logica yaxiomatizaciones.
Implicaciones y AsociacionesUna sintaxis muy atractiva
Nuestro sesgo computacional de hoy:
http://find/ -
7/30/2019 jlb-MineriaDatos.pdf
139/314
Nuestro sesgo computacional de hoy:
No nos alejemos de la Logica Proposicional.
Enfoque sobre implicaciones, consecuencia logica yaxiomatizaciones.
Aceptamos p q cuando vemos que as ocurre.
http://find/http://goback/ -
7/30/2019 jlb-MineriaDatos.pdf
140/314
Implicaciones y AsociacionesUna sintaxis muy atractiva
Nuestro sesgo computacional de hoy:
-
7/30/2019 jlb-MineriaDatos.pdf
141/314
g p y
No nos alejemos de la Logica Proposicional.
Enfoque sobre implicaciones, consecuencia logica yaxiomatizaciones.
Aceptamos p q cuando vemos que as ocurre. Ha de ocurrir siempre? Basta con que sea casi siempre?
Implicaciones y AsociacionesUna sintaxis muy atractiva
Nuestro sesgo computacional de hoy:
http://find/ -
7/30/2019 jlb-MineriaDatos.pdf
142/314
g p y
No nos alejemos de la Logica Proposicional.
Enfoque sobre implicaciones, consecuencia logica yaxiomatizaciones.
Aceptamos p q cuando vemos que as ocurre. Ha de ocurrir siempre? Basta con que sea casi siempre? Como se mide ese casi?
Datos TransaccionalesTodos los atributos son booleanos
Implicaciones: clausulas de Horn con el mismo antecedente.
(Rich
Male)
(Rich
White) =
Rich Male, White
http://find/ -
7/30/2019 jlb-MineriaDatos.pdf
143/314
Rich Male, White
Propiedades: a, b, c, d;Observaciones: m1 , m2 , m3 ,
Id a b c d transaccion
m1 1 1 0 1 {a, b, d}m2 0 1 1 1 {b, c, d}m3 0 1 0 1 {b, d}
d ba, b da b, d
. . .
Caso relacional: Un atributo booleano por cada par atributo-valor.
Envolventes HornCaracterizacion semantica
Dataset, conjunto de transacciones:
Cada transaccion es un conjunto de items;
o, lo que es lo mismo, un modelo proposicional.
http://find/ -
7/30/2019 jlb-MineriaDatos.pdf
144/314
Propiedad crucial:
Es equivalente:
afirmar que un dataset es cerrado por interseccion o afirmar que un dataset admite una descripcion Horn.
Teora Horn: clausulas de Horn (implicaciones) que se cumplen entodos los datos.
Envolvente Horn: cierre por interseccion; da lugar a un retculo.
Envolventes HornCaracterizacion semantica
Dataset, conjunto de transacciones:
Cada transaccion es un conjunto de items;
o, lo que es lo mismo, un modelo proposicional.
http://find/ -
7/30/2019 jlb-MineriaDatos.pdf
145/314
Propiedad crucial:
Es equivalente:
afirmar que undataset
es cerrado por interseccion o afirmar que un dataset admite una descripcion Horn.
Teora Horn: clausulas de Horn (implicaciones) que se cumplen entodos los datos.
Envolvente Horn: cierre por interseccion; da lugar a un retculo.Cuanto de realista es requerir que la totalidad de los datoscumplan la implicacion?
Reglas de AsociacionClausulas de Horn que permiten excepciones
Por ejemplo:
En censos estadounidenses, en mas de 2/3 de los casos:
United-States, White
http://find/ -
7/30/2019 jlb-MineriaDatos.pdf
146/314
Husband Male, Married-civ-spouse Married-civ-spouse Husband, Male Not-in-family
-
7/30/2019 jlb-MineriaDatos.pdf
147/314
Intensidad de ImplicacionComo medir cuanto de pocas son las excepciones
Propuesta habitual: la confianza:
c(X
Y) =
supp(XY)
supp(X)( )
-
7/30/2019 jlb-MineriaDatos.pdf
148/314
donde supp(X) es el soporte del conjunto X: el numero detransacciones que contienen X.
A favor:
Es muy natural.
Es facil de explicar a un usuario no experto.
Intensidad de ImplicacionComo medir cuanto de pocas son las excepciones
Propuesta habitual: la confianza:
c(X
Y) =
supp(XY)
supp(X)d d (X ) l d l j X l d
http://find/ -
7/30/2019 jlb-MineriaDatos.pdf
149/314
donde supp(X) es el soporte del conjunto X: el numero detransacciones que contienen X.
A favor:
Es muy natural.
Es facil de explicar a un usuario no experto.
No termina de convencer:
La cota sobre la confianza no previene contra las correlacionesnegativas.
Docenas de propuestas alternativas.
Metricas AlternativasPara seleccionar reglas de asociacion
Criterios de intensidad de implicacion:
Confianza, Correccion de Laplace
http://find/http://goback/ -
7/30/2019 jlb-MineriaDatos.pdf
150/314
Correccion de Laplace,
Indice de Gini,
J-Measure,
Leverage, Confianza total,
Prevalence,
Jaccard,
Relative risk
...
ClausurasConjuntos cerrados
Opcion sencilla:
En el momento de extender un conjunto con un item,
comprobamos si el soporte decrece; si no lo hace, el conjuntono es cerrado
http://find/ -
7/30/2019 jlb-MineriaDatos.pdf
151/314
no es cerrado.
Los conjuntos cerrados actuan como resumen de todos losfrecuentes.
Inconvenientes:
Si vamos a calcular todas las reglas dentro de cada clausura,sin comparar clausuras, no merece la pena.
Si vamos a calcular reglas comparando clausuras, el proceso
requiere calcular que clausuras son subconjuntos de otras. Obtenemos mucha menos redundancia entre las reglas, pero es mucho mas laborioso computacionalmente.
Reglas de Asociacion en la PracticaAun no estan realmente aceptadas
Basaremos un proyecto de Data Mining en reglas de asociacion?
A favor:
Algoritmos razonablemente eficaces (y open source). El preproceso de los datos no es trivial pero es bastante
http://find/ -
7/30/2019 jlb-MineriaDatos.pdf
152/314
El preproceso de los datos no es trivial pero es bastantesencillo.
Relativamente poca formacion basta para entender elresultado.
Reglas de Asociacion en la PracticaAun no estan realmente aceptadas
Basaremos un proyecto de Data Mining en reglas de asociacion?
A favor:
Algoritmos razonablemente eficaces (y open source). El preproceso de los datos no es trivial pero es bastante
http://find/ -
7/30/2019 jlb-MineriaDatos.pdf
153/314
El preproceso de los datos no es trivial pero es bastantesencillo.
Relativamente poca formacion basta para entender elresultado.
En contra:
Ajustaremos las cotas de soporte y de intensidad deimplicacion por el famoso metodo I.P.: ir probando.
Que medida usaremos para la intensidad de implicacion?Como se la explicaremos al usuario?
Pero esto no es lo peor. . .
Abundancia de Reglas de AsociacionEl gran problema de este enfoque
Preprocesas los datos, lanzas tu asociador, afinas los parametros...
Y cuando, finalmente, aciertas con valores que te proporcionanreglas un poco interesantes...
http://find/ -
7/30/2019 jlb-MineriaDatos.pdf
154/314
Abundancia de Reglas de AsociacionEl gran problema de este enfoque
Preprocesas los datos, lanzas tu asociador, afinas los parametros...
Y cuando, finalmente, aciertas con valores que te proporcionanreglas un poco interesantes...
...salen decenas de miles de reglas. Y muchas te sobran.
http://find/ -
7/30/2019 jlb-MineriaDatos.pdf
155/314
Abundancia de Reglas de AsociacionEl gran problema de este enfoque
Preprocesas los datos, lanzas tu asociador, afinas los parametros...
Y cuando, finalmente, aciertas con valores que te proporcionanreglas un poco interesantes...
...salen decenas de miles de reglas. Y muchas te sobran.
http://find/ -
7/30/2019 jlb-MineriaDatos.pdf
156/314
United-States, White Husband United-States, White Married-civ-spouse United-States, White . . .
(En general, todas las que los datos no desmienten.)
Abundancia de Reglas de AsociacionEl gran problema de este enfoque
Preprocesas los datos, lanzas tu asociador, afinas los parametros...
Y cuando, finalmente, aciertas con valores que te proporcionanreglas un poco interesantes...
...salen decenas de miles de reglas. Y muchas te sobran.
http://find/http://goback/ -
7/30/2019 jlb-MineriaDatos.pdf
157/314
United-States, White Husband United-States, White Married-civ-spouse United-States, White . . .
(En general, todas las que los datos no desmienten.)
Necesitamos:
Nociones precisas de redundancia entre reglas de asociacion, metodos para encontrar bases mnimas,
y maneras de descartar las reglas poco novedosas.
La Logica de las ImplicacionesCalculo correcto y completo
Semantica: consecuencia logica,
X1 Y1, . . . ,Xk Yk |= X0 Y0Calculo sintactico: derivabilidad
http://find/ -
7/30/2019 jlb-MineriaDatos.pdf
158/314
Calculo sintactico: derivabilidad,
X1 Y1, . . . ,Xk Yk X0 Y0Esquemas de Armstrong
Reflexividad: si Y X, X Y; Aumentacion: X Y, X Y XX YY; Transitividad: X Y, Y Z X Z.
La consecuencia logica y la derivabilidad son equivalentes.
Redundancia entre ImplicacionesBase canonica
Dado un conjunto de implicaciones: sobra alguna?
Podemos prescindir de aquellas que se puedan recuperar aplicando
los esquemas de Armstrong.
Basis cover de un conjunto de implicaciones
http://find/http://goback/ -
7/30/2019 jlb-MineriaDatos.pdf
159/314
Basis, cover de un conjunto de implicaciones
Subconjunto de implicaciones de las que se pueden deducir
todas las demas. Base canonica o de Guigues-Duquenne: alcanza tamano
mnimo.
No es factible si requerimos mantener la sintaxis Horn.
Desarrollo analogo en dependencias funcionales. (Dificultades de aceptacion social.)
http://find/ -
7/30/2019 jlb-MineriaDatos.pdf
160/314
-
7/30/2019 jlb-MineriaDatos.pdf
161/314
-
7/30/2019 jlb-MineriaDatos.pdf
162/314
Bases MnimasReglas no redundantes y novedad objetiva
Con respecto a este tipo de redundancia,
La base B
se construye buscando casos extremos: reglas
X Y con X cerrado lo mas pequeno posible y XY cerradolo mas grande posible.
-
7/30/2019 jlb-MineriaDatos.pdf
163/314
Es una base mnima de las reglas parciales (a combinar con labase GD de las implicaciones).
Las llamadas reglas representativas proporcionan unaalternativa si no queremos tratar las implicaciones porseparado.
Confidence width: cuanto mas alta es la confianza de la regla
respecto a la de reglas que la hacen redundante.Confidence boost: cuanto mas alta es la confianza de la reglarespecto a la de reglas que la hacen redundante, o de reglasanalogas con la parte izquierda mas reducida.
http://find/ -
7/30/2019 jlb-MineriaDatos.pdf
164/314
-
7/30/2019 jlb-MineriaDatos.pdf
165/314
Confidence Boost en CensosComo se reducen las reglas representativas acotando confidence boost
Training set de Adult (UCI), soporte 2%, confianza 75%.
-
7/30/2019 jlb-MineriaDatos.pdf
166/314
http://find/ -
7/30/2019 jlb-MineriaDatos.pdf
167/314
IndiceIntroduccion
Repaso de Probabilidad
Generalidades sobre Modelado
Predictores Basicos y su Evaluacion
Sesgos de Continuidad
Mas Sobre Evaluacion de Predictores
-
7/30/2019 jlb-MineriaDatos.pdf
168/314
Mas Sobre Evaluacion de Predictores
Predictores Lineales y Metodos de Nucleo
Modelos Descriptivos: Asociacion
Priorizacion de Resultados y Pagerank
Modelos Descriptivos: Segmentacion por K-means
Modelos Descriptivos: Segmentacion por EM
Regresion versus Clasificacion
Error cuadratico, sesgo y varianza
Predictores Arborescentes
Metapredictores (Ensemble Methods)
http://find/ -
7/30/2019 jlb-MineriaDatos.pdf
169/314
-
7/30/2019 jlb-MineriaDatos.pdf
170/314
-
7/30/2019 jlb-MineriaDatos.pdf
171/314
Medidas de ProximidadUn leit-motiv
Saber en que sentido dos cosas se parecen:
S l i t i d t ti
-
7/30/2019 jlb-MineriaDatos.pdf
172/314
Seleccion y construccion de caractersticas: Atributos irrelevantes? Combinar atributos existentes en otros mas complejos?
Segmentacion (Clustering),
Prediccion (Nearest neighbors, Nucleos y SVM, . . . )
http://find/ -
7/30/2019 jlb-MineriaDatos.pdf
173/314
-
7/30/2019 jlb-MineriaDatos.pdf
174/314
Cuantificacion de PesosCuanto pesa un termino en un documento?
Imaginamos el termino como una componente de una query.
Opciones:
Booleano: el peso es 0 o 1, en funcion de si el terminoaparece o no en el documento. (En desuso.)
-
7/30/2019 jlb-MineriaDatos.pdf
175/314
p ( )
tf(t, d): term frequency, numero de veces que el termino taparece en el documento d.
Cuantificacion de PesosCuanto pesa un termino en un documento?
Imaginamos el termino como una componente de una query.
Opciones:
Booleano: el peso es 0 o 1, en funcion de si el terminoaparece o no en el documento. (En desuso.)
http://find/ -
7/30/2019 jlb-MineriaDatos.pdf
176/314
( )
tf(t, d): term frequency, numero de veces que el termino taparece en el documento d.
Quiza hay terminos muy frecuentes que no aportan relevancia(stop words). Ponderamos tf por la frecuencia global del termino?
http://find/ -
7/30/2019 jlb-MineriaDatos.pdf
177/314
-
7/30/2019 jlb-MineriaDatos.pdf
178/314
La Ponderacion tf-idfEl esquema de ponderacion que todo el mundo usa
Ponderacion:Term frequency, inverse document frequency:
tfidf(t, d) = tf(t, d) log Ndf(t)
-
7/30/2019 jlb-MineriaDatos.pdf
179/314
Da lugar a una matriz de terminos por documentos.
Cada documento es ahora un vector con una dimension por
cada termino. El origen de coordenadas sera el documento vaco, pero
tambien otros documentos caen en el mismo punto cero(cuales?).
Podemos considerar vectores parecidos, pero resulta maseficaz comparar mejor unicamente sus direcciones: similaridada traves del angulo que forman.
La Ponderacion tf-idf y el Modelo VectorialLa respuesta mas eficaz a la cuestion de la proximidad
Similaridad entre dos documentos:
Normalizamos dividiendo por la longitud eucldea y calculamos el coseno del angulo mediante un producto escalar;
la similaridad entre d1 y d2 es:
http://find/ -
7/30/2019 jlb-MineriaDatos.pdf
180/314
la similaridad entre d1 y d2 es:
Vd1
Vd2
|Vd1 | |Vd2 | Cada query da lugar a un vector analogo.
Podemos buscar los documentos cuyo vector sea masproximo al (es decir, tenga menor angulo con el) vector de laquery.
Presencia de EnlacesLa novedad de finales del Siglo XX
Las bibliotecas digitales tenan documentos individuales.
Ahora resulta que estan enlazados entre s:
Paginas web,
Artculos que referencian otros artculos. . .
http://find/ -
7/30/2019 jlb-MineriaDatos.pdf
181/314
La web no sera lo que es sin un juicioso equilibrio:
El spam entre paginas web siempre sera posible,
http://find/ -
7/30/2019 jlb-MineriaDatos.pdf
182/314
Presencia de EnlacesLa novedad de finales del Siglo XX
Las bibliotecas digitales tenan documentos individuales.
Ahora resulta que estan enlazados entre s:
Paginas web,
Artculos que referencian otros artculos. . .
-
7/30/2019 jlb-MineriaDatos.pdf
183/314
La web no sera lo que es sin un juicioso equilibrio:
El spam entre paginas web siempre sera posible, pero ha de ser difcil!
Los primeros buscadores usaban la tecnologa de InformationRetrieval; no nos hubieran trado a donde estamos.
La novedad que trajo Google: combinacion de relevancia por contenido (text mining) y relevancia basada en los enlaces (link mining).
http://find/ -
7/30/2019 jlb-MineriaDatos.pdf
184/314
-
7/30/2019 jlb-MineriaDatos.pdf
185/314
-
7/30/2019 jlb-MineriaDatos.pdf
186/314
La intuicion de PagerankPocos algoritmos alcanzaron tanta fama en tan poco tiempo
Intuicion:Para una query dada, una pagina es relevante en funcion de:
si otras paginas relevantes apuntan a ella,
-
7/30/2019 jlb-MineriaDatos.pdf
187/314
pero teniendo en cuenta cuanto de relevantes son esaspaginas.
La pescadilla se muerde la cola.
Pero a los informaticos no nos asusta la recursividad.
El unico problema es que no parece que haya caso base. . .
http://find/ -
7/30/2019 jlb-MineriaDatos.pdf
188/314
La clave de PagerankParece imposible, pero. . .
Relevancia:Para cada pagina i, relevancia ri: vector r.
Buscamos: ri proporcional a las rj de las paginas j que apuntan a i.
Matriz de adyacencia M (normalizada): la relevancia que se
-
7/30/2019 jlb-MineriaDatos.pdf
189/314
( )transmite es M R.
La condicion relevancia proporcional a la de las paginas que leapuntan se convierte en:
R = MR
es decir, estamos hablando de vectores propios.
La clave de PagerankParece imposible, pero. . .
Relevancia:Para cada pagina i, relevancia ri: vector r.
Buscamos: ri proporcional a las rj de las paginas j que apuntan a i.
Matriz de adyacencia M (normalizada): la relevancia que se
http://find/ -
7/30/2019 jlb-MineriaDatos.pdf
190/314
transmite es M R.
La condicion relevancia proporcional a la de las paginas que leapuntan se convierte en:
R = MR
es decir, estamos hablando de vectores propios.Hay que tratar con cuidado las paginas que no apuntan a nadie.
http://goforward/http://find/http://goback/ -
7/30/2019 jlb-MineriaDatos.pdf
191/314
-
7/30/2019 jlb-MineriaDatos.pdf
192/314
-
7/30/2019 jlb-MineriaDatos.pdf
193/314
-
7/30/2019 jlb-MineriaDatos.pdf
194/314
-
7/30/2019 jlb-MineriaDatos.pdf
195/314
-
7/30/2019 jlb-MineriaDatos.pdf
196/314
Muestreo (Sampling): Dos Intuiciones DiferentesFrente al exceso de datos
Una dosis de intuicion humana es indispensable: suele convenir
dar un vistazo a los datos.Pero, si estos contienen miles de tuplas, que haces?
Pues. . . obvio: mirar unas pocas; tomar una muestra.
-
7/30/2019 jlb-MineriaDatos.pdf
197/314
Muestreo en el sentido estadstico: elegir datos que resulten
globalmente representativos del total de los datos. Segmentacion (clustering): elegir datos que resulten
individualmente representativos de grupos (los segmentos oclusters) de datos.
http://find/ -
7/30/2019 jlb-MineriaDatos.pdf
198/314
-
7/30/2019 jlb-MineriaDatos.pdf
199/314
-
7/30/2019 jlb-MineriaDatos.pdf
200/314
Dificultades
Crecen...
Ya en modelos supervisados tenemos problemas:
Que sesgo aplicamos? Independencia de los atributos? (NB) Descomposicion en paraleleppedos paralelos a los ejes?
(Arboles de decision)
-
7/30/2019 jlb-MineriaDatos.pdf
201/314
Aproximacion lineal en un espacio de caractersticas?
(Redes neuronales, perceptrones, SVMs. . . ) Al menos, sabemos que es lo que buscamos:
Aproximar una funcion de los atributos predictores a la clase.
Pero en modelos no supervisados,
ni siquiera sabemos que buscamos.
http://find/ -
7/30/2019 jlb-MineriaDatos.pdf
202/314
-
7/30/2019 jlb-MineriaDatos.pdf
203/314
-
7/30/2019 jlb-MineriaDatos.pdf
204/314
El Enfoque Teorico (Simplificado)
Que es exactamente clustering?
Los axiomas de Kleinberg:
Invariancia de escala: Ha de importar donde esta cada punto,no la unidad de medida.
Ausencia de sesgos (riqueza de opciones): No haysegmentaciones prohibidas a priori.
Coherencia: Si segmentas, y luego modificas los datosreduciendo distancias dentro de los segmentos y/o
-
7/30/2019 jlb-MineriaDatos.pdf
205/314
reduciendo distancias dentro de los segmentos y/oampliandolas entre segmentos, la segmentacion no cambia.
Teorema (Kleinberg, 2003)
No existen algoritmos que cumplan las tres propiedades.
Obviamente, a posteriori todo el mundo tiene sus reservas sobre
alguno de los tres axiomas.Cuales son los axiomas razonables?
Medidas de SimilaridadComo decidir si dos datos se parecen, y cuanto se parecen?
Clave: dos datos pueden parecerse mucho, poco o nada.Necesitamos medir la similaridad entre dos datos.
Distancias:La mas frecuentemente usada es la eucldea entre vectores reales(norma L2); alternativas mas comunes:
Manhattan: camino mas corto que se mantenga paralelo a los
http://find/ -
7/30/2019 jlb-MineriaDatos.pdf
206/314
Manhattan: camino mas corto que se mantenga paralelo a los
ejes (norma L1); Minkowski: norma Lp;
Mahalanobis: similar, pero tiene en cuenta las correlacionesestadsticas entre los atributos.
Existen medidas de similaridad que no son distancias en el sentidomatematico del termino.
http://find/ -
7/30/2019 jlb-MineriaDatos.pdf
207/314
Minimizar el Error CuadraticoHacia el algoritmo K-means
Sesgos concretos:
Los datos son n vectores reales xi, y un entero positivo k;
elegiremos una particion de los datos en k clusters Cj; elegiremos un vector real cj (llamado centroide de Cj) como
representante de cada cluster Cj;
queremos elegir todo de tal manera que minimicemos el error
-
7/30/2019 jlb-MineriaDatos.pdf
208/314
queremos elegir todo de tal manera que minimicemos el error
cuadratico medio: 1
n
j
xiCj
d(xi, cj)2
Observacion:no requerimos (por ahora) que los c
jse encuentren entre los x
i.
Malas noticias: Es NP-hard.
http://find/ -
7/30/2019 jlb-MineriaDatos.pdf
209/314
-
7/30/2019 jlb-MineriaDatos.pdf
210/314
-
7/30/2019 jlb-MineriaDatos.pdf
211/314
-
7/30/2019 jlb-MineriaDatos.pdf
212/314
K-Means en AccionObservaciones, variantes y demos
Resultados:
Muy frecuentemente buenos o muy buenos;
ocasionalmente malsimos;
habitual: repetir varias veces con distintas inicializaciones yelegir la particion mejor de entre las obtenidas.
Variantes:
-
7/30/2019 jlb-MineriaDatos.pdf
213/314
Variantes:
k-medoids (varios algoritmos): minimiza error absoluto en vez de cuadratico; el centroide es un elemento del cluster; muy lento; buenas variantes basadas en muestreo.
Expectation-Maximization (EM): K-Means probabilista.
Demos:http://home.dei.polimi.it/matteucc/Clustering/tutorial html/AppletKM.http://www.paused21.net/off/kmeans/bin/
http://find/ -
7/30/2019 jlb-MineriaDatos.pdf
214/314
-
7/30/2019 jlb-MineriaDatos.pdf
215/314
La Esencia Conceptual de Expectation-MaximizationK-Means probabilista
Sesgo: suma de campanas de Gauss
Centroides: medias de esas distribuciones normales.
Suponemos que cada dato ha sido generado por una de lasgaussianas, que corresponde a su segmento.
Pero no sabemos cual!
-
7/30/2019 jlb-MineriaDatos.pdf
216/314
Para cada dato, para cada centroide, mantenemos unaprobabilidad de que ese dato provenga de la gaussiana conmedia en el centroide.
Se puede ver como una version probabilista de la asignacionde puntos a centroides en K-Means.
Vemos un ejemplo simplificado; pero, antes. . .
http://find/ -
7/30/2019 jlb-MineriaDatos.pdf
217/314
ComparacionRecordemos. . .
En K-Means,
teniendo los centroides era facil asignar datos a los segmentos:
el centroide mas proximo; teniendo asignados los datos a segmentos era facil calcular el
centroide: el punto medio (baricentro).
Pero al no tener ninguna de las dos cosas empezabamos con
-
7/30/2019 jlb-MineriaDatos.pdf
218/314
Pero, al no tener ninguna de las dos cosas, empezabamos con
centroides arbitrarios e bamos repitiendo los dos procesos.Haremos algo parecido.
http://find/ -
7/30/2019 jlb-MineriaDatos.pdf
219/314
-
7/30/2019 jlb-MineriaDatos.pdf
220/314
-
7/30/2019 jlb-MineriaDatos.pdf
221/314
Continuacion del Ejemplo Concreto: Variables LatentesDos gaussianas y una trampita
Sabemos:que es una eleccion con probabilidad p entre dos gaussianas.
Variable latente:
-
7/30/2019 jlb-MineriaDatos.pdf
222/314
Variable latente:Variable que interviene pero no es directamente observable. Aqu:la eleccion de rama (aunque s que es observable en nuestroejemplo, porque hemos hecho trampa en el formato de los floats).
http://find/http://goback/ -
7/30/2019 jlb-MineriaDatos.pdf
223/314
-
7/30/2019 jlb-MineriaDatos.pdf
224/314
Continuacion del Ejemplo Concreto: ExpectationDos gaussianas, y suponiendo que sabemos otra cosa
En general, no podremos observar la variable latente gi: nosabremos de que gaussiana viene cada dato.
-
7/30/2019 jlb-MineriaDatos.pdf
225/314
http://find/ -
7/30/2019 jlb-MineriaDatos.pdf
226/314
-
7/30/2019 jlb-MineriaDatos.pdf
227/314
-
7/30/2019 jlb-MineriaDatos.pdf
228/314
-
7/30/2019 jlb-MineriaDatos.pdf
229/314
-
7/30/2019 jlb-MineriaDatos.pdf
230/314
Distribucion Normal MultidimensionalGeneralizacion natural a varios atributos
Cuando los datos son multidimensionales:
Nocion natural de media y desviacion tpica.
Caso facil: independencia, sin interacciones entre los atributos.
-
7/30/2019 jlb-MineriaDatos.pdf
231/314
http://find/ -
7/30/2019 jlb-MineriaDatos.pdf
232/314
Indice
IntroduccionRepaso de Probabilidad
Generalidades sobre Modelado
Predictores Basicos y su Evaluacion
Sesgos de ContinuidadMas Sobre Evaluacion de Predictores
Predictores Lineales y Metodos de Nucleo
Modelos Descriptivos: Asociacion
-
7/30/2019 jlb-MineriaDatos.pdf
233/314
Priorizacion de Resultados y PagerankModelos Descriptivos: Segmentacion por K-means
Modelos Descriptivos: Segmentacion por EM
Regresion versus Clasificacion
Error cuadratico, sesgo y varianzaPredictores Arborescentes
Metapredictores (Ensemble Methods)
RelacionEntre problemas predictivos
Reducir clasificacion a regresion:
Numeriza las etiquetas (por ejemplo, 1) y aplica regresion.
Reducir regresion a clasificacion:
Haz una copia de los datos sumando M al valor a predecir,
http://find/ -
7/30/2019 jlb-MineriaDatos.pdf
234/314
haz otra copia de los datos restando M al valor a predecir, y aplica clasificacion para separar ambas copias.
(En ambos casos, existen otras opciones.)
http://find/http://goback/ -
7/30/2019 jlb-MineriaDatos.pdf
235/314
-
7/30/2019 jlb-MineriaDatos.pdf
236/314
Reduccion de Regresion a ClasificacionIntuicion
-
7/30/2019 jlb-MineriaDatos.pdf
237/314
http://find/ -
7/30/2019 jlb-MineriaDatos.pdf
238/314
-
7/30/2019 jlb-MineriaDatos.pdf
239/314
-
7/30/2019 jlb-MineriaDatos.pdf
240/314
Reduccion de Regresion a ClasificacionIntuicion
-
7/30/2019 jlb-MineriaDatos.pdf
241/314
Reduccion de Regresion a ClasificacionIntuicion
http://find/ -
7/30/2019 jlb-MineriaDatos.pdf
242/314
Reduccion de Regresion a ClasificacionIntuicion
http://find/ -
7/30/2019 jlb-MineriaDatos.pdf
243/314
http://find/ -
7/30/2019 jlb-MineriaDatos.pdf
244/314
-
7/30/2019 jlb-MineriaDatos.pdf
245/314
-
7/30/2019 jlb-MineriaDatos.pdf
246/314
Indice
IntroduccionRepaso de Probabilidad
Generalidades sobre Modelado
Predictores Basicos y su Evaluacion
Sesgos de ContinuidadMas Sobre Evaluacion de Predictores
Predictores Lineales y Metodos de Nucleo
Modelos Descriptivos: Asociacion
P i i i d R l d P k
-
7/30/2019 jlb-MineriaDatos.pdf
247/314
Priorizacion de Resultados y PagerankModelos Descriptivos: Segmentacion por K-means
Modelos Descriptivos: Segmentacion por EM
Regresion versus Clasificacion
Error cuadratico, sesgo y varianzaPredictores Arborescentes
Metapredictores (Ensemble Methods)
Modelos Predictivos Basados en los DatosSimplemente quedate con el modelo que mejor predice los datos
El problema del sobreajuste:
(En ingles overfitting.)Acertar muy bien en los datos no implica predecir bien endatos que no se han usado en el entrenamiento.
Un planteamiento que clarifica un poquito es el analisis del error en
t i d d f t d dif t
http://find/ -
7/30/2019 jlb-MineriaDatos.pdf
248/314
terminos de dos fuentes de error diferentes: sesgo y
varianza.
http://find/ -
7/30/2019 jlb-MineriaDatos.pdf
249/314
-
7/30/2019 jlb-MineriaDatos.pdf
250/314
-
7/30/2019 jlb-MineriaDatos.pdf
251/314
-
7/30/2019 jlb-MineriaDatos.pdf
252/314
-
7/30/2019 jlb-MineriaDatos.pdf
253/314
Expresiones del Sesgo y de la VarianzaLa formalizacion sirve para casos mas generales
Contexto:
Valor a predecir y;
Muestra aleatoria s que revela informacion sobre y;
Estimador e(s) que intenta acertar con y a la vista de s.
El valor e(s) es una variable aleatoria: depende de la m