jlb-mineriadatos.pdf

Upload: nuwanda-charlie

Post on 14-Apr-2018

219 views

Category:

Documents


0 download

TRANSCRIPT

  • 7/30/2019 jlb-MineriaDatos.pdf

    1/314

    Minera de Datos

    Jose L. Balcazar

    Dept. LSI, UPC

    UNED Febrero de 2012

    http://find/
  • 7/30/2019 jlb-MineriaDatos.pdf

    2/314

    IndiceIntroduccion

    Repaso de Probabilidad

    Generalidades sobre Modelado

    Predictores Basicos y su Evaluacion

    Sesgos de Continuidad

    Mas Sobre Evaluacion de Predictores

    Predictores Lineales y Metodos de NucleoModelos Descriptivos: Asociacion

    Priorizacion de Resultados y Pagerank

    Modelos Descriptivos: Segmentacion por K-means

    Modelos Descriptivos: Segmentacion por EMRegresion versus Clasificacion

    Error cuadratico, sesgo y varianza

    Predictores Arborescentes

    Metapredictores (Ensemble Methods)

    http://find/http://goback/
  • 7/30/2019 jlb-MineriaDatos.pdf

    3/314

    IndiceIntroduccion

    Repaso de Probabilidad

    Generalidades sobre ModeladoPredictores Basicos y su Evaluacion

    Sesgos de Continuidad

    Mas Sobre Evaluacion de Predictores

    Predictores Lineales y Metodos de NucleoModelos Descriptivos: Asociacion

    Priorizacion de Resultados y Pagerank

    Modelos Descriptivos: Segmentacion por K-means

    Modelos Descriptivos: Segmentacion por EMRegresion versus Clasificacion

    Error cuadratico, sesgo y varianza

    Predictores Arborescentes

    Metapredictores (Ensemble Methods)

    http://find/
  • 7/30/2019 jlb-MineriaDatos.pdf

    4/314

    Los Top-Ten Algorithms en Minera de Datos, IIEEE Int. Conf. Data Mining, ICDM06

    Ver: http://www.cs.uvm.edu/icdm/algorithms/index.shtml(Y bajar a: Panel Slides with Voting Results.)

    http://find/
  • 7/30/2019 jlb-MineriaDatos.pdf

    5/314

    El Proceso KDD: Knowledge Discovery in Data, IIntuicion

    Los datos suelen ser poco sofisticados.

    El proceso KDD

    pretende encontrar informacion implcita en los datos, dando lugara descripciones mas sofisticadas de los mismos:

    correctas, se corresponden con los mismos datos,

    novedosas, no triviales ni explcitas,

    accionables, sugieren como actuar.

    Es difcil precisar con suficiente exactitud estas condiciones.

    http://find/
  • 7/30/2019 jlb-MineriaDatos.pdf

    6/314

    El Proceso KDD: Knowledge Discovery in Data, IILa descripcion academica intuitiva de Fayyad (1996)

    http://find/
  • 7/30/2019 jlb-MineriaDatos.pdf

    7/314

    El Proceso KDD: Knowledge Discovery in Data, IIILa descripcion academica intuitiva de Fayyad (1996)

    1. Seleccion de los datos a tratar,

    2. Preproceso,

    3. Transformacion,

    4. Modelado, construccion de modelos o patrones,5. Evaluacion, interpretacion, despliegue de decisiones en base

    a los resultados.

    http://find/http://goback/
  • 7/30/2019 jlb-MineriaDatos.pdf

    8/314

    El Proceso KDD: Knowledge Discovery in Data, IIILa descripcion academica intuitiva de Fayyad (1996)

    1. Seleccion de los datos a tratar,

    2. Preproceso,

    3. Transformacion,

    4. Modelado, construccion de modelos o patrones,5. Evaluacion, interpretacion, despliegue de decisiones en base

    a los resultados.

    La expresion minera de datos a veces se refiere al proceso KDD

    completo, y a veces se refiere unicamente a la fase de modelado.Es la fase en que se aplican algoritmos procedentesmayoritariamente del ambito Machine Learning.

    http://goforward/http://find/http://goback/
  • 7/30/2019 jlb-MineriaDatos.pdf

    9/314

    El Proceso KDD: Knowledge Discovery in Data, IVLa descripcion desde la perspectiva industrial: CRISP-DM (1996)

    http://find/
  • 7/30/2019 jlb-MineriaDatos.pdf

    10/314

    Los Top-Ten Algorithms en Minera de Datos, IIEn concreto, con nombres y apellidos

    Los resultados que se obtuvieron:1. C4.5 (61 votos)

    2. K-Means (60 votos)

    3. SVM (58 votos)

    4. Apriori (52 votos)

    5. EM (48 votos)

    6. PageRank (46 votos)

    7. AdaBoost (45 votos), kNN (45 votos), Nave Bayes (45 votos)

    8. (empate a votos)

    9. (empate a votos)

    10. CART (34 votos)

    http://find/
  • 7/30/2019 jlb-MineriaDatos.pdf

    11/314

    El Proceso KDD: Knowledge Discovery in Data, VEl rol de la parte Data Mining

    La parte de Data Mining es central al proceso KDD, aunque elresto de fases aun son mayora y requieren la mayor parte deltrabajo.

    http://find/
  • 7/30/2019 jlb-MineriaDatos.pdf

    12/314

    El Proceso KDD: Knowledge Discovery in Data, VEl rol de la parte Data Mining

    La parte de Data Mining es central al proceso KDD, aunque elresto de fases aun son mayora y requieren la mayor parte deltrabajo.

    Sin embargo, es la que se trata en mas profundidad en todos loslibros y cursos.

    La razon es que es donde hay mas cantidad de algortmica notrivial, pero bastante sistematizable.

    Para las otras fases de KDD hay poco que ensenar: hayestudios publicados pero queda todo muy ad-hoc.

    En la fase de Data Mining, es irrelevante si los datos vienen de unabase de datos, de un Data Warehouse, de una hoja de Excel o deficheros planos (ASCII).

    http://find/http://goback/
  • 7/30/2019 jlb-MineriaDatos.pdf

    13/314

    El Proceso KDD: Knowledge Discovery in Data, VILas fases de preproceso y transformacion

    Como son los datos?

    Su formato e incluso su codificacion dependen del algoritmo que sedesee usar, o incluso de su implementacion.

    Transaccional: Secuencia de conjuntos de tems (atributosbinarios, interpretacion de presencia)

    Transaccional binario: Secuencia de bitvectors (similar aatributos binarios) [arff, csv];

    Transaccional relacional: Tabla relacional que contiene lamisma informacion que el formato transaccional.

    Relacional: Como una tabla para SQL [arff, csv]; Multirelacional: Varias tablas, posibles claves foraneas; Piedrecitas en el zapato:

    Encabezamientos de columnas? Identificadores de filas? Separadores? Algun separador que no debera estar? Una marca de fin de datos donde mas estorba?

    http://find/
  • 7/30/2019 jlb-MineriaDatos.pdf

    14/314

    Analisis de DatosTendremos todos los datos?

    Objetivo:

    una ventaja economica o (menos frecuentemente) humana.

    La intencion es lograrla mediante predicciones acertadas, almenos parcialmente.

    Dos posturas frecuentes: La herramienta software me proporciona modelos predictivos; La herramienta software me proporciona modelos descriptivos,

    que yo estudio hasta obtener una comprension mas profundaque me permite hacer yo las predicciones.

    http://goforward/http://find/http://goback/
  • 7/30/2019 jlb-MineriaDatos.pdf

    15/314

    Analisis de DatosTendremos todos los datos?

    Objetivo:

    una ventaja economica o (menos frecuentemente) humana.

    La intencion es lograrla mediante predicciones acertadas, almenos parcialmente.

    Dos posturas frecuentes: La herramienta software me proporciona modelos predictivos; La herramienta software me proporciona modelos descriptivos,

    que yo estudio hasta obtener una comprension mas profundaque me permite hacer yo las predicciones.

    Predecir al azar difcilmente proporciona ventajas: queremos

    hacerlo mejor que al azar. Para ello, habremos de basarnos en algo. Por ejemplo, en datos disponibles. Pero, si tenemos todos los datos, no hay nada a predecir.

    Ingrediente imprescindible: la incertidumbre.

    A l d D II

    http://find/
  • 7/30/2019 jlb-MineriaDatos.pdf

    16/314

    Analisis de Datos, IITorturar los datos hasta que confiesen todo lo que sepan no va a funcionar

    Tenemos pocos datos o muchos?Las actitudes intuitivas naturales pueden no ser del todocorrectas. He medido tambien esta otra variable adicional, para tener

    mas datos.

    A li i d D II

    http://find/
  • 7/30/2019 jlb-MineriaDatos.pdf

    17/314

    Analisis de Datos, IITorturar los datos hasta que confiesen todo lo que sepan no va a funcionar

    Tenemos pocos datos o muchos?Las actitudes intuitivas naturales pueden no ser del todocorrectas. He medido tambien esta otra variable adicional, para tener

    mas datos. Pero entonces no tienes mas datos, tienes menos!:

    el mismo numero de observaciones, en un espacio de dimensionmayor.

    Si tenemos pocos datos, obtendremos poca informacion;pero extraigamos toda la que se pueda.

    A li i d D II

    http://find/
  • 7/30/2019 jlb-MineriaDatos.pdf

    18/314

    Analisis de Datos, IITorturar los datos hasta que confiesen todo lo que sepan no va a funcionar

    Tenemos pocos datos o muchos?Las actitudes intuitivas naturales pueden no ser del todocorrectas. He medido tambien esta otra variable adicional, para tener

    mas datos. Pero entonces no tienes mas datos, tienes menos!:

    el mismo numero de observaciones, en un espacio de dimensionmayor.

    Si tenemos pocos datos, obtendremos poca informacion;pero extraigamos toda la que se pueda. Con menos datos, obtendremos mas informacion.

    A li i d D t II

    http://find/
  • 7/30/2019 jlb-MineriaDatos.pdf

    19/314

    Analisis de Datos, IITorturar los datos hasta que confiesen todo lo que sepan no va a funcionar

    Tenemos pocos datos o muchos?Las actitudes intuitivas naturales pueden no ser del todocorrectas. He medido tambien esta otra variable adicional, para tener

    mas datos. Pero entonces no tienes mas datos, tienes menos!:

    el mismo numero de observaciones, en un espacio de dimensionmayor.

    Si tenemos pocos datos, obtendremos poca informacion;pero extraigamos toda la que se pueda. Con menos datos, obtendremos mas informacion. Pero sera mas falsa!

    La mente humana tiene serios problemas para enfrentarse aespacios de dimensionalidad elevada.

    http://find/http://goback/
  • 7/30/2019 jlb-MineriaDatos.pdf

    20/314

    IndiceIntroduccion

    Repaso de Probabilidad

    Generalidades sobre ModeladoPredictores Basicos y su Evaluacion

    Sesgos de Continuidad

    Mas Sobre Evaluacion de Predictores

    Predictores Lineales y Metodos de NucleoModelos Descriptivos: Asociacion

    Priorizacion de Resultados y Pagerank

    Modelos Descriptivos: Segmentacion por K-means

    Modelos Descriptivos: Segmentacion por EMRegresion versus Clasificacion

    Error cuadratico, sesgo y varianza

    Predictores Arborescentes

    Metapredictores (Ensemble Methods)

    Probabilidad

    http://find/
  • 7/30/2019 jlb-MineriaDatos.pdf

    21/314

    ProbabilidadReencontramos algunos viejos conocidos

    Espacios de probabilidad X.Distribucion de probabilidad D : X [0, 1], reparte una masaunitaria de probabilidad entre todos los elementos de X.Diferencia formal entre distribuciones de probabilidad y suscorrespondientes densidades.

    El motivo de las dificultades formales: el deseo de admitir espaciosde probabilidad infinitos (y mucho!), como los reales: obliga aasignar probabilidad cero a la inmensa mayora de los puntos.

    En nuestro caso no habra este tipo de problemas: trabajaremosdirectamente con distribuciones dando en realidad susfunciones de densidad.

    Evaluacion de la Probabilidad

    http://find/http://goback/
  • 7/30/2019 jlb-MineriaDatos.pdf

    22/314

    Evaluacion de la ProbabilidadCaso discreto

    Probabilidad conceptual o probabilidad emprica?Slogan: Casos favorables dividido por casos posibles.

    Ejemplos:

    tiradas de uno o varios dados (legtimos o cargados),

    extraccion de bolitas de una o varias urnas, extraccion de una carta de un mazo previamente barajado. . .

    Evaluacion de la Probabilidad

    http://find/
  • 7/30/2019 jlb-MineriaDatos.pdf

    23/314

    Evaluacion de la ProbabilidadCaso discreto

    Probabilidad conceptual o probabilidad emprica?Slogan: Casos favorables dividido por casos posibles.

    Ejemplos:

    tiradas de uno o varios dados (legtimos o cargados),

    extraccion de bolitas de una o varias urnas, extraccion de una carta de un mazo previamente barajado. . .

    Con eventos concretos:

    Pr(resultado del dado es 4) =16 (dado legtimo),

    Pr(resultado par del dado) = 12 (id.),

    Pr(la carta es una figura) = 1240 =3

    10 .

    Repaso de la Distribucion Normal

    http://goforward/http://find/http://goback/
  • 7/30/2019 jlb-MineriaDatos.pdf

    24/314

    Repaso de la Distribucion NormalTambien conocida como campana de Gauss

    Fuente: Wikipedia.

    Probabilidad en los Reales

    http://find/
  • 7/30/2019 jlb-MineriaDatos.pdf

    25/314

    Probabilidad en los RealesComo nos lo vamos a montar entonces?

    Todos nuestros valores seran floats de precision finita.

    Probabilidad en los Reales

    http://find/
  • 7/30/2019 jlb-MineriaDatos.pdf

    26/314

    Probabilidad en los RealesComo nos lo vamos a montar entonces?

    Todos nuestros valores seran floats de precision finita.

    Cada valor se interpretara, en realidad, como un intervalo de reales.

    Probabilidad en los Reales

    http://goforward/http://find/http://goback/
  • 7/30/2019 jlb-MineriaDatos.pdf

    27/314

    Probabilidad en los RealesComo nos lo vamos a montar entonces?

    Todos nuestros valores seran floats de precision finita.

    Cada valor se interpretara, en realidad, como un intervalo de reales.

    Ejemplo: Una longitud de petalo de 1.234cm es indistinguible deuna longitud de petalo de 1.234000001.

    Probabilidad en los Reales

    http://goforward/http://find/http://goback/
  • 7/30/2019 jlb-MineriaDatos.pdf

    28/314

    Probabilidad en los RealesComo nos lo vamos a montar entonces?

    Todos nuestros valores seran floats de precision finita.

    Cada valor se interpretara, en realidad, como un intervalo de reales.

    Ejemplo: Una longitud de petalo de 1.234cm es indistinguible deuna longitud de petalo de 1.234000001.

    En efecto: la diferencia corresponde aproximadamente a lacuarta parte del tamano medio de un atomo de hidrogeno

    (Radio de Bohr).

    Eventos

    http://find/
  • 7/30/2019 jlb-MineriaDatos.pdf

    29/314

    EventosEn un espacio de probabilidad X

    Eventos son subconjuntos del espacio a los que podemos asociarun valor de probabilidad.

    En todos nuestros casos, todos los subconjuntos son validos comoeventos. (No es as con los reales de verdad, donde es preciso

    restringirse a -algebras y seguir los axiomas de Kolmogorov.)Variable aleatoria: manera informal de referirnos a un proceso deevaluacion de la probabilidad de un evento.

    Informalmente, imaginamos que la variable representa un elemento

    de Xelegido segun la probabilidad, del cual preguntamos sipertenece al evento.

    (En los reales no es posible implementar esta interpretacion.)

    Independencia, I

    http://find/
  • 7/30/2019 jlb-MineriaDatos.pdf

    30/314

    Independencia, INocion crucial

    Cuando podemos decir que dos eventos son independientes?

    Al lanzar dos dados, el resultado de cada uno no debera

    influir en el resultado del otro.

    Independencia, I

    http://find/
  • 7/30/2019 jlb-MineriaDatos.pdf

    31/314

    p ,Nocion crucial

    Cuando podemos decir que dos eventos son independientes?

    Al lanzar dos dados, el resultado de cada uno no debera

    influir en el resultado del otro.

    Extraemos una carta: el que sea o no una figura no deberatener relacion con el que sea o no un basto.

    Independencia, II

    http://find/
  • 7/30/2019 jlb-MineriaDatos.pdf

    32/314

    p ,Comparamos algunos casos

    Ejemplos:

    Pr(la carta es un basto) = 14 , Pr(la carta es una figura) = 1240 =

    310 ,

    Pr(la carta es una figura de bastos) = 340 .

    Se cumple:3

    40 =3

    10 1

    4 .

    Independencia, II

    http://goforward/http://find/http://goback/
  • 7/30/2019 jlb-MineriaDatos.pdf

    33/314

    pComparamos algunos casos

    Ejemplos:

    Pr(la carta es un basto) = 14 , Pr(la carta es una figura) = 1240 =

    310 ,

    Pr(la carta es una figura de bastos) = 340 .

    Se cumple:3

    40 =3

    10 1

    4 .

    Pr(la carta es 5) = 12 , Pr(la carta es par (J = 8, K = 10)) = 12 ,

    Pr(la carta es par y 5) = 210 = 15 .Sin embargo: 15 = 12 12 = 14 .

    Independencia, II

    http://find/http://goback/
  • 7/30/2019 jlb-MineriaDatos.pdf

    34/314

    pComparamos algunos casos

    Ejemplos:

    Pr(la carta es un basto) = 14 , Pr(la carta es una figura) = 1240 =

    310 ,

    Pr(la carta es una figura de bastos) = 340 .

    Se cumple:3

    40 =3

    10 1

    4 .

    Pr(la carta es 5) = 12 , Pr(la carta es par (J = 8, K = 10)) = 12 ,

    Pr(la carta es par y 5) = 210 = 15 .Sin embargo: 15 = 12 12 = 14 .

    Intuicion: el conocer el resultado de un evento nos modifica la

    probabilidad del otro? (Pero considerados a la vez!)

    Probabilidad Condicional, I

    http://find/
  • 7/30/2019 jlb-MineriaDatos.pdf

    35/314

    Para analizar la dependencia entre eventos

    Sobre una variable aleatoria, supongamos que sabemos que secumple el evento A.

    Podemos decir algo sobre el evento B?

    Probabilidad Condicional, I

    http://find/
  • 7/30/2019 jlb-MineriaDatos.pdf

    36/314

    Para analizar la dependencia entre eventos

    Sobre una variable aleatoria, supongamos que sabemos que secumple el evento A.

    Podemos decir algo sobre el evento B?

    Ejemplo: Sabemos que la carta es

    5. Cual es ahora laprobabilidad de que sea par?

    De nuevo el slogan: Casos favorables dividido por casos posibles; elresultado es:

    Pr(la carta es par la carta es 5) = 2

    5

    ,

    (Ojo: De nuevo, la probabilidad condicional en los reales requieremas cuidado en las definiciones.)

    Probabilidad Condicional, II

    http://find/
  • 7/30/2019 jlb-MineriaDatos.pdf

    37/314

    En caso de independencia

    Los eventos A y B son independientes cuando:

    Pr(A B) = Pr(A)*Pr(B) Pr(A

    B) = Pr(A) Pr(B

    A) = Pr(B)

    Ejemplos:

    Pr(la carta es una figura de bastos) = 340 =3

    10 14 . Pr(la carta es un basto

    la carta es una figura) =

    14 .

    Pr(la carta es una figura la carta es un basto) = 310 .

    Probabilidad e IndependenciaS C fi Lif

    http://find/
  • 7/30/2019 jlb-MineriaDatos.pdf

    38/314

    Soporte, Confianza y Lift

    Costumbres terminologicasIdeas basicas de probabilidad en Minera de Datos: Probabilidad emprica (soporte, coverage); no es raro

    mantenerlo sin normalizar:

    supp(A): numero de observaciones en que A se da.

    (La probabilidad emprica propiamente dicha se obtienedividiendo por el numero total de observaciones.)

    Probabilidad e IndependenciaS t C fi Lift

    http://find/http://goback/
  • 7/30/2019 jlb-MineriaDatos.pdf

    39/314

    Soporte, Confianza y Lift

    Costumbres terminologicas

    Ideas basicas de probabilidad en Minera de Datos: Probabilidad emprica (soporte, coverage); no es raro

    mantenerlo sin normalizar:

    supp(A): numero de observaciones en que A se da.

    (La probabilidad emprica propiamente dicha se obtienedividiendo por el numero total de observaciones.)

    Probabilidad condicional (renombrada confianza); sueleescribirse sugiriendo una implicacion:

    conf(A

    B) = supp(AB)supp(A)

    Probabilidad e IndependenciaS t C fi Lift

    http://find/
  • 7/30/2019 jlb-MineriaDatos.pdf

    40/314

    Soporte, Confianza y Lift

    Costumbres terminologicas

    Ideas basicas de probabilidad en Minera de Datos: Probabilidad emprica (soporte, coverage); no es raro

    mantenerlo sin normalizar:

    supp(A): numero de observaciones en que A se da.

    (La probabilidad emprica propiamente dicha se obtienedividiendo por el numero total de observaciones.)

    Probabilidad condicional (renombrada confianza); sueleescribirse sugiriendo una implicacion:

    conf(A

    B) = supp(AB)supp(A)

    Es habitual denominar lift a la desviacion (multiplicativa)respecto de la independencia:

    lift(A B) = supp(AB)supp(A)supp(B)

    Casos Contraintuitivos de la Probabilidad, IDesconfianza en la confianza

    http://find/
  • 7/30/2019 jlb-MineriaDatos.pdf

    41/314

    Desconfianza en la confianza

    Confianza y correlacion negativa

    La confianza como grado de implicacion no es fiable. Dataset CMC (Contraceptive Method Choice): Survey sobre

    metodos anticonceptivos en Indonesia en 1987.

    Con soporte mas de 10% y confianza aproximada 90%

    aparece la implicacionnear-low-wife-education no-contraception-method

    good-media-exposure

    Casos Contraintuitivos de la Probabilidad, IDesconfianza en la confianza

    http://find/
  • 7/30/2019 jlb-MineriaDatos.pdf

    42/314

    Desconfianza en la confianza

    Confianza y correlacion negativa

    La confianza como grado de implicacion no es fiable. Dataset CMC (Contraceptive Method Choice): Survey sobre

    metodos anticonceptivos en Indonesia en 1987.

    Con soporte mas de 10% y confianza aproximada 90%

    aparece la implicacionnear-low-wife-education no-contraception-method

    good-media-exposure

    Pero el soporte de good-media-exposure es. . . mas del 92%!

    Casos Contraintuitivos de la Probabilidad, IDesconfianza en la confianza

    http://find/
  • 7/30/2019 jlb-MineriaDatos.pdf

    43/314

    Desconfianza en la confianza

    Confianza y correlacion negativa

    La confianza como grado de implicacion no es fiable. Dataset CMC (Contraceptive Method Choice): Survey sobre

    metodos anticonceptivos en Indonesia en 1987.

    Con soporte mas de 10% y confianza aproximada 90%

    aparece la implicacionnear-low-wife-education no-contraception-method

    good-media-exposure

    Pero el soporte de good-media-exposure es. . . mas del 92%! La correlacion es de hecho negativa!

    Casos Contraintuitivos de la Probabilidad, IDesconfianza en la confianza

    http://find/
  • 7/30/2019 jlb-MineriaDatos.pdf

    44/314

    Desconfianza en la confianza

    Confianza y correlacion negativa

    La confianza como grado de implicacion no es fiable. Dataset CMC (Contraceptive Method Choice): Survey sobre

    metodos anticonceptivos en Indonesia en 1987.

    Con soporte mas de 10% y confianza aproximada 90%

    aparece la implicacionnear-low-wife-education no-contraception-method

    good-media-exposure

    Pero el soporte de good-media-exposure es. . . mas del 92%! La correlacion es de hecho negativa!

    Si normalizamos para resolver el problema, vamos a parar allift, y se pierde la nocion de orientacion de la implicacion.

    Casos Contraintuitivos de la Probabilidad, IIRosencrantz y Guildenstern han muerto

    http://goforward/http://find/http://goback/
  • 7/30/2019 jlb-MineriaDatos.pdf

    45/314

    Rosencrantz y Guildenstern han muerto

    En la escena que abre la pelcula, Rosencrantz va lanzando

    monedas al aire.Si sale cara, la pierde y se la lleva Guildenstern; de lo contrario, sesupone que recibe una moneda de Guildenstern.

    Lleva lanzadas noventa y una.

    Casos Contraintuitivos de la Probabilidad, IIRosencrantz y Guildenstern han muerto

    http://find/
  • 7/30/2019 jlb-MineriaDatos.pdf

    46/314

    Rosencrantz y Guildenstern han muerto

    En la escena que abre la pelcula, Rosencrantz va lanzando

    monedas al aire.Si sale cara, la pierde y se la lleva Guildenstern; de lo contrario, sesupone que recibe una moneda de Guildenstern.

    Lleva lanzadas noventa y una.

    Todas han salido cara (y, por tanto, se las ha llevado Guildenstern).A la proxima vez, la probabilidad de cruz es mayor, no?

    Casos Contraintuitivos de la Probabilidad, IIRosencrantz y Guildenstern han muerto

    http://goforward/http://find/http://goback/
  • 7/30/2019 jlb-MineriaDatos.pdf

    47/314

    y

    En la escena que abre la pelcula, Rosencrantz va lanzando

    monedas al aire.Si sale cara, la pierde y se la lleva Guildenstern; de lo contrario, sesupone que recibe una moneda de Guildenstern.

    Lleva lanzadas noventa y una.

    Todas han salido cara (y, por tanto, se las ha llevado Guildenstern).A la proxima vez, la probabilidad de cruz es mayor, no?

    Pues, de hecho. . . no!

    Son eventos independientes!

    Casos Contraintuitivos de la Probabilidad, IIRosencrantz y Guildenstern han muerto

    http://goforward/http://find/http://goback/
  • 7/30/2019 jlb-MineriaDatos.pdf

    48/314

    y

    En la escena que abre la pelcula, Rosencrantz va lanzando

    monedas al aire.Si sale cara, la pierde y se la lleva Guildenstern; de lo contrario, sesupone que recibe una moneda de Guildenstern.

    Lleva lanzadas noventa y una.

    Todas han salido cara (y, por tanto, se las ha llevado Guildenstern).A la proxima vez, la probabilidad de cruz es mayor, no?

    Pues, de hecho. . . no!

    Son eventos independientes!

    (Y, en efecto, Rosencrantz lanza la nonagesimo segunda moneday. . . adivina lo que ocurre.)

    2011: El regreso de la martingala!

    Casos Contraintuitivos de la Probabilidad, IIIUn ejemplo famoso

    http://find/
  • 7/30/2019 jlb-MineriaDatos.pdf

    49/314

    La paradoja de Monty Hall(El Kiko Ledgard de otros tiempos y otras latitudes.)Se supone que todos los participantes en el juego conocen lasreglas.

    Detras de una de las tres puertas esta el coche; tu eliges unapuerta.

    Kiko abre una puerta distinta de la elegida, y te muestra queel coche no esta tras ella.

    Y te pregunta: seguro que no quieres cambiar?

    Es mejor cambiar? es mejor mantener la eleccion? da igual?

    Casos Contraintuitivos de la Probabilidad, IIIUn ejemplo famoso

    http://find/
  • 7/30/2019 jlb-MineriaDatos.pdf

    50/314

    La paradoja de Monty Hall(El Kiko Ledgard de otros tiempos y otras latitudes.)Se supone que todos los participantes en el juego conocen lasreglas.

    Detras de una de las tres puertas esta el coche; tu eliges una

    puerta.

    Kiko abre una puerta distinta de la elegida, y te muestra queel coche no esta tras ella.

    Y te pregunta: seguro que no quieres cambiar?

    Es mejor cambiar? es mejor mantener la eleccion? da igual?

    Para que el problema este bien planteado hemos de acordar quesignifica mejor!

    Casos Contraintuitivos de la Probabilidad, IVOtro ejemplo famoso

    http://find/
  • 7/30/2019 jlb-MineriaDatos.pdf

    51/314

    La paradoja de Simpson

    Supongamos que las encuestas nos dicen:

    que en la provincia de Caceres, los vegetarianos son menospropensos a tener ojeras que los no vegetarianos;

    Casos Contraintuitivos de la Probabilidad, IVOtro ejemplo famoso

    http://find/
  • 7/30/2019 jlb-MineriaDatos.pdf

    52/314

    La paradoja de Simpson

    Supongamos que las encuestas nos dicen:

    que en la provincia de Caceres, los vegetarianos son menospropensos a tener ojeras que los no vegetarianos;

    y que en la provincia de Badajoz, los vegetarianos tambien sonmenos propensos a tener ojeras que los no vegetarianos.

    Casos Contraintuitivos de la Probabilidad, IVOtro ejemplo famoso

    http://find/
  • 7/30/2019 jlb-MineriaDatos.pdf

    53/314

    La paradoja de Simpson

    Supongamos que las encuestas nos dicen:

    que en la provincia de Caceres, los vegetarianos son menospropensos a tener ojeras que los no vegetarianos;

    y que en la provincia de Badajoz, los vegetarianos tambien sonmenos propensos a tener ojeras que los no vegetarianos.

    Podemos deducir que esa correlacion se da en toda Extremadura,no?

    Casos Contraintuitivos de la Probabilidad, IVOtro ejemplo famoso

    http://find/
  • 7/30/2019 jlb-MineriaDatos.pdf

    54/314

    La paradoja de Simpson

    Supongamos que las encuestas nos dicen:

    que en la provincia de Caceres, los vegetarianos son menospropensos a tener ojeras que los no vegetarianos;

    y que en la provincia de Badajoz, los vegetarianos tambien sonmenos propensos a tener ojeras que los no vegetarianos.

    Podemos deducir que esa correlacion se da en toda Extremadura,no?

    Error! Es posible que, en la poblacion conjunta, la ratio vaya a lainversa.

    Espacios numericosLa ventaja de poder tomar terminos medios

    http://goforward/http://find/http://goback/
  • 7/30/2019 jlb-MineriaDatos.pdf

    55/314

    Casos en que el espacio de probabilidad es un conjunto (ennuestros casos, siempre finito) de vectores de reales.

    Espacios numericosLa ventaja de poder tomar terminos medios

    http://find/
  • 7/30/2019 jlb-MineriaDatos.pdf

    56/314

    Casos en que el espacio de probabilidad es un conjunto (ennuestros casos, siempre finito) de vectores de reales.

    (Mas en general, lo crucial es que sea un TAD que admita laoperacion de suma y la de multiplicar por un real.)

    Espacios numericosLa ventaja de poder tomar terminos medios

    http://find/
  • 7/30/2019 jlb-MineriaDatos.pdf

    57/314

    Casos en que el espacio de probabilidad es un conjunto (ennuestros casos, siempre finito) de vectores de reales.

    (Mas en general, lo crucial es que sea un TAD que admita laoperacion de suma y la de multiplicar por un real.)

    Si podemos multiplicar probabilidades por eventos, podemos

    evaluar esperanzas, que son terminos medios.

    Ejemplos:

    Dado legtimo:1

    1

    6+ 2

    1

    6+ 3

    1

    6+ 4

    1

    6+ 5

    1

    6+ 6

    1

    6= 3.5;

    Dado cargado:1 110 + 2 110 + 3 110 + 4 110 + 5 110 + 6 12 = 4.5.

    Esperanza, IEsperanza como funcion lineal: Linearity of expectation

    http://find/
  • 7/30/2019 jlb-MineriaDatos.pdf

    58/314

    Por definicion: E[X] =

    x(x Pr[X = x]).

    Esperanza, IEsperanza como funcion lineal: Linearity of expectation

    http://find/
  • 7/30/2019 jlb-MineriaDatos.pdf

    59/314

    Por definicion: E[X] =

    x(x Pr[X = x]).(Ojo: En espacios de probabilidad infinitos la suma no vale y hayque recurrir a una integral.)

    Propiedades importantes: E[X + Y] = E[X] + E[Y],

    E[ X] = E[X], y, mas en general, E[

    ii Xi] =

    i(i E[Xi]).

    Entre eventos independientes, E[X Y] = E[X] E[Y].

    http://find/
  • 7/30/2019 jlb-MineriaDatos.pdf

    60/314

    IndiceIntroduccion

  • 7/30/2019 jlb-MineriaDatos.pdf

    61/314

    Repaso de Probabilidad

    Generalidades sobre Modelado

    Predictores Basicos y su Evaluacion

    Sesgos de Continuidad

    Mas Sobre Evaluacion de Predictores

    Predictores Lineales y Metodos de Nucleo

    Modelos Descriptivos: Asociacion

    Priorizacion de Resultados y Pagerank

    Modelos Descriptivos: Segmentacion por K-means

    Modelos Descriptivos: Segmentacion por EM

    Regresion versus Clasificacion

    Error cuadratico, sesgo y varianza

    Predictores Arborescentes

    Metapredictores (Ensemble Methods)

    Ser Humano y RealidadLa realidad suele ser complicada

    http://find/
  • 7/30/2019 jlb-MineriaDatos.pdf

    62/314

    El ser humano aprovecha su capacidad de abstraccion (lenguaje)para intentar interactuar con la realidad de manera mas eficaz.

    Comunicacion entre personas (o entre momentos distintos de

    la misma persona), Memorizacion,

    Creacion (sobre todo colectiva),

    Toma de decisiones hacia un objetivo. . .

    Actitud humana casi permanente de modelado.

    ModeladoDonde hay modelos?

    http://find/
  • 7/30/2019 jlb-MineriaDatos.pdf

    63/314

    Ejemplos:

    Realidades o potencialidades:

    Este edificio, un circuito sumador, una sinfona, un sistemasoftware. . .

    ModeladoDonde hay modelos?

    http://find/
  • 7/30/2019 jlb-MineriaDatos.pdf

    64/314

    Ejemplos:

    Realidades o potencialidades:

    Este edificio, un circuito sumador, una sinfona, un sistemasoftware. . .

    Modelos:

    Los planos del edificio, el diagrama del circuito, la partitura,las especificaciones UML. . .

    Lenguaje de modelado: convencion verbal, escrita, grafica. . .

    Dependencia de los objetivos.

    ModelosAyudas a la comprension humana

    http://goforward/http://find/http://goback/
  • 7/30/2019 jlb-MineriaDatos.pdf

    65/314

    Llamamos modelo a la expresion de una descripcion simplificadapero que se espera util de un conjunto de hechos actuales opotenciales.

    A partir de que se construye? Conceptualizacion de la realidad (permite la invencion). Observaciones, mas o menos mediatizadas (muestra bien

    parametrizada, datos disponibles por otros motivos,interacciones. . . ).

    Lenguajes de ModeladoVariopintos y de todos los sabores

    http://find/
  • 7/30/2019 jlb-MineriaDatos.pdf

    66/314

    El lenguaje y los modelos convenientes dependeran de la tarea arealizar.

    El slogan de G E P Box (conocido por los metodos Box-Jenkins deanalisis de series temporales):

    all models are wrong; some models are useful.

    Lenguajes de ModeladoVariopintos y de todos los sabores

    http://find/
  • 7/30/2019 jlb-MineriaDatos.pdf

    67/314

    El lenguaje y los modelos convenientes dependeran de la tarea arealizar.

    El slogan de G E P Box (conocido por los metodos Box-Jenkins deanalisis de series temporales):

    all models are wrong; some models are useful.

    (Busca un poco en Internet y encontraras deliciosas disputas sobreesa afirmacion.)

    Lenguajes de ModeladoVariopintos y de todos los sabores

    http://find/
  • 7/30/2019 jlb-MineriaDatos.pdf

    68/314

    El lenguaje y los modelos convenientes dependeran de la tarea arealizar.

    El slogan de G E P Box (conocido por los metodos Box-Jenkins deanalisis de series temporales):

    all models are wrong; some models are useful.

    (Busca un poco en Internet y encontraras deliciosas disputas sobreesa afirmacion.)

    El problema radica en que suele ser difcil, cuando no imposible,demostrar que un modelo esta mal. Es facil caer en la tentacionde fiarse mas del modelo que de los datos.

    Taxonoma de ModelosNo hay acuerdo general

    http://goforward/http://find/http://goback/
  • 7/30/2019 jlb-MineriaDatos.pdf

    69/314

    Segun algunas fuentes:

    Modelos descriptivos Modelos predictivos (prediccion)

    Clasificacion (o discriminacion): prediccion no numerica Regresion: prediccion numerica

    Regresion (o interpolacion) lineal Regresion (o interpolacion) polinomica Regresion SVR (maximizacion de margenes)

    Taxonoma de ModelosNo hay acuerdo general

    http://find/
  • 7/30/2019 jlb-MineriaDatos.pdf

    70/314

    Segun otras fuentes:

    Modelos descriptivos Modelos predictivos

    Clasificacion o discriminacion Prediccion

    Regresion (lineal si no se especifica otra cosa) Regresion polinomica Regresion SVR (maximizacion de margenes)

    IndiceIntroduccion

    R d P b bilid d

    http://find/
  • 7/30/2019 jlb-MineriaDatos.pdf

    71/314

    Repaso de Probabilidad

    Generalidades sobre Modelado

    Predictores Basicos y su Evaluacion

    Sesgos de Continuidad

    Mas Sobre Evaluacion de Predictores

    Predictores Lineales y Metodos de Nucleo

    Modelos Descriptivos: Asociacion

    Priorizacion de Resultados y Pagerank

    Modelos Descriptivos: Segmentacion por K-means

    Modelos Descriptivos: Segmentacion por EM

    Regresion versus Clasificacion

    Error cuadratico, sesgo y varianza

    Predictores Arborescentes

    Metapredictores (Ensemble Methods)

    http://find/
  • 7/30/2019 jlb-MineriaDatos.pdf

    72/314

  • 7/30/2019 jlb-MineriaDatos.pdf

    73/314

    Prediccion ProbabilsticaModelos predictivos basados en probabilidades

    Podemos calcular diversas probabilidades empricas a la vista de

  • 7/30/2019 jlb-MineriaDatos.pdf

    74/314

    Podemos calcular diversas probabilidades empricas a la vista delos datos: meras frecuencias normalizadas.

    Diferenciamos la prediccion a priori de la prediccion aposteriori

    (antes o despues de conocer los valores de los demas atributospara la prediccion).

    Probabilidad a priori: frecuencia de cada valor de la clase. Maximo a priori: Predecimos el valor mas frecuente.

    Prediccion ProbabilsticaModelos predictivos basados en probabilidades

    Podemos calcular diversas probabilidades empricas a la vista de

    http://goforward/http://find/http://goback/
  • 7/30/2019 jlb-MineriaDatos.pdf

    75/314

    Podemos calcular diversas probabilidades empricas a la vista delos datos: meras frecuencias normalizadas.

    Diferenciamos la prediccion a priori de la prediccion aposteriori

    (antes o despues de conocer los valores de los demas atributospara la prediccion).

    Probabilidad a priori: frecuencia de cada valor de la clase.

    Maximo a priori: Predecimos el valor mas frecuente.

    Probabilidad a posteriori: frecuencia de cada posible valorde la clase, condicionada a cada posible configuracion de losdemas atributos.

    Maximo a posteriori (MAP): Predecimos el valor masfrecuente para esos valores de los demas atributos:

    arg maxC{Pr(C|A1 . . .An)}

    InconvenientePor que hemos de hacerlo de otro modo

    http://goforward/http://find/http://goback/
  • 7/30/2019 jlb-MineriaDatos.pdf

    76/314

    Un caso concreto, pequeno:

    Diez atributos con una media de cuatro valores en cada uno;

    Clasificacion binaria.

    InconvenientePor que hemos de hacerlo de otro modo

    http://find/
  • 7/30/2019 jlb-MineriaDatos.pdf

    77/314

    Un caso concreto, pequeno:

    Diez atributos con una media de cuatro valores en cada uno;

    Clasificacion binaria.

    Necesitamos conservar 220 resultados.

    http://find/http://goback/
  • 7/30/2019 jlb-MineriaDatos.pdf

    78/314

  • 7/30/2019 jlb-MineriaDatos.pdf

    79/314

  • 7/30/2019 jlb-MineriaDatos.pdf

    80/314

    El Predictor Nave BayesFunciona mejor de lo que uno se espera

    P l l P (A |C ) d l l i di id l d l

  • 7/30/2019 jlb-MineriaDatos.pdf

    81/314

    Precalculamos Pr(Ai|C) para todos los valores individuales de los

    atributos condicionados a los valores de la clase.En vez de predecir

    arg maxC{Pr(C|A1 . . .An)},

    predecimos

    arg maxC{Pr(A1|C) . . . Pr(An|C) Pr(C)}

    El Predictor Nave BayesFunciona mejor de lo que uno se espera

    P l l P (A |C ) t d l l i di id l d l

    http://find/
  • 7/30/2019 jlb-MineriaDatos.pdf

    82/314

    Precalculamos Pr(Ai|C) para todos los valores individuales de los

    atributos condicionados a los valores de la clase.En vez de predecir

    arg maxC{Pr(C|A1 . . .An)},

    predecimos

    arg maxC{Pr(A1|C) . . . Pr(An|C) Pr(C)}

    En el caso anterior (diez atributos con una media de cuatro valoresen cada uno, clasificacion binaria) son 41 valores a estimar yconservar.

    (Ejemplos y comparativa sobre Titanic, por separado y en KNIME.)

    IndiceIntroduccion

    Repaso de Probabilidad

    http://find/
  • 7/30/2019 jlb-MineriaDatos.pdf

    83/314

    p

    Generalidades sobre Modelado

    Predictores Basicos y su Evaluacion

    Sesgos de Continuidad

    Mas Sobre Evaluacion de Predictores

    Predictores Lineales y Metodos de Nucleo

    Modelos Descriptivos: Asociacion

    Priorizacion de Resultados y Pagerank

    Modelos Descriptivos: Segmentacion por K-means

    Modelos Descriptivos: Segmentacion por EM

    Regresion versus Clasificacion

    Error cuadratico, sesgo y varianza

    Predictores Arborescentes

    Metapredictores (Ensemble Methods)

    Atributos NumericosSe asimilan a reales o racionales

    http://find/
  • 7/30/2019 jlb-MineriaDatos.pdf

    84/314

    Atributos:

    Binarios, o Booleanos (caso particular del siguiente),

    Nominales, tambien llamados categoricos,

    Numericos, tambien llamados continuos.

    Los predictores MAP y Nave Bayes, tal como los hemos vistohasta ahora, suponen atributos nominales. Pero los datos sonfrecuentemente numericos.

    Prediccion con Atributos NumericosQue significa Pr(Ai|C) con atributos numericos?

    M d di

    http://find/
  • 7/30/2019 jlb-MineriaDatos.pdf

    85/314

    Modus operandi:

    Suponemos una familia concreta de distribuciones deprobabilidad en (un intervalo de) los reales.

    En vez de usar los datos para aproximar las probabilidadescalculando la frecuencia relativa, los usamos para aproximar

    parametros de la distribucion.Habitual:

    1. Suponer que Pr(A|C) sera una distribucion normal,2. usar los datos para evaluar su media y su desviacion estandar y

    3. calcular la clase de probabilidad maxima a posteriori porNave Bayes a partir de las distribuciones obtenidas.

    Estudios recientes sugieren que puede ser preferible discretizar.

    Modelos Predictivos sin Calcular ModelosLos propios datos como modelo predictivo

    http://find/
  • 7/30/2019 jlb-MineriaDatos.pdf

    86/314

    Intuicion de continuidad:

    Datos que se parecen llevaran etiquetas similares.

    Modelos Predictivos sin Calcular ModelosLos propios datos como modelo predictivo

    http://find/
  • 7/30/2019 jlb-MineriaDatos.pdf

    87/314

    Intuicion de continuidad:

    Datos que se parecen llevaran etiquetas similares.

    Conservamos todos los datos (en una estructura de datosadecuada).

    Cuando hemos de clasificar un dato nuevo, calculamos laetiqueta mas frecuente entre los k datos mas similares

    (kNN, k nearest neighbors).

    Modelos Predictivos sin Calcular ModelosLos propios datos como modelo predictivo

    http://find/
  • 7/30/2019 jlb-MineriaDatos.pdf

    88/314

    Intuicion de continuidad:

    Datos que se parecen llevaran etiquetas similares.

    Conservamos todos los datos (en una estructura de datosadecuada).

    Cuando hemos de clasificar un dato nuevo, calculamos laetiqueta mas frecuente entre los k datos mas similares

    (kNN, k nearest neighbors).

    La intuicion de continuidad muchas veces es correcta, ymuchas no lo es.

    En dimensiones elevadas, calcular los vecinos escomputacionalmente costoso.

    IndiceIntroduccion

    Repaso de Probabilidad

    http://find/
  • 7/30/2019 jlb-MineriaDatos.pdf

    89/314

    Generalidades sobre Modelado

    Predictores Basicos y su Evaluacion

    Sesgos de Continuidad

    Mas Sobre Evaluacion de Predictores

    Predictores Lineales y Metodos de Nucleo

    Modelos Descriptivos: Asociacion

    Priorizacion de Resultados y Pagerank

    Modelos Descriptivos: Segmentacion por K-means

    Modelos Descriptivos: Segmentacion por EM

    Regresion versus Clasificacion

    Error cuadratico, sesgo y varianza

    Predictores Arborescentes

    Metapredictores (Ensemble Methods)

    Medidas AlternativasLa accuracy no basta

    Si la mayora de los ejemplos estan etiquetados negativamente, un

    http://find/
  • 7/30/2019 jlb-MineriaDatos.pdf

    90/314

    y j p q g ,predictor que contesta siempre que no tiene una accuracy elevada.(Problema analogo en information retrieval, IR.)

    Confianza de bueno aceptadoSensitivity (en IR recall): positivos ciertos dividido porbuenos.

    Confianza de aceptado bueno:En IR precision: positivos ciertos dividido por aceptados.

    Confianza de malo rechazado:Specificity: negativos ciertos dividido por malos.

    Relacion con la accuracy: combinacion lineal de Sensitivity(ponderada por la ratio de casos buenos) y Specificity (ponderadapor el numero de casos malos).

    Curvas ROCCuando tenemos mas informacion

    Frecuentemente podemos ordenar los casos aceptados:

    http://find/
  • 7/30/2019 jlb-MineriaDatos.pdf

    91/314

    Frecuentemente podemos ordenar los casos aceptados:

    En IR: concepto de top-k, los k objetos que parecen masrelevantes (lo sean o no);

    Si usamos un regresor como predictor: el valor float de laregresion permite ordenar los casos aceptados.

    Para cada k, de 0 a N: En abscisas, ratio de falsos positivos a casos malos: restar de

    1 la Specificity.

    O sea, la Specificity pero de derecha a izquierda.

    En ordenadas, ratio de positivos ciertos a casos buenos: laSensitivity.

    Curva ROC: Receiver/Relative Operating Characteristics.

    Curvas ROC: EjemplosFuente: Wikipedia, 2009

    http://find/
  • 7/30/2019 jlb-MineriaDatos.pdf

    92/314

    El Area Bajo la Curva, AUCEsta de moda pero no se ha de usar como comparativa

    http://find/
  • 7/30/2019 jlb-MineriaDatos.pdf

    93/314

    Reduce a un unico numero el comportamiento de un clasificadorque ordena, sin tener que fijarnos en toda la curva.

    Corresponde a:

    Ponderar de manera distinta los errores por falso positivo que

    los errores por falso negativo,

    El Area Bajo la Curva, AUCEsta de moda pero no se ha de usar como comparativa

    http://find/
  • 7/30/2019 jlb-MineriaDatos.pdf

    94/314

    Reduce a un unico numero el comportamiento de un clasificadorque ordena, sin tener que fijarnos en toda la curva.

    Corresponde a:

    Ponderar de manera distinta los errores por falso positivo que

    los errores por falso negativo, pero con una ponderacion que depende del clasificador!

    (Hand, 2009, Machine Learning Journal.)

    Evitemos el uso de AUC para comparar clasificadores.

    Alternativas: AUC con una medida no uniforme.

    Validacion CruzadaTal como la hemos visto hasta ahora

    T d

    http://goforward/http://find/http://goback/
  • 7/30/2019 jlb-MineriaDatos.pdf

    95/314

    Tenemos nuestros datos.

    Primera opcion:

    1. entrenamos nuestro modelo y2. vemos si se equivoca mucho o poco sobre esos datos.

    Nos dara una evaluacion demasiado optimista, porque hemos

    entrenado justo con esos datos. Segunda opcion: Separamos en datos de entrenamiento y

    datos de prueba, para evitar evaluar el modelo con los mismosdatos a los que se ha ajustado: pero existe arbitrariedad.

    Tercera opcion: N folds separando training set de test set deN maneras distintas, de forma que cada dato este enexactamente un test set.

    http://find/http://goback/
  • 7/30/2019 jlb-MineriaDatos.pdf

    96/314

  • 7/30/2019 jlb-MineriaDatos.pdf

    97/314

  • 7/30/2019 jlb-MineriaDatos.pdf

    98/314

    Predictores Lineales en el PlanoUn ejemplo en R2: 12 x + 1

  • 7/30/2019 jlb-MineriaDatos.pdf

    99/314

    Predictores Lineales en el EspacioUn ejemplo en R3: 2x + y 1

    http://find/http://goback/
  • 7/30/2019 jlb-MineriaDatos.pdf

    100/314

    http://find/
  • 7/30/2019 jlb-MineriaDatos.pdf

    101/314

    SigmoidesUna posibilidad y una variante

    1 2

  • 7/30/2019 jlb-MineriaDatos.pdf

    102/314

    1

    1 + 2x

    2

    1 + 2x 1La segunda, de lejos y de cerca:

    PerceptronNombres clasicos y resultones para los predictores lineales

    http://find/
  • 7/30/2019 jlb-MineriaDatos.pdf

    103/314

    Perceptron, Neurona Formal, Neurodo. . .

    http://find/
  • 7/30/2019 jlb-MineriaDatos.pdf

    104/314

  • 7/30/2019 jlb-MineriaDatos.pdf

    105/314

    Entrenamiento de PerceptronCalculo del hiperplano a partir de los datos, 1958

    Confusion entre especificacion e implementacion: el hiperplano se

  • 7/30/2019 jlb-MineriaDatos.pdf

    106/314

    p p p p

    describe implcitamente mediante el algoritmo que lo construye.

    Reduccion del error:Dado un hiperplano candidato (w, b), reducimos su error

    iMyi(wT

    x + b) M = {i yi = sign(wT

    x + b)}

    modificando aditivamente los valores de w y b segun las derivadasparciales sugieran que se reduce mas el error.

    Empezamos con un hiperplano al azar y lo vamos corrigiendo.La minimizacion del error mediante los metodos clasicos dederivadas parciales no se puede aplicar con umbral duro.

    Vision Actual del PerceptronEl entrenamiento clasico esta obsoleto

    Problematica:

    http://find/
  • 7/30/2019 jlb-MineriaDatos.pdf

    107/314

    b

    Si los datos son linealmente separables, esta garantizado queel algoritmo converge pero: no sabemos a que solucion, porque hay muchas; puede tardar mucho en converger; el hiperplano final depende de la inicializacion.

    Si los datos no son linealmente separables, el algoritmo entraen un bucle que puede ser largo y difcil de detectar.

    Se puede encontrar un hiperplano solucion mucho masrapidamente mediante Programacion Lineal, usando las

    restricciones:yi(w

    Txi + b) > 0

    http://find/
  • 7/30/2019 jlb-MineriaDatos.pdf

    108/314

    Separabilidad Lineal con Margen MaximoUn ejemplo

  • 7/30/2019 jlb-MineriaDatos.pdf

    109/314

    Support Vector Machines y Separabilidad LinealMargen duro y margen blando

    Si los datos no son linealmente separables ni siquiera en el espacio

    http://find/
  • 7/30/2019 jlb-MineriaDatos.pdf

    110/314

    asociado al nucleo; o si lo son pero nos parece que corremos riesgode sobreajustar: opcion margen blando.

    Margen duro en el entrenamiento (hard margin, no confundircon umbral duro en la prediccion): todos los datos han deobedecer el margen. Solo es factible en datos linealmenteseparables.

    Margen blando en el entrenamiento (soft margin): datoslinealmente separables o no. Permiten que algunos de los datos queden por debajo del

    margen, incluso mal clasificados. Estos errores se penalizan con un peso por error (queusualmente se denota C).

    Un Ejemplo Linealmente SeparableConstruimos las envolventes convexas de cada clase

    http://find/
  • 7/30/2019 jlb-MineriaDatos.pdf

    111/314

    http://find/
  • 7/30/2019 jlb-MineriaDatos.pdf

    112/314

    Hiperplano de Margen MaximoBisecando el segmento que une los puntos mas proximos de las envolventes convexas

  • 7/30/2019 jlb-MineriaDatos.pdf

    113/314

    Un Ejemplo Linealmente InseparableNo hay hiperplanos solucion

    http://find/
  • 7/30/2019 jlb-MineriaDatos.pdf

    114/314

    Un Hiperplano con Margen BlandoCuanto error comete?

    http://find/
  • 7/30/2019 jlb-MineriaDatos.pdf

    115/314

    Otro Hiperplano con Margen BlandoCual es su margen?

    http://find/
  • 7/30/2019 jlb-MineriaDatos.pdf

    116/314

    Ese Mismo Hiperplano con Margen BlandoCuanto error comete?

    http://find/
  • 7/30/2019 jlb-MineriaDatos.pdf

    117/314

    Baricentros de Pares de PuntosLa traduccion del margen blando en envolventes convexas

    http://find/
  • 7/30/2019 jlb-MineriaDatos.pdf

    118/314

    Envolventes Convexas ReducidasProblema reducido a linealmente separable

    http://find/
  • 7/30/2019 jlb-MineriaDatos.pdf

    119/314

    http://find/
  • 7/30/2019 jlb-MineriaDatos.pdf

    120/314

  • 7/30/2019 jlb-MineriaDatos.pdf

    121/314

  • 7/30/2019 jlb-MineriaDatos.pdf

    122/314

    NucleosCambiamos de espacio de Hilbert con el truco del nucleo

    Reproducing Kernel Hilbert Spaces:

  • 7/30/2019 jlb-MineriaDatos.pdf

    123/314

    Determinadas funciones en el espacio de entrada dan el mismoresultado que el que dara el producto escalar en otros espacios.

    Por ejemplo: una conica en dos dimensiones,

    w1x21 + w2x

    22 + wsx1x2 + w4x1 + w5X2 + w6

    es un producto escalar de (w1,w2,w3,w4,w5,w6) con unatransformacion f de (x1, x2) a R

    6:

    f(x1, x2) = (x21 , x

    22 , x1x2, x1, x2, 1)

    Calcula ((x1, x2)(y1, y2) + 1)2. El producto escalar en R6

    f(x1, x2)f(y1, y2) se puede calcular sin movernos de R2.

    Support Vector Machines: ResumenEl mas prominente ejemplo de kernel methods

    Son predictores lineales.

    Entrenamiento: consiste en calcular el hiperplano de margen

    http://find/
  • 7/30/2019 jlb-MineriaDatos.pdf

    124/314

    maximo. Se aplica para ello una variante dual de programacion

    cuadratica convexa que opera con los datos medianteproductos escalares.

    En lugar del producto escalar, es posible emplear una funcionnucleo (kernel) que tenga determinadas propiedades; equivalea usar hiperplanos en un espacio de dimension mayor, con laconsiguiente flexibilidad adicional.

    La opcion de margen blando permite relajar la

    obligatoriedad de separabilidad lineal.

    La idea de nucleos es aplicable en otros dominios: es posiblereplantear el algoritmo del perceptron, por ejemplo, en terminos deproductos escalares, y entonces se puede aplicar la misma idea.

    IndiceIntroduccion

    Repaso de Probabilidad

    Generalidades sobre Modelado

    P di B i E l i

    http://find/http://goback/
  • 7/30/2019 jlb-MineriaDatos.pdf

    125/314

    Predictores Basicos y su EvaluacionSesgos de Continuidad

    Mas Sobre Evaluacion de Predictores

    Predictores Lineales y Metodos de Nucleo

    Modelos Descriptivos: AsociacionPriorizacion de Resultados y Pagerank

    Modelos Descriptivos: Segmentacion por K-means

    Modelos Descriptivos: Segmentacion por EM

    Regresion versus ClasificacionError cuadratico, sesgo y varianza

    Predictores Arborescentes

    Metapredictores (Ensemble Methods)

    ImplicacionesRedescubriendo el Mediterraneo

    La logica implicacional y sus variantes aparecen en:

    Geometra, Geometras convexas,

    http://find/
  • 7/30/2019 jlb-MineriaDatos.pdf

    126/314

    Antimatroides;

    Logica, Calculo proposicional,

    Clausulas de Horn;

    Algebra de ordenes, Semiretculos, operadores de clausura,

    Diagramas de conceptos formales;

    Inteligencia Artificial, Representacion del conocimiento,

    Knowledge compilation;

    Bases de Datos, Teora de la normalizacion,

    Dependencias funcionales.

    http://find/
  • 7/30/2019 jlb-MineriaDatos.pdf

    127/314

    MotivacionPor que tantos caminos llevan a Roma?

    Comprobar si una afirmacion es consecuencia de otra,

    l i l i bl ( i d )

  • 7/30/2019 jlb-MineriaDatos.pdf

    128/314

    en cualquier logica razonable (como primer orden), esdesafortunadamente indecidible;

    incluso en logicas muy limitadas (como la proposicional) esdesafortunadamente intratable (NP-hard).

    Que podemos hacer?

    Si nos limitamos un poco mas aun, encontramos una logica que es,poco mas o menos, lo mas expresiva posible bajo la condicion detratabilidad de la nocion de consecuencia logica.

    Y el concepto es tan natural que la gente se lo ha idoencontrando: logica de Horn, conjunciones de clausulas de tipo(a b c) o, lo que es lo mismo, (a b c)

    Ejemplos en Minera de DatosUn clasico y un desconocido

    Adult Dataset

    http://find/
  • 7/30/2019 jlb-MineriaDatos.pdf

    129/314

    Exec-managerial Husband Married-civ-spouse

    Ejemplos en Minera de DatosUn clasico y un desconocido

    Adult Dataset

    http://find/
  • 7/30/2019 jlb-MineriaDatos.pdf

    130/314

    Exec-managerial Husband Married-civ-spouse

    ML Abstracts Dataset

    support margin vectordescent gradienthilbert space

    Ejemplos en Minera de DatosUn clasico y un desconocido

    Adult Dataset

    http://find/
  • 7/30/2019 jlb-MineriaDatos.pdf

    131/314

    Exec-managerial Husband Married-civ-spouse

    ML Abstracts Dataset

    support margin vectordescent gradienthilbert spacecarlo montemonte carlo

    http://find/
  • 7/30/2019 jlb-MineriaDatos.pdf

    132/314

    Formalizaciones de la InferenciaNo todas son del todo correctas

    Intuicion util:Para muchas personas, se encuentran muy proximos

    el concepto de implicacion logica y

  • 7/30/2019 jlb-MineriaDatos.pdf

    133/314

    el concepto de implicacion logica y el concepto de causalidad.

    Formalizaciones de la InferenciaNo todas son del todo correctas

    Intuicion util:Para muchas personas, se encuentran muy proximos

    el concepto de implicacion logica y

    http://find/
  • 7/30/2019 jlb-MineriaDatos.pdf

    134/314

    el concepto de implicacion logica y el concepto de causalidad.

    (Aunque la correspondencia es ilusoria!)

    Formalizaciones de la InferenciaNo todas son del todo correctas

    Intuicion util:Para muchas personas, se encuentran muy proximos

    el concepto de implicacion logica y

    http://find/
  • 7/30/2019 jlb-MineriaDatos.pdf

    135/314

    el concepto de implicacion logica y el concepto de causalidad.

    (Aunque la correspondencia es ilusoria!)

    Procesos deductivos:

    Deduccion: dado p q, si observamos p, inferimos q.(Lindas propiedades de soundness y completitud.)

    Abduccion: dado p q, si observamos q, inferimos p. Incorrecto (unsound) en general; muy frecuente en el razonamiento cotidiano humano; el grado de correccion puede admitir un analisis estadstico.

    http://find/
  • 7/30/2019 jlb-MineriaDatos.pdf

    136/314

    Implicaciones y AsociacionesCausalidad versus Simultaneidad

    Las relaciones de causalidad son un motor para la Ciencia.

    Pero no basta con predecir hay que construir teoras que

  • 7/30/2019 jlb-MineriaDatos.pdf

    137/314

    Pero no basta con predecir, hay que construir teoras queexpliquen relaciones de causa y efecto entre los hechos.

    5.1361 Der Glaube an den Kausalnexus ist der Aberglaube

    (LW, T L-Ph)

    La nocion crucial es la de implicacion.

    La piedra angular de la Logica, y el gran avance de Aristotelessobre Platon.

    2350 anos de estudio.

    Implicaciones y AsociacionesUna sintaxis muy atractiva

    Nuestro sesgo computacional de hoy:

    http://goforward/http://find/http://goback/
  • 7/30/2019 jlb-MineriaDatos.pdf

    138/314

    Nuestro sesgo computacional de hoy:

    No nos alejemos de la Logica Proposicional.

    Enfoque sobre implicaciones, consecuencia logica yaxiomatizaciones.

    Implicaciones y AsociacionesUna sintaxis muy atractiva

    Nuestro sesgo computacional de hoy:

    http://find/
  • 7/30/2019 jlb-MineriaDatos.pdf

    139/314

    Nuestro sesgo computacional de hoy:

    No nos alejemos de la Logica Proposicional.

    Enfoque sobre implicaciones, consecuencia logica yaxiomatizaciones.

    Aceptamos p q cuando vemos que as ocurre.

    http://find/http://goback/
  • 7/30/2019 jlb-MineriaDatos.pdf

    140/314

    Implicaciones y AsociacionesUna sintaxis muy atractiva

    Nuestro sesgo computacional de hoy:

  • 7/30/2019 jlb-MineriaDatos.pdf

    141/314

    g p y

    No nos alejemos de la Logica Proposicional.

    Enfoque sobre implicaciones, consecuencia logica yaxiomatizaciones.

    Aceptamos p q cuando vemos que as ocurre. Ha de ocurrir siempre? Basta con que sea casi siempre?

    Implicaciones y AsociacionesUna sintaxis muy atractiva

    Nuestro sesgo computacional de hoy:

    http://find/
  • 7/30/2019 jlb-MineriaDatos.pdf

    142/314

    g p y

    No nos alejemos de la Logica Proposicional.

    Enfoque sobre implicaciones, consecuencia logica yaxiomatizaciones.

    Aceptamos p q cuando vemos que as ocurre. Ha de ocurrir siempre? Basta con que sea casi siempre? Como se mide ese casi?

    Datos TransaccionalesTodos los atributos son booleanos

    Implicaciones: clausulas de Horn con el mismo antecedente.

    (Rich

    Male)

    (Rich

    White) =

    Rich Male, White

    http://find/
  • 7/30/2019 jlb-MineriaDatos.pdf

    143/314

    Rich Male, White

    Propiedades: a, b, c, d;Observaciones: m1 , m2 , m3 ,

    Id a b c d transaccion

    m1 1 1 0 1 {a, b, d}m2 0 1 1 1 {b, c, d}m3 0 1 0 1 {b, d}

    d ba, b da b, d

    . . .

    Caso relacional: Un atributo booleano por cada par atributo-valor.

    Envolventes HornCaracterizacion semantica

    Dataset, conjunto de transacciones:

    Cada transaccion es un conjunto de items;

    o, lo que es lo mismo, un modelo proposicional.

    http://find/
  • 7/30/2019 jlb-MineriaDatos.pdf

    144/314

    Propiedad crucial:

    Es equivalente:

    afirmar que un dataset es cerrado por interseccion o afirmar que un dataset admite una descripcion Horn.

    Teora Horn: clausulas de Horn (implicaciones) que se cumplen entodos los datos.

    Envolvente Horn: cierre por interseccion; da lugar a un retculo.

    Envolventes HornCaracterizacion semantica

    Dataset, conjunto de transacciones:

    Cada transaccion es un conjunto de items;

    o, lo que es lo mismo, un modelo proposicional.

    http://find/
  • 7/30/2019 jlb-MineriaDatos.pdf

    145/314

    Propiedad crucial:

    Es equivalente:

    afirmar que undataset

    es cerrado por interseccion o afirmar que un dataset admite una descripcion Horn.

    Teora Horn: clausulas de Horn (implicaciones) que se cumplen entodos los datos.

    Envolvente Horn: cierre por interseccion; da lugar a un retculo.Cuanto de realista es requerir que la totalidad de los datoscumplan la implicacion?

    Reglas de AsociacionClausulas de Horn que permiten excepciones

    Por ejemplo:

    En censos estadounidenses, en mas de 2/3 de los casos:

    United-States, White

    http://find/
  • 7/30/2019 jlb-MineriaDatos.pdf

    146/314

    Husband Male, Married-civ-spouse Married-civ-spouse Husband, Male Not-in-family

  • 7/30/2019 jlb-MineriaDatos.pdf

    147/314

    Intensidad de ImplicacionComo medir cuanto de pocas son las excepciones

    Propuesta habitual: la confianza:

    c(X

    Y) =

    supp(XY)

    supp(X)( )

  • 7/30/2019 jlb-MineriaDatos.pdf

    148/314

    donde supp(X) es el soporte del conjunto X: el numero detransacciones que contienen X.

    A favor:

    Es muy natural.

    Es facil de explicar a un usuario no experto.

    Intensidad de ImplicacionComo medir cuanto de pocas son las excepciones

    Propuesta habitual: la confianza:

    c(X

    Y) =

    supp(XY)

    supp(X)d d (X ) l d l j X l d

    http://find/
  • 7/30/2019 jlb-MineriaDatos.pdf

    149/314

    donde supp(X) es el soporte del conjunto X: el numero detransacciones que contienen X.

    A favor:

    Es muy natural.

    Es facil de explicar a un usuario no experto.

    No termina de convencer:

    La cota sobre la confianza no previene contra las correlacionesnegativas.

    Docenas de propuestas alternativas.

    Metricas AlternativasPara seleccionar reglas de asociacion

    Criterios de intensidad de implicacion:

    Confianza, Correccion de Laplace

    http://find/http://goback/
  • 7/30/2019 jlb-MineriaDatos.pdf

    150/314

    Correccion de Laplace,

    Indice de Gini,

    J-Measure,

    Leverage, Confianza total,

    Prevalence,

    Jaccard,

    Relative risk

    ...

    ClausurasConjuntos cerrados

    Opcion sencilla:

    En el momento de extender un conjunto con un item,

    comprobamos si el soporte decrece; si no lo hace, el conjuntono es cerrado

    http://find/
  • 7/30/2019 jlb-MineriaDatos.pdf

    151/314

    no es cerrado.

    Los conjuntos cerrados actuan como resumen de todos losfrecuentes.

    Inconvenientes:

    Si vamos a calcular todas las reglas dentro de cada clausura,sin comparar clausuras, no merece la pena.

    Si vamos a calcular reglas comparando clausuras, el proceso

    requiere calcular que clausuras son subconjuntos de otras. Obtenemos mucha menos redundancia entre las reglas, pero es mucho mas laborioso computacionalmente.

    Reglas de Asociacion en la PracticaAun no estan realmente aceptadas

    Basaremos un proyecto de Data Mining en reglas de asociacion?

    A favor:

    Algoritmos razonablemente eficaces (y open source). El preproceso de los datos no es trivial pero es bastante

    http://find/
  • 7/30/2019 jlb-MineriaDatos.pdf

    152/314

    El preproceso de los datos no es trivial pero es bastantesencillo.

    Relativamente poca formacion basta para entender elresultado.

    Reglas de Asociacion en la PracticaAun no estan realmente aceptadas

    Basaremos un proyecto de Data Mining en reglas de asociacion?

    A favor:

    Algoritmos razonablemente eficaces (y open source). El preproceso de los datos no es trivial pero es bastante

    http://find/
  • 7/30/2019 jlb-MineriaDatos.pdf

    153/314

    El preproceso de los datos no es trivial pero es bastantesencillo.

    Relativamente poca formacion basta para entender elresultado.

    En contra:

    Ajustaremos las cotas de soporte y de intensidad deimplicacion por el famoso metodo I.P.: ir probando.

    Que medida usaremos para la intensidad de implicacion?Como se la explicaremos al usuario?

    Pero esto no es lo peor. . .

    Abundancia de Reglas de AsociacionEl gran problema de este enfoque

    Preprocesas los datos, lanzas tu asociador, afinas los parametros...

    Y cuando, finalmente, aciertas con valores que te proporcionanreglas un poco interesantes...

    http://find/
  • 7/30/2019 jlb-MineriaDatos.pdf

    154/314

    Abundancia de Reglas de AsociacionEl gran problema de este enfoque

    Preprocesas los datos, lanzas tu asociador, afinas los parametros...

    Y cuando, finalmente, aciertas con valores que te proporcionanreglas un poco interesantes...

    ...salen decenas de miles de reglas. Y muchas te sobran.

    http://find/
  • 7/30/2019 jlb-MineriaDatos.pdf

    155/314

    Abundancia de Reglas de AsociacionEl gran problema de este enfoque

    Preprocesas los datos, lanzas tu asociador, afinas los parametros...

    Y cuando, finalmente, aciertas con valores que te proporcionanreglas un poco interesantes...

    ...salen decenas de miles de reglas. Y muchas te sobran.

    http://find/
  • 7/30/2019 jlb-MineriaDatos.pdf

    156/314

    United-States, White Husband United-States, White Married-civ-spouse United-States, White . . .

    (En general, todas las que los datos no desmienten.)

    Abundancia de Reglas de AsociacionEl gran problema de este enfoque

    Preprocesas los datos, lanzas tu asociador, afinas los parametros...

    Y cuando, finalmente, aciertas con valores que te proporcionanreglas un poco interesantes...

    ...salen decenas de miles de reglas. Y muchas te sobran.

    http://find/http://goback/
  • 7/30/2019 jlb-MineriaDatos.pdf

    157/314

    United-States, White Husband United-States, White Married-civ-spouse United-States, White . . .

    (En general, todas las que los datos no desmienten.)

    Necesitamos:

    Nociones precisas de redundancia entre reglas de asociacion, metodos para encontrar bases mnimas,

    y maneras de descartar las reglas poco novedosas.

    La Logica de las ImplicacionesCalculo correcto y completo

    Semantica: consecuencia logica,

    X1 Y1, . . . ,Xk Yk |= X0 Y0Calculo sintactico: derivabilidad

    http://find/
  • 7/30/2019 jlb-MineriaDatos.pdf

    158/314

    Calculo sintactico: derivabilidad,

    X1 Y1, . . . ,Xk Yk X0 Y0Esquemas de Armstrong

    Reflexividad: si Y X, X Y; Aumentacion: X Y, X Y XX YY; Transitividad: X Y, Y Z X Z.

    La consecuencia logica y la derivabilidad son equivalentes.

    Redundancia entre ImplicacionesBase canonica

    Dado un conjunto de implicaciones: sobra alguna?

    Podemos prescindir de aquellas que se puedan recuperar aplicando

    los esquemas de Armstrong.

    Basis cover de un conjunto de implicaciones

    http://find/http://goback/
  • 7/30/2019 jlb-MineriaDatos.pdf

    159/314

    Basis, cover de un conjunto de implicaciones

    Subconjunto de implicaciones de las que se pueden deducir

    todas las demas. Base canonica o de Guigues-Duquenne: alcanza tamano

    mnimo.

    No es factible si requerimos mantener la sintaxis Horn.

    Desarrollo analogo en dependencias funcionales. (Dificultades de aceptacion social.)

    http://find/
  • 7/30/2019 jlb-MineriaDatos.pdf

    160/314

  • 7/30/2019 jlb-MineriaDatos.pdf

    161/314

  • 7/30/2019 jlb-MineriaDatos.pdf

    162/314

    Bases MnimasReglas no redundantes y novedad objetiva

    Con respecto a este tipo de redundancia,

    La base B

    se construye buscando casos extremos: reglas

    X Y con X cerrado lo mas pequeno posible y XY cerradolo mas grande posible.

  • 7/30/2019 jlb-MineriaDatos.pdf

    163/314

    Es una base mnima de las reglas parciales (a combinar con labase GD de las implicaciones).

    Las llamadas reglas representativas proporcionan unaalternativa si no queremos tratar las implicaciones porseparado.

    Confidence width: cuanto mas alta es la confianza de la regla

    respecto a la de reglas que la hacen redundante.Confidence boost: cuanto mas alta es la confianza de la reglarespecto a la de reglas que la hacen redundante, o de reglasanalogas con la parte izquierda mas reducida.

    http://find/
  • 7/30/2019 jlb-MineriaDatos.pdf

    164/314

  • 7/30/2019 jlb-MineriaDatos.pdf

    165/314

    Confidence Boost en CensosComo se reducen las reglas representativas acotando confidence boost

    Training set de Adult (UCI), soporte 2%, confianza 75%.

  • 7/30/2019 jlb-MineriaDatos.pdf

    166/314

    http://find/
  • 7/30/2019 jlb-MineriaDatos.pdf

    167/314

    IndiceIntroduccion

    Repaso de Probabilidad

    Generalidades sobre Modelado

    Predictores Basicos y su Evaluacion

    Sesgos de Continuidad

    Mas Sobre Evaluacion de Predictores

  • 7/30/2019 jlb-MineriaDatos.pdf

    168/314

    Mas Sobre Evaluacion de Predictores

    Predictores Lineales y Metodos de Nucleo

    Modelos Descriptivos: Asociacion

    Priorizacion de Resultados y Pagerank

    Modelos Descriptivos: Segmentacion por K-means

    Modelos Descriptivos: Segmentacion por EM

    Regresion versus Clasificacion

    Error cuadratico, sesgo y varianza

    Predictores Arborescentes

    Metapredictores (Ensemble Methods)

    http://find/
  • 7/30/2019 jlb-MineriaDatos.pdf

    169/314

  • 7/30/2019 jlb-MineriaDatos.pdf

    170/314

  • 7/30/2019 jlb-MineriaDatos.pdf

    171/314

    Medidas de ProximidadUn leit-motiv

    Saber en que sentido dos cosas se parecen:

    S l i t i d t ti

  • 7/30/2019 jlb-MineriaDatos.pdf

    172/314

    Seleccion y construccion de caractersticas: Atributos irrelevantes? Combinar atributos existentes en otros mas complejos?

    Segmentacion (Clustering),

    Prediccion (Nearest neighbors, Nucleos y SVM, . . . )

    http://find/
  • 7/30/2019 jlb-MineriaDatos.pdf

    173/314

  • 7/30/2019 jlb-MineriaDatos.pdf

    174/314

    Cuantificacion de PesosCuanto pesa un termino en un documento?

    Imaginamos el termino como una componente de una query.

    Opciones:

    Booleano: el peso es 0 o 1, en funcion de si el terminoaparece o no en el documento. (En desuso.)

  • 7/30/2019 jlb-MineriaDatos.pdf

    175/314

    p ( )

    tf(t, d): term frequency, numero de veces que el termino taparece en el documento d.

    Cuantificacion de PesosCuanto pesa un termino en un documento?

    Imaginamos el termino como una componente de una query.

    Opciones:

    Booleano: el peso es 0 o 1, en funcion de si el terminoaparece o no en el documento. (En desuso.)

    http://find/
  • 7/30/2019 jlb-MineriaDatos.pdf

    176/314

    ( )

    tf(t, d): term frequency, numero de veces que el termino taparece en el documento d.

    Quiza hay terminos muy frecuentes que no aportan relevancia(stop words). Ponderamos tf por la frecuencia global del termino?

    http://find/
  • 7/30/2019 jlb-MineriaDatos.pdf

    177/314

  • 7/30/2019 jlb-MineriaDatos.pdf

    178/314

    La Ponderacion tf-idfEl esquema de ponderacion que todo el mundo usa

    Ponderacion:Term frequency, inverse document frequency:

    tfidf(t, d) = tf(t, d) log Ndf(t)

  • 7/30/2019 jlb-MineriaDatos.pdf

    179/314

    Da lugar a una matriz de terminos por documentos.

    Cada documento es ahora un vector con una dimension por

    cada termino. El origen de coordenadas sera el documento vaco, pero

    tambien otros documentos caen en el mismo punto cero(cuales?).

    Podemos considerar vectores parecidos, pero resulta maseficaz comparar mejor unicamente sus direcciones: similaridada traves del angulo que forman.

    La Ponderacion tf-idf y el Modelo VectorialLa respuesta mas eficaz a la cuestion de la proximidad

    Similaridad entre dos documentos:

    Normalizamos dividiendo por la longitud eucldea y calculamos el coseno del angulo mediante un producto escalar;

    la similaridad entre d1 y d2 es:

    http://find/
  • 7/30/2019 jlb-MineriaDatos.pdf

    180/314

    la similaridad entre d1 y d2 es:

    Vd1

    Vd2

    |Vd1 | |Vd2 | Cada query da lugar a un vector analogo.

    Podemos buscar los documentos cuyo vector sea masproximo al (es decir, tenga menor angulo con el) vector de laquery.

    Presencia de EnlacesLa novedad de finales del Siglo XX

    Las bibliotecas digitales tenan documentos individuales.

    Ahora resulta que estan enlazados entre s:

    Paginas web,

    Artculos que referencian otros artculos. . .

    http://find/
  • 7/30/2019 jlb-MineriaDatos.pdf

    181/314

    La web no sera lo que es sin un juicioso equilibrio:

    El spam entre paginas web siempre sera posible,

    http://find/
  • 7/30/2019 jlb-MineriaDatos.pdf

    182/314

    Presencia de EnlacesLa novedad de finales del Siglo XX

    Las bibliotecas digitales tenan documentos individuales.

    Ahora resulta que estan enlazados entre s:

    Paginas web,

    Artculos que referencian otros artculos. . .

  • 7/30/2019 jlb-MineriaDatos.pdf

    183/314

    La web no sera lo que es sin un juicioso equilibrio:

    El spam entre paginas web siempre sera posible, pero ha de ser difcil!

    Los primeros buscadores usaban la tecnologa de InformationRetrieval; no nos hubieran trado a donde estamos.

    La novedad que trajo Google: combinacion de relevancia por contenido (text mining) y relevancia basada en los enlaces (link mining).

    http://find/
  • 7/30/2019 jlb-MineriaDatos.pdf

    184/314

  • 7/30/2019 jlb-MineriaDatos.pdf

    185/314

  • 7/30/2019 jlb-MineriaDatos.pdf

    186/314

    La intuicion de PagerankPocos algoritmos alcanzaron tanta fama en tan poco tiempo

    Intuicion:Para una query dada, una pagina es relevante en funcion de:

    si otras paginas relevantes apuntan a ella,

  • 7/30/2019 jlb-MineriaDatos.pdf

    187/314

    pero teniendo en cuenta cuanto de relevantes son esaspaginas.

    La pescadilla se muerde la cola.

    Pero a los informaticos no nos asusta la recursividad.

    El unico problema es que no parece que haya caso base. . .

    http://find/
  • 7/30/2019 jlb-MineriaDatos.pdf

    188/314

    La clave de PagerankParece imposible, pero. . .

    Relevancia:Para cada pagina i, relevancia ri: vector r.

    Buscamos: ri proporcional a las rj de las paginas j que apuntan a i.

    Matriz de adyacencia M (normalizada): la relevancia que se

  • 7/30/2019 jlb-MineriaDatos.pdf

    189/314

    ( )transmite es M R.

    La condicion relevancia proporcional a la de las paginas que leapuntan se convierte en:

    R = MR

    es decir, estamos hablando de vectores propios.

    La clave de PagerankParece imposible, pero. . .

    Relevancia:Para cada pagina i, relevancia ri: vector r.

    Buscamos: ri proporcional a las rj de las paginas j que apuntan a i.

    Matriz de adyacencia M (normalizada): la relevancia que se

    http://find/
  • 7/30/2019 jlb-MineriaDatos.pdf

    190/314

    transmite es M R.

    La condicion relevancia proporcional a la de las paginas que leapuntan se convierte en:

    R = MR

    es decir, estamos hablando de vectores propios.Hay que tratar con cuidado las paginas que no apuntan a nadie.

    http://goforward/http://find/http://goback/
  • 7/30/2019 jlb-MineriaDatos.pdf

    191/314

  • 7/30/2019 jlb-MineriaDatos.pdf

    192/314

  • 7/30/2019 jlb-MineriaDatos.pdf

    193/314

  • 7/30/2019 jlb-MineriaDatos.pdf

    194/314

  • 7/30/2019 jlb-MineriaDatos.pdf

    195/314

  • 7/30/2019 jlb-MineriaDatos.pdf

    196/314

    Muestreo (Sampling): Dos Intuiciones DiferentesFrente al exceso de datos

    Una dosis de intuicion humana es indispensable: suele convenir

    dar un vistazo a los datos.Pero, si estos contienen miles de tuplas, que haces?

    Pues. . . obvio: mirar unas pocas; tomar una muestra.

  • 7/30/2019 jlb-MineriaDatos.pdf

    197/314

    Muestreo en el sentido estadstico: elegir datos que resulten

    globalmente representativos del total de los datos. Segmentacion (clustering): elegir datos que resulten

    individualmente representativos de grupos (los segmentos oclusters) de datos.

    http://find/
  • 7/30/2019 jlb-MineriaDatos.pdf

    198/314

  • 7/30/2019 jlb-MineriaDatos.pdf

    199/314

  • 7/30/2019 jlb-MineriaDatos.pdf

    200/314

    Dificultades

    Crecen...

    Ya en modelos supervisados tenemos problemas:

    Que sesgo aplicamos? Independencia de los atributos? (NB) Descomposicion en paraleleppedos paralelos a los ejes?

    (Arboles de decision)

  • 7/30/2019 jlb-MineriaDatos.pdf

    201/314

    Aproximacion lineal en un espacio de caractersticas?

    (Redes neuronales, perceptrones, SVMs. . . ) Al menos, sabemos que es lo que buscamos:

    Aproximar una funcion de los atributos predictores a la clase.

    Pero en modelos no supervisados,

    ni siquiera sabemos que buscamos.

    http://find/
  • 7/30/2019 jlb-MineriaDatos.pdf

    202/314

  • 7/30/2019 jlb-MineriaDatos.pdf

    203/314

  • 7/30/2019 jlb-MineriaDatos.pdf

    204/314

    El Enfoque Teorico (Simplificado)

    Que es exactamente clustering?

    Los axiomas de Kleinberg:

    Invariancia de escala: Ha de importar donde esta cada punto,no la unidad de medida.

    Ausencia de sesgos (riqueza de opciones): No haysegmentaciones prohibidas a priori.

    Coherencia: Si segmentas, y luego modificas los datosreduciendo distancias dentro de los segmentos y/o

  • 7/30/2019 jlb-MineriaDatos.pdf

    205/314

    reduciendo distancias dentro de los segmentos y/oampliandolas entre segmentos, la segmentacion no cambia.

    Teorema (Kleinberg, 2003)

    No existen algoritmos que cumplan las tres propiedades.

    Obviamente, a posteriori todo el mundo tiene sus reservas sobre

    alguno de los tres axiomas.Cuales son los axiomas razonables?

    Medidas de SimilaridadComo decidir si dos datos se parecen, y cuanto se parecen?

    Clave: dos datos pueden parecerse mucho, poco o nada.Necesitamos medir la similaridad entre dos datos.

    Distancias:La mas frecuentemente usada es la eucldea entre vectores reales(norma L2); alternativas mas comunes:

    Manhattan: camino mas corto que se mantenga paralelo a los

    http://find/
  • 7/30/2019 jlb-MineriaDatos.pdf

    206/314

    Manhattan: camino mas corto que se mantenga paralelo a los

    ejes (norma L1); Minkowski: norma Lp;

    Mahalanobis: similar, pero tiene en cuenta las correlacionesestadsticas entre los atributos.

    Existen medidas de similaridad que no son distancias en el sentidomatematico del termino.

    http://find/
  • 7/30/2019 jlb-MineriaDatos.pdf

    207/314

    Minimizar el Error CuadraticoHacia el algoritmo K-means

    Sesgos concretos:

    Los datos son n vectores reales xi, y un entero positivo k;

    elegiremos una particion de los datos en k clusters Cj; elegiremos un vector real cj (llamado centroide de Cj) como

    representante de cada cluster Cj;

    queremos elegir todo de tal manera que minimicemos el error

  • 7/30/2019 jlb-MineriaDatos.pdf

    208/314

    queremos elegir todo de tal manera que minimicemos el error

    cuadratico medio: 1

    n

    j

    xiCj

    d(xi, cj)2

    Observacion:no requerimos (por ahora) que los c

    jse encuentren entre los x

    i.

    Malas noticias: Es NP-hard.

    http://find/
  • 7/30/2019 jlb-MineriaDatos.pdf

    209/314

  • 7/30/2019 jlb-MineriaDatos.pdf

    210/314

  • 7/30/2019 jlb-MineriaDatos.pdf

    211/314

  • 7/30/2019 jlb-MineriaDatos.pdf

    212/314

    K-Means en AccionObservaciones, variantes y demos

    Resultados:

    Muy frecuentemente buenos o muy buenos;

    ocasionalmente malsimos;

    habitual: repetir varias veces con distintas inicializaciones yelegir la particion mejor de entre las obtenidas.

    Variantes:

  • 7/30/2019 jlb-MineriaDatos.pdf

    213/314

    Variantes:

    k-medoids (varios algoritmos): minimiza error absoluto en vez de cuadratico; el centroide es un elemento del cluster; muy lento; buenas variantes basadas en muestreo.

    Expectation-Maximization (EM): K-Means probabilista.

    Demos:http://home.dei.polimi.it/matteucc/Clustering/tutorial html/AppletKM.http://www.paused21.net/off/kmeans/bin/

    http://find/
  • 7/30/2019 jlb-MineriaDatos.pdf

    214/314

  • 7/30/2019 jlb-MineriaDatos.pdf

    215/314

    La Esencia Conceptual de Expectation-MaximizationK-Means probabilista

    Sesgo: suma de campanas de Gauss

    Centroides: medias de esas distribuciones normales.

    Suponemos que cada dato ha sido generado por una de lasgaussianas, que corresponde a su segmento.

    Pero no sabemos cual!

  • 7/30/2019 jlb-MineriaDatos.pdf

    216/314

    Para cada dato, para cada centroide, mantenemos unaprobabilidad de que ese dato provenga de la gaussiana conmedia en el centroide.

    Se puede ver como una version probabilista de la asignacionde puntos a centroides en K-Means.

    Vemos un ejemplo simplificado; pero, antes. . .

    http://find/
  • 7/30/2019 jlb-MineriaDatos.pdf

    217/314

    ComparacionRecordemos. . .

    En K-Means,

    teniendo los centroides era facil asignar datos a los segmentos:

    el centroide mas proximo; teniendo asignados los datos a segmentos era facil calcular el

    centroide: el punto medio (baricentro).

    Pero al no tener ninguna de las dos cosas empezabamos con

  • 7/30/2019 jlb-MineriaDatos.pdf

    218/314

    Pero, al no tener ninguna de las dos cosas, empezabamos con

    centroides arbitrarios e bamos repitiendo los dos procesos.Haremos algo parecido.

    http://find/
  • 7/30/2019 jlb-MineriaDatos.pdf

    219/314

  • 7/30/2019 jlb-MineriaDatos.pdf

    220/314

  • 7/30/2019 jlb-MineriaDatos.pdf

    221/314

    Continuacion del Ejemplo Concreto: Variables LatentesDos gaussianas y una trampita

    Sabemos:que es una eleccion con probabilidad p entre dos gaussianas.

    Variable latente:

  • 7/30/2019 jlb-MineriaDatos.pdf

    222/314

    Variable latente:Variable que interviene pero no es directamente observable. Aqu:la eleccion de rama (aunque s que es observable en nuestroejemplo, porque hemos hecho trampa en el formato de los floats).

    http://find/http://goback/
  • 7/30/2019 jlb-MineriaDatos.pdf

    223/314

  • 7/30/2019 jlb-MineriaDatos.pdf

    224/314

    Continuacion del Ejemplo Concreto: ExpectationDos gaussianas, y suponiendo que sabemos otra cosa

    En general, no podremos observar la variable latente gi: nosabremos de que gaussiana viene cada dato.

  • 7/30/2019 jlb-MineriaDatos.pdf

    225/314

    http://find/
  • 7/30/2019 jlb-MineriaDatos.pdf

    226/314

  • 7/30/2019 jlb-MineriaDatos.pdf

    227/314

  • 7/30/2019 jlb-MineriaDatos.pdf

    228/314

  • 7/30/2019 jlb-MineriaDatos.pdf

    229/314

  • 7/30/2019 jlb-MineriaDatos.pdf

    230/314

    Distribucion Normal MultidimensionalGeneralizacion natural a varios atributos

    Cuando los datos son multidimensionales:

    Nocion natural de media y desviacion tpica.

    Caso facil: independencia, sin interacciones entre los atributos.

  • 7/30/2019 jlb-MineriaDatos.pdf

    231/314

    http://find/
  • 7/30/2019 jlb-MineriaDatos.pdf

    232/314

    Indice

    IntroduccionRepaso de Probabilidad

    Generalidades sobre Modelado

    Predictores Basicos y su Evaluacion

    Sesgos de ContinuidadMas Sobre Evaluacion de Predictores

    Predictores Lineales y Metodos de Nucleo

    Modelos Descriptivos: Asociacion

  • 7/30/2019 jlb-MineriaDatos.pdf

    233/314

    Priorizacion de Resultados y PagerankModelos Descriptivos: Segmentacion por K-means

    Modelos Descriptivos: Segmentacion por EM

    Regresion versus Clasificacion

    Error cuadratico, sesgo y varianzaPredictores Arborescentes

    Metapredictores (Ensemble Methods)

    RelacionEntre problemas predictivos

    Reducir clasificacion a regresion:

    Numeriza las etiquetas (por ejemplo, 1) y aplica regresion.

    Reducir regresion a clasificacion:

    Haz una copia de los datos sumando M al valor a predecir,

    http://find/
  • 7/30/2019 jlb-MineriaDatos.pdf

    234/314

    haz otra copia de los datos restando M al valor a predecir, y aplica clasificacion para separar ambas copias.

    (En ambos casos, existen otras opciones.)

    http://find/http://goback/
  • 7/30/2019 jlb-MineriaDatos.pdf

    235/314

  • 7/30/2019 jlb-MineriaDatos.pdf

    236/314

    Reduccion de Regresion a ClasificacionIntuicion

  • 7/30/2019 jlb-MineriaDatos.pdf

    237/314

    http://find/
  • 7/30/2019 jlb-MineriaDatos.pdf

    238/314

  • 7/30/2019 jlb-MineriaDatos.pdf

    239/314

  • 7/30/2019 jlb-MineriaDatos.pdf

    240/314

    Reduccion de Regresion a ClasificacionIntuicion

  • 7/30/2019 jlb-MineriaDatos.pdf

    241/314

    Reduccion de Regresion a ClasificacionIntuicion

    http://find/
  • 7/30/2019 jlb-MineriaDatos.pdf

    242/314

    Reduccion de Regresion a ClasificacionIntuicion

    http://find/
  • 7/30/2019 jlb-MineriaDatos.pdf

    243/314

    http://find/
  • 7/30/2019 jlb-MineriaDatos.pdf

    244/314

  • 7/30/2019 jlb-MineriaDatos.pdf

    245/314

  • 7/30/2019 jlb-MineriaDatos.pdf

    246/314

    Indice

    IntroduccionRepaso de Probabilidad

    Generalidades sobre Modelado

    Predictores Basicos y su Evaluacion

    Sesgos de ContinuidadMas Sobre Evaluacion de Predictores

    Predictores Lineales y Metodos de Nucleo

    Modelos Descriptivos: Asociacion

    P i i i d R l d P k

  • 7/30/2019 jlb-MineriaDatos.pdf

    247/314

    Priorizacion de Resultados y PagerankModelos Descriptivos: Segmentacion por K-means

    Modelos Descriptivos: Segmentacion por EM

    Regresion versus Clasificacion

    Error cuadratico, sesgo y varianzaPredictores Arborescentes

    Metapredictores (Ensemble Methods)

    Modelos Predictivos Basados en los DatosSimplemente quedate con el modelo que mejor predice los datos

    El problema del sobreajuste:

    (En ingles overfitting.)Acertar muy bien en los datos no implica predecir bien endatos que no se han usado en el entrenamiento.

    Un planteamiento que clarifica un poquito es el analisis del error en

    t i d d f t d dif t

    http://find/
  • 7/30/2019 jlb-MineriaDatos.pdf

    248/314

    terminos de dos fuentes de error diferentes: sesgo y

    varianza.

    http://find/
  • 7/30/2019 jlb-MineriaDatos.pdf

    249/314

  • 7/30/2019 jlb-MineriaDatos.pdf

    250/314

  • 7/30/2019 jlb-MineriaDatos.pdf

    251/314

  • 7/30/2019 jlb-MineriaDatos.pdf

    252/314

  • 7/30/2019 jlb-MineriaDatos.pdf

    253/314

    Expresiones del Sesgo y de la VarianzaLa formalizacion sirve para casos mas generales

    Contexto:

    Valor a predecir y;

    Muestra aleatoria s que revela informacion sobre y;

    Estimador e(s) que intenta acertar con y a la vista de s.

    El valor e(s) es una variable aleatoria: depende de la m