polinomios ortogonales multivariados discretos y su

Polinomios Ortogonales

Multivariados Discretos y su Aplicación en Aprendizaje

Estadístico

T E S I S Que para obtener el grado de

Maestro en Ciencias

con Especialidad en

Ciencias de la Computación y Matemáticas Industriales

P r e s e n t a

Martha Lorena Avendaño Garrido

_______________________________________________

Director de Tesis:

Dr. Johan Jozef Lode Van Horebeek

_______________________________________________

Guanajuato, Gto. Noviembre de 2006

Dedicatorias

A mi madre, por el apoyo y amor incondicional que me ha brindado.

A Carlos, por ser parte de mi vida.

A Lilı, por estar siempre cerca.

i

Agradecimientos

A mi asesor, Dr. Johan Van Horebeek, por el apoyo, recomendaciones y conocimien-tos brindados para realizar este trabajo.

A los revisores Dr. Rogelio Ramos y Dr. Arturo Hernandez por sus observacionesy recomendaciones.

A los profesores y companeros que compartieron conmigo su conocimiento durantela maestrıa.

Al CIMAT por permitirme ser parte de esta institucion.

Al CONACYT por brindarme apoyo economico para realizar estudios de posgrado.

ii

Indice general

Introduccion 1

1. Motivacion 31.1. Clasificacion de Datos Multivariados Binarios . . . . . . . . . . . . . . 31.2. Algoritmos de Estimacion de Distribucion . . . . . . . . . . . . . . . . 41.3. Maquinas de Boltzmann Binarias . . . . . . . . . . . . . . . . . . . . . 51.4. Recuperacion de Informacion . . . . . . . . . . . . . . . . . . . . . . . 6

2. Construccion de Distribuciones usando Maxima Entropıa 82.1. Principio de Maxima Entropıa . . . . . . . . . . . . . . . . . . . . . . . 82.2. Minimizacion de la Divergencia de Kullback-Leibler . . . . . . . . . . . 92.3. Restricciones Usadas en el Modelo . . . . . . . . . . . . . . . . . . . . . 112.4. Estimacion de los Parametros del Modelo . . . . . . . . . . . . . . . . . 12

2.4.1. Familia Exponencial de Distribuciones y Modelos Graficos . . . 122.4.2. Algoritmo IPF . . . . . . . . . . . . . . . . . . . . . . . . . . . 13

3. Construccion de Distribuciones usando Polinomios Ortogonales 143.1. Expansion usando Polinomios Ortogonales . . . . . . . . . . . . . . . . 14

3.1.1. Expansion de Bahadur-Lazarsfeld . . . . . . . . . . . . . . . . . 153.1.2. Expansion de Rademacher-Walsh . . . . . . . . . . . . . . . . . 163.1.3. Expansion de Kronmal-Ott-Tarter . . . . . . . . . . . . . . . . . 17

3.2. Minimizacion de Divergencias de Probabilidad . . . . . . . . . . . . . . 183.2.1. Minimizacion de la Divergencia D2

φ . . . . . . . . . . . . . . . . 183.3. Estimacion de los Parametros del Modelo . . . . . . . . . . . . . . . . . 213.4. Tipos de Errores . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22

3.4.1. Intervalos de Confianza para E(ϕi(x)) . . . . . . . . . . . . . . 223.4.2. Cota para el Error de Truncamiento en las Expansiones Ortogonales 23

4. Simulacion de Distribuciones Construidas con Polinomios Ortogo-nales 244.1. Calculo de Probabilidades Condicionales . . . . . . . . . . . . . . . . . 244.2. Algoritmo para Simulacion . . . . . . . . . . . . . . . . . . . . . . . . . 274.3. Complejidad del Algoritmo . . . . . . . . . . . . . . . . . . . . . . . . . 27

iii

INDICE GENERAL iv

5. Generalizacion y Unificacion de Distribuciones Construidas con Poli-nomios Ortogonales 295.1. Polinomios Ortogonales Clasicos Discretos en una Variable . . . . . . . 295.2. Construccion de la Base para la Distribucion . . . . . . . . . . . . . . . 315.3. Minimizacion de la Divergencia D2

φ . . . . . . . . . . . . . . . . . . . . 335.4. Expansion de Bahadur-Lazarsfeld y expansion de Rademacher-Walsh

como casos particulares . . . . . . . . . . . . . . . . . . . . . . . . . . . 335.4.1. Expansion de Bahadur-Lazarsfeld . . . . . . . . . . . . . . . . . 345.4.2. Expansion de Rademacher-Walsh . . . . . . . . . . . . . . . . . 34

5.5. Expansiones para N = 2 y N = 3 . . . . . . . . . . . . . . . . . . . . . 355.5.1. Analogo a la expansion de Bahadur-Lazarsfeld . . . . . . . . . . 355.5.2. Analogo a la expansion de Rademacher-Walsh . . . . . . . . . . 36

6. Experimentos 386.1. Resultados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38

6.1.1. Datos Sinteticos . . . . . . . . . . . . . . . . . . . . . . . . . . . 386.1.2. Datos Reales . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39

6.2. Algoritmos con Estimacion de Distribucion . . . . . . . . . . . . . . . . 406.2.1. Resultados con la funcion One-Max . . . . . . . . . . . . . . . . 426.2.2. Resultados con la funcion Plateau . . . . . . . . . . . . . . . . . 43

7. Clasificacion 467.1. Introduccion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 467.2. Clasificador Asimetrico . . . . . . . . . . . . . . . . . . . . . . . . . . . 47

7.2.1. Ejemplo (clasificador asimetrico vs clasificador ingenuo Bayesiano) 477.3. Clasificador Simetrico . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49

7.3.1. Ejemplo (clasificador simetrico vs clasificador ingenuo Bayesiano) 507.3.2. Ejemplo (clasificador simetrico vs regresion logıstica) . . . . . . 51

Conclusiones 54

Apendice 55A. Algoritmo IPS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55B. Arboles de Union . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57

Bibliografıa 58

Introduccion

En este trabajo, estudiaremos distribuciones de probabilidad P (x) donde x =(x1, ..., xd) y cada xl ∈ {0, 1}. Este tipo de datos, multivariados Bernoulli, surgenen diversas areas de aprendizaje estadıstico. Cabe mencionar que, uno de los modelosmas estudiados para P es un modelo multiplicativo (modelo de maxima entropıa); sinembargo, el costo computacional para estimarlo es alto, por eso en algunos casos se usacomo alternativa un modelo aditivo, por ejemplo, la expansion de Bahadur-Lazarsfeld.El modelo de Bahadur-Lazarsfeld es una representacion de P como una expansion depolinomios ortogonales multivariados. Aunque la expansion de Bahadur-Lazarsfeld esla mas usada, estudiaremos y generalizaremos otras expansiones de polinomios ortog-onales.

En el capıtulo 1, damos algunos ejemplos donde se requiere modelar datos multivari-ados Bernoulli. Se describen ejemplos concretos de diversas areas como recuperacionde informacion ([5], [21] y [24]), algoritmos de estimacion de distribucion ([19] y [27])y en redes binarias de aprendizaje ([12] y [13]). En algunos de estos ejemplos veremosque los datos son modelados de forma multiplicativa y por la complejidad del modelose hace un cambio a modelo aditivo. En [7] se hace una amplia comparacion de modelosaditivos y multiplicativos.

En el capıtulo 2, describimos el modelo multiplicativo construido con el principiode maxima entropıa, propuesto por [14]. Estudiamos una forma alternativa al princi-pio de maxima entropıa minimizando la divergencia de Kullback-Leibler. Estimaremoslos parametros del modelo maximizando la log-verosimilitud, para esto, usaremos elalgoritmo IPF y algunas propiedades del modelo grafico al cual es equivalente estemodelo.

En el capıtulo 3, estudiamos distribuciones multivariadas Bernoulli construidas us-ando polinomios ortogonales, estos modelos son aditivos. Veremos tres expansionesconocidas: expansion de Bahadur-Lazarsfeld, expansion de Rademacher-Walsh y ex-pansion Kronmal-Ott-Tarter, estudiadas en [1], [9] y [23], respectivamente. Posteri-ormente, proponemos la minimizacion de una “distancia” entre probabilidades comoforma alternativa para llegar a las expansiones anteriores, ası surge un analogo al prin-cipio de Maxima Entropıa en funcion del Indice de Gini. Tambien, usaremos el metodode estimacion de momentos para estimar los parametros del respectivo modelo. Us-aremos el metodo delta para estimar intervalos de confianza para la estimacion de losparametros. En la practica las expansiones seran truncadas para disminuir el numero

1

Introduccion 2

de parametros a estimar, lo cual nos hace estudiar el error que se comete al truncar.En el capıtulo 4, proponemos un algoritmo para simular datos multivariados Bernoul-

li modelados como expansion de polinomios ortogonales. Para esto, expresamos lasprobabilidades marginales y condicionales de estos modelos. Por ultimo, hacemos unbreve analisis de la complejidad del algoritmos propuesto, esto basandonos en la hipotesisde que la expansion es truncada.

En el capıtulo 5, generalizamos la construccion de distribuciones usando polinomiosortogonales del caso multivariado Bernoulli al caso multivariado discreto. Para estousamos los polinomios ortogonales clasicos discretos de Hahn y Krawtchouk los cualestienen soporte finito. Despues de obtener la generalizacion, vemos que las expansionesde Bahadur-Lazarsfeld y Rademacher-Walsh son casos particulares de la generalizacionpropuesta. Por ultimo, construimos el analogo a las expansiones anteriores para el casoen que cada variable del vector aleatorio toma tres y cuatro valores discretos.

En el capıtulo 6, modelamos datos sinteticos y reales, basandonos en el principiode maxima entropıa y en las expansiones con polinomios ortogonales, para hacer unacomparacion experimental de los modelos. Por ultimo, motivamos el uso de los metodospropuestos en EDAs. EDAs son algoritmos evolutivos de busqueda de valores optimospara funciones; nosotros nos limitamos a funciones que tienen como argumento vectoresbinarios.

En el capıtulo 7, el ultimo capıtulo, proponemos clasificadores para objetos concaracterıstica binarias, que generalizan el clasificador ingenuo Bayesiano, de tal modoque sea posible incluir interacciones entre las variables. Para incluir estas interaccionesusamos expansiones con polinomios ortonormales, lo cual aumenta muy poco la com-plejidad del algoritmo. Compararemos los resultados de nuestros clasificadores con losresultados del clasificador ingenuo Bayesiano.

Capıtulo 1

Motivacion

En este capıtulo, veremos algunos ejemplos especıficos en donde se requiere mode-lar datos multivariados binarios. Estos ejemplos son en areas distintas de aprendizajeestadıstico. En algunos casos, se requiere hacer una estimacion de la distribucion de losdatos. En otros casos, se modela una funcion de decision para clasificar datos multi-variados binarios. En algunos de estos ejemplos, se mencionan algunas ventajas de losmodelos aditivos. En [7] se hace una comparacion de los modelos aditivos y modelosmultiplicativos.

1.1. Clasificacion de Datos Multivariados Binarios

La clasificacion estadıstica es un procedimiento en el cual cada objeto, caracteriza-do por variables, es etiquetado con alguna clase. Esto es, dado el conjunto de entre-namiento {(x(1), y(1)), ..., (x(n), y(n))}, donde cada x(i) = (x1, ..., xd), “se produce” algunclasificador y : X → Y , con los objetos x ∈ X y las etiquetas y ∈ Y .

Suponiendo que los datos provienen de una distribucion P (x, y). Para obtener elclasificador optimo Bayesiano, se requiere estimar

g(x) =P (x|y = 1)

P (x|y = −1)

P (y = 1)

P (y = −1), (1.1.1)

y el clasificador buscado es

y(x) =

{1 si g(x) > 1−1 en caso contrario.

(1.1.2)

Se puede ver que que el clasificador (1.1.2) es equivalente a

y(x) = sign(g∗(x)) (1.1.3)

con g∗(x) = P (x|y = 1)P (y = 1)− P (x|y = −1)P (y = −1).

3

1. Motivacion 4

El clasificador Bayesiano mas sencillo es el clasificador ingenuo Bayesiano, el cualsupone independencia entre las variables de los objetos, es decir g(x) se estima con

d∏i=1

P (xi|y = 1)

P (xi|y = −1)

P (y = 1)

P (y = −1).

Muchas veces, los objetos x son vectores con variables binarias, por ejemplo lapresencia o ausencia de alguna caracterıstica.

En el capıtulo 7, proponemos modelar la funcion g∗(x) donde x es un vector binario,con un modelo aditivo usando polinomios ortogonales y que ademas tenga como casoparticular el clasificador ingenuo Bayesiano.

1.2. Algoritmos de Estimacion de Distribucion

Los algoritmos de estimacion de distribucion (EDAs) son algoritmos iterativos debusqueda de valores optimos para una funcion f dada. Los EDAs son algoritmosgeneticos sin operadores de cruzamiento y mutacion, en este caso, el nuevo conjun-to de candidatos de la solucion es generado por un muestreo de una distribucion deprobabilidad P , la cual es estimada de un conjunto que contiene vectores x candidatosa la solucion, seleccionados de la generacion previa.

En EDAs, las interacciones de las variables de x se toman en consideracion en elmodelo de la distribucion P . Existen diferentes metodos para aproximar la distribucionde probabilidad, como se puede ver en [19].

Algoritmo:Generar, aleatoriamente, M elementos del espacio de busqueda.Para l = 1, ..., hasta condicion de paro

Seleccionar N ≤M candidatos al optimo.Estimar la distribucion P (l) de los N candidatos.Generar M candidatos al optimo de acuerdo a la distribucion P (l).

El principal problema en EDAs es como estimar la distribucion P . Existen modelospara estimar P en los cuales se incluyen o no dependencias entre las variables de losvectores x. La complejidad del modelo probabilıstico esta en funcion de las dependen-cias entre las variables de x. En [19] se hace una descripcion de los diversos modelospara estimar P en EDAs.

En general, se puede aplicar EDAs a cualquier funcion f . En nuestro caso, la funcionf sera una funcion cuyo argumento x es un vector multivariado bernoulli. Nuestroproblema sera un problema optimizacion combinatoria.

El modelo de distribucion mas sencillo es factorizar la distribucion P por el productode univariadas e independientes distribuciones marginales, es decir

P (x) =∏l

P (xl), (1.2.4)

1. Motivacion 5

donde P (xl) =∑xl/#datos. La version de EDA que usa la ecuacion (1.2.4) para

estimar P es llamada UMDA. En [27] se aplico la correccion de Laplace en UMDA. Lacorreccion consiste en estimar P (xl) de la siguiente manera

P (xl) =

∑xl + 1

#datos+ 2,

lo anterior es para evitar que alguna marginal univariada sea 1 o 0.En el capıtulo 6, proponemos usar la expansion de Bahadur-Lazarsfeld como modelo

para estimar P en EDAs. Mostraremos resultados experimentales de nuestra versionde EDA.

1.3. Maquinas de Boltzmann Binarias

Una maquina de Boltzmann es una red probabilıstica de vectores x = (x1, ..., xd),con xi ∈ {0, 1}. La maquina de Boltzmann es representada con un modelo grafico nodirigido. La distribucion de probabilidad es de la forma

P (x;λ) =1

Ze

Pdi=1 λixi+

Pi<j λijxixj , (1.3.5)

donde Z es la constante de normalizacion de la distribucion y λ el vector de parametros.Consideremos el caso donde (x1, .., xd) es particionado en dos conjuntos ajenos, uno devariables observadas y otro de variables no observadas, denotados por {xi}i∈O y {xi}i∈Urespectivamente, donde O ∪ U = {1, ..., d}.

El problema de una maquina de Boltzmann es estimar los parametros λ′s usandosolo el conjunto de variables observadas. Para esto, se maximiza la verosimilitud de lasvariables observadas. La log-verosimilitud de las variables observadas es

L({xi}i∈O, λ) =∑

{xi}i∈O

n({xi}i∈O) log(P ({xi}i∈O;λ)),

donde n({xi}i∈O) denota la frecuencia relativa de las variables observadas y P ({xi}i∈O;λ) =

∑{xi}i∈U

P (x;λ), es decir, la marginalizacion con respecto a las variables no

observadas. En [12], podemos ver que las derivadas de L({xi}i∈O, λ) con respecto a λly λlm son: ∑

{xi}i∈O

n({xi}i∈O)E(xl|{xi}i∈O;λ)

− E(xl;λ) (1.3.6)

∑{xi}i∈O

n({xi}i∈O)E(xlxm|{xi}i∈O;λ)

− E(xlxm;λ), (1.3.7)

respectivamente, donde E denota la esperanza de la distribucion (1.3.5). Para obtenerel estimador de maxima verosimilitud requerimos encontrar los parametros λ tal que

1. Motivacion 6

las ecuaciones (1.3.6) y (1.3.7) sean cero. Para lo anterior comunmente se usa el algo-ritmo del gradiente. Sin embargo, la estimacion de la esperanza de la distribucion escomputacionalmente costoso.

En [12], se propone una alternativa para estimar E en el algoritmo del gradiente:se propone reparametrizar la distribucion (1.3.5), pero ahora con un modelo aditi-vo, particularmente con una expansion de Bahadur-Lazarsfeld truncada, y con estareparametrizacion estimar E. Este modelo, por ser de la forma aditiva tiene costocomputacional menor que un modelo multiplicativo.

Esta idea de reparametrizar una distribucion multiplicativa por una aditiva parareducir el costo computacional tambien es usada en [13], donde se aplica a redes prob-abilısticas multivariadas binarias.

1.4. Recuperacion de Informacion

El objetivo de recuperacion de informacion (information retrieval (IR)) es buscarinformacion en documentos; documentos en bases de datos; datos que describen undocumento, hipertextos, imagenes y sonidos en internet.

Uno de los problemas en recuperacion de informacion es ordenar objetos que “cum-plan” con una consulta dada. Por lo anterior, es necesario representar los documentosde alguna forma. Existen varios modelos para esto, una forma es mediante modelosprobabilısticos. En los modelos probabilısticos, el proceso de recuperar informacion estratado como un experimento aleatorio.

En [24] se propone un metodo para ordenar respuestas a consultas en bases dedatos binarios. La estimacion de la probabilidad de satisfacer una consulta en unabase de datos binaria es de la siguiente manera: sea R una tabla con n vectores x,con x = (x1, ..., xd) donde cada xi ∈ {0, 1}, suponemos d � n y que la tabla es rala.Decimos que un vector xj satisface una consulta q si y solo si qi = xji , para toda i. Elproblema es encontrar los vectores x de la tabla R que cumplan con la consulta q.

La estimacion de probabilidad de poder satisfacer una peticion sirve para optimizarbases de datos. Pavlov ([24]) propone un modelo basado en el principio de maxima en-tropıa y en conjuntos de objetos frecuentes para el problema antes descrito. Este modelodefine un modelo grafico para la probabilidad y tambien muestra que el tiempo tomadoen dar respuesta a la consulta crece exponencialmente en funcion de la complejidad delgrafo del modelo. En el trabajo antes mencionado, se hace una comparacion con otrosmodelos probabilısticos usando bases de datos reales y sinteticos.

Otro problema en recuperacion de informacion es tratada por Losee. En [21] separte de la idea de que los sistemas de recuperacion de informacion asignan a cadadocumento un valor de relevancia para una consulta dada, en base a este valor losdocumentos son clasificados en relevantes y no-relevantes. El valor de relevancia esestimado de acuerdo:

P (y = rel|x)P (y = no− rel|x)

, (1.4.8)

1. Motivacion 7

donde P (y = rel|x) representa la probabilidad de relevancia para una consulta daday un documento x. Un documento x = (x1, ..., xd) es un vector con x caracterısticasbinarias.

Usualmente, se asume que las caracterısticas xi son independientes en los documen-tos relevantes y no-relevantes. Por tanto, los documentos son clasificados de acuerdoa:

d∏i=1

P (xi|y = rel)

P (xi|y = no− rel). (1.4.9)

Como podemos observar, obtenemos ası, un problema de clasificacion.La propuesta de Losee es no usar un modelo de independencia, ya que pueden

existir interacciones entre las variables del documento x. Antes que Losee, ya se habıapropuesto un modelo donde se incluyen interacciones entre las variables, este modeloes maxima entropıa, sin embargo, este metodo requiere largo tiempo de computo.

En [21], se propone usar una expansion de Bahadur-Lazarsfeld truncada para mod-elar P (x). En este caso, los documentos son clasificados estimando:

P (y = rel|x) =P (x|y = rel)P (y = rel)

P (x), (1.4.10)

los parametros de P (x|y = rel) y de P (x) son estimados con tecnicas especıficas delarea de recuperacion de informacion.

Por otro lado, [5] propone usar la expansion de Bahadur-Lazarsfeld incorporandootras tecnicas utiles en recuperacion de informacion.

Capıtulo 2

Construccion de Distribucionesusando Maxima Entropıa

En este capıtulo revisaremos la construccion de distribuciones a partir del Princi-pio de Maxima Entropıa y para un caso particular, obtendremos que coincide con laminimizacion de divergencia de Kullback-Leibler. Veremos que una vez encontrada laforma de la distribucion, encontrar los parametros que cumplan con ciertas restriccionesdadas coincide con un problema de maxima verosimilitud de un modelo grafico. Porultimo, describimos el algoritmo que usamos para estimar los parametros del modeloy mencionamos que tipo de restricciones usamos.

2.1. Principio de Maxima Entropıa

Jaynes en [14] introdujo y formalizo la idea de encontrar una distribucion de proba-bilidad con el principio de incertidumbre maxima, es decir, encontrar una distribucion,sujeta a algunas restricciones, que maximice la entropıa:

Maximizar: H(P ) = −∑

x P (x) logP (x)Sujeto a:

∑x P (x)ψi(x) = fi con i = 0, ...,m

P (x) ≥ 0 para cada x(2.1.1)

donde la restriccion i = 0 normaliza P (x).A continuacion, supondremos que {fi}mi=1 es consistente, es decir que la solucion al

problema (2.1.1) existe.Supongamos que se cumplen las condiciones necesarias de optimalidad para usar

multiplicadores de Lagrange. Para resolver (2.1.1) tenemos que minimizar:

L(P, λi) =∑x

P (x) logP (x)−m∑i=0

λi

[∑x

P (x)ψi(x)− fi

](2.1.2)

8

2. Construccion de Distribucion de Maxima Entropıa 9

fijando x y derivando con respecto a P

∂

∂PL(P, λi) = 1 + logP (x)−

m∑i=0

λiψi(x)

igualando a cero y encontrando P (x)

P (x) = (expλ0) exp (∑m

i=1 λiψi(x))

= µ0

∏mi=1 µ

ψi(x)i .

(2.1.3)

con expλ0 factor de normalizacion de la distribucion, ademas observamos que se cumplela restriccion P (x) ≥ 0 para cada x, por eso en la ecuacion (2.1.2) no se incluye estarestriccion.

2.2. Minimizacion de la Divergencia de Kullback-

Leibler

En esta seccion construiremos P de tal forma que se “acerque” a una P dada. Paraesto, requerimos una medida de “cercanıa” entre una distribucion de probabilidad Py una distribucion P . Usaremos una de las divergencias mas conocidas, la Divergenciade Kullback-Leibler. No es una distancia en sentido estricto ya que no es simetrica nicumple con la desigualdad de triangulo. Veremos que una alternativa al Principio deMaxima Entropıa es encontrar P tal que minimice la Divergencia de Kullback-Leiblera la distribucion uniforme, como se propone en [17].

Definicion 2.2.1 La Divergencia de Kullback-Leibler (o Entropıa Cruzada) es definidacomo

DKL(P, P ) =∑x

P (x) log

(P (x)

P (x)

).

Usando la desigualdad de Jensen, es facil ver que DKL(P, P ) ≥ 0, ademas la igual-dad se cumple si y solo si P (x) = P (x) para toda x.

Queremos construir P (x) de tal forma que se cumplan m restricciones, ademas deque

∑x P (x) = 1, es decir ∑

x

P (x)ψi(x) = fi

con i = 0, . . . ,m donde la restriccion i = 0 normaliza P .Consideremos P (x) = P0(x) donde P0(x) es la distribucion uniforme, esto es, la

distribucion menos “informativa”. Entonces queremos minimizar

DKL(P, P0) =∑

x P (x) log(P (x)P0(x)

)= −H(P ) + C


donde H(P ) es la entropıa de la distribucion P y C = − log(

12d

). Ahora nuestro

problema de minimizar DKL(P, P0) sujeto a las restricciones dadas, es equivalente a:

Maximizar: H(P ) = −∑


∑x P (x)ψ(x) = fi

P (x) ≥ 0(2.2.4)

con i = 0, . . . ,m.Esto es, obtenemos el problema del Principio de Maxima Entropıa y sabemos que

si existe la solucion es de la forma de la ecuacion (2.1.3).Usando lo anterior, podemos demostrar la unicidad de la distribucion P de maxima

entropıa, como se hace en [17]. Supongamos que existe otra distribucion Q tal queH(Q) = H(P ) y que cumple con las restricciones del problema (2.2.4), es decir∑

x

Q(x)ψi(x) = fi con i = 0, ...,m,

de donde tenemos:

0 = H(P )−H(Q)=

∑xQ(x) logQ(x)−

∑x P (x) logP (x)

=∑

xQ(x) logQ(x)−∑

x P (x)[∑m

i=0 λiψi(x)]=

∑xQ(x) logQ(x)−

∑mi=0 λifi

=∑

xQ(x) logQ(x)−∑m

i=0 λi∑

xQ(x)ψi(x)=

∑xQ(x) logQ(x)−

∑xQ(x) logP (x)

=∑

xQ(x) log(Q(x)P (x)

)= DKL(Q,P )

por tanto Q(x) = P (x) para todo x. �Ademas, usando el planteamiento de minimizacion de la divergencia de Kullback-

Leibler, podemos generalizar el resultado para estimar P , ya que si queremos minimizarDKL(P, P ) con P arbitraria dada, sujeta a algunas restricciones, tenemos que nuestroproblema es

Minimizar:∑

x P (x) logP (x)−∑


∑x P (x)ψi(x) = fi con i = 0, . . . ,m.

donde la restriccion i = 0 normaliza la distribucion P . Si la solucion existe, usandomultiplicadores de Lagrange obtenemos que P (x) tiene la forma

P (x) = P (x)µ0

m∏i=1

µψi(x)i . (2.2.5)


2.3. Restricciones Usadas en el Modelo

En esta seccion, veremos una estrategia para elegir las restricciones, es decir, cuales{ψi} usar. Al igual que en [24] las restricciones elegidas estan dadas por los “Conjuntosde Objetos Frecuentes” (vea [11]) que describiremos enseguida.

A cada variable xi del vector aleatorio multivariado Bernoulli le llamaremos objeto.Considere una muestra de vectores {xk}, con k = 1, ..., n. Sea A un conjunto de objetos,esto es, A ⊂ {1, ..., d}. Decimos que el vector xk satisface A si xki = 1 para cada i en A.

A es un conjunto de objetos frecuentes si

P

(∏i∈A

Xi = 1

)= E

(∏i∈A

Xi

)> c (2.3.6)

El tamano del conjunto de objetos frecuentes es Card(A) y la constante c es llamadasoporte. El tamano y el soporte son parametros del algoritmo dados por el usuario.

Para estimar la probabilidad de la ecuacion (2.3.6) tomamos la distribucion empırica

P

(∏i∈A

Xi = 1

)=

1

n

n∑k=1

∏i∈A

(Xki = 1

)(2.3.7)

Algoritmos eficientes para encontrar conjuntos de objetos frecuentes son los algo-ritmos “apriori” y “eclat” (vea [4]). Estos algoritmos tienen un costo computacionalbajo, ya que son lineales en el tamano de la tabla y el numero de objetos frecuentes.La eficiencia de estos algoritmos se basa en la siguiente propiedad:

Propiedad 2.3.1 Si P(∏

i∈AXi = 1)< c y A ⊆ B entonces

P

(∏xi∈B

Xi = 1

)< c.

La propiedad anterior reduce el espacio de busqueda de conjuntos de objetos fre-cuentes que cumplan la condicion del soporte y el tamano. Para generar todos losconjuntos de objetos frecuentes de tamano m, solo requerimos considerar todos losconjuntos de objetos frecuentes de tamano m− 1 y combinarlos con una variable mas,si la combinacion cumple la condicion de soporte obtendremos un nuevo conjunto deobjetos frecuentes. Repetimos lo anterior hasta que se dejen de cumplir los parametrosdados.

Como restricciones del problema (2.2.4) se usaran los conjuntos de objetos frecuentesobtenidos con el algoritmo “apriori” con una eleccion particular de parametros (soportemınimo y tamano) de acuerdo al problema.

De lo anterior tenemos que cada ψi es una funcion indicadora de la forma xAi. De

aquı, tenemos que solo nos resta estimar los parametros del modelo tal que se cumplanlas restricciones del problema (2.2.4), para esto, maximizaremos la log-verosimilitud dela muestra.


2.4. Estimacion de los Parametros del Modelo

En las secciones 2.1 y 2.2 obtuvimos la forma generica de una distribucion conMaxima Entropıa. En esta seccion estimaremos los parametros del modelo, para esomaximizaremos la verosimilitud en base de la muestra dada. Veremos que la distribu-cion de maxima entropıa se puede considerar como la forma generica de la distribucionde un Modelo Grafico, por esto, podremos usar el algoritmo IPF [20], que maximiza laverosimilitud de un modelo grafico.

2.4.1. Familia Exponencial de Distribuciones y Modelos Grafi-cos

Las distribuciones de probabilidad de la familia exponencial son de la forma

P (x) =1

Ze

Pmi=1 λiψi(x), (2.4.8)

donde 1/Z es la constante de normalizacion y {λi} son parametros de la distribucion.Se puede mostrar que {ψi} son estadısticas suficientes de la distribucion.

Podemos decir que la forma generica de una distribucion de Maxima Entropıa(2.1.3) pertenece a la familia exponencial de distribuciones.

Por otro lado, sabemos que cualquier funcion f con argumento un vector binario xde dimension d, se puede expresar como

f(x) =∑

A⊂{1,...,d}

αAxA. (2.4.9)

Si aplicamos lo anterior a cada ψi(x) podemos expresar (2.4.8) como

P (x) = 1Ze

Pmi=1 λi

PAi⊂{1,...,d} αAi

xAi

= 1Ze

PA⊂{1,...,d} aAxA

Ahora, tomaremos la notacion estandar de modelos graficos de [20]. La distribucionde un modelo grafico se puede expandir como

P (x) =1

Ze

PA⊂{1,...,d} φA(xA)

donde 1/Z es la constante de normalizacion del modelo grafico y φA(xA) son los poten-ciales. Sin perdida de generalidad, por la expresion (2.4.9), podemos representar P (x)como

P (x) =1

Ze

PA⊂{1,...,d} aAxA ,

esto es, la distribucion de un modelo grafico tambien es una distribucion de la familiaexponencial. Los conjuntos A ⊂ {1, ..., d}, con aA 6= 0, son llamados cliques.


De lo anterior, afirmamos que la distribucion de un modelo grafico coincide con unadistribucion de maxima entropıa con ciertas restricciones. El grafo G de la distribucionde maxima entropıa esta representado por un nodo en cada variable xi y una conexionentre las variables xi y xj si existe A tal que i, j ∈ A.

Como IPF [20] es un conocido algoritmo para estimar los parametros de la distribu-cion de un modelo grafico, lo anterior nos permite usarlo para estimar los parametrosde la distribucion de Maxima Entropıa.

2.4.2. Algoritmo IPF

Consideremos el problema de encontrar el estimador de maxima verosimilitud paraun modelo grafico. La funcion de verosimilitud para una muestra {xk} de tamano nesta dada por

L(P ) =n∏k=1

P (xk)

la cual tenemos que maximizar.Definimos el operador “ajuste de marginales” para un clique A por

(TAP )(x) = P (x)n(xA)/n

P (xA). (2.4.10)

donde n(xA) es el numero de vectores de la muestra que cumplen con xA.Se puede mostrar que TAP es una probabilidad y que (TAP )(xA) = n(xA)/n. El

operador anterior define el algoritmo IPF.

Algoritmo IPF:Para un grafo G dado:Inicializar P (0) como la distribucion uniforme.Mientras no se satisfagan las restricciones {

Para cada clique A de G{Para cada x: P (i)(x) = (TAP

(i−1))(x) de acuerdo a la ecuacion (2.4.10)}

}

La demostracion de convergencia y unicidad se puede ver en [20].En nuestro caso, usaremos otra version de este algoritmo que veremos en el apendice.

Tambien usaremos otras propiedades de los modelos graficos para acelerar la conver-gencia.

Capıtulo 3

Construccion de Distribucionesusando Polinomios Ortogonales

En este capıtulo veremos alternativas para la construccion de distribuciones multi-variadas Bernoulli. Primero, revisaremos como expresar distribuciones de probabilidadcomo una combinacion lineal de polinomios ortogonales. Posteriormente, proponemosla minimizacion de una divergencia de probabilidad para estimar las distribucionesy veremos que bajo restricciones especıficas coincide con expansiones de polinomiosortogonales. De esta manera obtenemos una analogıa con los resultados del capıtuloanterior. Para estimar los parametros de los modelos, usaremos el metodo de estimacionde momentos. Una vez estimados los parametros, obtendremos intervalos de confianzapara estos. Por ultimo, encontraremos una cota para el error de truncamiento de unade las expansiones estudiadas.

3.1. Expansion usando Polinomios Ortogonales

Una manera util de aproximar funciones de probabilidad es empleando polinomiosortogonales, como en [9] y [23]. Dado que la ortogonalidad es relativa a un productointerno lo primero que requerimos es definir tal producto.

Supongamos que tenemos un espacio de funciones y que existe un producto interno〈·, ·〉P donde P es una funcion de peso, y una base ortonormal {ϕi}i∈A donde A es unconjunto finito de ındices. Entonces podemos expandir cualquier funcion f por

f =∑i∈A

〈f, ϕi〉Pϕi. (3.1.1)

En particular, se puede obtener una aproximacion de f truncando la expansionde la ecuacion (3.1.1). Si la funcion f que queremos aproximar es una distribucionde probabilidad P , con la forma de la expansion (3.1.1) no podemos garantizar queP (x) ≥ 0 para cada x. En la practica cuando obtenemos algun x tal que P (x) < 0

14

3. Construccion de Distribuciones usando Polinomios Ortogonales 15

hacemos P (x) = 0 y reescalamos los demas P (x) de tal forma que∑

x P (x) = 1, paraobtener una distribucion de probabilidad.

3.1.1. Expansion de Bahadur-Lazarsfeld

En [1] Bahadur construye una densidad multivariada binaria usando una base poli-nomios ortogonales. Para esta expansion usaremos las variables normalizadas.

En este caso, la funcion de peso P = P1 es el modelo de independencia, donde cadavariable xl pertenece a una distribucion Bernoulli con parametro pl. P1 corresponde ala forma mas sencilla de aproximar P (x), es decir,

P1(x) = P (x1) · · ·P (xd)

=∏d

l=1 P (xl)

si P (xl = 1) = pl entonces P (xl = 0) = 1− pl y

P1(x) =d∏l=1

plxl(1− pl)

1−xl .

Ahora, definimos

y(xl) =xl − pl√pl(1− pl)

con pl 6= 0, 1, es facil ver que V arP1(y(xl)) = 1 y EP1(y(xl)) = 0.Consideremos las funciones

ϕi(x) =

1 i = 0y(x1) i = 1...y(xd) i = dy(x1)y(x2) i = d+ 1...

y(xd−1)y(xd) i = d+ 1 + (d−1)d2

y(x1)y(x2)y(x3) i = d+ 2 + (d−1)d2

...y(x1) · · · y(xd) i = 2d − 1

y el producto interno 〈ϕi, ϕj〉P1 =∑

x ϕi(x)ϕj(x)P1(x), extendido al espacio generadopor {ϕi}, donde esta suma es sobre los 2d vectores binarios distintos.

Es facil ver que el conjunto {ϕi} es una base ortonormal, ya que

〈ϕi, ϕi〉P1 = EP1(ϕ2i (x)) = V arP1(ϕi(x)) = 1,


por otro lado, podemos factorizar

ϕi(x) =∏

l∈I y(xl)ϕj(x) =

∏l∈J y(xl).

Si i 6= j entonces

〈ϕi, ϕj〉P1 = EP1(ϕi∗(x))EP1(ϕ2k(x))EP1(ϕj∗(x)) = 0 ∗ 1 ∗ 0 = 0,

dondeϕk(x) =

∏l∈K y(xl)

ϕi∗(x) =∏

l∈I∗ y(xl)ϕj∗(x) =

∏l∈J∗ y(xl)

conK = I ∩ JI∗ = I \KJ∗ = J \K

Como vimos anteriormente, podemos expandir f(x) por

f(x) =2d−1∑i=0

aiϕi(x)

donde ai =∑

x f(x)ϕi(x)P1(x). Si tomamos f(x) = P (x)P1(x)

tenemos que

P (x) = P1(x)2d−1∑i=0

aiϕi(x) (3.1.2)

donde ai =∑

x ϕi(x)P (x) = E[ϕi(x)]. La expresion (3.1.2) es la expansion de Bahadur-Lazarsfeld.

3.1.2. Expansion de Rademacher-Walsh

Otra expansion que usa polinomios ortogonales es el modelo Rademacher-Walsh, lacual se estudia en [9]. En este caso, consideremos los polinomios

ϕi(x) =

1 i = 02x1 − 1 i = 1...2xd − 1 i = d(2x1 − 1)(2x2 − 1) i = d+ 1...

(2xd−1 − 1)(2xd − 1) i = d+ 1 + (d−1)d2

(2x1 − 1)(2x2 − 1)(2x3 − 1) i = d+ 2 + (d−1)d2

...(2x1 − 1) · · · (2xd − 1) i = 2d − 1


con el producto interno 〈ϕi, ϕj〉P0 = 12d

∑x ϕi(x)ϕj(x), extendido al espacio generado

por {ϕi}, donde esta suma es sobre los 2d vectores binarios distintos. En este casoestamos considerando como funcion de peso la distribucion uniforme, es decir P (x) =P0(x) = 1

2d . Note que se puede considerar P0 como un modelo de independencia endonde cada variable tiene distribucion uniforme. Nuevamente es facil ver que el conjunto{ϕi} es una base ortonormal.

Como en el caso anterior, podemos expandir P (x) por

P (x) = P0(x)∑2d−1

i=0 aiϕi(x)

= 12d

∑2d−1i=0 aiϕi(x)

(3.1.3)

donde ai =∑

x ϕi(x)P (x) = E[ϕi(x)]. La expresion (3.1.3) es la expansion de Radema-cher-Walsh.

3.1.3. Expansion de Kronmal-Ott-Tarter

La base usada en la expansion de Kronmal-Ott-Tarter fue propuesta en [23] paraun problema de clasificacion. En este caso consideremos las funciones

ϕi(x) = (−1)〈x,b(i)〉

donde b(i) es la expansion binaria de i, con 0 ≤ i ≤ 2d − 1, es decir, tenemos 2d

funciones ϕi. Tomemos el producto interno 〈ϕi, ϕj〉P0 = 12d

∑x ϕi(x)ϕj(x), donde la

suma es sobre todos los posibles x y la funcion de peso es la distribucion uniforme P0.Nuevamente, lo extendemos al espacio generado por {ϕi}. Si i 6= j, entonces para cadax existe x′ tal que (−1)〈x,b(i)+b(j)〉 = −(−1)〈x

′,b(i)+b(j)〉. De donde obtenemos que

1

2d

∑x

ϕi(x)ϕj(x) =

{12d

∑x(−1)2〈x,b(i)〉 = 1 si i = j

12d

∑x(−1)〈x,b(i)+b(j)〉 = 0 si i 6= j

es decir {ϕi} es una base ortonormal. Entonces podemos expandir P (x) como

P (x) = P0(x)∑2d−1

i=0 aiϕi(x)

= 12d

∑2d−1

i=0 aiϕi(x)(3.1.4)

con ai =∑

x ϕi(x)P (x) = E[ϕi(x)]. La expresion (3.1.4) es la expansion de Kronmal-Ott-Tarter.

En la practica, las expansiones de Bahadur-Lazarsfeld, Rademacher-Walsh y Kron-mal-Ott-Tarter seran truncadas para disminuir el numero de parametros ai que hayque estimar. En la literatura se propone un truncamiento de orden k en la cual seincluyen todas las combinaciones de interacciones de j variables con j ∈ {1...k}.


3.2. Minimizacion de Divergencias de Probabilidad

En esta seccion proponemos minimizar una divergencia de probabilidad especıficapara obtener analıticamente las expansiones con polinomios ortogonales y ası tener unaanalogıa con el Principio de Maxima Entropıa.

Al igual que en la Seccion 2.2 deseamos estimar P (x) que se aproxima a P (x) dada.Para esto necesitamos una medida de “cercanıa” entre distribuciones. En este caso,usaremos un caso particular de la divergencia de Csiszar. Este grupo de divergenciasfue propuesto en [6].

Definicion 3.2.1 Divergencia de Csiszar:

Dφ(P, P ) =∑x

P (x)φ

(P (x)

P (x)

)con φ convexa.

Se puede mostrar que Dφ(P, P ) ≥ φ(1) (consecuencia de la desigualdad de Jensen)y se cumple la igualdad si y solo si P (x) = P (x) para todo x.

En particular si tomamos φ(α) = − log(α) obtenemos la divergencia de Kullback-Leibler (o entropıa cruzada) y en este caso tenemos que φ(1) = 0.

Otra caso particular es cuando tomamos φ(α) = 1α−1, para la cual tambien φ(1) =

0. Denotamos con D2φ la divergencia de Csiszar usando φ(α) = 1

α− 1.

3.2.1. Minimizacion de la Divergencia D2φ

De igual forma que con el Principio de Maxima Entropıa buscamos P de tal formaque se cumplan algunas restricciones∑

x

P (x)ϕi(x) = ai ∀i ∈ {0, ...,m} (3.2.5)

donde la restriccion i = 0 normaliza P . Ademas, exigimos que P minimice D2φ(P, P )

con P dada. Debido a que

D2φ(P, P ) =

∑x P (x)

(P (x)

P (x)− 1)

=∑

xP 2(x)

P (x)− 1

(3.2.6)

nuestro problema es

Minimizar:∑

xP 2(x)

P (x)− 1

Sujeto a:∑

x P (x)ϕi(x) = ai(3.2.7)

con i = 0, ...,m.Con las siguientes propiedades veremos que podemos relacionar las expansiones de

la seccion anterior con la solucion del problema (3.2.7).


Propiedad 3.2.2 La solucion del problema de minimizar D2φ(P, P0) con restricciones

como en la ecuacion (3.2.5) donde {ϕi} son polinomios ortonormales pesados con P0,en caso de que exista, es de la forma:

P (x) =1

2d

m∑i=0

aiϕi(x)

y es equivalente a una distribucion expresada como una expansion Rademacher-Walsho Kronmal-Ott-Tarter.

Demostracion: Consideremos el problema (3.2.7), si suponemos que P = P0 es ladistribucion uniforme, entonces la minimizacion de (3.2.6) es equivalente a maximizar

I(P ) = 1−∑x

P 2(x),

donde I(P ) es el ındice de Gini. El ındice de Gini, al igual que la Entropıa, es unamedida de incertidumbre ([11]).

Supongamos que la solucion del problema (3.2.7) existe. Debido a que {ϕi} es unabase, se cumplen las condiciones necesarias de optimalidad para usar multiplicadoresde Lagrange, de donde, tenemos que minimizar:

L(P, λi) = −1 +∑x

P 2(x)−m∑i=0

λi

[∑x

P (x)ϕi(x)− ai

]

fijando x y derivando con respecto a P

∂

∂PL(P, λi) = 2P (x)−

m∑i=0

λiϕi(x)

igualando a 0 tenemos

P (x) =m∑i=0

λ∗iϕi(x)

donde λ∗i = λi/2. Sustituyendo la ecuacion anterior en las restricciones

ai =∑x

(m∑j=0

λ∗jϕj(x)

)ϕi(x) =

m∑j=0

λ∗j

(∑x

ϕj(x)ϕi(x)

).

Si tomamos {ϕi} como la base usada para la expansion de Rademacher-Walsh o en laexpansion Kronmal-Ott-Tarter, por la ortogonalidad de {ϕi(x)}, obtenemos que

λ∗i =ai2d,


de aquı

P (x) =1

2d

m∑i=0

aiϕi(x),

donde ai son los parametros del modelo, esto es, obtenemos la expansion correspondi-ente. �

Observacion 3.2.3 Note que la Propiedad 3.2.2 es equivalente a encontrar una dis-tribucion con el “Principio de Maximo Indice de Gini”. Una consecuencia de lo anteriores que obtenemos una construccion de la distribucion de maxima entropıa en base a laentropıa de Gini.

Propiedad 3.2.4 La solucion del problema de minimizar D2φ(P, P1) con restricciones

como en la ecuacion (3.2.5) donde {ϕi} son polinomios ortonormales pesados con P1,en caso de que exista, es de la forma:

P (x) = P1(x)m∑i=0

λiϕi(x)

y es equivalente a una distribucion expresada como una expansion de Bahadur-Lazars-feld.

Demostracion: Consideremos el problema de minimizacion de la ecuacion (3.2.7),supongamos que P (x) = P1(x) con P1(x) el modelo de independencia, ası tenemos que

Minimizar:∑

xP 2(x)P1(x)

− 1

Sujeto a:∑

x P (x)ϕi(x) = ai(3.2.8)

con i = 0, ...,m.Supongamos que existe la solucion del problema anterior, usando multiplicadores

de Lagrange se obtiene que P (x) es de la forma

P (x) = P1(x)m∑i=0

λiϕi(x) (3.2.9)

y substituyendo la ecuacion anterior en las restricciones tenemos

ai =∑x

(P1(x)

m∑j=0

λjϕj(x)

)ϕi(x).

En particular si tomamos el conjunto {ϕi} como la base de la expansion de Bahadur-Lazarsfeld obtenemos que

ai = λi,

es decir, la forma de la expansion de Bahadur-Lazarsfeld.�De las Propiedades 3.3.2 y 3.3.4 podemos generalizar lo siguiente:


Propiedad 3.2.5 Las expansiones de polinomios ortonormales {ϕi} bajo 〈·, ·〉P sepueden obtener al minimizar D2

φ(P, P ) con las restricciones dadas por {ϕi}.

Por otro lado, cabe mencionar que la unicidad de la solucion al problema (3.2.7) sepuede demostrar de forma analoga al caso de la divergencia de Kullback-Leibler.

3.3. Estimacion de los Parametros del Modelo

En las secciones anteriores, obtuvimos la forma generica de la distribucion comouna expansion de polinomios ortogonales. En esta seccion describimos un metodo enparticular para la estimacion de los parametros de esta forma generica. Veremos queuna forma facil para estimar los parametros es usando el metodo de momentos. Deeste modo, obtendremos la contraparte de la seccion 2.3, en donde usamos maximaverosimilitud para estimar los parametros de la distribucion de maxima entropıa.

El Metodo de Estimacion de Momentos ([18]) consiste en encontrar los paramet-ros del modelo de tal modo que los momentos teoricos sean iguales a los momentosempıricos.

Consideremos una distribucion aditiva, esto es de la forma:

P (x) = P (x)∑i

aiϕi(x),

con {ϕi} una base ortonormal pesada con P .Calculando el primer momento teorico para cada ϕi tenemos

E(ϕi(x)) =∑

x ϕi(x)P (x)

=∑

x ϕi(x)(P (x)

∑j ajϕj(x)

)= ai

Por otro lado, tenemos que el primer momento empırico para cada ϕi es

E(ϕi(x)) =1

n

n∑k=1

ϕi(xk),

donde xk es la observacion k de una muestra con n observaciones.Por la condicion de momentos queremos que

E(ϕi(x)) = E(ϕi(x)),

por tanto requerimos que ai = 1n

∑nk=1 ϕi(x

k). De esta forma obtenemos los parametrosbuscados.


3.4. Tipos de Errores

En la estimacion de distribuciones construidas con polinomios ortogonales podemosdistinguir dos tipos de errores: el error debido a estimar los parametros usando unamuestra y el error que se comete al truncar la expansion. Por esta razon, veremos comoestimar intervalos de confianza para los parametros y como obtener una cota para elerror de truncamiento.

3.4.1. Intervalos de Confianza para E(ϕi(x))

Veremos como estimar intervalos de confianza para los parametros E(ϕi(x)) de laexpansion de Rademacher-Walsh. Como sabemos se requiere estimar E(ϕi(x)), con xun vector aleatorio Bernoulli. En la estimacion siempre se genera un error debido almuestreo. Para obtener intervalos de confianza usaremos el metodo delta (vea [3]).

Tomamos una muestra de tamano n de una variable Bernoulli xl con parametroπl y sea πl =

Pxl

n. Ademas sabemos que si P (xl = 1) = πl, entonces E(xl) = πl,

E(x2l ) = πl y V ar(xl) = πl(1−πl). Sabemos que πl es asintoticamente normal. Usemos

la transformacion g(πl) = 2πl − 1, de donde tenemos que

√n ((2πl − 1)− (2πl − 1)) ∼ N (0, 4πl(1− πl)) . (3.4.10)

Con la ecuacion (3.4.10) podemos obtener los intervalos de confianza para E(ϕi(x))= g(πi) con i = 1, ..., d, esto es, intervalos de confianza para los parametros correspon-dientes a las funciones ϕi de la expansion Rademacher-Walsh en los cuales intervieneuna sola variable.

Por otro lado, generalizando a vectores aleatorios Bernoulli, sea g(πj1 , . . . , πjk) =∏jkl=j1

(2πl − 1) una funcion diferenciable, donde π = (πj1 , . . . , πjk) es asintoticamentenormal multivariada con media µ = (µj1 , . . . , µjk) y matriz de covarianza Σ/n. Tomem-os Φ = (Φj1 , . . . ,Φjk), donde

Φji =∂g

∂πji

∣∣∣∣π=bπ

entonces

√n (g(π)− g(π)) ∼ N (0,Φ′ΣΦ), (3.4.11)

con π = (πj1 , ..., πjk) los verdaderos parametros de la distribucion multivariada Bernoul-li y Σ = ππ′ una estimacion de la matriz de covarianza. Con la ecuacion (3.4.11) pode-mos obtener intervalos de confianza para los parametros correspondientes a la funcionesϕi en las cuales intervienen dos o mas variables.


3.4.2. Cota para el Error de Truncamiento en las ExpansionesOrtogonales

Ahora, nos enfocaremos en las distribuciones expresadas como una expansion depolinomios ortogonales. Encontraremos una cota para el error que se obtiene al truncardicha expansion. Es decir la funcion expresada de la forma:

f(x) =2d−1∑i=0

aiϕi(x)

la truncaremos por algo de la forma:

f(x) =m∑i=0

aiϕi(x),

donde las funciones {ϕi} son ortonormales con respecto a la funcion de peso P .Supongamos que dado ε > 0 pequeno, existen ai tales que |ai| < ε con i = m +

1, ..., d, podemos suponer que estos ai’s corresponden a los parametros de las funcionesϕi las cuales tienen interacciones de alto orden. Lo anterior bajo el supuesto de que elerror de estimacion es pequeno.

Ahora si truncamos la expansion, tenemos que el error esta dado por

‖f − f‖P = ‖∑2d−1

i=0 aiϕi −∑m

i=0 aiϕi‖P= ‖

∑2d−1i=m+1 aiϕi‖P

≤∑2d−1

i=m+1 |ai|‖ϕi‖P=

∑2d−1i=m+1 |ai|

< (2d − 1−m)ε= δ

donde δ = (2d − 1−m)ε es la cota del error.

Capıtulo 4

Simulacion de DistribucionesConstruidas con PolinomiosOrtogonales

En este capıtulo proponemos un algoritmo eficiente para muestrear datos de losmodelos aditivos estudiados en el Capıtulo 3. Para esto, veremos primero algunaspropiedades derivadas de la construccion de las bases usadas.

4.1. Calculo de Probabilidades Condicionales

Referimos con q(xl) tanto a y(xl) de la expansion de Bahadur-Lazarsfeld como a(2xl − 1) de la expansion de Rademacher-Walsh, ya que los resultados son analogos.

Cuando usemos la distribucion de peso P sera la respectiva a los polinomios usados.De esta manera, cada polinomio ortogonal ϕi, con i 6= 0, sera de la forma:

ϕi(x) =∏l∈I

q(xl) para I ⊂ {1, ..., d}, (4.1.1)

de donde vemos que ϕi es solamente una funcion de xI . A continuacion cuando es-cribiremos ϕi(x) nos referirnos a ϕi(xI).

Si (J, I∗) es una particion de I, entonces con ϕi(xJ , xI∗) se refiere a ϕi como funcionde xJ fijando xI∗ = xI∗ .

Lema 4.1.1 Si ϕi, con i 6= 0, es solamente una funcion de xI y (J, I∗) una particionde I, definimos

f(xJ) = ϕi(xJxI∗),

entonces existe j y una constante c tal que

f(xJ) = cϕj(x).

24

4. Simulacion de Distribuciones Construidas con Polinomios Ortogonales 25

Demostracion: Sabemos que i 6= 0, I∗ ⊂ I y J = I − I∗. Entonces

ϕi(x) =∏

l∈I q(xl)=

(∏l∈I∗ q(xl)

) (∏l∈J q(xl)

)= cϕj(x).

De donde tenemosϕi(x) = cϕj(x),

donde ϕj solo depende de xJ . �

Lema 4.1.2 La esperanza, con respecto a la distribucion de peso P , de cada ϕi, coni 6= 0, es igual a 0, es decir

EP (ϕi(x)) = 0

para i 6= 0.

Demostracion: Debido a que bajo P tenemos independencia, obtenemos

EP (q(xl)) =∑xl

q(xl)P (xl) = 〈1, q(xl)〉P = 0. (4.1.2)

entonces para i 6= 0

EP (ϕi(x)) =∑

x ϕi(x)P (x)=

∑x

(∏l∈I q(xl)

)P (x)

= 2d−1∏

l∈I(∑

xlq(xl)P (xl)

)y como I 6= ∅ (porque i 6= 0), por la ecuacion (4.1.2) tenemos que

EP (ϕi(x)) = 0.�

Ahora, veremos como son las probabilidades condicionales de una distribucion dela forma

P (x1, . . . , xd) = P (x)2d−1∑i=0

aiϕi(x) (4.1.3)

donde {ϕi} son ortonormales pesados con P .

Propiedad 4.1.3 La probabilidad condicional P (xk = 1|x1 = x1, . . . , xk−1 = xk−1) deuna distribucion de la forma (4.1.3) esta dada por:

P (x1 = x1, . . . , xk−1 = xk−1, xk = 1)(a0 +

∑i∈Sk

aiϕi(x1 = x1, . . . , xk1 = xk−1, xk = 1))

P (x1 = x1, . . . , xk−1 = xk−1),

(4.1.4)con Sk el conjunto de ındices de los polinomios {ϕi} que solo dependen de xA, conA ⊂ {1, . . . , k}.


Demostracion: Primero, encontraremos P (x1 = 1), para esto marginalizaremoscon respecto a las demas variables:

P (x1 = 1) =∑

x2,...,xdP (x1 = 1, x2, . . . , xd)

=∑

x2,...,xdP (x1 = 1, x2, . . . , xd)

∑i aiϕi(x1 = 1, x2, . . . , xd),

por el Lema 4.1.1 y el hecho que P es el producto de las distribuciones marginales,tenemos

P (x1 = 1) = P (x1 = 1) (a0 + a1q(x1 = 1)) +∑

x2,...,xdP (x2, ..., xd)

∑j cjϕj(x2, ..., xd)

= P (x1 = 1) (a0 + a1q(x1 = 1)) +∑

j cj∑

x2,...,xdϕj(x2, ..., xd)P (x2, ..., xd)

= P (x1 = 1) (a0 + a1q(x1 = 1)) +∑

j cjEP (ϕj(x2, ..., xd)) ,

por el Lema 4.1.2

P (x1 = 1) = P (x1 = 1) (a0 + a1q(x1 = 1)) . (4.1.5)

En general, se puede mostrar que la distribucion marginal P (x1 = x1, ..., xk−1 =xk−1, xk = 1) es

P (x1 = x1, . . . , xk−1 = xk−1, xk = 1)

(a0 +

∑i∈Sk

aiϕi(x1 = x1, . . . , xk−1 = xk−1, xk = 1)

),

con Sk el conjunto de ındices de los polinomios {ϕi} que solo dependen de xA, conA ⊂ {1, . . . , k}.

Ahora, sea x1 = x1, entonces buscamos P (x2 = 1|x1 = x1), marginalizando conrespecto a las demas variables tenemos

P (x2 = 1|x1 = x1) =P

x3,...,xdP (x1=x1,x2=1,x3,...,xd)

P (x1=x1)

=P

x3,...,xdP (x1=x1,x2=1,x3,...,xd)

Pi aiϕi(x1=x1,x2=1,x3,...,xd)

P (x1=x1),

por el Lema 4.1.1 tenemos

P (x2 = 1|x1 = x1) =P (x1=x1,x2=1)(a0+a1q(x1=x1)+a2q(x2=1)+a{1,2}q(x1=x1)q(x2=1))

P (x1=x1)

+P

j cjP

x3,...,xdϕj(x3,...,xd)P (x3,...,xd)

P (x1=x1)

=P (x1=x1,x2=1)(a0+a1q(x1=x1)+a2q(x2=1)+a{1,2}q(x1=x1)q(x2=1))

P (x1=x1)

+P

j cjEP (ϕj(x3,...,xd))

P (x1=x1)

donde a{1,2} se refiere al correspondiente coeficiente de ϕ en el cual solo intervienen lasvariables x1 y x2. Ahora, por el Lema 4.1.2

P (x2 = 1|x1 = x1) =P (x1=x1,x2=1)(a0+a1q(x1=x1)+a2q(x2=1)+a{1,2}q(x1=x1)q(x2=1))

P (x1=x1).


En general, tenemos que P (xk = 1|x1 = x1, ..., xk−1 = xk−1) es

P (x1 = x1, . . . , xk−1 = xk−1, xk = 1)(a0 +

∑i∈Sk

aiϕi(x1 = x1, . . . , xk−1 = xk−1, xk = 1))

P (x1 = x1, . . . , xk−1 = xk−1),

con Sk el conjunto de ındices de los polinomios {ϕi} que solo dependen de xA, conA ⊂ {1, . . . , k}.�

Observacion 4.1.4 Para evaluar la ecuacion (4.1.4), formamos el vector x = (x1, . . . ,xk, 1), evaluamos cada ϕj, con j ∈ Sk+1, donde Sk+1 es el conjunto de ındices depolinomios ϕ que solo dependen de xA variables con A ⊂ {1, ..., k + 1}. Formamos elvector ϕ(k+1) = (1, {ϕj(x)}j∈Sk+1

) y el vector de parametros a(k+1) = (a0, {aj}j∈Sk+1),

de forma analoga formamos ϕ(k) y a(k). Ası, solo requerimos

θk+1 =〈a(k + 1), ϕ(k + 1)〉P (xk+1 = 1)

〈a(k), ϕ(k)〉. (4.1.6)

4.2. Algoritmo para Simulacion

En esta seccion daremos un algoritmo para simular datos de una distribucion de laforma (4.1.3).

Requerimos encontrar cada parametro θi con i = 1, . . . , d de la distribucion Bernoul-li de cada componente del vector aleatorio x = (x1, ..., xd), dado los valores de lasvariables anteriores x<i. Para ello usaremos el resultado de la Proposicion 4.1.3.

Para encontrar el primer parametro θ1 tenemos que encontrar P (x1 = 1) de acuerdoa la ecuacion (4.1.5). Despues, para encontrar θk = P (xk = 1|x1 = x1, ..., xk−1 = xk−1)usaremos la ecuacion (4.1.6).

De lo anterior tenemos el siguiente algoritmo:

Algoritmo:θ = θ1, usando la ecuacion (4.1.5)Para i = 1 hasta i = d− 1

Genera xi de una distribucion Bern(θ)Calcula θi+1 = P (xi+1 = 1|x<i = x<i), usando la ecuacion (4.1.6)θ = θi+1

4.3. Complejidad del Algoritmo

En esa seccion analizaremos brevemente la complejidad del algoritmo de simulacionde la seccion anterior. Para esto haremos el supuesto de que la expansion de la dis-tribucion es truncada.


Como mencionamos anteriormente, la distribucion de forma (4.1.3) se truncara eninteracciones de orden k, es decir, se incluyen todos los polinomios ϕi(x) =

∏l∈I q(xl)

donde I tiene cardinalidad menor o igual a k.Se puede ver que en el paso i, con i < k, el conjunto Si+1 tiene 2i+1 elementos, y

que Si tiene 2i elementos. Por tanto, el producto punto de 〈a(i+ 1), ϕ(i+ 1)〉 tiene 2i

terminos mas que el producto punto 〈a(i), ϕ(i)〉.Por otro lado, se puede ver que si i ≥ k (pero i < d), el numero de elementos

nuevos, con respecto al paso anterior, en el producto punto 〈a(i+ 1), ϕ(i+ 1)〉 es:

k∑j=1

((i+ 1j

)−(ij

)),

por el triangulo de pascal tenemos que

k∑j=1

((i+ 1j

)−(ij

))=

k∑j=1

(i

j + 1

).

Por tanto, la complejidad del algoritmo esta dada por

Complejidad =∑k−1

i=1 2i +∑d−1

i=k

∑kj=1

(i

j − 1

)=

∑k−1i=1 2i +

∑kj=1

∑d−1i=k

(i

j − 1

)=

∑k−1i=1 2i +

∑kj=1

(∑d−1i=0

(i

j − 1

)−∑k−1

i=0

(i

j − 1

))=

∑k−1i=1 2i +

∑kj=1

(dj

)−∑k

j=1

∑k−1i=0

(i

j − 1

)≤ O(2k) + kO(dk)−O(2k),

de donde decimos que la complejidad del algoritmo es de orden polinomial.

Capıtulo 5

Generalizacion y Unificacion deDistribuciones Construidas conPolinomios Ortogonales

En este capıtulo generalizaremos, la construccion de distribuciones vistas en elCapıtulo 3, del caso multivariado Bernoulli al caso multivariado discreto finito. Paraesto, utilizaremos los polinomios ortogonales clasicos discretos en una variable vistosen [25]. Veremos que la expansiones de Rademacher-Walsh y Bahadur-Lazarsfeld soncasos particulares de nuestras generalizaciones; elaboramos explıcitamente la expansionpara el caso de tres y cuatro valores en cada variable.

5.1. Polinomios Ortogonales Clasicos Discretos en

una Variable

En esta seccion describiremos propiedades basicas conocidas sobre polinomios ortog-onales, ası como la clasificacion de los polinomios ortogonales discretos en una variable,(ver [25]).

Definicion 5.1.1 Un sistema ortogonal de polinomios discretos {Qn(x), x, n ∈ N},donde Qn(x) es un polinomio discreto de grado n y N = N o N = {0, 1, 2, ..., N}, esun sistema ortogonal con respecto a una funcion de peso ρ(x) > 0 si se cumple:∑

x

Qn(x)Qm(x)ρ(x) = d2nδnm n,m ∈ N ,

donde x ∈ N , ρ es la funcion de peso y dn constantes distintas de cero. Si dn = 1 elsistema es ortonormal.

Todos los polinomios ortogonales {Qn(x)} satisfacen una relacion de recurrencia detres terminos:

−xQn(x) = bnQn+1(x)− (bn + cn)Qn(x) + cnQn−1(x),

29

5. Distribuciones Construidas con Polinomios Ortogonales 30

Figura 5.1: Polinomios Ortogonales Discretos Clasicos

donde bn y cn estan en funcion de n, ademas Q−1(x) = 0 y Q0(x) = 1Los polinomios ortogonales clasicos discretos tienen como funcion de peso distribu-

ciones de probabilidad discretas conocidas derivadas de la distribucion hipergeometrica.Cabe mencionar que la distribucion discreta uniforme tambien es un caso particular dela distribucion hipergeometrica. La clase mas general de estos polinomios son los llama-dos polinomios de Hahn, que tienen como caso particular los polinomios de Meixner,Krawtchouk y Charlier. Vea Figura 5.1. En el Cuadro 5.1 se muestran las principalescaracterısticas de los polinomios ortogonales discretos clasicos (vea [25]), donde usamosla siguiente notacion:

(a)n =

{1, si n = 0,a(a+ 1)...(a+ n− 1), si n = 1, 2, ....

La N -suma parcial de una serie hipergeometrica definimos como

pFq(a1, ..., ap; b1, ..., bq; z) =N∑j=0

(a1)j...(ap)j(b1)j...(bq)j

zj

j!

Los polinomios ortogonales discretos estan definidos como:

Hahn: Qn(x;α, β,N) = 3F2(−n, n+ α+ β + 1,−x;α+ 1,−N ; 1)

Charlier: Cn(x;µ) =∑n

r=0(−1)n−r(nr

)r!µ−r

(xr

)Meixner: Mn(x; γ, µ) = 2F1(−n,−x; γ; 1− µ−1)

Krawtchouk: Kn(x; p,N) =∑n

r=0(−1)n−r(N − xn− r

)(xr

)pn−r(1− p)r

Nos enfocaremos a los polinomios de Hahn y de Krawtchouk ya que tienen soportefinito.


Hahn Charlier Meixner KrawtchoukNotacion Qn(x; α, β, N) Cn(x; µ) Mn(x; γ, µ) Kn(x; p, N)Restricciones µ > 0 0 < µ < 1, γ > 0 0 < p < 1Soporte {0, 1, ..., N} {0, 1, ...} {0, 1, ...} {0, 1, ..., N}

Peso (ρ(x))

„Nx

«(α+1)x(β+1)N−x

(α+β+2)Ne−µµx/x! (1 − µ)γµx(γ)x/x!

„Nx

«px(1 − p)N−x

d2n

(α+β+1)(β+1)n(N+α+β+2)n Nn

!(2n+α+β+1)(α+1)n(α+β+1)n

µ−nn! n!µ−n/(γ)n n!(−1)n ((1− p)p)n /(−N)n

Distribucion Hipergeometrica Poisson Binomial negativa Binomial

Cuadro 5.1: Principales caracterısticas de los polinomios ortogonales discretos

Los primeros tres polinomios de Hahn, para 0 < p < 1 y x = 0, ..., N , son

Q0(x;α, β,N) = 1

Q1(x;α, β,N) = 1− (2+α+β)x(1+α)N)

Q2(x;α, β,N) = 1− 2(3+α+β)x(1+α)N

+ (3+α+β)(4+α+β)(1−x)x(1+α)(2+α)(1−N)N

Si α = β = 0 la funcion de peso correspondiente es la distribucion uniforme.Los primeros tres polinomios de Krawtchouk, para 0 < p < 1 y x = 0, ..., N , son

K0(x; p,N) = 1K1(x; p,N) = −Np+ xK2(x; p,N) = 1

2(N2p2 + x(2p+ x− 1)−Np(p+ 2x))

5.2. Construccion de la Base para la Distribucion

En esta seccion, generalizaremos la construccion de las distribuciones vistas en elcapıtulo 3. Recordemos que si tenemos un espacio de funciones y existe un productointerno 〈·, ·〉P , donde P es una funcion de peso, y una base ortonormal {ϕi}i∈A dondeA es un conjunto finito de ındices. Entonces podemos expandir cualquier funcion f eneste espacio por

f =∑i∈A

〈f, ϕi〉Pϕi. (5.2.1)

Para generalizar las expansiones vistas en el capıtulo 3, consideremos los polinomioortonormales de Hahn y de Krawtchouk de la seccion 5.1, ambos los denotaremos con{On(x)}. Construiremos la base {ϕi}i∈A de la siguiente manera

ϕi(x) =d∏l=1

Osil(xl) para i = 0, ..., (N + 1)d − 1 (5.2.2)

donde si es un vector de dimension l con sil ∈ {0, ..., N}, es decir, para cada variablexl tomamos algun polinomio ortonormal Ok con k ∈ {0, ..., N}.

Sabemos que las correspondientes funciones de peso para los polinomios de Hahny de Krawtchouk son las distribuciones hipergeometrica y binomial respectivamente,


ambas denotadas con ρ(x). Consideremos como funcion de peso P el modelo de in-dependencia entre cada variable de la distribucion de peso correspondiente ρ(xl), esdecir

P (x) =d∏l=1

ρ(xl). (5.2.3)

Tomemos como producto punto, entre los elementos n y m de la base, la funcion:

〈ϕn(x), ϕm(x)〉P =∑x

ϕn(x)ϕm(x)P (x) (5.2.4)

donde se suma sobre todos los posibles x.Ahora, demostraremos la ortonormalidad entre la base formada por {ϕi}. Recuerde

que los polinomios On estan normalizados.

Propiedad 5.2.1 El conjunto {ϕi}, con i = 0, ..., (N + 1)d − 1 construido de acuerdoa la ecuacion (5.2.2), es ortogonal con respecto a la funcion de peso construida deacuerdo a la ecuacion (5.2.3), es decir:∑

x

ϕn(x)ϕm(x)P (x) = δnm, (5.2.5)

con n y m en {0, ..., (N + 1)d − 1}

Demostracion:

〈ϕn, ϕm〉P =∑

x ϕn(x)ϕm(x)P (x)

=∑

x

(∏dl=1Osn

l(xl))(∏d

l=1Osml(xl))(∏d

l=1 ρ(xl))

=∑

x

(∏dl=1Osn

l(xl)Osm

l(xl)ρ(xl)

)=

∏dl=1

(∑xlOsn

l(xl)Osm

l(xl)ρ(xl)

)por la ortonormalidad de los polinomios tenemos

〈ϕn, ϕm〉P =∏d

l=1 δsnlδsm

l

=

{1 si snl = sml para toda l0 si existe l′ tal que snl′ 6= sml′

= δnm.�

Ahora que tenemos la base {ϕi} y el producto punto definido, podemos expandirf(x) por

f(x) =

(N+1)d−1∑i=0

aiϕi(x)


donde ai =∑

x f(x)ϕi(x)P (x). Si tomamos f(x) = P (x)

P (x)tenemos que

P (x) = P (x)

(N+1)d−1∑i=0

aiϕi(x) (5.2.6)

donde ai =∑

x ϕi(x)P (x) = E[ϕi(x)].

5.3. Minimizacion de la Divergencia D2φ

En esta seccion veremos que el resultado de minimizar la divergencia D2φ se conserva

para nuestra generalizacion.Buscamos P de tal forma que se cumplan las restricciones∑

x

P (x)ϕi(x) = ai ∀i ∈ {0, ...,m} (5.3.7)

donde la restriccion i = 0 normaliza P . Ademas P debe minimizar D2φ(P, P ) con P

dada. Es decir,

D2φ(P, P ) =

∑x P (x)

(P (x)

P (x)− 1)

=∑

xP 2(x)

P (x)− 1

(5.3.8)

por tanto nuestro problema es

Minimizar:∑

xP 2(x)

P (x)− 1

Sujeto a:∑

x P (x)ϕi(x) = ai(5.3.9)

con i = 0, ...,m.

Propiedad 5.3.1 La solucion del problema de minimizar D2φ(P, P ) con restricciones

como en la ecuacion (5.3.7) donde {ϕi} son polinomios ortonormales pesados con P ,en caso de que es exista, es de la forma:

P (x) = P (x)m∑i=0

λiϕi(x)

y es equivalente a una distribucion expresada como una expansion de la forma (5.2.6).

Demostracion: Analoga a la demostracion de la Propiedad 3.2.4.�

5.4. Expansion de Bahadur-Lazarsfeld y expansion

de Rademacher-Walsh como casos particulares

En esta seccion veremos que las expansiones de Bahadur-Lazarsfeld y de Rademacher-Walsh son casos particulares de la expansion de la forma (5.2.6).


5.4.1. Expansion de Bahadur-Lazarsfeld

Consideremos N = 1 y pl el parametro de la distribucion binomial correspondientepara l = 1, ..., d. Observe que una distribucion Bin(pl, 1), corresponde a una distribu-cion Bern(pl). Entonces los polinomios de Krawtchouk ortonormalizados son

K0(xl; pl, 1) = 1K1(xl; pl, 1) = xl−pl√

pl(1−pl)

y la funcion de peso es ρ(xl) = pxll (1 − pl)

1−xl . Por tanto, la base para la expansion(5.2.6) es:

ϕi(x) =

∏dl=1 1 i = 0

( x1−p1√p1(1−p1)

)(∏d

l=2 1)

i = 1

...(∏d−1l=1 1

)( xd−pd√

pd(1−pd)) i = d

( x1−p1√p1(1−p1)

)( x2−p2√p2(1−p2)

)(∏d

l=3 1)

i = d+ 1

...(∏d−2l=1 1

)( xd−1−pd−1√

pd−1(1−pd−1))( xd−pd√

pd(1−pd)) i = d+ 1 + (d−1)d

2

( x1−p1√p1(1−p1)

)( x2−p2√p2(1−p2)

)( x3−p3√p3(1−p3)

)(∏d

l=4 1)

i = d+ 2 + (d−1)d2

...( x1−p1√

p1(1−p1)) · · · ( xd−pd√

pd(1−pd)) i = 2d − 1

y la funcion de peso P (x) =∏d

l=1 pxll (1 − pl)

1−xl . Por tanto, obtenemos la expansionde Bahadur-Lazarsfeld.

5.4.2. Expansion de Rademacher-Walsh

Consideremos N = 1 y αl = βl = 0 los parametros de la distribucion hipergeometri-ca para l = 1, ..., d, entonces los polinomios de Hahn ortonormalizados son

Q0(xl; 0, 0, 1) = 1Q1(xl; 0, 0, 1) = 2xl − 1


y la funcion de peso es ρ(xl) = 1/2. Por tanto, la base para la expansion (5.2.6) es:

ϕi(x) =

∏dl=1 1 i = 0

(2x1 − 1)(∏d

l=2 1)

i = 1...(∏d−1

l=1 1)

(2xd − 1) i = d

(2x1 − 1)(2x2 − 1)(∏d

l=3 1)

i = d+ 1...(∏d−2

l=1 1)

(2xd−1 − 1)(2xd − 1) i = d+ 1 + (d−1)d2

(2x1 − 1)(2x2 − 1)(2x3 − 1)(∏d

l=4 1)

i = d+ 2 + (d−1)d2

...(2x1 − 1) · · · (2xd − 1) i = 2d − 1

y la funcion de peso P (x) = 1/2d. Por tanto, obtenemos la expansion de Rademacher-Walsh.

5.5. Expansiones para N = 2 y N = 3

En esta seccion veremos el analogo a las expansiones de Bahadur-Lazarsfeld yRademacher-Walsh para el caso en que cada xl ∈ {0, 1, 2} y xl ∈ {0, 1, 2, 3}, conl = 1, ..., d.

5.5.1. Analogo a la expansion de Bahadur-Lazarsfeld

Para el caso N = 2, los polinomios de Krawtchouk ortonormalizados en una variablexl, con parametro pl de la distribucion binomial, para l = 1, ..., d son:

K0(xl; pl, 2) = 1

K1(xl; pl, 2) =√

2(xl − 2pl)/√pl(1− pl)

K2(xl; pl, 2) = (x2l − xl(1 + 2pl) + 2p2

l )/2pl√

1− pl.

La base para la expansion la construimos de acuerdo a la ecuacion (5.2.2) y lafuncion de peso de acuerdo a la ecuacion (5.2.3), ası obtenemos que la expansion es dela forma (5.2.6).

Para el caso N = 3, los polinomios de Krawtchouk ortonormalizados en una variablexl, con parametro pl de la distribucion binomial, para l = 1, ..., d son:

K0(xl; pl, 3) = 1

K1(xl; pl, 3) =√

3(xl − 3pl)/√pl(1− pl)

K2(xl; pl, 3) =√

3(x2l − xl(1 + 4pl) + 6p2

l )/2pl√

1− plK3(xl; pl, 3) = (x3 − x2(3− 3pl) + x(2 + 3pl + 6p2

l )− 6p3l )/6p

√pl(1− pl).


La base para la expansion la construimos de acuerdo a la ecuacion (5.2.2) y lafuncion de peso de acuerdo a la ecuacion (5.2.3), ası obtenemos que la expansion es dela forma (5.2.6).

Los siguientes comandos de Mathematica se usaron para encontrar los polinomiosde Krawtchouk ortonormalizados:

p = p;q = 1− p;For[n = 0, n <= N,

Print[Factor[∑n

k=0((−1)(n−k))∗((∏n−k−1

i=0 (N − x− i))/(n− k)!

)∗((∏k−1

i=0 (x− i))

/k!) ∗ ((p)(n− k)) ∗ (q)k]/Sqrt[n!(−1)n(qp)n/Pochhammer[−N, n]]];n+ +]

5.5.2. Analogo a la expansion de Rademacher-Walsh

Para el caso N = 2, los polinomios de Hahn ortonormalizados en una variable xl,con parametros αl = βl = 0 de la distribucion hipergeometrica, para l = 1, ..., d son:

Q0(xl; 0, 0, 2) = 1

Q1(xl; 0, 0, 2) =√

3(1− xl)/√

2

Q2(xl; 0, 0, 2) = (3x2l − 6xl + 1)/

√2.

La base para la expansion la construimos de acuerdo a la ecuacion (5.2.2) y la fun-cion de peso de acuerdo a la ecuacion (5.2.3) es la distribucion uniforme , ası obtenemosque la expansion es de la forma (5.2.6).

Para el caso N = 3, los polinomios de Hahn ortonormalizados en una variable xl,con parametros αl = βl = 0 de la distribucion hipergeometrica, para l = 1, ..., d son:

Q0(xl; 0, 0, 3) = 1

Q1(xl; 0, 0, 3) = (3− 2xl)/√

5Q2(xl; 0, 0, 3) = x2

l − 3xl + 1

Q3(xl; 0, 0, 3) = (10x3 + 45x2 − 47x+ 3)/3√

5.

La base para la expansion la construimos de acuerdo a la ecuacion (5.2.2) y la fun-cion de peso de acuerdo a la ecuacion (5.2.3) es la distribucion uniforme, ası obtenemosque la expansion es de la forma (5.2.6).

Los siguientes comandos de Mathematica se usaron para encontrar los polinomiosde Hahn ortonormalizados:

a = 0;b = 0;For[n = 0, n <= N,

Print[Simplify[ Sum[(Pochhammer[−n, j]Pochhammer[n+ a+ b+ 1, j]


Pochhammer[−x, j])/(Pochhammer[a+ 1, j]Pochhammer[−N, j]j!), {j, 0, N}]]/Sqrt[(a+ b+ 1)Pochhammer[b+ 1, n]Pochhammer[N + a+ b+ 2, n]/(N !Pochhammer[a+ 1, n]Pochhammer[a+ b+ 1, n](2n+ a+ b+ 1)/(n!(N − n)!))]];

n+ +]

Capıtulo 6

Experimentos

En este capıtulo, mostramos algunos resultados de experimentos usando los modelosde distribuciones de probabilidad estudiados en los capıtulos 2 y 3. Para esto, usaremosdatos sinteticos y reales. Ademas, aplicaremos la expansion de Bahadur-Lazarsfelda EDAs, usando el algoritmo de muestreo propuesto en el capıtulo 4. Por ultimo,proponemos usar polinomios ortogonales en un problema de clasificacion.

6.1. Resultados

En los capıtulos 2 y 3, vimos modelos de distribuciones para datos multivariadosBernoulli. En esta seccion hacemos una comparacion experimental del comportamientode dichos modelos. Primero, para poder formarnos una idea de la “cercanıa” entrela distribucion estimada y la verdadera distribucion usaremos datos sinteticos de loscuales conoceremos la verdadera distribucion. Posteriormente, usaremos bases de datosreales y compararemos los resultados calculando la log-verosimilitud en datos de pruebaajenos a los datos de entrenamiento.

6.1.1. Datos Sinteticos

Para comparar la “distancia” entre la distribucion estimada con los modelos estu-diados y la verdadera distribucion, usaremos la divergencia de Kullback-Leibler. Gen-eramos datos sinteticos provenientes de dos distribuciones distintas: una distribucionaditiva y una exponencial de la siguiente forma

Distribucion Exponencial PExp(x1, ..., x10) = 1ZExp

e0.000001x2+1.3x3x8+0.08x1x5

Distribucion Aditiva PAd(x1, ..., x10) = 1ZAd

10.5x6x3 + 3.1x4 + 1.3x1x7 + 2.0

donde ZExp y ZAd son las respectivas constantes de normalizacion. Usamos una muestrade tamano n = 1000.

38

6. Experimentos 39

Modelo Distribucion Exponencial Distribucion AditivoIndependencia 0.0431 0.0571

Bahadur-Lazarsfeld 0.0039 0.0208Rademacher-Walsh 0.0061 0.0087Maxima Entropıa 0.0038 0.0208

Cuadro 6.1: “Distancia” entre la verdadera distribucion y la estimada.

Para estimar los modelos de Bahadur-Lazarsfeld, Rademacher-Walsh y MaximaEntropıa usamos 10 terminos, los mas significativos dados por los conjuntos de obje-tos frecuentes. Usamos solo 10 terminos para que sea “comparable” con el numero deparametros que se estiman en el modelo de independencia. En el Cuadro 6.1 pode-mos observar que la expansion de Bahadur-Lazarsfeld tiene comportamiento similaral modelo de maxima entropıa, pero menor costo computacional. Notamos que parala distribucion exponencial los modelos antes mencionados tienen el mejor ajuste; sinembargo, para la distribucion aditiva, la expansion de Rademacher-Walsh es mejor, locual es de esperarse por el tipo de modelo.

6.1.2. Datos Reales

Con los siguiente resultados compararemos los modelos aditivos y los modelos mul-tiplicativos vistos con anterioridad. Usaremos tres bases de datos.

Datos:

DNA (base de datos Statlog) son 180 caracterısticas binarias; 2000 datos sonusados para entrenamiento y 1186 para prueba. Los datos pertenecen a 3 clasesdistintas, sin embargo hacemos caso omiso de esta caracterıstica (como en [2]).

Coil data (datos usados en [29]) son caracterısticas binarias de tamano 86 coninformacion sobre compradores (caracterısticas socio-demograficas y de compra).Tenemos una muestra de 5822, dos terceras partes de la muestra son usadas comoconjunto de entrenamiento y el resto como conjunto de prueba.

CIMAT-web (datos usados en [8]) son caracterısticas binarias de dimension 14 coninformacion de si se visito o no un grupo de paginas web del CIMAT; tenemosun conjunto de 16876 datos, de los cuales tomamos dos terceras partes comoconjunto de entrenamiento y el resto como conjunto de prueba.

Modelos comparados:

Modelo de independencia.

Expansion de Rademacher-Walsh de orden 2, ası como con las interacciones dadaspor los conjuntos de objetos frecuentes (o.f.).

6. Experimentos 40

Modelo ADN Coil CIMAT-webIndependencia 100.3792 21.25577 5.525132R-W orden 2 117.7757 51.45499 10.42656R-W conjuntos o.f. 121.0486 60.43276 8.787753B-L orden 2 96.79482 18.29358 5.303911B-L conjuntos o.f. 100.0433 20.27717 5.449062ME conjuntos o.f. 100.0785 20.15543 5.414877

Cuadro 6.2: log-verosimilitud negativa del conjunto de prueba.

Expansion de Bahadur-Lazarsfeld de orden 2, ası como con las interacciones dadaspor los conjuntos de objetos frecuentes (o.f.).

Modelo de maxima entropıa usando los conjuntos de objetos frecuentes (o.f.).

Los parametros usados en el algoritmo para obtener los conjuntos de objetos fre-cuentes son:

DNA, soporte=0.2 y longitud maxima del objeto frecuente=3.

Coil data, soporte=0.45 y longitud maxima del objeto frecuente=3.

CIMAT-web, soporte=0.03 y longitud maxima del objeto frecuente=3.

En el Cuadro 6.2 se muestra la log-verosimilitud negativa del conjunto de pruebabajo el modelo estimado con el conjunto de entrenamiento. Podemos observar que delos modelos basados en polinomios ortogonales obtenemos el mejor resultado con laexpansion de Bahadur-Lazarsfeld de orden 2. Tambien observamos que los resultadoscon maxima entropıa son muy similares a los resultados con Bahadur-Lazarsfeld usandoel mismo conjunto de objetos frecuentes, a pesar de que uno es un modelo aditivo yel otro multiplicativo. Sin embargo, el tiempo de computo es menor en la expansionBahadur-Lazarsfeld que en maxima entropıa.

Por ultimo, cabe mencionar que para estimar los parametros de un modelo demaxima entropıa se maximiza la verosimilitud, lo cual le favorece porque usaremosla log-verosimilitud negativa como criterio de comparacion. En cambio, recuerde quelas expansiones que usan polinomios ortogonales usan el metodo de momentos paraestimar parametros.

6.2. Algoritmos con Estimacion de Distribucion

En esta seccion, usaremos el metodo de EDAs para encontrar el optimo de dosfunciones: One-Max y Plateau las cuales son usadas en [27] y [19]. En el paso de EDAdonde se estima la distribucion de probabilidad usaremos la Expansion de Bahadur-Lazarsfeld y comparamos los resultados obtenidos con un EDA que usa el modelo

6. Experimentos 41

(A) (B)

(C)

Figura 6.1: (A) Comparacion de EDAs en funcion del orden de la expansion, (B)Comparacion de EDAs en funcion del uso de Conjuntos de Objetos Frecuentes, (C)Comparacion de EDA y Algoritmo Genetico (imagen tomada de [27]).

6. Experimentos 42

de independencia para estimar la distribucion de probabilidad (UMDA). Comparamoscontra el modelo UMDA, porque en [27] y [19] se reporta que con este EDA se obtienenlos mejores resultados. En cambio, para Plateau no se reporta un cambio significativo enel desempeno de las distintas versiones de EDAs usadas en [19]. Ademas cabe mencionarque, por la sencillez del modelo, en la estimacion de la distribucion en UMDA notenemos parametros que ajustar.

En los experimentos siguientes usamos la correccion de Laplace vista en [27]. Estoes equivalente a aumentar el conjunto de observaciones de las cuales se va a estimar ladistribucion con dos observaciones: el vector x = (1, ..., 1) y el vector x = (0, ..., 0), dedonde la probabilidad marginal estimada ya no puede ser 0 o 1.

6.2.1. Resultados con la funcion One-Max

La funcion One-Max regresa el numero de unos en un vector x = (x1, ..., xd), esdecir:

fOneMax(x) =d∑i=1

xi,

con xi ∈ {0, 1}. Sabemos que el optimo esta en xOpt = (1, ..., 1).En las Figuras 6.1 (A) y (B) se siguio el tipo de experimentos realizados en [27].

La Figura 6.1 (C) es tomada de [27] como referencia. Usamos los mismos parametros:10 corridas independientes; tamano de poblacion M = 10 ∗ d; tamano de muestraN = M/2 y como condicion de paro la obtencion del optimo. Podemos observar enla Figura 6.1 (A) que la Expansion de Bahadur-Lazarsfeld de orden 1 coincide conel modelo de independencia como se reporta en [9]. Por otro lado, sabemos que en lafuncion fOneMax las variables son independientes, sin embargo si usamos una expansionen la cual intervienen hasta interacciones de orden 4 nuestro algoritmo encuentra enoptimo en menos generaciones. Como sabemos, una expansion de orden 4 implicamuchos mas parametros para estimar que en el modelo de independencia, lo cual hacemas costoso el algoritmo.

Por lo anterior, en vez de tomar todas las interacciones de 4 variables usamoslas interacciones que nos dan los conjuntos de objetos frecuentes. En la Figura 6.1(B) ponemos notar que los resultados son similares pero con un costo computacionalmenor.

En la Figura 6.2 (A) reproducimos el experimento para el analisis de velocidad deconvergencia de [19]. La velocidad de convergencia es definida como

v(t) = ln

√fmax(0)

fmax(t),

donde fmax(i) es el mejor valor de la funcion f en el i−esimo paso. En este caso, hace-mos 50 corridas independientes del algoritmo y los demas parametros continuan comoen los experimentos anteriores. En este experimento solo agregamos d coeficientes mas

6. Experimentos 43

(A) (B)

Figura 6.2: (A) Promedio de la Velocidad de Convergencia, (B) Probabilidad del opti-mo.

de interacciones de tamano 4 y podemos ver que la velocidad de convergencia es liger-amente mejor con nuestra propuesta. Por ultimo, en la Figura 6.2 (B) reportamos laprobabilidad del optimo a traves de las generaciones, en este caso, hicimos 10 corridasindependientes y mostramos un curva para cada caso. Podemos observar que la proba-bilidad del optimo crece mas rapido con la expansion de Bahadur-Lazarsfeld de orden4.

6.2.2. Resultados con la funcion Plateau

En la funcion Plateau se requiere que d = 3 ×m. Definimos la funcion auxiliar gcomo

g(x1, x2, x3) =

{1 si x1 = x2 = x3 = 10 en otro caso

Ahora, definimos la funcion Plateau como

fPlateau(x) =m∑i=1

g(x3i−2, x3i−1, x3i).

El optimo de esta funcion se localiza en x = (1, ..., 1).En las Figuras 6.3 (A) y (B) se repitieron los experimentos realizados para la funcion

fOneMax. Nuevamente usamos los siguientes parametros: 10 corridas independientes;tamano de poblacion M = 10 ∗ d; tamano de muestra N = M/2 y como condicionde paro la obtencion del optimo. Podemos observar, en la Figura 6.3 (A), que la Ex-pansion de Bahadur-Lazarsfeld de orden 4 requiere un numero menor en promedio degeneraciones para encontrar el optimo. Al igual que con la funcion de prueba anterior,sabemos que una expansion de orden 4 tiene muchos mas parametros para estimar queen el modelo de independencia, lo cual hace mas costoso el algoritmo. Por lo anterior,

6. Experimentos 44

(A) (B)

(C)

Figura 6.3: (A) Comparacion de EDAs en funcion del orden de la expansion, (B)Comparacion de EDAs en funcion del uso de Conjuntos de Objetos Frecuentes, (C)Comparacion de EDAs en funcion del valor del parametro de regularizacion.

6. Experimentos 45

(A) (B)

Figura 6.4: (A)Promedio de Velocidad de Convergencia, (B) Probabilidad del optimo

en vez de tomar todas las interacciones de 4 variables, usamos las interacciones quenos dan los conjuntos de objetos frecuentes. En la Figura 6.3 (B) podemos notar quelos resultados son similares pero con un menor costo computacional. Para la funcionPlateau se hizo un nuevo experimento, se implemento una variante mas, donde se usaregularizacion en la estimacion de la distribucion, esto es:

P (i)(x) = (1− α)P (i−1)(x) + αP (i)(x)

donde P (i) denota la estimacion de la distribucion usando i−esima generacion. Esta ideaes tomada de la version PBIL de EDAs (vea [19]). Los resultados de este experimentoson mostrados en la Figura 6.3 (C). Notemos que la calidad de los resultados dependendel ajuste del parametro α.

Por otro lado, realizamos el experimento para el analisis de velocidad de convergen-cia para fPlateau; este experimento es reportado en [19], podemos observar resultadossimilares, ya que en la velocidad de convergencia todas las versiones de EDAs tienenel mismo comportamiento para dicha funcion (Figura 6.4 (A)).

Por ultimo, en la Figura 6.4 (B) reportamos la probabilidad del optimo en cadageneracion. Nuevamente hacemos 10 corridas independientes; sin embargo, no prome-diamos la probabilidad, sino mostramos la curva generada en cada corrida. Podemosobservar que para la expansion de Bahadur-Lazarsfeld de orden 2 la probabilidad deloptimo es notablemente mayor con forme avanzan las generaciones, en comparacioncon un modelo de independencia.

Capıtulo 7

Clasificacion

En este capıtulo proponemos funciones para clasificar datos multivariados binarios,extendiendo de forma sencilla el clasificador ingenuo Bayesiano y sin aumentar muchola complejidad del algoritmo. Ademas, mostraremos que nuestro clasificador puedeser una alternativa a regresion logıstica para el caso cuando hay muy pocos datos.Comparamos los resultados obtenidos con nuestras propuestas en bases de datos realesusadas con anterioridad, tomando como referencia los resultados reportados.

7.1. Introduccion

En general, queremos clasificar objetos x = (x1, ..., xd) con xi ∈ {0, 1}. Proponemosaproximar

g(x) = P (y = 1)P (x|y = 1)− P (y = −1)P (x|y = −1), (7.1.1)

o alguna funcion similar, con una expansion de polinomios ortonormales. La funcion ges una funcion auxiliar en el clasificador, debido a que el clasificador resultante sera:

y(x) = sign(g(x)). (7.1.2)

Observe que si conocemos P (x|y) entonces el clasificador (7.1.2) es el clasificador optimoBayesiano.

Estamos interesados en encontrar una expansion de tal modo que si solo se in-cluye un termino en esta, entonces el clasificador y coincide con el clasificador ingenuoBayesiano.

Usaremos datos reales (voting records de UCI Machine Learning) para comparar losclasificadores propuestos, estos datos son usados en [22], donde comparan los resultadosusando el clasificador ingenuo Bayesiano y regresion logıstica [11]. Tambien usaremoslos datos data-mat usados en [10], donde se ajusta un modelo con interacciones entrelas variables.

46

7. Clasificacion 47

7.2. Clasificador Asimetrico

Para definir una aproximacion a la funcion g, proponemos expandir f con poli-nomios ortonormales, donde f es:

f(x) = P (y=−1)P (x|y=−1)+P (y=1)P (x|y=1)−P (y=−1)P (x|y=−1)

P (x|y=1)

=∑

i aiϕi(x)(7.2.3)

con P (x|y) el modelo de independencia dada la clase y tomamos P (x|y = 1) como lafuncion de peso. De aquı, tenemos que la funcion g es modelada por

g(x) = P (x|y = 1)∑i

aiϕi(x)− P (y = −1)P (x|y = −1).

Podemos observar que si solo incluimos el polinomio ϕ0(x) = 1 en la expansion (7.2.3),entonces

g(x) = P (y = 1)P (x|y = 1)− P (y = −1)P (x|y = −1),

es decir, sign(g(x)) coincide con el clasificador ingenuo Bayesiano.Por otro laso, se puede ver que los parametros ai son de la forma:

ai = P (y = −1)EP (x|y=−1)ϕi(x) +P (y = 1)EP (x|y=1)ϕi(x)−P (y = −1)EP (x|y=−1)ϕi(x),

debido a que ai = 〈f, ϕi〉P (x|y=1).Se puede ver que las funciones ortonormales univariadas con respecto a la funcion

de peso P son:y0(xl) = 1y1(xl) = xl−pl√

pl(1−pl),

donde pl es el parametro de la distribucion Bernoulli para la variable xl dado que y = 1.Con las funciones anteriores y usando la ecuacion (5.2.2) podemos encontrar la base{ϕi}.

Como podemos observar, esta manera de modelar g(x) no es simetrica ya queP (x|y = −1) y P (x|y = 1) son usadas de forma distinta y en la funcion de peso solointerviene la distribucion de una clase. Por lo anterior, al tomar las etiquetas de formacontraria se puede afectar el comportamiento del clasificador.

En los siguientes ejemplos, para comparar la calidad de los clasificadores usaremos elerror del generalizacion. El error de generalizacion esta definido como P (y(x) 6= y(x)) yeste es estimado de un conjunto de datos distinto al conjunto de datos de entrenamiento.

7.2.1. Ejemplo (clasificador asimetrico vs clasificador ingenuoBayesiano)

Tomaremos para este ejemplo los datos usados en [22], son datos de dimensiond = 16. Los datos son sobre congresistas de Estados Unidos, cada variable corre-sponde a si voto a favor o en contra de cierta ley y la clase corresponde al partido

7. Clasificacion 48

Figura 7.1: Resultado de experimento tomado de [22]

polıtico (republicano o democrata). Tenemos una muestra de 435 datos, de los cuales168 pertenecen a una clase y el resto a la otra. Cabe mencionar que hay bastantesdatos faltantes.

En [22] se argumenta que el clasificador ingenuo Bayesiano es un buen clasificador,para estos datos, cuando el conjunto de entrenamiento es pequeno. Este es compara-do con regresion logıstica y podemos observar que la calidad del ultimo depende deltamano del conjunto de entrenamiento.

Para comparar con los resultados mostrados en [22] (vea Figura 7.1), hacemos elmismo tipo de experimento, graficamos el error de generalizacion del conjunto de datosde prueba contra el numero de objetos en el conjunto de entrenamiento m (promediadosobre 1000 muestras aleatorias de estos conjuntos). En la Figura 7.1 la linea punteadacorresponde al error de clasificacion usando regresion logıstica y la linea continua alerror obtenido con el clasificador ingenuo Bayesiano.

En los siguientes experimentos, las correspondientes expansiones usadas son lasque tienen ϕ0 y ϕi donde el coeficiente ai correspondiente al de mayor valor absolutoen orden decreciente, estimados usando todos los datos. En este caso el coeficienterelacionado con la interaccion entre las variables x5-x7 tiene mayor valor absoluto.Ası la funcion g correspondiente es:

g(x) = P (x|y = 1)

(a0 + a57

x5 − p5√p5(1− p5)

x7 − p7√p7(1− p7)

)− P (y = −1)P (x|y = −1),

donde a0 ≈ P (y = 1) . Una vez elegidas las interacciones, variamos en tamano de losconjuntos y los tomamos aleatoriamente mil veces. En la Figura 7.2 (A), mostramosel promedio del error de clasificacion, incluyendo las interacciones mencionadas enla grafica. Podemos observar que incluyendo estas interacciones en nuestra expansiondisminuye el error de clasificacion en comparacion con el clasificador ingenuo Bayesiano.

7. Clasificacion 49

(A) (B)

Figura 7.2: (A) Interacciones con coeficientes con valor absoluto mayor, (B) Interac-ciones con coeficientes con valor absoluto mayor (acumulativo)

Pero conforme disminuye el valor absoluto del coeficiente se acerca mas al clasificadoringenuo bayesiano.

En la Figura 7.2 (B) usamos las interacciones anteriores pero de forma acumulativa,esto es, primero usamos la interaccion correspondiente al coeficiente con mayor valorabsoluto, posteriormente las dos interacciones correspondientes a los coeficientes conmayor valor absoluto y ası sucesivamente. Podemos observar que error de clasificacionaumenta cuando aumentamos interacciones.

Por tanto, podemos concluir que para estos datos y este clasificador asimetrico, lomejor que podemos hacer es usar una sola interaccion, la correspondiente al parametroai con valor absoluto mayor.

Cabe mencionar que, a pesar de los datos faltantes la estimacion de los parametrosno se ve tan afectada ya que estos son momentos muestrales.

7.3. Clasificador Simetrico

Ahora, queremos una funcion de peso en la que intervengan las distribuciones deambas clases. Buscamos que esta funcion ponga enfasis en las variables con marginalesdistintas para cada clase. La idea original fue usar como funcion de peso

P (x) = (P (x|y = −1)− P (x|y = 1))2,

sin embargo, con esta funcion de peso no podemos encontrar la base {ϕi} usando lageneralizacion vista en el capıtulo 5.

Por lo anterior, proponemos como funcion de peso:

P (x) =d∏l=1

(cte+ (P (xl|y = −1)− P (xl|y = 1))2)

7. Clasificacion 50

y expandir f con:

f(x) =(α1P (x|y=1)−α−1P (x|y=−1))−(α1P (x|y=1)−α−1P (x|y=−1))eP (x)

=∑

i aiϕi(x),

donde α−1 = P (y = −1), α1 = P (y = 1).En este caso, tenemos

g(x) = P (x)∑i

aiϕi(x) + α1P (x|y = 1)− α−1P (x|y = −1),

y los parametros son:

ai = α1EP (x|y=1)ϕi(x)− α−1EP (x|y=−1)ϕi(x) + α1EP (x|y=1)ϕi(x)− α−1EP (x|y=−1)ϕi(x).

Si tomamos solamente ϕ0(x) = 1 en la expansion, entonces

g(x) = P (y = 1)P (x|y = 1)− P (y = −1)P (x|y = −1),

es decir, sign(g(x)) coincide con el clasificador ingenuo Bayesiano.Por otro lado, se puede mostrar que las funciones ortogonales univariadas para la

funcion de peso P son:y0(xl) = 1

y1(xl) = xl−1/2√1/2(cte+(p−1

l −p1l )2)

donde p−1l y p1

l son los parametros de la distribucion Bernoulli para la variable xl dadala clase y = −1 y y = 1 respectivamente. Con las funciones y0 y y1 podemos encontrarla base ortonormal {ϕi} usando la ecuacion (5.2.2).

7.3.1. Ejemplo (clasificador simetrico vs clasificador ingenuoBayesiano)

Nuevamente, compararemos el clasificador simetrico con el clasificador ingenuoBayesiano usando los datos de la seccion anterior.

Para determinar cuales son los parametros que usaremos, consideramos todos losϕi en los cuales intervienen dos variables, en este caso son 120. Tomamos todos losdatos y estimamos los parametros correspondientes. Los ordenamos de acuerdo al valorabsoluto. Las interacciones que corresponden a los parametros de mayor valor absolutoson las que incluiremos en el clasificador.

En la Figura 7.3 se muestra la grafica del error de clasificacion contra el numero deobjetos en el conjunto de entrenamiento. En este caso, vamos aumentando el numero deinteracciones tomando las que corresponden a los parametros con mayor valor absoluto.

Podemos observar que conforme aumentamos interacciones el clasificador mejora,en este ejemplo usamos a lo mas ocho interacciones. Si agregamos otras interacciones, el

7. Clasificacion 51

Figura 7.3: Interacciones con coeficientes con valor absoluto mayor (acumulativo)

error de clasificacion disminuye muy poco y despues de cierto numero de interaccionesel error empieza a aumentar. Ademas, podemos observar que con este clasificador seobtienen mejores resultados que con el clasificador asimetrico.

Por otro lado, en la Figura 7.4 mostramos otro tipo de experimento, con la final-idad de analizar la varianza del error de clasificacion. Fijamos el numero de objetosen el conjunto de entrenamiento (50 objetos en la Figura 7.4 (A) y 70 objetos en laFigura 7.4 (B)) y el numero de polinomios que se incluyeron en la expansion (7 poli-nomios), correspondientes a aquellos cuyos parametros tienen mayor valor absoluto. Sehizo el experimento mil veces sobre conjuntos aleatorios de entrenamiento. Mostramoslos boxplots del error de clasificacion usando el clasificador ingenuo Bayesiano y elclasificador simetrico. Observamos que ambos clasificadores tienen aproximadamentela misma varianza y simetrıa, sin embargo usando polinomios ortogonales la media delerror es menor.

7.3.2. Ejemplo (clasificador simetrico vs regresion logıstica)

Por ultimo, comparamos el clasificador simetrico con el clasificador derivado dela regresion logıstica (vea [11]). Los modelos de regresion logıstica se ajustan maxi-mizando la verosimilitud del conjunto de datos de entrenamiento para una distribucionmultinomial. Para esto, se requiere algun algoritmo iterativo de optimizacion.

Para este ejemplo, tomamos los datos usados en [10]. Los datos tienen dimensiond = 5. Cada dato representa una persona encuestada, las variables xi corresponden ainformacion academica, ası como sus planes futuros. La clase corresponde a si cree ono que usara matematicas en el futuro. Tenemos una muestra con 1190 elementos, delos cuales el 61.7 % pertenecen a la clase y = −1 y el resto a la clase y = 1.

En el trabajo antes mencionado se ajusta un modelo de regresion en base del analisisde medidas de ajuste. En [10], el modelo que se usa incluye las interacciones entre lasvariables x2 − x3, x3 − x5 y x4 − x5.

7. Clasificacion 52

(A) (B)

Figura 7.4: Error de clasificacion para el clasificador ingenuo Bayesiano y para el clasi-ficador con 7 parametros. (A) 50 elementos en el conjunto de entrenamiento y (B) 70elementos en el conjunto de entrenamiento.

Por otro lado, si consideramos en la expansion simetrica todas las posibles in-teracciones entre dos variables y estimamos (usando todos los datos) los parametroscorrespondientes a estas interacciones, obtenemos que los coeficientes correspondientesa las interacciones usadas en [10] son los de mayor valor absoluto, por esta razoncomparamos el modelo de regresion logıstica y el clasificador simetrico, ambos con lasinteracciones anteriores.

Comparamos el clasificador simetrico con regresion logıstica, para casos donde eltamano del conjunto de entrenamiento es pequeno; este conjunto es tomado aleatori-amente mil veces. En la Figura 7.5 mostramos los boxplots del error del clasificacion.En la Figura 7.5 (A) tomamos el 5% de los datos como conjunto de entrenamiento, eneste caso podemos observar que el error de clasificacion con regresion logıstica es mayoren promedio y con mayor varianza. Cabe mencionar que en el 8.5% de las corridas nose puede ajustar del modelo de regresion, debido al muestreo y el procedimiento deoptimizacion. En la Figura 7.5 (B) tomamos como conjunto de entrenamiento el 10%de los datos, podemos observar que el error de clasificacion con regresion logıstica ypolinomios ortogonales son iguales en promedio, sin embargo, con regresion logısticaobtenemos mayor varianza del error. Por ultimo, en la Figura 7.5 (C) tomamos comoconjunto de entrenamiento el 25% de los datos, en este caso la media del error declasificacion es menor usando regresion logıstica.

Podemos concluir, que para este caso, con muy pocas observaciones el clasificadorsimetrico obtiene mejores resultados que un clasificador basado en regresion logıstica.

7. Clasificacion 53

(A) (B)

(C)

Figura 7.5: Error de clasificacion para el clasificador simetrico y para regresion logıstica.(A) Conjunto de entrenamiento 5% de los datos, (B) Conjunto de entrenamiento 10%de los datos, (C) Conjunto de entrenamiento 25% de los datos

Conclusiones

En este trabajo, revisamos el metodo de construccion de distribuciones aditivasusando polinomios ortogonales. Las distribuciones aditivas pueden ser caracterizadaspor ciertos momentos de la distribucion como se muestra en [26]. Sin embargo, en[26] el procedimiento algebraico no es sencillo. En nuestro caso, por la ortogonalidadde los polinomios se pueden encontrar facilmente los momentos, ademas de que laestimacion de estos es rapida y facil, aunque puede resultar en una estimacion burdade la distribucion. Debido a la rapidez de estimacion de los modelos antes mencionados,son una herramienta util en areas de aprendizaje estadıstico donde se require estimardistribuciones como un paso intermedio.

Como contribuciones de este trabajo podemos mencionar que:

Obtuvimos las distribuciones expresadas como expansiones de polinomios ortog-onales conocidas, a partir del principio de Maxima Entropıa usando del ındice deGini.

Es facil extender la construccion de distribuciones usando polinomios ortogonalesal caso no binario.1

Se puede implementar de forma eficiente un algoritmo para simular datos de unadistribucion aditiva con polinomios ortogonales.

Construimos una generalizacion del clasificador ingenuo Bayesiano, basado enpolinomios ortogonales, en el cual se pueden incluir interacciones entre variables,sin aumentar mucho la complejidad del algoritmo.

1Al terminar esta tesis, vimos que Bahadur en [1] propone una forma de generalizar la expansionhecha en ese trabajo, sin embargo no menciona los polinomios que se pueden usar.

54

Apendice

A. Algoritmo IPS

En esta seccion veremos un algoritmo para estimar los parametros de la distribucionde la forma (2.1.3). Este es una variante del algoritmo IPF y fue propuesta por Jelineken [15]. Este algoritmo es eficiente cuando el numero de parametros es mucho menorque el numero de vectores x. Posteriormente veremos una implementacion eficientebasada en la estructura del grafo del modelo.

Tomando en cuenta las restricciones que tomamos, sabemos que P (x) es de la forma:

P (x) = µ0

∏i

(µAi)xAi ,

donde xAi=∏

j∈Aixj y queremos que se cumplan las siguientes restricciones∑

x P (x) = 1 &∑

x P (x)xAi= fi,

con i = 1, . . . ,m, donde fi = E(xAi= 1).

Por otro lado, se puede ver que n(xAi)/P (xAi

) es una funcion de Ai y podemos ex-presarla de la forma α

xAii . De acuerdo al operador del IPF (ecuacion 2.4.10), obtenemos

que la actualizacion de P (x) es de la forma:

µ∗0µ∗Ai

xAi

∏j,i 6=j

(µAj)xAj

donde µ0 se cambia por la normalizacion.Por lo anterior definimos la sucesion

Pk(x) = µ(k)0

m∏i=1

(µ(k)i )

xAi

donde µ(k)i son los parametros en la iteracion k.

Nuestra estrategia sera actualizar solo µi y µ0 para cada conjunto Ai.Para cada Ai, tenemos que si x es tal que xAi

= 0

Pk+1(x) = µ(k+1)0

m∏j=1,j 6=i

(µj)xAj =

µ(k+1)0

µ(k)0

Pk(x).

55

Apendice 56

por otro lado, si x es tal que xAi= 1

Pk+1(x) = µ(k+1)0 µ

(k+1)i

m∏j=1,j 6=i

(µj)xAj =

µ(k+1)0 µ

(k+1)i

µ(k)0 µ

(k)i

Pk(x).

Queremos encontrar µ(k+1)0 y µ

(k+1)i tal que se cumpla la restriccion fi. Por tanto,

requerimos que1− fi =

∑x:xAi

=0 Pk+1(x)

fi =∑

x:xAi=1 Pk+1(x).

(A.4)

Para que se cumplan las ecuaciones (A.4), tenemos que la actualizacion de losparametros µ esta dada por:

µ(k+1)0 =

µ(k)0 [1− fi](

1−∑

x:xAi=1 Pk(x)

) (A.5)

µ(k+1)i = µ

(k)i

fi

(1−

∑x:xAi

=1 Pk(x))

∑x:xAi

=1 Pk(x)(1− fi). (A.6)

Es decir, solo requerimos actualizar los parametros µi para cada Ai.

Algoritmo 1:

1. Inicializar µ(0)i tal que P (x) =uniforme.

2. Mientras no se satisfagan las restricciones

(i = 1, . . . ,m){Para cada restriccion i{

Actualizar µ0 ecuacion (A.5)

Actualizar µi ecuacion (A.6)

}}

Salida µi.

Apendice 57

(A) (B) (C)

Figura 7.6: (A) Grafo no dirigido, (B) Cliques del grafo y (C) Arbol de union

B. Arboles de Union

Para acelerar la convergencia del Algoritmo 1 usaremos que P (x) se puede de-scomponer con respecto al modelo grafico. Esta idea es usada en [28]. Para esta partetomamos la notacion y las definiciones basicas de [16].

Como vimos en secciones anteriores, la distribucion de maxima entropıa define unmodelo grafico. El grafo esta dado por nodos representados por cada variable xl y losnodos correspondientes a las variables xl y xk estan conectados si y solo si existe algunψi en el cual intervengan dichas variables. Usaremos el conjunto C de cliques maximales[20] de este para descomponer P (x).

La siguiente definicion y propiedad son vistas con detalle en [16].

Definicion B.1 Una grafica de union GrG es un grafo no dirigido, cuyos nodos sonlos cliques c ∈ C de un grafo G y se cumple que para dos nodos ci y cj hay un clustersk sobre la arista entre ci y cj tal que:

ci ∩ cj = sk.

Las aristas son etiquetados con la interseccion de los cliques adyacentes.

Definicion B.2 Un arbol de union TG es el arbol “minimum spanning” de la graficade union GrG.

En la Figura 7.6 (A) se muestra un grafo G no dirigido, en (B) se marcan con lıneaspunteadas los cliques del grafo G y por ultimo, en (C) se muestra el arbol de union TGdel grafo G.

La siguiente propiedad sera de mucha utilidad para acelerar el ajuste de los paramet-ros en la distribucion de maxima entropıa.

Propiedad B.3 La distribucion de probabilidad P (x) del modelo grafico, con el grafoG, se puede descomponer con respecto al arbol de union TG de la siguiente manera

P (x) =

∏c Pc(xc)∏s Ps(xs)

,

Apendice 58

donde c ∈ C son los cliques de G y s ∈ S son las intersecciones de los cliques de G.

Por lo anterior, el problema original de estimar P (x) lo podemos obtener de proble-mas pequenos de estimar {Pc}. Note que no se requiere estimar {Ps} ya que se obtienende marginalizar la distribucion de un clique vecino. Para estimar cada Pc se usa el Al-goritmo 1 de forma independiente.

Bibliografıa

[1] Bahadur R. R., A Representation of the Joint Distribution of Responses to nDichotomous Items, Studies in Items Analysis and Prediction, Stanford UniversityPress, 1961.

[2] Bengio Samy y Bengio Yoshua, Taking on the Curse of Dimensionality in JointDistributions Using Neural Networks, IEEE Transctions on Neural Networks,Mayo 2000, vol. 11.

[3] Bishop Yvonne M. M., Fienberg Stephan E. y Holland Paul W., Discrete Multi-variate Analysis: Theory and Practice, MIT press, 1976.

[4] Borgelt Christian, Efficient Implementation of Apriori and Eclat, Proc. of the firstWorkshop on Frequent Itemset Mining Implementations, 2003.

[5] Cho Bong-Hyun, Lee Changki y Lee Gary G., Exploring Term Dependences inProbabilistic Information Retrieval Model, Information Processing and Manage-ment: an International Journal, Vol. 39, Julio 2003.

[6] Csiszar I., Information Type Measures of Difference of Probability Distributionsand Direct Observations, Studi. Sci. Math. Hungar, 1967.

[7] Darroch J. N. y Speed T. P., Additive y Multiplicative Models and Interactions,The Annals of Statistics, Vol. 11, No. 3, 1983.

[8] De la Rosa David, Analisis Longitudianal de Accesos a un Servidor WWW, Tesisde Maestrıa, CIMAT A.C., 2006.

[9] Duda Richard O. y Hart Peter E., Pattern Classification and Scene Analysis, JohnWiley & Sons, 1973.

[10] Fowlkes E. B., Freeny A. E. y Landwehr J. M., Evaluating Logistic Models forLarge Contingency Tables, Journal of the American Statistical Association, 83,1998.

[11] Hastie T., Tibshirani R. y Friedman J., The Elements of Statistical Learning: DataMining Inference, and Prediction, Springer, 2001.

59

Bibliografıa 60

[12] Humphreys K. y Titterington D. M., The Exploration of New Methods for Learningin Binary Boltzmann Machines, Workshop on Artificial Itelligence and Statistics,San Francisco, 1999.

[13] Humphreys K. y Titterington D. M., Improving the Mean-Field Approximationin Belief Networks Using Bahadur’s Reparametrization of the Multivariate BinaryDistribution, Neural Processing Letters, Vol. 12, Octubre 2000.

[14] Jaynes E. T., Information Theory and Statistical Mechanics, Statistical Physics,K. Ford, 1963.

[15] Jelinek F., Statistical Methods for Speech Recgnition, MIT Press, 1998.

[16] Jensen Finn V., An Introduction to Bayesian Networks, Springer, 1996.

[17] Kapur J. N. y Kesevan H. K., Entropy Optimization Principles with Applications,Academic Press, 1992.

[18] Kotz S., Balakrishnan N., Read C., Vidakovic B. y Johnson N., Encyclopedia ofStatistical Sciences, Volumen 8, Wiley Inter-Science.

[19] Larranaga Pedro y Lozano Jose A., Estimations of Distributions Algorithms,Kluwer Academic Publishers, 2002.

[20] Lauritzen S. L., Lectures on Contingency Tables, Electronic Edition, 2002.

[21] Losee R. M., Term Dependence: Truncating the Bahadur-Lazarsfeld Expansion,Information Processing and Managements 30-2, 1994.

[22] Ng Andrew Y. y Jordan Michael I., On Discriminative vs Generative Classifiers:A Comparison of Logistic Regression and Naive Bayes, NIPS 14, 2002.

[23] Ott Jurg y Kronmal Richard A., Some Classification Procedures for Multivari-ate Binary Data Using Orthogonal Functions, Jornal of the American StatisticalAssociation, Julio 1976, Volumen 71, Numero 354.

[24] Pavlov Dmitry, Mannila Heikki y Smyth Padhraic, Beyond Independence: Prob-abilistic Models for Query Approximation on Binary Transaction Data, IEEETransactions on Knowledge and Data Engeneering, Vol. 15, No. 6, 2003.

[25] Schoutens Wim, Stochastic Processes and Orthogonal Polynomials, Lecture Notesin Statistics vol. 146, Springer, 2000.

[26] Teugels J. L. y Van Horeebek J., Algebraic Descriptions of Nominal MultivariateDiscrete Data, Journal Multivariate Analysis, 67, 1998.

Bibliografıa 61

[27] Topon Kumar P. e Hitoshi Iba, Linear and Combinatorial Optimization by Esti-mation of Distribution Algorithms, 9th. MPS Symposium on Evolutionary Com-putation, IPSJ, Japon, 2002.

[28] Whye Teh Yee y Welling Max, On improving the Efficiency of the Iterative Pro-portional Fitting Procedure, Proc. of the 9th Int’l. Workshop on AI and Statistics(AISTATS-03), 2003.

[29] Wu Xintao, Barbara Daniel y Ye Yong, Screening and Interpreting Multi-itemAssociations Based on Log-linear Modeling, SIGKDD, Agosto de 2003.

polinomios ortogonales multivariados discretos y su

Documents