´istica y m - pragmamexico.com.mx · de inter´es tanto para especialistas en estad ´ıstica,...

63
.

Upload: vudat

Post on 01-Oct-2018

219 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: ´ISTICA Y M - pragmamexico.com.mx · de inter´es tanto para especialistas en Estad ´ıstica, como para investigadores en Ciencias Pol ´ıticas y Sociales. Uno de los eventos que

.

Page 2: ´ISTICA Y M - pragmamexico.com.mx · de inter´es tanto para especialistas en Estad ´ıstica, como para investigadores en Ciencias Pol ´ıticas y Sociales. Uno de los eventos que

Revista de Muestreo y Estadıstica

Indice

Directorio 2

Prologo 3

Presentacion 4

Distribucion de GumbelCaracterizacion, Estimacion Optima de Parametros y Aplicaciones 6

Ley de Benford.Curiosidad en los dıgitos 23

Modelo de Regresion Logıstica Binariasobre la tragedia del Titanic 41

Indice de Pluralidad y Diversidad Polıtica, el caso la eleccion 2016de los estados de Veracruz, Zacatecas y Tamaulipas 48

Numero IV 1 Julio 2016

Page 3: ´ISTICA Y M - pragmamexico.com.mx · de inter´es tanto para especialistas en Estad ´ıstica, como para investigadores en Ciencias Pol ´ıticas y Sociales. Uno de los eventos que

DIRECTORIO

REVISTA DE ESTADISTICA Y MUESTREO

Francisco Sanchez Villarreal.Director.

Jose Oscar Rosales Vergara. Susana Barrera Ocampo.Mesa de Redaccion y apoyo en investigacion.

Guillermo Aaron Espinosa Reyes.Diseno y Elaboracion Editorial.

REVISTA DE ESTADISTICA Y MUESTREO. Ano III, Numero 4. Julio de 2016. Es una revista electronicaeditada por un grupo de alumnos, ex-alumnos y profesores de Estadıstica de la Facultad de Ciencias dela UNAM que aborda temas de aplicacion de Estadıstica y Muestreo probabilıstico en temas diversoscomo Actuarıa, Biologıa, Control de Calidad, Demografıa, Economıa, Ecologıa, Educacion, Investigacionde Mercados, Psicologıa, Sociologıa, Salud, etc. Sus fines son la exposicion y difusion de metodos y pro-cedimientos que apoyen la ensenanza y aplicacion de la Estadıstica y el Muestreo.

Responsable de la publicacion:Francisco Sanchez [email protected]

Page 4: ´ISTICA Y M - pragmamexico.com.mx · de inter´es tanto para especialistas en Estad ´ıstica, como para investigadores en Ciencias Pol ´ıticas y Sociales. Uno de los eventos que

PROLOGO

La actividad de la sociedad en todas sus manifestaciones es motivo de observacion y recoleccion de datosque instituciones publicas y privadas usan para sus fines de gobierno o comerciales. La actividad delas personas es monitoreada permanentemente por diversos mecanismos de registro digital. La comprasrealizadas mediante las tarjetas de credito en forma directa o por internet, permiten un registro detalladode los productos que adquieren, los servicios que utilizan, los precios que pagan, la frecuencia y cantidadde sus consumos; todo ello asociado a datos de edad, genero, ocupacion, lugar de residencia, etc. Lasempresas que comercializan medios de comunicacion y entretenimiento masivos, fundamentalmente latelevision y las llamadas redes sociales miden continuamente la estructura y evolucion de las preferenciasdel publico.

Los dispositivos electronicos de uso personal como computadoras, tabletas, telefonos moviles, tambienpermiten el registro de la actividad de las personas, sus preferencias, actitudes, opiniones, anhelos yfrustraciones, sobre todo tipo de temas sociales, polıticos y religiosos. Se configuran conglomerados depersonas con intereses afines por los sitios de internet que visitan, las aplicaciones que utilizan, la musicaque escuchan, las redes sociales a que pertenecen, etc. Eric Arthur Blair (George Orwell), mundialmenteconocido por su novela 1984, escrita en 1949, en la cual plantea el concepto del Big Brother, se sor-prenderıa de la forma en que se han rebasado sus mas aventurados pronosticos en la penetracion de laintimidad de todas las personas.

Pero a nivel individual tambien se observan cambios notables, una persona tiene en su telefono celularmas capacidad de almacenamiento que cualquiera de las grandes computadoras que se utilizaban 30 anosatras y su capacidad de proceso es muchas veces mayor que la de las computadoras utilizadas en la naveque aterrizo en la Luna en 1969. La conectividad con diversas fuentes de informacion pone literalmenteen la palma de la mano todo tipo de datos e informacion.

Los datos son almacenados en gigantescas bases de datos, cuyo analisis ha motivado el desarrollo y reo-rientacion de diversas tecnicas estadısticas, predictivas y computacionales, las cuales se han manifestadoen neologismos como Tecnologıas de Informacion y Comunicacion, Big Data, Data Minig, Machine Lear-ning, Intelligence Data, etc. Todas ellas se apoyan el notable incremento de la capacidad de recoleccion,almacenamiento y poder de computo del software y hardware de ultima generacion. Estas visiones delanalisis buscan primordialmente la identificacion de relaciones, la presencia de patrones repetitivos, laclasificacion numerica por diversos criterios de similaridad o diferencia.

Francisco Sanchez VillarrealJulio 2016

Page 5: ´ISTICA Y M - pragmamexico.com.mx · de inter´es tanto para especialistas en Estad ´ıstica, como para investigadores en Ciencias Pol ´ıticas y Sociales. Uno de los eventos que

PRESENTACION

En este cuarto numero de la REVISTA DE ESTADISTICA Y MUESTREO se ha pretendido el abordaje de diversos temasde interes tanto para especialistas en Estadıstica, como para investigadores en Ciencias Polıticas y Sociales.

Uno de los eventos que conmociono a la sociedad de su tiempo, pero que a mas de un siglo de acontecido, sigue siendode interes es el hundimiento del Titanic, la nave mas grande y supuestamente insumergible que despues de colisionarcon un iceberg se hundio en las aguas del Atlantico Norte en su viaje inaugural. Se enfoca nuestra atencion al analisisde la sobrevivencia de los pasajeros y de los factores que influyeron a favor o en contra. No deja de llamar la atencionque en un evento tan dramatico, la clase economica de los pasajeros haya sido determinante, la famosa frase de latradicion marinera “las mujeres y los ninos primero” no se cumplio en sentido estricto.

La democracia es la palabra que reviste de legitimidad las acciones de polıticos y funcionarios gubernamentales yen su nombre se llevan a efecto luchas por el poder que los electores otorgan de manera consciente, pero a veces demanera poco consciente a candidatos y partidos. La lucha polıtica se concentra habitualmente entre pocos grupos depoder cuyos rostros no cambian de manera sustantiva. La diversidad polıtica expuesta no solamente como un conceptointuitivo, sino a traves de una medida objetiva, el Indice de Diversidad Polıtica plantea una perspectiva cientıfica deabordar el tema, tomando como ejemplo las recientes elecciones que celebraron diversas entidades federativas.

Ante las limitaciones de los espacios ocupados por los conglomerados humanos, estos han forzado la utilizacion deareas mas expuestas a fenomenos naturales como incendios forestales, huracanes, terremotos, inundaciones, etc. Almismo tiempo la complejidad e interdependencia de las sociedades que favorecen la mayor frecuencia de trasladosde gran numero de personas en todo tipo de medios incrementan su exposicion a sufrir accidentes. Las actividadesagropecuarias, industriales y de generacion de energıa, cuando se salen de control, propician accidentes ecologicospor contaminacion de la atmosfera y de aguas de rıos y mares. Eventos catastroficos por sus implicaciones en vidasy costos, que antes eran excepcionales, ahora forma parte cotidiana de los noticieros. La frecuencia y magnitud deestos eventos han motivado la aplicacion de modelos estadısticos, como las distribuciones de valores extremos, entrelas cuales, la de Gumbel es una de las mas versatiles y uno de nuestros artıculos abunda en su origen, estimacion yaplicaciones.

En la Era de la Globalizacion es creciente la interdependencia entre las naciones, pueblos e incluso individuos de todoel mundo, traspasando fronteras polıticas, marıtimas, culturales y aun del lenguaje. Es evidente que el desarrollo dela Era de la Informacion, y el desarrollo de la Comunicacion es cada vez mas veloz. La dinamica global esta en auge ycon ello el volumen de Informacion disponible en todas las areas del conocimiento es creciente. Se impone la necesidadde herramientas estadısticas para una mejor comprension y analisis de la informacion. Parte de esta informacionesta disponible en los registros o tabulados, como los censos de diversa ındole en areas sociales o cientıficas. Ya en lasegunda edicion de la presente publicacion hablamos de una caracterıstica curiosa sobre comportamiento del primerdıgito significativo en tales registros. En esta ocasion retomamos el tema para estudiar el comportamiento sobre elresto de los dıgitos.

Algunos artıculos en esta edicion de REVISTA DE ESTADISTICA Y MUESTREO son complementarios a artıculos deediciones anteriores; se recomienda ampliamente su lectura. En nuestra contraportada se adjunta el codigo QR parala descarga gratuita de los ejemplares anteriores.

Francisco Sanchez VillarrealGuillermo Aaron Espinosa Reyes

Julio 2016

Page 6: ´ISTICA Y M - pragmamexico.com.mx · de inter´es tanto para especialistas en Estad ´ıstica, como para investigadores en Ciencias Pol ´ıticas y Sociales. Uno de los eventos que

Francisco Sanchez Villarreal

Distribucion de GumbelCaracterizacion, Estimacion Optima de Parametros yAplicaciones

Page 7: ´ISTICA Y M - pragmamexico.com.mx · de inter´es tanto para especialistas en Estad ´ıstica, como para investigadores en Ciencias Pol ´ıticas y Sociales. Uno de los eventos que

Revista de Muestreo y Estadıstica Distribucion de Gumbel

DISTRIBUCION DE GUMBELCARACTERIZACION, ESTIMACION OPTIMA DE PARAMETROS Y

APLICACIONESFrancisco Sanchez Villarreal∗

1. Antecedentes

LA FUNCION DE DISTRIBUCION DE GUMBEL tambien conocida como doble exponencial, fue llamadaası en honor del matematico aleman Emil Julius Gumbel (1981-1966). Su formacion se realizo enMunich en donde realizo estudios de Economıa, Ingenierıa y Actuarıa. Fue profesor de Estadıstica

matematica de la antigua Universidad de Heidelberg.

Gumbel ademas fue un crıtico acerrimo delregimen nazi, lo cual motivo su separacion de Hei-delberg y su emigracion hacia Francia en 1932 yposteriormente a Estados Unidos en 1940. En estepaıs se desempeno como profesor e investigador enla Universidad de Columbia hasta su fallecimientoen 1966.

Gumbel fue pionero en la teorıa de valores ex-tremos junto con Leonard Tippeti y Ronald Fisher.En 1958 publico el libro Statistics of Extremes dondepresento la distribucion que lleva su nombre. Lasdistribuciones para valores extremos, tambien selas identifica como distribuciones de cola pesada,por tener colas con mayor probabilidad acumuladaque la distribucion exponencial.

∗Asesor Internacional en Estadıstica y Muestreo.Profesor de Carrera en el Departamento de Matematicas en la Facultad de Ciencias, UNAM.E-mail: [email protected]

Numero IV 6 Julio 2016

Page 8: ´ISTICA Y M - pragmamexico.com.mx · de inter´es tanto para especialistas en Estad ´ıstica, como para investigadores en Ciencias Pol ´ıticas y Sociales. Uno de los eventos que

Revista de Muestreo y Estadıstica Distribucion de Gumbel

2. La Funcion de Distribucion Generalizadade Valores Extremos

El teorema de Fisher y Tippeti publicado en 1928 enuncia la Funcion de Distribucion Generalizada deValores Extremos, y es el siguiente:

Sea {X1, X2, . . . , Xn} una sucesion de variables aleatorias independientes e identicamente dis-tribuidas y sea Mn = max{X1, X2, . . . , Xn} . Si ∃{(an, bn) ∈ R2}i∈N una sucesion de pares denumeros reales, tal que an > 0 y

limn→∞

P

(Mn − bn

an≤ x

)= F (x)

donde F (x) es una funcion de distribucion no degenerada, entonces F (x) pertenece a una detres familias de distribuciones: Gumbel, Frechet o Weibull.Estas distribuciones pueden ser agrupadas en la Funcion de Distribucion Generalizada de Va-lores Extremos:

F (x) = exp

[−[1 + ζ

(x− µβ

)]− 1ζ

]para 1 + ζ

(x− µβ

)> 0

Donde

• µ ∈ R es el parametro de localizacion.

• β > 0 ∈ R es el parametro de escala.

• ζ ∈ R es el parametro de forma.

• ζ > 0 entonces es valida para x > µ−βζ

• ζ < 0 entonces es valida para x < µ−βζ

Teorema.

La funcion de densidad es:

f(x) =1

β

[1 + ζ

(x− µβ

)]− 1ζ−1

exp

[−[1 + ζ

(x− µβ

)]− 1ζ

]

Numero IV 7 Julio 2016

Page 9: ´ISTICA Y M - pragmamexico.com.mx · de inter´es tanto para especialistas en Estad ´ıstica, como para investigadores en Ciencias Pol ´ıticas y Sociales. Uno de los eventos que

Revista de Muestreo y Estadıstica Distribucion de Gumbel

3. La Distribucion de Gumbel

La funcion de distribucion acumulativa deGumbel, tiene la siguiente expresion:

F (x) = e−e(− x−µ

β)

µ ∈ R, β > 0

que depende de dos parametros: elparamtero µ relacionado con su posicion yel parametro β relacionado con la formay dispersion. En la figura 1 se apreciala forma que adopta su funcion de dis-tribucion acumulativa con diferentes va-lores de los parametros.

Figura 1: Distribucion Acumulativa Gumbel

La funcion de densidad adopta unaforma acampanada asimetrica positiva,cuya cola derecha pesa en funcion delparametro β.

f(x) =1

βe

[− x−µβ −e

(− x−µβ

)]

Figura 2: Funcion de Densidad Gumbel

Numero IV 8 Julio 2016

Page 10: ´ISTICA Y M - pragmamexico.com.mx · de inter´es tanto para especialistas en Estad ´ıstica, como para investigadores en Ciencias Pol ´ıticas y Sociales. Uno de los eventos que

Revista de Muestreo y Estadıstica Distribucion de Gumbel

El parametro µ se asocia mas con la posicion y el parametro β con la forma y la dispersion. A continuacionse exponen las relaciones de los parametros con la esperanza, mediana, moda y varianza poblacionales:

• Para la esperanza tenemos la siguiente expresion:

E[X] = µ+ γβ

Donde γ = 0.5772156649015328606 es la constante de Euler Mascheroni.

γ = −∫ ∞0

e−xln(x) dx

La constante de Euler Mascheroni se relaciona con la diferencia entre la serie armonica y el logaritmonatural del numero de terminos. Hemos verificado que converge lentamente. Para n = 10, 000 sealcanza precision hasta la cuarta cifra decimal con el valor 0.57726566.

γ = limn→∞

[ n∑k=1

1

k− ln(n)

]

• La mediana por su parte se expresa:

Me = µ− β ln(−ln 1

2

)

• La moda es igual al parametro de posicion

Mo = µ

• La varianza se relaciona unicamente con el parametro de forma

V (X) = β2 π2

6

Con valores DistribucionGumbelEstandar

DistribucionGumbelEstandar

para los parametros µ = 0 y β = 1 se tiene la Distribucion Gumbel Estandar

F (x) = e−e−x

f(x) = e−(x+e−x)

Numero IV 9 Julio 2016

Page 11: ´ISTICA Y M - pragmamexico.com.mx · de inter´es tanto para especialistas en Estad ´ıstica, como para investigadores en Ciencias Pol ´ıticas y Sociales. Uno de los eventos que

Revista de Muestreo y Estadıstica Distribucion de Gumbel

La funcion de distribucion acumulativainversa, tambien conocida como funcioncuantil, como se vera adelante, facilitala simulacion de valores de una varia-ble aleatoria con distribucion Gumbel yparametros definidos por el usuario.

Q(p) = µ−β ln(−ln p) con p ∈ (0, 1) ⊂ R

Figura 3: Funcion Cuantil Distribucion de Gumbel

4. Estimacion de parametros por el Metodo de Momentos

Utilizando el metodo de momentos, se iguala la expresion teorica de la varianza con la varianza muestralS2 y se despeja el parametro β, de donde se obtiene su estimador.

β =s√

6

π

La estimacion del parametro µ se puede obtener a partir de la ecuacion del valor esperado o mediapoblacional de la distribucion, sustituyendo esta por la media aritmetica. Una vez estimada β se expresaµ en funcion β y de la constante de Euler.

X = µ+ γβ µ = X − γβ

Otro estimador alternativo surge de la ecuacion de la mediana, sustituyendola por la mediana muestraly haciendo otro tanto con el estimador de β, estimado a partir de la varianza muestral.

Me = µ− β ln(−ln 1

2

)µ = Me+ β ln

(−ln 1

2

)

Numero IV 10 Julio 2016

Page 12: ´ISTICA Y M - pragmamexico.com.mx · de inter´es tanto para especialistas en Estad ´ıstica, como para investigadores en Ciencias Pol ´ıticas y Sociales. Uno de los eventos que

Revista de Muestreo y Estadıstica Distribucion de Gumbel

5. Estimadores de Maxima Verosimilitud

El metodo de estimacion por maxima verosimilitud fue aplicado desde principios del siglo XIX por KarlF. Gauss y Pierre Simon Laplace, pero su principal difusor, a principios del siglo XX, fue Ronald Fisher.El metodo se basa en encontrar la funcion conjunta de las variables aleatorias independientes, usual-mente llamada funcion de verosimilitud, que constituyen la muestra. La funcion conjunta depende de losparametros desconocidos. Se estima a continuacion el conjunto de parametros que maximiza la probabi-lidad de la muestra observada.

f(x) =1

βe

[− x−µβ −e

(− x−µβ

)]

La funcion de verosimilitud de las n observaciones que constituyen la muestra de variables aleatoriasindependientes e identicamente distribuidas es igual al producto de las marginales, que para el casoGumbel, adopta la siguiente forma.

L(µ, β) =

n∏i=1

fX(xi) =1

βne

[ n∑i=1

(−xi − µ

β− e−

xi−µβ)]

Los valores de los parametros que maximizan la funcion conjunta, tambien maximizan su logaritmo, alser esta no negativa, ello permite obtener expresiones mas sencillas.

ln L(µ, β) = −n ln β +

[ n∑i=1

(−xi − µ

β− e−

xi−µβ)]

= −n ln β −n∑i=1

xi − µβ

−n∑i=1

e−xi−µβ (1)

A continuacion se procede a derivar la ecuacion 1 respecto del primer parametro µ y la ecuacion resultantese iguala a cero para obtener el valor que permita su estimacion.

∂ ln L(µ, β)

∂µ=n

β− 1

β

n∑i=1

e−xi−µβ = 0 (2)

En la ecuacion 2 se multiplican por β ambos miembros de la igualdad a continuacion se factoriza laexponencial aplicada a µ y β y se suman a ambos miembros.

e−µβ

n∑i=1

e−xiβ = n

De donde1

n

n∑i=1

e−xiβ = e−

µβ (3)

Al despejar µ de la expresion 3 se obtiene su estimador de maxima verosimilitud.

µ = −β ln[

1

n

n∑i=1

e−xiβ

](4)

Numero IV 11 Julio 2016

Page 13: ´ISTICA Y M - pragmamexico.com.mx · de inter´es tanto para especialistas en Estad ´ıstica, como para investigadores en Ciencias Pol ´ıticas y Sociales. Uno de los eventos que

Revista de Muestreo y Estadıstica Distribucion de Gumbel

En forma alternativa la ecuacion 4 se iguala a cero para facilitar el procedimiento iterativo de estimacion:

− β ln[

1

n

n∑i=1

e−xiβ

]− µ = 0 (5)

A continuacion se obtiene el estimador de β, partiendo nuevamente del logaritmo natural de la ecuacion1 , la funcion de verosimilitud.

L(µ, β) = −n ln β −n∑i=1

xi − µβ

−n∑i=1

e−xi−µβ

Se deriva la ecuacion 1 parcialmente respecto a β y se iguala a cero.

∂ ln L(µ, β)

∂β= −n

β+

n∑i=1

xi − µβ2

−n∑i=1

xi − µβ2

e−xi−µβ = 0 (6)

Se multiplica la ecuacion 6 por β2

β2 ∂ ln L(µ, β)

∂β= −nβ +

n∑i=1

(xi − µ)−n∑i=1

(xi − µ)e−xi−µβ

= 0 (7)

Se distribuye la suma en 7

− nβ +

n∑i=1

xi − nµ−n∑i=1

xie− xi−µβ + µ

n∑i=1

e−xi−µβ = 0

−nβ +

n∑i=1

xi − nµ− eµβ

n∑i=1

xie− xiβ + µe

µβ

n∑i=1

e−xiβ = 0 (8)

A partir de la ecuacion 4 se obtiene la expresion 9 que corresponde al cociente de los parametros en laexponencial.

µ

β= −ln

[1

n

n∑i=1

e−xiβ

](9)

En forma equivalenteµ

β= ln

nn∑i=1

e−xiβ

De donde se obtiene una expresion alternativa para la exponencial del cociente de parametros.

eµβ =

nn∑i=1

e−xiβ

(10)

Numero IV 12 Julio 2016

Page 14: ´ISTICA Y M - pragmamexico.com.mx · de inter´es tanto para especialistas en Estad ´ıstica, como para investigadores en Ciencias Pol ´ıticas y Sociales. Uno de los eventos que

Revista de Muestreo y Estadıstica Distribucion de Gumbel

Partiendo de la ecuacion 8 , se sustituye eµβ acorde a lo que tenemos en la ecuacion 10

−nβ +

n∑i=1

xi − nµ− eµβ

n∑i=1

xie− xiβ + µe

µβ

n∑i=1

e−xiβ = 0

Eliminando∑n

i=1 e− xiβ y su inverso

−nβ +

n∑i=1

xi − nµ− nn∑

i=1

e−xiβ

n∑i=1

xie− xiβ + µ

n

��

��n∑

i=1

e−xiβ �

���n∑

i=1

e−xiβ = 0

Eliminando nµ y su inverso

−nβ +

n∑i=1

xi −��nµ− nn∑

i=1

e−xiβ

n∑i=1

xie− xiβ +��nµ = 0

Llegamos a la siguiente expresion

−nβ +

n∑i=1

xi − n

n∑i=1

xie− xiβ

n∑i=1

e−xiβ

= 0 (11)

Si a la ecuacion 11 la dividimos entre n finalmente obtenemos la segunda ecuacion en funcion de β que seresuelve en forma iterativa para sustituirse en la ecuacion 4 y resolver, tambien en forma iterativa en la laecuacion 5 para µ. Las dos ecuaciones se presentan a continuacion:

−β + x−

n∑i=1

xie− xiβ

n∑i=1

e−xiβ

= 0 (12) −β ln[ 1

n

n∑i=1

e−xiβ

]− µ = 0 (13)

Tanto los estimadores de momentos, como de los de maxima verosimilitud, se pueden mejorar mediante pro-cedimientos numericos iterativos que a partir de cambios en los parametros aproximen a cero las dos ecuacionesanteriores.

Numero IV 13 Julio 2016

Page 15: ´ISTICA Y M - pragmamexico.com.mx · de inter´es tanto para especialistas en Estad ´ıstica, como para investigadores en Ciencias Pol ´ıticas y Sociales. Uno de los eventos que

Revista de Muestreo y Estadıstica Distribucion de Gumbel

6. Simulacion Montecarlo de la Distribucion de Gumbel

En la funcion de cuantil se sustituye el argumentode la probabilidad P por el valor de una variablealeatoria uniforme U(0,1) y se despeja x. Al cam-biar el valor de la uniforme, se obtienen valores deuna variable Gumbel con los parametros definidosde la forma siguiente.

x = µ− β ln (−ln u(0, 1))

En el cuadro 1 se expone la obtencion de 10 valoresde la Distribucion Gumbel con parametros µ = 6 yβ = 3

Parametros µ = 6 β = 3

Muestra Uniforme Gumbel1 0.7829 10.22192 0.3780 6.08243 0.9919 20.44424 0.2682 5.17625 0.1445 4.02036 0.8746 12.02967 0.9207 13.48088 0.9941 21.37629 0.9327 13.9922

10 0.2673 5.1687

Cuadro 1: Valores de 10 simulaciones Gumbel

En forma similar al cuadro 1 se simularon 500 valores, para los cuales se calcularon estadısticas basicas(ver cuadro 2 ), una tabla de frecuencias observadas y las frecuencias esperadas de acuerdo a probabi-lidades calculadas con los parametros que dieron origen a las simulaciones. Existe una fuerte similitudentre la distribucion teorica y la distribucion empırica, como era de esperarse. La prueba de bondad deajuste de Kolmogorov permitio ratificar que la distribucion empırica es consistente con la distribucionteorica.

Estadıstica ValorMedia 7.980037Mediana 7.351530Varianza 14.894413Desv. Est. 3.859328Asimetrıa 0.921630Curtosis 1.024636Maximo 22.692684Mınimo 0.404483Coeficiente Euler 0.577216

Cuadro 2: Estadısticas basicas de 500 simulaciones

En el cuadro 3 se presenta la tabla de frecuencias empıricas de los 500 valores simulados y las probabili-dades asociadas a los intervalos con los parametros que generaron los valores simulados y las frecuenciasesperadas, para verificar graficamente la congruencia de la distribucion empırica de los valores simuladoscon la distribucion teorica.

Numero IV 14 Julio 2016

Page 16: ´ISTICA Y M - pragmamexico.com.mx · de inter´es tanto para especialistas en Estad ´ıstica, como para investigadores en Ciencias Pol ´ıticas y Sociales. Uno de los eventos que

Revista de Muestreo y Estadıstica Distribucion de Gumbel

Intervalo Frecuencia Probabilidad FrecuenciaInferior Superior Absoluta Acumulada Relativa Acumulada Intervalo Esperada

0 2 10 10 0.020 0.0225 0.0225 11.30 2 10 10 0.020 0.0225 0.0225 11.32 4 55 65 0.110 0.1426 0.1201 60.04 6 102 167 0.204 0.3679 0.2253 112.66 8 121 288 0.242 0.5984 0.2306 115.38 10 85 373 0.170 0.7683 0.1698 84.9

10 12 53 426 0.106 0.8734 0.1051 52.612 14 29 455 0.058 0.9329 0.0595 29.714 16 25 480 0.050 0.9650 0.0321 16.016 18 10 490 0.020 0.9819 0.0169 8.418 20 5 495 0.010 0.9906 0.0088 4.420 22 3 498 0.006 0.9952 0.0045 2.322 24 2 500 0.004 0.9975 0.0023 1.2

500 498.8

Cuadro 3: Frecuencias de los 500 valores simulados

Figura 4: Frecuencias de los 500 valores simulados

Estimacion de Parametros por el Metodo de Momentos. Con el metodo de momentos, primero,se procede a estimar el parametro β mediante la siguiente formula, donde s = 3.85932804129594, valorextraıdo del cuadro 2

β =s√

6

π= 3.00910572870987

Se adopta el valor 7.98003736182666 para la media aritmetica X y el valor 0.577215664901532 para laconstante de Euler γ , ambas junto con la estimacion de β se sustituyen en la siguiente formula:

µ = X − γβ = 6.24313439787039

Comparados con los valores de los parametros originales µ = 3 y β = 6 respectivamente la aproximacionresulta aceptable.

Numero IV 15 Julio 2016

Page 17: ´ISTICA Y M - pragmamexico.com.mx · de inter´es tanto para especialistas en Estad ´ıstica, como para investigadores en Ciencias Pol ´ıticas y Sociales. Uno de los eventos que

Revista de Muestreo y Estadıstica Distribucion de Gumbel

Estimacion por Maxima Verosimilitud. Las ecuaciones que se deben resolver por maxima verosimi-litud, requieren de valores iniciales de los parametros. En este caso se adoptan los valores estimados pormomentos y al sustituirlos, ambas ecuaciones adoptan valores distintos de cero:

−β + x−

n∑i=1

xie− xiβ

n∑i=1

e−xiβ

= 0.104893092659897

−β ln[ 1

n

n∑i=1

e−xiβ

]− µ = −0.05142799

Utilizando el algoritmo de optimizacion no lineal Gradiente Reducido Generalizado (GRG2 GeneralizedReduced Gradient) desarrollado por la Universidad Leon Lasdon de Austin, Texas; partiendo de las esti-maciones de momentos y tomando como objetivo la igualdad a cero para ambas ecuaciones, se obtienenlas siguientes aproximaciones:

−β + x−

n∑i=1

xie− xiβ

n∑i=1

e−xiβ

= −1.21992771E−9

−β ln[ 1

n

n∑i=1

e−xiβ

]− µ = 2.412915E−8

Los valores de los parametros de Maxima Verosimilitud que se obtienen con estas aproximaciones sonligeramente diferentes:

β = 3.0720644677463 µ = 6.21900522331739

Para comparar ambas soluciones, se procedio a calcular la estadıstica de ajuste Abs(T) de KolmogorovSmirnov y se observa una ligera disminucion de la estadıstica del orden de 1.4% en los estimadores deMaxima Verosimilitud.

Abs(T) Momentos = 0.0191879 Abs(T) Max. Ver. = 0.0189243

Optimizacion de Estimadores Mediante Distribuciones Teorica y Empırica Otra alternativa paramejorar los estimadores de momentos o de maxima verosimilitud es siguiendo el criterio de la prueba deKolmogorov Smirnov. Se construyen las distribuciones teorica y empırica que se utilizan en esta prueba yse calculan los valores absolutos de las diferencias en valor absoluto entre ambas distribuciones, valuadaspara cada punto ordenado de la muestra. Como estadıstica objetivo a minimizar se toma la suma de losvalores absolutos de las diferencias. Se parte de los valores iniciales de los parametros estimados pormomentos o maxima verosimilitud para el calculo de la distribucion teorica y se utiliza el mismo algoritmode programacion no lineal para minimizar la funcion objetivo. En este caso se partio de los estimadoresde momentos y el valor de la estadıstica Abs(T) de la prueba de Kolmogorov Smirnov se reduce mas quecon los estimadores de Maxima Verosimilitud, hasta un 9% respecto de los estimadores de momentos.

Abs(T) KW =0.0174474

Numero IV 16 Julio 2016

Page 18: ´ISTICA Y M - pragmamexico.com.mx · de inter´es tanto para especialistas en Estad ´ıstica, como para investigadores en Ciencias Pol ´ıticas y Sociales. Uno de los eventos que

Revista de Muestreo y Estadıstica Distribucion de Gumbel

7. Ajuste de la Distribucion Gumbela Maximos de Muestras de Valores Normales

La simulacion de valores de una variable aleato-ria Gumbel es obvio que ajusten a la distribucionteorica, pero la distribucion Gumbel ha sido uti-lizada para modelar valores maximos de caudalesde rıos en hidrologıa, temperaturas en meteo-rologıa, valores de siniestros en seguros, etc. Eneste ejemplo se tomaron muestras simuladas detamano n = 25 cada una de una distribucion nor-mal con media 500 y desviacion estandar 200. Decada muestra de 25 observaciones se registra elmaximo. Esta operacion se repitio 2400 veces, de talmodo que al final se dispuso de 2400 maximos. Laaccion inmediata fue ajustar una distribucion Gum-bel a estos valores. Las estadısticas basicas de estassimu-laciones se presentan en el cuadro 4.

Estadısticas Basicasde Maximos Simulados

n 25Muestras 2400Maximo 1363.71Mınimo 634.89Media 893.31Mediana 885.15Varianza 10460.68Desv. Est. 102.28Coeficiente de Asimetrıa 0.5796Constante de Euler 0.57721566

Cuadro 4: Estadısticas Basicas

Observamos que la media de los maximos 634.89, excede a la media de la poblacion normal de origen(500). La probabilidad calculada con la distribucion normal de observar un valor mayor o igual a 634.89es 0.02462. La desviacion estandar de los maximos se reduce a 102.28, pero el coeficiente de asimetrıaque es cero para la distribucion normal, asciende a 0.5796, evidencia del alargamiento (figura 5 ) de lacola derecha de la distribucion.

Marca de FrecuenciaClase Absoluta

625 2675 27725 116775 283825 417875 496925 437975 2771025 1721075 901125 421175 211225 121275 71325 01375 1

Cuadro 5: Estadısticas Basicas

Figura 5: Distribucion de Frecuencias de Maximos de2400 Muestras Normales

Numero IV 17 Julio 2016

Page 19: ´ISTICA Y M - pragmamexico.com.mx · de inter´es tanto para especialistas en Estad ´ıstica, como para investigadores en Ciencias Pol ´ıticas y Sociales. Uno de los eventos que

Revista de Muestreo y Estadıstica Distribucion de Gumbel

A continuacion se procedio a estimar los parametros por el metodo de momentos, cuyos valores se adop-taron como de inicio para obtener a continuacion los estimadores de Maxima Verosimilitud mediante elalgoritmo descrito de programacion no lineal, estos ultimos se adoptan para el ajuste.

β = 89.4628168252321 µ = 844.749307719002

En el cuadro 6 se presentan las frecuencias observadas y esperadas de acuerdo a la distribucion Gumbelajustada, ası como las frecuencias relativas acumuladas y las probabilidades acumuladas por intervalos.La diferencia entre el total de frecuencias observadas y esperadas se debe a que la distribucion teorica setrunca en el ultimo intervalo. Finalmente se aplico la prueba de Kolmogorov Smirnov para verificar labondad de ajuste.

Intervalo Frecuencia Probabilidad FrecuenciaInferior Superior Absoluta Acumulada Relativa Acumulada Intervalo Esperada

600 650 2 2 0.00083 0.00015 0.00015 2650 700 27 29 0.01208 0.00645 0.00631 15700 750 116 145 0.06042 0.05592 0.04947 119750 800 283 428 0.17833 0.19223 0.13631 327800 850 417 845 0.35208 0.38946 0.19723 473850 900 496 1,341 0.55875 0.58319 0.19373 465900 950 437 1,778 0.74083 0.73465 0.15146 364950 1000 277 2055 0.85625 0.83834 0.10369 249

1000 1050 172 2227 0.92792 0.90408 0.06574 1581050 1100 90 2317 0.96542 0.94397 0.03989 961100 1150 42 2359 0.98292 0.96756 0.02360 571150 1200 21 2380 0.99167 0.98132 0.01376 331200 1250 12 2392 0.99667 0.98928 0.00795 191250 1300 7 2399 0.99958 0.99385 0.00458 111300 1350 0 2399 0.99958 0.99648 0.00263 61350 1400 1 2400 1.00000 0.99799 0.00151 4

500 498.8

Cuadro 6: Ajuste de la Distribucion Gumbel para Maximos de Muestras Normales

(a) Frecuencias (b) Distribucion Acumulada

Figura 6: Maximos de Muestras Normales n=25, absolutas y esperadas cuadro 6

Numero IV 18 Julio 2016

Page 20: ´ISTICA Y M - pragmamexico.com.mx · de inter´es tanto para especialistas en Estad ´ıstica, como para investigadores en Ciencias Pol ´ıticas y Sociales. Uno de los eventos que

Revista de Muestreo y Estadıstica Distribucion de Gumbel

8. Retornos de Inundaciones del Rıo Rodano

J. E. Gumbel escribio un artıculo referente a la modelacion de las descargas maximas anuales observadasdel rıo Rodano en Francia. Para ello utilizo datos correspondientes a los anos 1826 a 1936. Los datos,ordenados de menor a mayor se reproducen en el cuadro 7 y a continuacion se procedera a efectuarel ajuste de la distribucion de Gumbel mediante maxima verosimilitud, Gumbel utilizo en su artıculooriginal estimadores de momentos. Hay que considerar las limitaciones tecnologicas que se tenıan en1941.

Data Source: E. Gumbel (1941)“The Return Period of Flood Flows”

The Annals of Mathematical Statistics, Vol. 12,#2, pp.163-190899 1560 1992 2145 2240 2467 2586 2773 3067 3444

1172 1639 1992 2145 2258 2475 2594 2773 3126 34441231 1706 2006 2153 2281 2475 2594 2839 3179 34801272 1780 2006 2160 2296 2475 2594 2856 3214 36061272 1829 2013 2168 2327 2491 2602 2881 3250 36251432 1850 2050 2175 2342 2514 2626 2881 3266 37081432 1857 2050 2206 2358 2514 2627 2965 3293 38011439 1913 2072 2206 2381 2514 2643 3007 3310 38101444 1913 2094 2206 2420 2514 2675 3050 3310 39051502 1934 2101 2221 2444 2538 2675 3058 3354 40961541 1955 2115 2236 2452 2554 2773 3067 3426 4105

4390

Cuadro 7: Retornos de Inundaciones del Rıo Rodano

A continuacion se muestran en el cuadro 8 las estadısticas basicas de la muestra.

Estadısticas Basicasn 111Media 2493.35Mediana 2467.00Mınimo 899.00Maximo 4390.00Varianza 490385.34Desviacion Estandar 700.28Coeficiente de Asimetrıa 0.33

Cuadro 8: Estadısticas Basicas del cuadro 7

Los estimadores de momentos para los parametros de la distribucion Gumbel son los siguientes.

β = 546.0023241 µ = 2178.190257

La tabla de frecuencias observadas y esperadas de acuerdo a la distribucion Gumbel ajustada, junto con

Numero IV 19 Julio 2016

Page 21: ´ISTICA Y M - pragmamexico.com.mx · de inter´es tanto para especialistas en Estad ´ıstica, como para investigadores en Ciencias Pol ´ıticas y Sociales. Uno de los eventos que

Revista de Muestreo y Estadıstica Distribucion de Gumbel

la grafica, permiten evaluar visualmente la adecuacion del modelo.

Intervalo Frecuencia Probabilidad FrecuenciaInferior Superior Absoluta Acumulada Relativa Acumulada Intervalo Esperada

0 1000 1 1 0.00901 0.00017 0.00017 0.01000 1500 8 9 0.08108 0.03134 0.03116 3.51500 2000 15 24 0.21622 0.25010 0.21876 24.32000 2500 36 60 0.54054 0.57427 0.32417 36.02500 3000 24 84 0.75676 0.80093 0.22666 25.23000 3500 18 102 0.91892 0.91499 0.11406 12.73500 4000 6 108 0.97297 0.96507 0.05008 5.64000 4500 3 111 1.00000 0.98587 0.02080 2.3

111 109.4

Cuadro 9: Ajuste de la Distribucion Gumbel para Maximos de Muestras Normales

Figura 7: Frecuencias de Esperadas y Observadas, descargas Rıo Rodano

La verificacion de la bondad de ajuste mediante la prueba de Kolmogorov Smirnov resulto positiva, apesar de que la muestra de 111 observaciones resulta un tanto reducida.

Numero IV 20 Julio 2016

Page 22: ´ISTICA Y M - pragmamexico.com.mx · de inter´es tanto para especialistas en Estad ´ıstica, como para investigadores en Ciencias Pol ´ıticas y Sociales. Uno de los eventos que

Revista de Muestreo y Estadıstica Distribucion de Gumbel

9. Conclusion

Concluimos que la distribucion de Gumbel es un excelente modelo para diversos tipos de valores extremosy sus campos de aplicaciones en hidrologıa, meteorologıa, seguros y finanzas entre otros, le otorga unagran versatilidad.

Referencias

[Gumbel, 1935] Gumbel, J. (1935). Les valeurs extremes des distributions statistiques. Annales de l’I.H.P., Tome 5(No. 2):115 – 158.

[Gumbel, 1941] Gumbel, J. (1941). The return period of flood flows. The Annals of Mathematical Statis-tics, Vol. 1(No .2):pp. 163 – 190.

[Johnson and S., 1970] Johnson, N. and S., K. (1970). Distributions in Statistics. Continuos Univariate.Houghton Mifflin Company.

[S. and Cenac, 2005] S., M. and Cenac, M. (2005). Estimating parameters of gumbel distribution us-ing the methods of moments, probability weighted moments and maximum likelihood. Revista deMatematica: Teorıa y Aplicaciones.

[Sarabia Alegrıa, 2007] Sarabia Alegrıa, J.M.; Gomez Deniz, E. V. P. F. (2007). Estadıstica actuarial :teorıa y aplicaciones. Pearson Prentice Hall.

Numero IV 21 Julio 2016

Page 23: ´ISTICA Y M - pragmamexico.com.mx · de inter´es tanto para especialistas en Estad ´ıstica, como para investigadores en Ciencias Pol ´ıticas y Sociales. Uno de los eventos que

Guillermo Aaron Espinosa Reyes

Ley de BenfordAplicacion en los dıgitos de orden superior

Page 24: ´ISTICA Y M - pragmamexico.com.mx · de inter´es tanto para especialistas en Estad ´ıstica, como para investigadores en Ciencias Pol ´ıticas y Sociales. Uno de los eventos que

Revista de Muestreo y Estadıstica

LEY DE BENFORDCURIOSIDAD EN LOS DIGITOS

Guillermo Aaron Espinosa Reyes∗

“Dondequiera que haya un numero esta la belleza”: Proclo

Introduccion

LAS FRECUENCIAS SOBRE EL PRIMER DIGITO SIGNIFICATIVO en las cifras de un censo practico En lascantidades454.24, 0.157,π, 10e, 0.097el primerdıgitosignificativoen cada unaes 4, 1, 3, 2, 9respecti-vamente,el segundodıgitosignificativoen cada unaes 5, 5, 1, 7, 7respectiva-mente y, eltercer dıgitosignificativoen cada unaes 4, 7, 4, 1y en elultimo casono existe.Observemosque el ordendel dıgitosignificativo(primero,segundo,tercero, ...)es inde-pendienteal nivelde unidad(unidad,decena,centena, ...)

En lascantidades454.24, 0.157,π, 10e, 0.097el primerdıgitosignificativoen cada unaes 4, 1, 3, 2, 9respecti-vamente,el segundodıgitosignificativoen cada unaes 5, 5, 1, 7, 7respectiva-mente y, eltercer dıgitosignificativoen cada unaes 4, 7, 4, 1y en elultimo casono existe.Observemosque el ordendel dıgitosignificativo(primero,segundo,tercero, ...)es inde-pendienteal nivelde unidad(unidad,decena,centena, ...)

o listado de mag-nitudes disponibles en nuestra vida cotidiana, esperarıamos que se distibuyera equitativamente, pero en la

practica observamos que no es ası. En el numero II de esta edicion, quien esto escribe, menciona que la aparicion deeste dıgito no se distribuye uniformemente, sino se distribuye segun la Ley de Benford, atribuıda al fısico norteame-ricano Frank Albert Benford .

En el presente artıculo retomamos un tema que ya discutimos anteriormente, la Ley de Benford que habiamosabordado en el segundo numero [Espinosa G.A., 2014] de la presente publicacion, pero la observacion que haremosno sera en el primer dıgito significativo, sino en los dıgitos de orden superior (segundo, tercero, ...) y revisaremossu distribucion, es decir, trataremos una generalizacion de la Ley de Benford. Si bien no es necesario, es altamenterecomendable dar una lectura de nuestro trabajo mencionado en este parrafo para conocer el contexto de este trabajo.

1. Dıgitos significativos

En la vida cotidiana debemos tener control de registrosen listados o tabulados, ya sea censos de poblaciones deespecies, bancos informaticos, registros economicos, etc,para su posterior uso en la toma de decisiones en di-versos ambitos, ya sea academicos, cientıficos, empresa-riales, polıticos, entre otros. Cada uno de estos datos seconstruye gracias a nuestro sistema decimal con distin-tos niveles de unidad (unidad, decena, centena, unidadde millar, decena de millar, . . . ).

De acuerdo a la literatura en Analisis Numerico, losdıgitos significativos en las magnitudes son aquellos queconsideramos nos son utiles para la precision que reque-rimos para trabajar con tales magnitudes.

Precisaremos el concepto de orden en los dıgitos signi-ficativos: la construccion de las cifras dado nuestro sis-tema decimal se inicia desde el dıgito de unidades, des-pues se sigue al dıgito de las decenas, despues se sigue aldıgito de las centenas, . . . , y ası sucesivamente de acuerdoal incremento de la magnitud.

Entenderemos como el primer dıgito significativo de unregistro numerico, como aquel que, leyendolo de izquierdaa derecha, aparece en primer lugar, el segundo dıgito sig-nificativo aparece a la derecha del primero, y ası sucesi-vamente. El orden del dıgito significativo (primero, se-gundo, tercero, ...) es independiente al nivel de unidad(unidad, decena, centena, . . . ). Por construccion el nivelde unidad se identifica de derecha a izquierda. Este tra-bajo trata el orden de los dıgitos significativos, es impor-tante precisarlo.

∗Actualmente asesor en computo, en PRAGMA S.A. de C.V.Profesor Adjunto del Departamento de Matematicas de la Facultad de Ciencias de la UNAM.E-mail: [email protected]

Numero IV 23 Julio 2016

Page 25: ´ISTICA Y M - pragmamexico.com.mx · de inter´es tanto para especialistas en Estad ´ıstica, como para investigadores en Ciencias Pol ´ıticas y Sociales. Uno de los eventos que

Revista de Muestreo y Estadıstica Ley de Benford

3. Ley de Benford o Ley del Primer Dıgito

La Ley de Benford se usa en listados de registroscon distintos niveles de unidad, es decir, unidad,decena, centena, unidad de milla, decena de milla,centena de millar, unidad de millon, etc.

Repasemos la Ley de Benford para el primer dıgito,la cual fue discutida en el segundo numero de estapublicacion [Espinosa G.A., 2014]. Si tomamos deun listado (censo de poblacion de especies, vivien-das en localidades de un paıs, votos por un par-tido polıtico, magnitudes astronomicas, perımetrosde lagos, altura de arboles, . . . ) de la vida practica,el primer dıgito significativo k de cada registro, es-perarıamos que k se distribuya uniformente entrelos posibles valores 1, 2, . . . , 9; es decir que la proba-bilidad de aparicion en cada dıgito se puede expre-sar de la siguiente forma

∀ k 1 ≤ k ≤ 9; p(k) =1

9

Esto, es lo que esperarıamos. Sin embargo enla practica se observa en tales registros que enel primer dıgito significativo hay una alta cargade aparicion de los dıgitos menores, y son es-casas las apariciones de los dıgitos mayores, o enotras palabras el comportamiento de la probabi-lidad de aparicion en los dıgitos no es uniforme[Feller, 2007].

La ley de Benford para el primer dıgito significa-tivo (cuadro 1 ) nos describe la probabilidad teoricade aparicion. Recordemos que el primer dıgito sig-nificativo nunca es cero.

Dıgito k p (k)1 30.10%2 17.61%3 12.49%4 9.69%5 7.92%6 6.69%7 5.80%8 5.12%9 4.58%

Total 100.0%

Cuadro 1: Distribucion del primer dıgito k

La probabilidad de aparicion del primer dıgitosegun Benford viene dada por

Log(k + 1)− Log(k) = p(k) (1)

En la presente edicion, segundo numero ya discuti-mos la distribucion del primer dıgito significativo yla construccion de esta tabla. Ademas se comprobocon multiples ejemplos tales probabilidades.

Podemos desarrollar la expresion 1 como

log(k + 1)− log(k) = p(k)

log(k + 1

k

)= p(k)

log

(1 +

1

k

)= p(k) (2)

Figura 1: Distribucion de Benford del Primer dıgito

Numero IV 24 Julio 2016

Page 26: ´ISTICA Y M - pragmamexico.com.mx · de inter´es tanto para especialistas en Estad ´ıstica, como para investigadores en Ciencias Pol ´ıticas y Sociales. Uno de los eventos que

Revista de Muestreo y Estadıstica Ley de Benford

4. Notacion

En el presente trabajo de este punto en adelante, omitiremos aclarar que tenemos un censo de magni-tudes de la vida cotidiana con distintos niveles de unidad, y que nos enfocamos a observar los registrosde tal censo. Si expresamos que hablamos del primer, segundo o tercer dıgito significativo ya daremos porhecho que, nos referimos a tal dıgito en los registros del mencionado censo.

Denotaremos

• i ∈ N

• ∆i como el dıgito de orden i-esimo.Ası ∆1,∆2,∆3 son el primer, segundo y tercer dıgito significativo respectivamente.

• δi son los valores posibles que toma la variable ∆i

Ası 1 ≤ δ1 ≤ 9 y 0 ≤ δi ≤ 9 con i > 1 ya que el primer dıgito significativo nunca es cero.

• di son valores fijos del valor δi

• p(∆i = di) es la probabilidad de aparicion del dıgito di en el orden i-esimo

• p(∆1 = δ1,∆2 = δ2 · · ·∆k−1 = δk−1∆k = δk) como la probabilidad que los k primeros lugares seanformados por la palabra de dıgitos δ1δ2 · · · δk−1δkTambien nos referimos a este evento como p(δ1δ2 · · · δk−1δk)

5. Revision de probabilidades en dıgitos de orden superior

En esta parte revisaremos casos particulares de eventos acerca de los dıgitos de orden superior.

• Supongamos que deseamos hallar la probabilidad del evento en que los dos primeros dıgitos en unavariable Y sean ∆1∆2 = 10.

Tenemos que (10) · 10n ≤ Y < (11) · 10n para alguna n; tomando logaritmos como lo hicimos para labusqueda del primer dıgito tenemos que

n+ log(10) ≤ log Y < n+ log(11)

si tomamos X = log(Y ), haciendo las mismas consideraciones sobre la uniformidad de X mencionadas enel numero II [Espinosa G.A., 2014] , tenemos que

p(∆1 = 1,∆2 = 0) = log(11

10

)= log

(1 +

1

10

)= 0.04139

Numero IV 25 Julio 2016

Page 27: ´ISTICA Y M - pragmamexico.com.mx · de inter´es tanto para especialistas en Estad ´ıstica, como para investigadores en Ciencias Pol ´ıticas y Sociales. Uno de los eventos que

Revista de Muestreo y Estadıstica Ley de Benford

Observemos que en este caso, para el evento buscado p(∆1 = 1,∆2 = 0) usamos la expresion log(

1 + 110

),

se infiere que al cuadro 1 podemos generalizarlo para el conjunto N. Tambien observemos que en esteevento se considera que el primer y segundo dıgitos significativos al mismo tiempo tengan valores fijos.

• Supongamos ahora que deseamos hallar la probabilidad del evento en que el segundo dıgito significativosea igual a 0, para ello la palabra δ10 debe aparecer en los dos primeros dıgitos significativos, es decirdebemos hallar la suma de probabilidades de la siguiente expresion.

p(∆2 = 0) =

9∑δ1=1

p(δ10)

La expresion anterior requiere que conozcamos las respectivas probabilidades de aparicion de los nueveposibles casos 10, 20, 30, 40, 50, 60, 70, 80, 90. No hemos demostrado que el cuadro 1 se generaliza para elconjunto N pero las probabilidades las podemos calcular analogamente como el caso del evento anterioren esta misma seccion, ası usamos la expresion 2

p(∆2 = 0) =

9∑δ1=1

p(δ10)

=

9∑δ1=1

log(

1 +1

δ10

)= log

(1 +

1

10

)+ log

(1 +

1

20

)+ log

(1 +

1

30

)+ log

(1 +

1

40

)+ log

(1 +

1

50

)+ log

(1 +

1

60

)+ log

(1 +

1

70

)+ log

(1 +

1

80

)+ log

(1 +

1

90

)= 0.0414 + 0.0212 + 0.0142 + 0.0107 + 0.0086 + 0.0072 + 0.0062 + 0.0054 + 0.0048

= 0.119679 6= 1

10

Observemos que este evento podemos interpretarlo como una suma de eventos independientes similaresal evento del ejemplo anterior. La probabilidad encontrada no es 1

10 como una distribucion uniforme, quees la que esperarıamos.

• Supongamos ahora que deseamos hallar la probabilidad del evento en que el tercer dıgito significativosea igual a 5, para ello la palabra δ1δ25 debe aparecer en los primeros tres dıgitos significativos, es decirdebemos hallar la suma de probabilidades de la siguiente expresion.

p(∆3 = 5) =∑

1≤δ1≤90≤δ2≤9

p(δ1δ25)

La expresion anterior requiere que conozcamos las respectivas probabilidades de aparicion de los 99posibles casos 105, 115, · · · , 435, · · · , 985, , 995. Al igual que en los eventos anteriores se usa la expresion 2

Numero IV 26 Julio 2016

Page 28: ´ISTICA Y M - pragmamexico.com.mx · de inter´es tanto para especialistas en Estad ´ıstica, como para investigadores en Ciencias Pol ´ıticas y Sociales. Uno de los eventos que

Revista de Muestreo y Estadıstica Ley de Benford

p(∆3 = 5) =∑

1≤δ1≤90≤δ2≤9

p(δ1δ25)

=∑

1≤δ1≤90≤δ2≤9

p(100δ1 + 10δ2 + 5)

=∑

1≤δ1≤90≤δ2≤9

log(

1 +1

100δ1 + 10δ2 + 5

)

= log(

1 +1

105

)+ log

(1 +

1

115

)+ · · ·+ log

(1 +

1

995

)son 99 casos posibles para nuestro evento

= 0.00412 + 0.00376 + · · ·+ 0.00044

= 0.099788 6= 1

10

Se aplica las mismas observaciones del anterior evento, es una suma de eventos independientes. Laprobabilidad encontrada no es 1

10 como una distribucion uniforme, que es la que esperarıamos.

6. Ley de Benford para dıgitos de orden superior

La Ley de Benford para dıgitos de orden superior puede referirse a los siguientes eventos

• los primeros k dıgitos ∆1 . . .∆k ocupen la palabra dada d1 . . . dkes decir se busca la probabilidad p(∆1 = d1, . . .∆k = dk)

• el k -esimo dıgito sea un valor fijo dk considerando todos los casos sobre el resto de los dıgitoses decir buscamos p(∆k = dk)

• el segundo evento de esta lista es una union de eventos independientes, descritos en el primer item.El segundo item es de mayor interes para la verificacion de la Ley de Benford.

Consideremos el evento descrito en el primer item de la lista anterior. Si tomamos una magnitud Y alazar, podemos considerarla como una variable aleatoria Y > 0 con alguna distribucion desconocida. Losprimeros k dıgitos significativos forman la palabra δiδ2 · · · δk−1δk si y solo si

10n(δ1δ2 · · · δk−1δk) ≤ Y < 10n(δ1δ2 · · · δk−1δk + 1)

para alguna n, lo cual significa que al tomar el logaritmo de base 10

n+ Log(δ1δ2 · · · δk−1δk) ≤ X < n+ Log(δ1δ2 · · · δk−1δk + 1)

para la variable X = Log Y . Ahora si la dispersion de Y es muy grande, entonces X esta distribuidaaproximadamente en forma uniforme. Ası la probabilidad de que los primeros k dıgitos ∆1 . . .∆k ocupenla palabra δ1 . . . δk esta dada por

Log(δ1δ2 · · · δk−1δk + 1)− Log(δ1δ2 · · · δk−1δk) = p(δ1δ2 · · · δk−1δk)

Numero IV 27 Julio 2016

Page 29: ´ISTICA Y M - pragmamexico.com.mx · de inter´es tanto para especialistas en Estad ´ıstica, como para investigadores en Ciencias Pol ´ıticas y Sociales. Uno de los eventos que

Revista de Muestreo y Estadıstica Ley de Benford

Entonces podemos generalizar el cuadro 1 al conjunto N con la siguiente formula

p(δ1δ2 · · · δk−1δk) = Log(

1 + 1δ1δ2 · · · δk−1δk

)(3)

Una expresion no menos importante y equivalente a la expresion 3 puede ser la siguiente:

p(δ1δ2 · · · δk−1δk) = Log

(1 + 1

k∑i=1

10k−iδi

)

Ası, la expresion 3 es la probabilidad de que en una magnitud Y los prımeros dıgitos sean exactamente∆1 = δ1,∆2 = δ2 · · · ∆k−1 = δk−1,∆k = δk, resolviendose ası el primer evento.

Vayamos al evento descrito en el segundo item, es decir que el dıgito k-esimo sea un valor fijo do. Debe-mos considerar las posibilidades de todas las cifras que cumplen esa condicion, es decir todas las cifrasδ1δ2 · · · δk−1, do, donde 1 ≤ δ1 ≤ 9, y 0 ≤ δi ≤ 9 con 2 ≤ i ≤ k − 1, lo cual sucede en 9 · 10k−2 posibles casos;por lo que debemos sumar cada una de las probabilidades p(δ1δ2 · · · δk−1, do)

Las probabilidades p(δ1δ2 · · · δk−1do) describen 9 · 10k−2 eventos independientes. Ası, tenemos que hallarla sumatoria

∑1≤δ1≤90≤δi≤92≤i≤k−1

p(δ1δ2 · · · δk−1, do) y cada sumando se halla con la expresion 3 . Entonces tenemos:

p(∆k = dk) =∑

1≤δ1≤90≤δi≤9

2≤i≤k−1

Log(

1 + 1δ1δ2 · · · δk−1dk

)(4)

La expresion 4 es la probabilidad de que en una magnitud Y el k-esimo dıgito sea exactamente ∆k = dk.Ası, tenemos resuelto el segundo evento, el cual es de mayor interes en la Ley de Benford para dıgitos deorden superior.

En el cuadro 2 calculamos con la expresion 4 las probabilidades de los valores de los dıgitos hastael dıgito de 5o orden, observemos que incrementando el orden del dıgito, las probabilidades se acercana la uniforme. El cuadro 2 es una extension del publicado por The Journal of the American TaxationAssociation[Nigrini, 1996] .

Valor Nivel de orden del dıgitodel dıgito 1er. 2do. 3er. 4o. 5o.

0 11.9679% 10.1784% 10.0176% 10.0018%1 30.1030% 11.3890% 10.1376% 10.0137% 10.0014%2 17.6091% 10.8821% 10.0972% 10.0098% 10.0010%3 12.4939% 10.4330% 10.0573% 10.0059% 10.0006%4 9.6910% 10.0308% 10.0178% 10.0019% 10.0002%5 7.9181% 9.6677% 9.9788% 9.9980% 9.9998%6 6.6947% 9.3375% 9.9401% 9.9941% 9.9994%7 5.7992% 9.0352% 9.9019% 9.9902% 9.9990%8 5.1153% 8.7570% 9.8641% 9.9863% 9.9986%9 4.5757% 8.4997% 9.8267% 9.9824% 9.9982%

Total 100.0% 100.0% 100.0% 100.0% 100.0%

Cuadro 2: Probabilidad p(∆k = δi) para dıgitos de orden superior

Numero IV 28 Julio 2016

Page 30: ´ISTICA Y M - pragmamexico.com.mx · de inter´es tanto para especialistas en Estad ´ıstica, como para investigadores en Ciencias Pol ´ıticas y Sociales. Uno de los eventos que

Revista de Muestreo y Estadıstica Ley de Benford

Tanto en el cuadro 2 como en la figura 2 podemos observar que en la Ley de Benford para dıgitos deorden superior se mantiene la tendencia de que los menores dıgitos ( 0, 1, . . . ) son mas frecuentes quelos mayores ( . . . , 8, 9). Sin embargo la presencia se va pareciendo a la distribucion uniforme mientras seincrementa el orden del dıgito que se desea observar.

Figura 2: Probabilidad p(∆k = δi) para dıgitos de orden superior

En la practica para comprobar la ley de Benford en dıgitos de orden superior, generalmente debemosincrementar nuestro volumen de datos disponibles respecto a lo necesario para el primer dıgito, parapoder apegarnos al modelo teorico.

7. Poblacion en Mexico y la Ley de Benford

Una aplicacion frecuente de la Ley de Benfordes sobre la revision de tamanos poblacionales enregiones geograficas, este tipo de registros tienemayor variabilidad ya que los registros varıan endistintos niveles de unidad y por ello son ilus-trativos para este tema. Ya se hizo una ve-rificacion en el numero II de esta publicacion[Espinosa G.A., 2014] para las poblaciones de las 32

entidades la Republica Mexicana y las de 192,245localidades segun el Censo de Poblacion y Vivienda2010. Retomamos en el cuadro 3 los resultadosdel Censo [INEGI, 2016] pero solamente haremosel ejercicio a nivel localidad, para tener un conside-rable numero de observaciones, despues tomaremosel segundo dıgito significativo de cada registro parasu observacion.

Numero IV 29 Julio 2016

Page 31: ´ISTICA Y M - pragmamexico.com.mx · de inter´es tanto para especialistas en Estad ´ıstica, como para investigadores en Ciencias Pol ´ıticas y Sociales. Uno de los eventos que

Revista de Muestreo y Estadıstica Ley de Benford

No. Entidad Municipio Localidad Poblacion1 01 Aguascalientes 001 Aguascalientes 0001 Aguascalientes 722,2502 01 Aguascalientes 001 Aguascalientes 0094 Granja Adelita 143 01 Aguascalientes 001 Aguascalientes 0096 Agua Azul 374 01 Aguascalientes 001 Aguascalientes 0100 Rancho Alegre 105 01 Aguascalientes 001 Aguascalientes 0102 Los Arbolitos [Rancho] 76 01 Aguascalientes 001 Aguascalientes 0104 Ardillas de Abajo 147 01 Aguascalientes 001 Aguascalientes 0106 Arellano 1,382· · · · · · · · · · · · · · · · · · · · · · · ·

50070 09 Distrito Federal 013 Xochimilco 0271 Tlalmelac 5050071 09 Distrito Federal 013 Xochimilco 0272 Xometitla (Tlalitenco) 45650072 09 Distrito Federal 014 Benito Juarez 0001 Benito Juarez 38,543950073 09 Distrito Federal 015 Cuauhtemoc 0001 Cuauhtemoc 531,83150074 09 Distrito Federal 016 Miguel Hidalgo 0001 Miguel Hidalgo 372,88950075 09 Distrito Federal 017 Venustiano Carranza 0001 Venustiano Carranza 430,97850076 10 Durango 001 Canatlan 0001 Canatlan 11,49550077 10 Durango 001 Canatlan 0004 Colonia Anahuac 89750078 10 Durango 001 Canatlan 0005 Arnulfo R. Gomez 76850079 10 Durango 001 Canatlan 0010 Benjamın Aranda 33250080 10 Durango 001 Canatlan 0012 Bruno Martınez 756· · · · · · · · · · · · · · · · · · · · · · · ·

87808 14 Jalisco 125 San Ignacio Cerro Gordo 0082 Tuna De Arriba 11987809 14 Jalisco 125 San Ignacio Cerro Gordo 0083 Tuna De Enmedio 8687810 14 Jalisco 125 San Ignacio Cerro Gordo 0085 El Capulin Verde 5487811 14 Jalisco 125 San Ignacio Cerro Gordo 0088 Bellavista 5187812 14 Jalisco 125 San Ignacio Cerro Gordo 0089 San Antonio De Los Franco 4987813 14 Jalisco 125 San Ignacio Cerro Gordo 0090 El Durazno 687814 14 Jalisco 125 San Ignacio Cerro Gordo 0091 La Barranca 1787815 15 Mexico 001 Acambay 0001 Acambay 4,07787816 15 Mexico 001 Acambay 0002 Agostadero 64587817 15 Mexico 001 Acambay 0003 Agua Limpia 20287818 15 Mexico 001 Acambay 0004 Las Arenas (San Agustın) 76787819 15 Mexico 001 Acambay 0006 Boshi Chiquito 361· · · · · · · · · · · · · · · · · · · · · · · ·

192239 32 Zacatecas 058 Santa Marıa de la Paz 0033 Los Horcones 24192240 32 Zacatecas 058 Santa Marıa de la Paz 0035 Los Trigos 114192241 32 Zacatecas 058 Santa Marıa de la Paz 0036 Marines 2192242 32 Zacatecas 058 Santa Marıa de la Paz 0037 Mesa Grande 192192243 32 Zacatecas 058 Santa Marıa de la Paz 0039 San Isidro 7192244 32 Zacatecas 058 Santa Marıa de la Paz 0041 San Miguel Tepetitlan 75192245 32 Zacatecas 058 Santa Marıa de la Paz 0042 San Rafael 4

Nacional 112,336,538

Cuadro 3: Censo Nacional de Poblacion y Vivienda 2010 a nivel Localidad

El cuadro 3 solo es un extracto de los 192,245 localidades, pero en nuestro analisis si consideramos atodas ellas. En el cuadro 4 tenemos las frecuencias del conteo del segundo dıgito significativo del cuadro3 . En el total observamos que hay 110,845 localidades, esto se debe a que se excluyeron los casos (81,400localidades) como la localidad 320580036, Marines ubicada en el municipio de Santa Marıa de la Paz enZacatecas con solo 2 habitantes (cuadro 3 ) . En localidades de menos de 10 habitantes no podemos hacerel conteo del segundo dıgito significativo y por ello solo se consideran 110,845 de las 192,245 localidades.

Numero IV 30 Julio 2016

Page 32: ´ISTICA Y M - pragmamexico.com.mx · de inter´es tanto para especialistas en Estad ´ıstica, como para investigadores en Ciencias Pol ´ıticas y Sociales. Uno de los eventos que

Revista de Muestreo y Estadıstica Ley de Benford

Valor del Casos Porcentaje Porcentaje Teorico2o. dıgito registrados de casos segun Benford

0 14,777 13.3312% 11.9679%1 13,561 12.2342% 11.3890%2 12,470 11.2499% 10.8821%3 11,716 10.5697% 10.4330%4 11,032 9.9526% 10.0308%5 10,365 9.3509% 9.6677%6 9,800 8.8412% 9.3375%7 9,436 8.5128% 9.0352%8 9,097 8.2070% 8.7570%9 8,591 7.7505% 8.4997%

Total 110,845 100% 100%

Cuadro 4: Conteo del presencia del segundo dıgito en el cuadro 3 vs. Teorico Benford

Figura 3: Conteo del presencia del segundo dıgito en el cuadro 4 vs. Teorico Benford

Podemos observar en el cuadro 4 y en la figura 3 que nuevamente predomina la presencia de los dıgitosmenores sobre la presencia de los mayores, si bien se confirma la prediccion de la Ley de Benford para elsegundo dıgito significativo, notamos algunas diferencias. Es mayor la presencia de los dıgitos menoresrespecto a lo esperado segun Benford, y los dıgitos mayores son mas escasos respecto a lo esperado. Estasdiferencias se deben a que solo tenemos 110,845 registros disponibles.

Numero IV 31 Julio 2016

Page 33: ´ISTICA Y M - pragmamexico.com.mx · de inter´es tanto para especialistas en Estad ´ıstica, como para investigadores en Ciencias Pol ´ıticas y Sociales. Uno de los eventos que

Revista de Muestreo y Estadıstica Ley de Benford

8. Elecciones y Benford

Verificamos en el segundo numero de esta pu-blicacion [Espinosa G.A., 2014] la Ley del primerdıgito para el caso de los 217 municipios del estadode Puebla en los registros del proceso electoral efec-tuado en el 2012, organizado por el entonces, Ins-tituto Federal Electoral, para elegir Presidente delos Estados Unidos Mexicanos [IFE, 2012 ]. Este re-gistro lo usamos por los distintos niveles de unidadque nos proporciona la lista. En este proceso elec-toral hubo cuatro candidatos a elegir: JosefinaVazquez Mota, Enrique Pena Nieto, Andres ManuelLopez Obrador y Gabriel Quadri de la Torre.

Extendemos en esta edicion nuestra labor es-tadıstica para verificar la Ley de Benford en el se-gundo dıgito significativo y ademas incrementamosnuestro numero de observaciones extendiendonosa los votos por candidato en cada municipio de laRepublica Mexicana. En el cuadro 6 tenemos unextracto de los registros que se consideran en esteejercicio. La intencion del ejercicio no es hacer unanalisis polıtico ni medir candidatos ganadores operdedores, la intencion en este trabajo es aplicarla Ley de Benford.

Dıgito Frecuencias Absolutas Porcentajes Observados TeoricoJVM EPN AMLO GQT JVM EPN AMLO GQT Benford

0 271 313 277 255 11.161% 12.828% 11.357% 12.718% 11.968%1 286 270 277 238 11.779% 11.066% 11.357% 11.870% 11.389%2 275 242 273 222 11.326% 9.918% 11.193% 11.072% 10.882%3 268 262 253 201 11.038% 10.738% 10.373% 10.025% 10.433%4 260 256 227 218 10.708% 10.492% 9.307% 10.873% 10.031%5 218 234 234 177 8.979% 9.590% 9.594% 8.828% 9.668%6 227 230 214 161 9.349% 9.426% 8.774% 8.030% 9.337%7 224 212 227 170 9.226% 8.689% 9.307% 8.479% 9.035%8 196 209 241 186 8.072% 8.566% 9.881% 9.277% 8.757%9 203 212 216 177 8.361% 8.689% 8.856% 8.828% 8.500%

Total 2,428 2,440 2,439 2,005 100% 100% 100% 100% 100%

Cuadro 5: Tabla de frecuencias del primer dıgito y comparativo con distribucion de Benford. Frecuenciasresumen del cuadro 6.

Tenemos en el cuadro 5 el conteo de las frecuencias del segundo dıgito significativo que se muestran delcuadro 6 en las cuatro ultimas columnas. Se observa en el cuadro 5 que los totales por candidato no son losmismos entre sı y que en el cuadro 6 se consideran 2,444 municipios. La razon de que no tengamos 2,444casos en cada candidato del cuadro 5 es por que se excluyen del cuadro 6 aquellos casos donde no puedeextraerse el segundo dıgito significativo; por ejemplo en los municipios Canelas y Conteo de Comonfort enDurango hubo solo dos votos en cada uno al candidato Gabriel Quadri de la Torre, no podemos extraer deregistros menores a diez el segundo dıgito significativo (ver cuadro 6 ). Este tipo de casos se excluyen encada candidato y de ahı viene la consecuencia que en el cuadro 5 haya distintos totales por candidato.

Numero IV 32 Julio 2016

Page 34: ´ISTICA Y M - pragmamexico.com.mx · de inter´es tanto para especialistas en Estad ´ıstica, como para investigadores en Ciencias Pol ´ıticas y Sociales. Uno de los eventos que

Revista de Muestreo y Estadıstica Ley de Benford

Tanto en el cuadro 5 como en la figura podemos confirmar que nuevamente predomina la presencia de losdıgitos menores sobre la presencia de los mayores, si bien se confirma la prediccion de la Ley de Benfordpara el segundo dıgito significativo, notamos algunas diferencias.

En el caso de la candidata Josefina Vazquez Mota los dıgitos 0 y 5 fueron escasos respecto a lo esperado,y los dıgitos 1,2 y 3 son mas frecuentes. En el caso de el candidato Enrique Pena Nieto se dieron sobre-presencias de los dıgitos 0 y 9, y subpresencias del dıgito 2 respecto a lo esperado segun Benford. Enel caso del candidato Andres Manuel Lopez Obrador los dıgitos 6 y 0 fueron escasos, pero se nota unincremento de la presencia del dıgito 8 respecto a la distribucion de Benford. En el caso del candidatoGabriel Quadri de la Torre se observa una sobrepresencia de los dıgitos 0 y 4 y una bajopresencia deldıgito 6 respecto a Benford. Estas diferencias se dan debido a que solo contamos con menos de 2,500registros en cada caso.

Figura 4: Conteo del presencia del segundo dıgito en el cuadro 5 vs. Teorico Benford

Numero IV 33 Julio 2016

Page 35: ´ISTICA Y M - pragmamexico.com.mx · de inter´es tanto para especialistas en Estad ´ıstica, como para investigadores en Ciencias Pol ´ıticas y Sociales. Uno de los eventos que

Revista de Muestreo y Estadıstica Ley de Benford

No. Estado Municipio Votos por candidato Extraccion del dıgitoJVM EPN AMLO GQT JVM EPN AMLO GQT

1 Aguascalientes Aguascalientes 107,657 124,811 79,179 29,694 0 2 9 92 Aguascalientes Asientos 5,989 7,524 2,186 2,766 9 5 1 73 Aguascalientes Calvillo 8,827 9,256 2,772 2,414 8 2 7 44 Aguascalientes Cosıo 1,530 3,213 560 273 5 2 6 75 Aguascalientes El Llano 1,703 3,770 1,671 234 7 7 6 36 Aguascalientes Jesus Marıa 13,043 14,482 5,423 2,830 3 4 4 87 Aguascalientes Pabellon de Arteaga 2,675 7,664 3,131 2,745 6 6 1 78 Aguascalientes Rincon de Romos 4,156 8,334 3,432 2,505 1 3 4 59 Aguascalientes San Francisco de los Romo 3,429 6,401 1,909 2,134 4 4 9 1

10 Aguascalientes San Jose de Gracia 889 1,505 1,025 280 8 5 0 811 Aguascalientes Tepezala 2,440 3,754 1,214 222 4 7 2 212 Baja California Ensenada 41,584 70,818 67,755 2,822 1 0 7 813 Baja California Mexicali 119,928 148,946 89,359 2,712 1 4 9 714 Baja California Playas de Rosarito 9,305 12,931 1,3630 2,033 3 2 3 015 Baja California Tecate 10,837 18,509 10,003 2,010 0 8 0 016 Baja California Tijuana 161,052 216,501 212,599 28,619 6 1 1 817 Baja California Sur Comondu 10,803 14,371 4,728 250 0 4 7 518 Baja California Sur La Paz 28,064 45,463 31,740 2,325 8 5 1 3· · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · ·253 Chihuahua Saucillo 4,422 6,575 2,173 245 4 5 1 4254 Chihuahua Temosachic 554 1,683 371 28 5 6 7 8255 Chihuahua Urique 1,097 3,817 379 203 0 8 7 0256 Chihuahua Uruachi 557 1,909 142 29 5 9 4 9257 Chihuahua Valle de Zaragoza 492 1,707 172 22 9 7 7 2258 Distrito Federal Alvaro Obregon 83059 94091 195678 2008 3 4 9 0259 Distrito Federal Azcapotzalco 48,404 69,819 132,616 2,888 8 9 3 8260 Distrito Federal Benito Juarez 77,279 61,916 95,587 2,594 7 1 5 5261 Distrito Federal Coyoacan 78,639 89,399 20,6672 2,046 8 9 0 0262 Distrito Federal Cuajimalpa 21,579 31,506 36,898 2,812 1 1 6 8263 Distrito Federal Cuauhtemoc 53,712 88,026 148,985 2,506 3 8 4 5264 Distrito Federal Gustavo A. Madero 107,009 180,979 367,512 23,025 0 8 6 3265 Distrito Federal Iztacalco 34,856 61,405 126,109 2,545 4 1 2 5266 Distrito Federal Iztapalapa 111,076 217,695 528,451 26,596 1 1 2 6267 Distrito Federal Magdalena Contreras 20,398 33,461 67,997 2,285 0 3 7 2268 Distrito Federal Miguel Hidalgo 56,813 60,900 87,015 2,418 6 0 7 4269 Distrito Federal Milpa Alta 4,592 16,909 33,607 298 5 6 3 9270 Distrito Federal Tlahuac 15,649 42,596 95,258 2,111 5 2 5 1271 Distrito Federal Tlalpan 61,299 79,763 187,194 2,541 1 9 8 5272 Distrito Federal Venustiano Carranza 40,487 78,082 133,271 2,259 0 8 3 2273 Distrito Federal Xochimilco 26,640 51,301 122,447 2,663 6 1 2 6274 Durango Canatlan 3,527 8,241 2,603 286 5 2 6 8275 Durango Canelas 473 1,104 88 2 7 1 8 No Aplica276 Durango Coneto de Comonfort 420 1,203 401 2 2 2 0 No Aplica· · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · ·

2439 Zacatecas Villa de Cos 1,738 8,956 3,379 208 7 9 3 02440 Zacatecas Villa Garcıa 827 4,368 2,738 225 2 3 7 22441 Zacatecas Villa Gonzalez Ortega 794 2,994 1,718 211 9 9 7 12442 Zacatecas Villa Hidalgo 1,676 3,996 2,195 239 6 9 1 32443 Zacatecas Villanueva 3,101 7,750 2,878 258 1 7 8 52444 Zacatecas Zacatecas 10,472 29,798 20,169 2,156 0 9 0 1

Cuadro 6: Extraccion del segundo dıgito en el proceso electoral 2012 para presidente de los EstadosUnidos Mexicanos, por municipio. Presentamos el cuadro por candidato.

Numero IV 34 Julio 2016

Page 36: ´ISTICA Y M - pragmamexico.com.mx · de inter´es tanto para especialistas en Estad ´ıstica, como para investigadores en Ciencias Pol ´ıticas y Sociales. Uno de los eventos que

Revista de Muestreo y Estadıstica Ley de Benford

9. Benford y la agricultura

Se tiene conocimiento que desde los inicios delNeolıtico, el Hombre tiene necesidad de tratar elsuelo con fines alimenticios y el cultivo de vegetalespara poder subsistir. A la par del crecimiento delas sociedades, se convierte la agricultura en uno delos sectores primarios en la actividad economica yen nuestros dıas debido a su importancia es impre-scindible el uso de tecnicas estadısticas y censos quenos proporciona la agronomıa.

Para el Estado es indispensable el control sobre laagricultura. La SAGARPA y el SIAP son las institu-ciones en Mexico que administran los recursos parael campo y porporcionan estadısticas e informacion

geografica del sector agroalimentario. Debido a quela Ley de Benford se aplica a los censos de variosniveles de unidad, podemos usar los registros deareas sembradas del paıs ya que la variabilidad enareas regionales es amplia y las instituciones men-cionadas nos proporcionan este tipo de datos.

En el cuadro 8 mostramos un extracto de los re-gistros de las hectareas sembradas a nivel nacional,estatal y de todos los municipios de 18 anos conse-cutivos (de 1994 a 2011), dando ası un total de43,992 registros. En este ejercicio se extrae el tercerdıgito significativo y medimos las observaciones.

Valor del Casos Porcentaje Porcentaje Teorico3er. dıgito registrados de casos segun Benford

0 3,705 11.4334% 10.1784%1 3,306 10.2021% 10.1376%2 3,330 10.2762% 10.0972%3 3,266 10.0787% 10.0573%4 3,143 9.6991% 10.0178%5 3,326 10.2638% 9.9788%6 3,090 9.5356% 9.9401%7 3,145 9.7053% 9.9019%8 3,128 9.6528% 9.8641%9 2,966 9.1529% 9.8267%

Total 32,405 100% 100%

Cuadro 7: Conteo del segundo dıgito en el cuadro 8

En el cuadro 7 tenemos las frecuencias del conteo del tercer dıgito significativo del cuadro 8 . En eltotal observamos que hay 32,405 areas, esto se debe a que se excluyeron los casos (11,587 areas) comoel municipio Playas de Rosarito en la entidad de Baja California ya que en 1994 no hubo registros, o enel municipio de Coacalco de Berriozabal, que en 2005 registro 60 hectarareas sembradas, no podemos deregistros menores a 100, extraer el tercer dıgito significativo . Excluyendo este tipo de casos, hacemos elanalisis de 32,405 registros.

Numero IV 35 Julio 2016

Page 37: ´ISTICA Y M - pragmamexico.com.mx · de inter´es tanto para especialistas en Estad ´ıstica, como para investigadores en Ciencias Pol ´ıticas y Sociales. Uno de los eventos que

Revista de Muestreo y Estadıstica Ley de Benford

Podemos observar en el cuadro 7 y la figura 5 que nuevamente predomina la presencia de los dıgitosmenores sobre la presencia de los mayores.

Podemos observar en el tercer dıgito significativo que hay mayor tendencia a la uniformidad a diferenciade cuando observabamos el primer dıgito significativo, si bien se mantiene la tendencia a los menoresdıgitos hay diferencias respecto a la distribucon esperada. Es notoria la presencia mayor de los dıgitos 0y 5 en la distribucion esperada, y una menor presencia del dıgito 4, respecto a la teorica de Benford. Esasdiferencias se deben a que contamos con 32,405 casos solamente.

Figura 5: Conteo de la presencia del tercer dıgito en el cuadro 7 vs. Teorico Benford

Numero IV 36 Julio 2016

Page 38: ´ISTICA Y M - pragmamexico.com.mx · de inter´es tanto para especialistas en Estad ´ıstica, como para investigadores en Ciencias Pol ´ıticas y Sociales. Uno de los eventos que

Revista de Muestreo y Estadıstica Ley de Benford

Clave Entidad Nombre Ano Superficie Sembrada ExtraccionMunicipio Municipio de medicion por Hectareas 3er dıgito

00 000 Nacional Nacional 1994 21,108,000 101 000 Aguascalientes Estatal 1994 159,522 901 001 Aguascalientes Aguascalientes 1994 35,358 301 002 Aguascalientes Asientos 1994 19,849 801 003 Aguascalientes Calvillo 1994 12,471 401 004 Aguascalientes Cosıo 1994 6,150 501 005 Aguascalientes Jesus Marıa 1994 14,372 301 006 Aguascalientes Pabellon de Arteaga 1994 7,498 901 007 Aguascalientes Rincon de Romos 1994 17,843 801 008 Aguascalientes San Jose de Gracia 1994 4,953 501 009 Aguascalientes Tepezala 1994 8,917 101 010 Aguascalientes El Llano 1994 24,832 801 011 Aguascalientes San Francisco de los Romo 1994 7,279 702 000 Baja California Estatal 1994 224,972 402 001 Baja California Ensenada 1994 ND No Aplica02 002 Baja California Mexicali 1994 161,502 102 003 Baja California Tecate 1994 ND No Aplica02 004 Baja California Tijuana 1994 ND No Aplica02 005 Baja California Playas de Rosarito 1994 ND No Aplica03 000 Baja California Sur Estatal 1994 48,155 1· · · · · · · · · · · · · · · · · ·

115 005 Mexico Almoloya de Juarez 2005 27,132 115 006 Mexico Almoloya del Rıo 2005 508 815 007 Mexico Amanalco 2005 8,990 915 008 Mexico Amatepec 2005 31,848 815 009 Mexico Amecameca 2005 5,740 415 010 Mexico Apaxco 2005 3,241 415 011 Mexico Atenco 2005 2,403 015 012 Mexico Atizapan 2005 575 515 013 Mexico Atizapan de Zaragoza 2005 64 No Aplica15 014 Mexico Atlacomulco 2005 13,659 615 015 Mexico Atlautla 2005 3,975 715 016 Mexico Axapusco 2005 13,046 015 017 Mexico Ayapango 2005 2,699 915 018 Mexico Calimaya 2005 7,108 015 019 Mexico Capulhuac 2005 1,276 715 020 Mexico Coacalco de Berriozabal 2005 60 No Aplica15 021 Mexico Coatepec Harinas 2005 13,316 315 022 Mexico Cocotitlan 2005 1,975 715 023 Mexico Coyotepec 2005 877 7· · · · · · · · · · · · · · · · · ·

32 050 Zacatecas Vetagrande 2011 9,244 432 051 Zacatecas Villa de Cos 2011 55,104 132 052 Zacatecas Villa Garcıa 2011 11,524 532 053 Zacatecas Villa Gonzalez Ortega 2011 11,080 032 054 Zacatecas Villa Hidalgo 2011 10,822 832 055 Zacatecas Villanueva 2011 25,939 932 056 Zacatecas Zacatecas 2011 9,396 932 057 Zacatecas Trancoso 2011 6,034 332 058 Zacatecas Santa Marıa de la Paz 2011 1,913 1

Cuadro 8: Hectareas registradas por municipio de 2004 a 2011 segun SAGARPA e INEGI. Se extrae eltercer dıgito significativo

Numero IV 37 Julio 2016

Page 39: ´ISTICA Y M - pragmamexico.com.mx · de inter´es tanto para especialistas en Estad ´ıstica, como para investigadores en Ciencias Pol ´ıticas y Sociales. Uno de los eventos que

Revista de Muestreo y Estadıstica Ley de Benford

10. Conclusiones

La Ley de Benford sigue confirmandose en los registros de la vida cotidiana. A diferencia de las ob-servaciones sobre el primer dıgito significativo unicamente, que se hizo en el numero II de esta edicion,ahora que observamos los dıgitos de orden superior es notorio que su presencia tiene un comportamientocon marcada tendencia a una distribucion uniforme. Se impone la necesidad de aumentar el numero deobservaciones (registros) conforme aumentamos el orden del dıgito significativo.

11. Benford, Newcomb y Ley de Stigler

En el numero II [Espinosa G.A., 2014] de la pre-sente publicacion mencionamos que Frank AlbertBenford (Frank Albert Benford, EEUU) descubrioen 1938 la Ley del primer dıgito revisando el usofrecuente que se daba a los primeros registros delas tablas logarıtmicas, contra el escaso uso que sedaba a los ultimos, tambien mencionamos que en1881, 57 anos antes, Simon Newcomb (Nueva Esco-cia, Canada) ya habıa hecho tal descubrimiento conlas mismas tablas logarıtmicas.

Cada uno hizo un importante aportacion al campode la Matematica con sus respectivos trabajos. Losdescubrimientos fueron hechos de forma indepen-diente.

La Ley de Benford es un ejemplo de la Ley deStigler, axioma que afirma que “ningun descubri-miento cientıfico recibe el nombre de quien lo des-cubrio en primer lugar”. La Ley de Stigler fue for-mulada en 1980 por Stephen Stigler, conocido porsus trabajos en Historia de la Estadıstica.

La Ley de Stigler puede extenderse de la cienciaa otros campos del conocimento, como ejemplos te-nemos la Ley de Ohm, el Teorema de Pitagoras, elcontienete americano, el Cogito ergo sum como prin-cipio del conocimiento, e ironicamente la misma Leyde Stigler es un ejemplo de si misma, ya que antesfue mencionada por Robert K. Merton, sociologo es-tadounidense.

(a) Benford (b) Stigler (c) Newcomb

Numero IV 38 Julio 2016

Page 40: ´ISTICA Y M - pragmamexico.com.mx · de inter´es tanto para especialistas en Estad ´ıstica, como para investigadores en Ciencias Pol ´ıticas y Sociales. Uno de los eventos que

Revista de Muestreo y Estadıstica Ley de Benford

Referencias

[Nigrini y Wells, 2012] Nigrini, M. & Wells, J. (2012). Benford’s Law: Applications for Forensic Account-ing, Auditing, and Fraud Detection. Wiley Corporate F&A. Wiley.

[Feller, 2007] Feller, William. Introduccion a la Teorıa de Probabilidades y sus aplicaciones vol II, cap. II.Editorial Limusa.

[Nigrini, 1996] Nigrini, Mark J. A Taxpayer Compliance Application of Benfords Law, vol 18, 1996. TheJournal of the American Taxation Association.

[Espinosa G.A., 2014] Espinosa Reyes, Guillermo Aaron. (2014). Ley de Benford, Curiosidad Estadısticadel Primer Dıgito. Revista Estadıstica y Muestreo, (No. II) pp. 17–31. Matematicas UNAM

[INEGI, 2016] http://www.inegi.org.mx (2016). Instituto Nacional de Estadıstica y Geografıa.

[IFE, 2012 ] http://www.ine.mx (2012). Instituto Nacional Electoral.

[SAGARPA, 2016] Secretarıa de Agricultura, Ganaderıa, Desarrollo Rural Pesca y Alimentacion (2016).Datos Abiertos de SAGARPA y de sus Organos Sectorizados. www.inegi.gob.mx

[Wikipedia, 2014] Wikipedia, Internet. (2014). Ley de Benford.

Numero IV 39 Julio 2016

Page 41: ´ISTICA Y M - pragmamexico.com.mx · de inter´es tanto para especialistas en Estad ´ıstica, como para investigadores en Ciencias Pol ´ıticas y Sociales. Uno de los eventos que

Francisco Sanchez Villarreal

Tragedia del TitanicModelo de Regresion Logıstica Binaria

Page 42: ´ISTICA Y M - pragmamexico.com.mx · de inter´es tanto para especialistas en Estad ´ıstica, como para investigadores en Ciencias Pol ´ıticas y Sociales. Uno de los eventos que

Revista de Muestreo y Estadıstica Regresion Logıstica Binaria en el Titanic

LA MUERTE TAMBIEN DISTINGUE ENTRE CLASESUN MODELO DE REGRESION LOGISTICA BINARIA

SOBRE LA TRAGEDIA DEL TITANICFrancisco Sanchez Villarreal∗

1. Corta Historia del Titanic

ES frecuente que la arrogancia humana ante la naturaleza reciba crueles lecciones. Una de ellastuvo efecto a las 23:40 del 14 de abril de 1912, cuando el RMS Titanic, el mayor barco de pasajerosconstruido hasta entonces, se hundio en su viaje inaugural despues de chocar con un iceberg. El

Titanic zarpo del puerto de Southampton el 10 de abril con destino a Nueva York. El buque, construidopor la empresa la White Star Line rodeado de una propaganda de insumergible, por ello no consideraronnecesario dotarlo de suficientes botes salvavidas. Contaba solamente con 20 de ellos, pues se penso quesi llegaban a ser utiles, lo serıan para rescatar a naufragos de otras naves en desgracia, pero nunca delTitanic.

El buque partio con mas de 2,300 pasajeros a bordo, que constituıan una mezcla de ricos aristocratasque viajaban en primera clase y de modestos pasajeros en busca de fortuna en tierras de America que seaglomeraban en la segunda y tercera clases.

Cuatro dıas despues desu partida, a las 11:40p.m. del 14 de abril,choco con un iceberg.La sensacion del choquefue casi imperceptiblepara sus ocupantes, perolos danos fueron may-ores y a la postre fa-tales. El buque Carpathiarescato 705 sobrevivientes.El oceano cobro la vidade 1522 personas entrepasajeros y miembrosde la tripulacion. Elsevero clima del artico,malas decisiones y ac-titudes negligentes porparte de la tripulacion en el manejo de una situacion que no imaginaban factible, contribuyeron a la ele-vada tasa de mortalidad, pues el tiempo transcurrido desde el momento del choque hasta el hundimientofue suficiente para haber salvado un mayor numero de vidas.

∗Asesor Internacional en Estadıstica y Muestreo.Profesor de Carrera en el Departamento de Matematicas en la Facultad de Ciencias, UNAM.E-mail: [email protected]

Numero IV 41 Julio 2016

Page 43: ´ISTICA Y M - pragmamexico.com.mx · de inter´es tanto para especialistas en Estad ´ıstica, como para investigadores en Ciencias Pol ´ıticas y Sociales. Uno de los eventos que

Revista de Muestreo y Estadıstica Regresion Logıstica Binaria en el Titanic

Despues de recolectar listas de pasajeros con datos sobre edad, sexo, clase de pasaje y condicion de muerteo sobrevivencia obtenidas en diversos sitios de la red de Internet que abordan el tema, cuyo interes seincremento notablemente a raız del descubrimiento de los restos del naufragio y de la filmacion de lapelıcula Titanic (1997). El tema resulta interesante desde diversos puntos de vista que van desde eldrama humano, los aspectos de seguridad, de construccion naval y como motivo de analisis estadıstico.Este ultimo enfoque es el que se aborda en este documento, aunque desde luego existen antecedentes deanalisis publicados por diversos autores.

2. Estadısticas de Sobrevivencia

El archivo que se analiza contiene una lista de 1313 pasajeros con los datos mencionados, sin embargose omite en un numero importante de casos la edad del pasajero, razon por la cual se redujo su tamano.El archivo depurado con casos ıntegros en todos sus datos contiene 756 registros, cuyo analisis resultabastante revelador.

En los 756 casos seleccionados se refieren 443 pasajeros muertos y 313 sobrevivientes, esto es una tasade mortalidad de 58.6%. Al analizar los casos de muertos y sobrevivientes (cuadro 1 )en funcion de laclase del pasaje, las tasas de sobrevivencia difieren drasticamente. En la primera clase la sobrevivenciageneral fue de 61.5% en tanto que en tercera clase se redujo al 24.5%.

Clase Muerto Sobreviviente Total Muerto Sobreviviente TotalPrimera 87 139 226 38.5% 61.5% 100%Segunda 116 96 212 54.7% 45.3% 100%Tercera 240 78 318 75.5% 24.5% 100%Total 443 313 756 58.6% 41.4% 100%

Cuadro 1: Pasajeros Muertos y Sobrevivientes, por Clase

La consigna clasica “mujeres y ninos primero” se cumplio en buena medida. El 75.3% de las mujeresen general sobrevivieron en contraste con 20.5% de los hombres. La clase en combinacion con el sexopresenta comportamientos muy diferentes. Las mujeres de tercera clase sobrevivieron en un 45.1% entanto que las mujeres de primera clase sobrevivieron en 95%. Por su parte solamente el 14.8% de loshombres de tercera clase sobrevivieron contra el 34.4% de los hombres de primera clase. La combinacionhombre y tercera clase resulto entonces la combinacion con menores expectativas de sobrevivencia (vercuadro 3 ).

Clase Femenino Total Masculino TotalMuerto Sobreviviente Muerto Sobreviviente

Primera 5 96 101 82 43 125Segunda 10 75 85 106 21 127Tercera 56 46 102 184 32 216Total 71 217 288 372 96 468

Cuadro 2: Total Pasajeros Muertos y Sobrevivientes, por Clase y Sexo

Numero IV 42 Julio 2016

Page 44: ´ISTICA Y M - pragmamexico.com.mx · de inter´es tanto para especialistas en Estad ´ıstica, como para investigadores en Ciencias Pol ´ıticas y Sociales. Uno de los eventos que

Revista de Muestreo y Estadıstica Regresion Logıstica Binaria en el Titanic

Clase Femenino Total Masculino TotalMuerto Sobreviviente Muerto Sobreviviente

Primera 5.0% 95.0% 100% 65.6% 34.4% 100%Segunda 11.8% 88.2% 100% 83.5% 16.5% 100%Tercera 54.9% 45.1% 100% 85.2% 14.8% 100%Total 24.7% 75.3% 100% 79.5% 20.5% 100%

Cuadro 3: Porcentaje Pasajeros Muertos y Sobrevivientes, por Clase y Sexo

Desde el punto de vista de la edad, en combinacion con el grupo de edad, la sobreviviencia presenta unaleve tendencia a disminuir con el incremento de la edad. Los ninos menores de 11 anos presentaron unasobrevivencia de 67.3% y en el extremo de la tabla la sobrevivencia de los pasajeros de 51 y mas anos sereduce a 41.4% (cuadro 4 ) .

Grupo de Edad Muerto Sobreviviente Total Muerto Sobreviviente TotalHasta 10 18 37 55 32.7% 67.3% 100%11 a 20 67 50 117 57.3% 42.7% 100%21 a 30 174 86 260 66.9% 33.1% 100%31 a 40 83 67 150 55.3% 44.7% 100%41 a 50 60 44 104 57.7% 42.3% 100%

51 y mas 41 29 70 58.6% 41.4% 100%Total 443 313 756 58.6% 41.4% 100%

Cuadro 4: Pasajeros Muertos y Sobrevivientes, por Grupo de Edad

(a) Primera Clase

(b) Segunda Clase (c) Tercera Clase

Numero IV 43 Julio 2016

Page 45: ´ISTICA Y M - pragmamexico.com.mx · de inter´es tanto para especialistas en Estad ´ıstica, como para investigadores en Ciencias Pol ´ıticas y Sociales. Uno de los eventos que

Revista de Muestreo y Estadıstica Regresion Logıstica Binaria en el Titanic

3. Modelo de Regresion Logıstica Binaria

La variable binaria muerto o sobreviviente considerada como funcion del sexo, edad y la clase resultaideal para ajustar un modelo de regresion logıstica binaria, que permite analisis mas elaborados yen forma simultanea, algo que se logra parcialmente a partir de las tablas estadısticas mostradas.

Y Sobrevivencia (Muerto, Sobreviviente)Sexo Variables categorica (Femenino, Masculino)Clase Variable categorica (Primera, Segunda, Tercera)Edad Variable numerica 0 , . . . , 71 ⊂ Np(Y ) Probabilidad de sobrevivencia (0, 1) ⊂ R

p(y) =1

1 + e−(βo+β1sexo +β2edad+β3clase)

Al despejar la combinacion lineal se obtiene en el lado izquierdo el logaritmo del cociente de momios

ln

[p(y)

1− p(y)

]= βo+ β1sexo + β2edad + β3clase

Los coeficientes del modelo (cuadro 5 ) se interpretan como como la razon entre momios asociados aunidades consecutivas de las variables asociadas a los coeficientes. La exponencial aplicada a los coe-ficientes se interpreta como el incremento en el cociente de momios entre valores consecutivos de lavariable. Ası la exponencial aplicada al coeficiente de la edad (-0.0391778..) resulta en 0.94733. Estoes, por cada ano de edad el momio disminuye al 94.7% del momio del ano anterior. El incremento de laedad disminuye la probabilidad de sobrevivencia. Los incrementos mas notables en la probabilidad desobrevivencia corresponden a primera clase y a sexo femenino.

Variable Coeficiente Error Estadıstica Grados de Significancia Exp (B) I.C. 95% para exp(B)Estandar de Wald Libertad Ji cuadrada Inferior Superior

Clase (1) 2.521443692 0.2766578 83.0640 1 0.000 12.44655 7.23698 21.40625Clase (2) 1.229460801 0.2373455 26.8329 1 0.000 3.41939 2.14743 5.44474Edad -0.039177806 0.0076161 26.4618 1 0.000 0.96158 0.94733 0.97604Sexo (1=Fem 0=Masc) 2.631378000 0.2015063 170.5255 1 0.000 13.89290 9.35988 20.62127Constante -1.393107223 0.2551959 29.8004 1 0.000 0.24830

Cuadro 5: Coeficientes del Modelo y Estadısticas Asociadas

En el cuadro 6 se muestran valuaciones del modelo ajustado para diversos valores de las variables. El 1 o0 en las primeras tres columnas indica la clase en que se viaja, en la columna sexo, el 1 indica Femenino yel 0 masculino. Ası en el ejemplo 1, se tiene un hombre de 45 anos que viaja en 3a clase y cuya probabilidadde sobrevivencia es 0.04085. En el ejemplo 2 se trata tambien de un hombre de 45 anos, pero que viaja en1a. Su probabilidad de sobrevivencia se incrementa hasta 0.34645. En el ejemplo 7 se tiene un hombrede 60 anos que viaja en 3a clase y su probabilidad se reduce hasta 0.02312

Numero IV 44 Julio 2016

Page 46: ´ISTICA Y M - pragmamexico.com.mx · de inter´es tanto para especialistas en Estad ´ıstica, como para investigadores en Ciencias Pol ´ıticas y Sociales. Uno de los eventos que

Revista de Muestreo y Estadıstica Regresion Logıstica Binaria en el Titanic

No. 1a 2a 3a Edad Sexo Probabilidad1 0 0 1 45 0 0.040852 1 0 0 45 0 0.346453 1 0 0 25 1 0.941604 0 1 0 25 0 0.241755 1 0 0 15 1 0.959776 1 0 0 15 0 0.631977 0 0 1 60 0 0.023128 1 0 0 60 0 0.227539 1 0 1 60 1 0.8036210 0 0 1 10 0 0.1437011 0 1 0 34 1 0.7568912 0 1 0 34 0 0.00000

Cuadro 6: Ejemplos de valores de las variables y Probabilidad Asociada de Superviviencia

En forma analoga se calcularon probabilidades por clase, sexo y edades consecutivas para entender mejorsu comportamiento. Las siguientes graficas permiten observar el descenso de las probabilidades de sobre-vivencia en funcion de la edad para ambos sexos, pero tambien las notables diferencias en funcion de laclase de pasaje.

(a) Hombres (b) Mujeres

Figura 1: Probabilidades de Sobrevivencia por Edad y Clase

Las probabilidades de sobrevivencia de las mujeres de primera clase alcanzan valores superiores a 0.90para edades hasta 39 anos, en tanto que las mujeres de tercera clase tienen su maximo en 0.77 parabebes de 1 ano y a los 39 anos la probabilidad ha descendido hasta 0.43 . En el caso de los hombres, laprobabilidad maxima para bebes de 1 ano es 0.75 y para hombres de 39 anos la probabilidad en primeraclase es 0.40 y en tercera clase para los mismos 39 anos desciende a 0.05.

Numero IV 45 Julio 2016

Page 47: ´ISTICA Y M - pragmamexico.com.mx · de inter´es tanto para especialistas en Estad ´ıstica, como para investigadores en Ciencias Pol ´ıticas y Sociales. Uno de los eventos que

Revista de Muestreo y Estadıstica Regresion Logıstica Binaria en el Titanic

4. Replica del Titanic

La tragedia del Titanic tuvo una replica un siglo despues con el choque y encallamiento del crucero ita-liano Costa Concordia el 13 de enero de 2012 con 4229 personas a bordo. El Costa Concordia, paradojicamenteera el mayor crucero construido en Italia. El choque tuvo efecto en el mar Mediterraneo, frente a la islagriega de Giglio y costo la vida 32 personas entre pasajeros y tripulantes. El descuido y negligenciatambien tuvieron presencia en este naufragio, razon por la cual el capitan del navıo Francesco Schettinoy su primer oficial fueron arrestados, aunque posteriormente liberados.

Referencias

[Allison, 1999] Allison, P. D. (1999). Logistic Regression Using the SAS System. Theory and Applications.The SAS Institute.

[Cox and Snell, 1989] Cox, D. R. and Snell, E. J. (1989). Analysis of Binary Data. Chapman & Hall,London, 2 edition.

[Hosmer and Lemeshow, 2000] Hosmer, D. W. and Lemeshow, S. (2000). Applied logistic regression. Wileyseries in probability and statistics. John Wiley & Sons, Inc. A Wiley-Interscience Publication, New York,Chichester, Weinheim.

[Titanica, 2016] Titanica, E. (2016). Encyclopedia titanica, titanic facts, history and biography.www.encyclopedia-titanica.org.

Numero IV 46 Julio 2016

Page 48: ´ISTICA Y M - pragmamexico.com.mx · de inter´es tanto para especialistas en Estad ´ıstica, como para investigadores en Ciencias Pol ´ıticas y Sociales. Uno de los eventos que

Francisco Sanchez Villarreal

Pluralidad y Diversidad Polıtica enTamaulipas, Veracruz y DurangoIndice Basado en Entropıa

Page 49: ´ISTICA Y M - pragmamexico.com.mx · de inter´es tanto para especialistas en Estad ´ıstica, como para investigadores en Ciencias Pol ´ıticas y Sociales. Uno de los eventos que

Revista de Muestreo y Estadıstica Pluralidad y Diversidad Polıtica

INDICE DE DIVERSIDAD POLITICAELECCIONES DE VERACRUZ, ZACATECAS Y TAMAULIPAS 2016

Francisco Sanchez Villarreal∗

1. Antecedentes

LA HEGEMONIA DE UN PARTIDO EN LAS ELECCIONES PRESIDENCIALES DE MEXICO se rompio en elano 2000, con la eleccion presidencial que en ese ano gano el PAN con su candidato Vicente FoxQuesada. La presidencia se alterno 2 veces y es factible que en 2018 se presente un nuevo cambio

de partido en el poder. La dinamica de cambios de dominios de los partidos tradicionales y el surgimientode nuevos partidos, que con mayor o menor presencia han protagonizado las luchas electorales recientes,tanto en el ambito federal como estatal, han impulsado una mayor diversidad polıtica. El pasado 5 de ju-nio se celebraron elecciones para gobernador en 12 entidades federativas, consideramos particularmenteinteresantes las elecciones de Veracruz, Zacatecas y Tamaulipas.

La presencia de muchos partidos en unas votaciones no necesariamente refleja un incremento de ladiversidad de propuestas economicas y sociales apoyadas en diferentes ideologıas, si no se acompanande una participacion mas competida de los diferentes partidos. La combinacion de varios partidos y deuna participacion menos concentrada del voto es un mejor indicador de una democracia mas evolucionada.El ındice de Diversidad Polıtica que aquı se propone, mide la diversidad polıtica o menor concentraciondel voto en base a esos dos conceptos. El IDP lo hemos aplicado en votaciones anteriores y publicado eneste mismo medio [Numeros 1] para el conjunto de las 32 entidades federativas de la Republica Mexicanay el caso especial del entonces Distrito Federal.

2. El Indice de Diversidad Polıtica

El Indice de Diversidad Polıtica se basa en la medida de la Entropıa propuesto por Claude Elwood Shan-non, “Padre de la Teorıa de la Informacion”, cuya forma general es la ecuacion 2.1 . Observe que en laformula se consideran logaritmos de base 2:

H =

k∑i=1

Pilog21

Pi

k∑i=1

Pi = 1 (2.1)

∗Asesor Internacional en Estadıstica y Mueestro.Profesor de Carrera en el Departamento de Matematicas en la Facultad de Ciencias, UNAM.Ha colaborado en ponencias y artıculos cientıficos en la Asociacion Mexicana de Estadıstica.E-mail: [email protected]

Numero IV 48 Julio 2016

Page 50: ´ISTICA Y M - pragmamexico.com.mx · de inter´es tanto para especialistas en Estad ´ıstica, como para investigadores en Ciencias Pol ´ıticas y Sociales. Uno de los eventos que

Revista de Muestreo y Estadıstica Pluralidad y Diversidad Polıtica

En nuestro caso las Pi corresponden a proporciones de votos de k partidos en una eleccion. El ındicealcanza su mayor valor cuando las Pi se distribuyen de manera uniforme, esto es que todas son iguales.El valor maximo para k partidos se obtiene como el logaritmo en base 2 del numero k de partidos.

Max H = log2 k

Figura 1: Comportamiento de la Entropıa en funcion de p

El ındice de diversidad no pretende identificar ganadores, sino calificar el grado de competencia o plural-idad que se tiene en una eleccion en funcion del numero de partidos y de la participacion relativa de losmismos.

3. El Estado de Veracruz

De acuerdo a datos obtenidos del INE, la lista nominal del estado de Veracruz se integro por 5,671.125electores de los cuales 2,747,867 emitieron su voto, esto es la participacion alcanzo 48.4%, (La cifra oficialconsiderando todos los conjuntos de votos fue de 53,6%). El estado se subdivide en 30 distritos electoraleslocales, los cuales fueron considerados como la mejor alternativa para analizar los datos. Los datos con-siderados se refieren a votos directos a cada partido, esto es, se omitieron votos por combinaciones de par-tidos y candidatos independientes, pues el agrupamiento de partidos concentra mas los resultados. Losporcentajes considerados de esta forma difieren de los emitidos por el Instituto Electoral Veracruzano, porello el porcentaje de votos de MORENA aparece mayor que el logrado por el PRI. Pues al final sus votosfueron contabilizados junto con sus partidos aliados.

Numero IV 49 Julio 2016

Page 51: ´ISTICA Y M - pragmamexico.com.mx · de inter´es tanto para especialistas en Estad ´ıstica, como para investigadores en Ciencias Pol ´ıticas y Sociales. Uno de los eventos que

Revista de Muestreo y Estadıstica Pluralidad y Diversidad Polıtica

Los 11 partidos participantes en las elecciones fueron los siguientes:

PAN Partido Accion NacionalPRI Partido Revolucionario InstitucionalPRD Partido de la Revolucion DemocraticaPT Partido del TrabajoPVEM Partido Verde Ecologista de MexicoMC Movimiento CiudadanoPANAL Partido Nueva AlianzaPAV Partido Alternativa VeracruzanaPC Partido CardenistaMORENA Movimiento Regeneracion NacionalPES Partido Encuentro Social

Los votos y porcentajes calculados en la forma referida para todo el estado muestran la dominancia detres partidos PAN, PRI y MORENA. La participacion de los restantes 8 partidos es muy pequena y ello sedebe reflejar en el IDP.

El valor del IDP para todo el estado calculado direc-tamente por la formula expuesta es 2.420, que divi-dido entre el valor maximo para 11 partidos (3.459),resulta en 0.699. De esta forma el IDP se ubica enel rango de 0 a 1. Al analizar los datos por distritose nota que el IDP mayor (0.765) lo tiene el Distrito8, con cabecera distrital en Misantla.

Se observa que el partido MORENA alcanza 29.5%de la votacion en el mismo municipio, seguido porel PAN con 26.7%, pero el PRI disminuye hasta18.7%. En contraste el PAV incrementa su presen-cia hasta 5.3%, cuyo porcentaje estatal se reduce a1.2%, al PT con alcanza 4.3% que comparado con elestatal de 1.8% refleja un incremento notable. ElPRD tambien sube a 7.4%, comparado con su re-sultado estatal de 5.0%. Otro distrito con elevadoIDP es San Andres Tuxtla que alcanza 0.764 y cuya

mayor participacion corresponde a MORENA con23.9%, seguida por el PANAL con 22.5%. El tercerpuesto lo ocupa el PAN con 20.6% y el cuarto puestoes para el PRI con 19.6%.

Partido Votos PorcientoPAN 768,302 30.3%PRI 622,071 24.5%PRD 126,990 5.0%PT 45,412 1.8%PVEM 96,619 3.8%MC 33,603 1.3%PANAL 40,646 1.6%PAV 29,736 1.2%PC 19,721 0.8%MORENA 721,427 28.5%PES 30,303 1.2%Total 2,534,830 100.0%

Los distritos con menor IDP son, en primer termino el distrito 16 de Boca del Rıo cuyo porcentaje de votospara el PAN asciende hasta 56.9%, seguido muy lejos por el PRI con 23.4% y MORENA con 13.0%. Algosimilar se observa en los dos distritos del puerto de Veracruz, en los cuales el PAN alcanza 52.6% y 55.4%y cuyos IDP son respectivamente 0.566 y 0.541. Otros distritos con un partido dominante (MORENA) sonlos dos distritos de Coatzacoalcos.

Numero IV 50 Julio 2016

Page 52: ´ISTICA Y M - pragmamexico.com.mx · de inter´es tanto para especialistas en Estad ´ıstica, como para investigadores en Ciencias Pol ´ıticas y Sociales. Uno de los eventos que

Revista de Muestreo y Estadıstica Pluralidad y Diversidad Polıtica

Dis

trit

oPA

NP

RI

PR

DP

TP

VE

MM

CPA

NA

LPA

VP

CM

OR

EN

AP

ES

Tota

lID

P1

Pan

uco

26.6

%26

.2%

2.9%

0.8%

27.2

%1.

3%1.

1%0.

5%0.

3%12

.4%

0.5%

100%

0.68

322

Tant

oyuc

a35

.0%

29.5

%6.

8%1.

2%10

.5%

0.7%

1.2%

0.3%

0.5%

13.8

%0.

5%10

0%0.

6801

3T

uxpa

n27

.9%

22.6

%10

.4%

1.9%

3.8%

0.8%

1.0%

1.2%

0.6%

28.7

%1.

0%10

0%0.

7107

4A

lam

o31

.0%

35.3

%6.

7%2.

1%4.

3%1.

8%1.

0%0.

7%0.

8%15

.6%

0.8%

100%

0.68

645

Poza

Ric

a21

.7%

21.3

%8.

9%1.

7%1.

4%1.

5%0.

7%1.

1%1.

0%39

.6%

1.2%

100%

0.67

246

Papa

ntla

25.1

%35

.6%

9.0%

1.8%

3.2%

1.9%

0.9%

3.8%

0.4%

17.8

%0.

5%10

0%0.

7133

7M

artı

nez

dela

T.26

.8%

25.8

%7.

7%3.

4%5.

3%0.

9%1.

5%0.

5%0.

9%26

.1%

1.2%

100%

0.72

938

Mis

antl

a26

.7%

18.7

%7.

4%4.

3%3.

0%0.

9%1.

1%5.

3%1.

9%29

.5%

1.1%

100%

0.76

489

Pero

te31

.3%

28.2

%3.

2%7.

1%1.

3%1.

6%0.

7%1.

7%1.

8%22

.1%

1.0%

100%

0.70

8010

Xal

apa

26.6

%14

.9%

2.0%

1.6%

0.9%

3.1%

0.5%

0.4%

0.9%

46.7

%2.

4%10

0%0.

6132

11X

alap

a29

.7%

17.4

%1.

7%1.

2%1.

2%3.

3%0.

5%0.

3%0.

9%41

.2%

2.6%

100%

0.62

6312

Coa

tepe

c29

.4%

18.7

%4.

0%1.

4%3.

4%1.

4%0.

7%3.

5%0.

8%35

.2%

1.5%

100%

0.69

1613

Dos

Rıo

s(E

.Z.)

39.0

%23

.7%

6.0%

1.6%

1.7%

1.3%

0.6%

0.6%

1.3%

23.2

%1.

0%10

0%0.

6562

14V

erac

ruz

52.6

%17

.2%

1.5%

1.5%

1.2%

1.7%

1.1%

0.2%

0.3%

21.3

%1.

5%10

0%0.

5657

15V

erac

ruz

55.4

%16

.6%

1.3%

1.3%

1.1%

1.1%

1.0%

0.2%

0.4%

20.5

%1.

1%10

0%0.

5409

16B

oca

delR

ıo56

.9%

23.4

%1.

0%0.

9%1.

8%1.

0%0.

7%0.

3%0.

3%13

.0%

0.7%

100%

0.51

6517

Med

ellın

39.8

%28

.4%

6.3%

1.2%

1.5%

1.0%

0.8%

0.7%

0.6%

19.1

%0.

6%10

0%0.

6303

18H

uatu

sco

35.1

%30

.3%

5.0%

1.4%

4.3%

1.4%

0.8%

0.7%

1.2%

18.7

%0.

9%10

0%0.

6759

19C

ordo

ba28

.3%

29.8

%1.

8%1.

0%1.

5%1.

1%0.

6%0.

6%0.

6%33

.5%

1.2%

100%

0.60

8420

Ori

zaba

24.4

%18

.1%

3.3%

1.8%

1.8%

1.3%

0.7%

0.5%

1.0%

44.9

%2.

2%10

0%0.

6335

21C

amer

ino

20.6

%22

.1%

8.0%

1.7%

1.2%

1.1%

1.0%

0.7%

0.9%

41.2

%1.

7%10

0%0.

6616

22Zo

ngol

ica

31.4

%24

.4%

9.6%

2.0%

9.9%

1.0%

1.4%

0.7%

0.8%

18.1

%0.

7%10

0%0.

7354

23C

osam

aloa

pan

34.9

%31

.4%

2.4%

1.6%

2.6%

0.8%

0.8%

0.4%

0.7%

23.8

%0.

7%10

0%0.

6203

24Sa

ntia

goT

uxtl

a30

.9%

34.3

%7.

5%1.

7%1.

4%0.

6%0.

8%0.

6%0.

5%21

.0%

0.5%

100%

0.64

2525

San

And

res

Tux

tla

20.6

%19

.6%

4.1%

1.2%

2.9%

1.2%

22.5

%0.

7%0.

9%23

.9%

2.5%

100%

0.76

3626

Cos

oloe

acaq

ue18

.6%

26.7

%7.

1%1.

4%1.

5%0.

8%1.

9%1.

1%0.

7%39

.2%

1.1%

100%

0.66

2727

Aca

yuca

n25

.5%

25.9

%4.

5%1.

4%3.

3%1.

6%1.

1%5.

7%0.

8%29

.5%

0.7%

100%

0.71

9528

Min

atit

lan

19.9

%27

.8%

4.0%

1.2%

2.0%

0.9%

0.6%

0.5%

0.4%

41.6

%1.

1%10

0%0.

6154

29C

oatz

acol

acos

12.8

%16

.2%

2.1%

1.1%

2.0%

1.2%

1.6%

0.7%

0.5%

59.6

%2.

1%10

0%0.

5594

30C

oatz

acol

acos

9.6%

22.3

%4.

8%1.

1%3.

8%0.

8%1.

4%0.

9%0.

8%52

.9%

1.5%

100%

0.60

98To

tal

30.3

%24

.5%

5.0%

1.8%

3.8%

1.3%

1.6%

1.2%

0.8%

28.5

%1.

2%10

0%0.

6995

Numero IV 51 Julio 2016

Page 53: ´ISTICA Y M - pragmamexico.com.mx · de inter´es tanto para especialistas en Estad ´ıstica, como para investigadores en Ciencias Pol ´ıticas y Sociales. Uno de los eventos que

Revista de Muestreo y Estadıstica Pluralidad y Diversidad Polıtica

(a) Veracruz Distritos Locales

(b) Dttos 10-11-12 (c) Dttos 14-15 (d) Dtto 29

Figura 2: Distritos Locales Estado de Veracruz por Partido Ganador

Numero IV 52 Julio 2016

Page 54: ´ISTICA Y M - pragmamexico.com.mx · de inter´es tanto para especialistas en Estad ´ıstica, como para investigadores en Ciencias Pol ´ıticas y Sociales. Uno de los eventos que

Revista de Muestreo y Estadıstica Pluralidad y Diversidad Polıtica

(a) Veracruz Distritos Locales

(b) Dttos 10-11-12 (c) Dttos 14-15 (d) Dtto 29

Figura 3: Distritos Locales Estado de Veracruz por IDP

Numero IV 53 Julio 2016

Page 55: ´ISTICA Y M - pragmamexico.com.mx · de inter´es tanto para especialistas en Estad ´ıstica, como para investigadores en Ciencias Pol ´ıticas y Sociales. Uno de los eventos que

Revista de Muestreo y Estadıstica Pluralidad y Diversidad Polıtica

4. El Estado de Tamaulipas

El padron de electores del estado de Tamaulipas incluye en su lista nominal a 2,557,228, de los cualesvotaron 1,257,130, con una participacion de 56.4%. La eleccion de gobernador fue ganada por el PAN con51.4% de los votos. El PRI con sus tradicionales aliados, el PVEM y el PANAL obtuvo el 36.03% de lavotacion. El PAN y el PRI, por sı solos sumaron 87.43% de la votacion. El tercer partido mas votado fueMC con 5.8% de la votacion.Los 9 partidos participantes en las elecciones fueron los siguientes:

PAN Partido Accion NacionalPRI Partido Revolucionario InstitucionalPRD Partido de la Revolucion DemocraticaPT Partido del TrabajoPVEM Partido Verde Ecologista de MexicoMC Movimiento CiudadanoPANAL Partido Nueva AlianzaMORENA Movimiento Regeneracion NacionalPES Partido Encuentro Social

El IDP a nivel estatal alcanzo 0.540. El IDP mas alto se registro en el distrito 8 con cabecera en Vallede Bravo. En este distrito la concentracion se redujo debido a la mayor participacion de MC(6.6%) y delPES(3.5%) con base en su promedio de participacion en los restantes distritos. Despues de Valle de Bravo,los mayores IDP se observaron en los cuatro distritos de Reynosa El mas bajo IDP se observo en el distrito13 San Fernando con 0.418 con fuerte concentracion en el PAN y el PRI y la practicamente nula presenciade los restantes partidos. La capital Ciudad Victoria y Tampico registraron IDP similares al promedio delestado.

Distrito PAN PRI PRD PT PVEM MC PANAL MORENA PES Total IDP01 Nuevo Laredo 54.8% 35.6% 1.6% 0.4% 0.7% 3.0% 0.9% 1.5% 1.3% 100% 0.496702 Nuevo Laredo 52.6% 37.9% 1.4% 0.4% 0.7% 3.4% 0.9% 1.7% 0.9% 100% 0.498103 Nuevo Laredo 50.7% 34.5% 1.0% 0.4% 0.5% 2.8% 1.1% 1.3% 7.8% 100% 0.549904 Reynosa 48.9% 32.6% 1.4% 0.7% 1.1% 7.6% 1.2% 4.6% 1.9% 100% 0.604205 Reynosa 51.8% 28.3% 1.4% 0.7% 1.0% 8.5% 1.3% 5.2% 1.8% 100% 0.606806 Reynosa 49.0% 35.0% 1.4% 0.9% 1.0% 6.2% 1.2% 3.8% 1.4% 100% 0.581507 Reynosa 57.7% 26.2% 1.3% 0.8% 0.9% 6.8% 1.1% 3.8% 1.5% 100% 0.555608 Rıo Bravo 45.2% 36.2% 1.3% 0.8% 1.2% 6.6% 1.3% 3.9% 3.5% 100% 0.616309 Valle Hermoso 43.7% 43.8% 0.6% 0.5% 0.4% 6.3% 0.8% 1.5% 2.4% 100% 0.531910 Matamoros 38.8% 41.1% 0.9% 0.5% 0.8% 13.8% 0.6% 2.2% 1.2% 100% 0.584111 Matamoros 38.9% 42.8% 1.1% 0.7% 0.9% 11.4% 0.7% 2.3% 1.2% 100% 0.582612 Matamoros 38.6% 45.7% 0.7% 0.6% 0.6% 9.9% 0.6% 2.2% 1.1% 100% 0.551413 San Fernando 57.5% 37.6% 1.8% 0.2% 0.1% 0.8% 0.4% 0.9% 0.7% 100% 0.417714 Victoria 49.0% 37.2% 0.4% 0.4% 0.2% 10.3% 0.6% 1.1% 0.8% 100% 0.513115 Victoria 49.6% 32.3% 0.9% 1.0% 0.3% 13.4% 0.7% 1.0% 0.8% 100% 0.550216 Xicotencatl 51.9% 43.2% 0.8% 0.2% 0.2% 0.7% 1.2% 0.7% 1.1% 100% 0.427717 El Mante 57.8% 36.2% 0.6% 0.5% 0.7% 1.2% 0.6% 1.8% 0.6% 100% 0.438418 Altamira 54.1% 32.8% 0.8% 1.2% 0.5% 7.3% 0.7% 1.8% 0.7% 100% 0.525019 Miramar 56.8% 30.1% 1.7% 0.8% 0.7% 5.7% 0.8% 2.4% 1.0% 100% 0.529720 Cd. Madero 58.4% 28.1% 1.5% 0.5% 0.8% 4.9% 0.7% 4.3% 0.9% 100% 0.527621 Tampico 55.5% 30.8% 2.5% 0.6% 0.7% 5.7% 0.6% 2.8% 0.9% 100% 0.537522 Tampico 55.8% 32.1% 2.3% 0.7% 0.8% 4.1% 0.5% 3.0% 0.8% 100% 0.5222

Total 51.4% 35.4% 1.3% 0.6% 0.6% 6.0% 0.8% 2.3% 1.5% 100% 0.5399

Numero IV 54 Julio 2016

Page 56: ´ISTICA Y M - pragmamexico.com.mx · de inter´es tanto para especialistas en Estad ´ıstica, como para investigadores en Ciencias Pol ´ıticas y Sociales. Uno de los eventos que

Revista de Muestreo y Estadıstica Pluralidad y Diversidad Polıtica

(a) Tamaulipas Distritos Locales

(b) Dttos 1-2 (c) Dttos 4-7 (d) Dttos 10-11 (e) Dttos 19-22

Figura 4: Distritos Locales Estado de Tamaulipas por Partido Ganador

Numero IV 55 Julio 2016

Page 57: ´ISTICA Y M - pragmamexico.com.mx · de inter´es tanto para especialistas en Estad ´ıstica, como para investigadores en Ciencias Pol ´ıticas y Sociales. Uno de los eventos que

Revista de Muestreo y Estadıstica Pluralidad y Diversidad Polıtica

(a) Tamaulipas Distritos Locales

(b) Dttos 1-2 (c) Dttos 4-7 (d) Dttos 10-11 (e) Dttos 19-22

Figura 5: Distritos Locales Estado de Tamaulipas por IDP

Numero IV 56 Julio 2016

Page 58: ´ISTICA Y M - pragmamexico.com.mx · de inter´es tanto para especialistas en Estad ´ıstica, como para investigadores en Ciencias Pol ´ıticas y Sociales. Uno de los eventos que

Revista de Muestreo y Estadıstica Pluralidad y Diversidad Polıtica

5. El Estado de Durango

La lista nominal del estado de Durango se integro por 1,235,514 y acudieron a las urnas 602,160, loque equivale a una participacion de 48.4%. En la eleccion compitieron 9 partidos. El PAN y el PRDparticiparon unificados en la alianza. Unidos por ti y ganaron la eleccion con 46.09% de los votos. El PRIpresento candidato comun junto con los partidos PVEM, PANAL y PD y obtuvieron la segunda posicion enconjunto con 42.40% de votos. Las cifras que aparecen en nuestra tabla no coinciden por la desagregacionpor partido identificado por separado en las boletas.

Los 8 partidos que participaron en las elecciones para gobernador de Durango en 2016:

PAN - PRD Partido Accion Nacional y Partido de la Revolucion DemocraticaPRI Partido Revolucionario InstitucionalPT Partido del TrabajoPVEM Partido Verde Ecologista de MexicoPANAL Partido Nueva AlianzaMORENA Movimiento Regeneracion NacionalPES Partido Encuentro SocialPC Partido Duranguense

El Indice de Diversidad Polıtica del estado alcanza una cifra menor que la de Veracruz y Tamaulipas,con 0.4067 y refleja la elevada concentracion de votos en la alianza PAN-PRD y el PRI considerado enforma aislada. De los restantes partidos solamente destaca levemente el PT con 4.3% de la votacion. Laconcentracion se incremente mas en el distrito 06 cuya cabecera distrital es Pueblo Nuevo y el IDP seredujo a 0.31. En este distrito entre el PAN-PRD y el PRI sumaron el 93.8% de la votacion. Valores bajosdel IDP tambien se observaron en los cuatro distritos de la capital del estado los cuales se mantuvieronentre 0.355 y 0.365, justificados por la concentracion de votos en los partidos mencionados y una ligerapresencia del PT. La mayor diversidad polıtica se observo en el distrito 15 con cabecera en Nombre deDios, cuyo IDP se ubico en 0.510. La explicacion de este valor se encuentra en la mayor presencia de lospartidos PT (15.5%) y PES con 5.6%.

Distrito PAN-PRD PRI PT PVEM PANAL MORENA PES PD Total IDP01 Durango 58.2% 32.2% 5.3% 0.7% 0.7% 1.7% 0.8% 0.3% 100% 0.361702 Durango 60.2% 30.5% 5.0% 0.7% 0.8% 1.7% 0.8% 0.2% 100% 0.355303 Durango 58.5% 32.2% 5.0% 0.8% 0.8% 1.6% 0.8% 0.3% 100% 0.359404 Durango 57.1% 32.9% 5.9% 0.7% 0.7% 1.6% 0.7% 0.3% 100% 0.365405 Durango 39.9% 42.8% 2.0% 3.8% 4.8% 5.6% 0.7% 0.4% 100% 0.453406 Pueblo Nuevo 66.8% 27.0% 3.0% 0.5% 0.6% 1.2% 0.7% 0.2% 100% 0.309507 Santiago Papasquiaro 45.5% 42.7% 2.9% 0.8% 0.9% 4.5% 2.3% 0.5% 100% 0.404408 El Oro 42.6% 49.7% 1.3% 2.1% 1.6% 1.5% 0.8% 0.5% 100% 0.364009 Mapimı 44.8% 40.7% 2.2% 3.8% 5.2% 2.4% 0.5% 0.4% 100% 0.428710 Gomez Palacio 33.0% 60.2% 1.4% 0.8% 1.0% 2.6% 0.6% 0.3% 100% 0.336511 Gomez Palacio 44.7% 48.1% 1.0% 1.3% 1.0% 2.8% 1.1% 0.2% 100% 0.356212 Gomez Palacio 41.8% 51.1% 0.8% 1.3% 1.0% 2.9% 0.9% 0.2% 100% 0.352613 Lerdo 42.9% 46.7% 1.1% 1.1% 1.2% 5.0% 1.7% 0.2% 100% 0.387314 Cuencame 43.2% 39.1% 7.7% 2.4% 0.5% 5.9% 0.9% 0.3% 100% 0.444415 Nombre de Dios 35.4% 36.8% 15.5% 1.2% 1.2% 2.8% 5.6% 1.5% 100% 0.5096

Total 48.4% 39.7% 4.3% 1.6% 1.6% 2.9% 1.3% 0.4% 100% 0.4067

Numero IV 57 Julio 2016

Page 59: ´ISTICA Y M - pragmamexico.com.mx · de inter´es tanto para especialistas en Estad ´ıstica, como para investigadores en Ciencias Pol ´ıticas y Sociales. Uno de los eventos que

Revista de Muestreo y Estadıstica Pluralidad y Diversidad Polıtica

(a) Durango Distritos Locales

(b) Dttos 1-3-5 (c) Dttos 11-13

Figura 6: Distritos Locales Estado de Durango por Partido Ganador

Numero IV 58 Julio 2016

Page 60: ´ISTICA Y M - pragmamexico.com.mx · de inter´es tanto para especialistas en Estad ´ıstica, como para investigadores en Ciencias Pol ´ıticas y Sociales. Uno de los eventos que

Revista de Muestreo y Estadıstica Pluralidad y Diversidad Polıtica

(a) Durango Distritos Locales

(b) Dttos 1-3-5 (c) Dttos 11-13

Figura 7: Distritos Locales Estado de Durango por IDP

Numero IV 59 Julio 2016

Page 61: ´ISTICA Y M - pragmamexico.com.mx · de inter´es tanto para especialistas en Estad ´ıstica, como para investigadores en Ciencias Pol ´ıticas y Sociales. Uno de los eventos que

Revista de Muestreo y Estadıstica Pluralidad y Diversidad Polıtica

6. Conclusiones

Las condiciones de competencia entre los diferentes partidos difieren notablemente en las entidades fed-erativas. A pesar del gran numero de partidos registrados, las luchas electorales se dan primordialmenteentre el PAN, PRI y PRD, aunque hay que considerar el importante crecimiento de MORENA en algunasentidades. Los restantes partidos, simplemente colaboran como bisagras con los partidos principales ,aunque dadas los apretados resultados que se suelen dar en algunas elecciones, su aportacion, aunquepequena puede ser determinante. La mayor alternancia en el poder que se ha observado en eleccionesrecientes es consecuencia de los premios o castigos otorgados por un electorado mas informado o desin-formado por la presencia de las redes sociales, pero que al final califican el desempeno de las autoridadeselectas.

Referencias

[Ash, 1965] Ash, R. B. (1965). Information Theory. Dover Books on Mathematics. Dover Publications,Inc. New York, United States of America.

[Krebs, 1978] Krebs, Charles, J. (1978). Ecology the Experimental Analysis of Distribution and Abun-dance. Ecology Series. Harper & Row Publishers.

[Kullback, 1968] Kullback, S. (1968). Information Theory and Statistics. Dover Books on Mathematics.John Wiley & Sons.

[Sanchez Villarreal, 2014] Sanchez Villarreal, F. (2014). Pluralidad y diversidad polıtica en mexico. ındicebasado en entropıa de shannon. Revista Estadıstica y Muestreo, (No. 1):pp. 6–9.

Numero IV 60 Julio 2016

Page 62: ´ISTICA Y M - pragmamexico.com.mx · de inter´es tanto para especialistas en Estad ´ıstica, como para investigadores en Ciencias Pol ´ıticas y Sociales. Uno de los eventos que

Desarrollo

REVISTA DE ESTADISTICA Y MUESTREOes una publicacion desarrollada con comandos en software LATEX, por [email protected]

Con apoyo de PRAGMA S.A. de C.V. [email protected]

Page 63: ´ISTICA Y M - pragmamexico.com.mx · de inter´es tanto para especialistas en Estad ´ıstica, como para investigadores en Ciencias Pol ´ıticas y Sociales. Uno de los eventos que

.