apuntes de probabilidad y estadística – indice · pdf file1 apuntes de...

28
1 APUNTES DE PROBABILIDAD Y ESTADÍSTICA – INDICE TEMÁTICO A. L. Dini – 2003 APUNTES DE PROBABILIDAD Y ESTADÍSTICA – INDICE TEMÁTICO .................................................. 1 ÁLGEBRA COMBINATORIA............................................................................................................................ 3 Problemas fundamentales del álgebra combinatoria ........................................................................................ 3 PERMUTACIONES ........................................................................................................................................... 3 COMBINACIONES ........................................................................................................................................... 3 Permutaciones con repetición ......................................................................................................................... 4 VARIACIONES ................................................................................................................................................. 4 Ejemplos ......................................................................................................................................................... 4 POTENCIAS DE UN BINOMIO – GENERALIZACIÓN DE NEWTON.......................................................... 5 Ejemplos ......................................................................................................................................................... 5 PROBABILIDAD Y ESTADÍSTICA – PRIMERA PARTE ............................................................................... 6 INTRODUCCIÓN.................................................................................................................................................... 6 El azar ............................................................................................................................................................ 6 La Estadística y la Probabilidad ..................................................................................................................... 6 Frecuencia y probabilidad matemática. La ley “de los grandes números”. El esquema de la urna ................... 6 Acotación del factor de azar ............................................................................................................................ 7 Procesos con azar inherente............................................................................................................................ 7 El azar estadístico........................................................................................................................................... 8 Trágicos ejemplos ........................................................................................................................................... 8 DATOS Y ESTADÍSTICA......................................................................................................................................... 8 PRESENTACIÓN DE LOS DATOS – TABLAS - HISTOGRAMAS .................................................................................... 9 DISTRIBUCIONES CONTINUAS ............................................................................................................................. 10 MEDIAS Y OTROS PARÁMETROS DE POSICIÓN ...................................................................................................... 11 Mediana, cuartilos, percentiles y moda.......................................................................................................... 12 MOMENTOS DE UNA DISTRIBUCIÓN..................................................................................................................... 12 Momentos de orden par y dispersión ............................................................................................................. 13 Momentos de grado superior al segundo ....................................................................................................... 13 Momentos de grado impar ......................................................................................................................................... 13 Momentos de grado par ......................................................................................................................................... 14 VOLVIENDO A LAS PROBABILIDADES .................................................................................................................. 14 Extensión de la noción de probabilidad ......................................................................................................... 15 El problema de la aguja (o del alfiler) ......................................................................................................................... 15 PROBABILIDAD SIMPLE Y COMPUESTA ................................................................................................................ 15 Probabilidades y diagramas lógicos .............................................................................................................. 16 Teorema de la probabilidad compuesta condicional ...................................................................................... 16 Demostración general: ............................................................................................................................................... 17 Teorema de Bayes (sobre la probabilidad de las causas) ............................................................................... 17 Ejemplo: ................................................................................................................................................................... 18 Cálculo: .................................................................................................................................................................... 18 Pruebas repetidas – La distribución binomial ................................................................................................ 19 Media, varianza y asimetría de la distribución binomial .............................................................................................. 19 Cálculo de M 3 para la distribución binomial ........................................................................................................... 20 Asimetría de la distribución binomial ..................................................................................................................... 20 La distribución de Poisson ............................................................................................................................ 21 Ejemplo Nº1.............................................................................................................................................................. 21 Ejemplo Nº2.............................................................................................................................................................. 21 La distribución normal de Gauss ................................................................................................................... 22 Teorema de Bernouilli ............................................................................................................................................... 22 Teoría de errores ....................................................................................................................................................... 24 Ejemplo: ............................................................................................................................................................... 24 Poblaciones y muestras ................................................................................................................................. 25 Media de medias de las muestras ........................................................................................................................... 26 Desvío standard de la media de las muestras .......................................................................................................... 26 Media y varianza de una suma de variables aleatorias independientes.......................................................................... 27

Upload: phamhanh

Post on 06-Feb-2018

245 views

Category:

Documents


19 download

TRANSCRIPT

Page 1: APUNTES DE PROBABILIDAD Y ESTADÍSTICA – INDICE · PDF file1 apuntes de probabilidad y estadÍstica – indice temÁtico a. l. dini – 2003 apuntes de probabilidad y estadÍstica

1

APUNTES DE PROBABILIDAD Y ESTADÍSTICA – INDICE TEMÁTICOA. L. Dini – 2003

APUNTES DE PROBABILIDAD Y ESTADÍSTICA – INDICE TEMÁTICO ..................................................1

ÁLGEBRA COMBINATORIA............................................................................................................................3

Problemas fundamentales del álgebra combinatoria........................................................................................3PERMUTACIONES...........................................................................................................................................3COMBINACIONES ...........................................................................................................................................3

Permutaciones con repetición .........................................................................................................................4VARIACIONES.................................................................................................................................................4

Ejemplos.........................................................................................................................................................4

POTENCIAS DE UN BINOMIO – GENERALIZACIÓN DE NEWTON..........................................................5

Ejemplos.........................................................................................................................................................5

PROBABILIDAD Y ESTADÍSTICA – PRIMERA PARTE...............................................................................6

INTRODUCCIÓN....................................................................................................................................................6El azar............................................................................................................................................................6La Estadística y la Probabilidad .....................................................................................................................6Frecuencia y probabilidad matemática. La ley “de los grandes números”. El esquema de la urna ...................6Acotación del factor de azar............................................................................................................................7Procesos con azar inherente............................................................................................................................7El azar estadístico...........................................................................................................................................8Trágicos ejemplos ...........................................................................................................................................8

DATOS Y ESTADÍSTICA.........................................................................................................................................8PRESENTACIÓN DE LOS DATOS – TABLAS - HISTOGRAMAS ....................................................................................9DISTRIBUCIONES CONTINUAS .............................................................................................................................10MEDIAS Y OTROS PARÁMETROS DE POSICIÓN ......................................................................................................11

Mediana, cuartilos, percentiles y moda..........................................................................................................12MOMENTOS DE UNA DISTRIBUCIÓN.....................................................................................................................12

Momentos de orden par y dispersión .............................................................................................................13Momentos de grado superior al segundo .......................................................................................................13

Momentos de grado impar ......................................................................................................................................... 13Momentos de grado par ......................................................................................................................................... 14

VOLVIENDO A LAS PROBABILIDADES ..................................................................................................................14Extensión de la noción de probabilidad .........................................................................................................15

El problema de la aguja (o del alfiler)......................................................................................................................... 15PROBABILIDAD SIMPLE Y COMPUESTA ................................................................................................................15

Probabilidades y diagramas lógicos..............................................................................................................16Teorema de la probabilidad compuesta condicional ......................................................................................16

Demostración general:............................................................................................................................................... 17Teorema de Bayes (sobre la probabilidad de las causas) ...............................................................................17

Ejemplo: ................................................................................................................................................................... 18Cálculo: .................................................................................................................................................................... 18

Pruebas repetidas – La distribución binomial................................................................................................19Media, varianza y asimetría de la distribución binomial .............................................................................................. 19

Cálculo de M3 para la distribución binomial ........................................................................................................... 20Asimetría de la distribución binomial..................................................................................................................... 20

La distribución de Poisson ............................................................................................................................21Ejemplo Nº1.............................................................................................................................................................. 21Ejemplo Nº2.............................................................................................................................................................. 21

La distribución normal de Gauss...................................................................................................................22Teorema de Bernouilli ............................................................................................................................................... 22Teoría de errores ....................................................................................................................................................... 24

Ejemplo: ............................................................................................................................................................... 24Poblaciones y muestras .................................................................................................................................25

Media de medias de las muestras ........................................................................................................................... 26Desvío standard de la media de las muestras .......................................................................................................... 26

Media y varianza de una suma de variables aleatorias independientes.......................................................................... 27

Page 2: APUNTES DE PROBABILIDAD Y ESTADÍSTICA – INDICE · PDF file1 apuntes de probabilidad y estadÍstica – indice temÁtico a. l. dini – 2003 apuntes de probabilidad y estadÍstica

2

Ejemplo: ............................................................................................................................................................... 27Covarianza:........................................................................................................................................................... 27Varianza de una resta de variables independientes .................................................................................................. 28

Varianza de una muestra............................................................................................................................................ 28

Page 3: APUNTES DE PROBABILIDAD Y ESTADÍSTICA – INDICE · PDF file1 apuntes de probabilidad y estadÍstica – indice temÁtico a. l. dini – 2003 apuntes de probabilidad y estadÍstica

3

ÁLGEBRA COMBINATORIASe llama álgebra combinatoria a la parte de esta materia que estudia las posibilidades de ordenamiento y agrupa-ción de series o colecciones de objetos. Esas posibilidades de formar grupos de objetos diferentes, iguales, similareso repetidos son números que aparecen en diversos problemas matemáticos, como series de potencias, probabilidadesy estadística.

Problemas fundamentales del álgebra combinatoriaComo colección típica de objetos tomemos n bolillas numeradas del 1 a nEnunciaremos algunos los problemas que pueden plantearse:1) ¿De cuántas maneras diferentes se pueden ordenar esas bolillas? - o lo que es equivalente - ¿Cuantas series de

números diferentes se podrán obtener en sucesivas operaciones de sacar de a una las bolillas hasta vaciar el bo-lillero?

2) ¿De cuántas maneras diferentes se pueden obtener primero m bolillas, en cualquier orden, y luego las restantes(n-m) bolillas, también en cualquier orden?

3) ¿De cuántas maneras diferentes se pueden obtener a partir de n bolillas, grupos de m bolillas diferentes entre síconsiderando diferentes dos grupos con las mismas bolillas pero en diferente orden.

PERMUTACIONESPara contestar la pregunta Nº1, dibujemos todas las bolillas en fila, en un ordendeterminado. Supongamos que la colección total es de n=10 bolillas.

Además de la disposición de la figura (en orden numérico) ¿Cuántas otrasmaneras hay de formar la fila de bolillas?.

Razonemos con una fila de 2 bolillas: por ejemplo la 9 y la 10. Hay dos posi-bilidades de formarla: 9,10 – 10,9Cuando ponemos en juego una tercera bolilla, por ejemplo la Nº8, ésta puede iradelante, en medio o detrás de cada uno de las dos disposiciones anteriores.Son tres posibilidades para cada disposición. Esto produce 3x2=6 posibilida-des:8,9,10 – 9,8,10 – 9,10,8 – 8,10,9 – 10,8,9 – 10,9,8

A cada uno de estos grupos de tres se les puede intercalar una cuarta bolilla al principio, entre la primera y segunda,entre segunda y tercera y después de la tercera. En total 4 posibilidades para cada uno de las 3x2=6 disposicionesanteriores, o sea 4x3x2 = 24 posibilidades para una fila de cuatro bolillas.

En general, un conjunto de n elementos puede presentarse ordenado en n.(n-1).(n-2).(n-3)...2 disposiciones dife-rentes. A estas disposiciones se las llama permutaciones de n objetos Pn y su número es igual a la expresión ante-rior, llamada factorial del número n, expresándose por n!

Para las 10 bolillas anteriores, el número de disposiciones diferentes en el orden (número de permutaciones posi-bles) vale P10 =10! = 10x9x8x7x6x5x4x3x2x1 = 3628800

El concepto de factorial se generaliza para 1!=1 y para 0!=1 , para obtener unidad formal en las sucesivas operacio-nes en las que intervengan.

COMBINACIONESSe plantea en la pregunta 2 cuántas maneras diferentes hay de sacar una serie de m bolillas primero y luego lasrestantes (n-m) sin importar el orden en cada grupo. A cada una de estas series sacadas con el mencionado criteriose la llama arreglo, complexión (según Boltzmann) o más comúnmente combinación de n elementos tomados de am. Se considerarán dos combinaciones diferentes sólo si en ambos grupos de m y n-m bolillas respectivamente haybolillas diferentes. Por ejemplo para n=10 y m=3, una combinación posible sería (1,2,3)(4,5,6,7,8,9,10). No se con-sidera diferente la (2,3,1)(10,8,9,6,7,5,4) , que sólo difiere de la primera en el orden. En cambio sí se contaría comodiferente la (4,3,1)(10,8,9,6,7,5,2)El número de arreglos posibles o “combinaciones de n elementos tomados en grupos de m”, está definido lógica-mente sólo para n>m, y se expresa con el símbolo Cn,m

12

34

56

78

910

Page 4: APUNTES DE PROBABILIDAD Y ESTADÍSTICA – INDICE · PDF file1 apuntes de probabilidad y estadÍstica – indice temÁtico a. l. dini – 2003 apuntes de probabilidad y estadÍstica

4

Se ve que cumplen con la condición pedida un número menor que el de todas las series diferentes posibles o per-mutaciones de n elementos, que como se ha dicho vale Pn = n!=10!. Dentro del grupo de las m bolillas, atender alorden o numeración crea m! (3!=6) casos diferentes, y dentro de las (n-m) restantes se crean debido a la numeración(n-m)! (7!) casos diferentes, que multiplican ambos a las combinaciones buscadas, para dar todas las posibles per-mutaciones n!, es decir que Cn,m.m!.(n-m)! = Pn, de donde Cn,m = n!/m!/(n-m)!

El número combinatorio de n elementos tomados en grupos de m elementos se expresa generalmente con la nota-

ción de Euler,m)!(nm!

n!mn

−=

, que para nuestro ejemplo vale

310 = C10,3=120

Se ve fácilmente que

−=

−=

−=

mnn

m!m)!(nn!

m)!(nm!n!

mn , por ejemplo C10,3 = C10,7 =

= 10.9.8.7.6.5.4.3.2/3.2/7.6.5.4.3.2 = 10.9.8/3.2.1 .

Nótese que el numerador es el producto de una serie de m números decrecientes que empiezan con n, y el denominador es elproducto de una serie creciente de 1 hasta m . Esta forma de recordar el cálculo de Cn,m nos será particularmente útil cuandogeneralicemos el concepto de combinaciones a números no enteros, al calcular los términos de potencias cualesquiera de unbinomio.

De acuerdo a la generalización de factorial para 0!=1!=1, es n1n

y10n

=

=

Permutaciones con repeticiónVolviendo al número de combinaciones, éstas se pueden entender como el número de permutaciones cuando hay my (n-m) elementos repetidos, iguales o equivalentes dentro del grupo.

En general, cuando en una población de n elementos hay a,b,c,d....z, elementos repetidos, iguales o equivalentes,(siendo n=a+b+c...+z), se razona como se hizo para las combinaciones que el número de permutaciones distingui-bles es lógicamente menor que n!, ya que ésta considera como factores diferentes entre sí a las permutaciones entreobjetos similares o repetidos: a!.b!.c!.....z!

Así entonces para obtener las permutaciones con repetición se eliminan de las permutaciones normales las de obje-tos similares, dividiendo por ese producto: Pn, a,b,c...= n!/a!/b!/c!/.../z!

VARIACIONESLa cuestión Nº 3 se resuelve averiguando cuántas series diferentes se pueden formar a partir de n bolillas, con gru-pos de m en un orden determinado, seguida de todas las demás en cualquier orden. El número se llama “variacionesm arias de n elementos”, y se simboliza Vn,m . En nuestro caso se trata de variaciones ternarias de 10 elementos.Como las (n-m) bolillas pueden presentarse en cualquier orden, pueden considerarse como elementos repetidos,dentro de las n! permutaciones totales. Así entonces el numero buscado será (aplicando el concepto empleado parapermutaciones con repetición) Vn,m = n!/(n-m)! = m! Cn,m

Ejemplos1) ¿De cuántas maneras se pueden colocar los siete tomos de una enciclopedia en un estante?Respuesta: 7! = 50402) ¿De cuántas maneras se pueden colocar cinco bolillas en dos casilleros, colocando dos en uno y tres en el otro?Respuesta: C5,2 = 10

3) ¿Cuántas maneras hay de colocar las cinco bolillas en dos casilleros?Respuesta: C5,0 + C5,1 + C5,2 + C5,3 + C5,4 + C5,5 = 1 + 5 + 10 + 10 + 5 +1 = 32

4) ¿De cuántas maneras se pueden disponer quince soldados de un pelotón en tres grupos de 3,5 y 7?Respuesta: 15!/3!/5!/7! = 3603605) ¿Y si el capitán debe ir siempre en el grupo más numeroso?Respuesta: 168168 (justifíquese).

Page 5: APUNTES DE PROBABILIDAD Y ESTADÍSTICA – INDICE · PDF file1 apuntes de probabilidad y estadÍstica – indice temÁtico a. l. dini – 2003 apuntes de probabilidad y estadÍstica

5

iinni

0i

bain

.−=

=∑

3/483.2.1

3/2)1/2).(1/2.(

3

1/2=

−−=

/384154.3.2.1

)3/2).(-5/2/2).(11/2.(1/2

4−=

−−=

POTENCIAS DE UN BINOMIO – Generalización de NewtonAl hacer la potencia enésima de un binomio, se multiplica éste por si mismo n veces, o sea que es(a+b)n = (a+b).(a+b)......(a+b) n vecesTomando el primer término del primer factor (a) y multiplicándolo por los restantes factores aparece como primertérmino an.b0una sola vez, n veces el término que contiene an-1.b1 y en general Cn,m veces términos de la forma an-

m.bm . Teniendo en cuenta que Cn,0=Cn,n=1 y Cn,1=Cn,n-1= n, se puede generalizar el desarrollo en la fórmula:

(a+b)n =

El desarrollo anterior, ya empleado por Tartaglia con n entero positivo, fue generalizado por Newton para n fraccio-nario, de acuerdo a la definición de combinación dada al final del título “Combinaciones”.

Por ejemplo,

El desarrollo de la potencia de un binomio elevado a exponentes no enteros no es finito: es una serie de potenciasque por supuesto coincide con el desarrollo en serie obtenido por cualquier otro método , por ejemplo con el desa-rrollo de Taylor – Mc Laurin.

EjemplosPor ejemplo, desarrollemos √√2 con siete términos :(1+1)1/2 ≈≈ 1 + ½ - 1/8 + 3/48 – 15/384 + 105/3840 – 945/46080 = 1,4052

La serie converge al valor del número irracional 1,4142... y por ser una serie alternada, la diferencia con el valorcalculado con la serie de siete términos es inferior al valor absoluto del primer término despreciado, que vale945/46080.(-11/2)/7 = -0,016. En efecto, es 1,4142-1,4052=0,012 < 0,016

Otro ejemplo: calcular el término de corrección relativista de la masa con la velocidad, 1/√1-β2

Haciendo f=-ββ2 resulta 1/√√1-ββ2 = (f+1)-½ = 1- ½ f + 1/8 f2 – 3/48 f3 +.... = 1+ ½ ββ2 + 1/8 ββ4 + 3/48 ββ6 +...Ya que ββ = v/c <1 (relación entre la velocidad del móvil y la velocidad de la luz), la serie converge rápidamente.Para ββ=0,1 es 1/√√1-0,01 = 1,0050378, y los tres primeros términos de la serie dan1+ 0,005 + 0,0000125 = 1,0050125, es decir con error menor que 26 en un millón.

Page 6: APUNTES DE PROBABILIDAD Y ESTADÍSTICA – INDICE · PDF file1 apuntes de probabilidad y estadÍstica – indice temÁtico a. l. dini – 2003 apuntes de probabilidad y estadÍstica

6

PROBABILIDAD Y ESTADÍSTICA – PRIMERA PARTE

Introducción

El azarConsideremos el típico proceso azaroso de revoleo de una moneda al aire. ¿Se puedesaber en el momento de tirarla si caerá cara o ceca? Podríamos contestar, con la mismafe en la ciencia que los físicos de fines de siglo diecinueve, que si conocemos exacta-mente la geometría y densidad de la pieza, la posición inicial, medimos cuidadosamenteel impulso inicial y su punto de aplicación, consideramos adecuadamente la resistenciadel aire y estamos seguros en qué punto de su trayectoria será interceptada por el dorsode la mano, estaremos en condiciones de prever cuántas vueltas dará antes de posarse, ycon ello predecir si la cara o la ceca aparecerán arriba o abajo. Es decir que controlandoel tiro podremos apostar, seguros de ganar. Por supuesto que el control de todas esascondiciones es sólo posible en un laboratorio, por lo que los chicos del equipo del ba-rrio pueden quedarse tranquilos : El arco con el sol de frente les toca a veces “por esamaldita suerte” y no por decisión directa del referee, quién se limita a tirar mecánica-

mente una moneda en condiciones siempre irrepetibles y fuera de su control.

De igual manera, cuando nos jugamos unas cuántas fichas al “negro el ocho” confiamos que el cruppier no está encondiciones de sincronizar el momento en que tira la bola con la posición y velocidad de la ruleta, y que por lo tantono es responsable de la exacción que representa que salga “colorado el treinta y dos”.

Así, el azar resulta en principio algo que engloba una serie de causas complejas que renunciamos a determinar yestudiar en detalle por difíciles de precisar, porque desconocemos o porque no tenemos ganas ni tiempo.

La Estadística y la ProbabilidadEl estudio de conjunto del factor de azar revela que respeta leyes aproximadas, es decir dentro de un cierto margende error. El estudio de tales leyes aproximadas se llama estadística, palabra que se deriva de estado, por ser los esta-dos los que emplearon por primera vez las técnicas de recuento de población y bienes.

Los sucesos con componente azaroso se llaman casuales, aleatorios o estocásticos. Su resultado o contingencia nopuede determinarse con certeza absoluta y se habla en cambio de probabilidad de ocurrencia, representada con unnúmero que va desde cero (ninguna chance de que pase) a uno (certeza total de que ocurrirá). Así, por ejemplo, enbase a algún método de muestreo de llamadas, podremos afirmar que la probabilidad de que nuestro teléfono sueneen los próximos 10 minutos es 0,3 (o un treinta por ciento si preferimos) con una incertidumbre de ± 0,01 (1%).

Frecuencia y probabilidad matemática. La ley “de los grandes números”. El esquemade la urnaLa probabilidad matemática se define como el cociente entre casos favorables (número de veces en que se puedepresentar un acontecimiento) dividido el número de casos igualmente posibles (total de veces que se puede presen-tar o no el acontecimiento). Así, la posibilidad de sacar un seis al arrojar un dado es: casos favorables = 1 , ya quelos seis puntos corresponden a una de las seis caras del dado; casos igualmente posibles = 6 (cualquiera de las caraspor igual, si el dado está bien equilibrado). O sea que la probabilidad del suceso es de 1/6. La probabilidad de obte-ner una bolilla blanca extraída de una urna que contiene seis blancas y cuatro negras es de 6/10 =3/5

La probabilidad matemática de ocurrencia de un acontecimiento está ligada a la frecuencia con que éste se presentaen la práctica, tomando varias muestras a lo largo del universo o población que reúne todos los individuos o casosposibles. Estas muestras se pueden tomar en el tiempo, comprobando la ocurrencia de tanto en tanto, o en el espacio,extrayendo lotes de una población total estática.

El matemático suizo Jacobo Bernouilli (1655-1705), postuló que en el caso de una urna con bolillas blancas y ne-gras, la frecuencia de extracción debía diferir del valor de la probabilidad matemática en una cantidad tan pequeñacomo se eligiese, con tal de efectuar un número suficiente de pruebas. De tal modo, en el caso de que el universoposible no se modifique, frecuencia y probabilidad están ligadas a través de ese aserto, que se dió en llamar “la ley

Page 7: APUNTES DE PROBABILIDAD Y ESTADÍSTICA – INDICE · PDF file1 apuntes de probabilidad y estadÍstica – indice temÁtico a. l. dini – 2003 apuntes de probabilidad y estadÍstica

7

de los grandes números”, término que no se refiere a la magnitud de las cifras puestas en juego sino a la gran can-tidad de veces con que se presentan.

Aceptada esta ley, se comprende que el resultado de un suceso al azar se pueda modelizar con la extracción de unabolilla de una urna o bolillero de composición adecuada. Por ejemplo, datos mundiales revelan que nacen un pocomás de varones que de mujeres. La frecuencia para el nacimiento de varones es muy aproximadamente 105 varonespor cada 100 mujeres. De tal manera, una urna que podría funcionar simulando los nacimientos que ocurren en lapoblación mundial debería cargarse con 105 bolillas negras (que representarían al sexo fuerte) y 100 bolillas blancas(niñas). En un gran número de extracciones, la frecuencia de extracción de negras se acercaría a 105/205, es decir unpoco más que ½, remedando lo que ocurre en la realidad.

Acotación del factor de azarLas causas que nosotros incluimos dentro de lo que llamamos azar pueden tener diversos grados de complejidad.Resulta que a veces van allí algunas cuestiones que posiblemente podrían quedar determinadas por un análisis másfino del problema, pero cuyo costo no podemos afrontar o no queremos pagar.

Valga el siguiente ejemplo:En una instalación de iluminación con lámparas incandescentes tenemos los siguientes datos:

1) Un registro de algunos años nos revela que aproximadamente el 95 % duran entre 500 y 700 horas, aunquealgunas pocas se queman en seguida y excepcionalmente otras duran casi dos meses.

2) Sabemos que las lámparas se queman principalmente porque su filamento se corta, despreciando otras causasmucho menos frecuentes, como ser la rotura accidental del bulbo por mala manipulación o defectos del vidrio, yciertos problemas de suministro eléctrico (cortes y sobretensión), que ocurren muy rara vez.

3) El corte del filamento se produce en los puntos en que su diámetro queda reducido por debajo de un cierto va-lor. Son contados los casos de mala soldadura del filamento a los soportes. La uniformidad inicial del diámetrodel filamento depende del buen funcionamiento de la trefiladora del hilo de tungsteno

4) El filamento en servicio se va adelgazando porque el tungsteno se evapora lentamente a causa de la temperatu-ra. La presión del gas inerte que llena el bulbo reduce este efecto.

Es evidente que lo dicho en 1) incluye en el azar las causas finas establecidas en los puntos siguientes, y que depoder y querer controlar alguna de ellas en la selección de las lámparas instaladas obtendríamos además de unamayor duración (mayor promedio de vida), un menor factor de azar, representado por la dispersión de la vida de laslámparas, que inicialmente vale ± 100 horas alrededor del promedio de 600. Imagínese el efecto sobre los resulta-dos al seleccionar lámparas de un fabricante que cuidara el estado de su trefiladora (punto 3)) y ajustara con cuidadola presión del gas inerte de la ampolla (punto 4)).

Procesos con azar inherenteEl análisis hecho hasta ahora induce a pensar que siempre el azar es un factor introducido por comodidad o desco-nocimiento en detalle del proceso que se estudia, y que un mayor análisis lo va acotando, transformando casualidaden causalidad. Sin embargo muchos fenómenos estudiados a fondo tienen aún una cuota de azar inherente. Porejemplo, en la desintegración radiactiva, los átomos de un cierto elemento inestable van transmutándose individual-mente en elementos más livianos, al expulsar de su núcleo partículas elementales. A lo que se sabe hasta este mo-mento, este proceso es absolutamente aleatorio, no pudiéndose determinar cuál de los átomos del material en cues-tión, todos ellos idénticos entre sí, será el próximo en emitir una partícula (una parte de su núcleo). Más bien estáestablecido por leyes estadísticas cuántos serán los que aproximadamente lo harán en el próximo minuto. Resultaasí que la aleatoriedad es en este caso una parte insoslayable del proceso ya que no se ha encontrado causa aparenteque determine que sea uno y no otro átomo el que primero decaiga. Muchos otros fenómenos a microescala como eldescripto se explican sólo admitiendo que regulan su ocurrencia funciones de probabilidad.

Los complejos procesos mentales, como los volitivos, impredecibles a ciencia cierta aún por los neurólogos y psi-cólogos más atrevidos, pueden sin embargo estudiarse como hechos que ocurren colectivamente con determinadaprobabilidad bajo ciertas circunstancias. Así estadísticamente se pueden predecir, siempre dentro de ciertos límitesde imprecisión o dispersión, los efectos de la propaganda sobre la demanda general de un cierto producto, o la incli-nación de los gustos de los jóvenes de una comunidad por una determinada moda.

Page 8: APUNTES DE PROBABILIDAD Y ESTADÍSTICA – INDICE · PDF file1 apuntes de probabilidad y estadÍstica – indice temÁtico a. l. dini – 2003 apuntes de probabilidad y estadÍstica

8

El azar estadísticoTambién, hay procesos que tienen una ocurrencia y desarrollo ligado a una gran cantidad de otros acontecimientosanteriores relacionados o no entre sí, y que resultan absolutamente imposibles de desentrañar por su complejidad ynúmero, por más que pudieran responder en último caso a relaciones causa-efecto. Por ejemplo, se sabe que la inte-racción mecánica en el espacio de sólo tres cuerpos es un problema ya harto complicado de resolver por más que lasrelaciones causa-efecto sean las sencillas leyes de la mecánica clásica. ¿Quién se atrevería siquiera a abordar poreste método la interacción de millones de moléculas en un botellón de gas? Sólo métodos estadísticos dan en estecaso un resultado de conjunto muy ajustado, prediciendo variables macroscópicas como presión, temperatura yfunciones de distribución de velocidades de las moléculas, es decir qué porcentaje del total de moléculas tienenvelocidades comprendidas en un intervalo dado.

Veremos que la población de una nación no se comporta a escala estadística muy diferentemente que la de las molé-culas de un litro de gas, aunque sea bastante menor en número y muy diferente en naturaleza que ésta. Desde estepunto de vista, la estadística es una herramienta que nivela y rebaja de categoría al individuo, y sus conclusionesdeben aplicarse a la población estudiada en general, y no deben recaer sobre grupos o personas, a riesgo de trans-formar en verdad la humorada del poeta Trilussa:

¿Sabéis qué es la estadística? Una cosacon lo que se hace la cuenta general

de los que nacen, van al hospital,a la curia, a la cárcel o a la fosa.

Más para mi, la parte más curiosaes la que da el promedio individual

en que todo se parte por igualhasta en la población menesterosa.Por ejemplo: resulta sin engaño,que según la estadística del año

te toca un pollo y medio cada mes.Y aunque el pollo en tu mesa se halle ausente

entras en la estadística igualmente,porque hay alguno que se come tres.

Trágicos ejemplosPredecir con seguridad que nuestro vecinito R... se quemará con una cañita voladora en las próximas fiestas es im-posible. De hecho, si pudiéramos sólo entreverlo con alguna certeza, además de la alerta e inquietud que la sensateznos hace sentir, correríamos a prevenirlo, a rogar a los padres que no le den plata o a secuestrarle los cohetes yacomprados al quiosquero inconsciente. Pero a nivel estadístico, sabemos que inevitablemente, con la educaciónimpartida a los niños, a los padres, y la condescendencia de mayores y autoridades ante la venta de pirotecnia, esanoche los pobres médicos de la guardia precautoriamente reforzada del Instituto del Quemado, se esforzarán ante lasmanitas llagadas por el fuego y los ojitos lastimados por las chispas de varios chicos, que se llamarán P...., o T....,. oH......, y quizás también esté el pobre R...., ya que pertenece a la población de niños que juegan con fuego, a esapoblación que se llama “de riesgo”, por tener una gran exposición al peligro.

OtroAntes del desembarco en Normandía, los generales que iban a dirigir la operación (bien lejosdel frente) calcularon aproximadamente el alto porcentaje de mortandad entre atacantes y ata-cados. Estas macabras anticipaciones eran fruto de sus estudios estratégicos, juegos de guerra,maniobras de campo y, por supuesto, estudios estadísticos de datos de contiendas anteriores.Así, antes de la invasión ya tenían preparadas las cartas de condolencia, más de la mitad de lascuáles deberían ser enviadas de seguro. Al tope de la montaña de sobres estaba la dirigida a laposible futura viuda del soldado Adams, quién el 6 de junio de 1944 saltó a la playa desde labarcaza de desembarco Nº32.

Datos y estadísticaEl registro de hechos da origen a la estadística, que comprende las técnicas de tratamiento de cantidades variables dedatos que se generan en muestreos, censos, recuentos e inventarios. La recolección de datos fué siempre una activi-dad importante de gobiernos y estados. Su objeto, a veces cumplido y otras no, es el de estudiarlos en conjunto conciertas técnicas, sacando ciertos números globales llamados índices. Índices de población, de cultivos, riquezas, etc.Los censos, por ejemplo, estuvieron siempre a la orden del día. Recordemos el que ordenó César Augusto en el año1 de nuestra era, que hizo que la Virgen María recalara en Belén y allí naciera el Salvador. Uno de los propósitos

Page 9: APUNTES DE PROBABILIDAD Y ESTADÍSTICA – INDICE · PDF file1 apuntes de probabilidad y estadÍstica – indice temÁtico a. l. dini – 2003 apuntes de probabilidad y estadÍstica

9

principales de los censos es el de ver la evolución y distribución de la población, para prever recursos civiles y mi-litares, planes de conquista, defensa y desarrollo, y sobre todo controlar el pago de impuestos.

¿Qué hacer con varios miles de planillas con nombres y apellidos, sexo, religión, nacionalidad, domicilio, ocupa-ción, etc? Hasta hace un par de siglos, los recuentos generaban números que se utilizaban en forma muy limitada.Hoy en día, las masas de datos se ordenan en bases de datos, que son tablas con registros y campos. Hay tantos re-gistros como individuos, y tantos campos como atributos o categorías se quieran investigar. Cualquiera sabe quemetiendo la base de datos en una computadora estamos en condiciones de clasificar por atributos, y extraer las másvariadas conclusiones. Por ejemplo, saber cuántas mujeres que se dedican a trabajos manuales hay en Santa Rosa, ocuántos panaderos japoneses hay en Rosario. Se pueden clasificar por edades, por sexo, por religión, etc.

Los índices principales que se extraen de la masa de datos de recuentos y muestreos son:1) El número de individuos.2) El promedio de los atributos medibles numéricamente (edad, número de hijos, ingresos, bienes, et.). Se expresa

en cantidad promedio per cápita. Como se explicará luego, no sólo se usa la media aritmética o simple prome-dio, sino que a veces resultan preferibles la media geométrica, armónica o cuadrática.

3) La distribución de las cifras de los atributos, lo que permite determinar cosas tales como el porcentaje de lapoblación que gana entre 500 y 600 $/mes, o que está entre 50 y 55 años de edad.

4) La dispersión de las cifras alrededor de la media. Se cuantifica este atributo con el valor de los momentos deorden par, como se explicará más adelante.

5) La forma de la distribución : simétrica o asimétrica alrededor de la media. Esta característica se mide a través delos momentos de orden impar, según se verá después.

6) Otros índices de comparación con muestreos anteriores, por ejemplo la tendencia al crecimiento o decreci-miento de los valores de los atributos, estudiados a través de regresiones sobre series de tiempo.

7) Las relaciones que puede haber entre valores de los distintos atributos (medibles con cifras o no). Por ejemplocómo varía el ingreso promedio per cápita con la edad, el sexo o la nacionalidad. Se evalúan tales posibles de-pendencias entre atributos mediante estudios de correlación. según se explicará.

Presentación de los datos – Tablas - HistogramasSupongamos que se nos encomienda un informe de población del pueblo “Cañada Chica”, de 1257 habitantes. Elarchivo general del censo consta de 1257 registros de siete campos cada uno (nombre y apellido, fecha de naci-miento, sexo, profesión, estado civil, número de hijos, domicilio). De él extractamos la columna de edades, suma-mos todas las edades y dividimos por el número de habitantes. Eso nos da la media aritmética de la población, enaños promedio por habitante.Luego ordenamos la lista por edades y contamos la cantidad de habitantes que tienen hasta 10 años de edad, empe-zando por el recién nacido Ariel Farina, de solo nueve días. Luego hasta veinte años, hasta treinta,... etc. hasta llegara los más viejos: el domador Teófilo Morales, de 90, años, la partera Alma Ledesma, de 91 años y la señora LudmilaSörensen, una sueca de 96 años.Terminamos así la tabla colocando a estos tres ancianos en la categoría más alta, la de los que tienen entre 90 y 100años. La categoría de 100 a 110 está vacía, pero la incluimos igual en nuestra tabla, que queda así:

Categoría de edad(años)

Número de personas(ambos sexos)

Poblaciónacumulada

0-10 53 5310-20 98 15120-30 124 27530-40 267 54240-50 350 89250-60 200 109260-70 120 121270-80 30 124280-90 12 125490-100 3 1257100-110 0 1257TOTAL 1257 -----------

Page 10: APUNTES DE PROBABILIDAD Y ESTADÍSTICA – INDICE · PDF file1 apuntes de probabilidad y estadÍstica – indice temÁtico a. l. dini – 2003 apuntes de probabilidad y estadÍstica

10

La representación de los datos anteriores en el gráfico cartesiano que se presenta a continuación se llama “diagramade bastones” o “histograma” (del griego hystos = mástil y gramos = red).

Para afinar nuestro análisis podríamos elegir intervalos más estrechos, por ejemplo de cinco en cinco años, lo quenos habría proporcionado un histograma con un número doble de categorías y bastones. El aumento del número decategorías (de intervalos cada vez menores), va adelgazando los bastones y su altura, que es proporcional al númerode individuos por categoría.

Distribuciones continuasLa variable tiempo, que se representa en abscisas, es una variable continua. Quiere decir que admite una subdivi-sión en intervalos tan pequeños como se quiera. Se puede así pensar en llegar al límite de tomar categorías infinita-mente pequeñas, que se confunden con un instante en vez de un intervalo de edad. Pero ¿qué valor de la funcióncorresponde a un instante? ¿Cuántas personas tienen una edad de 23 años, nueve meses, siete días, veintitrés horas,treinta minutos y doce segundos con veintinueve décimas? Un bastón de ancho nulo tiene también altura nula, asíque podríamos contestar que ninguna. El histograma de categorías nulas carece de sentido. Pero si en vez de tomarcomo función la cantidad de personas, tomamos el cociente entre personas e intervalo, trabajaremos con una densi-dad de frecuencia, o sea cantidad de individuos por unidad de tiempo. Transformamos así una función de distribu-ción discontinua en otra continua.

Entonces la densidad de frecuencia, o en nuestro ejemplo el número de casos divido el intervalo (individuos porunidad de tiempo), es una cantidad que puede representarse cualquiera sea al ancho del intervalo elegido. En parti-cular, haciendo tender a cero el intervalo, se llega a trabajar con el tiempo en abscisas y una función de frecuenciacontinua en ordenadas. Dicha función se define matemáticamente como h(t) = dH(t)/dt, siendo dH(t) la cantidadde habitantes con edades comprendidas en el intervalo entre t y t+∆∆t años cuando ∆∆t→→0

El gráfico muestra la función de distribución de densidad de edades h(t) en función de la edad t. El área encerradaentre dos abscisas de la curva mide la cantidad de habitantes en el intervalo delimitado por las mismas.

DISTRIBUCIÓN DE EDADES

0

100

200

300

400

0 20 60 80 100 120

edad (años)

hab

itan

tes/

edad

(H

/añ

o)

41,6

mediamedianamoda

DISTRIBUCIÓN DE EDADES

0

100

200

300

400

0-10 10-20 20-30 30-4040-5050-60 60-70 70-80 80-9090-100 100-110

categoría (años)

41,6

Nº d

e ha

bita

ntes

por

cat

egor

ía

Page 11: APUNTES DE PROBABILIDAD Y ESTADÍSTICA – INDICE · PDF file1 apuntes de probabilidad y estadÍstica – indice temÁtico a. l. dini – 2003 apuntes de probabilidad y estadÍstica

11

La integral de la función densidad de frecuencia desde el origen hasta un valor t es H(t) = o∫∫ t h(t) dt, y representala cantidad de habitantes que hay entre cero y la edad t . Se llama a H(t) frecuencia acumulada porque incluye oacumula los habitantes de todas las edades desde cero hasta t . El área sombreada en el gráfico superior vale 40∫∫60 h(t)dt, es decir la cantidad de personas que tienen entre cuarenta y sesenta años de edad (550), y coincide con la dife-rencia de ordenadas de la función acumulada H(60)-H(40) = 1092 – 542 = 550 personas, según se ve en el gráficoque sigue.

Medias y otros parámetros de posiciónSe vio que la “media aritmética” de todos los valores se calcula sumando la edad de todos los habitantes y divi-diéndola por el número de ellos. Como no tenemos a mano los resultados de detalle del censo y si en cambio los dela tabla resumen, trabajaremos con ella. La misma simplifica la distribución, considerando que los 53 habitantescuyas edades varían entre cero y diez años se pueden reemplazar por un número igual de personas con una edadpromedio igual al valor medio del intervalo, esto es cinco años de edad. De la misma manera, los 98 jóvenes deentre 10 y 20 se meten en la estadística como 98 personas de edad promedio de quince años, y así sucesivamente.Seamos conscientes que como toda simplificación, la llevada a cabo recién introduce una imprecisión o error alignorar la distribución propia dentro de cada categoría. El promedio de esta distribución categorizada de diez en diezaños, sale de sumar los productos de la cantidad de personas de cada intervalo por la edad promedio representativadel dicho intervalo, todo esto dividido el numero total de personas:(53x5 + 98x15 + 124x25 + ..... + 3x95) / (53+98+124+....+3) = 41,6 años. El numerador de dicha fracción es lo queen mecánica se llama momento de primer orden de una función con respecto al origen, y la media aritméticaviene a ser el centro de gravedad de la distribución.

Ya se mencioné que además de la media aritmética o simple promedio, se usan como indicadores otras medias: lageométrica, la armónica y la cuadrática o valor eficaz, llamada también por los norteamericanos RMS (root meansquare = raíz del valor cuadrático medio)

Para una serie de n números a1, a2, a3,... an, se tiene:

media aritmética (ai) = M(ai) = (ΣΣιι=1...n ai )/ nmedia geométrica (ai) = G(ai) = (a1. a2. a3.....an,)

1/n

media armónica (ai) = H(ai) = n / (ΣΣιι=1...n 1/ai )media cuadrática (ai) = Ef (ai) = RMS(ai) = (ΣΣιι=1...n ai

2 / n) ½

Para la sucesión 1,2,3,4,5,6,7,8,9,10 . Compruébese que M=5,5 , G=4,529 , H=3,414 , Ef=6,205

Cuando los números difieren poco entre sí, los valores de las varias medias tienden a acercarse.Ejemplo: El diámetro de un lote de diez cigarros está dado por la serie siguiente (en cm):2.05 1.9 1.89 2.12 1.95 2.01 1.8 1.92 2.1 2.2Resulta que (compruébese):M= 1.994 media aritméticaG= 1.991 media geométricaH= 1.987 media armónicaEf= 1.997 media cuadrática

La media cuadrática es muy sensible a algún valor que se separe mucho del resto, segúnse ve en la serie modificada de la anterior:

DISTRIBUCIÓN DE EDADES ACUMULADA

0200400

542

800

109212001400

0 20 60 80 100 120

edad (años)

frec

uen

cia

acu

m(H

/añ

o)

41,6

FUMAR ES PERJUDICIAL PARA LA SALUD

Page 12: APUNTES DE PROBABILIDAD Y ESTADÍSTICA – INDICE · PDF file1 apuntes de probabilidad y estadÍstica – indice temÁtico a. l. dini – 2003 apuntes de probabilidad y estadÍstica

12

2.05 1.9 1.89 2.12 1.95 7 1.8 1.92 2.1 2.2M= 2.493 media aritméticaG= 2.255 media geométricaH= 2.138 media armónicaEf= 2.913 media cuadrática

Mediana, cuartilos, percentiles y modaSe llama mediana al valor de la abscisa o variable que separa en partes iguales el número de observaciones superio-res e inferiores.La serie de datos ordenada de menor a mayor es:1.8 1.89 1.9 1.92 1.95 2.01 2.05 2.1 2.12 2.2Por ser par el número de datos, hay dos valores centrales, y la mediana se aproxima entonces al promedio entreellos, es decir 1.98 (recordemos que la media aritmética es 1,994)La influencia de valores extremos se hace sentir menos en la mediana que en la media, por ejemplo si entre los diá-metros de los cigarros se computara uno fuera de serie de 2,5 cm, el promedio de la serie sería de 2.04 , mientras queel de la mediana pasaría a 2.01

En el caso de una distribución, como la de edades de Cañada Chica, la mediana se sitúa (ver la tabla)entre los valores 892 y 1092, que corresponden respectivamente a las categorías centradas en 45 y 55 años, o sea quese puede tomar como mediana de la distribución el valor 50 años. La ubicación de la mediana está indicada en elgráfico de la distribución continua con línea de puntos.

Interesa a veces conocer además del valor de la variable que separa partes iguales de la población ordenada, la quesepara cuartos :el primero del segundo, el segundo del tercero y el tercero del cuarto.. Estos valores de la variable sellaman cuartilos primero, segundo y tercero respectivamente. Lógicamente, el segundo cuartilo coincide con la me-diana. Por ejemplo, el tercer cuartilo de nuestro ejemplo es la abscisa que corresponde a una población acumuladade ¾ x 1257 = 942.75 . Haciendo una interpolación lineal, a este valor acumulado le corresponde una abscisa de 45+ 5 x (942.75-892)/(1092-892) = 46,27 , que es el tercer cuartilo.

Generalizando el concepto anterior a cualquier fracción o porcentaje del acumulado, se definen así los percentiles decualquier valor. Por supuesto, el tercer cuartilo es el percentil correspondiente al 75%

Moda o dominante es el valor de la variable que corresponde a máxima frecuencia, o sea la abscisa del valor má-ximo de la distribución. Para la distribución de Cañada Chica, la moda corresponde al valor medio de la categoríadel bastón de mayor altura (350 H/año), esto es 45 años. Se la ha indicado en el gráfico de la distribución continuacon línea de trazos.

Media, mediana y moda coinciden sólo en el caso de una distribución simétrica. En cambio, en el caso de unadistribución asimétrica como la del ejemplo, se sitúan hacia el lado de la cola en el siguiente orden: moda, medianay media.

Momentos de una distribuciónEn general, el momento centrado de grado k de una serie de N valores ai (con i =1,2...n), está dado por MMk = ΣΣi (ai-m)k siendo m = (ΣΣi ai)/N la media aritmética

Para una distribución discontinua de n bastones de peso pi y abscisas xi (con i =1,2...n), el momento centrado degrado k está dado por MMk = ΣΣi pi.(xi-m)k siendo m = (ΣΣi pi.xi)/N la media aritmética.

Para una distribución continua de densidad de frecuencia f(x)=dp/dx , el momento centrado de grado k viene de laexpresión anterior, cambiando la función discreta pi de la variable xi por la diferencial dp=f(x).dx y la sumatoria poruna integral entre los límites de existencia de f(x), (en general -∞ a +∞), vale decir queMMk = -∞∞∫∫ +∞∞ f(x).(x-m)k.dx , siendo m = -∞∞∫∫ +∞∞ x. f(x).dx/ -∞∞∫∫ +∞∞ f(x).dx la media aritmética.

Ejercicio: Demostrar que el momento centrado de primer orden es nulo:Demostración: MM1centr = -∞∞∫∫ +∞∞ f(x).(x-m).dx = -∞∞∫∫ +∞∞ x. f(x). dx -m -∞∞∫∫ +∞∞ f(x).dx , pero siendo el segundo términoigual a -∞∞∫∫ +∞∞ x. f(x).dx, por definición de media aritmética dada en el párrafo anterior, es MM1centr = 0.

Los momentos son importantes indicadores de la “forma” de una distribución (achatada, puntiaguda, simétrica oasimétrica).

Page 13: APUNTES DE PROBABILIDAD Y ESTADÍSTICA – INDICE · PDF file1 apuntes de probabilidad y estadÍstica – indice temÁtico a. l. dini – 2003 apuntes de probabilidad y estadÍstica

13

Momentos de orden par y dispersiónVeremos primeramente el momento de segundo orden, llamado en mecánica “momento de inercia”, cuyo valorpara una agrupación de masas se calcula multiplicando el valor de cada una de ellas por el cuadrado de la distanciaa un determinado eje o punto, que se toma como referencia. Para un conjunto de datos categorizados en una distri-bución discontinua, el momento de segundo orden con respecto al origen se calcula sumando todos los productosformados por los valores de cada categoría y la abscisa media correspondiente a esa categoría al cuadrado. Si laabscisa se toma con respecto a la media, se obtiene así un momento de segundo orden “centrado”. El valor del mo-mento centrado de segundo orden es sensible a la dispersión de la población con respecto a la media. Al figurardiferencias de abscisas al cuadrado (siempre positivas) este parámetro no registra si la dispersión es simétrica oasimétrica con respecto al centro.

Volviendo nuevamente a la distribución de población del ejemplo, cuya media vale m = 41.6 , tenemos:

x (H/año) (x-m)2 h (H) h.(x-m)2

5 1339.20 53 70977.54

15 707.30 98 69315.17

25 75.40 124 34149.14

35 43.50 267 11613.14

45 11.59 350 4057.75

55 179.69 200 35938.44

65 547.79 120 65734.90

75 1115.89 30 33476.69

85 1883.99 12 22607.88

95 2852.09 3 8556.269

TOTAL 1257 356426.89

De acuerdo a los cálculos resumidos en la tabla anterior, el momento centrado de segundo orden es M2c=356426.89En mecánica se usa el radio de inercia, que es la distancia i a la que se debería poner toda la masa concentrada Npara obtener el mismo momento de inercia centrado M2c del cuerpo en cuestión, así M2c=N.i2 de donde i=(M2c /N)½

En estadística hay algo análogo al radio de inercia, que se llama “desvío standard” , simbolizado universalmentecon la letra σσ, y que en nuestro caso de vale σσ = (356426.89/1257)½ = 16.84 . Este número representa la diferenciade edad con la media que debería presentar una población ficticia uniforme del mismo número de habitantes (1257H) para lograr la misma dispersión que la distribución real.

Se usa también en estadística como medida de la dispersión de poblaciones el cuadrado del desvío standard, quese llama varianza. La varianza coincide con el momento de segundo orden cuando N=ΣΣ i pi =1

En una distribución discontinua, el momento centrado de segundo orden es , para N=ΣΣ i pi, MM1= Nm = Σ Σi pi xi

MM2centr = ΣΣi pi.(xi-m)2 , y tomando (xi–m )2 = xi

2 – 2 xi m + m 2, resulta:MM2centr = ΣΣi pi.xi

2 – 2 m.ΣΣi pi xi + m 2 ΣΣi pi = MM2 – 2 m2N + m 2N = M M2

– MM12/N (Teorema de Steiner)

Ejemplo: Volviendo al ejemplo del diámetro del lote de diez cigarros, que está dado por la serie siguiente (en cm):2.05 1.9 1.89 2.12 1.95 2.01 1.8 1.92 2.1 2.2Habíamos ya calculado la media aritmética de la serie de valores con:MM1 = (2.05+1.9+1.89+2.12+1.95+2.01+1.8+1.92+2.1+2.2) = 19.94 , siendo la media m=MM1/N =19.94/10 = 1.994El momento centrado de segundo orden resulta :MM2centr = [(2.05-1.994)2+(1.9-1.994)2+(1.891.994)2+(2.12-1.994)2+ (1.95-1.994)2+(2.01-1.994)2+(1.8-1.994)2++(1.92-1.994)2+(2.1-1.994)2+(2.2-1.994)2] = 0.138O también aplicando el teorema de Steiner esMM2= (2.052+1.92+1.892+2.122+1.952+2.012+1.82+1.922+2.12+2.22) = 39.898MM2centr = MM2

– MM12/N = 39.898 – 397.60/10 = 0.138

La varianza es s2=0.138/10 = 0.0138 , y su raíz cuadrada es igual al desvío standard s = (0.0138)½ = 0,117Una varianza mayor perteneciente a otra muestra de igual número de cigarros extraída en otro momento podría in-terpretarse consecuencia de algún tipo de desajuste en la máquina, que hace que los cigarros salgan más desparejos.

Momentos de grado superior al segundoMomentos de grado imparLos momentos de centrados de tercer orden, y en general los de grado impar, son nulos en distribuciones simétricascon respecto a su media. Según la figura figura, para k impar es (x-m)k = -(m-x)k entonces es:

Page 14: APUNTES DE PROBABILIDAD Y ESTADÍSTICA – INDICE · PDF file1 apuntes de probabilidad y estadÍstica – indice temÁtico a. l. dini – 2003 apuntes de probabilidad y estadÍstica

14

MMkcentr = m∫∫∞∞ f(x).(x-m)k.d(x) + -∞∞∫∫ m f(x).(m-x)k.d(x) = m∫∫∞∞ f(x).(x-m)k.d(x) - -∞∞∫∫

m f(x).(x-m)k.d(x)

En virtud de la simetría de f(x) alrededor de m las dos integrales tienen el mismo valor, por lo que su resta es cero,por lo tanto MMkcentr = 0 para k par y f(x) simétrica.

Contrario sensu, resulta fácil darse cuenta que laasimetría genera momentos de orden impar nonulos, ya que los valores absolutos de las inte-grales primera y segunda (a la derecha y a laizquierda de la media respectivamente) sondiferentes. El signo es el de la integral de mayorvalor absoluto. Así, en una distribución másextendida hacia la derecha de la media, el mo-mento impar es positivo, y negativo si la “cola” de la distribución seextiende más hacia al izquierda de la media.

A continuación se presenta la tabla de cálculo del momento de tercer orden de la distribución de población de Caña-da Chica:

h (x-m)3 h.(x-m)3

53 -49008,07702 2597428,082

98 -18810,62808 -1843441,552

124 -4570,219713 -566707,2444

267 -286,8519183 -76589,4622

350 39,47530316 13816,35611

200 2408,761952 481752,3904

120 12821,00803 1538520,963

30 37276,21353 1118286,406

12 81774,37846 981292,5415

3 152315,5028 456946,5085

0 254899,5866 0

M3 = -493551,1747

El valor negativo del momento de tercer orden indica que la distribución se vuelca más hacia la izquierda, por másque en el histograma no aparezca tan claro este efecto.

En una distribución discontinua, el momento centrado de tercer orden es MM3centr = ΣΣ i pi.(xi-MM1)3 , y tomando (xi-

MM1)3 = xi

3 - 3 xi2 MM1 +3 xi MM1

2 - MM13 , resulta:

MM3centr = ΣΣi pi. xi3- 3 MM1 ΣΣi pi xi

2+3 MM12 ΣΣi pi xi - m

3 ΣΣi pi = MM3centr = MM3 - 3 MM1 MM2+3 MM1

2 MM1 - MM13 = MM3 - 3 MM1 MM2+2 MM1

3

Momentos de grado parLos momentos de grado par superiores al segundo, por ejemplo el de cuarto grado, amplifican la dispersión o“aplastamiento” de la distribución. Generalmente se usan comparando su valor con la distribución normal de Gauss,que estudiaremos luego.

Volviendo a las probabilidadesVimos que la probabilidad matemática de ocurrencia de un suceso se define como cociente entre el número de casosfavorables a que se presente dicho acontecimiento y el número de casos igualmente posibles o probables. Para sal-var la aparente recurrencia de la definición anterior, digamos que caso igualmente probable a aquél que no presentaninguna condición que lo haga preferible o favorito frente a otros.

Al afirmar que los casos posibles al tirar un dado son seis, estamos tácitamente admitiendo que el dado está perfec-tamente equilibrado, y que el mecanismo de tirarlo incluye factores de azar impredecibles e incontrolables que nohacen pensar en ninguna tendencia.

Vimos también que la “ley de los grandes números” permite asimilar frecuencia con probabilidad cuando las prue-bas se realizan un número de veces indefinidamente grande. Así, si la cantidad de veces que sale ceca al tirar unmillón de veces una moneda es de 796803 , podremos afirmar con seguridad casi absoluta que la moneda no estáequilibrada. La mayoría de las veces la experiencia no es tan concluyente como la recién descripta, y en vez de la

dx

dp = f(x).dx

m

x-mm-x

dp

Cuando k es impar la integral desde m hasta ∞∞ def(x) (x-m)kdx es de signo contrario a la de -∞∞ hasta m,ya que (x-m)k = - (m-x)k , por lo tanto la suma deambas integrales (momento de orden k) es nula

f(x)

Minpar > 0

Minpar < 0

Page 15: APUNTES DE PROBABILIDAD Y ESTADÍSTICA – INDICE · PDF file1 apuntes de probabilidad y estadÍstica – indice temÁtico a. l. dini – 2003 apuntes de probabilidad y estadÍstica

15

afirmación se puede dar sólo una estimación de la probabilidad de que nuestra hipótesis sea la correcta. Las técnicasde “ensayos de hipótesis” de las que hablaremos más adelante cumplen este cometido.

Extensión de la noción de probabilidadHay hechos en los que los casos (posibles y favorables) están representados por variables continuas, en vez de nú-meros naturales. Valga el famoso ejemplo “de la aguja” atribuido al célebre naturalista francés Georges-Louis Le-clerc de Buffon (1707-1788):

El problema de la aguja (o del alfiler)Un alfiler de longitud l se deja caer al azar sobre una página conrenglones separados por una distancia a. La longitud del alfiler esmenor que la distancia entre renglones, es decir ll < a. ¿Cuál es laprobabilidad de que el alfiler se ubique cortando o tocando algúnrenglón?

Los casos de este problema sonlas posiciones del alfiler, cadauna de las cuales puede expre-sarse con dos números: la dis-tancia x del centro del alfiler alrenglón más próximo (la posi-ción a lo largo de los renglonesno interesa) , y su orientación,

medida por el ángulo φφ que forma con una normal cualquiera a losrenglones.Así, los casos posibles están representados por la suma de todos losproductos entre valores de x , φ φ posibles, o sea dentro de los intervalos 0≤≤x≤≤a/2 y 0≤≤φφ ≤≤ππ/2. Como se trata de varia-bles continuas, la suma se transforma en integral de diferenciales, o sea que el universo de casos posibles es:

Casos posibles = x=o∫∫ x=a/2

φφ=o∫∫ φφ=π/2π/2dφ.φ.dx = a.π/4π/4

Los casos favorables están representados por las posiciones en las que el alfiler toca algún renglón, para lo cual sucentro no puede estar más allá de la distancia l/2.cos φφ , o sea 0≤≤x≤≤ l/2.cos φφ con 0≤≤φφ ≤≤ππ/2.De tal manera, la totalidad de los casos favorables viene dado por :

Casos favorables =x=o∫∫ x= ll/2 cos φφ

φφ=o∫∫ φφ=ππ/2dφ.φ.dx =

= ll/2 φ φ=o∫∫ φφ=ππ/2 cos φφ dφ =φ = l l/2

Entonces, la probabilidad de que el alfiler caiga sobre un renglón es ll/2//a/π 4 /π 4 = 22 ll / /a/π/π

En la figura de la derecha se reproducen los resultados de arrojar 30 alfileres de 15,5 mm de largo sobre una hojacon paralelas a 20 mm , contándose 14 alfileres que atraviesan o apoyan sobre renglones. La probabilidad experi-mental o frecuencia resulta así f = 14/30 =0,47 . De acuerdo al cálculo anterior el valor matemático de la probabili-dad resulta p=2ll /a/ππ = 2.15,5/20/3,1416 = 0,493

Probabilidad simple y compuestaLa estrecha vinculación entre estadística y la teoría de las probabilidades aconseja estudiar algunos aspectos de éstaen detalle : Examinemos algunos ejemplos:

Ejemplo 1: ¿Cuál es la probabilidad de obtener un seis arrojando dos dados?Los casos favorables son: 1 y 5 – 2 y 4 – 3 y 3 – 4 y 2 – 5 y 1. En total 5 casos favorablesLos casos posibles son 1 y 1 – 1 y 2 – 1 y 3 - 1 y 4 – 1 y 5 – 1 y 6

2 y 1 – 2 y 2 – 2 y 3 - 2 y 4 – 2 y 5 – 2 y 63 y 1 – 3 y 2 – 3 y 3 - 3 y 4 – 3 y 5 – 3 y 64 y 1 – 4 y 2 – 4 y 3 - 4 y 4 – 4 y 5 – 4 y 65 y 1 – 5 y 2 – 5 y 3 - 5 y 4 – 5 y 5 – 5 y 66 y 1 – 6 y 2 – 6 y 3 - 6 y 4 – 6 y 5 – 6 y 6

En total 36 casos posibles, por lo que la probabilidad resulta entonces 5/36

la

El problema de Buffon

Page 16: APUNTES DE PROBABILIDAD Y ESTADÍSTICA – INDICE · PDF file1 apuntes de probabilidad y estadÍstica – indice temÁtico a. l. dini – 2003 apuntes de probabilidad y estadÍstica

16

Ejemplo 2: Dos dados son distinguibles entre sí, por ejemplo de diferente color ¿ Cuál es la probabilidad de obtenerun 1 en el primer dado y un 5 en el segundo,?Casos favorables : 1 ; Casos posibles : 36 ; la probabilidad buscada vale 1/36.Esta probabilidad es la misma que la de sacar dos números cualesquiera en cualquier orden, o si se prefiere, de sacaruna secuencia de dos números determinados arrojando un mismo dado dos veces, ya que el resultado de la primeraprueba no afectará a la de la segunda sucesiva, y también lo que salga en el primer dado no afecta a lo que sale en elsegundo cuando se tiran dos al mismo tiempo.

Los sucesos de los casos anteriores se pueden considerar como combinación de sucesos simples: por ejemplo, el desacar un seis con dos dados puede descomponerse en cinco sucesos excluyentes que pueden ocurrir indistintamente,cada uno de ellos formado por dos sucesos que tienen que ocurrir en determinado orden, es decir que:

Cinco sucesos que pueden ocurrir indistintamente, separados por la conjunción disyuntiva “o”, a saber:1 y 5 o 2 y 4 o 3 y 3 o 4 y 2 o 5 y 1cada uno de ellos formados por dos sucesos independientes que deben ocurrir juntos, separados por la conjuncióncopulativa “y” , por ejemplo 4 y 2. La probabilidad de que salga un cuatro es 1/6 y la probabilidad de que salga undos es también 1/6, pero ya calculamos que la probabilidad de que salga la combinada 2 y 4 es 1/36, que es el pro-ducto de 1/6x1/6.

Se demuestra que en general, como en este caso, la probabilidad de ocurrencia de un suceso compuesto por una seriede eventos más simples sin conexión entre sí es el producto de las probabilidades individuales de todos ellos. En ellenguaje corriente, esta condición se expresa con la conjunción copulativa “y”: La probabilidad de sacar un cuatro y(producto!) un dos tirando un dado dos veces es 1/6 x 1/6 = 1/36

Ahora bien: en el universo de todos los sucesos posibles, en nuestro caso 36, la cantidad de sucesos que deben ocu-rrir de alguna forma para formar un seis es la suma de todas las combinaciones posibles que den ese número, esdecir cinco combinaciones, cada una de las cuales tiene una probabilidad individual de 1/36. El resultado obtenidoantes de 5/36 se puede considerar así como la suma de cinco probabilidades individuales de valor 1/36

Se demuestra que en general, como en este caso, la probabilidad de un suceso compuesto por una serie de eventosmás simples independientes que deben ocurrir indistintamente es la suma de las probabilidades individuales detodos ellos. En el lenguaje corriente, esta condición de ocurrencia se expresa con la conjunción disyuntiva “o”: Laprobabilidad de sacar un 4 o (suma!) un 2 tirando un dado dos veces es 1/6 + 1/6 = 1/3

Ejemplo: ¿Cuál es la probabilidad de sacar “flor” en el truco?. Respuesta: Sacar flor significa sacar tres cartas seguidas del mismo palo. El trucose juega con una baraja de 40 cartas, entre las que hay 10 cartas de cada palo. La probabilidad de sacar una copa y otra copa y otra copa más es elproducto de las probabilidades independientes, es decir 10/40 x 9/39 x 8/38 = 0.01214

Probabilidades y diagramas lógicosSe pueden usar con ventajas en el cálculo de probabilidades los dia-gramas lógicos de Venn (atribuidos al lógico británico John Venn (...-1923), en los que se representan el universo de todos los hechos posi-bles y cada uno de estos hechos en particular con una superficie ce-rrada (en general el universo con un cuadrado y los hechos con cír-culos).

En la figura se representan los sucesos A y B, con sendos círculos en el cuadrado del universo posible.

Hay conjunción o intersección de dos acontecimientos cuando se presentan juntos AyB . Con el lenguaje simbólicola conjunción se escribe A.B o A∩∩BHay disyunción de dos acontecimientos cuando se presentan uno u otro, o los dos. La disyunción se representa deAyB se representa con A∪∪BLa negación de un acontecimiento es el evento contrario a su presentación: o sea cuando no se produce. La nnega-ción de A se indica con A’

El resultado 0 se aplica a un acontecimiento que no se presenta y U cuando se presenta.De tal modo, se verifica claramente que A∩∩A’=0 y A∪∪A’=U

Teorema de la probabilidad compuesta condicionalSean dos bolilleros con 10 bolillas cada uno de tres colores diferentes.

A∩∩B’

B∩∩A’

A∩∩B

A

B A∪∪

B

Page 17: APUNTES DE PROBABILIDAD Y ESTADÍSTICA – INDICE · PDF file1 apuntes de probabilidad y estadÍstica – indice temÁtico a. l. dini – 2003 apuntes de probabilidad y estadÍstica

17

El primero con 3 bolillas verdes, 2 bolillas negras y 5 bolillas rojasEl segundo con 7 bolillas verdes, 1 bolilla negra y 2 bolillas rojas

Llamemos R1 al suceso de sacar una bolilla roja del primer bolillero y V2 al de extraer una bolilla verde del segundobolillero.

Está claro que son sucesos independientes, ya que la ocurrencia del uno no influye en la del otro.Ya vimos que la probabilidad compuesta de que ocurran estos dos hechos esp(R1∩∩V2) =p(R1).p(V2)=5/10.7/10 = 0,35

Pero ahora compliquemos un poco la cosa: Saquemos una bolilla al azar del primer bolillero e introduzcámosla sinver su color en el segundo. ¿Cuál será la probabilidad de extraer una verde de éste segundo bolillero después dehaber practicado la introducción mencionada? Desde ya que ahora no puede hablarse de sucesos independientes, yaque la composición del segundo bolillero depende del color de la bolilla introducida, que a su vez proviene del pri-mer bolillero.

Si ésta fué roja, la probabilidad de sacar una verde será (atención a la notación) pR1(V2)=7/11 , y la probabilidadcondicional total será p(R1∩∩V2) = p(R1). pR1 (V2) = (5/10.7/11) = 35/110 = 7/55

La probabilidad de sacar una roja del primer bolillero, cargado con una bolilla al azar del segundo es p(V2∩∩R1) =p(V2). p V2 (R1) = 7/10.5/11 = 35/110 = 7/55 = p(R1). pR1 (V2) = p(R1∩∩V2), es decir igual que antes.

En general se demuestra que existe esta relación recíproca : p(A).pA(B) = p(B).pB(A)

Demostración general:

Consideremos que dos acontecimientos mutuamente excluyentes A y B pueden producirse un número total de vecesN de la siguiente manera , con N = a+b+c+d

A∩∩B se presenta a veces de donde p(A∩∩B) = a /NA∩∩B’ se presenta b veces de donde p(A∩∩B’) = b /NA’∩∩B se presenta c veces de donde p(A’∩∩B) = c /NA’∩∩B’ se presenta d veces de donde p(A’∩∩B’) = d /N

Como el acontecimiento A está presente sólo en A∩∩B y A∩∩B’ (y no en A’∩∩B y/o A’∩∩B’),su probabilidad de ocurrencia es p(A) = p(A∩∩B) + p(A∩∩B’) = (a+b)/N (1)Si se ha producido A sabemos que hay en total (a+b) casos entre los que puede haberse pro-

ducido el B. Los casos posibles de que se produzca el B son a y c, pero quedando c descartado porque es el númerode casos posibles en los que B se presenta acompañado con A’ y no con A. Así que los casos posible son nueva-mente a, de donde pA(B)=a/(a+b) (2)De (1) y (2) es p(A).pA(B) = (a+b)/N. a/(a+b) = a/N = p(A∩∩B) = p(A).p(B) (3)

De la misma forma, podemos decir que como el acontecimiento B está presente sólo en A∩∩B y A’∩∩B (y no enA∩∩B’ y/o A’∩∩B’), su probabilidad de ocurrencia es p(B) = p(A∩∩B) + p(A’∩∩B) = (a+c)/N (4)

Si se ha producido B sabemos que hay un total de (a+c) casos entre los que puede haberse producido el A. Los casosposibles de que se produzca el A son a y b, pero quedando b descartado porque es el número de casos en los que Ase presenta acompañado con B’ y no con B. Así que los casos posibles son nuevamente a, de donde:pB(A)=a/(a+c) (5)De (4) y (5) es p(B).pB(A) = (a+c)/N. a/(a+c) = a/N = p(A∩∩B) = p(A).p(B) (6)

De (3) y (6) se deduce que p(A).pA(B) = p(B).pB(A) , que era lo que se quería demostrar.

Teorema de Bayes (sobre la probabilidad de las causas)El teólogo y matemático inglés Tomás Bayes (1702-1761) estableció una importante relación basada en las siguien-tes ecuaciones, derivadas a su vez de la igualdad anterior:pB(A) = p(A).pA(B) / p(B), válida para p(B)≠0 (1)

A∩∩B’

B∩∩A’

A∩∩B

A

B

A’ ∩∩

B’

Page 18: APUNTES DE PROBABILIDAD Y ESTADÍSTICA – INDICE · PDF file1 apuntes de probabilidad y estadÍstica – indice temÁtico a. l. dini – 2003 apuntes de probabilidad y estadÍstica

18

Considerando que el suceso A se deba a la serie de n causas independientes entre sí A1, A2...An, podremos escribirque A = A1 ∪∪ A2 ∪∪ A3 ∪∪...∪∪ An (2)

Si consideramos que hay una acontecimiento B que se debe a alguna/s de las causas Ai, podremos poner que B =A∩∩AB = (A1∩∩A1B) ∪∪ (A2 ∩∩A2B) ∪∪ (A3 ∩∩A3B) ∪∪...∪∪(An ∩∩AnB) (3)y aplicando probabilidades resulta:

p(B) = p(A1).p(A1B) + p(A2).p(A2B) + p(A3).p(A3B) +...+ p(An).p(AnB) = ΣΣ i=1..n p(Ai).p(AiB) (4)

De (1) aplicado al caso genérico i es pB(Ai) = p(Ai).pA(Bi) / p(B), y reemplazando p(B) por el desarrollo (4) resulta

la fórmula de Bayes : pB(Ai) = p(Ai).pAi (B) / Σ Σi=1..n p(Ai).pAi(B) (5) donde:

p(Ai) es la probabilidad de que ocurra la causa Ai a priori, es decir sin que tenga que ver ningún otro evento condi-cionante.

pB(Ai) es la probabilidad de que ocurra la causa Ai a posteriori, es decir cuando antes ha ocurrido el evento B

pAi (B) es la probabilidad de que ocurra el evento B a posteriori de la causa Ai

Ejemplo:En una elección universitaria, votan 10 electores de cada uno de los tres claustros más importantes para elegir rectorentre dos candidatos: el Dr. Camilo y el Licenciado Pepone. Todos se sabe en el ambiente universitario, así queconociendo la identidad de cada uno de los 30 electores y sus respectivas preferencias por un determinado candida-to, el recuento de votos es mera fórmula, ya que el resultado de la votación se conoce extraoficialmente antes delescrutinio:

urna Nº / Candidato a decano Dr. Camilo Lic. Pepone TOTAL

1 (Ciencias) 4 6 102 (Filosofía) 5 5 103 (Derecho) 3 7 10

El recuento se comenzó tomando una urna al azar, sacándose de a uno lo votos de adentro. Los primero tres fueron:Primer voto = Dr. CamiloSegundo voto = Dr. CamiloTercer voto = Lic. Pepone

En ese momento, el profesor de Estadística Ing. O. Mermoz hizo rápidamente un cálculo que le indicaba que lo másprobable era que la urna que se estaba escrutando fuera de Filosofía (A2). A ver qué les parece el algoritmo emplea-do:

Cálculo:Las probabilidades a priori (antes de conocer el resultado) son 1/3 para cada urna, ya que ellas son idénticas. Asíentonces es p(A1) = 1/3 ; p(A2) =1/3 ; p(A3) = 1/3

Las probabilidades de que se produzca el evento compuesto en cada urna son:pA1(B) = 4/10.3/9.6/8 = 0.1pA2(B) = 5/10.4/9.5/8 = 0.139pA3(B) = 3/10.2/9.7/8 = 0.058

Además es ΣΣi=1..n p(Ai).p(AiB) = 1/3x 0.1 + 1/3 x 0.139 + 1/3 x 0.058 = 0.099Y ahora estamos en condiciones de aplicar la fórmula final para cada urna,

pB(Ai) = p(Ai).pAi (B) / Σ Σi=1..n p(Ai).pAi(B), que nos da:

pB(A1) = 0.1/3/0.099 = 0.336pB(A2) = 0.139/3/0.099 = 0.467pB(A3) = 0.058/3/0.099 = 0.196

Nota: Los personajes del ejemplo son de ficción, menos el Ing. Osvaldo Mermoz, que tiene una brillante trayectoria como docente yprofesional, y del que me honra haber sido su alumno en el Colegio Nacional de Buenos Aires y en la Facultad de Ingeniería, donde allápor el año 1957 enseñaba entre otras cosas el teorema de Bayes a un grupo de futuros ingenieros.

Page 19: APUNTES DE PROBABILIDAD Y ESTADÍSTICA – INDICE · PDF file1 apuntes de probabilidad y estadÍstica – indice temÁtico a. l. dini – 2003 apuntes de probabilidad y estadÍstica

19

Pruebas repetidas – La distribución binomial¿Qué probabilidad hay al tirar m veces un dado de que salga un evento determinado, por ejemplo un as un número nde veces? (por supuesto que m>n)La probabilidad de sacar un número determinado (un as en particular) en cada tiro de dados (suceso simple inde-pendiente) es 1/6.La probabilidad de sacar n números determinados (n ases, por ejemplo) en n tiros es p=(1/6)n , ya que son sucesosindependientes.La probabilidad de no sacar algún número determinado en un tiro es (1-p) = (1-1/6) = 5/6, y la probabilidad de nosacar el número elegido los restantes m-n tiros es (1-1/6)(m-n)

Así, interesa el suceso que consiste en un “éxito” seguido de un “no éxito” o “fracaso”. Este suceso tendrá unaprobabilidad compuesta de pn.(1-p) (m-n) , en nuestro caso (1/6)n.(1-1/6)(m-n)

Por ejemplo, sea m=12 veces , n=4, es decir que salgan 4 ases seguidos, y que después no salgan más ases en lossiguientes 8 tirosLa probabilidad de este suceso es (1/6)4.(5/6)8

Algunas posibles secuencias serían:1,1,1,1,5,6,2,6,4,5,3,3 1,1,1,1,5,2,6,4,6,3,3,5 1,1,1,1,3,2,3,2,6,4,2,4.... y muchas más.Pero lo que se ha planteado es la cantidad de éxitos sin tener en cuenta el orden de aparición, y eso sin individualizara los fracasos, todos los cuales son equivalentes. Es decir que los acontecimientos tomados en consideración (todosellos de probabilidad (1/6)4.(5/6)8) serían del tipo:1,1,1,1,f,f,f,f,f,f,f,f 1,1,f,f,1,f,f,f,1,f,f,f f,f,1,1,1f,f,f,1,f,f,f f,1,1,f,f,f,f,1,f,f,f,1¿Cuántos grupos podemos formar? Nuestros estudios de análisis combinatorio nos permiten afirmar que cualquierade las series de 12 elementos en cuestión se pueden disponer de 12! maneras distintas, en las que no interesa el or-den de los grupos de 4 aciertos y 8 fracasos, así que interesan sólo 12!/4!/8! = combinaciones de 12 elementos to-mados de a 4, o de a 8, o sea C12,4 = C12,8 = 495. De tal manera la probabilidad de que se repita un número cualquie-ra (del uno al seis) 4 veces en 12 tiros vale 495 x (1/6)4 x (5/6)8 = 0.0888

En la figura adjunta se representa P12,n = C12,n. (1/6)n x(5/6)(12-n) para n de 0 a 12, de acuerdo a la siguiente tablade valores.n P12,n n P12,n0 0,112156655 7 0,0011369991 0,269175971 8 0,0001421252 0,296093569 9 1,26333E-053 0,197395712 10 7,58E-074 0,088828071 11 2,75636E-085 0,028424983 12 4,59394E-106 0,006632496 Suma 1

Como es lógico, son bajas las probabilidades de obtener cero ases y la de obtener todos ases en doce tiros. El má-ximo de probabilidad (0,296) corresponde a dos éxitos en doce tiros.La distribución de Pm,n,p = Cmn p

n q(m-n) se llama binomial, porque tiene la forma de los términos del desarrollo de

Newton para las potencias del binomio, es decir (a+b)n = ΣΣi=0...n Cn,i ai.b(n-i) . Desde ya que la suma de todas las

probabilidades es la certeza, puesto que ΣΣn=0...m Cmn pn q(m-n) = (p+q)m = 1

La forma de la distribución binomial depende de losvalores de p,q y m. , como veremos a continuación. En lafigura de la derecha se ve la forma de P50,n

Media, varianza y asimetría de la distribución binomial

Por definición, la media de Pm,n,p = Cmn pn q(m-n) es

media (Pm,n,p) = ΣΣn=0...m n.Cmn pn q(m-n) = M1(Pn,m,p), ycoincide con el momento de primer orden MM1, ya que

ΣΣn=0...m Cmn pn q(m-n) = 1

Comenzando la sumatoria en n=1, ya que el primer término, para n=0, es nulo, la expresión de la media se trans-

forma en MM1 (Pm,n,p) = Σ Σn=1...m n.m!/n!/(m-n)! pn.q(m-n) =

0

0.05

0.1

0.15

0.2

0.25

0.3

0.35

0 5 10 15n

P12

,n,1

/6

0

0,02

0,04

0,06

0,08

0,1

0,12

0,14

0,16

0 5 10 15 20

n

P50

,n,1

/6

Page 20: APUNTES DE PROBABILIDAD Y ESTADÍSTICA – INDICE · PDF file1 apuntes de probabilidad y estadÍstica – indice temÁtico a. l. dini – 2003 apuntes de probabilidad y estadÍstica

20

= Σ Σn=1...m m.(m-1)!/(n-1)!/(m-n)! p(n-1) q(m-n) .p = m.p Σ Σn=1...m.(m-1)!/(n-1)!/(m-n)! p(n-1) q(m-n)

y dado que (m-1)!/(n-1)!/(m-n)! = (m-1)!/(n-1)!/[(m-1)-(n-1)]! = C(m-1),(n-1), la sumatoria anterior

ΣΣn=1...m C(m-1),(n-1) p(n-1) q(m-n) representa la suma de todas las probabilidades, es decir la unidad, y entonces es MM1

(Pm,n,p) = m.p .

Para la primera distribución es MM1 (Pn,12, 1/6) = 12/6=2 y para la segunda resulta MM1 (Pn,50, 1/6) = 50/6=8 1/3

El momento de segundo orden de una binomial con respecto al origen (es decir no centrado) es

MM2 (Pn,m,p) = Σ Σn=0...m n2.Cmn p

n q(m-n) == m.p.ΣΣn=1...m n.(m-1)!/(n-1)!/(m-n)! pn-1.q(m-n) =

= m.p.ΣΣn=1...m (n-1).(m-1)!/(n-1)!/(m-n)! pn-1.q(m-n) + m.p.ΣΣn=1...m (m-1)!/(n-1)!/(m-n)! p(n-1).q(m-n) =

= m.p.ΣΣn=1...m (n-1).C(m-1),(n-1) pn-1.q(m-n) + m.p.ΣΣn=1...m (m-1)!/(n-1)!/(m-n)! p(n-1).q(m-n)

pero notemos que la sumatoria ΣΣn=1...m (n-1).C(m-1),(n-1) pn-1.q(m-n) representa el momento de primer orden de la varia-

ble (n-1), por lo que vale (m-1).p, y la segunda sumatoria vale (p+q) (m-1) =1, así que entonces:MM2 (Pn,m,p) = mp [(m-1).p+1]=m2.p2-m.p2+m.p = m.p.(1-p)+ m2.p2= m.p.q+ m2.p2

La varianza (o momento centrado de segundo orden) de la distribución binomial es:

var (Pm,n,p) = MM2centr (Pn,m,p) = ΣΣn=0...m (n-mp)2. Cmn pn.q(m-n) =

= ((ΣΣn=0...m n2.Cmn p

n.q(m-n)) – 2.m.p.Σ.Σn=0...m n.Cmn pn q(m-n) +m2p2ΣΣn=0...m Cmn p

n q(m-n) == MM2 (Pn,m,p) – 2.m.p. MM1 (Pn,m,p) + m2p2 , y reemplazando los momentos por las expresiones halladas antes, re-sulta que var (Pm,n,p) = m.p.q+ m2.p2– 2. m2.p2 + m2p2 = m.p.q

Cálculo de M3 para la distribución binomialSe vió que para una distribución discontinua o discreta es M3centr = M3 - 3 M1 M2+2 M1

3 == ΣΣi pi. xi

3 - 3 MM1 ΣΣi pi. xi2 + 2 MM1

3

Por definición es MM3 (Pn,m,p) = Σ Σn=0...m n3.Cmn p

n q(m-n) . Con un procedimiento análogo al que ya usamos ante-riormente para calcular M2, ponemos n.(n-1).(n-2) =n3-3n2+2n, de donde n3= [n.(n-1).(n-2)] +3n2-2n y entonceses

M3 (Pn,m,p) = Σ Σn=0...m [n.(n-1).(n-2) +3n2-2n].Cmn pn q(m-n) pero siendo n.(n-1).(n-2) Cmn =

= n.(n-1).(n-2) m.(m-1).(m-2).(m-3)!/(m-n)!/n/(n-1)/(n-2)/(n-3)! == m.(m-1).(m-2).(m-3)! /[(m-3)-(n-3)]! /(n-3)! == m.(m-1).(m-2) C(m-3)(n-3)

resulta claramente ΣΣn=0...m n.(n-1).(n-2) Cmn pn q(m-n)= m.(m-1).(m-2) p3{ΣΣn=3...m C(m-3)(n-3) p

(n-3) q(m-n)} , y como laexpresión entre llaves vale 1, podemos poner

M3 (Pn,m,p) = m.(m-1).(m-2) p3 + 3 n2ΣΣn=0...m Cmn pn q(m-n) - 2n Σ Σn=0...m Cmn p

n q(m-n) == m.(m-1).(m-2) p3+ 3 M2- 2M1

Recordando que M1 = m.p y que M2 = m.p.q+ m2.p2 , resulta :

M3 (Pn,m,p) = m3.p3-3m2.p3+2.m.p3 + 3.m.p.q+ 3.m2.p2- 2.m.p

El momento centrado de tercer orden resulta entonces M3centr = M3 - 3 M1 M2+2 M13 =

= m3.p3-3m2.p3+2.m.p3 + 3.m.p.q+ 3.m2.p2- 2.m.p - 3 m2.p2.q -3 m3.p3 + 2 m3.p3 == -3m2.p3+2.m.p3 + 3.m.p.q+ 3.m2.p2- 2.m.p - 3 m2.p2.q == -3m2.p2(1-q) +2.m.p3+ 3.m2.p2- 2.m.p- 3 m2.p2.q + 3.m.p.q = 2.m.p3- 2.m.p + 3.m.p.q == 2.m.p(1-q)2- 2.m.p + 3.m.p.q = mpq (2q-1) = mpq (q-p)

Asimetría de la distribución binomialGeneralmente se toma como medida de la asimetría al valor de M3centr= mpq (q-p) referido a una medida de ladispersión, por ejemplo al desvío standard s=(mpq) ½ , es decir al cociente:asim = M3centr/s = (q-p)/ (mpq) ½

Vemos entonces que la asimetría de una distribución binomial reside en la diferencia entre p y q y el valor de m .La distribución resulta así muy asimétrica para p<< ½ y/o m pequeño, tendiendo a una curva simétrica cuando p →→½ y/o m es grande.

Por ejemplo es asim (P12,n,1/6) = (5/6 - 1/6) / (12. 5/6. 1/6) ½ = 0, 516

Page 21: APUNTES DE PROBABILIDAD Y ESTADÍSTICA – INDICE · PDF file1 apuntes de probabilidad y estadÍstica – indice temÁtico a. l. dini – 2003 apuntes de probabilidad y estadÍstica

21

En cambio es menor asim (P50,n,1/6) = (5/6 - 1/6)/ (50. 5/6. 1/6) ½ = 0, 253y mucho menor aún asim (P100,n,1/6) = (5/6 - 1/6)/ (100. 5/6. 1/6) ½ = 0, 179

La distribución de PoissonEl matemático y físico francés Siméon-Denis Poisson, (1781-1840), dedujo a partir de la fórmula de la binomial,una distribución discreta de gran utilidad, válida cuando la probabilidad de un suceso p es muy pequeña y el númerode acontecimientos m es muy grande.

Partamos de la expresión de la probabilidad binomial P(m,n,p) = m!/n!/(m-n)! pn qm-n . Haremos uso de la formulaaproximada de Stirling para el factorial m! ≅≅ (2ππm)½ mm.e-m , válida para m grande.Reemplazada dicha aproximación en la anterior nos da:P(m,n,p) = m!/n!/(m-n)! pn qm-n = (2ππm)½ mm.e-m /n!/ (2π(π(m-n))½ /(m-n)(m-n)/e-m+n pn qm-n

Introducimos ahora un número finito λλ tal que lim m→→∞∞(mp) =λλ (nótese que p tiende a cero cuando m tiende a infi-nito, así que el límite anterior es un número acotado)Se puede escribir la probabilidad como:P(m,n,p) =(mp)n/n!.[m/(m-n)]½ m(m-n) /(m-n)(m-n).e-n (1-mp/m) (m-n) ==(mp)n/n! (1-mp/m) m .e-n [m/(m-n)]½ /(1-p) n/(1-n/m)m/(1-n/m)-n

Ahora pasemos la expresión de la probabilidad al límite para m→→ ∞∞ , para lo cual debemos recordar quelim m→→∞∞ (1+1/m) m = e = 2.7182...,lim m→→∞∞ (mp)n/n! = λλn/n!lim m→→∞∞ (1-mp/m) m = lim m→→∞∞ {[1+1/(m /(−λ /(−λ)] m/(-λ)λ)}}−(λ)−(λ)==e−λ−λ

lim m→→∞∞ [m/(m-n)]½ = 1lim m→→∞∞ (1-n/m)m ={[1+1/(-m/n)]m/n}-n = e-n

lim m→→∞∞ (1-n/m) n = 1

Entonces es lim m→→∞∞P(m,n,p<<1) = λλn e−λ−λ/n!Su valor medio y varianza valen lo mismo que para la binomial : media P(m,n,p<<1) = µµ= mp = λλσσ2 = mpq = λ λq ≅≅λλ ya que p→→0 y q→→1

Ejemplo Nº1Después de pasar por un mantenimiento integral, el avión monomotor DLDL presenta un promedio de una fallacada 10000 horas de vuelo.¿Cuál es la probabilidad de que en las próximas mil horas se produzcan ninguna, una, dos, tres, cuatro, cinco y seisfallas en un DLDL recién salido del taller?De los datos se deduce que p=0,0001; m=1000 ; µ = λ =µ = λ =m.p = 1000x0,0001 = 0, 1; n=1,2,3,4,5,6La probabilidad pedida vale pues:P(m,n,p) = λλn e−λ−λ/n!P(1000,n,10-4) = (0,1)0,1)n e−0,−0,11/n!

n λλn e−λ−λ/n!

0 0.9048374181 0.0904837422 0.0045241873 0.0001508064 3.77016E-065 7.54031E-086 1.25672E-09

Aplicando la binomial, el resultado para n=2 es p(2) =C1000,2 (10-4)2.(1-10-4)998 = 499500.10-8. 0,90501== 0.004520544. Como se ve, la estadística de Poisson resulta casi tan exacta como la binomial, a la vez que muchomás fácil de calcular.

Ejemplo Nº2Una línea de colectivos tiene un total de 50 coches. Cada unidad debe parar por inconvenientes mecánicos en pro-medio un día cada 30 días para efectuar reparaciones. El taller cuenta con lugar para atender hasta tres colectivossimultáneamente. Determinar la probabilidad de que en un día haya más de tres colectivos fuera de servicio, es decirque haya unidades esperando fuera del taller.En el caso planteado es p=1/30 ; m=50 ; λλ=mp=5/3

Estadística de Poisson

00.10.20.30.40.50.60.70.80.9

1

0 1 2 3 4 5 6

n

p(n

)

Page 22: APUNTES DE PROBABILIDAD Y ESTADÍSTICA – INDICE · PDF file1 apuntes de probabilidad y estadÍstica – indice temÁtico a. l. dini – 2003 apuntes de probabilidad y estadÍstica

22

La probabilidad de que haya en un instante cualquiera exactamente n colectivos en reparación es:P(50,n,1/30) = λλn e−λ−λ/n! = (5/3)n e-(5/3)/n!La probabilidad de que haya hasta n vehículos (1, o 2, o 3,...o n) en taller en un día cualquiera es la suma de la pro-

babilidad de cada caso, de 0 a n, es decir ΣΣk=1,2...n λλn e−λ−λ/n!.Y la probabilidad de que haya más de n colectivos es la complementaria a la anterior, o sea la probabilidad de que

no haya hasta n coches en taller, es decir {1-ΣΣk=1,2...n λλn e−λ−λ/n!}

n λλn e−λ−λ/n! ΣΣk=1,2...n λλn e−λ−λ/n! 1-ΣΣk=1,2...n λλn e−λ−λ/n!

0 0,188875603 0,188875603 0,8111243971 0,314792671 0,503668274 0,4963317262 0,262327226 0,7659955 0,23400453 0,145737348 0,911732848 0,0882671524 0,060723895 0,972456743 0,0275432575 0,020241298 0,992698042 0,0073019586 0,005622583 0,998320624 0,0016793767 0,00133871 0,999659335 0,0003406658 0,000278898 0,999938233 6,17674E-059 5,16478E-05 0,99998988 1,01197E-0510 8,60796E-06 0,999998488 1,51171E-06

De la tabla surge que la probabilidad de que en un día cualquiera haya exactamente tres vehículos en reparación es0,146. La de que haya hasta tres colectivos en el taller es 0,912 . Y la probabilidad de que haya alguno/s cochesesperando afuera del taller es de 1- 0,912 = 0,088

Estas probabilidades pueden traducirse a frecuencias esperadas, es decir que se esperan 0,088 posibilidades de encontrar cola de espera en eltaller en un día cualquiera . La inversa 1/0,088 =11,36 es el lapso en días en los que se producirá en promedio el acontecimiento en cuestión. Asídirán los choferes, bastante enojados: “Cada 11 o 12 días en promedio hay alguno que llega con el colectivo descompuesto y tiene que esperarque se desocupe un lugar en el taller, hasta el día siguiente”. Que quede bien claro que esto no significa que cada 11,36 días exactamente hay unaespera fuera del taller: se trata de promedios y bien puede ocurrir que se presenten dos días seguidos con cola, que luego se compensarán conperíodos más largos que 11,32 días, sin que se produzcan colas.

Cuestión: ¿Qué significa la probabilidad 1-p(3) = 1-0,146 = 0,854? Respuesta: es la probabilidad de que no haya exactamente tres vehículos entaller: incluye pués los casos en los que hay 0, 1 o 2 o más de tres.

La distribución normal de GaussPara m y n grandes, la binomial se transforma en la famosa distribución acampanada que Carl Friedrich Gauss(1777-1855) aplicara en la teoría de errores, y que se basa en el teorema de Jacobo Bernouilli (1655- 1705) queexpondremos a continuación.

Teorema de BernouilliPartiendo pués como antes, de la expresión de la probabilidad binomial P(m,n,p) = m!/n!/(m-n)! pn qm-n . haremosuso de la formula aproximada de Stirling para el factorial m! ≅≅ (2ππm)½ mm.e-m , y también, haciendo la suposiciónde que n y (m-n) son también números bastante superiores a la unidad, será adecuado poner n! ≅≅ (2ππn)½ nn.e-n. ytambién (m-n)! ≅≅ (2ππ(m-n))½ (m-n) (m-n).e-(m-n)

Reemplazadas dichas aproximaciones en la fórmula de la binomial resulta:P(m,n,p) = m!/n!/(m-n)! pn qm-n = (2ππm)½ mm.e-m/[(2ππn)½ nn.e-n]/[(2ππ(m-n))½ (m-n) (m-n).e-(m-n)]pn qm-n == m½ mm.e-m/ [n½ nn.e-n]/(2ππ(m-n))½ /(m-n) (m-n)/e-(m-n) pn qm-n = m½ mm /(2ππ(m-n) m)½ (p/n)n (q/(m-n))m-n

Llamando a=n , b=m-n es a+b=m la anterior queda:P(m,n,p) = (m½/(2ππab)½) (mp/a)a (mq/b)b

Ahora bien, teniendo en cuenta que el máximo de probabilidad Pmáx se produce en una binomial cuando n=mp=a yconsecuentemente cuando m.q=m(1-p)=m-mp= m-a =b, entonces a.b= m2pq y así resulta Pmáx= (m½/(2ππab)½) =(1/(2ππmpq)½) , pudiéndose expresar P(m,n,p) en función de Pmáx de la siguiente manera:P(m,a,p)= Pmáx (mp/a)a (mq/b)b = (1/(2ππmpq)½) (mp/a)a (mq/b)b

Fuera del punto de máxima probabilidad, la variable a se puede poner en base un parámetro x tal quea =mp+m ½x y por lo tanto b = m-a = m-mp-m ½x = mq-m ½x

Resulta así que la nueva variable x=(n –mp)/m½ , es una medida de la distancia entre n y mp, siendo esta última lamedia de la distribución, es decir que x mide la distancia de la abscisa n al centro de la distribución..

Aplicando logaritmos a A=(mp/a)a y B=(mq/b)b, se tiene:

Distribución de Poisson

0

0.2

0.4

0.6

0.8

1

0 2 4 6 8 10

n

p(n

)

ln e-l/n! acumulado 1-acumulado

Page 23: APUNTES DE PROBABILIDAD Y ESTADÍSTICA – INDICE · PDF file1 apuntes de probabilidad y estadÍstica – indice temÁtico a. l. dini – 2003 apuntes de probabilidad y estadÍstica

23

loge A = a.loge (mp/a) = a.loge (1-m ½x /a) y usando los dos primeros términos de la serie de potencias del logarit-mo, a saber loge (1-m ½ /a x) = - m ½ /a.x - m/2/a2.x2 , queda loge A = - m ½.x - m/2/a.x2

loge B = b.loge (mq/b) = a.loge (1+m ½x/b) y usando los dos primeros términos de la serie de potencias del logarit-mo, a saber loge (1+m ½ /b x) = + m ½ /b.x - m/2/b2.x2 , queda loge B = + m ½.x - m/2/b.x2

loge A + loge B = -x2/2(m/a+m/b) . Ahora bien, si consideramos que las fórmulas que estamos deduciendo valenpara m grande, se puede aproximar a=m.p y b=m.q , con lo cual la anterior queda, multiplicando y dividiendo sus

términos respectivamente por p y q:loge A + loge B = -x2/2[(pm/p/a)+(qm/q/b)] =-x2/2(1/p+1/q) = -x2/2/p/q , de dondeA.B = exp(-x2/2/p/q)

Resulta así que P(m,x,p) = Pmáx (mp/a)a (mq/b)b == (1/(2ππmpq)½) exp(-x2/2/p/q)Recordando que mpq = σσ2 es la varianza de la dis-tribución, y que x=(n –M1)/m

½ es una variablereducida al centro de la distribución, podemos ex-presar la fórmula anterior en base a una nueva va-riable y que reduzca la variable original n al centromp y tenga varianza unitaria, haciendo y2 = x2/p/q =(n –M1)

2/(mpq) = (n –M1)2/ σσ2 con lo cual es:

P(y) = (1/(2ππ)½) exp(-y2/2)

En los gráficos adjuntos se representan acuerdo al cálculo que figura en la planilla, las siguientes funciones paray=(x –M1)

2/σσ2 con M1=8 ; σσ2=2

f(x) = (1/(2ππ)½) exp(-(x –M1)2/σσ2/2)

acum f(x) = F(x) =o∫∫xf(x).dx

f(y) = (1/(2ππ)½) exp(-y2/2)acum f(y) = F(y) = y=-7∫∫

yf(y).dy ≅≅ y=-∞∞∫∫yf(y).dy

La distribución normal f(y) proviene, como demuestra el teorema de Bernouilli recién visto, de una distribución depruebas repetidas tipo binomial discreta, cuando tanto el número de pruebas m como el de aciertos n tienden a valo-res muy grandes. En tal caso, la variable y y la función de probabilidad f(y) son continuas, es decir que pueden to-mar valores no sólo enteros o fraccionarios sino reales cualesquiera.

La función acumulada F(b)-F(a) = a∫∫b

f(y).dy para y=(x-M1)/σσ , representada por el área bajo la curva f(y) entreabscisas y=a e y=b, significa la probabilidad de que el fenómeno de probabilidad p, media M1 y desvío standard σσesté entre límites a y b. La integral ∫∫f(y).dy no tiene una función primitiva F(y) expresable analíticamente. Su valorse calcula por métodos numéricos . Sin embargo, se puede demostrar analíticamente que F(-∞∞)-F(∞∞) =1, cosa queera de suponer, ya que ella representa todas las posibilidades de ocurrencia. Por último, digamos que f(y) tiene un

Normal M=8 , σσ 2=2

0

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1

0 1 2 3 4 5 6 7 8 9 1 0 1 1 1 2 1 3 1 4 1 5

x

σσ

función de densidad probabi l idad acumulada

Normal reducida M=8 , σ σ 22 =2

0

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1

-7 -6 -5 -4 -3 -2 -1 0 1 2 3 4 5 6 7 8

y = ( x - M )/s

función de densidad probabi l idad acumulada

x f[(x-M)/ σσ) F(x)=acum f(x) y=(x-M)/ σσ f(y) F(y)=acum f(y)0 6.70491E-05 3.1753E-05 -5.656147143 5E-08 3.18728E-081 0.000437106 0.00023311 -4.949040362 2E-06 7.25104E-072 0.00221925 0.001352185 -4.24193358 5E-05 1.88613E-053 0.008775111 0.006218449 -3.534826799 8E-04 0.0003092874 0.027022489 0.022777071 -2.827720018 0.007 0.0031707995 0.064807377 0.066872012 -2.120613237 0.042 0.0206479426 0.121045855 0.158776275 -1.413506456 0.147 0.0874768797 0.176076655 0.308713588 -0.706399674 0.311 0.249319958 0.199471115 0.500199472 0.000707107 0.399 0.5002700439 0.175988639 0.691638478 0.707813888 0.311 0.75111028910 0.12092487 0.841465695 1.414920669 0.147 0.91273973511 0.064710239 0.933257506 2.12202745 0.042 0.97942029612 0.026968498 0.97727692 2.829134232 0.007 0.99684250713 0.008753201 0.993799079 3.536241013 8E-04 0.99969232414 0.002212603 0.998652247 4.243347794 5E-05 0.99998128415 0.000435578 0.999767763 4.950454575 2E-06 0.999999311

Page 24: APUNTES DE PROBABILIDAD Y ESTADÍSTICA – INDICE · PDF file1 apuntes de probabilidad y estadÍstica – indice temÁtico a. l. dini – 2003 apuntes de probabilidad y estadÍstica

24

máximo en y=0, es lim y→→±± ∞∞ f(y)=0, y que es simétrica con respecto al eje de ordenadas, cosa que no sólo se deducematemáticamente al obtener f(y)=f(-y) , sino porque sabemos que como la binomial de la que se deriva, tiende a sersimétrica en la medida que el número de casos m tiende a infinito. Además debe tenerse presente que la variablereducida y=(x-M1)/σσ tiene media nula y desvío standard unitario.

Teoría de erroresCuando se efectúan varias mediciones de una misma magnitud, segenera en general una serie de cifras que no coinciden exactamente.Estas diferencias con el verdadero valor, se deben a varias causas. Porejemplo, a errores de operación: no hacer coincidir bien los orígenesde la regla y el objeto a medir, o no fijarse bien si el extremo está bienalineado con una u otra rayita de la regla. Cuando se mide una longi-tud mayor a la de la regla, se cometen errores si no se alínean debida-mente las posiciones sucesivas de ésta sobre el objeto. Un error deoperación típico es el de paralaje: cuando la división de la regla estáalineada con una visual no perpendicular a la dimensión que se deseamedir. En general, estos errores (que se llaman sistemáticos) se puedendetectar y corregir o controlar. Sin embargo, se llega a un punto en quela eliminación de esos factores sistemáticos o controlables, deja unresiduo de errores incontrolables o si se prefiere regidos por lo quedenominamos oportunamente como “procesos azarosos” . Dichoserrores se llaman accidentales.

Los errores accidentales están sujetos a las siguientes leyes experimentales:a) Los errores accidentales son tanto más frecuentes cuánto más pequeños.b) Su promedio numérico tiende a cero al aumentar el número de observaciones.c) El número de errores superior a cierto número es sensiblemente nulo.Los puntos a), b) y c) anteriores están contenidos en la afirmación de que los errores accidentales se distribuyensegún una función normal como la recién estudiada. Por ser Gauss quién descubrió semejante cosa, la distribuciónexpresada por la fórmula de Bernouilli se llama generalmente curva de Gauss.

Ejemplo:Se efectúan ciento noventa y ocho mediciones del largo de un perno, que arrojan los siguiente valores (cm):

19,98 20,25 20,15 19,65 20,09 19,92 20,02 20,11 19,7620,21 20,18 19,98 19,79 19,98 19,97 19,94 20,19 19,8820,03 19,96 19,97 19,90 20,04 19,88 20,12 19,95 20,2719,75 19,83 19,89 20,23 20,04 19,92 20,08 19,97 19,6420,19 19,83 19,80 19,94 19,90 19,80 19,97 19,94 19,9119,96 20,16 19,94 20,03 19,73 20,33 20,21 20,01 20,1419,80 20,09 19,60 20,38 19,84 20,01 19,93 20,09 19,9119,89 20,34 19,92 19,88 19,93 20,03 20,09 20,07 20,2419,99 20,02 19,88 19,91 19,95 20,09 19,84 19,98 20,0220,16 19,91 19,93 20,08 20,16 19,95 19,89 19,77 20,0719,86 20,14 20,25 19,88 20,10 20,26 20,04 20,08 19,7419,59 20,08 20,06 20,24 19,86 19,96 20,11 19,92 20,2820,15 20,11 19,81 20,29 20,20 19,74 19,96 19,93 19,9319,95 20,03 20,11 20,10 20,21 19,87 19,81 20,13 19,8620,09 20,21 19,83 19,64 19,90 19,96 20,13 20,18 19,9219,81 19,86 19,94 19,73 19,97 20,11 19,72 20,02 20,0319,97 19,57 20,14 20,22 20,28 20,28 20,01 20,12 20,0320,34 19,86 20,11 19,84 19,79 20,26 19,83 19,97 19,8019,89 19,91 19,93 19,87 19,82 19,94 20,03 19,71 20,0620,17 20,29 19,93 19,88 19,85 20,01 20,01 19,97 19,9220,02 20,01 20,08 20,09 19,94 19,86 20,03 20,24 20,2720,04 20,08 19,72 20,11 19,74 20,03 20,17 20,06 19,94

La media es M1=19,99 cm y el desvío standard σ = 0,16 cm

A continuación se representan el histograma real, y la comparación entre funciones experimental y normal

ERROR DE PARALAJE:¿Cuánto mide el lápiz?

Comparación de distribuciones

0

0 ,05

0,1

0 ,15

0,2

0 ,25

0,3

0 ,35

0,4

0 ,45

-4 -2 0 2 4variable reducida

Normal Experimental

Distribución de mediciones

0

10

20

30

40

50

60

19.5

5

19.6

19.7

19.8

19.9 20

20.1

20.2

20.3

20.4

20.5 y

clase

frec

uen

cia

DATOS DELHISTOGRAMA

Clase Frecuencia19.55 019.6 319.7 319.8 1719.9 3320 4820.1 4420.2 2620.3 2020.4 420.5 0

Page 25: APUNTES DE PROBABILIDAD Y ESTADÍSTICA – INDICE · PDF file1 apuntes de probabilidad y estadÍstica – indice temÁtico a. l. dini – 2003 apuntes de probabilidad y estadÍstica

25

Como se vé, ya con 198 mediciones la distribución real de valores adopta una ley relativamente cercana a la normal.Para cuantificar esta comparación, vale el siguiente problema:

¿Qué probabilidad hay de que alguna medición caiga afue-ra de un intervalo a= M1-σ σ = 19,99-0,16 = 19,83 cm ;b=M1+σ = 19,99+0,16 = 20,15σ = 19,99+0,16 = 20,15 cm . .

Pasando los límites a y b a valores de variable reducida,éstos se transforman en: ya = (a-M1) /σσ = -1 y en yb = (b-M1) /σσ = +1

Las líneas verticales de los gráficos anteriores, marcanestos límites.

La solución analítica a tal problema pasa por calcular la

integral definida -1∫∫1f(y).dy (que da la probabilidad de quela medición caiga dentro del intervalo (–σσ +σσ), y restarlade la unidad, ya que lo que se pide es precisamente la pro-babilidad de que caiga afuera del intervalo.

Del gráfico de arriba sale F(-1) = 0,16 y F(+1) = 0,84, de tal manera es -1∫∫1f(y).dy = 0,84- 0,16 = 0,68 y entonces laprobabilidad buscada es 1-0,68 = 0,32

Es decir que si los valores se distribuyeran exactamente en forma normal alrededor del 32 % de ellos estarían fueradel intervalo (−σ−σ a +σ)σ). Ahora bien, en los datos del cuadro se cuentan 36 valores mayores que 20.15 cm y 29 me-nores que 19.83 cm, lo que da una frecuencia de 65/198 = 0,33 = 33% . Si bien algo asimétrica, la distribución realcoincide casi exactamente con la distribución normal en el número de valores fuera del intervalo.

Poblaciones y muestrasConsideremos ahora que los 198 valores de la tabla anterior no son producto de las medidas de la longitud en cm deun solo objeto sino que son la colección de mediciones sobre 198 objetos distintos, en nuestro caso el diámetro enmm de pernos del mismo tipo que salen de una máquina automática durante un cierto lapso. La media resulta enton-ces de 19,99 mm y el desvío standard es de 0,16 mm

Estamos autorizados a usar la misma serie de antes en este nuevo ejemplo pues la experiencia muestra que se generatambién en estos casos una distribución de tipo Gaussiano, del mismo tipo que la estudiada en los errores de obser-vación. Y ello no es de extrañar, ya que parecidos factores de azar a los que gobiernan la toma de medidas sucesivasde un sólo objeto son los que también afectan las verdaderas medidas de una serie de objetos obtenidos por un pro-ceso de producción esencialmente igual, aunque no idéntico debido a que tiene desajustes aleatorios en el tiempo.

Igual que en el campo de las mediciones sucesivas, hay aquí factores previsi-bles, por ejemplo los generados por desgaste de la herramienta de corte, queserían equivalentes a los errores sistemáticos en el campo de las mediciones.También efectos casuales, análogos a los errores accidentales y por tanto fueradel control inmediato. Pertenecen a éste último tipo por ejemplo las diferenciasprovenientes del huelgo en el cojinete del plato del torno, o el juego del carrodel portaherramienta. También la granulometría del metal del perno, que condi-ciona el grado de tersura del maquinado puede considerarse fuente de errorcasual. Los mecánicos califican a estas variaciones aleatorias como “dentro del

margen de tolerancia del proceso”, cuando son inherentes a la precisión de los medios de fabricación y los materia-les usados. El valor del intervalo +σ−(−σ) = 2σ+σ−(−σ) = 2σ alrededor de la media , que es el que agrupa aproximadamente el68% de las piezas, tiene que estar en relación con la tolerancia admitida por las normas de fabricación.

Los estadísticos consideran que todo lote de elementos del mismo tipo, y/o la colección de mediciones correspon-dientes, pertenecen a una parte o muestra de una población de un número prácticamente infinito de elementos quees total o universo. Por ser ilimitado, se puede considerar al universo con una distribución normal, por lo que se lepueden aplicar, en base al principio de los grandes números, las nociones de probabilidad matemática. En cambioen las muestras finitas que pueden llegar a representar en mejor o peor medida a ese total prácticamente ilimitado, setoma a la frecuencia experimental como representante estimado de esa probabilidad.

Normal reducida M=8 , σ σ 22 =2

0

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1

- 7 - 6 - 5 - 4 - 3 - 2 - 1 0 1 2 3 4 5 6 7 8

y = ( x - M ) /s

func ión de dens idad probab i l idad acumulada

Huelgos y juegos en un torno comofuentes de diferencias aleatorias

Page 26: APUNTES DE PROBABILIDAD Y ESTADÍSTICA – INDICE · PDF file1 apuntes de probabilidad y estadÍstica – indice temÁtico a. l. dini – 2003 apuntes de probabilidad y estadÍstica

26

Una muestra del universo se considera representativa del mismo cuando está extraída con una técnica que no privi-legie ninguna condición en especial. Por ejemplo, si se trata de un lote de pernos que yacen en un montón, éstosserán tomados al azar, cuidando que no sean todos de una zona localizada del montón, ni del principio o del final delperíodo si la muestra se toma durante la fabricación. Esto garantiza que la muestra no reproduzca o contenga infor-mación sobre una eventual estratificación por tamaño al hacer el montón, o que refleje el estado del equipo quepuede presentar un desajuste progresivo. Si la muestra es de un chorro de material a granel, (por ejemplo maíz quecae desde la noria a un silo) se previene la clasificación por gravedad que pueda ocurrir en la caída: el flujo se partey se recombinan sus partes convenientemente. De una gran cantidad de valores, se elegirá la muestra tomando éstosal azar como un extracto de la serie original.

Se comprende que una muestra sea más representativa del total cuánto más elementos contenga. En el límite infe-rior, una muestra de muy pocos individuos puede no contener la información mínima necesaria para caracterizar laspropiedades del universo de dónde proviene. Resulta claro así que no escapa el muestreo a los conceptos de la teoríade la información de señales.

Las muestras individualmente presentan medias y desvíos standard parecidos a los del universo de donde provienen,tendiendo a estos valores en la medida de que su número de elementos aumente.

Media de medias de las muestrasDiversas muestras cuyas medias sean mmi, pertenecientes a un mismo universo de media m1 deberán lógicamentepresentar una media de medias igual a m1, ya que al agrupar los datos en varios lotes no se cambia el promediogeneral. Se puede prever que la distribución de esas medias individuales es también normal, considerando al grupode individuos de cada muestra como un elemento (aunque más complejo) del total, que no escapa a la ley de distri-bución de éste.

Desvío standard de la media de las muestrasEn cuánto a la dispersión de resultados de la media de muestras, se comprende intuitivamente que al ser ella unacondensación o resumen de la población total, su desvío standard debe ser menor que el de ésta. Veremos a conti-nuación cuánto menos.

Sean f(x) los valores de la densidad de probabilidad para un universo normal, de media m y desvío σ σ. Sabemos quef(x) = (1/(2ππ)½) exp(-(x –m)2/σσ2/2).

La distribución de la variable xi dentro de una muestra de N elementos de media mi y con desvío σ σ igual al del uni-verso, se llama distribución muestral y vale f(xi) = (1/(2ππ)½) exp(-(xi –mi)

2/σσ2/2).

Considerando que la distribución de la variable suma de variables xi normales es también normal, siendo cada va-riable individual de la forma f(xi) = (1/(2ππ)½) exp(-(xi)

2/σσ2/2) (tomando una distribución centrada es decir conmi=0), y para Σ Σ i==1..N xi = N. mx se podrá tomar como probabilidad de una suma de sucesos independientes el productode las probabilidades individuales, esto es f(ΣΣ i==1..N xi) = f(x1).f(x2)....f(xN) = [1/(2ππ)]N/2 exp(-N.xi

2/σσ2/2) =f(N. mx ) = [1/(2ππ)]N/2 exp(-xi

2/σσ2/2/ N)Queda demostrado entonces que si están extraídas al azar, el desvío de las medias mx de muestras de N elementos esσσm = σ σ/N½ , siendo σσ el desvío de la población total.

A continuación figuran las 22 medias de los 198 valores tomados en muestras de nueve valores cada una. La mediade las medias muestrales resulta por supuesto igual a la media de la población total, esto es 19,993. El desvío stan-dard resulta 0,0521, es decir aproximadamente tres veces menor que el de la población total (0.1622/√9 = 0.054).

20.01209877 20.00123457 19.97037037 19.99876543 19.89074074 20.0290123519.98703704 20.00555556 19.99074074 19.98518519 20.07592593 19.9512345720.05308642 20.01419753 19.97901235 19.89506173 20.0691358 20.003703719.87839506 20.01975309 20.02222222 20.02530864 19.99353535 0.052150056

La distribución de las medias que se ve en el histograma adjunto distabastante de una normal, posiblemente debido a que las muestras no contie-nen un número suficiente de elementos (Veremos luego que se consideranmuestras chicas las menores de 30 individuos y son objeto de estadísticasespeciales). Sin embargo, se nota que toda la población de medias va de unmínimo de 19.88 cm a un máximo 20.08, es decir que abarca 0.2 cm,mientras que la población total va desde un mínimo de 19.57 a un máximode 20.38 , es decir que abarca un rango de valores mucho mayor (0,81 cm).

0

1

2

3

4

5

6

7

19.8

6

19.8

8

19.9

0

19.9

2

19.9

4

19.9

6

19.9

8

20.0

0

20.0

2

20.0

4

20.0

6

20.0

8

y m

ayor

...

clase

frec

uen

cia

Page 27: APUNTES DE PROBABILIDAD Y ESTADÍSTICA – INDICE · PDF file1 apuntes de probabilidad y estadÍstica – indice temÁtico a. l. dini – 2003 apuntes de probabilidad y estadÍstica

27

Media y varianza de una suma de variables aleatorias independientesSean dos variables independientes u y v , de medias mu = 1/Nu Σ Σui , mv=1/Nv ΣΣvi y desvíos standard σσu, σσv . Consi-deremos la variable suma wi=(ui+vi), con Nu+Nv =N y con momento de primer orden:M1w=mw N= Σ Σwi =ΣΣ(ui+vi)

=ΣΣui + ΣΣvi

La media de al variable suma w=(u+v) es mw = ΣΣ(ui+vi)/(Nu+Nv) =ΣΣ(ui+vi)/N =1/N (mu Nu + mv Nv)

En cuánto a la varianza de la variable suma w,consideremos el siguiente:

Ejemplo:De una fábrica de masas se extraen dos muestrasiguales de obleas y porciones de dulce, que irán aformar masitas constituidas por una oblea o ga-lletita y una capa de dulce. Los resultados delmuestreo se presentan en el cuadro y gráfico dedistribuciones adjuntos.

Se comprende que la suma de las medias del lotede porciones de dulce y la media del lote deobleas dé exactamente la media del lote de masi-

tas, ya que de acuerdo a lo demostrado antes es: mm= (moNo+mdNd)/N, y siendo en este caso No=Nd=N, resultamm=mo+md

Los valores de los pesos del lote de obleas tienen una varianza σσo2 y la del

lote de dulce es σσd2 .¿Qué se puede esperar de la varianza σσm

2 de la masitaen conjunto? Imaginemos dos cuerpos sólidos rígidos unidos por un ejeque pase por ambos centros de gravedad. El sólido resultante tendrá unmomento de inercia con respecto a ese eje que es la suma de los momentosde cada cuerpo por separado. En este caso, los elementos o partículas decada cuerpo mantienen su posición e identidad.

Covarianza:En cambio, dos poblaciones de N elementos cada una, producen al sumarpares de elementos homólogos (xi yi) una tercera población de elementoszi=xi+yi cuyo momento de segundo orden con respecto a la suma de me-dias mxy=mx+my vale ΣΣ(zi-mxy)

2 = ΣΣ(xi-mx+yi-my)2 = ΣΣ(xi-mx)

2+ΣΣ(yi-my)2+

+2.ΣΣ(xi-mx)(yi-my), que no coincide en general con la suma de los mo-mentos centrados de segundo orden ΣΣ(xi-mx)

2+ΣΣ(yi-my)2 de cada una de

las poblaciones originales, salvo para el caso de ser ΣΣ(xi-mx)(yi-my)=0.

Este término, análogo a lo que en mecánica se llama “momento centrífugocon respecto a mx y my”, dividido por N da, en el ámbito de la estadística,la “covarianza” entre variables x e y, indicador del grado de relación queexiste entre dichas variables. Una covarianza positiva indica proporciona-lidad entre series de xi e yi, de manera de que a mayor x estadísticamentecorresponde mayor y , y una covarianza negativa señala que a mayor xcorresponde en general menor y.

Que la covarianza sea pequeña en valor absoluto, o en particular nula, significa que para cadapar de orden k haya otro j tal que (xk-mx)(yk-my) ≅≅ -[(xj-mx)(yj-my)], es decir que los ele-mentos homólogos se dispongan simétricamente a cada lado de la media, cosa que tiende acumplirse estadísticamente en muestras grandes de poblaciones con distribuciones simétricase independientes.

Recordando que la varianza es igual al momento de segundo orden centra-do dividido N, la varianza de la población compuesta tenderá a la suma de las varianzas individuales de las compo-nentes en la medida que la covarianza de ambas series tienda a ser nula, lo que indica que las variables son indepen-dientes.

De los datos de la tabla surge que la varianza de la población de masas σσm2 = 3257129 no es exactamente igual a la

suma de la de la oblea σσo2 y la del dulce σσd

2: 867484 + 3012522 = 3880006 . La diferencia (en este caso del 16%)

Distribución de masitas

0

5

10

15

20

25

0

1000

0

2000

0

3000

0

4000

0

5000

0

6000

0

7000

0

peso (mg)

frec

uen

cia

obleas dulce masita

oblea dulce masita31426.7 21628.1 53054.832154.6 22448.2 54602.830401.9 18908.1 4931030253.7 21708 51961.730670.2 21413.8 5208432935.9 18223.4 51159.330745.9 23799.2 54545.131167.6 21182.4 5235031988.2 19770.8 5175930593.9 22304 52897.932468.5 18547.2 51015.733062.3 23874.9 56937.230191 20177.2 50368.231120.8 23310.2 5443131066.5 18317.8 49384.332867.2 20911.4 53778.631634.9 22050.3 53685.232614.2 23395.5 56009.732291.2 21998 54289.230935.2 19300 50235.231693.9 19231.8 50925.730959.1 20772.6 51731.731438.6 20667.3 52105.933426.1 18471.9 5189832044.6 22602.8 54647.431280 19183.9 50463.932842 18657.7 51499.732514.3 22454.5 54968.830481.1 21097.8 51578.931380.3 23020.1 54400.431520 19149.3 50669.330785.7 20377.7 51163.433005.2 18784.3 51789.532006.9 18263.8 50270.732256.2 18726.6 50982.830143.2 21457.6 51600.830268 22326.9 52594.930836.9 21752.6 52589.532092.5 21388.4 53480.9

desvío st. 931.39 1735.66 1804.75varianza 867484 3012522 3257129media 31578.6 20811.7 52390.3

Page 28: APUNTES DE PROBABILIDAD Y ESTADÍSTICA – INDICE · PDF file1 apuntes de probabilidad y estadÍstica – indice temÁtico a. l. dini – 2003 apuntes de probabilidad y estadÍstica

28

está relacionada con la covarianza relativamente elevada (del orden de 300000) de las series de datos elegidas. Va-riando el orden de los valores de las columnas, o sea formando otras parejas oblea-dulce, se obtienen diferencias aveces mayores, menores, positivas y negativas. También, repitiendo el muestreo, se obtienen una serie de diferen-cias sucesivas en más y en menos cuyo promedio tiende a cero a medida que aumentan las pruebas.

Simulado varios muestreos con una planilla de cálculo, se han obtenido las siguientes diferencias porcentuales: -22,73 -8,38 -14,68 -15,99 11,26 4,30 -17,43 10,38 9,22 -0,08 4,55 4,78 -24,02 5,95 -10,33 20,01 8,27, cuyo pro-medio es -2,054. En el histograma correspondiente a esta distribución de diferencias se ha marcado una curva decuarto grado que pasa cerca de todos los puntos y los aproxima a una función acampanada típica. Si el lector perse-vera con esta lectura verá oportunamente cómo se obtiene una curva así, que pasa por entre los puntos aproximándo-se lo más posible, mediante un procedimiento llamado de “regresión”.

La relación lineal entre diferencia de desvíos y covarianzade las series muestrales se puede observar en el gráfico demás abajo. Nótese que la densidad de puntos representativosde las observaciones muestrales, es mayor al acercarse alorigen, ya que esa densidad está medida por la frecuencia enel intervalo.

Varianza de una resta de variables independientesDel mismo modo que para la suma de distribuciones, la va-rianza de una distribución que es diferencia entre otras dosindependientes entre sí, tiende estadísticamente a resultarigual a la diferencia entre varianzas. Por ejemplo, la varianzade la oblea tiende a ser igual a la de la masita menos la deldulce: σσo

2 = σ = σm2- σσd

2

Varianza de una muestraEn base a lo recién visto, estamos en condiciones de revisar lafórmula de la varianza de una muestra de N elementos, asaber s2=ΣΣ(xi-m)2/N . En dicha expresión m es la media de lamuestra, y no la de la población total µµ, cuyo valor exactodesconocemos. Por ello decimos que s es una estimación del

desvío standard de la muestra de N elementos, que en general no coincide con el verdadero valor de la varianzapoblacional σσ2=ΣΣ(xi-µµ)2/N. Se verifica que (xi-m) = (xi-µµ) – (m-µµ), de tal manera que la variancia de (xi-m) puedeaproximarse a la diferencia entre la variancia de (xi-µµ) y la variancia de la media muestral (m-µµ), ya que ambasvariables son independientes entre sí. Resulta entonces que s2=σσ2-σσm

2.Pero ya vimos que σσm

2 = σσ22/N , así que ΣΣ(xi-m)2/N ≅≅ σ σ2 – σσ22/N , de donde σσ2 (1-1/N) ≅≅ Σ Σ(xi-m)2/N , y de allí sededuce la fórmula σσ2 ≅≅ Σ Σ(xi-m)2/(N-1)Aclaramos que los cálculos de las varianzas de las planillas anteriores se han tomado los valores de σσ2 y no de s2, es decir que se ha tenido encuenta la corrección del estimador recién explicada.

-o-o-o-

Frecuencia de las diferencias entre sumas de varianzas y varianzas de la suma de distribuciones

-2

0

2

4

6

8

10

-37 -27 -17 -7 3 13 23 33 43

Diferencia porcentual entre desvíos en función de la covariancia para varias series de obleas y dulce

-60

-40

-20

0

20

40

-8,E

+05

-6,E

+05

-4,E

+05

-2,E

+05

0,E

+00

2,E

+05

4,E

+05

6,E

+05

8,E

+05

1,E

+06

covariancia

dif

ere

nc

ia e

ntr

e d

es

vío

s