aproximaciÓn a la teorÍa de la probabilidad · 2020. 4. 6. · 2 la teoría de la probabilidad,...

79
APROXIMACIÓN A LA TEORÍA DE LA PROBABILIDAD Carlos Camacho Universidad de Sevilla

Upload: others

Post on 04-Apr-2021

7 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: APROXIMACIÓN A LA TEORÍA DE LA PROBABILIDAD · 2020. 4. 6. · 2 La teoría de la probabilidad, cuyo estudio aquí abordamos, nos servirá de puente entre lo observado en la muestra

APROXIMACIÓN A LA TEORÍA DE LA PROBABILIDAD

Carlos Camacho

Universidad de Sevilla

Page 2: APROXIMACIÓN A LA TEORÍA DE LA PROBABILIDAD · 2020. 4. 6. · 2 La teoría de la probabilidad, cuyo estudio aquí abordamos, nos servirá de puente entre lo observado en la muestra

APROXIMACIÓN A LA TEORÍA DE LA PROBABILIDAD

Tema VI. Introducción a la teoría de la probabilidad

6.1.- Introducción ................................................................................................................................. 1 6.2.- Concepto de probabilidad ........................................................................................................... 3 6.3.- Probabilidades simples ................................................................................................................ 8 6.4.- Probabilidades totales ............................................................................................................... 10 6.5.- Probabilidades compuestas ....................................................................................................... 13 6.5.1.- Sucesos independientes ........................................................................................................ 13 6.5.2..- Sucesos dependientes ........................................................................................................... 16 6.6.- Probabilidad e investigación en ciencias humanas ................................................................... 21

Tema VII. Variables aleatorias y modelos de probabilidad (I): El caso discreto

7.1.- Introducción ............................................................................................................................... 25 7.2.- Concepto de variable aleatoria .................................................................................................. 26 7.3.- Variable aleatoria discreta ......................................................................................................... 26 7.4.- Distribución de probabilidad y función de probabilidad ........................................................... 27 7.4.1.- Representación gráfica de la función de probabilidad ........................................................... 31 7.5.- Función de distribución ............................................................................................................ 32 7.5.1.- Representación gráfica de la función de distribución ............................................................ 33 7.6.- Esperanza matemática de una variable aleatoria discreta ....................................................... 34 7.7.- Varianza de una variable aleatoria discreta .............................................................................. 36 7.8.- Modelos de función discreta de probabilidad ........................................................................... 37 7.8.1.- Distribución binomial .............................................................................................................. 38 7.8.1.- Distribución binomial y toma de decisión estadística ............................................................ 41 7.8.2.- Distribución multinomial ........................................................................................................ 49

Tema VIII. Variables aleatorias y modelos de probabilidad (II): El caso continuo

8.1.- Introducción ............................................................................................................................... 50 8.2.- Variable aleatoria continua ....................................................................................................... 50 8.3.- Distribución de una variable aleatoria continua ....................................................................... 50 8.4.- Función de densidad de probabilidad ....................................................................................... 53 8.5.- Media de una variable aleatoria continua ................................................................................. 56 8.6.- Varianza de una variable aleatoria continua ............................................................................. 56 8.7.- Distribución normal de probabilidad ......................................................................................... 57 8.7.1.- Cálculo de probabilidades en distribuciones normales .......................................................... 59 8.7.2.- Manejo de la tabla normal tipificada...................................................................................... 63 8.7.3.- Ley normal y distribuciones afines ......................................................................................... 68 8.7.3.1.- Distribución muestral de medias ........................................................................................ 71 8.7.3.2.- Distribución muestral de proporciones ............................................................................... 72 8.7.3.3.- Aplicaciones en la teoría de la decisión estadística............................................................. 73

Page 3: APROXIMACIÓN A LA TEORÍA DE LA PROBABILIDAD · 2020. 4. 6. · 2 La teoría de la probabilidad, cuyo estudio aquí abordamos, nos servirá de puente entre lo observado en la muestra

1

Tema VI. Introducción a la teoría de la probabilidad

)))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))

6.1.- Introducción

6.2.- Concepto de probabilidad

6.3.- Probabilidades simples

6.4.- Probabilidades totales

6.5.- Probabilidades compuestas

6.5.1.- Sucesos independientes

6.5.2.- Sucesos dependientes

6.6.- Probabilidad e investigación en ciencias humanas

)))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))

6.1.- Introducción

En los capítulos anteriores hemos ofrecido técnicas para estudiar de

forma eficaz el comportamiento de diferentes tipos de variables en las

muestras observadas -estadística descriptiva-. No obstante, nuestro

objetivo -la estadística como ciencia- no es saber lo que ocurre en

unos pocos casos (muestra), sino conocer lo que sucede en la

generalidad de los mismos (población) a efecto de establecer las leyes

generales que rigen el comportamiento de los fenómenos estudiados.

Interesa el caso general a partir del caso particular. La cuestión es

precisamente cómo determinar el procedimiento estadístico que nos

permita realizar tal tipo de consideraciones; cómo generalizar a partir

del caso particular, o si se quiere, cómo inferir las poblaciones

orígenes a partir de las muestras observadas.

Es evidente el interés de lo que estamos exponiendo. Supóngase que

estamos investigando el efecto de una vacuna que ha sido efectiva en

seis de once casos estudiados. Es importante conocer el efecto de dicha

vacuna en la generalidad de los casos, y en especial, si la proporción

de curaciones, a nivel poblacional, supera de manera significativa las

remisiones espontáneas de la enfermedad observada o, en cualquier caso,

si supera la de otros tratamientos utilizados. En el supuesto de que

la bondad de la vacuna se confirmase mediante procedimientos

estadístico procederíamos a aplicar masivamente dicha vacuna en la

población.

Page 4: APROXIMACIÓN A LA TEORÍA DE LA PROBABILIDAD · 2020. 4. 6. · 2 La teoría de la probabilidad, cuyo estudio aquí abordamos, nos servirá de puente entre lo observado en la muestra

2

La teoría de la probabilidad, cuyo estudio aquí abordamos, nos servirá

de puente entre lo observado en la muestra y lo pronosticable en la

población, que es desconocida. Para ello hemos de conocer las leyes de

probabilidad que rigen los fenómenos estudiados, o lo que es lo mismo,

hemos de tener una idea previa del modelo matemático que subyace tras

los datos de observación. De esta forma, del conocimiento de un

determinado valor muestral -estadístico- y del tipo de distribución que

presenta -distribución en el muestreo- derivará las conjeturas que

podamos establecer sobre los valores poblacionales -parámetros-, tal

como se verá extensamente en los capítulos dedicados a la estimación

y decisión estadísticas.

Abundando en lo que estamos diciendo, y a título exclusivamente

ilustrativo (en los próximos capítulos se tratarán in extenso estos

aspectos) permítasenos exponer algunos ejemplos donde se hace patente

la lógica de la inferencia estadística y su conexión con la teoría de

la probabilidad. Supongamos que retomamos el caso anterior de la vacuna

y nos preguntamos qué proporción de sujetos sanarán si dicha vacuna se

aplicase masivamente. La teoría de la estimación estadística nos indica

que la proporción de sujetos que sanarán a nivel poblacional en base

a este experimento oscilará, por ejemplo, entre 0.45 y 0.65, y este

resultado podemos afirmarlo en el 95% de las veces. En otro términos:

tenemos una probabilidad de 0.95 de que en la generalidad de los casos

sanen entre 0.45 y 0.65. Si queremos rizar un poco más el rizo, diremos

que la probabilidad de que un sujeto sane se encuentra entre 0.45 y

0.65, y esta afirmación la hacemos con una probabilidad de 0.95 de

acertar. Obsérvese que aquí hay una doble utilización de la

probabilidad, por un lado está el valor límite de una proporción cuando

el número de observaciones tiende a infinito (lo explicaremos más

adelante) y por otro, estamos operando con un determinado modelo de

probabilidad - la ley normal- a la que supuestamente se ajusta la

distribución muestral de proporciones, y sobre esa curva estamos

definiendo un intervalo de probabilidad. (No pretendemos que por el

momento el lector entienda cabalmente lo que estamos diciendo, sino tan

sólo estamos justificando el uso de la probabilidad dando un avance de

lo que vendrá más adelante. Ya se entenderá entonces).

Es importante destacar el papel primordial de la teoría de la

probabilidad en ciencias humanas, donde los sucesos no pueden

predecirse con certeza. Aunque en la práctica habitual de la

estadística no se suele hacer mención expresa del concepto de

probabilidad no por eso deja de estar presente en todo momento, como

acabamos de ver en el ejemplo anterior. Igualmente queremos insistir

que en toda estimación y decisión estadística existe un modelo

matemático subyacente -configuración de los valores aleatorios-,

Page 5: APROXIMACIÓN A LA TEORÍA DE LA PROBABILIDAD · 2020. 4. 6. · 2 La teoría de la probabilidad, cuyo estudio aquí abordamos, nos servirá de puente entre lo observado en la muestra

3

definido por una determinada ley de probabilidad, que es la que hace

de horma y determina toda consideración estadística.

En los próximos apartados intentaremos ofrecer una visión comprensiva

y práctica de la aplicación de la teoría de la probabilidad en ciencias

humanas sin por ello dejar de lado un cierto rigor expositivo. El

concepto de probabilidad y algunos otros asociados a ella tales como

el de variable aleatoria, esperanza matemática, función de densidad de

probabilidad, función de distribución ... etc, devienen de una manera

natural a partir del estudio de las muestras y como una generalización

de las mismas. No son más que los mismos conceptos, observados

inicialmente en las muestras, y aplicados posteriormente a las

poblaciones; es el comportamiento idealizado -modelo- a partir del

comportamiento particular. Así pues, en la medida que nos sea posible

recurriremos a conceptos ya familiares, desarrollados en los capítulos

anteriores, para explicar los nuevos, algo más abstractos. Seguiremos

un cierto camino en paralelo con los puntos expuestos en los temas de

estadística descriptiva.

6.2.- Concepto de probabilidad

Digamos en primer lugar que, aunque el término probabilidad es

frecuentemente utilizado en la vida ordinaria no por ello se hace con

el rigor necesario. Decimos "probablemente lloverá" o "probablemente

habrá elecciones anticipadas antes de verano" para indicar que ocurrirá

algo con cierta seguridad. Aquí no hay precisión en los asertos, pero

se supone una cierta memoria del pasado donde situaciones equivalentes

dieron lugar a lo que ahora, de nuevo, suponemos que ocurrirá. Hay una

cierta frecuencia de acontecimientos ocurridos que nos sirve de base

para futuros acontecimientos. Otras veces nuestras afirmaciones carecen

de fundamento objetivo ya que se limitan a un único acontecimiento, sin

otras referencias posibles. Esto ocurre cuando nos referimos a la

probabilidad de vida en Marte o a la probabilidad de que una

conflagración mundial acabe con la vida del planeta. Se tratan de

probabilidades subjetivas que no vienen al caso por el momento.

La teoría de las probabilidades hunde sus raíces en los juegos de azar,

muy probablemente motivado por esa vieja tendencia del ser humano a

conseguir algo a cambio de nada, o mejor dicho, mucho a cambio de casi

nada. No es casualidad que tanto la palabra "azar" (del árabe azahr:

dado para jugar) como aleatorio (del latín aleatorius: relativo al

juego) tengan el mismo origen. Pero no fue hasta el siglo XVII cuando

de una forma cabal, y gracias a los matemáticos Fermat (1601-1665) y

Page 6: APROXIMACIÓN A LA TEORÍA DE LA PROBABILIDAD · 2020. 4. 6. · 2 La teoría de la probabilidad, cuyo estudio aquí abordamos, nos servirá de puente entre lo observado en la muestra

4

P(A) 'nA

n(6.1)

P(4) '1

6

Pascal (1623-1675), se pudo cuantificar las ganancias esperadas en los

juegos de cartas. A partir de entonces se observó que fenómenos

equivalentes podían observarse en otros ámbitos de la ciencia. En

particular, el astrónomo belga Quételet (1796-1874), interesado en

mediciones antropológicas mostró que la teoría de las probabilidades

podía aplicarse igualmente a temas humanos. La misma distribución de

frecuencias presentada en los juegos de la ruleta se observaba en la

estatura o en el perímetro torácico de los soldados, en los cocientes

intelectuales de los niños o en las presiones sanguíneas de los

adultos. Se sentó así la base para la utilización de la estadística,

en cuanto teoría de probabilidades, en las ciencias de la conducta.

La primera definición de probabilidad, atribuida a Laplace (1749-1827),

y denominada definición clásica por razones históricas, indica que la

probabilidad de un determinado suceso es el cociente entre el número

de casos favorables y el número de casos posibles. De una manera algo

más rigurosa diremos: dado un suceso A tal que de n casos posibles

ocurre nA veces, entonces, se entiende por P(A):

Por ejemplo, si un dado tiene seis lados, la probabilidad de obtener

uno cualquiera, sea el cuatro, será:

Esta definición implica algunos supuestos que pueden ser evidentes en

el seno de la teoría de juegos, donde originalmente surgieron, pero que

no lo son tanto en otros contextos. En el caso del dado, como en las

cartas de la baraja, la ruleta, y otros artilugios de la suerte,

existen razones física para suponer que todos los sucesos son

igualmente probables. Por ejemplo, la homogeneidad de las caras de un

dado, su simetría, inducen a pensar que no hay ninguna razón para que

el cuatro salga más o menos veces que el dos. Ambas caras son para

todos los conceptos exactamente iguales, por tanto deberán ser

igualmente probables en su ocurrencia. Lo mismo puede decirse de

cualquier número de la ruleta o de cualquier carta de la baraja.

Pero esta definición de probabilidad puede resultar engañosa. Por las

mismas razones aducidas en el caso del dado o la moneda supondremos que

la probabilidad de que nazca un niño varón será 0.5. Sin embargo, si

Page 7: APROXIMACIÓN A LA TEORÍA DE LA PROBABILIDAD · 2020. 4. 6. · 2 La teoría de la probabilidad, cuyo estudio aquí abordamos, nos servirá de puente entre lo observado en la muestra

5

P(varón) 'número de varones

total de nacimientos' 0.51

P(A) ' limn64

na

n(6.2)

nos tomásemos la molestia de comprobar la proporción de niños que nacen

varones en un número suficientemente grande de observaciones (por

ejemplo, los nacidos en toda España durante un año) observaríamos que:

La probabilidad de dicho acontecimiento es 0.51. No hay una gran

diferencia con la que habría en el supuesto de equiprobabilidad entre

varones y mujeres, pero es suficientemente indicativo de que no

conviene aventurarse a hacer afirmaciones sobre la realidad antes de

efectuar ciertas comprobaciones, aunque la idea que tengamos de cómo

deben funcionar las cosas parezca razonable. Y en cualquier caso,

muchos fenómenos carecen de la simetría y homogeneidad de los juegos

de azar. Supóngase que nos preguntamos por la probabilidad de que un

niño nazca pelirrojo. Aquí no vale imaginar que los humanos se reparten

cromáticamente a todo lo largo del arco iris, y además lo hacen de

forma homogénea, siendo la probabilidad de nacer con un cierto color

de pelo igual a la unidad partido por el número de colores diferentes

del espectro. En este caso hemos de recurrir a la evidencia empírica.

Hemos de observar en un número suficientemente grande las distintas

proporciones de nacimientos referidos a los diferentes colores de pelo,

y estas proporciones se acercarán (más cuanto mayor sea el número de

observaciones) a las probabilidades reales. De esta forma, entramos en

un nuevo concepto de probabilidad, la llamada definición empírica de

probabilidad.

De una manera formal diremos que la probabilidad de un determinado

suceso A, definido empíricamente, hace referencia a la frecuencia

relativa de dicho suceso cuando el número de observaciones tiende a

infinito. Esto es:

Debe entenderse que el concepto aquí utilizado de "límite" no es el

usualmente manejado en el análisis, por cuanto no es posible fijar un

número n tal que la diferencia entre la frecuencia relativa y su

probabilidad sea menor que un infinitésimo ε prefijado.

La característica fundamental de la definición empírica de la

probabilidad reside en su insistencia en que la probabilidad debe estar

Page 8: APROXIMACIÓN A LA TEORÍA DE LA PROBABILIDAD · 2020. 4. 6. · 2 La teoría de la probabilidad, cuyo estudio aquí abordamos, nos servirá de puente entre lo observado en la muestra

6

f(A) '25

100' 0.25

f(A) '140

500' 0.28

f(A) '810

3000' 0.27

basada en evidencias observables y no en supuestos basados en la lógica

y naturaleza de los sucesos. Hace referencia a las denominadas

probabilidades a posteriori, precisamente porque sus magnitudes se

conocen después de la ocurrencia de los fenómenos estudiados y nunca

antes. Se distinguen de las denominadas probabilidades a priori, que

son precisamente las surgidas en el seno de la teoría de juegos, y que

se caracterizan porque previamente a cualquier ensayo podemos

(supuestamente) establecer las probabilidades correspondientes.

La consideración de la probabilidad basada en la definición empírica

es la que viene más al caso con la forma habitual que aquí utilizaremos

para estimar probabilidades. Como se recuerda, nos interesa conocer -

la estadística como ciencia- lo que ocurre en la generalidad de los

casos (población). Para ello partimos del conocimiento que nos

suministran las muestras estudiadas. Es evidente que cuanto mayor sea

el número de observaciones más nos acercaremos a los valores

poblacionales, y por tanto, a la generalidad de los casos. Supongamos,

a este respecto, que en una determinada muestra, pongamos 100 sujetos,

calculamos el número de ellos que son rubios, obteniendo un total de

25, entonces:

Supongamos que incrementamos ahora el número de observaciones, sean

500, donde obtenemos 130 personas rubias, entonces:

Ahora, incrementamos esta cantidad hasta 3000, obteniendo 810 sujetos

rubios, luego:

De esta manera nos iremos aproximando cada vez más hasta el valor real,

aunque, en la práctica hay que decir que jamas conoceremos su valor

exacto, si bien es cierto que será lo suficientemente aproximado. En

el capítulo referente a la estimación estadística veremos con qué grado

de certeza podremos establecer una determinada aproximación.

La consideración empírica de la probabilidad mejora considerablemente

el planteamiento de la definición clásica, no solamente en aquellos

Page 9: APROXIMACIÓN A LA TEORÍA DE LA PROBABILIDAD · 2020. 4. 6. · 2 La teoría de la probabilidad, cuyo estudio aquí abordamos, nos servirá de puente entre lo observado en la muestra

7

fenómenos en los que es absolutamente necesario tener experiencia de

lo acontecido, como por ejemplo, en el caso en que interese determinar

la probabilidad de que un determinado tratamiento contra la

osteoporosis sea exitosa, sino que incluso en aquellos fenómenos en los

que supuestamente pueda establecerse a priori su probabilidad es

precisamente a través de su comprobación fáctica como pueda confirmarse

de forma definitiva el supuesto establecido.

A pesar de ello, la definición empírica presenta algunos

inconvenientes. En primer lugar, hablar del "límite cuando n tiende a

infinito" nos deja en la práctica imposibilitados de conocer jamás el

valor exacto de una probabilidad cualquiera, por cuanto nunca se harán

infinitos ensayos. Cualquier número grande de ensayos será susceptible

de ampliarse, y por tanto, de modificarse su probabilidad. Por otro

lado, un determinado fenómeno puede variar a lo largo del tiempo con

lo que lo que afirmamos hoy no lo válido para mañana.

Vistas estas deficiencias, hoy en día se ha propuesto una nueva

definición de probabilidad, debida especialmente a Kolmogorov (1933),

y que es denominada definición axiomática. Tiene un interés más bien

teórico que práctico. No afecta en nada a la forma en como realicemos

nuestras estimaciones de la probabilidad pero deja a salvo el honor de

los matemáticos por cuanto al fin se consigue un discurso que en cuanto

tal discurso es coherente, riguroso y carente de fisuras lógicas, pero

que no pretende ninguna correspondencia con la realidad. Se trata

simplemente de establecer las reglas que deben cumplir toda frecuencia

relativa, pero sin preocuparnos por la adecuación de tales valores con

algún suceso en particular. En todo caso, más tarde podremos efectuar

comprobaciones para ver si se ajustan a los hechos.

De cualquier manera, y al margen de los diferentes intentos por

aproximarnos a la idea de probabilidad de una forma rigurosa, podemos

llegar al acuerdo tácito de que la probabilidad de un suceso no es otra

cosa que su frecuencia relativa a nivel poblacional. Es eso

precisamente, tanto como cuando nos aventuramos a establecer una

probabilidad previamente a toda experiencia -definición clásica- como

cuando recurrimos a su comprobación fáctica -enfoque empírico-. Por

otro lado, la definición axiomática no dice nada respecto a qué cosa

se refiere la probabilidad sino tan sólo qué requisitos deben cumplir

los valores de tales probabilidades, por lo que nuestra propuesta sigue

siendo válida.

En lo que sigue nos introduciremos en el manejo del cálculo de las

Page 10: APROXIMACIÓN A LA TEORÍA DE LA PROBABILIDAD · 2020. 4. 6. · 2 La teoría de la probabilidad, cuyo estudio aquí abordamos, nos servirá de puente entre lo observado en la muestra

8

0 # P(A) # 1 (6.3)

P(A) 'NA

N'

N

N' 1 (6.4)

P(A) 'NA

N'

0

N' 0 (6.5)

probabilidades entendidas como frecuencias relativas. Comenzaremos por

el caso más sencillo, donde se trata la ocurrencia de un único suceso

-probabilidades simples- para tratar a continuación situaciones en las

que puedan presentarse varios sucesos -probabilidades totales y

probabilidades compuestas-. Aunque somos conscientes de que tales

conceptos no son estrictamente necesarios para resolver problemas

prácticos de investigación en psicología, estimamos de su conveniencia

en la comprensión de la lógica que subyace en toda investigación. No

pretendemos ser exhaustivos, pero sí ofrecer un mínimo conocimiento que

posibilite abordar la estadística inferencial con cierta eficacia.

Observará el lector que numerosos problemas donde intervienen muestras

pequeñas sólo pueden resolverse mediante un mínimo de conocimiento de

la teoría de la probabilidad. Por otro lado, como tendrá ocasión de

comprobar, muchas consecuencias útiles para su vida habitual serán

logradas si muestra interés por los próximos apartados.

6.3.- Probabilidades simples

Ofreceremos algunas definiciones relacionadas con la probabilidad de

un determinado suceso. En algunos textos se plantean como axiomas,

teoremas o propiedades que han de reunir toda frecuencia relativa. Son

necesarios para apuntalar las ideas. Y como observará el lector,

bastantes sencillas. Comencemos por la primera.

La frecuencia relativa de un suceso A oscila entre cero y uno. Esto es:

Esta propiedad es evidente si entendemos f(A) como NA/N. Como máximo

se presentará N veces de un total de N. Su cociente en este caso será

la unidad. Diremos que se trata de un suceso seguro. Así:

Por contra, si de N veces no se presenta ninguna, su cociente valdrá

cero. Diremos, ahora que se trata de un suceso imposible:

Page 11: APROXIMACIÓN A LA TEORÍA DE LA PROBABILIDAD · 2020. 4. 6. · 2 La teoría de la probabilidad, cuyo estudio aquí abordamos, nos servirá de puente entre lo observado en la muestra

9

P(A) 'N & N

A

N' 1 &

NA

N' 1 & P(A) (6.6)

P(rey de bastos) '1

40' 0.025

P(caballo) '4

40' 0.1

+))))))))0)))))))))0))))))))))0)))))))))0)))))))))0))))))), * * * * * * * * Cadiz * Córdoba * Granada * Málaga * Sevilla * Total* * * * * * * * /))))))))3)))))))))3))))))))))3)))))))))3)))))))))3)))))))1 * 14315 * 15079 * 54782 * 24679 * 56918 *165773 * * * * * * * * .))))))))2)))))))))2))))))))))2)))))))))2)))))))))2)))))))-

Tabla 1

Si un determinado suceso se presenta NA veces de un total de N casos,

es evidente que no se presentará N-NA veces. Diremos, entonces que la

probabilidad de no ocurrencia de A, que expresaremos como será:P(A)

Ejemplo 6.1.- Determinar la probabilidad al extraer una carta de la

baraja española de obtener: a) el rey de bastos, b) un caballo.

SOL:

a) Solo hay un único caso de los 40 posibles que cumpla esta

condición. En consecuencia:

b) Hay cuatro caballos en la baraja española. Así pues:

Ejemplo 6.2.- Según datos de la Consejería de Educación y Ciencia, los

alumnos matriculados en las distintas universidades andaluzas durante

el curso 90-91 son los siguientes:

Esto supuesto, determinar la probabilidad: a) que un alumno

universitario andaluz elegido al azar sea sevillano, b) que no sea

malagueño.

Page 12: APROXIMACIÓN A LA TEORÍA DE LA PROBABILIDAD · 2020. 4. 6. · 2 La teoría de la probabilidad, cuyo estudio aquí abordamos, nos servirá de puente entre lo observado en la muestra

10

P(sevillano) '56918

165773' 0.343

P(malagueño) ' 1 & P(malagueño) ' 1 &24679

165773' 0.851

SOL:

a) Su frecuencia relativa al nivel de la población andaluza será:

b) Y la probabilidad de que no sea malagueño:

6.4.- Probabilidades totales

Frecuentemente los sucesos no se presentan aislados sino que se

encuentran entrelazados con otros y hemos de tomar decisiones no sobre

un único suceso, sino donde intervienen un conjunto de ellos. Por

ejemplo, un alumno puede tener interés no solamente por la probabilidad

de aprobar en junio sino también por la de aprobar entre la

convocatoria de junio y la de septiembre. A un inversor en bolsa le

puede interesar combinar probabilidades en distintas intervenciones

bancarias, de tal forma que optimice ganancias.

Ciertas cuestiones obedecen a la pregunta "probabilidad de suceder tal

cosa o tal otra". Aquí, dados varios sucesos, nos conformamos con la

ocurrencia de uno cualquiera de ellos. De esta cuestión trata el

presente apartado, que hemos denominado "probabilidades totales". Otras

veces, en presencia de varios sucesos, nos interesa conocer la

probabilidad de que ocurran todos ellos. Aquí nos preguntamos por la

"probabilidad de que suceda tal y tal cosa". Este aspecto, que

denominaremos como "probabilidades compuestas" será objeto de estudio

en el próximo apartado. Obviamente, podemos combinar probabilidades

totales y compuestas (probabilidad de que ocurra tal y tal cosa o tal

y tal otra).

Comencemos, pues, por la probabilidades totales. A este respecto,

tengamos dos sucesos A y B, de tal forma que ambos sucesos se excluyen

mutuamente (si sucede uno no puede suceder el otro), entonces, la

probabilidad que ocurra uno de los dos es la suma de las probabilidades

de cada uno de los sucesos aislados. Esto es:

Page 13: APROXIMACIÓN A LA TEORÍA DE LA PROBABILIDAD · 2020. 4. 6. · 2 La teoría de la probabilidad, cuyo estudio aquí abordamos, nos servirá de puente entre lo observado en la muestra

11

P(A o B) ' P(A) % P(B) (6.7)

P(sota o rey) ' P(sota) % P(rey) '4

40%

4

40'

8

40' 0.2

P(A o B) ' P(A) % P(B) & P(AB) (6.8)

P(rey o copas) ' P(rey)%P(copas)&P(rey de copas) '4

40%10

40&1

40' 0.325

Ejemplo 6.3.- Calcula la probabilidad de que al extraer una carta del

mazo de la baraja española sea sota o rey.

SOL:

Tenemos cuatro sotas y cuatro reyes. En total hay, pues, ocho casos

que satisfacen cualquiera de ambas condiciones. Así pues:

Se observa en este ejemplo que no se puede extraer una sota y un rey

simultáneamente. Se trata, como se ha indicado, de sucesos mutuamente

excluyentes. Pero no siempre las cosas son tan sencillas. Puede ocurrir

que trabajemos con sucesos que no son mutuamente excluyentes; esto es,

sucesos compatibles. Por ejemplo, nos puede interesar la probabilidad

de obtener un rey o copas. En este caso, está claro que se puede

obtener un rey que al mismo tiempo sea copas.

En el caso que operemos con dos sucesos A y B, que no se excluyen

mutuamente, la probabilidad de que ocurra uno cualquiera de ellos es:

donde P(AB) hace referencia a la probabilidad de que suceda A y B

simultáneamente.

Ejemplo 6.4.- Calcular la probabilidad de obtener al extraer una carta

de la baraja española sea rey o copas.

SOL:

Tenemos un rey de copas. Por tanto:

Page 14: APROXIMACIÓN A LA TEORÍA DE LA PROBABILIDAD · 2020. 4. 6. · 2 La teoría de la probabilidad, cuyo estudio aquí abordamos, nos servirá de puente entre lo observado en la muestra

12

P(A ^ B) ' P(A) % P(B) & P(A _ B) (6.9)

rey copa

Figura 3.1

Resulta conveniente recurrir a la teoría de conjuntos para determinar

probabilidades. En este caso, diremos que el suceso "A o B" hace

referencia a "A U B". Utilizamos el símbolo U indicando que

matemáticamente se trata de una unión de sucesos. Así, una forma

equivalente de expresar (6.8) será:

A este respecto puede ser ilustrativo servirnos de los diagramas de

Venn, donde cada suceso simple se representa por un punto contenido en

un determinado recinto. Asociemos, por otro lado, a cada uno de estos

puntos una determinada probabilidad, de tal forma que la probabilidad

de cada recinto equivalga a la suma de las probabilidades de los

elementos contenidos en dicho recinto. Si definimos ahora, por ejemplo,

dos recintos dentro del conjunto de sucesos y nos cuestionamos por la

probabilidad de que se presente bien un suceso del primer recinto o

bien un suceso del segundo recinto, está claro que equivaldrá a

considerar un nuevo recinto que comprende los elementos de los dos

recintos previos.

Tiene interés plantearlo desde la perspectiva de la teoría de conjuntos

por lo ilustrativo de este procedimiento, en especial cuando nos

encontramos con sucesos que comparten elementos, lo que gráficamente

equivale a recintos que se solapan parcialmente. En este caso, el

gráfico nos facilita el recuento del total de elementos que comprende

el recinto total. De esta forma, para el ejemplo 6.4, tendremos:

Page 15: APROXIMACIÓN A LA TEORÍA DE LA PROBABILIDAD · 2020. 4. 6. · 2 La teoría de la probabilidad, cuyo estudio aquí abordamos, nos servirá de puente entre lo observado en la muestra

13

A simple vista se observa que hay trece cartas que cumplen la condición

de ser rey o copa. Una de ellas, el rey de copas, pertenece tanto al

conjunto de reyes como de copas. Por esa razón, al sumar 4/40 a 10/40

de la ecuación 3.20 obtenemos 14/40. Un elemento que pertenece a ambos

conjuntos -el rey de copas- se ha sumado dos veces. En consecuencia,

para solventar este problema, hemos de restarlo una vez. De esta forma,

queda justificada la expresión 3.20.

6.5.- Probabilidades compuestas

Hemos visto la probabilidades totales, donde se trata la probabilidad

de ocurrencia de un "suceso o bien otro", y cuyo resultado correspondía

a la suma de las probabilidades de los acontecimientos implicados.

Dados varios sucesos, la ocurrencia de cualquiera de ellos nos

satisfacía; por tanto, la extensión del nuevo suceso comprendía los

anteriores. En algunos textos, por el procedimiento utilizado -suma de

probabilidades-este caso se denominaba teorema o axioma de la suma de

las probabilidades.

Ahora nos preguntamos, genéricamente, por la probabilidad de ocurrencia

de "un suceso y otro". Se trata de sucesos combinados o compuestos, y

su cálculo, como explicaremos, se resuelve mediante el producto de las

diferentes probabilidades. Por esta razón, en algunos textos se

denomina teorema de la multiplicación de probabilidades.

Las probabilidades compuestas obedece a preguntas donde se encuentra

la conjunción "y". Puede indicar la ocurrencia simultánea de dos (o

más) acontecimientos cualesquiera, como por ejemplo, la obtención en

la baraja española del rey de copas (rey y copa), o bien la ocurrencia

sucesiva de una serie de eventos, como por ejemplo, obtener dos caras

en el lanzamiento de dos monedas (cara en la primera y cara en la

segunda). En ambos casos el resultado es el producto de las distintas

probabilidades.

6.5.1.- Sucesos independientes

Comenzaremos por el caso más sencillo donde los sucesos que tienen

lugar son independientes entre sí. Por ejemplo, si lanzamos dos veces

una moneda lo que se obtenga en la segunda tirada no es afectado con

lo obtenido en el primer lanzamiento; una familia que tenga diez hijos

varones, y que esté esperando su undécimo hijo, tendrá exactamente las

misma probabilidades tanto de que nazca niño como de nacer niña en el

próximo nacimiento.

Page 16: APROXIMACIÓN A LA TEORÍA DE LA PROBABILIDAD · 2020. 4. 6. · 2 La teoría de la probabilidad, cuyo estudio aquí abordamos, nos servirá de puente entre lo observado en la muestra

14

P(AB) ' P(A) ( P(B) (6.10)

P(CX) ' P(C) ( P(X) '1

2(1

2'

1

4

De una manera formal, diremos que dados dos sucesos A y B tales que

sean independientes entre sí (el resultado de uno de ellos no

condiciona al otro), la probabilidad de que ocurran ambos (bien

simultáneamente o secuencialmente) es igual al producto de las

probabilidades de cada uno de ellos. Esto es:

Es fácil comprender la razón por la cual se realiza el producto

P(A)*P(B) para determinar la probabilidad de ocurrencia de A y de B.

Si A ocurre 1/n veces y B, 1/m veces, entonces A y B ocurrirá 1/m veces

(suceso B) de 1/n veces (suceso A). Aunque parezca un juego de

palabras, se verá en los ejemplos siguientes lo sencillo que es.

Ejemplo 6.5.- Calcular la probabilidad de obtener dos caras en el

lanzamiento de dos monedas.

SOL:

Definamos como C el suceso "obtención de cara" y X al suceso

"obtención de cruz". Aplicando la regla del producto:

Se observa que del primer lanzamiento la mitad de las veces saldrá

cara. Y una vez efectuado este lanzamiento, en el segundo lanzamiento,

la mitad de las veces obtendremos cruz. Así pues, cara y cruz se

obtendrá la mitad de la mitad de las veces; esto es, un cuarto de las

veces. Podemos recurrir, si se desea, a establecer el conjunto de los

resultados posibles:

CARA CRUZ

+)))))))))))0))))))))))),

* * *

CARA * CC * CX *

/)))))))))))3)))))))))))1

* * *

CRUZ * XC * XX *

.)))))))))))2)))))))))))-

Page 17: APROXIMACIÓN A LA TEORÍA DE LA PROBABILIDAD · 2020. 4. 6. · 2 La teoría de la probabilidad, cuyo estudio aquí abordamos, nos servirá de puente entre lo observado en la muestra

15

P(caballo de bastos) ' P(caballo)(P(bastos) '4

40(10

40'

1

40

Comprobamos que hay dos casos posibles para el primer lanzamiento, y

otros tantos para el segundo lanzamiento. En consecuencia, la

combinaciones posibles son 2*2=4. Y del conjunto de estos cuatro casos

(CC, CX, XC y XX) uno de ellos será cara y cruz (CX). Por tanto, su

probabilidad será 1/4.

Otro procedimiento alternativo que nos ayuda a comprender las

probabilidades compuesta nos lo proporciona el diagrama en árbol.

Veamos este caso:

CARA +)))))))))))Q CC: P(CC)=1/2*1/2=1/4 CARA *P(C)=1/2 +)))))))))))1 * P(C)=1/2 * CRUZ +)))))))), * .)))))))))))Q CX: P(CX)=1/2*1/2=1/4 * LANZA- * * P(X)=1/2 * /)))))))))))1 * MIENTO * * CARA .))))))))- * +)))))))))))Q XC: P(XC)=1/2*1/2=1/4 * CRUZ *P(C)=1/2 .)))))))))))1 P(X)=1/2 * CRUZ .)))))))))))Q XX: P(XX)=1/2*1/2=1/4 P(X)=1/2

Ejemplo 6.6.- Determinar la probabilidad de obtener el caballo de

bastos en la extracción de la carta de una baraja española.

SOL:

Aunque este ejemplo podemos resolverlo utilizando las

probabilidades simples (existe un único caballo de bastos en toda la

baraja, luego su probabilidad será 1/40), merece la pena plantearlo

como un caso de probabilidad simultánea, a diferencia del ejemplo

anterior, donde los sucesos ocurrían secuencialmente (primero cara y

luego cruz). Tenemos así:

Page 18: APROXIMACIÓN A LA TEORÍA DE LA PROBABILIDAD · 2020. 4. 6. · 2 La teoría de la probabilidad, cuyo estudio aquí abordamos, nos servirá de puente entre lo observado en la muestra

16

P(SS) ' 0.5(0.5 ' 0.25

P(A o A) ' 1 & P(SS) ' 1 & 0.25 ' 0.75

P(SSSSSS) ' 0.56 ' 0.016

P(A o A o A o A o A o A) ' 1 & P(SSSSSS) ' 1 & 0.016 ' 0.984

P(AB) ' P(A) ( P(B*A) (6.11)

Ejemplo 6.7.- Supongamos (de una forma un tanto irreal) que un

determinado alumno tiene siempre la probabilidad 0.5 de aprobar el

examen de Estadística. Esto supuesto: a) determinar la probabilidad de

que apruebe en el curso, esto es, entre junio y septiembre; b)

determinar la probabilidad de que apruebe en alguna de las seis

convocatorias permitidas.

SOL:

a) Mejor que operar con la probabilidad de aprobar P(A) lo haremos

con la probabilidad de suspender P(S). De esta forma, el alumno

aprobará al final si no suspende ambas convocatorias. Así pues, la

probabilidad de que suspenda en junio y en septiembre será:

Si no ocurre esto aprobará alguna de las veces, que será el suceso

complementario. Por tanto, que apruebe en junio o en septiembre será:

b) Este caso es equivalente al anterior. Aprobará (alguna vez) si no

suspende las seis convocatorias. Calculemos, en primer lugar la

probabilidad de suspender las seis convocatorias:

Por tanto:

6.5.2.- Sucesos dependientes

Frecuentemente los sucesos no son independientes entre sí, sino que la

ocurrencia de uno de ellos condiciona la probabilidad de ocurrencia del

otro. Por ejemplo, si está nublado es más probable que llueva que si

está despejado; si somos fumadores empedernidos, la probabilidad de

cáncer será mayor que si sólo respiramos aire puro ..etc. Se trata de

sucesos que presentan un cierto grado de dependencia. En este caso:

Page 19: APROXIMACIÓN A LA TEORÍA DE LA PROBABILIDAD · 2020. 4. 6. · 2 La teoría de la probabilidad, cuyo estudio aquí abordamos, nos servirá de puente entre lo observado en la muestra

17

P(B*A) 'P(AB)

P(B)(6.12)

P(B) '10

16' 0.625

P(N*B) '6

15' 0.4

P(BN) ' P(B)(P(N*B) '10

16(6

15' 0.25

donde hace referencia a la probabilidad de que ocurra BP(B*A)

habiendo ocurrido A. La lógica aquí es la misma que la expuesta para

los sucesos independientes. La única diferencia se encuentra en el

hecho de que la probabilidad del segundo suceso queda mediatizada por

lo ocurrido en el primero. Si el suceso A se presenta siempre y en

cualquier circunstancia, una vez de m veces, e igualmente, el suceso

B una vez de n veces, está claro, como hemos indicado que,

conjuntamente se presentarán 1/(m*n) veces, pero si al ocurrir A, B

ocurre h veces, entonces la combinación de ambos será 1/(m*h) veces.

Cuando un suceso A depende en su probabilidad de la ocurrencia de otro

B decimos que se trata de una probabilidad condicionada. Su valor, que

deduciremos fácilmente de (6.11) será:

Ejemplo 6.8.- Tengamos una urna con diez bolas blancas y seis bolas

negras. Si extraemos dos bolas sin reposición, determinar la

probabilidad de que la primera bola sea blanca y la segunda negra.

SOL:

La probabilidad de que la primera bola sea blanca P(B) será:

Y de que la segunda sea negra habiendo sido blanca la primera P(N*B)

(obsérvese que el haber extraído la primera bola sin reposición nos

quedarán quince bolas):

En consecuencia:

Gran parte del interés de la estadística como ciencia reside justamente

en el hecho de que la probabilidad para un determinado suceso no se

mantiene constante siempre y en cualquier lugar, sino que dicha

probabilidad se ve afectada cuando se combina con otro suceso. Si la

Page 20: APROXIMACIÓN A LA TEORÍA DE LA PROBABILIDAD · 2020. 4. 6. · 2 La teoría de la probabilidad, cuyo estudio aquí abordamos, nos servirá de puente entre lo observado en la muestra

18

Casado Soltero Total )))))))))))))))))))))))))))))))))))))))))))))))) Feliz ...... 2100 650 2750 No feliz ... 400 350 750 )))))))))))))))))))))))))))))))))))))))))))))))) 2500 1000 3500

Tabla 2

P(F) '2750

3500' 0.786

probabilidad de A es mayor en presencia de B, y lo que nos interesa es,

justamente, tener un mayor control sobre A, entonces la presencia de

B nos lo permitirá. Es lo que, en otro contexto, se conoce como

relación de variables; una variable (sobre la que podemos intervenir)

nos permite predecir otra (que no podemos manipular directamente). Por

ejemplo, el deporte y una alimentación pobre en grasas saturadas,

disminuye el riesgo de infarto, o dicho en otros términos: la

probabilidad de padecer un infarto de miocardio por un sujeto que hace

deporte y cuida su alimentación es menor que en un sujeto que no se dan

tales circunstancias. En este caso la probabilidad condicionada nos ha

permitido disminuir la probabilidad de infarto. Otras veces, nos

interesará aumentar la probabilidad; de esta forma, el éxito con la

mujer de nuestros sueños probablemente será mayor si lo ligamos a una

conversación interesante y a una presencia agradable (en la medida de

nuestras posibilidades).

Ejemplo 6.9.- Supongamos que en una determinada localidad compuesta por

3500 habitantes hemos registrado las variables estado civil y nivel de

felicidad. Los datos son los siguientes:

Se observa que la proporción de sujetos felices (o bien, la

probabilidad de ser feliz P(F)) en dicha localidad, al margen de su

estado civil es:

Si nos centramos en los casados, la proporción de felices (probabilidad

de ser feliz condicionada a estar casado ) será:P(F*C)

Page 21: APROXIMACIÓN A LA TEORÍA DE LA PROBABILIDAD · 2020. 4. 6. · 2 La teoría de la probabilidad, cuyo estudio aquí abordamos, nos servirá de puente entre lo observado en la muestra

19

P(F*C) '2100

2500' 0.84

P(F*S) '650

1000' 0.65

2100

3500'

2500

3500(2100

2500

P(CF) ' P(C)(P(F*C) '2500

3500(2100

2500' 0.714(0.840 ' 0.6

P(F) ' P(F*C) ' P(F*S)

P(CF) ' P(C)(P(F)

P(C) '2500

3500' 0.714

Por otro lado, la probabilidad de que un soltero sea feliz :P(F*S)

Se observa a grosso modo que el grado de felicidad tiene que ver con

el estado civil, en la medida que estar casado incrementa la

probabilidad de ser feliz. Existe relación, pues, entre ambas

variables, y podemos afirmar que la felicidad se hace más probable -y

por tanto, más predecible- en la situación de casado (según estos

datos, ficticios).

Por otro lado, es fácil comprobar en base a estos datos:

O lo que es lo mismo, la probabilidad de estar casado y ser feliz

P(CF):

En el supuesto de que el estado civil no guarde relación con la

felicidad de los sujetos, la probabilidad de ser feliz sería siempre

la misma al margen del estado civil. Esto es:

De esta forma, la probabilidad de estar casado y ser feliz P(CF) será,

ahora, el producto de sus probabilidades simples:

Sabemos, operando con los marginales de la tabla I, que la probabilidad

de estar casado es:

Y la probabilidad de ser feliz:

Page 22: APROXIMACIÓN A LA TEORÍA DE LA PROBABILIDAD · 2020. 4. 6. · 2 La teoría de la probabilidad, cuyo estudio aquí abordamos, nos servirá de puente entre lo observado en la muestra

20

P(F) '2750

3500' 0.786

P(CF) ' P(C)(P(F) ' 0.714(0.786 ' 0.561

Incertidumbre disipada '0.054

0.214' 0.252

Esto es, están casados el 71.4% y son felices, el 78.6%. Si estos

sucesos fueran independientes el porcentaje de sujetos felices se

mantendría constante para cualquier valor de la variable estado civil.

Habría el 78.6% de felices del 71.4% de casados. En términos de

probabilidad:

Obsérvese que la probabilidad de estar casado y ser feliz, según los

datos de la tabla I donde los sucesos son dependientes, es 0.6, y en

el supuesto de independencia, 0.561. La dependencia de variables da

lugar a que los acontecimientos sean más predecibles que desde la

independencia de los mismos. Todavía se hace más patente el efecto de

la dependencia si comparamos la probabilidad de ser feliz entre

solteros y casados. Para los solteros es 650/1000=0.65, y para los

casados, 2100/2500=0.84.

Merece la pena considerar la ventaja en la predicción al incluir en

nuestra investigación una variable que modifica las probabilidades. Por

ejemplo, en el caso que estamos tratando, supongamos que en la citada

localidad, en una primera instancia sólo preguntamos si es feliz o no.

En este caso, como se sabe, la proporción de felices es 0.786. En base

a la información de esta única variable tendremos una probabilidad de

0.786 de acertar si afirmamos que un sujeto cualquiera es feliz, y por

contra, nuestra incertidumbre, si la cuantificásemos de alguna manera,

sería 1-0.786=0.214. Supongamos, ahora, que introducimos la variable

estado civil. La probabilidad de ser feliz, en el supuesto de casado

es 0.84. Ha supuesto una mejora de 0.84-0.786=0.054 puntos de

probabilidad. Si nos interesa conocer el grado de incertidumbre

disipada, éste ha sido 0.054 de la incertidumbre inicial de 0.214. Por

tanto:

Hemos mejorado nuestra predicción gracias a la información que nos

proporciona la variable introducida -estado civil- en algo más de un

25%.

Page 23: APROXIMACIÓN A LA TEORÍA DE LA PROBABILIDAD · 2020. 4. 6. · 2 La teoría de la probabilidad, cuyo estudio aquí abordamos, nos servirá de puente entre lo observado en la muestra

21

6.6.- Probabilidad e investigación en Ciencias Humanas

En las páginas anteriores hemos ofrecido las nociones básica mínimas

(por otro lado, bastantes sencillas) para el cálculo de probabilidades.

No queremos aburrir (o entretener) al lector con cuestiones tales como

¿de cuantas manera posibles se pueden sentar cinco chicos y cinco

chicas de tal forma que siempre queden emparejados?. Nos interesa, en

especial, ofrecer la probabilidad como una herramienta útil en la

investigación psicológica.

Digamos, en primera instancia, como cuestión relevante en toda

investigación, la posibilidad de encontrar nexos que liguen las

variables consideradas. En psicología, nuestra variable objeto de

estudio, por excelencia, es la conducta en sus múltiples

manifestaciones. Si estamos en un contexto clínico nos puede interesar

encontrar la forma de sacar a un paciente de una depresión; o bien,

mejorar el rendimiento académico de los alumnos referente a las

matemáticas, si estamos en un contexto escolar; o bien lograr una mayor

satisfacción laboral, si nos situamos en psicología del trabajo. En

todos estos casos hemos de encontrar una variable que incida sobre la

variable objeto de estudio en el sentido que pueda modificarla en la

dirección que nos interesa. De esta forma, una determinada terapia

cognitiva podrá resultar efectiva contra la depresión, un cierto método

de enseñanza programada podrá mejorar el rendimiento de nuestros

estudiantes, y un cambio en el tipo de relaciones humanas en el seno

de la empresa podrá mejorar la satisfacción laboral de los

trabajadores.

Pero en ciencias humanas, nos topamos con un material mal conocido. No

ocurre como en física que estudiando detenidamente un único objeto -por

ejemplo, una pelota, rodar por un plano inclinado- podemos establecer

conclusiones generales que expliquen rigurosamente el problema de la

aceleración para cualquier cuerpo. En psicología -por la complejidad

de la conducta- no valen conclusiones generales a partir de un único

caso particular. Dos sujetos sometidos a un mismo programa de

aprendizaje rendirán probablemente de forma distinta, e incluso el

mismo sujeto no rendirá hoy igual que mañana. Y ya que los fenómenos

particulares son impredecibles, necesitamos de la predicibilidad de los

grandes números. Una moneda, en un sólo ensayo no sabremos si saldrá

cara o cruz, pero en mil ensayos la proporción de caras será muy

próxima a 0.5. Un buen método de enseñanza puede no mejorar a un sujeto

en particular, ya que otras variables extrañas, como motivación, salud,

o inteligencia puede afectar los resultados para un caso concreto, pero

en una muestra relativamente amplia de individuos, tales variables

Page 24: APROXIMACIÓN A LA TEORÍA DE LA PROBABILIDAD · 2020. 4. 6. · 2 La teoría de la probabilidad, cuyo estudio aquí abordamos, nos servirá de puente entre lo observado en la muestra

22

extrañas quedarán compensadas a lo largo de los distintos sujetos, y

el promedio del rendimiento será constatable. La estadística como

ciencia alcanza su máxima eficacia desde la perspectiva macroscópica

-conjunto de datos-, donde pueden percibirse ciertas tendencias

generales, en tanto que desde una perspectiva microscópica -un sola

observación- los componentes aleatorios son de tal magnitud que hacen

en la práctica inviable cualquier pronóstico serio.

Pero a pesar de todo, ni siquiera desde una perspectiva macroscópica

tendremos seguridad total de nada. Siempre habrá un resquicio para el

azar. En una moneda bien equilibrada, podrá salir veinte veces cara de

veinte lanzamiento. Muy improbablemente, pero puede ocurrir.

Igualmente, una muy efectiva vacuna contra la polio puede en muy rara

ocasiones producir precisamente la polio. Entonces, ¿qué valor tiene

la estadística como ciencia, si jamas tendremos total seguridad de

nuestros pronósticos?. Se trata de una cuestión de probabilidad. Y la

probabilidad nos ofrece una medida de la certidumbre (o incertidumbre)

en nuestra decisiones. No podemos afirmar las cosas con certeza pero

sí podemos saber con que probabilidad ocurrirán. Esta es la

característica fundamental de la estadística como ciencia: no sabemos

con seguridad si algo ocurrirá o no, pero sí sabemos con certeza su

probabilidad de ocurrencia, y esto ya es un cierto grado de control.

Sabemos que no sabemos, y además sabemos (exactamente) cuanto no

sabemos.

Disponemos de un cierto grado de certidumbre, y cuando ésta es

suficiente, nos arriesgamos a tomar decisiones (aceptando un

determinado riesgo de equivocarnos). Normalmente, para saber si ha

ocurrido algo -una relación, por ejemplo- la estadística recurre

siempre a la misma lógica. Determina, en primer lugar, cual es la

probabilidad de que lo observado ocurra por puro azar. Si esta

probabilidad es grande se acepta que las cosas han ocurrido por

causalidad y aquí no ha pasado nada. Si por el contrario, comprobamos

una probabilidad muy baja para el azar (habitualmente, por convenio,

del 0.05 o bien 0.01) suponemos que probablemente haya ocurrido "algo"

distinto a la pura casualidad (y probablemente debido a las

modificaciones que hemos realizado sobre nuestro objeto de estudio).

Veamos un ejemplo muy sencillo que puede ilustrar (a pesar de los pocos

elementos de probabilidad explicados) la lógica de las decisiones

estadísticas.

Ejemplo 6.10.- Supongamos un sujeto que en un examen compuesto por diez

items de verdadero o falso, responde correctamente los diez. ¿Podemos

Page 25: APROXIMACIÓN A LA TEORÍA DE LA PROBABILIDAD · 2020. 4. 6. · 2 La teoría de la probabilidad, cuyo estudio aquí abordamos, nos servirá de puente entre lo observado en la muestra

24

P(diez items) ' 0.510 ' 0.00098

concluir en base a estos datos que tiene un cierto dominio de la

materia.

SOL:

Si dicha persona no tuviera ningún conocimiento de la materia

tendría una probabilidad de acertar para cada ítem de 0.5. Hay diez

items, luego la probabilidad de acertar todos por puro azar será:

Observamos que tal cantidad es inferior al uno por mil. Puede ocurrir

que la casualidad haya dado lugar a este caso, pero obviamente es

muchísimo más probable lo contrario (acertaremos más de 999 veces de

cada 1000). En consecuencia suponemos que el sujeto tiene algún

conocimiento de la materia asumiendo una probabilidad de equivocarnos

del 0.00098.

Page 26: APROXIMACIÓN A LA TEORÍA DE LA PROBABILIDAD · 2020. 4. 6. · 2 La teoría de la probabilidad, cuyo estudio aquí abordamos, nos servirá de puente entre lo observado en la muestra

25

Tema VII. Variables aleatorias y modelos de probabilidad (I): El

caso discreto

))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))Q

7.1.- Introducción

7.2.- Concepto de variable aleatoria

7.3.- Variable aleatoria discreta

7.4.- Distribución de probabilidad y función de probabilidad

7.4.1.- Representación gráfica de la distribución de probabilidad

7.5.- Función de distribución

7.5.1.- Representación gráfica de la función de distribución

7.6.- Esperanza matemática de una variable aleatoria discreta

7.7.- Varianza de una variable aleatoria discreta

7.8.- Modelos de distribución discreta de probabilidad

7.8.1.- Distribución binomial

7.8.1.1.- Prueba binomial y toma de decisión estadística

7.8.2.- Distribución multinomial

))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))Q

7.1.- Introducción

El presente capítulo guarda un cierto paralelismo con los capítulos

2,3, 4 y 5 donde se ofrecía técnicas descriptivas de datos muestrales.

Aquí describiremos variables aleatorias que no son más que las mismas

variables observadas en las muestras, pero esta vez referidas a nivel

poblacional, esto es, en la generalidad de los casos, ya que es en esta

dimensión donde adquieren validez universal las decisiones adoptadas.

Estudiaremos el comportamiento idealizado de las variables en la

población. Decimos idealizados por cuanto son la consecuencia de

aplicar la lógica de un cierto modelo. En el futuro cuando extraigamos

conclusiones de una determinada variable, bien referido a ella en

particular o en relación a otras, que quede claro que es según el

modelo supuesto. Tomamos el modelo como referente para explicar la

realidad, aunque no es menos cierto que es a partir de la realidad como

hemos concebido el modelo. En este sentido hay una justificación

recíproca que queda fundamentada en la eficacia del modelo al dar

cuenta de la realidad.

Page 27: APROXIMACIÓN A LA TEORÍA DE LA PROBABILIDAD · 2020. 4. 6. · 2 La teoría de la probabilidad, cuyo estudio aquí abordamos, nos servirá de puente entre lo observado en la muestra

26

De la misma manera que la distribución de una muestra quedaba

especificada por los valores de la variable junto a sus frecuencias (o

bien, frecuencias relativas), aquí la variable aleatoria queda descrita

por los valores que adopta junto a sus probabilidades asociadas.

(Obsérvese que la probabilidad es precisamente la frecuencia relativa

en la población). El conjunto de estos valores, con sus probabilidades

correspondientes definen las distintas distribuciones de probabilidad;

esto es, los distintos modelos de probabilidad.

7.2.- Concepto de variable aleatoria

El concepto de variable aleatoria está ligado al concepto de variable

tal como ha sido tratado en la Estadística descriptiva: es todo aquello

susceptible de adoptar deferentes valores. Aquí se el añade el adjetivo

"aleatoria" queriéndose indicar con ello que sus valores dependen del

azar. Se entiende además, con este término, que se estudia el

comportamiento en la generalidad de los casos; es decir, en la

población.

Las variables aleatorias son todas numéricas, aun cuando reflejen

cualidades. Si las observaciones son de tipo cualitativo se le asigna

a los diferentes atributos un número arbitrariamente; por ejemplo, en

relación al sexo, asignaremos 0 si es varón y 1 si es mujer. De esta

forma, desde esta perspectiva sólo se consideran dos tipos de variables

aleatorias: a) variables aleatorias discretas, donde se incluyen las

variables que conocemos en otro contexto como variables cualitativas,

y b) variables aleatorias continuas.

7.3.- Variable aleatoria discreta

Se denominan a tales variable aquellas que adoptan un número de valores

numerables. Son variables cuyos valores se diferencian siempre en

alguna cantidad, o lo que es lo mismo, entre dos valores consecutivos

no puede existir ningún otro. Sólo puede adoptar valores enteros, y no

tienen sentido en ellos valores fraccionarios tales como 1.5 o 3.44.

Ejemplos de variables discretas son el número de accidentes en una

empresa, el número de suicidios en un determinado país o la cantidad

de naranjas exportadas en el año 1994. Es fácil percatarse que tales

tipos de variables corresponden a situaciones donde se consideran el

número de veces que ocurre un determinado suceso (accidentes,

suicidios, naranjas).

Page 28: APROXIMACIÓN A LA TEORÍA DE LA PROBABILIDAD · 2020. 4. 6. · 2 La teoría de la probabilidad, cuyo estudio aquí abordamos, nos servirá de puente entre lo observado en la muestra

27

También las variables que habitualmente hemos denominado cualitativas,

en este contexto quedan definidas como variables aleatorias discretas.

En este caso se asigna un número a cada uno de los atributos que

presente la variable cualitativa en cuestión.

7.4.- Distribución de probabilidad y función de probabilidad

Si deseamos conocer como se distribuye una variable aleatoria discreta

en la población, procederemos en primer lugar a elaborar su

distribución de probabilidad que es precisamente una tabla donde se

relacionan los posibles valores que adopta la variable junto a sus

probabilidades asociadas. Esta procedimiento es equivalente a la

distribución de frecuencias relativas utilizada en el contexto de la

Estadística descriptiva.

Ejemplo 7.1.- Supongamos que en el examen de selectividad para el

ingreso en la universidad realizado en una determinada capital

española, se presentaron 127597 alumnos. La prueba consistía en cinco

problemas. Definamos la variable aleatoria X "número de problemas

acertados". La relación de alumnos que han superado los distintos

problemas es:

X Alumnos

))))))))))))))))))))))

0 ........... 5554

1 ........... 15784

2 ........... 27544

3 ........... 37905

4 ........... 24434

5 ........... 16376

))))))))))))))))))))))

127597

Tabla 7.1

Determinar su distribución de probabilidad.

SOL:

Page 29: APROXIMACIÓN A LA TEORÍA DE LA PROBABILIDAD · 2020. 4. 6. · 2 La teoría de la probabilidad, cuyo estudio aquí abordamos, nos servirá de puente entre lo observado en la muestra

28

El total de alumnos es 127597. Dividiendo cada una de las frecuencias

observadas en los diferentes valores de la variable aleatoria por esta

cantidad obtendremos la proporciones a nivel poblacional, o lo que es

lo mismo su probabilidad asociada. Así pues:

X P(X)

))))))))))))))))))))))

0 ........... 0.0435

1 ........... 0.1237

2 ........... 0.2159

3 ........... 0.2971

4 ........... 0.1915

5 ........... 0.1283

))))))))))))))))))))))

Tabla 7.2

Ejemplo 7.2.- Supongamos que en la población española el porcentaje de

varones es del 51% y el de mujeres, del 49%. Determinar la función de

probabilidad para la variable sexo.

SOL:

Supongamos que arbitrariamente asignamos el valor 0 a varón y 1 a

mujeres. Por tanto:

Sexo Probabilidad

X P(X)

))))))))))))))))))))))

0 ........ 0.51

1 ........ 0.49

))))))))))))))))))))))

Tabla 7.3

La asignación de probabilidades en casos como en los ejemplos citados

(donde se ofrece información empírica de la población) es evidente. Se

trata tan sólo de conocer la proporción correspondiente a un

determinado valor. De esta forma, en relación al ejemplo 7.1, con sólo

mirar a la tabla sabremos que la probabilidad de acertar 3 problemas

es 0.2971. Este tipo de distribuciones, cuyas probabilidades derivan

directamente de los datos de observación, se conocen como

distribuciones empíricas de probabilidad.

Page 30: APROXIMACIÓN A LA TEORÍA DE LA PROBABILIDAD · 2020. 4. 6. · 2 La teoría de la probabilidad, cuyo estudio aquí abordamos, nos servirá de puente entre lo observado en la muestra

29

f(x) ' P(X'x) (7.1)

P(X'0) ' P(MMM) ' P(M)(P(M)(P(M) ' 0.49(0.49(0.49 ' 0.1176

Otras veces carecemos de información poblacional, y en consecuencia,

hemos de operar con un modelo idealizado donde recurriremos a distintos

procedimientos matemáticos para determinar probabilidades. Se tratan

de distribuciones cuyos datos son producidos según un proceso

determinado. En estos casos, hemos de determinar la función matemática

que nos permite atribuir a un determinado valor una cierta

probabilidad. Esta función se denomina función de probabilidad.

De una manera formal, diremos que la función de probabilidad, denotada

como f(x), hace referencia al procedimiento matemático que permite

determinar la probabilidad de que la variable X adopte un determinado

valor x. Si designamos P(X=x) a la probabilidad de que X valga x:

Ejemplo 7.3.- Supongamos que definimos la variable aleatoria X="número

de hijos varones en familias compuestas por tres hijos". Determinar las

probabilidades asignadas a cada uno de los valores de la variable

aleatoria X.

SOL:

Hemos de calcular la función de probabilidad para los diferentes

valores de esta variable. En una familia de tres hijos podemos

encontrarnos con 0, 1, 2 o 3 varones. Si suponemos 0.51 la probabilidad

de nacer varón tendremos los siguientes casos posibles (Designemos

Mujer:M y Varón:V):

Probabilidad de tener 0 hijos varones. Equivale a la probabilidad de

tener 3 mujeres:

Probabilidad de tener 1 hijo varón. Nos conformamos con cualquiera de

los tres sucesos siguientes: VMM, MVM o bien MMV. La probabilidad de

cada uno de ellos es:

Page 31: APROXIMACIÓN A LA TEORÍA DE LA PROBABILIDAD · 2020. 4. 6. · 2 La teoría de la probabilidad, cuyo estudio aquí abordamos, nos servirá de puente entre lo observado en la muestra

30

P(VMM) ' 0.51(0.49(0.49 ' 0.1225P(MVM) ' 0.49(0.51(0.49 ' 0.1225P(MMV) ' 0.49(0.49(0.51 ' 0.1225

P(X'1) ' P(VMM)%P(MVM)%P(MMV) ' 0.1225(3 ' 0.3674

P(VVM) ' 0.51(0.51(0.49 ' 0.1274P(VMV) ' 0.51(0.49(0.51 ' 0.1274P(MVV) ' 0.49(0.51(0.51 ' 0.1274

P(X'2) ' P(VVM)%P(VMV)%P(MVV) ' 0.1274(3 ' 0.3823

P(X'3) ' P(VVV) ' P(V)(P(V)(P(V) ' 0.51(0.51(0.51 ' 0.1327

Por tanto, la probabilidad de tener 1 hijo varón será:

Probabilidad de tener 2 hijos varones. Igual que anteriormente, nos

conformamos con cualquiera de los tres sucesos siguientes: VVM, VMV o

bien MVV. Así pues:

Luego la probabilidad de tener 2 hijos varones:

Probabilidad de tener 3 hijos varones:

Por tanto, la distribución de probabilidad de la variable "número de

hijos varones en familias con 3 hijos" será:

X P(X=x)

)))))))))))))))))))))

0 ........ 0.1176

1 ........ 0.3674

2 ........ 0.3823

3 ........ 0.1327

))))))))))))))))))))

Tabla 7.4

Page 32: APROXIMACIÓN A LA TEORÍA DE LA PROBABILIDAD · 2020. 4. 6. · 2 La teoría de la probabilidad, cuyo estudio aquí abordamos, nos servirá de puente entre lo observado en la muestra

31

0 1 2 3

0

0,05

0,1

0,15

0,2

0,25

0,3

0,35

0,4

Figura 7.1

Obsérvese que las probabilidades no se ofrecen directamente de los

datos de observación sino que han sido deducidas por procedimientos

matemáticos -función de probabilidad-. Normalmente en los censos no se

ofrece toda la casuística del numero de hijos varones o mujeres para

distintos tamaños de familia.

7.4.1.- Representación gráfica de la distribución de probabilidad

La forma gráfica de representar la distribuciones de probabilidad de

una variable aleatoria discreta es equivalente a su homónima a nivel

muestral. Recurriremos igualmente al diagrama de barras. En el eje de

las abscisas se representan los valores de la variable aleatoria y en

el eje de las ordenadas las probabilidades.

Ejemplo 7.4.- Representar gráficamente la distribución de probabilidad

del ejemplo 7.3.

SOL:

Page 33: APROXIMACIÓN A LA TEORÍA DE LA PROBABILIDAD · 2020. 4. 6. · 2 La teoría de la probabilidad, cuyo estudio aquí abordamos, nos servirá de puente entre lo observado en la muestra

32

F(xi) ' P(X#x

i) (7.2)

F(xa) ' P(X#x

a) ' j

xi#x

a

P(X'xi)

(7.3)

(0) ' f(0) ' 0.1176(1) ' f(0) % f(1) ' 0.1176 % 0.3674 ' 0.485(2) ' f(0) % f(1) % f(2) ' 0.1176 % 0.3674 % 0.3823 ' 0.8673(3) ' f(0) % f(1) % f(2) % f(3) ' 0.1176 % 0.3674 % 0.3823 % 0.1327 '

7.5.- Función de distribución

De la misma manera que en la estadística descriptiva se utilizaba el

diagrama de porcentajes acumulados para describir una variable

discreta, recurriremos en este caso a un concepto equivalente para

caracterizar el comportamiento de una variable aleatoria discreta.

Procederemos aquí, a determinar la función de distribución (también

denominada función de distribución acumulada o simplemente función de

probabilidad acumulada), que designaremos como F(x) y que se define en

cada punto xi, como la probabilidad de que la variable aleatoria X

adopte un valor menor o igual que xi. De una manera formal:

Obviamente, para calcular la función de distribución de un determinado

valor Xa tan sólo habremos de sumar las distintas probabilidades

correspondientes a ese valor y todos los anteriores. Esto es:

Ejemplo 7.5.- Determinar la función de distribución para los diferentes

valores de la variable del ejemplo 7.3.

SOL:

Calculemos en primer lugar las distintas probabilidades acumuladas

asociadas a cada uno de los valores de la variable "número de hijos".

Así pues:

Page 34: APROXIMACIÓN A LA TEORÍA DE LA PROBABILIDAD · 2020. 4. 6. · 2 La teoría de la probabilidad, cuyo estudio aquí abordamos, nos servirá de puente entre lo observado en la muestra

33

X F(x)

)))))))))))))))))))))

0 ........ 0.1176

1 ........ 0.4840

2 ........ 0.8673

3 ........ 1

))))))))))))))))))))

7.5.1.- Representación gráfica de la función de distribución

Es un gráfico equivalente al polígono de frecuencias (o porcentajes)

acumulados tal como se estudió en los temas de Estadística descriptiva.

Sobre el eje de las abscisas se sitúan los valores de la variable, y

sobre el de las ordenadas, las distintas probabilidades acumuladas.

Ejemplo 7.6.- Representar el diagrama de probabilidades acumuladas del

ejemplo 7.3:

T +)))))))Q * * * * * +)))))))- * * * * * * * * * +)))))))- * * * * * * * * /)))))))- * * .)))))))))))))))))))))))))))))))))))Q 0 1 2 3

Figura 7.2

Page 35: APROXIMACIÓN A LA TEORÍA DE LA PROBABILIDAD · 2020. 4. 6. · 2 La teoría de la probabilidad, cuyo estudio aquí abordamos, nos servirá de puente entre lo observado en la muestra

34

‾X '

jN

i'1

fiXi

N

‾X ' jN

i'1

fi

NXi

µ ' E(X) ' jN

i'1

piXi

(7.4)

7.6.- Esperanza matemática de una variable aleatoria discreta

La esperanza matemática (también, denominada valor esperado o media

teórica) de una variable aleatoria discreta equivale a lo que en

Estadística descriptiva denominábamos como media o valor medio de una

distribución. Entonces se trataba de una medida de tendencia central

útil para describir una determinada muestra, y ahora, es igualmente una

media de tendencia central orientada a describir el comportamiento de

una determinada variable en la generalidad de los casos, o lo que es

lo mismo, en la población. En consecuencia, su formulación matemática

será equivalente. Como se recuerda, para una muestra el valor de la

media tenía por valor:

Se observa que esta expresión puede ser reescrita en los siguientes

términos:

donde hace referencia a las frecuencias relativas asociadas afi

N

cada uno de los valores de la variable X. Si estamos operando en la

generalidad de los casos, estos valores -frecuencias relativas en la

población- nos indican precisamente, las probabilidades

correspondientes a los distintos valores de X. En este caso, el valor

obtenido será a la media poblacional (µ), o bien, la esperanza

matemática de la variable aleatoria X:

Page 36: APROXIMACIÓN A LA TEORÍA DE LA PROBABILIDAD · 2020. 4. 6. · 2 La teoría de la probabilidad, cuyo estudio aquí abordamos, nos servirá de puente entre lo observado en la muestra

35

µ ' E(X) ' jN

i'1

piXi' 1.5301

Ejemplo 7.7.- Calcular la esperanza matemática del ejemplo 7.3.

SOL:

Configuremos la siguiente tabla:

Xi pi piXi

))))))))))))))))))))))))))))Q

0 ........ 0.1176 0

1 ........ 0.3674 0.3674

2 ........ 0.3823 0.7646

3 ........ 0.1327 0.3981

))))))))))))))))))))))))))))Q

1.5301

Aplicando (7.4):

Por término medio, el número de hijos varones que cabe esperar en

familias de 3 hijos es 1.5301.

El término "Esperanza matemática" (o también, "valor esperado") deriva

de los juegos de azar, donde surgió. Se quiere expresar con este

término las expectativas que se tienen a la larga, en términos de

ganancias o pérdidas.

En el siguiente ejemplo ilustramos una aplicación en el juego.

Ejemplo 7.8.- En la ruleta de la mala suerte cada boleto cuesta 100

pesetas. Si se gana recibe el jugador 500 pesetas, y en caso contrario,

nada. Sabiendo que tiene una probabilidad de ganar de 0.1, determinar

cual es su esperanza matemática.

SOL:

Cuando pierde, pierde las 100 pesetas invertidas (gana -100), y

cuando gana, gana la diferencia entre los invertido y lo conseguido

(500-100=400). Así pues, la distribución de probabilidad será:

Page 37: APROXIMACIÓN A LA TEORÍA DE LA PROBABILIDAD · 2020. 4. 6. · 2 La teoría de la probabilidad, cuyo estudio aquí abordamos, nos servirá de puente entre lo observado en la muestra

36

E(X) ' jN

i'1

piXi' 0.9((&100)%0.1(400 ' &50

s 2 '

jN

i'1

fiXi& ‾X

2

N

(7.5)

s 2 ' jN

i'1

fi

NXi& ‾X

2

Xi pi

)))))))))))))))))))))

-100 ....... 0.9

400 ....... 0.1

))))))))))))))))))))

Y su valor esperado:

Puede ocurrir que si juega una única vez gane o incluso gane en unas

pocas jugadas, pero con toda seguridad, si juega muchas veces perderá.

En el límite, perderá 50 pesetas multiplicado por el numero de jugadas.

Esto es lo que sucede con bingos, tragaperras .. etc; si se juega

alguna vez, a lo mejor se gana, pero si se repite mucho, al final

siempre se pierde. Si se quiere ganar dinero con la lotería lo mejor

es montar una.

7.7.- Varianza de una variable aleatoria discreta

Tiene el mismo significado que el concepto de varianza utilizado en

Estadística descriptiva. Entonces nos indicaba el grado de dispersión

de los datos de una determinada muestra alrededor de su media, y ahora,

hace referencia al grado de dispersión de los valores que adopta una

determinada variable aleatoria en torno a su propia media -la media

poblacional-. Como se recuerda, la varianza de una muestra tiene por

expresión:

Lo que podemos reescribir de la siguiente forma:

Si operamos en la generalidad de los casos, entonces, fi/N se entiende

Page 38: APROXIMACIÓN A LA TEORÍA DE LA PROBABILIDAD · 2020. 4. 6. · 2 La teoría de la probabilidad, cuyo estudio aquí abordamos, nos servirá de puente entre lo observado en la muestra

37

σ2 ' jN

i'1

piXi&µ 2 (7.6)

s 2 '

jN

i'1

X 2fi

N& ‾X

2

σ2 ' jN

i'1

piX 2 & µ2 (7.7)

como una probabilidad (frecuencia relativa poblacional). Por otro lado,

la media será ahora la media poblacional µ. Si designamos la varianza

poblacional como σ2:

Puede utilizarse una expresión más simplificada. De la misma manera que

en el caso de la varianza de la muestra, una fórmula más sencilla que

(7.5) era:

Igualmente, ahora:

7.8.- Modelos de distribución discreta de probabilidad

Como hemos indicado, el concepto de variable aleatoria hace referencia

al comportamiento de una determinada variable a nivel poblacional.

También hemos dicho que toda variable aleatoria muestra el

comportamiento en la generalidad de los casos. Pero, a este respecto,

como ya se ha mencionado anteriormente, es preciso distinguir las

distribuciones empíricas cuyos datos corresponden a observaciones

reales, constatadas (estaturas, coeficientes intelectuales, opciones

políticas de una población...etc) de los modelos de distribución, donde

los datos son generados según ciertas reglas. Los datos, en este caso,

son consecuencia del supuesto establecido. Decimos modelos porque hacen

referencia a distribuciones ideales, o si se quiere a distribuciones

que obedecen a una cierta manera de conceptualizar la realidad. Así,

tiene sentido preguntarnos por la distribución teórica de las

puntuaciones del test ZETA, compuesto por 20 items de verdadero o

falso, cuando se aplica a sujetos que no tienen conocimiento alguno de

dicho test. Y todo ello sin necesidad de que exista ninguna población

empírica al respecto.

Page 39: APROXIMACIÓN A LA TEORÍA DE LA PROBABILIDAD · 2020. 4. 6. · 2 La teoría de la probabilidad, cuyo estudio aquí abordamos, nos servirá de puente entre lo observado en la muestra

38

En este apartado trataremos algunas de los modelos de distribución

aplicables a variables aleatorias discretas. Nos centraremos sólo en

las dos que estimamos más relevantes, y no profundizaremos demasiado

en ellos; tan sólo nos referiremos a ciertos aspectos de interés de

cara a la investigación en ciencias humanas. Los dos modelos en

cuestión son: la distribución binomial y la distribución multinomial.

7.8.1.- Distribución binomial

La distribución binomial se utiliza en situaciones susceptibles de

plantearse de forma dicotómica, como por ejemplo, sexo (varón, mujer),

calificación (aprobado, suspenso), respuesta a una terapia (curación,

no curación)...etc. Nos proporciona la base matemática para conocer el

comportamiento de lo que hemos denominado variables cualitativas de dos

categorías.

Hemos dicho "susceptibles de plantearse de forma dicotómica" con lo

cual no estamos estableciendo restricciones sobre la naturaleza de la

variable en cuestión; puede tratarse de una variable (en sus orígenes)

cualitativa de varias categorías e incluso cuantitativa. En el caso de

variables como el sexo no hay problemas; se toman tal como se

presentan. Otras variables, como la opción política, (supongamos:

derecha, centro e izquierda), han de reconvertirse en dicotómicas (por

ejemplo, derechas y no derechas, incorporando en esta categoría

izquierda y centro). Otras, como la inteligencia, puede dicotomizarse,

marcando un valor en el continuum de la variable, y estableciendo dos

grupos de valores (inteligentes y no inteligentes).

La variable que estudiamos en una distribución binomial expresa el

número de veces que se presenta un determinado acontecimiento, sabiendo

que en cada observación hay dos situaciones posibles (presencia o

ausencia del acontecimiento en cuestión). Esto nos obliga a poner el

acento en una de las categorías de la variable dicotómica. Por ejemplo,

si estamos operando con la variable sexo, nos preguntaremos por el

número de mujeres que se presentan en una serie de observaciones. Esto

implica valorar como 1 el acontecimiento "mujer" y como 0, el

acontecimiento "hombre". El valor de la variable binomial corresponde

a a la suma de todos los acontecimientos. Así, si de 8 observaciones

hay 6 mujeres y 2 hombres en la forma: M,M,M,V,M,M,V,M, y definimos la

variable X como el número de mujeres observadas, tendremos que:

X = 1 + 1 + 1 + 0 + 1 + 1 + 0 + 1 = 6

Se observa que el resultado es una variable cuantitativa, aunque en su

Page 40: APROXIMACIÓN A LA TEORÍA DE LA PROBABILIDAD · 2020. 4. 6. · 2 La teoría de la probabilidad, cuyo estudio aquí abordamos, nos servirá de puente entre lo observado en la muestra

39

f(x) 'n

xp xq n&x '

n!

x!(n&x)!p xq n&x (7.8)

base era dicotómica. En realidad es el número de veces que se presenta

algo. Es interesante hacerlo constatar porque en última instancia en

la naturaleza todo lo que hay es la suma de algo que bien se da o no

se da. Incluso las variables continuas lo son aparentemente, en el

límite de su resolución serán discretas: número de veces que se

presenta algo.

La distribución binomial, para su aplicación, exige la condición

fundamental que la probabilidad de ocurrencia del acontecimiento

estudiado se mantenga constante a lo largo de las pruebas, lo que

obliga a que éstas sean independientes entre sí. En la práctica la

distribución binomial se aplica bien cuando la población sobre la que

se realiza la extracción de elementos es infinita o bien cuando es

finita pero la extracción se realiza con reemplazamiento, con lo que

se garantiza la constancia en las probabilidades. No obstante, el

término infinito es relativo, y se acepta que es tal (no distorsiona

demasiado los resultados) cuando la población de donde se extrae la

muestra es por lo menos diez veces mayor que dicha muestra.

La probabilidad asociada a los distintos valores de una variable

binomial (su función de probabilidad) corresponde a la siguiente

expresión:

donde:

x: valor que adopta la variable aleatoria

n: número de pruebas realizadas

p: probabilidad de que en una prueba se de el suceso favorable

q: probabilidad de que en una prueba no se de el suceso favorable

De una manera menos formal, la ecuación anterior nos proporciona la

probabilidad de obtener x casos favorables de n observaciones sabiendo

que la probabilidad de que se de el suceso que nos interesa en una

observación es p.

Su deducción es relativamente sencilla. Supóngase que el suceso se da

x veces de n veces, de tal forma que las x primeras veces obtenemos tal

sucesos y el resto, (n-x) veces, no lo obtenemos. La probabilidad de

Page 41: APROXIMACIÓN A LA TEORÍA DE LA PROBABILIDAD · 2020. 4. 6. · 2 La teoría de la probabilidad, cuyo estudio aquí abordamos, nos servirá de puente entre lo observado en la muestra

40

P(X'x) ' p(p(p(p(q(q.....(q ' p xq n&x

Cnx

'n

x'

n!

n!(n&x)!

P(X'x) 'n!

x!(n&x)!p xq n&x

P(X'2) '3!

2!(3&2)!0.512(0.493&2 ' 0.3823

que tal cosa ocurra será:

Pero nos conformamos con obtener x veces dicho sucesos, sin importarnos

el orden. Entonces, las combinaciones posibles en las que se pueden

presentar x veces un determinado suceso entre un total de n

observaciones, es como se sabe:

Por tanto, la probabilidad de que obtengamos x sucesos de un total de

n observaciones; esto es, que se de cualquiera de las combinaciones

mencionadas será:

tal como se indicó en (7.8).

Ejemplo 7.9.- Tomando como referencia el ejemplo 7.3, determinar la

probabilidad de que de 3 nacimientos obtengamos 2 varones:

SOL:

Apliquemos (7.8):

Obsérvese que es el mismo resultado que obtuvimos en el ejemplo 7.3.

Entonces hubimos de calcular por separado los distintos sucesos donde

se encontraban 2 varones y 1 mujer, para sumarlos posteriormente.

Page 42: APROXIMACIÓN A LA TEORÍA DE LA PROBABILIDAD · 2020. 4. 6. · 2 La teoría de la probabilidad, cuyo estudio aquí abordamos, nos servirá de puente entre lo observado en la muestra

41

7.8.1.1.- Prueba binomial y toma de decisión estadística

En el capítulo anterior (ejemplo 6.10) utilizamos los mínimos

conocimientos adquiridos hasta entonces sobre teoría de probabilidad

para abordar un sencillo problema de investigación en el que debíamos

tomar la decisión sobre el aprendizaje de un sujeto en una determinada

materia. Ahora, con los bagajes que nos proporciona la distribución

binomial nos arriesgaremos a realizar investigaciones algo más

complejas.

Hemos de decir, no obstante, que será más adelante cuando se

desarrollarán in extenso los denominados contrastes de hipótesis. Por

el momento, nos limitamos a ofrecer algunas nociones que puede resultar

útiles en las tomas de decisiones en investigaciones psicológicas.

Como se recordará, cuando investigamos en psicología, nos preguntamos

por la incidencia de algo sobre un determinado aspecto de la conducta

(la droga X sobre la ansiedad, el método A sobre el aprendizaje, o la

terapia H sobre la depresión). El punto de partida siempre en la

ciencia (hay que ser lo más aséptico posible) para saber si ha ocurrido

algo en especial, es suponer que no ha ocurrido absolutamente nada, que

lo que ha sucedido se explica por el puro azar (la ansiedad del sujeto

permanece, en las lógicas fluctuaciones de un día para otro, igual que

siempre; el niño al que se le aplica el nuevo método de enseñanza sigue

sacando básicamente las mismas calificaciones (unos días mejor y otros

peor), y la depresión sigue más o menos como antes de la terapia). Y

desde esta hipótesis -lo observado no se debe a nada en particular,

sino simplemente al puro azar- se calcula la probabilidad de que suceda

lo observado. Si la probabilidad es relativamente grande (se toma por

convenio valores iguales o superiores a 0.05 y 0.01, según nuestro

grado de exigencia al respecto) suponemos que, efectivamente no ha

habido otra cosa que azar. En caso contrario, si la probabilidad de que

las cosas sucedan por azar es pequeña (inferior a 0.01 o 0.05)

concluiremos que ha habido algo diferente que el azar. Ese "algo

diferente" es, si se ha llevado correctamente el trabajo, lo que hemos

introducido en nuestra investigación y antes no estaba (la droga X, el

método A, o la terapia H).

A efectos ilustrativos, y con la intención de introducir la lector

(brevemente) en las pruebas de decisión estadística, tomaremos como

referencia un ejemplo extraído de los juegos de azar. Supongamos que

tenemos en nuestras manos una moneda, sobre la que efectuamos 10

lanzamientos) y deseamos saber si está o no sesgada. Está claro que

desde el supuesto que la moneda esté perfectamente equilibrada

esperaremos obtener un 50% de caras, o lo que es lo mismo, de 10

Page 43: APROXIMACIÓN A LA TEORÍA DE LA PROBABILIDAD · 2020. 4. 6. · 2 La teoría de la probabilidad, cuyo estudio aquí abordamos, nos servirá de puente entre lo observado en la muestra

42

lanzamientos esperaremos lograr 5 caras. Pero es igualmente evidente

que no necesariamente tendremos que conseguir exactamente 5 caras. El

azar puede dar lugar a ciertas fluctuaciones. No nos sorprenderá, por

ejemplo, si obtenemos 6 o 4 caras, y aún con estos resultados

seguiremos pensando que nuestra moneda está equilibrada. Sin embargo,

si obtenemos 10 caras o bien 0 caras, empezaremos a pensar que quizás

la moneda no esté tan equilibrada como pensábamos. La razón estriba en

que consideramos que la obtención de 6 o 4 caras es bastante probable

en una moneda perfecta, mientras que obtener 10 o 0 caras ya es menos

probable en dicha moneda.

En términos algo más formales, al lanzar la moneda, podemos plantear

dos posibles hipótesis: a) la moneda está bien equilibrada o b) la

moneda no está equilibrada. La primera hipótesis, expresada como H0,

se denomina hipótesis nula y viene a decir que obtendremos 5 caras de

10 o bien un valor próximo que sea relativamente fácil de ser obtenido

por azar (como 4 o 6 caras). Se dice "hipótesis nula" en el sentido de

que no existe diferencia (diferencia nula) entre el valor de caras

obtenido y el valor 5 (sólo como fluctuación del azar). La hipótesis

contraria, expresada como H1, se denomina Hipótesis alternativa, y

viene a indicar que el valor obtenido no es probable que sea obtenido

por azar (por ejemplo, 10 caras).

Veamos, entonces, que ocurre en términos de probabilidad para cada uno

de los sucesos posibles al lanzar la moneda 10 veces.

Page 44: APROXIMACIÓN A LA TEORÍA DE LA PROBABILIDAD · 2020. 4. 6. · 2 La teoría de la probabilidad, cuyo estudio aquí abordamos, nos servirá de puente entre lo observado en la muestra

43

P(X'0) '10!

0!10!0.500(0.5010 ' 0.0010

P(X'1) '10!

1!9!0.501(0.509 ' 0.0098

P(X'2) '10!

2!8!0.502(0.508 ' 0.0439

P(X'3) '10!

3!7!0.503(0.507 ' 0.1172

P(X'4) '10!

4!6!0.504(0.506 ' 0.2051

P(X'5) '10!

5!5!0.505(0.505 ' 0.2461

P(X'6) '10!

6!4!0.506(0.504 ' 0.2051

P(X'7) '10!

7!3!0.507(0.503 ' 0.1172

P(X'8) '10!

8!2!0.508(0.502 ' 0.0439

P(X'9) '10!

9!1!0.509(0.501 ' 0.0098

P(X'10) '10!

10!0!0.5010(0.500 ' 0.001

En la siguiente figura representamos las probabilidades asociadas a

los distintos valores de caras posibles:

Page 45: APROXIMACIÓN A LA TEORÍA DE LA PROBABILIDAD · 2020. 4. 6. · 2 La teoría de la probabilidad, cuyo estudio aquí abordamos, nos servirá de puente entre lo observado en la muestra

44

0 1 2 3 4 5 6 7 8 9 10

0

0,05

0,1

0,15

0,2

0,25

Figura 7.3

En base a estos resultados hemos de decidir a partir de qué valor

consideraremos que la moneda no es correcta. En otros términos, hemos

de marcar la línea divisoria que nos permita decidir cuando aceptar la

hipótesis de que la moneda está bien equilibrada y cuando no. En este

sentido, podremos, por ejemplo, definir sobre este gráfico dos zonas

o regiones. Una primera región abarca los casos 2,3,4,5,6,7 y 8 caras.

Este conjunto comprende una probabilidad de 0.9784 cuando la moneda

está bien equilibrada. Una segunda región comprende el resto de casos,

esto es: 0,1,9 y 10 caras, cuya probabilidad total es 0.0216. Podemos,

entonces, en base a estos datos concluir que si realizásemos repetidos

experimentos de lanzar la moneda 10 veces obtendríamos de 2 a 8 caras

el 97.84% de las veces y 0,1,9 o 10 caras solamente el 2.16% de las

veces.

Supongamos, ahora, que tenemos una moneda en nuestras manos y no

sabemos si está bien o mal equilibrada. La lanzamos 10 veces y

obtenemos 9 caras. ¿Concluiremos que está bien o mal equilibrada?. Por

lo que acabamos de ver, desde el supuesto de que la moneda está

correcta solamente el 2.16% de las veces obtendremos alguno de los

valores 0,1,9 o 10. De cada 100 veces que realizásemos el experimento

de efectuar 10 lanzamientos de la moneda y tomásemos tal decisión

acertaríamos precisamente poco más de 2 veces (aquellas que la moneda

esté bien equilibrada). ¡Y fallaríamos las restantes!. Nos resulta más

rentable operar de manera contraria; si lanzamos 10 veces la moneda y

obtenemos cualquiera de estos valores indicados concluiremos que la

Page 46: APROXIMACIÓN A LA TEORÍA DE LA PROBABILIDAD · 2020. 4. 6. · 2 La teoría de la probabilidad, cuyo estudio aquí abordamos, nos servirá de puente entre lo observado en la muestra

45

0 1 2 3 4 5 6 7 8 9 10

0

0,05

0,1

0,15

0,2

0,25

Figura 7.4

moneda está mal equilibrada. En este caso nos equivocaremos

precisamente las 2.16% de las veces que la moneda esté bien, pero

parece razonable que adoptemos esta decisión ya que el riesgo implicado

es considerablemente menor que si concluyésemos de forma contraria.

En consecuencia, si llegamos al acuerdo de considerar que una

probabilidad de 0.0216 es una probabilidad lo suficientemente pequeña,

aquellos valores obtenido que estén dentro de este ámbito serán

rechazado como debidos al azar. Y por el contrario, los que estén en

el ámbito de la probabilidad restante (0.9784), serán aceptados como

consecuencia del azar. De esta forma, tal como se observa en la figura

7.4, quedan delimitadas ambas zonas: la zona de aceptación de que la

moneda está bien equilibrada (hipótesis nula), y la zona de rechazo de

tal supuesto.

Esta misma lógica que hemos utilizado con la moneda puede ser

generalizado a otros contextos, de tal forma que acontecimientos cuya

probabilidades (por azar) fueran de una magnitud pequeña (normalmente

del 0.05 o 0.01), serán considerados, en caso de obtenerse, que su

ocurrencia no ha sido debida azar, sino por cualquier causa (que

habremos de determinar en función del control de variables habidas).

En caso contrario, cuando la probabilidad de la ocurrencia por azar sea

grande será aceptado el supuesto de azar, y si estamos realizando

alguna investigación concluiremos que no ha sucedido nada distinto al

Page 47: APROXIMACIÓN A LA TEORÍA DE LA PROBABILIDAD · 2020. 4. 6. · 2 La teoría de la probabilidad, cuyo estudio aquí abordamos, nos servirá de puente entre lo observado en la muestra

46

azar, así si estudiásemos el efecto de una droga sobre la conducta

concluiríamos que ésta no ha sido efectiva.

A continuación ofrecemos algunos ejemplos ilustrativos de lo que

estamos comentando:

Ejemplo 7.10.- Una determinada empresa de detergentes desea

comercializar uno de los dos productos siguientes: Pulkrín o

Resplandor. A este respecto, elige una muestra de 10 mujeres y se les

ofrece ambos productos para ser usados durante una semana. Al cabo de

este tiempo se les pregunta qué producto prefieren. Las respuestas son:

+))))))))))))))))))))))))))))))))))))))))))))))))))))))))),

* Resplandor, Resplandor, Resplandor, Pulkrín, Pulkrín *

* Resplandor, Resplandor, Resplandor, Pulkrín, Resplandor *

.)))))))))))))))))))))))))))))))))))))))))))))))))))))))))-

¿Cual de los dos productos es el preferido por las amas de casa?

SOL:

Este problema es equivalente al de las monedas. Si no hay una

preferencia por ningún producto cabe esperar que las respuestas estén

repartidas equitativamente. Por tanto, en ausencia de preferencia las

probabilidades para elegir uno u otro producto serán 0.5. Se trata,

igual que antes, de delimitar dos zonas: la zona de aceptación de la

H0 y la de rechazo de ésta. Supongamos que tomamos como referencia las

regiones de aceptación y rechazo establecidas en el caso citado de las

monedas; estos es, aceptación de 2 a 8 caras y rechazo, de 8 para

arriba y de 2 para abajo. Si aquí definimos el número de veces que es

elegida Resplandor como la variable aleatoria a tratar, (podíamos haber

elegido igualmente Plukrín) comprobaremos que han sido 7 veces. Como

en el caso de la moneda, 7 está dentro de la zona de aceptación; en

consecuencia suponemos que no hay preferencia por ninguno de ambos

productos.

Podíamos haber resuelto igualmente este problema calculando la región,

en términos de probabilidad, que queda por encima de 7 elecciones de

Resplandor y por debajo de 3 elecciones de este producto. De esta forma

determinamos la probabilidad de que por azar -supuesta la misma

preferencia por ambos productos- obtengamos los valores 0,1,2,8,9 o 10.

Sabemos por el ejemplo de las monedas que P(X=9)=0.0098 y

Page 48: APROXIMACIÓN A LA TEORÍA DE LA PROBABILIDAD · 2020. 4. 6. · 2 La teoría de la probabilidad, cuyo estudio aquí abordamos, nos servirá de puente entre lo observado en la muestra

47

P(X'8) '10!

8!2!0.58(0.52 ' 0.0439

P(X>7) ' P(X'8) % P(X'9) % P(X'10) ' 0.0439 % 0.0098 % 0.001 ' 0.0547

P(X<3) ' 0.0547

P(X>7) o P(X<3) ' 0.0547(2 ' 0.1094

P(X=10)=0.001. Nos falta calcular P(X=8):

Entonces, la probabilidad de obtener por encima de 7 elecciones de

Resplandor será:

Como la distribución de probabilidad para estos valores es simétrica,

la probabilidad de obtener por debajo de 3 será la misma:

Y en total:

Esto es un 10.94% de las veces, desde el supuesto que no hay ningún

tipo de preferencia por alguna de estas marcas, se obtendrá valores por

encima de 7 o por debajo de 3. Si convenimos por ejemplo, en no aceptar

un riesgo mayor de 0.05 concluiremos que este riesgo del 0.1094 es

demasiado grande y por tanto que no hay ninguna preferencia por alguno

de estos productos.

En el ejemplo anterior hemos realizado una prueba bilateral o de dos

colas en el sentido de que rechazábamos la hipótesis de igualdad en las

preferencias tanto para valores en un extremo como en otro. Resplandor

podía ser mejor (estar en el extremo de la derecha) o podía ser peor

(estar en el extremo de la izquierda). Pero hay ciertas circunstancia

en lo que interesa contrastar no es si algo es diferente (mejor o peor)

sino exclusivamente si es mejor o bien si es peor. Este sería el caso,

si por ejemplo, el producto habitual de las amas de casa fuera Pulkrín

y la empresa sólo comercializase Resplandor en caso de que éste sea

manifiestamente mejor. Aquí la intención es conocer exclusivamente si

es mejor. En este supuesto sólo habríamos de calcular la probabilidad

de que hubiera 8 o más elecciones de Resplandor y comprobar si está por

debajo de un valor límite prefijado. Veamos un ejemplo.

Ejemplo 7.11.- Un determinado sujeto afirma poseer dotes telepáticas.

Page 49: APROXIMACIÓN A LA TEORÍA DE LA PROBABILIDAD · 2020. 4. 6. · 2 La teoría de la probabilidad, cuyo estudio aquí abordamos, nos servirá de puente entre lo observado en la muestra

48

P(X$4) ' P(4) % P(5) % P(6)

P(X'4) '6!

4!2!

1

40

439

40

2

' 5.57(10&6

P(X'5) '6!

5!1!

1

40

539

40

1

' 5.71(10&8

P(X'6) '6!

6!0!

1

40

639

40

0

' 2.44(10&10

P(X$4)'P(4)%P(5)%P(6)'5.57(10&6%5.71(10&8%2.44(10&10'5.62(10&6

Para ello, se realiza un experimento con las cartas de la baraja

española, donde debe intentar adivinar la carta que extrae (con

reemplazamiento) un observador situado en un cuarto contiguo. De un

total de 6 cartas adivina 4. ¿Confirman estos datos la capacidad

telepática del sujeto?

SOL:

Se trata en este caso de una prueba unilateral. Consideraremos que

el sujeto está dotado parapsicológicamente cuando supera una cierta

cantidad de aciertos (no interesa aquí, cuando obtiene valores

inferiores a uno específico, es decir, cuando no presenta ninguna

capacidad especial). Hemos de definir en términos de probabilidad el

espacio superior a partir de 4 aciertos. Este espacio muestra la

probabilidad de ocurrencia de 4 o más aciertos.

La probabilidad de acertar por puro azar cada ensayo, esto es, cada

carta es 1/40, y en consecuencia, la de fallar 39/40. Así pues, la

probabilidades de acertar 4 o más cartas de un total de 6 será:

Calculemos sus distintos valores:

Por tanto:

Sólo 6 (aproximadamente) de cada 1000000 veces acertaría por puro azar.

Si suponemos que la casualidad no ha dado lugar de que sea ésta

precisamente, entonces afirmaremos (con un riesgo de 0.000006 de

Page 50: APROXIMACIÓN A LA TEORÍA DE LA PROBABILIDAD · 2020. 4. 6. · 2 La teoría de la probabilidad, cuyo estudio aquí abordamos, nos servirá de puente entre lo observado en la muestra

49

P 'N!

n1!n

2!...n

k!p

n1

1 pn2

2 ...pnk

k (7.9)

pn1

1 pn2

2 ...pnk

k

probabilidad de equivocarnos) que ha habido algo más que azar. Ahora

sólo hace falta descartar la hipótesis de fraude y que el experimento

haya sido correctamente llevado para concluir que ha existido realmente

telepatía.

7.8.2.- Distribución multinomial

Puede considerarse la distribución multinomial como una extensión de

la distribución binomial. Si entonces trabajábamos con variables

dicotómicas, ahora lo hacemos con variables que presentan más de dos

categorías, como puede ser el estado civil (si entendemos las

siguientes categorías: soltero, casado, separado o divorciado y viudo),

la opción política (si se consideran los siguientes partidos:

conservador, moderado y progresista) .. etc.

No profundizaremos en la distribución multinomial de la misma manera

que lo hemos hecho con la binomial. Simplemente diremos que constituyen

la el punto de referencia para el desarrollo de la prueba de χ2 (léase

Chi-cuadrado), que es la prueba utilizada para el contraste de

hipótesis para variables cualitativas, y que se tratará más adelante

(en Amón (1980), págs:374-383 puede verse la relación entre la

distribución multinomial y χ2). Por el momento, nos limitaremos a

desarrollar el cálculo de probabilidades asociados a tales

distribuciones.

El planteamiento es muy parecido al expuesto para la distribución

binomial. Supongamos N pruebas independientes donde se presentan los

sucesos A1, A2,..., Ak cuyas probabilidades asociadas son p1, p2,...,

pk, entonces, la probabilidad de que el suceso A1 se presente n1 veces,

el suceso A2, n2 veces y el suceso Ak, nk veces será:

siendo:

Page 51: APROXIMACIÓN A LA TEORÍA DE LA PROBABILIDAD · 2020. 4. 6. · 2 La teoría de la probabilidad, cuyo estudio aquí abordamos, nos servirá de puente entre lo observado en la muestra

48

N!

n1!n

2!...n

k!

P 'N!

n1!n

2!...n

k!p

n1

1 pn2

2 ...pnk

k '3!

1!1!1!0.210.310.51 ' 0.18

la probabilidad de que se presenten tales sucesos en un orden

determinado. Y siendo:

el número de combinaciones en las que pueden presentarse los sucesos

A1, A2,..., Ak el número de veces n1, n2,..., nk.

Ejemplo 7.12.- En una determinada comunidad el 20% son progresistas,

el 30% son conservadores y el 50% son moderados. Esto supuesto,

determinar la probabilidad de que de un grupo de 3 personas existan 1

moderado, 1 progresista y 1 conservador:

SOL:

Apliquemos (7.9):

Page 52: APROXIMACIÓN A LA TEORÍA DE LA PROBABILIDAD · 2020. 4. 6. · 2 La teoría de la probabilidad, cuyo estudio aquí abordamos, nos servirá de puente entre lo observado en la muestra

49

Tema VIII. Variables aleatorias y modelos de probabilidad (II): El caso

continuo.

))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))Q

8.1.- Introducción

8.2.- Variable aleatoria continua

8.3.- Distribución de una variable aleatoria continua

8.4.- Función de densidad de probabilidad

8.5.- Media de una variable aleatoria continua

8.6.- Varianza de una variable aleatoria continua

8.7.- La distribución normal de probabilidad

8.7.1.- Cálculo de probabilidades en distribuciones normales

8.7.2.- Manejo de la tabla normal tipificada

8.7.3.- Ley normal y distribuciones afines

8.7.3.1.- Distribución muestral de medias

8.7.3.2.- Distribución muestral de proporciones

8.7.3.3.- Aplicaciones en la teoría de la decisión estadística

))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))Q

8.1.- Introducción

En este capítulo seguiremos la misma pauta marcada en el capítulo

anterior. Aquí haremos mención del comportamiento a nivel poblacional

de las variables aleatorias continuas. Mostraremos las distribuciones

de probabilidad asociadas a tales variables, e igualmente

determinaremos los parámetros que ofrecen una información sintética de

las mismas: media y varianza. Por otro lado, dedicaremos un apartado

especial a la distribución más característica de las variables

aleatorias continuas: la ley normal. Por último, tomaremos el modelo

normal como referente de otras distribuciones -distribuciones

muestrales- de gran utilidad en la teoría de la estimación y decisión

estadística.

8.2.- Variable aleatoria continua

El concepto de variable aleatoria continua es prácticamente el mismo

que el concepto de variable continua estudiada para una muestra. Tan

sólo que dicho concepto se aplica aquí a la generalidad de los casos

-población-, y como se ha indicado, hace referencia a toda variable

susceptible (en teoría) de adoptar infinitos valores entre dos

cualesquiera. Ejemplos de variables aleatorias continuas son el peso,

Page 53: APROXIMACIÓN A LA TEORÍA DE LA PROBABILIDAD · 2020. 4. 6. · 2 La teoría de la probabilidad, cuyo estudio aquí abordamos, nos servirá de puente entre lo observado en la muestra

50

la estatura, la inteligencia, el tiempo en ejecutar una tarea ... etc.

Tomemos, a efectos ilustrativos, la estatura. Entre dos valores,

digamos 170 cms y 171 cms podremos encontrar tantos como deseemos.

Supongamos que afinamos más y nos situamos entre dos valores

extraordinariamente próximos como 170.13 y 170.14. Aquí también

podremos encontrar tantos valores como deseemos. Tan sólo hemos de

operar con una precisión infinita (infinitos decimales).

Obsérvese que hemos dicho "en teoría" ya que en la práctica está claro

que no es posible una precisión infinita (entre otras razones

necesitaríamos infinito tiempo). Por otro lado, el mismo instrumento

de medida nos marcará el límite en la precisión. Así, si un metro tiene

la escala en milímetros, esa será nuestra precisión; si la inteligencia

la medimos a través de una determinada prueba, el número de cuestiones

marcará igualmente el límite de medida. En definitiva, en la práctica

cualquier variable continua, por limitaciones del instrumento de

medida, resultará una variable discreta.

8.3.-Distribución de una variable aleatoria continua

En el capítulo 2 se expusieron las distribuciones de frecuencias para

variables continuas. Como se recuerda, por razones de eficacia en la

descripción de los datos, se procedía a agrupar los mismos en

intervalos de clase y se asignaban las frecuencias (o frecuencias

relativas) a tales intervalos. De esta forma, si retomamos el ejemplo

del epígrafe 2.2.3 observaremos que su distribución de frecuencias

relativas era:

X f p F P

))))))))))))))))))))))))))))))))

10-14 2 0.04 2 0.04

15-19 8 0.16 10 0.20

20-24 6 0.12 16 0.32

25-29 12 0.24 28 0.56

30-34 7 0.14 35 0.70

35-39 6 0.12 41 0.82

40-44 4 0.08 45 0.90

45-49 3 0.06 48 0.96

50-54 1 0.01 49 0.98

55-59 1 0.01 50 1

))))))))))))))))))))))))))))))))

Tabla 8.1

Page 54: APROXIMACIÓN A LA TEORÍA DE LA PROBABILIDAD · 2020. 4. 6. · 2 La teoría de la probabilidad, cuyo estudio aquí abordamos, nos servirá de puente entre lo observado en la muestra

51

Figura 8.1

Y su correspondiente histograma:

Supongamos, por un momento, que la distribución mencionada hace

referencia a toda una población. Asimilaremos frecuencia relativa y

probabilidad, y en este caso la probabilidad de encontrar un sujeto con

puntuaciones comprendidas entre 14.5 y 19.5 será 0.16. Y la

probabilidad de que se encuentre entre 24.5 y 34.5 será la suma de las

frecuencias relativas de ambos intervalos, esto es: 0.24+0.14=0.38.

El recurso del histograma nos puede resultar útil. Si la altura de cada

rectángulo representa la frecuencia relativa asociada a cada intervalo,

y al mismo tiempo, convenimos en asignar a cada base de dichos

rectángulos el valor de la unidad, entonces podremos considerar el área

como una medida de probabilidad. Esto es:

Area = base*altura = 1*probabilidad = probabilidad

(8.1)

La suma de todas las probabilidades asociadas a los distintos

rectángulos valdrá 1 (100% de los sujetos). En consecuencia, podremos

determinar probabilidades calculando las áreas correspondientes a los

diferentes rectángulos. Este aspecto no tiene sentido para

distribuciones empíricas pero nos será especialmente útil cuando

operemos con modelos de probabilidad donde conocemos el proceso que

genera probabilidades pero desconocemos los valores empíricos de la

distribución.

Supongamos que aumentamos el número de observaciones del mencionado

ejemplo. Como la variable es continua podremos reducir el tamaño de los

intervalos, y por tanto, aumentar el número de los mismos. Tendremos,

Page 55: APROXIMACIÓN A LA TEORÍA DE LA PROBABILIDAD · 2020. 4. 6. · 2 La teoría de la probabilidad, cuyo estudio aquí abordamos, nos servirá de puente entre lo observado en la muestra

52

Figura 8.2

Figura 8.3

ahora, un histograma de las siguientes características:

El procedimiento de cálculo de la probabilidad entre distintos valores

de la variable será la misma que antes: el área comprendida entre

dichos valores.

Supongamos ahora que trabajamos con todos los valores posibles de la

variable en cuestión mientras intentamos mantener al máximo la

continuidad de la variable. Tendremos en este caso infinitos

rectángulos infinitamente pequeños cada uno de ellos. El resultado será

una curva suave donde ha desaparecido el contorno escalonado de las

figuras 8.1 y 8.2. La probabilidad de que un sujeto se encuentre entre

dos valores cualesquiera será igualmente el área entre dichos valores:

Page 56: APROXIMACIÓN A LA TEORÍA DE LA PROBABILIDAD · 2020. 4. 6. · 2 La teoría de la probabilidad, cuyo estudio aquí abordamos, nos servirá de puente entre lo observado en la muestra

53

Area total ' jn

i'1

f(xi)(x

i&x

i&1) (8.2)

Cómo calcular dicho área cuando disponemos del modelo de probabilidad

(pero no de datos concretos) será el objetivo del próximo apartado.

8.4.- Función de densidad de probabilidad

Digamos en primer lugar que cuando se trata de variables aleatorias

continuas no tiene sentido calcular la probabilidad para un valor

específico. Ya que tal valor en rigor ha de presentar una precisión

infinita será en consecuencia infinitamente pequeña la probabilidad

asociada a tal valor. Supongamos que nos preguntamos por la

probabilidad de encontrar un sujeto que mida 1.712345675432 metros. Es

evidente que será muy difícil encontrar sujetos que midan exactamente

esa cantidad. Y cuanto más aumentemos el número de decimales más

difícil lo tendremos. Cuando hablamos de la probabilidad de obtener un

sujeto, por ejemplo, de 1.70 metros (lo que nos parece más factible)

en realidad no nos referimos a 1.700000000000 metros, lo cual sería

igual de complicado que anteriormente. En realidad en este caso

queremos decir que estamos operando con una precisión de centímetros,

y que en consecuencia estamos dispuestos a admitir hasta un error de

1 centímetro. De esta forma, para sujetos de 1.70 metros aceptamos

personas entre 1.695 y 1.705 metros. Operamos para un intervalo de 1

centímetro.

Volvamos a la figura 8.3. Supongamos que disponemos de un número de

rectángulos suficientemente grande. Consideraremos que el área total

de la suma de todos estos rectángulos será una aproximación aceptable

al área correspondiente a la curva. Si cada rectángulo tiene una base

de longitud (xi-xi-1) y una altura f(xi), entonces, la suma de todas la

áreas de los diferentes rectángulos será:

Para el caso límite de figura 8.4 (infinitos rectángulos infinitamente

pequeños) esta expresión queda transformada de la siguiente manera:

Page 57: APROXIMACIÓN A LA TEORÍA DE LA PROBABILIDAD · 2020. 4. 6. · 2 La teoría de la probabilidad, cuyo estudio aquí abordamos, nos servirá de puente entre lo observado en la muestra

54

Area total 'limn64

jn

i'1

f(xi)(x

i&x

i&1) ' m

4

&4f(x)dx (8.3)

Figura 8.4

P(x1# x # x

2) ' m

x2

x1

f(x)d(x) (8.4)

Se observa que las expresiones (8.2) y (8.3) son equivalentes. Hemos

sustituido el sumatorio por el símbolo integral , que es elj m

equivalente cuando operamos con funciones continuas. Igualmente hemos

sustituido el intervalo (xi-xi-1) por dx (léase diferencial de x) que es

precisamente ese intervalo cuando es infinitamente pequeño. Por otro

lado f(x) tiene el mismo sentido que anteriormente (ampliaremos este

concepto a continuación); esto es, hace referencia a la altura de cada

uno de estos infinitésismos rectángulos. Gráficamente:

Y de igual forma que anteriormente, si deseamos conocer la probabilidad

entre dos valores de la variable x, sea x1 y x2, tan sólo habremos de

determinar su área bajo la curva:

Page 58: APROXIMACIÓN A LA TEORÍA DE LA PROBABILIDAD · 2020. 4. 6. · 2 La teoría de la probabilidad, cuyo estudio aquí abordamos, nos servirá de puente entre lo observado en la muestra

55

F(b)&F(a)

b&a

lima6b

F(b)&F(a)

b&a

Para el cálculo de las áreas correspondientes a funciones continuas se

hace necesario el recurso del cálculo integral. No obstante, hay que

decir que para las variables aleatorias más comunes, que son con las

que operaremos aquí (ley Normal, F de Snedecor, t de Student y Chi

cuadrado) ya vienen las áreas convenientemente tabuladas, por lo que

en la práctica no habremos de utilizar integrales.

Conviene, como nota final, hacer algunas consideraciones en torno a la

expresión f(x) que completen lo anteriormente expuesto. Esta expresión

f(x) se denomina función de densidad de probabilidad, por lo que

explicaremos. No es una probabilidad, como acabamos de comprobar. La

hemos considerado como la altura de los supuestos infinitos rectángulos

susceptibles de dividirse un determinado recinto curvo. También, si

respetamos la continuidad de la función es la ordenada para cada uno

de los valores de dicha función. Una interpretación factible, y que

aquí nos interesa, es entender, como hemos indicado, que el área bajo

la curva entre dos puntos dados -a y b- muestra la probabilidad entre

dichos valores. Hay contenida en ese recinto, digamos, una determinada

masa de probabilidad. Si dividimos toda esa masa de probabilidad por

la longitud de tal espacio obtendremos la densidad de dicha masa de

probabilidad en el intervalo definido por a y b; esto es, la masa de

probabilidad por unidad de longitud. Más precisamente, supongamos que

F(a) indica la probabilidad por debajo del punto a (su función de

distribución), e, igualmente, F(b), la probabilidad bajo el punto b.

Entonces, la masa de probabilidad por unidad de logitud será:

Hagamos ahora que a tienda hacia b, entonces:

mostrará la densidad de probabilidad en el punto b. Obsérvese que este

valor es precisamente la derivada de la función F(b) en dicho punto;

esto es, f(b)=F'(b). Por tanto, f(b) hace referencia a la densidad de

probabilidad en el punto b. Y, en términos generales, para cualquier

valor de X, la expresión f(x) será precisamente la función de densidad

de probabilidad de la variable aleatoria X.

Page 59: APROXIMACIÓN A LA TEORÍA DE LA PROBABILIDAD · 2020. 4. 6. · 2 La teoría de la probabilidad, cuyo estudio aquí abordamos, nos servirá de puente entre lo observado en la muestra

56

µ ' E(X) ' jN

i'1

piXi

µ ' E(X) ' m4

&4f(x)xdx (8.5)

σ2 ' jN

i'1

piX2

i & µ2

σ2 ' m4

&4f(x)(x & µ)2dx (8.6)

σ2 ' E(X 2)&[E(X)]2'm4

&4f(x)(x 2)dx & µ2 (8.7)

8.5.- Media de una variable aleatoria continua

Como se recuerda, la media (o esperanza matemática) de una variable

aleatoria discreta equivalía a la suma de todos sus valores por sus

probabilidades asociadas. Esto es:

En el caso de las variables aleatorias continuas es exactamente igual.

Habremos de multiplicar los valores que adopte dicha variable por sus

probabilidades asociadas. Si operamos con la variable X cuyas

probabilidades asociadas son f(x)dx, tendremos:

8.5.- Varianza de una variable aleatoria continua

Igual que anteriormente, hemos definido como varianza de una variable

aleatoria discreta el producto de las desviaciones cuadráticas respecto

a la media por su probabilidades correspondientes:

Sustituyendo las probabilidades p(xi) por f(x)dx, de significado

equivalente:

O bien la siguiente expresión alternativa, más sencilla:

Page 60: APROXIMACIÓN A LA TEORÍA DE LA PROBABILIDAD · 2020. 4. 6. · 2 La teoría de la probabilidad, cuyo estudio aquí abordamos, nos servirá de puente entre lo observado en la muestra

57

Figura 8.5

No obstante, como hemos indicado anteriormente, en este texto no

tendremos necesidad de utilizar integrales, por cuanto las variables

continuas que estudiaremos dispondrán de su correspondiente tabla donde

vendrán indicadas las funciones de densidad asociadas así como sus

medias y varianzas.

En sucesivos capítulos se irán tratando algunas de las distribuciones

de variable aleatoria continua más usuales en ciencias humanas. Por el

momento nos limitaremos a estudiar la distribución más conocida: la

distribución normal.

8.6.- La distribución normal de probabilidad

Como acabamos de indicar las variables aleatorias que siguen una ley

normal de probabilidad son las más frecuentemente utilizadas en

estadística. Hace referencia a multitud de fenómenos que presentan sus

máximas frecuencias en torno a los valores promedios de la

distribución, yendo tales frecuencias disminuyendo progresivamente

conforme se alejan sus valores de dichos promedios. Por ejemplo, la

mayor parte de las variables de tipo biológico (peso, estatura, presión

sanguínea ..etc), así como las variables de tipo psicológico (memoria,

inteligencia, tiempo de reacción ..etc) siguen distribuciones normales.

Tomemos, como referencia la estatura. La mayor parte de las personas

tienen valores próximos a la media, sea 1.70, siendo más infrecuentes

las estaturas cuanto más alegadas estén de dicho promedio. De una forma

gráfica la distribución normal tiene la siguiente configuración:

Page 61: APROXIMACIÓN A LA TEORÍA DE LA PROBABILIDAD · 2020. 4. 6. · 2 La teoría de la probabilidad, cuyo estudio aquí abordamos, nos servirá de puente entre lo observado en la muestra

58

f(x) '1

σ 2πe

&1

2

x&µ

σ

2

(8.8)

Figura 8.6

Esta distribución fue desarrollada por Carl Friedrich Gauss (1777-1855)

y por su forma acampanada es denominada frecuentemente como campana de

Gauss. Aunque en honor de la verdad hay que decir, que esta

distribución ya fue descrita gráficamente (sin su ecuación

correspondiente) con anterioridad por De Moivre estudiando algunos

juegos de azar.

Su función de densidad es:

Se observa que a excepción del número π y del número e que son valores

constantes en la ecuación, ésta depende de µ y σ que nos indican la

medida de posición y de dispersión respectivamente. Ya que estos valores

pueden variar de una distribución a otra más que hablar de la

distribución normal hemos de hacerlo de una familia de distribuciones

normales, cada una con su media y su varianza correspondiente. Así las

mostradas a continuación son todas distribuciones normales con distintas

medias y varianzas:

Page 62: APROXIMACIÓN A LA TEORÍA DE LA PROBABILIDAD · 2020. 4. 6. · 2 La teoría de la probabilidad, cuyo estudio aquí abordamos, nos servirá de puente entre lo observado en la muestra

59

X 0 N(µ,σ)

En consecuencia, cada distribución normal queda definida por su media

y su varianza. Son los parámetros (valores poblacionales) que

caracterizan dicha distribución. De esta forma, para indicar que una

determinada variable aleatoria X sigue una ley de distribución normal

de media µ y varianza σ2 lo expresaremos formalmente como:

donde el símbolo 0 significa "pertenece a".

Por último, merece la pena dedicar algunas líneas a justificar la

configuración expuesta de la curva normal. De la ecuación (8.8) se

deduce que la curva normal ha de ser simétrica. Si observamos el valor

al que está elevado el número e veremos que es la constante -1/2

multiplicada por (X-µ)/σ elevado al cuadrado. De ello se deduce que los

valores en la ordenada son los mismos para equivalentes valores de (X-µ)

al margen del signo que tengan. De esta simetría se deduce que media y

mediana coinciden. Por otro lado, el número e está elevado a una

cantidad negativa. En consecuencia, el valor máximo de la ordenada será

cuando el exponente de e sea -0. Esto ocurre cuando X=µ. Este valor es

único y se encuentra en el centro de la distribución. Esta

consideración, junto a la comentada anteriormente, demuestra que media,

media y moda (valor máximo) coinciden. Podemos comprobar igualmente que

la curva es asintótica al eje de las abscisas. Cuanto mayor es la

distancia de X a la media mayor será el exponente de e, con el signo

negativo, y por tanto menor será la ordenada, sin llegar nunca a ser 0

por muy alejado que esté el valor de X de la media.

8.7.1.- Cálculo de probabilidades en distribuciones normales

Como se ha indicado podemos asimilar área a probabilidad. Si al total

del área bajo la curva le asignamos el valor de la unidad, el cálculo

de cualquier recinto comprendido entre dos valores cualesquiera

coincidirá con la probabilidad de obtener valores dentro de dicho

intervalo. Por ejemplo, supongamos que disponemos de la distribución de

las estaturas, que siguen una ley normal, cuya media sea 170 cms. El

gráfico tendrá las siguientes características:

Page 63: APROXIMACIÓN A LA TEORÍA DE LA PROBABILIDAD · 2020. 4. 6. · 2 La teoría de la probabilidad, cuyo estudio aquí abordamos, nos servirá de puente entre lo observado en la muestra

60

170

Figura 8.7

P(170#x#175) ' m175

170

1

6 2πe

&1

2

x&170

6

2

dx

Cualquier área solicitada podrá ser calculada, en principio, mediante

el recurso de las integrales. Supongamos que las estaturas se

distribuyen según una ley normal de media 170 cms y desviación tipo 6

cms. Si nos cuestionamos la probabilidad de que un sujeto mida entre 170

y 175 cms, podrá ser calculada aplicando la expresión (8.4). Así:

Decimos "en principio" porque aunque nada impide utilizar este recurso,

es evidente que se trata de un procedimiento un tanto engorroso, por

cuanto el desarrollo de integrales no siempre es fácil. Más útil resulta

recurrir a unas tablas donde alguien se ha tomado la molestia de

calcular las áreas correspondientes a los diferentes recintos que se nos

pueden plantear en una curva normal.

Nos preguntaremos cuántas tablas y cómo deberán ser estas tablas.

Digamos, en relación a la primera pregunta que con una tabla es

suficiente. No es necesario una tabla para cada una de las potenciales

variables distribuidas según una ley normal, ya que si todas ellas, al

ser normales, tienen la misma configuración, con una de ellas que se

tome como referencia será suficiente. Tan sólo necesitaríamos conocer

las equivalencias entre las puntuaciones de la variable que se toma como

referencia y las restantes variables, lo cual puede realizarse mediante

la transformación correspondiente. Para aclarar estas ideas supongamos

que disponemos de las siguientes variables con sus respectivas medias

y desviaciones tipo:

Page 64: APROXIMACIÓN A LA TEORÍA DE LA PROBABILIDAD · 2020. 4. 6. · 2 La teoría de la probabilidad, cuyo estudio aquí abordamos, nos servirá de puente entre lo observado en la muestra

61

Z 'X&µ

σ

E(Z) ' EX&µ

σ'

1

σE(X)&µ '

1

σ(µ&µ) ' 0

var(Z) ' varX&µ

σ'

1

σ2var(X) '

1

σ2σ2 ' 1

(8.9)

Variable media des. tipo

S)))))))))))))))))))))))))))))))))))Q

Estatura 170 cms 4 cms

Peso 70 kgs 5 kgs

Inteligencia 100 C.I. 15 C.I.

T. Reacción 0.10 ss 0.02 ss

S)))))))))))))))))))))))))))))))))))

Tabla 8.2

Podemos tomar una de ellas como referencia, por ejemplo el peso.

Elaboraremos una tabla que nos relacione los pesos con sus

probabilidades asociadas y, a continuación, si deseamos conocer las

probabilidades referidas a cualquier otra variable tan sólo habremos de

transformar la variable en cuestión en la variable peso, y operar con

las tablas.

No obstante, más útil que tomar como referencia una variable específica

sobre la que se realiza la transformación, definiremos la tabla sobre

la variable que resulta de efectuar la siguiente transformación:

Como se sabe, la variable obtenida es la variable tipificada o

estandarizada. La transformación (restar una constante y dividir por

otra constante) no altera su configuración sino tan sólo la escala.

Dicha transformación, que denominaremos tipificación, al aplicarse sobre

cualquier variable, dará lugar a una nueva variable de media 0 y

varianza 1, como podemos comprobar:

Como consecuencia, la nueva distribución N(0,1) seguirá una ley normal

que denominaremos reducida (estandarizada o tipificada). En el futuro

Page 65: APROXIMACIÓN A LA TEORÍA DE LA PROBABILIDAD · 2020. 4. 6. · 2 La teoría de la probabilidad, cuyo estudio aquí abordamos, nos servirá de puente entre lo observado en la muestra

62

Z1'

X1&µ

σ'

100&100

15' 0

Z2'

X2&µ

σ'

115&100

15' 1

recurriremos a esta distribución como punto de referencia. Para ello,

transformaremos cualquier variable X en su Z correspondiente, y a

continuación, manejaremos la tabla sobre estos valores Z a sabiendas que

los recintos bajo la curva de la variable tipificada son los mismos que

los correspondientes valores de la variable original.

Tomemos como referencia, a este respecto, las distribuciones expuestas

en la tabla 8.2. Observamos que el recinto entre 170 y 174 cms es el

emismo que el existente entre 70 y 75 kilos, así como entre 100 y 115

puntos de C.I. y 0.10 y 0.12 segundos en tiempo de reacción. Es el mismo

recinto que entre 0 y 1 en puntuaciones tipificadas:

+)))))))))))))))))))))))))))))))))))))))))))))))))))))))), * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * 170 174 * * 70 75 * * 100 115 * * 0.10 0.12 * .))))))))))))))))))))))))))))))))))))))))))))))))))))))))-

Figura 8.8

De hecho, si todas estas variables fueran tipificadas el resultado finalsería 0 y 1. Tomemos, por ejemplo, la inteligencia:

Page 66: APROXIMACIÓN A LA TEORÍA DE LA PROBABILIDAD · 2020. 4. 6. · 2 La teoría de la probabilidad, cuyo estudio aquí abordamos, nos servirá de puente entre lo observado en la muestra

63

P(100#x#115) ' P(0#Z#1)

P(100#x#115) ' P(0#Z#1) ' 0.3413

0 Z

Figura 8.9

De esta forma, concluiremos que:

Una vez que sabemos que la probabilidad de que un sujeto obtengapuntuaciones entre 100 y 115 en inteligencia equivale a la probabilidadde obtener una puntuación tipificada comprendida entre 0 y 1, basta con

recurrir a la tabla de la ley normal tipificada. Comprobamos (loexplicamos en el próximo aparatado) que el área contenida entre 0 y 1es 0.3413. En consecuencia:

8.7.2.- Manejo de la tabla normal tipificada

Digamos, en primer lugar, que existen numerosas tablas diferentesutilizadas para el cálculo de probabilidades en distribuciones normalestipificadas. Cada una de ellas se sirve de un criterio distinto en ladeterminación de los intervalos a alegir. La tabla que expondremos aquí,es la más conocida, y se caracteriza por ofrecer la probabiidad de quela variable tipificada se encuentre comprendida entre su media ycualquier valor positivo de ella:

Page 67: APROXIMACIÓN A LA TEORÍA DE LA PROBABILIDAD · 2020. 4. 6. · 2 La teoría de la probabilidad, cuyo estudio aquí abordamos, nos servirá de puente entre lo observado en la muestra

64

1,23 0

Figura 8.10

P(0#Z#1.23) ' 0.3906

-1,23 0

Figura 8.11

P(&1.23#Z#0) '

P(0#Z#1.23) ' 0.3906

Por ejemplo, si nos preguntan por la probabilidad de obtener un valor

Z comprendido entre 0 y 1.23, buscaremos en las tablas y obtendremos el

valor 0.3906. Por tanto:

Aunque dicha tabla no opera con valores negativos de la variabletipificada (parte inferior de la curva), no es problema, ya que al ser

la curva simétrica el área comprndida entre 0 y cualquier valor -Zi esla misma que entre 0 y el valor positivo Zi. Así, si nos preguntásemospor la probabilidad de obtener valores comprendidos entre 0 y -1.23,sería igual que anteriormente:

Page 68: APROXIMACIÓN A LA TEORÍA DE LA PROBABILIDAD · 2020. 4. 6. · 2 La teoría de la probabilidad, cuyo estudio aquí abordamos, nos servirá de puente entre lo observado en la muestra

65

0

Figura 8.12

P(Z$1.23) ' 0.5&P(0#Z#1.23) '

' 0.5&0.3906 ' 0.1094

0 1,23

Figura 8.13

P(Z#1.23) ' 0.5%P(0#Z#1.23) '

' 0.5%0.3906 ' 0.8936

Y por la misma razón de simetría aludida sabremos que cada una de laspartes de la curva comprende un área cuyo valor es 0.5. Estacaracterística la podemos aprovechar convenientemente para calcularprobabilidades por encima o por debajo de unos valores dados. Porejemplo, supongamos que nos solicitan la probabilidad de obtender una

valor de Z superior a 1.23:

O bien la probabilidad de obtener una Z inferior a 1.23:

Page 69: APROXIMACIÓN A LA TEORÍA DE LA PROBABILIDAD · 2020. 4. 6. · 2 La teoría de la probabilidad, cuyo estudio aquí abordamos, nos servirá de puente entre lo observado en la muestra

66

17 18 21

Figura 8.14

Veamos a continuación algunos ejemplos que ilustran lo expuesto.

Ejemplo 8.7.- Aplicada una prueba de reacciometría visual a una cierta

población, se ha obtenido (medida en centésimas de segundo), una mediade 18 puntos y una desviación tipo de 4. Suponiendo que dicha variablese distibuye según una ley normal en la población, calcular:

a) Probabilidad de que un indivíduo obtenga una puntuación comprendidaentre 17 y 21 puntos.

b) Probabilidad de que un sujeto obtenga una puntuación igual osuperior a 20.

c) Probabilidad de que un sujeto obtenga una puntuación igual oinferior a 23 puntos.

a) El área solicitada es:

Tipifiquemos ambas puntuaciones:

Page 70: APROXIMACIÓN A LA TEORÍA DE LA PROBABILIDAD · 2020. 4. 6. · 2 La teoría de la probabilidad, cuyo estudio aquí abordamos, nos servirá de puente entre lo observado en la muestra

67

Z1'

X1&µ

σ'

17&18

4' &0.25

Z2'

X2&µ

σ'

21&18

4' 0.75

P(17#x#21) ' P(&0.25#Z#0.75) ' 0.0987%0.27335 ' 0.37205

18 20

Figura 8.15

Z 'X&µ

σ'

20&18

4' 0.5

P(20#x#4) ' P(0.5#Z#4) ' 0.5&0.19141 ' 0.30859

Por tanto:

b) Nos piden:

Tipifiquemos:

Luego:

c) El área correspondiente es:

Page 71: APROXIMACIÓN A LA TEORÍA DE LA PROBABILIDAD · 2020. 4. 6. · 2 La teoría de la probabilidad, cuyo estudio aquí abordamos, nos servirá de puente entre lo observado en la muestra

68

18 23

Figura 8.16

Z 'X&µ

σ'

23&18

4' 1.25

P(4#x#23) ' P(4#Z#1.25) ' 0.5%0.3943 ' 0.8943

Tipificando la variable:

En consecuencia:

8.7.3.- Ley normal y distribuciones afines

El verdadero interés de la ley normal no reside en el hecho de que

algunas variables se distribuyan en la población de acuerdo con esta

ley. Su importancia radica fundamentalmente en que la mayor parte de

los estadísticos obtenidos de distintas variables (medias,

proporciones, diferencias de medias y diferencias de proporciones) se

distribuyen, en el muestreo, según leyes normales aunque tales

variables no lo hagan en la población. Esta circunstancia proporciona,

como tendremos ocasión de comprobar, una base sólida al problema de la

inferencia estadística.

Comencemos con las variables cuantitativas. Cualquier variable con la

que operemos, sea cuantitativa continua o bien, discreta, sea cual

fuere su distribución a nivel poblacional, si calculamos la media de

distintas muestras extraídas de la población origen, esta medias sí se

distribuirán según una ley normal (para un tamaño suficientemente

grande de n). Supongamos que en una determinada población la renta per

capita es claramente asimétrica (muchos con rentas bajas y pocos con

rentas altas) obteniendo la siguiente distribución:

Page 72: APROXIMACIÓN A LA TEORÍA DE LA PROBABILIDAD · 2020. 4. 6. · 2 La teoría de la probabilidad, cuyo estudio aquí abordamos, nos servirá de puente entre lo observado en la muestra

69

Figura 8.17

Población

Distribución muestral

µ

σ2=σ2pob/n

Figura 8.18

Estraigamos muestras de tamaño n>30 de dicha población, y en cada una

de ellas calculemos la media de renta. Observaremos que la distribución

formada por estas medias seguirá una ley normal de media µ y varianza

σ2/n, como tendremos ocasión de demostrar. Así:

Vayamos ahora al caso más desfavorable: las variables cualitativas.

Está claro que tales variables no se distribuyen según una ley normal.

Supongamos que elegimos la variable sexo. En la población tendremos la

siguiente distribución:

Page 73: APROXIMACIÓN A LA TEORÍA DE LA PROBABILIDAD · 2020. 4. 6. · 2 La teoría de la probabilidad, cuyo estudio aquí abordamos, nos servirá de puente entre lo observado en la muestra

70

varon mujer

0

0,1

0,2

0,3

0,4

0,5

0,6

Figura 8.19

varon mujer

0

0,1

0,2

0,3

0,4

0,5

0,6

Población

Distribución muestral

µ

σ2

= p

=p*q/n

Figura 8.20

Pues bien, si definimos la variable proporción de varones (o de

mujeres), y elegimos muestras de tamaño n extraídas de dicha población,

calculando en cada una de estas muestras la proporción de varones

presentes, tendremos que la distribución (muestral) de estas

proporciones sí presentan una distribución normal (para un tamaño

suficiente de n), con media la proporción poblacional p y varianza

p*q/n, como comprobaremos más adelante. De esta forma:

Esta circunstancia -distribuciones normales a partir de poblaciones que

Page 74: APROXIMACIÓN A LA TEORÍA DE LA PROBABILIDAD · 2020. 4. 6. · 2 La teoría de la probabilidad, cuyo estudio aquí abordamos, nos servirá de puente entre lo observado en la muestra

71

E(‾X) ' EX1%X

2%ÿ%X

n

n'

1

nE(X

1)%E(X

2)%ÿ%E(X

n) '

'1

nµ1%µ

2%ÿ%µ

n'

1

n(nµ) ' µ

(8.10)

Var(‾X) ' VarX1%X

2%ÿ%X

n

n'

1

n 2Var (X

1)%(X

2)%ÿ%(X

n) '

'1

n 2Var(X

1)%Var(X

2)%ÿ%Var(X

n) '

1

n 2n(Var(X) '

Var(X)

n

(8.11)

no lo son- es de extraordinario interés. Ha sido formulado

matemáticamente como el teorema central del límite o más sencillamente

teorema de la aproximación normal y puede expresarse en los siguientes

términos:

Toda población de media µ y varianza σ2 (finita), a medida que

aumenta el tamaño de las muestras la distribución muestral de

medias tenderá a una distribución normal con media µ y varianza

σ2/n

Tales consideraciones son válidas para el caso de las proporciones, ya

que éstas puden entenderse como variables con dos valores 0 y 1. Y por

otro lado, podremos generalizar este teorema para las distribuciones

muestral de diferencia de medias (y proporciones), de gran utilidad en

la teoria de la decisión estadística.

8.7.3.1.- Distribución muestral de medias

Tengamos una supuesta población de media µ y varianza σ2. Extraigamos

muestras de tamaño n y calculemos en cada una de ellas su media

correspondiente. La distribución muestral de las medias obtenidas

tendrá de media la media poblacional µ y por varianza σ2/n. Esto es,

en relación a la media (o esperanza matemática):

Y en relación a la varianza:

Page 75: APROXIMACIÓN A LA TEORÍA DE LA PROBABILIDAD · 2020. 4. 6. · 2 La teoría de la probabilidad, cuyo estudio aquí abordamos, nos servirá de puente entre lo observado en la muestra

72

‾X '

jn

i'1

X

n'

0%1%0%1%0%0%0%0%1%1

10' 0.4 ' p

8.7.3.2.- Distribución muestral de proporciones

Comenzaremos considerando la proporción como una media cuando la

variable observada adopta dos valores: 0 y 1. De esta forma -las

variables cualitativas como cuantitativas- mostraremos con las

proporciones un tratamiento equivalente al expuesto en el apartado

anterior con respecto a las medias. Utilizaremos los mismos conceptos

para ambos tipos de variables, logrando con ello un planteamiento

único, y por tanto, más sencillo.

Supongamos que en una determinada muestra de 10 sujetos, a la pregunta:

¿Es usted fumador?, obtenemos las siguientes respuestas:

NO, SI, NO, SI, NO, NO, NO, NO, SI, SI

Observamos 4 fumadores. En consecuencia, la proporción de fumadores

será 0.4. Supongamos, ahora, que definimos la variable X en los

siguientes términos:

1: Fumador

0: No fumador

Esto es, en relación a la variable Fumar, el valor 1 indica presencia

y el valor 0, ausencia. Es una forma un tanto peculiar de cuantificar,

pero que tiene su lógica, ya que no fumar en términos cuantitativos

equivale al cero, y fumar, es ya una cierta cantidad, que en ausencia

de más información (cuanto fuma) le podemos dar un valor arbitrario,

como la unidad, aunque nada impediría darle cualquier otro valor.

Esta forma de codificación se denomina codificación dummy. El resultado

es una variable dummy, que podemos traducirla en castellano como

variable ficticia, por cuanto no es una variable genuinamente

cuantitativa, sino que se hace pasar por ella.

Pues bien, supongamos que en base a esta nueva codificación deseamos

calcular la media de esta variable. Tendremos que:

Se comprueba que al cuantificar como 1 el hecho de ser fumador, en el

Page 76: APROXIMACIÓN A LA TEORÍA DE LA PROBABILIDAD · 2020. 4. 6. · 2 La teoría de la probabilidad, cuyo estudio aquí abordamos, nos servirá de puente entre lo observado en la muestra

73

S 2 '

jn

i'1

X&‾X2

n'

jn

i'1

X 2

n&‾X

2' p&p 2 ' p(1&p) ' p(q

E(X) ' µ ' π

Var(X) 'σ2

n'

π(1&π)

n

(8.12)

numerador de la expresión anterior, el valor total será el número de

fumadores. Como el denominador el es total de sujetos, el resultado

será precisamente la proporción de fumadores. En consecuencia, la media

equivale a la proporción. Veamos, ahora, que ocurre con la varianza:

(Obsérvese que los valores de X2 equivalen a los valores de X, ya que

12 y 02 permanecen iguales a 1 y 0 respectivamente).

Vayamos, ahora, al concepto de distribución muestral de proporciones.

En base a lo expuesto, y conviniendo en adoptar letras griegas para los

parámetros (π en lugar de p), la media y la varianza de dicha

distribución tendrán los siguientes valores:

8.7.3.3.- Aplicaciones en la teoría de la decisión estadística

Como se recordará, en el capítulo 7 hubo una primera aproximación a la

toma de decisiones estadísticas basadas en la distribución binomial.

Ahora, ampliaremos estas consideraciones al ámbito de la distribución

normal, de mayor aplicación. En este sentido, las ideas que

desarrollaremos aquí son básicamente las mismas que entonces. Si

retomamos la figura 7.4 observaremos que definimos dos zonas: una

primera zona de una gran probabilidad de ocurrencia (zona de aceptación

d la H0), y una segunda zona, con una escasa probabilidad de ocurrencia

(zona de rechazo de la H0). Una figura equivalente a ésta en el

contexto de la distribución normal será:

Page 77: APROXIMACIÓN A LA TEORÍA DE LA PROBABILIDAD · 2020. 4. 6. · 2 La teoría de la probabilidad, cuyo estudio aquí abordamos, nos servirá de puente entre lo observado en la muestra

74

Rechazo H0 Aceptación H0 Rechazo H0

Figura 8.21

cuya interpretación es similar a la de entonces. Tiene especial

relevancia en su aplicación sobre las distribuciones muestrales (de

medias, proporciones, diferencia de medias y diferencia de

proporciones). Aquí nos limitaremos, por el momento, a operar en base

a los contenidos expuestos (distribuciones muestrales de medias y

proporciones). En los próximos capítulos (teoría de la estimación y de

cisión estadística) se generalizarán estas ideas a otros contextos.

En la figura 7.4 la zona de aceptación comprendía al 97.84% de los

casos, y la zona de rechazo al 2.16% restante. El riesgo asumido

entonces, era de 0.0216, ya que esta proporción de veces marcaba la

probabilidad de equivocarnos al rechazar la H0. Pero no hay ninguna

razón especial para asumir este riesgo. Otros riesgos posibles, como

0.03 o 0.04 podría igualmente ser válidos. Normalmente, por convenio,

se opera con dos tipos de riesgos: 0.05 o 0.01, según el grado de

certeza que deseemos adoptar. Por tanto, por el momento, podemos operar

con dos posibles valores de α; esto es, α=0.05 y α=0.01.

En lo que sigue desarrollaremos algunos ejemplos equivalentes a los

expuestos en el capítulo 7 (ejemplos 7.10 y 7.11) donde se resolvían

cuestiones de decisión estadística, aunque como ya hemos dicho, será

en los próximos capítulos donde se tratarán in extenso estos aspectos.

Page 78: APROXIMACIÓN A LA TEORÍA DE LA PROBABILIDAD · 2020. 4. 6. · 2 La teoría de la probabilidad, cuyo estudio aquí abordamos, nos servirá de puente entre lo observado en la muestra

75

σ‾x'

σ

n'

1.2

50' 0.21

Z '5.6&5.3

0.21' 1.41

P(5.3$X$5.6) ' P(&1.41$Z$1.41) ' 2(0.0793 ' 0.1586

Ejemplo 8.1.- Supongamos que en la academia Fullinglis, con 40 años de

experiencia en la enseñanza del inglés, los 10000 alumnos matriculados

en ella obtuvieron en el examen de proficiency la calificación de 5.3

puntos por término medio, con una desviación tipo de 1.2 puntos. En el

presente curso se introduce un nuevo método de enseñanza en una de las

aulas, compuesta por 50 alumnos, logrando dichos alumnos en el examen

final, una puntuación de 5.6 puntos. ¿Qué puede decirse del nuevo

método de enseñanza?.

SOL:

Se supone que la media de 5.3 y la desviación tipo de 1.2 se

refieren a la población (los 10000 alumnos). Esto supuesto, la

distribución muestral de medias de muestras de tamaño 50, extraídas de

dicha población tendrá de media 5.3 y desviación tipo:

Observamos, por otro lado, que el promedio obtenido mediante el nuevo

método de enseñanza, de 5.6 puntos, se aleja 0.3 puntos de la media

poblacional, de 5.3 puntos. En puntuaciones tipificadas:

Suponiendo, de acuerdo con la H0, que la media observada en la muestra

pertenece a la población definida por 5.3 puntos, la probabilidad de

obtener valores que se alejen 0.3 puntos o más será:

Si tomamos como referencia un valor de α=0.05, observaremos que

0.1586>0.05. En consecuencia consideraremos que la probabilidad de

obtener una media muestral que se aleje de la media poblacional en 0.3

o más puntos es bastante probable. Por tanto, concluiremos que la media

obtenida por el nuevo método de enseñanza del inglés pertenece a la

población definida por el método tradicional impartido en los últimos

40 años. El nuevo método no es, pues, diferente al tradicional.

Page 79: APROXIMACIÓN A LA TEORÍA DE LA PROBABILIDAD · 2020. 4. 6. · 2 La teoría de la probabilidad, cuyo estudio aquí abordamos, nos servirá de puente entre lo observado en la muestra

76

σp'

π((1&π)

n'

0.5(0.5

100' 0.05

Z '0.6&0.5

0.05' 2

P(Z$2) ' 0.028

Ejemplo 8.2.- Un determinado sujeto afirma ser capaz de adivinar el

sexo de un niño antes del nacimiento. Supongamos que las probabilidades

de nacimiento de niño y de niña son iguales. Si dicho sujeto, operando

sobre una muestra de 100 embarazos acertó en 60 de ellos, ¿puede

afirmarse que dispone de tal capacidad?.

SOL:

Vamos a plantear esta prueba en términos unilaterales; esto es,

calcularemos la probabilidad de acertar 60 embarazos más de cada 100,

desde la hipótesis que el sujeto no acertaría más que lo que indicaría

el puro azar. En este supuesto la proporción de aciertos, por término

medio, será del 50%. Y la desviación tipo para muestras de tamaño 100:

En la distribución muestral de proporciones, el valor 0.6 se encuentra

alejado de la media las siguientes desviaciones tipo:

El área que queda por encima es:

Esto es, desde el supuesto que el sujeto responde por azar, la

probabilidad de que tuviera 60 aciertos de 100 es 0.0228. Si operamos

con un valor de α=0.05, tenemos que 0.0228<0.05, y en consecuencia,

podemos concluir que dicho sujeto es capar de acertar el sexo de los

niños (con un riesgo de 0.0228, que es la probabilidad de que acierte

tal cantidad por azar).