la distribución normal explicada

7
LA DISTRIBUCIÓN NORMAL Por: Jorge L. De La Cruz Oré Tantas veces hemos escuchado, leído, re-leído acerca de la distribución normal y la distribución normal estándar (que no son lo mismo), tanto que a veces nos hemos preguntado por qué tenemos que aprenderla y por qué nunca nos sirve en la práctica (casi nadie hace inferencias con la distribución normal). Pues la respuesta es más simple de lo que parece: la distribución normal es solo teórica, y la distribución normal estándar es aún más teórica. Sin embargo es importante conocerla porque casi toda la estadística se entenderá mejor si se han comprendido ambos conceptos. La distribución normal fue descubierta (también se puede decir que fue inventada) por F. Gauss, por eso también se llama distribución de Gauss. Entonces veamos como pensó Gauss: él estaba tratando de medir las distancias que existen entre un gran número de estrellas visibles desde la tierra y anotaba tales mediciones. Cuando las volvía a medir descubría que las nuevas mediciones eran cercanas a las primeras pero no iguales, sucesivas mediciones le revelaban que casi ninguna era igual a las anteriores, sin embargo todas eran muy próximas. Lo mismo nos pasaría a nosotros si intentamos medir la altura de una persona varias veces, los resultados serían muy próximos pero no iguales. Ahora, con esto en mente podemos dibujar nuestras mediciones en un plano cartesiano (como seguramente lo hizo Gauss) para colocar en el eje horizontal “X” la medición del tamaño de la persona y en el eje “Y” (vertical) el número de veces que obtuvimos las mediciones. Seguramente, si repetimos las mediciones un gran número de veces y las graficamos como acordamos, terminemos obteniendo un gráfico como el siguiente: 1760 1750 1740 1730 1720 1710 1700 1690 1680 1670 1660 1650 1640 9 8 7 6 5 4 3 2 1 0 Talla (mm) Conteo Talla de una misma persona medida muchas veces (en mm)

Upload: djjdo

Post on 22-Jul-2015

1.365 views

Category:

Education


7 download

TRANSCRIPT

Page 1: La distribución normal explicada

LA DISTRIBUCIÓN NORMALPor: Jorge L. De La Cruz Oré

Tantas veces hemos escuchado, leído, re-leído acerca de la distribución normal y la distribuciónnormal estándar (que no son lo mismo), tanto que a veces nos hemos preguntado por quétenemos que aprenderla y por qué nunca nos sirve en la práctica (casi nadie hace inferencias conla distribución normal).

Pues la respuesta es más simple de lo que parece: la distribución normal es solo teórica, y ladistribución normal estándar es aún más teórica. Sin embargo es importante conocerla porquecasi toda la estadística se entenderá mejor si se han comprendido ambos conceptos.

La distribución normal fue descubierta (también se puede decir que fue inventada) por F. Gauss,por eso también se llama distribución de Gauss. Entonces veamos como pensó Gauss: él estabatratando de medir las distancias que existen entre un gran número de estrellas visibles desde latierra y anotaba tales mediciones. Cuando las volvía a medir descubría que las nuevas medicioneseran cercanas a las primeras pero no iguales, sucesivas mediciones le revelaban que casi ningunaera igual a las anteriores, sin embargo todas eran muy próximas. Lo mismo nos pasaría a nosotrossi intentamos medir la altura de una persona varias veces, los resultados serían muy próximospero no iguales.

Ahora, con esto en mente podemos dibujar nuestras mediciones en un plano cartesiano (comoseguramente lo hizo Gauss) para colocar en el eje horizontal “X” la medición del tamaño de lapersona y en el eje “Y” (vertical) el número de veces que obtuvimos las mediciones. Seguramente,si repetimos las mediciones un gran número de veces y las graficamos como acordamos,terminemos obteniendo un gráfico como el siguiente:

1760175017401730172017101700169016801670166016501640

9

8

7

6

5

4

3

2

1

0

Talla (mm)

Cont

eo

Talla de una misma persona medida muchas veces (en mm)

Page 2: La distribución normal explicada

Para obtener el gráfico se pudo haber medido a una misma persona cuya talla real es de 1,70m (esdecir 1700 mm) con un altímetro que discierne en milímetros. Como vemos, un gran número deveces la talla obtenida es la correcta, sin embargo los errores hacia arriba y hacia abajo son cadavez menores a medida que nos alejamos del verdadero tamaño medido de la persona.

Si consideramos a la talla como una medida continua (en realidad la talla es continua) y lesuperponemos una curva para “suavizar” la gráfica lo que obtenemos es lo siguiente:

1760174017201700168016601640

9

8

7

6

5

4

3

2

1

0

Talla (mm)

Frec

uenc

ia

Media 1700N 53

NormalMediciones de la talla de una misma persona

Lo que hemos obtenido es una curva en forma de campana también conocida como “campana deGauss”, “curva normal”, “campana normal”. Ésta curva se caracteriza porque tiene al promedio dela talla (o verdadera talla) al centro, y va disminuyendo hacia los costados. Algo que cabe resaltares que la curva jamás llegará a tocar al eje X si realizamos cada vez más mediciones (es decir, lacurva es asíntota al eje X).

Si realizamos la medición de la talla de toda una población (puede ser la población de la ciudad deLima), obtendremos una curva normal muy parecida a la que obtuvimos a partir de una solapersona pero con el promedio de la población ubicado exactamente al centro de la curva.

La dificultad radica en que no tenemos ni el presupuesto, ni el tiempo, ni las ganas de medir latalla de todos los habitantes de Lima (aproximadamente 10 millones), así que no nos queda másque contentarnos con obtener una buena muestra. Por buena muestra entendemos que la mismaes representativa de toda la población, es decir que se trata de una muestra obtenida utilizando

Page 3: La distribución normal explicada

alguna técnica de la aleateorización. Aquí seguiremos refiriéndonos a la población ya que así esmás sencillo poder explicar la distribución normal.

Cabe remarcar lo que dijimos al inicio acerca de la distribución normal, se trata de una curvateórica, las variables reales rara vez se distribuyen normalmente, pero se pueden aproximarmucho a la misma.

Para continuar profundizando necesitamos conocer un concepto muy importante: la desviaciónestándar poblacional (σ). Por cierto, la desviación estándar no es lo mismo que el error estándar(EE), el cual se puede calcular a partir del primero, sin embargo aquí solo trabajaremos con σ, yaque el EE es tema de otro artículo.

Desviación Estándar Poblacional (σ –letra griega que se pronuncia sigma-): Es una medida dedispersión, esto quiere decir que es la mejor forma de calcular (no mide exactamente) elgrado de dispersión o error que obtenemos cuando queremos medir algo. En el ejemploinicial, cada vez que medíamos la talla de una persona obteníamos valores diferentes; ladesviación estándar nos puede dar un cálculo aproximado de esos errores de medición. Parahallarla, primero debemos obtener el promedio de los valores, luego restar ese promedioobtenido de cada valor observado, elevar al cuadrado dichas diferencias, sumarlas todas, alresultado se le divide entre el número de observaciones y finalmente se le saca la raízcuadrada. Lo podemos resumir en una fórmula para entender mejor:

σ = ( − μ) + ( − μ) + ⋯( − μ)Donde:

µ Es la media de la población

σ Es la desviación estándar de la población… Representan a los N valores de datos

Es el número de observaciones de la población

Avancemos más en las propiedades de la distribución normal. Ya dijimos que tiene forma decampana y que el promedio se encuentra en el centro, ahora mencionaremos que el área bajotoda la curva debe sumar 1 (es decir, toda el área es el 100% de la misma área, lo cual es lógico,pero 100% = 1, por eso se dice que su valor en términos de probabilidad es 1). Así, si dividimos lacurva en dos partes iguales (derecha e izquierda) mediante una línea vertical que pase por el

Page 4: La distribución normal explicada

centro (por la media), el área de cada lado es igual a 0.5 del área total, y simplemente se dice quees igual a 0.5 como se aprecia en la siguiente gráfica.

18001750170016501600

0.016

0.014

0.012

0.010

0.008

0.006

0.004

0.002

0.000

X

Den

sida

d

1700

Gráfica de distribuciónNormal, Media=1700, Desv.Est.=27.5

0.50.5

En la gráfica podemos ver que ahora en el eje Y ya no figura la etiqueta “frecuencia”, sino“Densidad”, lo cual indica que ahora se está considerando en ese eje la cantidad de informaciónque contiene la curva debajo de ella en cada punto. También se aprecia que la desviación estándar(σ) ha sido calculada y es igual a 27.5 mm.

Pero no todo queda ahí, para complicar el tema tenemos que ver dónde interviene la desviaciónestándar en todo esto. Pues la desviación estándar nos sirve para hacer más divisiones al área bajola curva. Partiendo de la línea vertical que se levanta sobre la media podemos extendernos aambos lados teniendo a la desviación estándar como nueva unidad de medida y así calcular lasáreas bajo la curva que más sea de nuestro interés.

Como estamos viendo en el ejemplo que estamos usando, la media es 1700 mm, y la desviaciónestándar 27.5 mm. Pues podemos usar el valor de la desviación estándar para navegar a laderecha e izquierda de la media en el eje X, levantar líneas verticales y calcular áreas bajo la curvade manera rápida y fácil con solo consultar una tabla de distribución Z (que vienen casi siempre alfinal de los libros de estadística, o se puede consultar en el internet). Así tenemos que si nosmovemos una desviación estándar (en nuestro caso 27.5mm) en el eje X a la izquierda, obtenemoslo que se muestra en el gráfico siguiente:

Page 5: La distribución normal explicada

0.016

0.014

0.012

0.010

0.008

0.006

0.004

0.002

0.000

X

Den

sida

d

1672.5

0.34

1700

Gráfica de distribuciónNormal, Media=1700, Desv.Est.=27.5

0.16

En éste gráfico nos hemos desplazado una desviación estándar a la izquierda a partir de la media(1700 – 27.5 = 1672.5) y observamos que el área que está sombreada (consultando con una tablade distribución Z) es igual a 0.34 (es decir el 34%) del área total. Y el área que queda entonces a laizquierda de la nueva línea es 0.5 – 0.34 = 0.16.

Pronto veremos la manera de calcular las áreas al estudiar la desviación normal estándar, porahora sigamos en lo que nos interesa.

Pero el área que más interés tiene en la distribución normal es la que concentra el 95% (es decir el0.95) del área total central, tal como se aprecia en la figura siguiente:

0.016

0.014

0.012

0.010

0.008

0.006

0.004

0.002

0.000

X

Den

sida

d

1646.1 1753.91700

0.95

Gráfica de distribuciónNormal, Media=1700, Desv.Est.=27.5

Page 6: La distribución normal explicada

Como se aprecia en el gráfico, el área bajo la curva central es de 0.95, y los valores en los que seubican las líneas verticales a la derecha e izquierda de la media corresponden a 1.96 veces (casidos veces) el valor de la desviación estándar (27.5*1.96 = 53.9 mm a la izquierda y a la derecha dela media). Las pequeñas áreas no sombreadas laterales miden 0.025 cada una y se obtienen derestar al área total el 0.95 central y luego dividir éste resultado entre dos: (1 – 0.95)/2 = 0.025.

Po lo tanto y como regla general vamos a tener que:

- Una desviación estándar a la derecha y a la izquierda de la media abarca el 68% central delárea bajo la curva.

- 1.96 desviaciones estándar a la derecha e izquierda de la media abarca el 95% central delárea bajo la curva).

Lo más importante del estudio de la distribución normal es poder entender de qué manera serelacionan la media y la desviación estándar al momento de calcular las áreas bajo la curva deGauss.

Ahora vamos a revisar un tema más, la distribución normal estándar.

Distribución Normal Estándar: No hay nada que temer cuando tocamos éste tema pues a lo quese refiere la expresión es simplemente a la misma distribución normal, solamente que ahoraqueremos que nuestra media sea cero y la desviación estándar sea igual a uno. El proceso de llevara cabo esto se llama estandarizar. La razón de estandarizar viene dada porque como vimosanteriormente podemos tener muchas curvas normales, tantas como variables nos animemos amedir. Por ejemplo, podemos obtener una curva para las tallas, otra para los pesos, otra para lasedades, otra para el salario, etc. Por eso, quienes estudiaron el tema mucho antes que nosotrosencontraron una manera de “estandarizar” sus valores para poder hablar de una sola curva quecomparta ciertas características con todas las infinitas curvas que se pueden construir.

Estandarizar es sencillo, solamente imaginemos que ahora la media es igual a cero y que ladistribución estándar es igual a uno (ni la nueva desviación estándar, ni la nueva media tienenunidades, son adimensionales), y el único esfuerzo que hacemos es calcular un valor llamado Z:= − μDonde:

x es un valor cualquiera de nuestra variable elegida por nosotros.

µ es la media poblacional.

σ es la desviación estándar.

Page 7: La distribución normal explicada

En realidad no hubiéramos podido calcular las áreas bajo la curva como lo hicimos anteriormentea menos que estandaricemos los valores correspondientes. Por ejemplo, si deseamos conocer cuáles el área bajo la curva de un punto a la izquierda de nuestra media de 1700mm tenemos que elcálculo de Z es como sigue:

= 1672.5 − 170027.5 = −1Lo cual significa que el punto 1672.5 está ubicado a una desviación estándar a la izquierda de lamedia (el signo menos nos indica que la dirección es a la izquierda). Ahora sí podemos ir a unatabla de valores Z y consultar el área que se encuentra a la izquierda de Z= - 1, obtendremos quese encuentra el 0.16 (o sea el 16%) del área total bajo la curva.

De la misma manera podemos elegir un punto en base a elegir primero el valor Z. Por ejemplo,podemos escoger Z=1.96 a la izquierda y a la derecha de la media (lo que significa que queremossaber cuáles son los valores asociados a escoger 1.96 desviaciones estándar a la izquierda y a laderecha de la media), simplemente reemplazamos en la ecuación:

: − 1.96 = − 170027.5 , : = 1646.1ℎ : + 1.96 = − 170027.5 , : = 1753.9

Lo que significa que el 95% de las mediciones se encuentran entre 1646.1mm y 1753.9mm (comoya vimos, 1.96 veces la desviación estándar a la izquierda y a la derecha engloba el 95% central delárea bajo la curva).

Lo mismo podemos hacer para cualquier valor que creamos conveniente de entre todos losvalores de la talla de nuestra población y conocer cuál es el valor de área a la izquierda, a laderecha, en medio, etc.

Hasta aquí ésta explicación. Espero sea de ayuda.

Preguntas y comentarios a:

[email protected]