tema 3 ~ genetica
Post on 10-Mar-2016
236 Views
Preview:
DESCRIPTION
TRANSCRIPT
ESTADISTICA APLICADA A LA BIOQUIMICA
BLOQUE I. ANALISIS DESCRIPTIVO DE UN CONJUNTO DE
DATOS
Tema 3. Caracterısticas asociadas a una distribucion de fre-
cuencias
3.1 Medidas de localizacion
3.2 Medidas de dispersion
OBJETIVO: buscar un numero reducido de magnitudes que resuman
la informacion contenida en los datos y que nos permitan comparar dos
o mas series de datos.
- Centraremos nuestro estudio en:
• Medidas de localizacion
• Medidas de dispersion.
23
3.1 Medidas de localizacion
Objetivo: Elegir un unico valor que represente a todos los datos.
• Media aritmetica
• Moda
• Mediana
24
3.1.1 La media aritmetica
x =
n∑i=1
xi
n
- Ejemplo: Edades de alumnos: 24, 19, 18, 18, 18
x =24 + 19 + 18 + 18 + 18
5= 19.4
[ La media aritmetica se mide en las mismas unidades que los datos]
- Tabla de frecuencias:
x =
k∑i=1
xini
no bien x =
k∑i=1
xifi
xi denota las modalidades de la variable en el caso discreto, o la marca
de clase en el caso continuo.
25
Ejemplo 3.1: Se tienen 100 cajas de semillas y se observa que en cada
una de ellas hay entre 0 y 5 semillas germinadas. Sea
X : “numero de semillas germinadas en una caja”.
¿Cual es el numero medio de semillas germinadas, a partir de
los datos recogidos en la siguiente tabla?:
xi ni Ni
0 4 4
1 20 24
2 45 69
3 25 94
4 5 99
5 1 100
100
x =
k∑i=1
xini
n=
=0×4+1×20+2×45+3×25+4×5+5×1
100= 2.10
26
- Ejemplo 3.2: Calculamos el tiempo medio (en seg.) de reaccion de
la sustancia quımica cuya tabla construimos en el Ejemplo 2.
[Variables agrupadas en intervalos: xi marcas de clase]
(Li−1, Li] ni Ni fi Fi xi ai hi
(0,1] 2 2 0.1 0.1 0.5 1 2
(1,3] 3 5 0.15 0.25 2 2 1.5
(3,5] 5 10 0.25 0.5 4 2 2.5
(5,6] 2 12 0.1 0.6 5.5 1 2
(6,8] 3 15 0.15 0.75 7 2 1.5
(8,10] 5 20 0.25 1 9 2 2.5
20 1
x =
k∑i=1
xini
n=
0.5× 2 + 2× 3 + 4× 5 + 5.5× 2 + 7× 3 + 9× 5
20= 5.2
27
Propiedades de la media: Linealidad
1.- Si yi = a + bxi, con a, b constantes fijadas entonces:
y = a + bx
-Ejemplo: Medir temperaturas.
Escala Fahrenheit (USA). Escala Celsius.
oC =oF − 32
1.8
- Otros ejemplos: de ptas a euros,..
2.- Si Z = aX + bY , entonces:
z = ax + by
- Ejemplo:
xi: nota en examen de teorıa,
yi: nota en examen de problemas.
Nota final dada por:
zi = (0.4× xi) + (0.6× yi)
28
3.1.2 Moda:
Es el valor o valores de la variable que mas veces se presenta.
• Si una muestra tiene solo una moda se denomina unimodal.
• Si tiene 2 modas se llama bimodal.
• Si tiene varias modas multimodal.
• Para calcular la moda en variables no agrupadas:
buscamos la observacion xi que tenga mayor frecuencia (absoluta o
relativa).
- Ejemplo 3.1 Mo = 2 [distribucion unimodal]
Dibujar el diagrama de barras y el polıgono de frecuen-
cias.
Comentar que ocurre
29
• Para el caso continuo, se busca el intervalo que tenga mayor
hi = ni/ai
Dicho intervalo se llama intervalo modal.
Mo = xi
- Ejemplo 2 habrıa 2 intervalos modales, que serıan (3, 5] y (8, 10],
distribucion bimodal,
las modas son 4 y 9.
Observar el histograma y el polıgono de frecuencias.
Comentar que ocurre
Figura 7: Histograma y polıgono para los datos del ejemplo 2.
30
3.1.3 Mediana
Es el valor que deja a su izquierda el 50% de las observaciones de la
muestra y a su derecha el otro 50%.
- Ejemplo: Edades de alumnos: 24, 19, 18, 18, 18
Ordeno los datos:
18, 18, 18, 19, 24
me = 18
- Caso Discreto:
Mediana es el valor xi tal que Fi = 1/2 (o equivalente, Ni = n/2).
Metodo de calculo:
Sea i tal que
Ni−1 < n/2 ≤ Ni
es decir, i indica el primer Ni que es mayor o igual que n/2.
Entonces
me = xi
31
- Ejemplo 3.4: Numero de semillas germinadas en 100 cajas
xi ni Ni
0 4 4
1 20 24
2 45 69
3 25 94
4 5 99
5 1 100
100
El primer Ni que supera n/2 = 50 es Ni = 69.
Por tanto la mediana sera
me = 2
[ En el 50% de las cajas hay 2 o menos semillas germinadas,
y a la derecha de 2 queda el otro 50%.]
32
- Caso continuo:
1.- Hay que identificar en que intervalo se situa la mediana: para ello
buscamos el primer intervalo cuya frecuencia absoluta acumulada es mayor
o igual que n/2.
2.- A continuacion, la mediana se calcula con la formula
me = Li−1 + ain/2−Ni−1
Ni −Ni−1= Li−1 + ai
n/2−Ni−1
ni,
donde (Li−1, Li] es el intervalo donde hemos situado la mediana, denom-
inado intervalo mediano.
[ Observese que si Ni = n/2, entonces la mediana vale Li.]
Geometricamente, esta formula nos da la coordenada x de la inter-
seccion de la curva acumulativa con la recta y = n/2 (ver Figura 8).
33
- Significado geometrico de la mediana en el caso continuo
Consideramos la curva acumulativa para las Ni:
Figura 8: Significado geometrico de la mediana
- Ejemplo 3.5 Calcule la mediana de los siguientes datos:
(Li−1, Li] ni Ni
(0, 3] 121 121
(3, 5] 49 170
(5, 7] 130 300
n/2 = 150 entonces la mediana esta en el intervalo (3, 5], ya que
N1 = 121 < n/2 = 150 < N2 = 170 .
Usando la formula de la mediana obtenemos
me = Li−1 + ain/2−Ni−1
Ni −Ni−1=
= 3 + 2150− 121
49= 4.1836
34
Percentiles: Motivacion
- Ejemplo: notas en Matematicas de 15 alumnos:
xi ni Ni fi Fi
3 2 2 0.133 0.133
4 4 6 0.266 0.4
5 4 10 0.266 0.666
6 2 12 0.133 0.8
7 3 15 0.2 1
15 1
me = 5
[ El 50% de los alumnos ha sacado una nota menor o igual que 5]
¿ Que nota no ha sido superada por el 75% de los alumnos?
P75 = ?
35
3.1.4 Percentiles
- La idea de percentil generaliza a la mediana.
- El percentil de orden α, con 0 < α < 100, es aquel punto que deja
a su izquierda el α% de las observaciones y a su derecha (100−α)% de las
observaciones.
- Se denota Pα
P20 es el valor que deja el 20% de las observaciones a su izquierda,
P55 el que deja un 55%, etc.
Observese que P50 =me.
- El calculo de los percentiles es analogo al de la mediana, pero susti-
tuyendo n/2 = n× 50/100 por
nα/100.
En particular, la formula para el caso continuo sera
Pα = Li−1 + aiαn/100−Ni−1
Ni −Ni−1
36
- Los percentiles
• P25
• P50
• P75
tambien se llaman cuartiles y dividen a los datos en 4 partes con igual
numero de observaciones.
Tambien se representan por Q1, Q2 y Q3
37
- Ejemplo
Para calcular el tercer cuartil, P75 = Q3, con los datos del ejemplo de las
notas de Matematicas
xi ni Ni fi Fi
3 2 2 0.133 0.133
4 4 6 0.266 0.4
5 4 10 0.266 0.666
6 2 12 0.133 0.8
7 3 15 0.2 1
15 1
- En la columna Ni buscamos 75n/100 = 11.25.
- Se busca el primer valor cuya frecuencia absoluta acumulada sea mayor
o igual que 11.25, que en este caso es xi = 6 con Ni = 12, y entonces
Q3 = P75 = xi = 6,
[ Un 75% de los alumnos ha sacado una nota menor o igual
que 6].
38
- Ejemplo Calculemos P20 para los datos del Ejemplo 2.
(Li−1, Li] ni Ni fi Fi xi ai hi
(0,1] 2 2 0.1 0.1 0.5 1 2
(1,3] 3 5 0.15 0.25 2 2 1.5
(3,5] 5 10 0.25 0.5 4 2 2.5
(5,6] 2 12 0.1 0.6 5.5 1 2
(6,8] 3 15 0.15 0.75 7 2 1.5
(8,10] 5 20 0.25 1 9 2 2.5
20 1
- En este caso, hay que buscar aquel intervalo (Li−1, Li] tal que Ni−1 <
20n/100 = 4 ≤ Ni.
- El primer intervalo con frecuencia absoluta acumulada mayor o igual
que 4 es (1, 3], y por tanto
P20 = Li−1 + aiαn/100−Ni−1
Ni −Ni−1=
1 +
(2
4− 2
5− 2
)= 1 + 1.34 = 2.34 .
[ En el 20% de las muestras el tiempo de reaccion es menor
o igual a 2.34 segundos ]
39
3.2 Medidas de dispersion
Si yo me he comido un pollo y tu ninguno, “en media” nos hemos comido
“medio” pollo.
Dado que las medidas de localizacion resumen los datos en un valor,
es interesante conocer si este valor representa bien la serie, es decir, si los
datos se encuentran concentrados en torno a este valor, o bien estan muy
dispersos.
Las medidas de dispersion sirven para medir la representativi-
dad de las medidas de localizacion.
40
3.2.1 Rango o recorrido
Rango es el mayor valor observado menos el menor.
Matematicamente
Rango = xmax − xmin
Si los datos estan agrupados por intervalos, se tomarıa xmax como el
extremo derecho del ultimo intervalo y xmin como el extremo izquierdo del
primer intervalo.
- En el ejemplo 1, de las notas de Matematicas, el rango vale
Rango = 7− 3 = 4 .
- En el ejemplo 2, de los tiempos de reaccion de una sustancia quımica,
el rango es
Rango = 10− 0 = 10 .
3.2.2 Recorrido intercuartılico
Se denota por IQR y se define como
IQR = Q3 −Q1 .
- En el ejemplo 1, IQR = 6− 4 = 2 .
- En el ejemplo 2, IQR = 8− 3 = 5 .
41
3.2.3 Varianza y desviacion tıpica
- Se define la varianza, que denotaremos por S2, como
S2 =
n∑i=1
(xi − x)2
n=
k∑i=1
(xi − x)2ni
n
[ los xi denotan las observaciones o las marcas de clase en el caso agru-
pado].
- En la practica:
S2 =
k∑i=1
x2ini
n− x2 .
- Otra forma de denotar la varianza de una variable X es V ar(X).
Propiedades
1. S2 ≥ 0.
2. S2 = 0 ⇐⇒ los valores observados son todos iguales.
3. Si yi = a + bxi, entonces
S2y = b2S2
x
donde S2y es la varianza de Y y S2
x es la varianza de X .
4. Las unidades en que se mide la varianza son las de los datos (X) al
cuadrado.
42
- Desviacion Tıpica:
Se define como
S = +√S2.
Propiedades:
• S ≥ 0.
• S = 0 ⇐⇒ S2 = 0 ⇐⇒ los valores observados son todos iguales.
• Si Y = a + bX ⇒
Sy = |b|Sx.
• Las unidades en que se mide la desviacion tıpica son las mismas
que las de los datos.
43
3.2.4 Coeficiente de variacion:
El problema que plantea el uso de la varianza y de la desviacion
tıpica, como medidas de dispersion, es la dependencia de las unidades.
Por ello, es conveniente definir una medida adimensional de dis-
persion (es decir, que no tenga unidades), que sea objetiva y ademas, que
permita la comparacion de la dispersion entre distintas va-
riables.
Definicion: Si x 6= 0, el coeficiente de variacion se define como
CV = 100 · S|x|
- Cuanto mas se separen las observaciones de la media, mayor es la
dispersion y el valor de la varianza, y por tanto mayor es el coeficiente de
variacion.
- Cuanto menor sea S, mas representativa es la media y por tanto menor
es el coeficiente de variacion.
44
Ejemplo coeficiente de variacion
Comparamos la dispersion de las siguientes dos variables
Planteamos:
X : peso en Kgs.
Pesos: 79.2; 64.0; 67.0; 78.4; 66.0; 63.0; 65.9; 63.1; 73.2; 66.5
x = 68.63, S2X = 33.334, SX = 5.7736.
Y : ingestion en Kcal.
Ingestion: 2.6; 0.8; 1.2; 2.6; 1.2; 0.8; 1.2; 1.1; 1.8; 1.2
y = 1.45, S2Y = 0.3985, SY = 0.6313.
¿ Como comparar la dispersion ?
Tenemos dos variables distintas, medidas en distintas unidades
Coeficiente de variacion:
CV =S
|x|× 100
Ası:
CVx =SX|x|
100 =5.7736
68.63× 100 = 8.4
CVy =SY|y|
100 =0.6313
1.45× 100 = 43.54
45
- Propiedades del coeficiente de variacion:
• El coeficiente de variacion es adimensional.
• Menor dispersion ≡ ≡ menor coeficiente de variacion ≡≡mayor representatividad de la media.
Habıamos obtenido:
CVx =Sx|x|
100 =5.7736
68.63× 100 = 8.4
CVy =Sy|y|
100 =0.6313
1.45× 100 = 43.54
La dispersion relativa del peso es menor que la de la in-
gestion en Kcal.
46
top related