ejercicios bioestadistica

97
9. Cuestionario de Autoevaluación. Fundamentos de Bioestadística 165 Problema 1 Vamos a calcular un límite de velocidad de una carretera recientemente inaugurada, para ello supondremos que la mayor parte de los conductores limita, de motu propio, su velocidad en función de las características de la misma (curvas, estado del firme, lluvia, luminosidad ambiente,...) y sólo un pequeño porcentaje de conductores circula a velocidades peligrosas. Antes de imponer un límite en un tramo se toman datos de velocidades y se determina el percentil que corresponde a ese límite a partir del cual la velocidad se considera peligrosa. Normalmente se utiliza el percentil 85 aunque si las condiciones queremos que sean muy estrictas puede utilizarse el percentil 80 o incluso el 75. Hemos medido la velocidad de 80 vehículos en un determinado tramo de carretera y hemos obtenido: Velocidad (km/h) Número de automóviles Velocidad (km/h) Número de automóviles 50 1 110 24 60 1 120 10 70 4 130 5 80 5 140 2 90 8 150 2 100 16 160 2 Se pide: a. Haz una tabla que tenga las siguientes seis columnas: x i , f i , x i ·f i , x i -M, (x i - M) 2 , f i ·(x i -M) 2 b. Calcula la media, varianza, la desviación típica y el coeficiente de variación c. Calcula los tres cuartiles d. Calcula los percentiles 85, 80 y 75 e. ¿Cuál sería el límite de velocidad que recomendarías poner en ese tramo? f. Calcula el coeficiente de asimetría de Pearson de este conjunto de datos.

Upload: nano-alvarez-canas

Post on 05-Dec-2014

188 views

Category:

Documents


7 download

TRANSCRIPT

Page 1: ejercicios bioestadistica

9. Cuestionario de Autoevaluación.

Fundamentos de Bioestadística 165

Problema 1

Vamos a calcular un límite de velocidad de una carretera recientemente inaugurada,

para ello supondremos que la mayor parte de los conductores limita, de motu propio, su

velocidad en función de las características de la misma (curvas, estado del firme, lluvia,

luminosidad ambiente,...) y sólo un pequeño porcentaje de conductores circula a velocidades

peligrosas. Antes de imponer un límite en un tramo se toman datos de velocidades y se

determina el percentil que corresponde a ese límite a partir del cual la velocidad se considera

peligrosa. Normalmente se utiliza el percentil 85 aunque si las condiciones queremos que

sean muy estrictas puede utilizarse el percentil 80 o incluso el 75. Hemos medido la

velocidad de 80 vehículos en un determinado tramo de carretera y hemos obtenido:

Velocidad

(km/h)

Número de

automóviles

Velocidad

(km/h)

Número de

automóviles

50 1 110 24

60 1 120 10

70 4 130 5

80 5 140 2

90 8 150 2

100 16 160 2

Se pide:

a. Haz una tabla que tenga las siguientes seis columnas: xi, fi, xi·fi, xi-M, (xi-

M)2, fi·(xi-M)

2

b. Calcula la media, varianza, la desviación típica y el coeficiente de variación

c. Calcula los tres cuartiles

d. Calcula los percentiles 85, 80 y 75

e. ¿Cuál sería el límite de velocidad que recomendarías poner en ese tramo?

f. Calcula el coeficiente de asimetría de Pearson de este conjunto de datos.

Page 2: ejercicios bioestadistica

9. Cuestionario de Autoevaluación.

166 Fundamentos de Bioestadística

Solución problema 1

a)

Rellenemos la tabla

xi

(km/h)

fi frecuencia

acumulada

fi ·xi

(km/h)

M

(km/h)

xi-M

(km/h)

fi·(xi-M)

(km/h)

(xi-M)2

(km/h)2

fi·(xi-M)2

(km/h)2

50 1 1 50 106.25 -56.25 -56.25 3164 3164

60 1 2 60 106.25 -46.25 -46.25 2139 2139

70 4 6 280 106.25 -36.25 -145 1314 5256

80 5 11 400 106.25 -26.25 -131.25 689 3445

90 8 19 720 106.25 -16.25 -130 264 2113

100 16 35 1600 106.25 -6.25 -100 39 625

110 24 59 2640 106.25 3.75 90 14 338

120 10 69 1200 106.25 13.75 137.5 189 1891

130 5 74 650 106.25 23.75 118.75 564 2820

140 2 76 280 106.25 33.75 67.5 1139 2278

150 2 78 300 106.25 43.75 87.5 1914 3828

160 2 80 320 106.25 53.75 107.5 2889 5778

80 8500 -15 0.0 33675

b)

La media es 8500

106.25 106 km/h80

M

La moda es Moda= 110 km/h

La varianza es22 33675

420.9 km/h80

S

La desviación típica es 2 420.9 =20.5 km/hS S

El coeficiente de variación es20.5

100 100 19.3%106

SCV

M

c)

Los cuartiles son

20 211

100 100100 /

2 2

x xQ km h

40 412

110 110110 /

2 2

x xQ km h

60 613

120 120120 /

2 2

x xQ km h

Page 3: ejercicios bioestadistica

9. Cuestionario de Autoevaluación.

Fundamentos de Bioestadística 167

d)

Los percentiles son

68 6985

120 120120 /

2 2

x xP km h

P85 se usa en condiciones normales de tráfico

64 6580

120 120120 /

2 2

x xP km h

P80 se usa con condiciones estrictas de tráfico: lluvia o viento

60 6175 3

120 120120 /

2 2

x xP km h Q

P75 se usa con condiciones muy estrictas de tráfico: lluvia intensa o viento fuerte o

nieve o la mezcla de lluvia y viento

e)

Es un tramo muy estable y seguro (probablemente sea plano, sin curvas y con buena

visibilidad), por lo que su velocidad límite es aconsejable que sea 120 km/h

f)

El coeficiente de asimetría de Pearson

106 1100.2

20.5

oP

M MA

S

La distribución tiene asimetría negativa, es decir, hay muchos datos que superan la

media, más de la mitad, en este caso hay 45 de 80.

Pero como Ap es pequeño (en porcentaje sería un 20%) la distribución de datos es

bastante cercana a la simétrica.

Media= 106 km/h, Mediana= 110 km/h,

Recordemos que la mediana siempre está entre la media y la moda, es decir:

0

5

10

15

20

25

30

50 60 70 80 90 100 110 120 130 140 150 160

mero

de v

eh

ícu

los

velocidad (km/h)

Histograma de las velocidades de 80 coches en un cierto tramo de carretera

Page 4: ejercicios bioestadistica

9. Cuestionario de Autoevaluación.

168 Fundamentos de Bioestadística

Problema 2

Las baterías Blink para los todoterreno duran una media de 3.0 años con una

desviación típica de 0.5 años. Suponiendo que las duraciones de dichas baterías están

distribuidas de manera normal, calcula qué porcentaje de ellas duran menos de 2.3 años.

Solución problema 2

En este problema se manejan datos cuya distribución se supone que es la normal

N(3.0, 0.5).

Tipificamos la variable para pasar a trabajar con N(0,1)

2.3 31.4

0.5z

-1.4) = P(z 1.4) = 1- -0.9192 = 0.0808

Damos la probabilidad en tanto por uno, como es habitual.

Si la multiplicamos por 100 obtenemos la probabilidad en tanto por ciento. En este

caso es 8.08%.

Page 5: ejercicios bioestadistica

9. Cuestionario de Autoevaluación.

Fundamentos de Bioestadística 169

Problema 3

Lámparas Muchaluz fabrica focos que tienen una duración distribuida normalmente

con una media de 800 horas y una desviación típica de 40 horas. Calcula la probabilidad de

que un foco dure entre 778 y 834 horas.

Solución problema 3

La normal de las lámparas es N(800, 40).

Tipificamos los dos valores de la variable para trabajar con N(0,1)

1

778 8000.55

40z

2

834 8000.85

40z

La probabilidad que deseamos encontrar coincide con el área de la zona sombreada.

El área desde hasta 0.85 vale 0.8023. El área desde hasta -0.55 coincide con

el área desde +0.55 hasta , que vale 1-0.7088=0.2912. Recuerda que en la tabla de áreas de

la distribución normal no aparecen las z<0, por lo que hay que hacer uso de las propiedades

de simetría de la distribución normal.

Por tanto, podemos escribir:

- - -0.55) =

- (1 - = 0.8023 - (1 - 0.7088)=

= 0.8023 - 0.2912 = 0.5111

-0.55 0.85

0.55

Page 6: ejercicios bioestadistica

9. Cuestionario de Autoevaluación.

170 Fundamentos de Bioestadística

Problema 4

Un investigador publica un artículo en el que informa a la comunidad científica que

los ratones que ha utilizado en su experimento han vivido un promedio de 40 meses cuando

su dieta fue severamente restringida y posteriormente se enriqueció con un suplemento de

vitaminas y proteínas.

Suponiendo que los tiempos de vida de estos ratones se distribuyen normalmente con

una desviación típica de 6.3 meses, calcula la probabilidad de que un ratón dado viva

a. más de 32 meses

b. menos de 28 meses

c. entre 37 y 49 meses

Solución problema 4

a) En este problema trabajaremos con la distribución normal que describe el tiempo de

vida de los ratones, es decir, con la normal N(40, 6.3).

Como siempre vamos a manejar la N(0,1) porque su tabla de áreas acumuladas es

la que disponemos.

Tipificamos el primer valor de la variable, que es 32:

32 401.27

6.3z

El área que buscamos es

que coincide con

por lo que

-1.27) = 0.8980

-1.27

Page 7: ejercicios bioestadistica

9. Cuestionario de Autoevaluación.

Fundamentos de Bioestadística 171

b) Volvemos a tipificar el segundo valor de la variable, que es 28:

28 401.90

6.3z

28) -1.90) = 1 - 1.90) = 1- 0.9713 = 0.0287

c) Ahora tipificamos los dos valores de la variable de este apartado, que son 37 y 49:

1

37 400.48

6.3z

2

49 401.43

6.3z

- - -0.48) =

- (1 - 0.9236 - (1 - 0.6844) = 0.9236 - 0.3156 = 0.6080

Page 8: ejercicios bioestadistica

9. Cuestionario de Autoevaluación.

172 Fundamentos de Bioestadística

-0.6 0.6

Problema 5

Una máquina expendedora de agua está regulada de modo que descarga un promedio

de 200 mL por vaso. Si la cantidad de líquido descargado está distribuida normalmente con

una desviación típica de 15 mL. Calcula

a. El porcentaje de vasos que contendrá más de 224 mL

b. La probabilidad de que un vaso contenga entre 191 y 209 mL

c. El número de vasos que se derramarán si hemos comprado 1000 vasos de 230

mL para colocarlos en el depósito interior de la máquina

d. Calcula el volumen de agua que haga que el 25% de los vasos con menor

contenido no lo superen.

Solución problema 5

a) Ahora vamos a considerar la distribución normal que describe el volumen de líquido

que descarga la máquina expendedora, que es N(200 mL, 15 mL).

Como siempre queremos trabajar con N(0,1) porque su tabla de áreas acumuladas

es la que disponemos.

Tipificamos el primer valor de la variable, que es 224:

224 2001.6

15z

) = 1 - 1.6) = 1 - 0.9452 = 0.0548

b) Calculamos los dos nuevos valores de la variable tipificada:

1

191 2000.6

15z

2

209 2000.6

15z

El área que deseamos calcular es:

Y nos damos cuenta que es el doble de esta otra

- – 0.5) =

- 1 = 2·0.7257 - 1 = 0.4514

0 0.6

Page 9: ejercicios bioestadistica

9. Cuestionario de Autoevaluación.

Fundamentos de Bioestadística 173

c) Tipificamos ahora el valor de la variable, que es 230:

230 2002

15z

P(x 230) = P(z 2)= 1 - P(z 2) = 1 - 0.9772 = 0.0228

Como disponemos de 1000 vasos, los que se derramarán serán:

Nderramarán = Número de vasos · Prob. de derramarse = 1000·0.0228 = 22.8

Al llegar aquí debemos pensar la respuesta. Seguro que se derraman 22 vasos, el

problema son los decimales.

Con los 1000 vasos que disponemos no hay suficientes, según el cálculo de

probabilidades, para que se derramen 23; por lo que la solución es truncar el número

22.8, obteniéndose 22

d) Este apartado del problema es ligeramente diferente a todo lo anterior.

Ahora buscamos el primer cuartil de la distribución, si leemos detenidamente el

apartado d). Buscamos un valor de x que sea superado el 75% de las veces.

Es decir, buscamos un valor de z que deje a su izquierda un área de 0.25 y a su

derecha 0.75.

Con toda seguridad que z debe ser negativo, porque el área a su izquierda es

menor que 0.5.

El valor simétrico de z, su valor positivo, -z (recuerda que z es negativo) debe

dejar a su izquierda un área de 0.75. Seguro que si te hacemos un sencillo dibujo lo

entiendes mejor.

En la tabla de la distribución normal hay que buscar 0.75 en los valores interiores

de dicha tabla y los valores sombreados nos darán el valor de –z.

Para –z=0.68 el área a la izquierda es 0.7486, por lo tanto tomaremos este valor.

En un problema más adelante haremos un pequeño refinamiento, interpolaremos

linealmente, pero ahora no es necesario ser tan preciso.

Por tanto podemos escribir:

2000.68

15

xz

Despejando la x se obtiene 15 200 15·( 0.68) 200 189.8 mLx z

0.250.75

0.250.75

z -z

Truncar un número significa quedarnos con su parte entera.

Page 10: ejercicios bioestadistica

9. Cuestionario de Autoevaluación.

174 Fundamentos de Bioestadística

Problema 6

El coeficiente de intelectual de 600 solicitantes para ingresar en la universidad de

Vanderbilt tiene una distribución que se aproxima bastante a una normal de media 115 y

desviación típica de 12. Si Vanderbilt exige un coeficiente de inteligencia mínimo de 95.

¿Cuántos estudiantes serán rechazados independientemente de sus calificaciones?

Solución problema 6

La normal considerada es N(115,12)

Tipificamos la variable

95 1151.67

12z

Calculamos la probabilidad de ser rechazado

P(x -1.67) = 1 - 1.67) = 1 - 0.9525 = 0.0475

Rechazados = Número de solicitantes · Prob. de ser rechazado = 600·0.0475 = 28.5

Truncando, nuevamente volvemos a obtener la solución: 28 estudiantes de los 600

que lo han solicitado serán rechazados por la universidad de Vanderbilt

-1.67

Page 11: ejercicios bioestadistica

9. Cuestionario de Autoevaluación.

Fundamentos de Bioestadística 175

Problema 7

La etiqueta de un bote de leche en polvo nos indica que la masa envasada en él es de

465 g, cantidad que consideraremos como valor medio. En la cadena de envasado se aceptan

como válidos los botes en los que se ha introducido leche en polvo entre 415 g y 520 g.

Suponiendo que la masa envasada está distribuida normalmente con una desviación

típica de 30 g. Si tomamos una muestra aleatoria de 200 botes de la cadena de envasado,

¿cuántos de ellos serán rechazados?

Solución problema 7

La normal considerada es N(465 g, 30 g)

Tipificamos los dos valores de la variable x

1

415 4651.67

30z

2

520 4651.83

30z

Calculamos la probabilidad de ser aceptado:

- - -1.67) =

- (1 - – (1-0.9525) = 0.9664-0.0475 = 0.9189

Luego la probabilidad de ser rechazado es la complementaria

Prechazo= 1-0.9189=0.0811

Por tanto, en esa muestra aleatoria de 200 botes, tenemos que la probabilidad de ser

rechazado es:

Probabilidad de ser rechazado = 200·0.0811 = 16.22

Truncando, nuevamente volvemos a obtener la solución: 16 botes de la muestra

aleatoria de 200 serán rechazados por tener un contenido que se considera defectuoso

-1.67 1.83

Page 12: ejercicios bioestadistica

9. Cuestionario de Autoevaluación.

176 Fundamentos de Bioestadística

Problema 8

Se define el índice cefálico (IC) de una persona como un número adimensional que

resulta de dividir la anchura del cráneo por su longitud y multiplicarlo por 100. Esta variable,

IC, se distribuye normalmente con media µ y desviación típica . Sabiendo que hay un 58%

de dolicocéfalos (IC menor o igual que 75), un 38% de mesocéfalos (IC mayor que 75 y

menor o igual que 80) y un 4% de braquicéfalos (IC mayor que 80), calcula M y S.

Solución problema 8

En este problemas no conocemos ni la M ni la S de la distribución normal y debemos

calcularlas usando la información proporcionada por el enunciado.

Como tenemos dos incógnitas bastará con que planteemos un sistema de dos

ecuaciones con dos incógnitas y por eso la información sobre los mesocéfalos no la vamos a

tener en cuenta, porque resultaría redundante. Descartamos los mesocéfalos, pero igualmente

podríamos descartar cualquiera de los otros dos grupos.

La información que vamos a manejar es la siguiente

P(

P( P( – 0.04 = 0.96

Usando la primera de la dos probabilidades

P(

Debemos buscar un área de 0.58 en la tabla de la distribución normal, en el interior

de la tabla. Encontramos un valor muy aproximado que es 0.5793 que corresponde a un

valor de z de 0.20.

Usando el cambio de variable de tipificación

750.2

Mz

S

Quitando denominadores tenemos la primera ecuación de las dos que debo encontrar

75 0.2M S

La otra ecuación la vamos a obtener usando la otra probabilidad

P(

Buscando 0.96 en la tabla de área acumuladas encontramos un valor muy

aproximado, 0.9599, que corresponde a una z de 1.75.

Volviendo a tipificar

801.75

Mz

S

Quitamos denominadores

80 1.75M S

Juntamos las dos ecuaciones para que se vea claramente el sistema a resolver

Page 13: ejercicios bioestadistica

9. Cuestionario de Autoevaluación.

Fundamentos de Bioestadística 177

75 0.2

80 1.75

M S

M S

Si a la segunda ecuación le restamos la primera obtenemos

55 1.55 3.22

1.55S S

Sustituyendo en la primera ecuación del sistema, podemos despejar M

75 0.2 75 0.2 75 0.2·3.22 74.4M S M S

El profesor de anatomía sueco Anders Retzius (1796–1860) usó por primera vez el

índice cefálico en la antropología física para clasificar los restos humanos antiguos hallados

en Europa.

Retzius clasificó los cráneos en tres categorías principales: «dolicocéfala» (del griego

antiguo kephalê, ‘cabeza’, y dolikhos, ‘largo y delgado’), «braquiocéfala» (corta y ancha) y

«mesocéfala» (largo y ancho intermedios).

Page 14: ejercicios bioestadistica

9. Cuestionario de Autoevaluación.

178 Fundamentos de Bioestadística

Problema 9

La estatura de 1000 estudiantes de un Instituto de Enseñanza Secundaria está

distribuida normalmente con una media de 168 cm y una desviación típica de 5 cm. Calcula:

a. El número de estudiantes con estatura entre 165 y 175 cm

b. El número de estudiantes con estatura superior a 180 cm

Solución problema 9

a)

Las alturas satisfacen la distribución normal N(168 cm, 5 cm)

Tipificamos los dos valores

1

165 1680.6

5z

2

175 1681.4

5z

Buscamos la siguiente probabilidad

- - -0.6) =

- (1 -

= 0.9192 – (1-0.7257) =0.9192-0.2743=0.6449

Como hay 100 estudiantes en el IES, los que están en este intervalo de alturas son

Nalumnos=1000·0.6449=644.9

Nuevamente truncando encontramos la solución: 644 alumnos

b)

Tipificando

180 1682.4

5z

P(x 180) = P(z 2.4)= 1 - P(z 2.4) = 1 - 0.9918 = 0.0082

Conocida la probabilidad podemos obtener cuántos alumnos satisfacen esta condición

Nalumnos=1000·0.0082=8.2

Truncando encontramos la solución: 8 alumnos

-0.6 1.4

2.4

Page 15: ejercicios bioestadistica

9. Cuestionario de Autoevaluación.

Fundamentos de Bioestadística 179

Problema 10

Calcula la media y a desviación típica de una variable aleatoria, x, que cumple una

distribución normal, sabiendo que la probabilidad de que x sea mayor o igual que 3 es

0.8413 y que la probabilidad de que x sea menor o igual que 9 es 0.9772.

Solución problema 10

Las probabilidades de las que habla el enunciado son

P(x1 3) = 0.8413 P(x1 3) = 1 - 0.8413 = 0.1587

P(x2 9) = 0.9772

La distribución normal de este problema es de media y desviación típica

desconocidas

Buscamos un valor z1, correspondiente a x1, que deja un área de 0.1587 a su

izquierda.

Como este área es menor que 0.5, z1 debe ser negativo.

Usando las propiedades de simetría de la distribución normal, el simétrico de z1 (que

será positivo y lo escribiremos como –z1) debe dejar a su izquierda 1-0.1587=0.8413.

Buscándolo en la tabla, encontramos que -z1= 1 y por tanto z1=-1.

Tipificando el primer valor

1

31 3

Mz M S

S

El segundo valor que buscamos es z2, correspondiente a x2, que deja un área de

0.9772 a su izquierda.

Buscándolo en la tabla, encontramos que z2= 2.

Tipificando el segundo valor

2

92 9 2

Mz M S

S

Hemos obtenido dos ecuaciones que forman un sistema de dos ecuaciones con dos

incógnitas.

3

9 2

M S

M S

Vamos a resolverlo.

Restándole a la segunda la primera

6=3S S=2

Sustituyendo en la primera (por ejemplo)

3 3 3 2 5M S M S

Por tanto la normal solicitada es N(5, 2)

Page 16: ejercicios bioestadistica

9. Cuestionario de Autoevaluación.

180 Fundamentos de Bioestadística

Problema 11

La media de una variable aleatoria normal, x, es 5 veces la desviación típica y

además la probabilidad de que x sea menor o igual que 6 es 0.8413. Calcula la media y la

desviación típica.

Solución problema 11

Tenemos dos incógnitas M y S.

El propio enunciado nos proporciona una de las ecuaciones que necesitamos

M=5S

La otra ecuación la debemos sacar de la probabilidad

P(x 9) = 0.8413

Buscando 0.8413 en la tabla de la distribución normal, obtenemos que z=1

Tipificando la x

61 6

Mz M S

S

Por tanto, el sistema de ecuaciones es

M=5S

6-M=5

Sustituyendo M por 5S en la segunda ecuación podemos escribir

6 6 5 6 6 1M S S S S S

Si la desviación típica vale 1, la media vale

M=5S=5

Por tanto la normal de este problema es

N(5, 1)

Page 17: ejercicios bioestadistica

9. Cuestionario de Autoevaluación.

Fundamentos de Bioestadística 181

Problema 12

En una distribución N(163,12) calcula dónde están los percentiles 10 y 90.

Solución problema 12

El percentil 90 es un valor de x (lo llamaremos x90) que deja a la izquierda el 90% de

los valores.

Hay que buscar, en la tabla de áreas acumuladas de la distribución normal, el valor

0.9000 en la parte interior de la tabla. Encontramos 0.8997 (muy cercano al valor deseado)

correspondiente a z= 1.28.

Tipificando la x

9090 90

1631.28 12·1.28 163 178.36

12

xz x

Usando las propiedades de simetría de la distribución normal, nos podemos dar

cuenta que la z correspondiente al percentil 10 (la llamaremos z10) debe ser la simétrica de la

z90. Es decir

10 90 1.28z z

Tipificando

1010 10

1631.28 12·( 1.28) 163 147.64

12

xz x

Por tanto, el percentil 90 vale 178.36 y el percentil 10 vale 147.64:

90

10

178.36

147.64

P

P

z90

Page 18: ejercicios bioestadistica

9. Cuestionario de Autoevaluación.

182 Fundamentos de Bioestadística

Problema 13

Calcula el rango intercuartílico de una distribución normal de media M y desviación

típica S, comprobando que es independiente de M y sólo depende de S.

Solución problema 13

El rango intercuartílico se define como 3 1RI Q Q

Si llamamos x3 al valor de la variable x que corresponde al cuartil 3, su z3

correspondiente deja a la izquierda un área de 0.75.

Buscamos en la tabla de áreas acumuladas de la distribución normal el valor de 0.75.

Hay dos valores muy próximos

La z más pequeña es: z1= 0.67 cuya área es 0.7486

La z más grande es: z2 =0.68 cuya área es 0.7517

El valor que estamos buscando está justo en medio de estos dos. A este hecho de

obtener un valor que no aparece en una tabla, se le denomina interpolación lineal y es la

interpolación más sencilla (hay interpolaciones parabólicas y de orden superior; pero no las

vamos a considerar).

Por tanto podemos escribir

1 23

0.67 0.680.675

2 2

z zz

En un problema anterior no hicimos la interpolación lineal, no calculamos la media

de los dos valores, simplemente nos quedamos con el valor más cercano. Aquí hemos

refinado un poco más nuestro cálculo.

Tipificando x3

33 30.675 0.675

x Mz x S M

S

Si llamamos x1 al valor de la variable x que corresponde al cuartil 1, su z1

correspondiente deja a la izquierda un área de 0.25. Usando las propiedades de simetría de la

distribución normal, nos podemos dar cuenta que la z1 correspondiente al cuartil 1 debe ser

la simétrica de la z3 del cuartil 3. Es decir

1 3 0.675z z

Tipificando

11 10.675 0.675

x Mz x S M

S

Por tanto, el rango intercuartílico es

3 1 3 1 (0.675 ) ( 0.675 ) 2 0.675 1.35RI Q Q x x S M S M S S

Podemos comprobar que el RI no depende de M y es directamente proporcional a S.

Page 19: ejercicios bioestadistica

9. Cuestionario de Autoevaluación.

Fundamentos de Bioestadística 183

Veamos dos ejemplos, aunque el problema no los pide, pero para aclarar mejor este

último hecho.

La normal N(150, 20) tiene un RI que vale

11.35 1.35·20 27RI S

Otra normal N(400,20) tiene el mismo RI que es

21.35 1.35·20 27RI S

Ambas normales tienen el mismo RI porque tienen la misma S.

A fin de cuentas RI y S son estadígrafos que nos describen la dispersión de los datos.

Al tener las dos normales la misma S, pues tienen la misma RI.

Page 20: ejercicios bioestadistica

9. Cuestionario de Autoevaluación.

184 Fundamentos de Bioestadística

Problema 14

Un restaurante de Segovia está especializado en el cochinillo asado. La materia prima

se la suministra una granja ecológica cercana. El cocinero del restaurante, tras varios años de

experiencia, ha llegado a la conclusión de que la masa de los cerdos sigue una distribución

normal. Recientemente ha comprado 1000 animales de los cuales 330 tenían menos de 2780

g y sólo 75 rebasaron los 3720 g.

a. Calcula la media y la desviación típica de esta distribución normal.

b. El cocinero considera impresentable todo cochinillo que tenga menos de 2600

g, el cual devuelve a la granja para que lo engorden. ¿Cuántos habrá devuelto

de los 1000 que compró?

Solución problema 14

Este problema encierra una dificultad, no conocemos ni la media ni la desviación

típica de la distribución normal de los cochinillos y nos piden que calculemos el número de

cochinillos devueltos. Vayamos paso a paso.

a)

En este apartado vamos a calcular M y S.

El enunciado del problema primero dice que 330 cochinillos de los 1000 tienen una

masa inferior a 2780 g. Esto se puede expresar matemáticamente como

330( 2780) 0.33

1000

casos favorablesP x

casos posibles

A continuación el enunciado del problema afirma que 75 cochinillos de los 1000

tienen una masa superior a 3720 g. Esto se puede expresar matemáticamente como

75( 3720) 0.075

1000

casos favorablesP x

casos posibles

La primera probabilidad nos permitirá obtener una z1 que deje a su izquierda un área

de valor 0.33. Esto quiere decir que z1 es negativa al ser esta área menor que 0.5. Si

buscamos su simétrico, -z1 (que es positivo), dejará a su izquierda 1-0.33=0.67. Buscando en

la tabla de áreas acumuladas de la distribución normal obtenemos

-z1= 0.44 z1=-0.44

Tipificando

2780-M 0.44 2780 - 0.44

S

x Mz M S

S

La segunda probabilidad nos permitirá obtener una z2 que deje a su derecha un área

de valor 0.075. A su izquierda deja 1-0.075= 0.925. Buscando en la tabla de áreas

acumuladas de la distribución normal obtenemos

z2=1.44

Page 21: ejercicios bioestadistica

9. Cuestionario de Autoevaluación.

Fundamentos de Bioestadística 185

Tipificando:

3720-M 1.44 3720 - 1.44

S

x Mz M S

S

Hemos obtenido 2 ecuaciones con 2 incógnitas

2780 - 0.44

3720 - 1.44

M S

M S

Restándole a la segunda ecuación la primera se obtiene

9401.88 940 500

1.88S S

Despejando M de la primera ecuación, podemos escribir

2780 - 0.44 2780 0.44 2780 0.44·500 3000M S M S

Por tanto los 1000 cochinillos suministrados tienen una masa que está distribuida

según la normal N(3000 g, 500 g).

b)

La probabilidad de que un cochinillo sea devuelto es igual a la probabilidad de que x

sea menor o igual que 2600.

Tipificando

2600 30000.8

500

x Mz

S

Debemos buscar el área a la izquierda de esta z=-0.8.

Usando las propiedades de simetría de la distribución normal, el área es la misma que

la que deja z=0.8 a su derecha. En la tabla nos aparece el área que tiene z=0.8 a la izquierda

-0.8) = - -0.7881 = 0.2119

Luego la probabilidad que tiene un cochinillo de ser rechazado

Prechazo= 0.2119

Rechazados = Tamaño de la muestra · Probabilidad de ser rechazado =

=1000·0.2119 = 211.9

Truncando, nuevamente volvemos a obtener la solución:

211 cochinillos de los 1000 comprados serán rechazados por tener una masa que les

hace poco presentables al ser cocinados.

Page 22: ejercicios bioestadistica

9. Cuestionario de Autoevaluación.

186 Fundamentos de Bioestadística

Problema 15

En la tabla adjunta aparecen los varones entre 23 y 52 años que contrajeron

matrimonio, por primera vez, en el año 1995

intervalo

de edad

Varones (miles)

23-27 40

28-32 100

33-37 40

38-42 10

43-47 8

48-52 2

Calcula el coeficiente de asimetría de Pearson de esta distribución.

Ayuda: Toma como representante de cada intervalo de datos el valor central, por

ejemplo, 25 para el primer intervalo.

Solución problema 15

Rellenamos la tabla:

xi

(años)

fi frecuencia

acumulada

fi ·xi

(años)

M

(años)

xi-M

(años)

(xi-M)2

(años)2

fi·(xi-M)2

(años)2

25 40 40 1000 31.3 -6.3 39.69 1587.6

30 100 140 3000 31.3 -1.3 1.69 169

35 40 180 1400 31.3 3.7 13.69 547.6

40 10 190 400 31.3 8.7 75.69 756.9

45 8 198 360 31.3 13.7 187.69 1501.52

50 2 200 100 31.3 18.7 349.69 699.38

200 6260 37.2 5262

Calculamos los estadígrafos:

626031.3 años

200M

Mo= 30 años Mediana= 30 años

22 526226.31 años

200S

2 26.31 = 5.13 añosS S5.13

100 100 16.4%31.3

SCV

M

31.3 300.25

5.13P

M MoA

S

Page 23: ejercicios bioestadistica

9. Cuestionario de Autoevaluación.

Fundamentos de Bioestadística 187

Asimetría positiva, la media se encuentra a la derecha de la moda y de la mediana.

La distribución de datos es claramente asimétrica como podemos ver en el siguiente

histograma:

Mientras que en este otro diagrama de sectores (también llamado circular o diagrama

de tarta) no se aprecia esta asimetría de los datos.

Este otro diagrama de sectores es igual que el anterior, pero nos muestra un efecto

tridimensional que resalta la clase 28-32 años como la más abundante, con un porcentaje del

50%.

0

20

40

60

80

100

23-27 28-32 33-37 38-42 43-47 48-52

Va

ron

es

(m

ile

s)

Edad de los varones (años)

Edad de los varones en su primer matrimonio

20%

50%

20%

5%

4% 1%

Edad de los varones primer matrimonio

23-2728-3233-3738-4243-4748-52

20% 50%

20% 5%

4%

1%

Estudio sobre la edad doscientos mil

varones en su primer matrimonio

23-27

28-32

33-37

38-42

43-47

Page 24: ejercicios bioestadistica

9. Cuestionario de Autoevaluación.

188 Fundamentos de Bioestadística

Problema 16

La universidad de Hamburgo crea los estudios de Criminología con 120 plazas para

el primer curso. Para estas 120 plazas recibe 800 solicitudes y el único criterio para proceder

a la selección de los alumnos aspirantes es la nota de Selectividad de cada uno de ellos.

Suponiendo que esta nota de Selectividad es una distribución normal de media 7.3 y

desviación típica 0.7, calcula cuál será la nota de corte necesaria para obtener una de las 120

plazas. Da el resultado hasta las centésimas.

Solución problema 16

La distribución de la notas es una normal N(7.3, 0.7).

La probabilidad de entrar en la universidad de Hamburgo es

1200.15

800entrarP

De los 800 aspirantes a entrar sólo entran el 15% de los que tienen la nota más alta.

Queremos obtener un valor de z que deje a su derecha un 0.15 o lo que es lo mismo

un 0.85 a la izquierda.

Tomaremos como valor de z el más cercano a 0.85

z=1.04.

Tipificando y despejando obtenemos la nota de corte

7.31.04 7.3 1.04 0.7 8.03

0.7

x M xz x

S

Page 25: ejercicios bioestadistica

9. Cuestionario de Autoevaluación.

Fundamentos de Bioestadística 189

Problema 17

La presión arterial en reposo de los escolares con edades comprendidas entre 10 y 13

años es una distribución normal de media 120 mm de Hg y de desviación típica 15 mm de

Hg. Calcula el porcentaje de escolares entre 10 y 13 años que tienen

a. Una presión arterial inferior a 104 mm de Hg

b. Una presión arterial superior a 110 mm de Hg

c. Calcula la presión arterial por debajo de la cual se encuentra el 80% de los

escolares entre 10 y 13 años, es decir, calcula el percentil 80 de esta

distribución normal.

Solución problema 17

a)

La presión arterial es una normal N(120, 15) medidos los datos en mm de Hg.

Tipificando

104 1201.07

15

x Mz

S

P(x -1.07) = 1 - 1.07) = 1 - 0.8577 = 0.1423

b)

Volvemos a tipificar

110 1200.67

15

x Mz

S

P(x 110) = P(z -0.67) = P(z 0.67) = 0.7486

c)

Calculemos el percentil 80

La z que tiene a su izquierda un área acumulada de 0.8 es

Z=0.84

Deshaciendo el cambio de variable de tipificación obtenemos el P80

120 0.58 15 132.6x M

z x M zSS

P80 = 132.6 mm Hg

Page 26: ejercicios bioestadistica

9. Cuestionario de Autoevaluación.

190 Fundamentos de Bioestadística

Problema 18

De una población N(5,0.04) se obtienen muestras aleatorias de tamaño 2.

Determinar la distribución de la media muestral.

Solución problema 18

Tenemos una población N(5,0.04) de la que obtenemos muestras de tamaño 2, por lo

que podemos calcular la DMM de forma que:

SE = =.

= 0.028 y por tanto DMM será N(5,0.028).

Page 27: ejercicios bioestadistica

9. Cuestionario de Autoevaluación.

Fundamentos de Bioestadística 191

Problema 19

Una empresa fabrica bombillas que tienen una duración distribuida en forma

aproximadamente normal, con media igual a 800 horas y desviación típica de 40 horas.

Obtener la probabilidad de que una muestra aleatoria de 16 focos tenga una duración de

menos de 775 horas.

Solución problema 19

La DMM de 16 focos será N(800,SE) = N(800,10) que obtenemos a partir de:

SE = = = 10

Tipificamos el valor que nos piden:

z = =

= -2.5

Buscamos en las tablas:

P(æ 775) = P(z -2.5) = P(z 2.5) = 1-P( z 2.5) =

= 1 - 0.9938 = 0.0062.

Page 28: ejercicios bioestadistica

9. Cuestionario de Autoevaluación.

192 Fundamentos de Bioestadística

Problema 20

Supóngase que las alturas de 3000 estudiantes de una universidad se

distribuyen normalmente con media 172.7 cm y desviación típica 7.5 cm. Si se

toman 80 muestras de 25 estudiantes cada una, ¿cuál será la media y la

desviación típica esperada de la distribución muestral de medias resultante?

Solución problema 20

Nos dan los datos de la población, de manera que la DMM será N(µ,SE) donde

µ=172.7, por tanto calculamos SE para nuestras muestras que tienen N=25.

SE= =.

=1.5 cm

Por lo que N(172.7 cm, 1.5 cm)

Page 29: ejercicios bioestadistica

9. Cuestionario de Autoevaluación.

Fundamentos de Bioestadística 193

Problema 21

¿En cuántas muestras del problema anterior cabría esperar una media

a. entre 169.7 cm y 173.5 cm,

b. menor que 168.7 cm?

Solución problema 21

a)

Tipificamos los dos valores que nos piden, de acuerdo a los datos del problema

anterior: N(172.7 cm, 1.5 cm), de manera que:

x = 169.7 z =. .

.= - 2

x = 173.5 z =. .

.= 0.53

Por lo que:

P ( - – (1- P (

= 0.7019 – 1 + 0.9772 = =0.6791

Como tenemos 80 muestras, cabría esperar que:

N° muestras = 0.6791·80 = 54.3 54

b)

De la misma manera:

x = 168.7 z = . .

.= -2.67

Calculamos la probabilidad con ayuda de las tablas:

P ( -2.67) = 1 – - 0.9962 = 0.0038

Por lo que, como tenemos 80:

N° muestras = 0.0038 80 = 0.3 Ninguna.

Page 30: ejercicios bioestadistica

9. Cuestionario de Autoevaluación.

194 Fundamentos de Bioestadística

Problema 22

De una población normal de media y desviación típica desconocidas se ha

obtenido una muestra de 25 elementos que tiene como media aritmética 5 y

desviación típica 1.2 ¿Cuál es la probabilidad de que la media poblacional sea superior a

5.3?

Solución problema 22

Lo primero que hacemos es estimar el valor de la desviación típica de la población,

teniendo en cuenta que N<30:

S = 1.2 = 1.225

Así, podemos calcular el valor del error típico:

SE = =.

= 0.245

Para finalmente tipificar el valor que nos piden:

z = =.

.= 1.22

Y buscar el área en las tablas:

p (x 5.3) = p (z 1.22) = 1 – 0.8888 = 0.1112

Page 31: ejercicios bioestadistica

9. Cuestionario de Autoevaluación.

Fundamentos de Bioestadística 195

Problema 23

Calcula el tamaño de la muestra si se tiene una población de 1000 enfermos y se

quiere estimar, al nivel de 0.95, la media del número de glóbulos rojos/mm3

en sangre, con

un error menor que 100000. Supóngase que la desviación típica de población es 600000

glóbulos rojos/mm3.

Solución problema 23

A partir de la expresión del error típico, podemos despejar N:

SE = N =

E imponer la condición del enunciado, esto es, que 10 SE, por tanto:

SE = .

Con lo que finalmente podemos calcular N:

= 10 /1.96

= 1.96

10=

1.96 · 6 · 10

10= 138.29

Por lo que N 139.

Page 32: ejercicios bioestadistica

9. Cuestionario de Autoevaluación.

196 Fundamentos de Bioestadística

Problema 24

Los reproductores de DVD que produce un fabricante A tienen una vida media de

6.5 años con una desviación típica de 0.9 años; mientras que los del fabricante B tienen una

vida media de 6.0 años, con una desviación típica de 0.8 años. ¿Cuál es la probabilidad de

que una muestra aleatoria de 36 reproductores de DVD del fabricante A tengan una vida

media que sea por lo menos un año mayor que la vida media de una muestra de 49

reproductores de DVD del fabricante B?

Solución problema 24

Fabricante A A=6.5años, A=0.9años, N=36.

Fabricante B B=6.0años, B=0.8años, N=49

A partir de las dos muestras calculamos:

N(MA ,.

)

DMD N (0.5, 0.189)

N(MB ,

.)

Así:

A – B ) =0,5

SEdif= + =.

+.

=0.189

De donde podemos calcular el valor de z:

z = =.

.= 2.65

Buscando en las tablas, podemos determinar que la probabilidad será:

P(z 2.65) = 1-P(z - 0.9960= 0.0040

Page 33: ejercicios bioestadistica

9. Cuestionario de Autoevaluación.

Fundamentos de Bioestadística 197

Problema 25

La longitud, en centímetros, de las piezas fabricadas por una cierta máquina se

distribuye según una distribución normal N(10, 0.5). Para muestras de tamaño 25, calcular:

P(9.68 x 10.1)

Solución problema 25

Nos caracterizan completamente la población de manera que se ajusta a N(10,0.5).

Lo primero que calculamos es:

Tipificamos la variable:

X=9.68 z1 =(x-M)/SE = (9.68-10)/0.1 = 3.2

X=10.1 z2 =(x-M)/SE = (10.1-10)/0.1 = 1

Por tanto:

- – (1- -1+0.9987 = 0.84

Page 34: ejercicios bioestadistica

9. Cuestionario de Autoevaluación.

198 Fundamentos de Bioestadística

Problema 26

El contenido en mineral, medido en g/kg, de un cierto producto alimenticio se sabe

que se distribuye según una ley normal, cuya media y varianza son desconocidas. Para

determinar un intervalo de confianza para la media poblacional, a nivel del 0.95, se extrae

una muestra de tamaño 10 resultando los siguientes contenidos en mineral:

1 2 3 4 5 6 7 8 9 10

3.0 2.5 1.7 1.8 1.9 3.2 2.6 2.3 1.5 2.9

Obtener el mencionado intervalo para la media de la población.

Solución problema 26

Tenemos una muestra de N=10, lo primero que calculamos es su media y desviación:

M=2.34, S= 0.5643 N(2.34, 0.5643)

Sabemos que con una probabilidad del 95%, µ M±1.96•SE

Como N<30:

=S

N 1=

0,5643

10 1= 0.1881

Con lo que podemos determinar que µ 2.34 ± 0.37 µ [1.97, 2.71] g/kg

Page 35: ejercicios bioestadistica

9. Cuestionario de Autoevaluación.

Fundamentos de Bioestadística 199

Problema 27

Se ha extraído una muestra de tamaño 40 de una población de 1000 individuos y se

han calculado la media y la varianza muestrales del número de glóbulos rojos/mm3

en

sangre, resultando M = 48·105; S

2=16·10

10. Calcular el intervalo de confianza de la media

poblacional, al nivel 0.95

Solución problema 27

Queremos calcular µ M ± 1.96 · SE. Como N 30 podemos calcular SE:

SE= =·

= 63246

1.96 · SE = 1.96 · 63246= 123961 = 120000 = 120 k glóbulos rojos /

De forma que µ 4800 ± 120 k./mm3

O lo que es lo mismo: µ [4680, 4920 ] kg/mm3

Page 36: ejercicios bioestadistica

9. Cuestionario de Autoevaluación.

200 Fundamentos de Bioestadística

Problema 28

Las bombillas eléctricas de un fabricante A tienen una duración media de 1400 horas

con una desviación típica de 200 horas, mientras que las de otro fabricante B tienen una

duración media de 1200 horas con una desviación típica de 100 horas. Si se toman muestras

al azar de 125 bombillas de cada fabricante, ¿cuál es la probabilidad de que las bombillas de

A tengan una duración media que sea al menos

a. 160 horas más que las bombillas de B?

b. 250 horas más que las bombillas de B?

Solución problema 28

Tenemos dos poblaciones de bombillas “A” con una distribución N(1400, 200) y otra

“B” con una N(1200, 100), lo primero en este caso es calcular:

DMD N (Mdif, SEdif)

1º) Mdif = MA – MB = 1400 -1200 horas = 200 horas

2º) Calculamos SEdif mediante la fórmula SEA2+SEB

2teniendo en cuenta que

N>30 y por lo tanto S es un buen estimador de :

SEdif= SEA2+SEB

2 =A

A

+B

B

=2

+2

= 20

Una vez obtenidos SEdif y Mdif, ya podemos tipificar las variables mediante:

z =( A B)

Así, z1 = = -2

Así, z2 = = 2.5

Buscamos los valores de las áreas en las tablas:

Para 160 horas más: probabilidad: P (z -2) = 0.9772

Para 250 horas más: probabilidad: P (z - P (z -0.9938 = 0.0062

Page 37: ejercicios bioestadistica

9. Cuestionario de Autoevaluación.

Fundamentos de Bioestadística 201

Problema 29

Los cojinetes de bolas de una determinada casa tienen una masa de 50 g con una

desviación típica de 2 g.¿Cuál es la probabilidad de que dos lotes de 1000 cojinetes cada uno

difieran en una masa total superior a 200 g?

Solución problema 29

Nos dicen que los cojinetes se distribuyen según N(50g, 2g) y que tenemos dos

muestras:

- Muestra A: 1000 cojinetes; N (50g, 2 1000 g)

- Muestra B: 1000 cojinetes; N (50g, 2 1000 )

DMD N (50-50, )

= ( ) +( ) ; sustituyendo obtenemos

= (2 1000) + (2 1000) = 0.08944.

Por tanto, DMD N (0, 0.8944). Así que tipificaremos según: z = ( )

Como entre los 1000 cojinetes hay una diferencia total de 200 g, la diferencia

existente entre dos cojinetes será de: 200 / 1000 = 0.2 g. Obtenemos por tanto un valor de z =

0.2 / 0.08944 = 2.24

Utilizando la tabla de frecuencias acumuladas podemos determinar que la proporción

de valores por dedajo de z = 2.24 es 0.9875 por tanto:

- - 0.9875 = 0.012

Nos dicen que la diferencia total debe ser mayor a 200 g, no nos dicen si una de las

muestras debe más pesada que la otra por lo que podremos tener los dos casos: que A pese

más que B y que B pese más que A, por lo que debemos aplicar el Test de las dos Colas:

-2.24) = 2 x 0.0125 = 0.0250 0.0250 x 100 = 2.5%

Page 38: ejercicios bioestadistica

9. Cuestionario de Autoevaluación.

202 Fundamentos de Bioestadística

Problema 30

Dos distancias se han medido obteniéndose unos valores de 27.3 cm y 15.6 cm, con

errores típicos de 0.16 cm y 0.08 cm, respectivamente. Determinar la media y la desviación

típica de

a. la diferencia de las distancias,

b. la suma de las distancias.

Solución problema 30

a)

Diferencia de las medias: Mdif = 27.3-15.6 = 11.7 cm

SEdif = + + =.

+ .

= 0.18 cm

Por tanto: Mdif = 11.70, S= 0.18 cm

b)

Suma de las medias: Msuma= 27.3 + 15.6= 42.9 cm

SEsuma= SEdif= 0.18 cm

Por tanto: Msuma = 42.90, S = 0.18 cm

Page 39: ejercicios bioestadistica

9. Cuestionario de Autoevaluación.

Fundamentos de Bioestadística 203

Problema 31

Un cierto tipo de bombilla eléctrica tiene una duración media de 1500 horas

y una desviación típica de 150 horas. Se conectan tres bombillas de forma que

cuando una se funde, otra sigue alumbrando. Suponiendo que las duraciones se distribuyen

normalmente, calcular la probabilidad de que se tenga luz

a. al menos 5000 horas,

b. como mucho 4200 horas

Solución problema 31

Este problema entraña cierta dificultad ya que disponemos tres bombillas de forma

que cuando una se apaga, ponemos otra. Así la duración media total de las tres bombillas

será la suma de la duración media de cada una de las bombillas.

NA (1500 , 150/ 1) horas Llamaremos XA a su duración

NB (1500 , 150/ 1) horas Llamaremos XB a su duración

NC (1500 , 150/ 1) horas Llamaremos XC a su duración

La duración total: D= XA + XB + XC N(MSUMA, SESUMA)

La distribución suma tendrá como media:

MSUMA= µA + µB + µC = 1500 + 1500 + 1500 = 4500

Al tener tres muestras, la SESUMA vendrá dada por la expresión:

SESUMA= SE + SE + SE = 150 + 150 + 150 = 150· 3 = 259,81 260 horas

a)

Al menos 5000 horas. Tipificamos la variable:

=D M

SE =

5000 4500

260=

500

260= 1, 92

- -0,9726=0,0274

b)

Como mucho 4200 horas. Tipificamos:

=D M

SE= =

4200 4500

260= =

300

260= 1,15

- - - 0,8749 = 0,1259

Page 40: ejercicios bioestadistica

9. Cuestionario de Autoevaluación.

204 Fundamentos de Bioestadística

VEAMOS OTRA FORMA DE RESOLVERLO:

Consideramos una muestra de 3 bombillas con DMM N(1500, 150/ 3)

Para que la duración total sea de 5000 horas, la duración de cada bombilla debe ser

de 5000/3, es decir, consideramos que la media de las muestras de las 3 bombillas es 5000/3

para que la duración total sea 5000 h. Tipificamos:

=x M

S=

50003

1500

SE=

50003

1500

150/ 3= 1,92

Y todo sale igual.

Page 41: ejercicios bioestadistica

9. Cuestionario de Autoevaluación.

Fundamentos de Bioestadística 205

Problema 32

El voltaje medio de una batería es de 15.0 V y una desviación típica de 0.2V ¿Cuál

es la probabilidad de que cuatro de estas baterías conectadas en serie tengan un voltaje

conjunto de 60.80 o más voltios?

Solución problema 32

Sabemos que las baterías se ajustan a una N(15.0 V, 0.2 V).

Como tenemos cuatro baterías conectadas en serie, el voltaje total será la suma del

voltaje de todas las baterías. Es un problema similar al anterior.

Podemos obtener una nueva distribución normal suma (DMS) tal que: N(MSUMA,

SESUMA) donde MSUMA se corresponde a la suma de las medias de las cuatro baterías:

MSUMA= 15.0 + 15.0 + 15.0 + 15.0 = 60.0 V

Y SESUMA se calculará teniendo en cuenta que ahora son 4 elementos:

SESUMA= + + + = 0.2 + 0.2 + 0.2 + 0.2 = 0.4 V

Con lo que la DMD será: N (60.0 V, 0.4 V).

Tipificamos el valor que nos piden —probabilidad de que tengan un voltaje igual o

superior a 60.8 voltios— con los datos de la nueva distribución:

z= . .

. =

.

. = 2

Buscando en la tablas obtenemos un valor de 0.9772. Que nos daría la probabilidad

de que la media fuera igual o inferior al valor 60.8; para obtener la probabilidad de que fuera

igual o superior le restamos la probabilidad total (P=1).

P (z 2) = 1 – P (z 2) = 1 – 0.9772 = 0.0228

Page 42: ejercicios bioestadistica

9. Cuestionario de Autoevaluación.

206 Fundamentos de Bioestadística

Problema 33

Se ha hecho un test de lectura en un colegio de educación primaria. La clase contaba

con 12 anglo-americanos y 10 hispanos. Los resultados del test han sido los siguientes:

- Anglo-americanos: M = 74, S = 8

- Hispanos: M = 70, S = 10

¿La diferencia entre ambos grupos es significativa al nivel de p = 0.05?

Solución problema 33

Estimamos la desviación típica de la población a partir de los datos de cada muestra,

teniendo en cuenta que N>30:

SN

N 1

Muestra A: Muestra B:

3557.811

128A 4868.9

9

1010B

La diferencia entre las dos medias será: D = MA-MB = 74 - 70 = 4

Calculamos los errores típicos de cada muestra para posteriormente calcular SEdif.

85.3

00.316.3

49,9

41.246.3

36,8

22

BAdif

B

A

SESESE

SE

NSE

Podemos calcular t:

038.185.3

4

dif

BA

SE

MMt

Y los grados de libertad v: v= (NA-1)+(NB-1) = 20.

Buscamos en la tabla el valor de tcrit, para v = 20 y p = 0.05 resultando ser 2.086.

Como en nuestro caso t < tcrit, podemos concluir en que la diferencia no es significativa, las

diferencias observadas se deben al muestreo y ambas muestras pertenecen a la misma

población.

Page 43: ejercicios bioestadistica

9. Cuestionario de Autoevaluación.

Fundamentos de Bioestadística 207

Problema 34

Tenemos dos muestras adecuadamente seleccionadas de la cuales medimos su

coeficiente intelectual (CI). Para el grupo 1 obtenemos: M1=104, S1=10 y N1= 16. Para el

grupo 2 obtenemos: M2=112, S2=8 y N1= 14. Averigua si, con un nivel de significación del

5%, hay una diferencia significativa entre ambos grupos.

Solución problema 34

Como nuestras muestras son inferiores a 30 debemos aplicar el test t y estimar a

partir de la desviación de cada muestra mediante:

Por tanto:

A = 10 = 10.3

B = 8 = 8.30

A continuación debemos hallar SE para poder calcular el estadígrafo t:

SE= , SEA =,

= 2.57 y SEB =,

= 2.21

Por lo que SEdif = + = 2.57 + 2.21 = 3.405

t=( )

=.

= 2.35

Ahora debemos calcular los grados de libertad: =( 1) + ( 1) = 28

Buscando en la tabla, no aparece el valor para 28, sino que los más cercanos son 25

y 30 para p=0,05: =25 tcrit = 2,060 y =30 tcrit =2.042

Como nuestro valor está justo entre medias de ambos, debemos interpolar el valor t

tcrit para v = 28:

tcrit

Page 44: ejercicios bioestadistica

9. Cuestionario de Autoevaluación.

208 Fundamentos de Bioestadística

Trazando un triangulo representando en el eje x los grados de libertad, y en el eje y

los valores tcrit, podremos calcular la pendiente de la recta = m-tan , m=.

= -0.0036

Formula de la recta es: y-y0=m(x-x0)

y-2.060=-0.0036(x-25)

y=-0.0036x+2.15

x=28; y=-0.0036*28+2.15=2.049

=28 tcrit=2.119

Como tcrit<t la diferencia es significativa con una significación del 5%. Por lo que

podemos concluir que puesto que t=2.35 no pertenece al intervalo [-2.049,2.049];

rechazamos H0 ya que las diferencias observadas son significativas, ambos grupos no

pertenecen a la misma población con un nivel de significación del 5%.

Page 45: ejercicios bioestadistica

9. Cuestionario de Autoevaluación.

Fundamentos de Bioestadística 209

Problema 35

Se ha realizado un test a dos grupos diferentes. El grupo experimental

(Grupo E) tiene 10 sujetos; el grupo control (Grupo C) tuvo 9 sujetos. Los resultados

pertenecen a una distribución normal y son los siguientes:

1 2 3 4 5 6 7 8 9 10

Grupo E 12 13 16 14 15 12 15 14 13 16

Grupo C 10 13 14 12 15 16 12 14 11 -

Determina si la diferencia existente entre los dos grupos es significativa

al 0.05 de nivel de significación.

Solución problema 35

Para determinar si existe una diferencia significativa entre los dos grupos

realizaremos un test t.

Primero calculamos los grados de libertad y buscamos en la tabla el valor de

para una p = 0.05:

= + 2 = 10 + 9 2 = 17

= 0.05

Como el valor que necesitamos no está en la tabla, en esta ocasión vamos a interpolar

de una forma más sencilla: restando ambos valores y dividiendo entre 5:

= 15 = 2.131

= 20 = 2.086

0.0450.045

5= 0.009

Y con este valor ya se puede calcular para = 17

= 17 (17) = (15) (2 0.009) = 2.131 0.018 = 2.113

= 2.113

A continuación, calcularemos la media y la desviación típica de ambos grupos, junto

con el error estándar: ME = 14 y MC = 13.

= 1.41 = =1

=1

=1.48

9= 0.49

= 1.83 = =1

=1

=1.83

8= 0.64

Y a continuación el error típico de la diferencia entre medias:

Page 46: ejercicios bioestadistica

9. Cuestionario de Autoevaluación.

210 Fundamentos de Bioestadística

= + = 0.49 + 0.68 = 0.81

Con este último valor se puede calcular el valor de t

=( ) ( )

=(14 13) 0

0.81=

1

0.81= 1.23

Y comprobamos que [ , ]; 1.23 [ 2.113, 2.113] por lo que

aceptamos H0, lo que significa que las medias de ambos grupos no difieren

significativamente al 5%.

Page 47: ejercicios bioestadistica

9. Cuestionario de Autoevaluación.

Fundamentos de Bioestadística 211

Problema 36

Se quiere contrastar al nivel p=0.10 la hipótesis nula de que la media de

las resistencias de las probetas de un cierto origen tienen media 250 kg/cm2

frente a la alternativa de que es distinta de dicho valor. Para ello se

obtiene una muestra de 20 probetas, siendo sus resistencias:

1 2 3 4 5 6 7 8 9 10

243 333 272 341 314 287 267 263 275 259

11 12 13 14 15 16 17 18 19 20

322 370 316 300 329 250 304 217 376 364

¿Qué podemos concluir sobre la media de estas probetas?

Solución problema 36

En primer lugar calcularemos la media, la desviación típica y el error típico de la

muestra de 20 probetas, obteniendo:

M= 300.1 kg/cm2

S= 43.41 kg/cm2

SEA= =

= 9.96

Para comprobar si se cumple H0 (la resistencia media de las probetas es 250 kg/cm2),

comparamos las medias de la muestra y de la población.

La población hace el papel de la segunda muestra y como su tamaño es mucho mayor

que la muestra:

SEB= 0 por lo que SEdif= + SEA= 9.96

t= =.

.= 5.03

= 20-1= 19

tcrít (

Nuestro valor de t es mayor que el valor de su tcrít, por lo que rechazamos la hipótesis

H0 y concluimos que la media no es 250 kg/cm2

al 90% (p=0.1).

Veamos otra forma de hacerlo. Para comprobar si H0 (la resistencia media de las

probetas es 250 kg/cm2) es cierta, calculamos cuál será el intervalo en el que se va a

encontrar la media de la población con un 90% de probabilidad (p= 0.10).

Page 48: ejercicios bioestadistica

9. Cuestionario de Autoevaluación.

212 Fundamentos de Bioestadística

µ se encontrará en el intervalo (300.1-1.65·SEA, 300.1+1.65·SEA) en el 90% de los

casos. Así: 1.65·SEA= 1.65·9.96= 16.434

Por tanto, el intervalo es (283.6, 316.5). Como ese intervalo no comprende el valor

250, rechazamos con un nivel de p= 0.10 la hipótesis nula y concluimos que la media no es

250 kg/cm2

al 90% (p<0.10).

Page 49: ejercicios bioestadistica

9. Cuestionario de Autoevaluación.

Fundamentos de Bioestadística 213

Problema 37

Un fabricante de focos anuncia que sus productos durarán en promedio 500 horas.

Para corroborar esto, prueba 10 focos cada mes. Si el grado de significación es el 5%

(p=0.05), el fabricante quedará satisfecho de su afirmación. ¿Qué conclusión se debe deducir

a partir de una muestra con una media M=518 horas y una desviación típica S=40 horas?

Supóngase que la distribución de tiempos de duración es aproximadamente normal.

Solución problema 37

En este problema, en el que realizaremos un test t, la población hará el papel de

segunda muestra. lo pr -1= 10-1= 9.

Puesto que queremos realizar el estudio con p = 0.05, buscamos en la tabla el valor

del tcrit: 2.262

Con los datos que tenemos, calculamos el valor de t:

= 40 = 42.164 SEA= =.

.= 13.3

SEdif= + A

t= .

= 1.35

La diferencia entre las medias de las 2 muestras (la de 10 focos y la de la población)

no es significativa en términos estadísticos ya que t [ í , í ] por lo que el fabricante

puede estar satisfecho.

Page 50: ejercicios bioestadistica

9. Cuestionario de Autoevaluación.

214 Fundamentos de Bioestadística

Problema 38

Una muestra aleatoria de 100 muertes registradas en los Estados Unidos el año

pasado mostró un promedio de vida de 71.8 años, con una desviación estándar de 8.9 años.

¿Podría esto indica que el promedio de vida actual es mayor que 70 años? Utilícese un nivel

de significación de 0.05 (p=0.05).

Solución problema 38

Es un problema similar al anterior, utilizamos la población como segunda muestra.

La primera muestra se caracteriza por N1 = 100, M1= 71.8 años, S1= 8.9 años y la población:

N2 = desconocido (muy grande), M2 = µ = 70 años, S2

con las siguientes hipótesis nula y alternativa:

Hipótesis nula (H0): µ = 70

Hipótesis alternativa (H1

Para aplicar el test z calculamos en primer lugar el error típico de la diferencia entre

las medias (SEdif):

SE = + = + 0 = =

.= 0.89

Una vez calculado SEdif estimamos el estadígrafo z:

= =71.8 70

0.89= 2.02

Consultando la tabla de distribución normal tipificada comprobamos que la

probabilidad de observar un resultado mayor o igual a z es de 0.0217:

– – 0.9783 = 0.0217

Como dicha probabilidad es menor a 0.05, la diferencia es significativa y podemos

rechazar H0 con un nivel de confianza del 95%; sin embargo, la diferencia no es muy

significativa (esto es, no podemos rechazar H0 con un nivel de confianza del 99%) ya que la

probabilidad de observar un resultado mayor que z es mayor de 0.01.

Otra alternativa para llegar a esta conclusión es que z = 2.02 > 1.96·SE = 1.74 y por

lo tanto la diferencia es significativa (rechazamos H0 y aceptamos H1).

Podemos concluir que la vida media de la población en EEUU es diferente de 70

años.

Page 51: ejercicios bioestadistica

9. Cuestionario de Autoevaluación.

Fundamentos de Bioestadística 215

Problema 39

Un fabricante de equipos deportivos ha desarrollado un nuevo hilo sintético para

pescar del cual afirma que tiene un coeficiente de ruptura de 8 kg con una desviación típica

de 0.5 kg

muestra aleatoria de 50 hilos y se encuentra que tiene un coeficiente medio de ruptura de 7.8

kg. ¿Qué se puede deducir con un nivel de significación del 0.01?

Solución problema 39

Otro ejemplo similar: la población hace el papel de la segunda muestra.

Aplicamos el test z con las siguientes hipótesis:

Ho

H1

Muestra 1: N1=50 M1=7.8 kg

Muestra 2: Población =8 kg =0.5 kg.

No conocemos la desviación típica de la muestra pero no nos hace falta al conocer la

de la población.

Como estamos interesados en comparar la diferencia entre las medias, usamos la

DMD que es una normal N(0,SEdif), donde:

= +

Como la población tiene un gran número de datos podemos suponer, que su SE2 es

prácticamente despreciable, comparado con SE1. Por lo que:

= + 0= SE1

Como conocemos la desviación típica de la población ( ) podemos calcular SE1:

= =,

= 0.071

Tipificamos:

= ,

,= -2.83

Analizamos el resultado con un nivel de significación de 0,01 (99%):

-al 99%: -2.83< -2.58·SE Rechazamos H0 y aceptamos H1. Podemos

concluir que el coeficiente de ruptura promedio NO es igual a 8, probablemente será

menor que 8.

Page 52: ejercicios bioestadistica

9. Cuestionario de Autoevaluación.

216 Fundamentos de Bioestadística

Problema 40

El Edison Electric Institute ha publicado cifras acerca del número anual de kWh

consumidos por diversos electrodomésticos. Se afirma que una aspiradora gasta en promedio

46 kWh al año. Si una muestra aleatoria de 12 hogares incluida en el estudio indica que una

aspiradora gasta en promedio 42 kWh al año con una desviación estándar de 11.9 kWh,

¿sugiere esto, con un nivel de significación de 0.05, que las aspiradoras gastan en promedio

menos de 46 kWh anualmente? Suponga que la población de kWh es normal.

Solución problema 40

Para contestar a la pregunta que nos plantea este problema (si las aspiradoras gastan

de promedio 46 kWh anualmente) tenemos que realizar un test t, ya que la muestra es menor

de 30.

N1 = 12, M1 = 42 kWh y S1 = 11.9 KWh.

Como segunda muestra tomaremos a la población: M2 = 46 kWh.

Las hipótesis que nos planteamos son:

H0 = la muestra pertenece a la población.

H1 = la muestra no pertenece a la población.

Para aplicar el test t, en primer lugar calcularemos el error típico de la DMD, SEdif,

para lo que necesitamos el SE calculado a partir de los datos de la muestra:

= = 1

=11.9

11= 3.587

= + = + 0 = = 3.587

Calculamos el valor de t:

=

= 42 46

= 1.115

Nos falta comparar el valor de t que hemos obtenido con el del tcrit que encontraremos

en las tablas, pero antes necesitamos calcular los grados de libertad. Como inicialmente sólo

teníamos una muestra de 12 datos: v = 12 1 = 11.

Para un nivel de significación p=0.05 y v = 11, necesitaríamos que nuestro t fuera

mayor a tcrit = 2.22 para que la diferencia fuera significativa. Como es menor, la diferencia

entre las medias no es significativa y por tanto aceptamos H0.

Page 53: ejercicios bioestadistica

9. Cuestionario de Autoevaluación.

Fundamentos de Bioestadística 217

Problema 41

En el artículo “Influence of Physical Restraint and Restraint- Facilitating drugs on

Blood Measurements of White-Tailed Deer and Other Selected Mammals”, realizado en el

Instituto Politécnico de Virginia y la Universidad Estatal por J.A. Wesson en 1976, se

examinó la influencia de la droga succinyl-choline16

en los niveles de circulación de

andrógenos en la sangre.

Se obtuvieron muestras de sangre de la vena yugular de ciervos salvajes, crecidos en

libertad, inmediatamente después de habérseles aplicado una inyección intramuscular de

suxametonio utilizando dardos y un revolver de captura. Aproximadamente 30 minutos

después se les tomó otra muestra de sangre y posteriormente fueron liberados. Los niveles de

andrógenos, de 15 ciervos, en el momento de la captura y 30 minutos después, medidos en

nanogramos por mililitro (ng/mL), se presentan en la tabla.

Andrógeno (ng/mL)

Ciervo En el momento de la

inyección de la droga

30 minutos después de

la inyección

Diferencia

di

1 2.76 7.02 4.26

2 5.18 3.10 -2.08

3 2.68 5.44 2.76

4 3.05 3.99 0.94

5 4.10 5.21 1.11

6 7.05 10.26 3.21

7 6.60 13.91 7.31

8 4.79 18.53 13.74

9 7.39 7.91 0.52

10 7.30 4.85 -2.45

11 11.78 11.10 -0.68

12 3.90 3.74 -0.16

13 26.00 94.03 68.03

14 67.48 94.03 26.55

15 17.04 41.70 24.66

Considerando que los niveles de andrógenos de los ciervos, en el momento de la

inyección y 30 minutos después, están distribuidas normalmente, probar con un nivel de

significación del 0.05 si las concentraciones de andrógenos se alteran después de treinta

minutos de haberles inyectado el suxametonio.

El ciervo de cola blanca (Odocoileus virginianus), es también conocido como

ciervo de Virginia. Llega a medir hasta 1.10 m de altura y 140 kg de masa. Tiene una

16El suxametonio es la denominación española de la succinyl-choline. Se utiliza en anestesia como un relajante

del músculo esquelético para facilitar intubación traqueal y ventilación mecánica. También vale para reducir la

intensidad de las contracciones musculares asociadas a convulsiones inducidas por medios farmacológicos o

eléctricos. El suxametonio actúa mediante inhibición de la transmisión neuromuscular despolarizando las

placas motoras terminales en el músculo esquelético. Su acción es ultracorta.

Page 54: ejercicios bioestadistica

9. Cuestionario de Autoevaluación.

218 Fundamentos de Bioestadística

notable capacidad de adaptación a diferentes tipos de hábitats boscosos: sobrevive en los

bosques canadienses de la región subártica, en las áridas laderas montañosas de México, y en

las selvas húmedas y calurosas de América Central y del Sur. Una razón de su capacidad de

supervivencia es la diversidad de comidas con que puede alimentarse: cortezas, hojas y

frutos caídos. Existen alrededor de 35 subespecies de Odocoileus virginianus. Su pelaje es

rojizo en verano y gris en invierno, y debe su nombre a una mancha blanca que tiene bajo la

cola. Cuando se siente amenazado, corre con la cola levantada para ponerse a cubierto: se

cree que el destello blanco actúa como señal visual de alarma para otros ciervos. Sus cuernos

son ramificados y se encuentran inclinados hacia atrás. Por lo general, los ciervos de cola

blanca viven en grupos de hasta 15 individuos. Su período de gestación es de 7 meses.

Solución problema 41

Par comenzar, calculamos la media y la desviación típica de ambas muestras:

M1=11.81, M2=21.65, S1= 16.07 y S2= 29.87.

A continuación calculamos SEdif:

SEdif = 12 + 2

2 =S1

2

1-1+

S22

2-1 =

. 2

+. 2

= 9.06

En este caso, el número de grados de libertad del problema será v = N1 + N2 – 2 = 15

+ 15 – 2 = 28. Con este valor y una significación de p = 0.05 no tenemos un valor en las

tablas, por lo que interpolamos:

v = 25 tcrít = 2.060

v = 30 tcrít = 2.042

2.060 – 2.042 = 0.018 .

( ) = 0.0036 por lo que: 2.060 – (3 × 0.0036) tcrít =

2.049

Consideramos la diferencia entre las medias.

x = M2 – M1 = 21.65 – 11.81 = 9.84

M = 0 (suponemos H0)

t =SEdif

=.

.= 1.09

Como t -tcrítico, tcrítico Aceptamos H0 y podemos afirmar que no existe

diferencia entre los niveles de andrógeno en sangre en el momento de la inmovilización y 30

minutos después para los ciervos de cola blanca.

Hay que destacar que se trata de un problema en el que las muestras están

emparejadas, además las desviaciones típicas no son muy parecidas., así que hay que tomar

el resultado con cautela.

Page 55: ejercicios bioestadistica

9. Cuestionario de Autoevaluación.

Fundamentos de Bioestadística 219

Problema 42

Se desea comprobar si un nuevo medicamento es más eficaz como tratamiento para

una determinada enfermedad que el medicamento utilizado hasta la fecha. Para ello, se

eligen dos grupos al azar de enfermos que padecen la enfermedad.

Al grupo A (N= 61) se le administra el nuevo medicamento. Al grupo B (N= 61) se le

administra el medicamento antiguo. Tras el tratamiento, se realiza un examen médico para

comprobar el grado de mejoría experimentada por los enfermos con cada tratamiento. Los

resultados del examen se establecen en una escala continua de 0 a 10 puntos y se sabe que

satisfacen una distribución t de Student.

La mejoría media del grupo A es 5.4 puntos y la desviación típica 1.0 puntos. La

mejoría media del grupo B es 5.0 puntos, y la desviación típica 1.0 puntos. ¿Qué grado

mínimo de significación estadística tiene la diferencia observada?

a. 0.10, b. 0.05, c. 0.02, d. 0.01, e. 0.001

Solución problema 42

A NA = 61, N(5.4, 1.0)

B NB = 61, N(5.0, 1.0)

Puesto que N>30 podemos aplicar un test z, aunque recordemos que también

podemos realizar un test t, puesto que los resultados coincidirán.

Calculamos los errores estándar a partir de las desviaciones de cada muestra:

=N

=S

61=

1.0

61= 0.128 = SE

Con lo que podemos calcular el error estándar de la diferencia:

= + = 0.181

Podemos calcular el valor de z:

=5.4 5.0

0.181= 2.21

Con este valor de z, buscamos el valor del área en las tablas:

P(z 2.21) = 1 - 0.9864 = 0.0136 1.36%

Además, teniendo en cuenta las dos colas:

P(z [-2.21,2.21] = 1-2·0.0136 = 0.9728 97.28%

P(z [-2.21,2.21] = 1-0.9728 = 0.0272 2.72%

Debemos estudiar cuando nuestro valor de z estará en el intervalo que determina cada

uno de los niveles de significación:

p = 0.05 zcrit = 1.96 z fuera del intervalo Rechazamos H0 Aceptamos H1

Page 56: ejercicios bioestadistica

9. Cuestionario de Autoevaluación.

220 Fundamentos de Bioestadística

p = 0.02 zcrit = 2.33 z dentro del intervalo Aceptamos H0, por tanto también

estará dentro del intervalo para p=0.01 y para p=0.001.

¿Qué está pasando?

P = 0.10 P = 0.05 Nuestro z P = 0.02 P = 0.01 P=0.0001

0.90 0.95

z = 2.21

0.98 0.99 0.999

Zcrit=1.645 Zcrit=1.96 Zcrit=2.33 Zcrit=2.575 Zcrit=3.29

0.9500 0.9750 0.9900 0.9950 0.9995

Diferencia significativa Diferencia no significativa

Por tanto la solución correcta es la b)

Page 57: ejercicios bioestadistica

9. Cuestionario de Autoevaluación.

Fundamentos de Bioestadística 221

Problema 43

Un grupo de la Facultad de Medicina, formado por 24 alumnos, se dividió de manera

aleatoria en cuatro grupos de 6 alumnos cada uno (teniendo en cuenta el primer dígito de su

carnet de identidad, empezando por la izquierda, haciendo la siguiente asignación 1=grupo

A, 2=grupo B, 3=grupo C o 4=grupo D y haciendo los ajustes para que los grupos sean de

6). Una vez hecha esta división, cuatro profesores diferentes les explicaron el mismo módulo

de Base Físicas usando la misma presentación. A continuación se les sometió a la misma

prueba, obteniendo los siguientes resultados (puntuados sobre un máximo de 100 puntos):

Grupo A Grupo B Grupo C Grupo D

74 98 66 82

84 76 68 96

90 80 80 80

98 78 76 84

100 100 94 65

90 82 72 82

a. Aplica el test F con un nivel de significación del 5% y del 1% para averiguar

si la diferencia observada entre las medias es significativa, o no. ¿Qué

podemos concluir?

b. Debido a un error involuntario en el proceso de calificación todos los alumnos

del grupo C tienen su nota supervalorada en 5 puntos. Réstale 5 puntos a cada

uno de los alumnos del grupo C y vuelve a aplicar el test F trabajando con un

nivel de significación del 5%.

c. Si en el apartado b) te ha salido que debemos rechazar H0 con p<0.05,

averigua cuál de las cuatro muestras es la que no pertenece a la misma

población que las otras.

d. Hay un procedimiento más rápido que nos permite comprobar si tres muestras

pertenecen a la misma población y por tanto, si es cierto, sería la cuarta la que

no pertenecería a la misma población.

Solución problema 43

a)

Grupo A Grupo B Grupo C Grupo D

NA=6 NB=6 NC=6 ND=6

MA=89.3 MB=85.7 MC=76.0 MD=81.50

A2=90.67 B

2=111.07 C

2=104.00 D

2=98.30

Calculamos la varianza intra-muestral

42

1int

90.67 111.07 104.00 98.30101.01

4 4

i

iraV

Page 58: ejercicios bioestadistica

9. Cuestionario de Autoevaluación.

222 Fundamentos de Bioestadística

Con las cuatro medias hacemos una serie de datos de tamaño 4, es decir, estamos

considerando que esta muestra pertenece a la DMM que es una normal de media y

desviación típica SE. Calculamos su desviación típica mediante Excel, dividiendo por N-1.

Medias

89.33

85.67

76.00

81.50

5.73 SE

32.80 SE2

Calculamos la varianza inter-muestral

2

int · 6·32.80 196.82erV N SE

El estadígrafo F es igual al cociente de estas dos varianza, dividiendo la mayor por la

menor

int

int

196.821.95

101.01

er

ra

VF

V

El inter es igual al número de muestras menos 1

int 4 1 3er

El intra es igual al número de total de datos de las 4 muestras menos el número de

muestras

int 4·6 4 20ra

Buscamos en las tablas los valores críticos de F con los grados de libertas 20 y 3

p=0.05 Fcrítico= 3.10

p=0.01 Fcrítico= 4.94

Por tanto podemos concluir:

p=0.05 F < Fcrítico nos quedamos con H0 las diferencias observadas no son

significativas (p<0.05)

p=0.01 F < Fcrítico nos quedamos con H0 Las diferencias observadas no son

significativas (p<0.01)

Las cuatro muestras son equivalentes (p<0.05). Los cuatro profesores explican de

forma equivalente a pesar de las diferencias observadas en las medias de las notas (p<0.05).

Los cuatro grupos, elegidos aleatoriamente, no son homogéneos, parece que los alumnos del

grupo C obtienen peores resultados en este control (p<0.05).

Page 59: ejercicios bioestadistica

9. Cuestionario de Autoevaluación.

Fundamentos de Bioestadística 223

b)

La tabla queda, una vez corregidas las notas del grupo C es

Grupo A Grupo B Grupo C Grupo D

74 98 61 82

84 76 63 96

90 80 75 80

98 78 71 84

100 100 89 65

90 82 67 82

NA=6 NB=6 NC=6 ND=6

MA=89.3 MB=85.7 MC=71.00 MD=81.50

A2=90.67 B

2=111.07 C

2=104.00 D

2=98.30

A=9.52 B=10.54 C=10.2 D=9.91

42

1int

90.67 111.07 104.00 98.30101.01

4 4

i

iraV

Con las cuatro medias hacemos una serie de datos de tamaño 4, es decir, estamos

considerando que esta muestra pertenece a la DMM que es una normal de media y

desviación típica SE. Calculamos su desviación típica mediante Excel, dividiendo por N-1.

Medias

89.33

85.67

71.00

81.50

7.92 SE

62.80 SE2

Calculamos la varianza inter-muestral

2

int · 6·62.80 376.82erV N SE

El estadígrafo F es igual al cociente de estas dos varianza, dividiendo la mayor por la

menor

int

int

376.823.73

101.01

er

ra

VF

V

El inter es igual al número de muestras menos 1,int 4 1 3er

El intra es igual al número de total de datos de las 4 muestras menos el número de

muestrasint 4·6 4 4(6 1) 20ra

Buscamos en las tablas los valores críticos de F con los grados de libertas 20 y 3, de

forma que encontraremos:

Page 60: ejercicios bioestadistica

9. Cuestionario de Autoevaluación.

224 Fundamentos de Bioestadística

p=0.05 Fcrítico= 3.10

p=0.01 Fcrítico = 4.94

Por tanto podemos concluir:

p=0.05 F > Fcrítico nos quedamos con H1 Las diferencias observadas son

significativas (p<0.05)

p=0.01 F < Fcrítico nos quedamos con H0 Las diferencias observadas no son

significativas (p<0.01)

Ahora las cuatro muestras no son equivalentes (p<0.05). Los cuatro profesores no

explican de forma equivalente debido a las diferencias observadas en las medias de las notas

(p<0.05). Los cuatro grupos, elegidos aleatoriamente, no son homogéneos, parece que los

alumnos del grupo C obtienen peores resultados en este control (p<0.05).

c)

Vamos a averiguar cuál es la muestra (o muestras) que no pertenece a la población.

Grupo A Grupo B Grupo C Grupo D

74 98 61 82

84 76 63 96

90 80 75 80

98 78 71 84

100 100 89 65

90 82 67 82

NA=6 NB=6 NC=6 ND=6

MA=89.3 MB=85.7 MC=71.00 MD=81.50

A2=90.67 B

2=111.07 C

2=104.00 D

2=98.30

A=9.52 B=10.54 C=10.2 D=9.91

SA=8.69 SB=9.62 SC=9.31 SD=9.05

Previamente calculamos las desviaciones típicas de las muestras, en las que las sumas

de las desviaciones al cuadrado se dividen por N y luego se extrae la raíz cuadrada:

1 5 59.52 8.69

6 6

AA A A

A

NS

N

1 5 510.54 9.62

6 6

BB B B

B

NS

N

1 5 510.20 9.31

6 6

CC C C

C

NS

N

1 5 59.91 9.05

6 6

DD D D

D

NS

N

Debemos hacer 6 test t

Page 61: ejercicios bioestadistica

9. Cuestionario de Autoevaluación.

Fundamentos de Bioestadística 225

A con B B con C C con D

A con C B con D

A con D

PRIMER TEST - A con B

8.693.89

1 5

A AA

A A

SSE

N N

9.624.30

1 5

B BB

B B

SSE

N N

2 2 5.80dif A BSE SE SE

89.33 85.670.63

5.80

A B

dif

M Mt

SE

1 1 10A BN N

0.05 2.23critp t

0.01 3.17critp t

Por tanto:

p=0.05 t < tcrítico nos quedamos con H0 A y B pertenecen a la misma

población

p=0.01 t < tcrítico nos quedamos con H0 A y B pertenecen a la misma

población

SEGUNDO TEST - A con C

8.693.89

1 5

A AA

A A

SSE

N N

9.314.16

1 5

C CC

C C

SSE

N N

2 2 5.70dif A CSE SE SE

89.33 71.003.22

5.70

A C

dif

M Mt

SE

1 1 10A BN N

0.05 2.23critp t

0.01 3.17critp t

Page 62: ejercicios bioestadistica

9. Cuestionario de Autoevaluación.

226 Fundamentos de Bioestadística

Por tanto:

p=0.05 t > tcrítico nos quedamos con H1 A y C no pertenecen a la misma

población

p=0.01 t > tcrítico nos quedamos con H1 A y C no pertenecen a la misma

población

TERCER TEST - A con D

8.693.89

1 5

A AA

A A

SSE

N N

9.055.61

1 5

D DD

D D

SSE

N N

2 2 5.70dif A CSE SE SE

89.33 81.501.40

5.61

A D

dif

M Mt

SE

1 1 10A BN N

0.05 2.23critp t

0.01 3.17critp t

Por tanto:

p=0.05 t < tcrítico nos quedamos con H0 A y D Pertenecen a la misma

población

p=0.01 t < tcrítico nos quedamos con H0 A y D pertenecen a la misma

población

CUARTO TEST - B con C

9.624.30

1 5

B BB

B B

SSE

N N

9.314.16

1 5

C CC

C C

SSE

N N

2 2 5.99dif B CSE SE SE

85.67 71.002.45

5.99

B C

dif

M Mt

SE

1 1 10A BN N

0.05 2.23critp t

0.01 3.17critp t

Page 63: ejercicios bioestadistica

9. Cuestionario de Autoevaluación.

Fundamentos de Bioestadística 227

Por tanto:

p=0.05 t > tcrítico nos quedamos con H1 B y C no pertenecen a la misma

población

p=0.01 t < tcrítico nos quedamos con H0 B y C pertenecen a la misma

población

QUINTO TEST - B con D

9.624.30

1 5

B BB

B B

SSE

N N

9.054.05

1 5

D DD

D D

SSE

N N

2 2 5.91dif B DSE SE SE

85.67 81.500.71

5.91

B D

dif

M Mt

SE

1 1 10A BN N

0.05 2.23critp t

0.01 3.17critp t

Por tanto:

p=0.05 t < tcrítico nos quedamos con H0 B y C pertenecen a la misma

población

p=0.01 t < tcrítico nos quedamos con H0 B y C pertenecen a la misma

población

SEXTO TEST - C con D

9.314.16

1 5

C CC

C C

SSE

N N

9.054.05

1 5

D DD

D D

SSE

N N

2 2 5.81dif C DSE SE SE

81.50 71.001.81

5.81

D C

dif

M Mt

SE

Page 64: ejercicios bioestadistica

9. Cuestionario de Autoevaluación.

228 Fundamentos de Bioestadística

1 1 10A BN N

0.05 2.23critp t

0.01 3.17critp t

Por tanto:

p=0.05 t<tcritico nos quedamos con H0 C y D pertenecen a la misma población

p=0.01 t<tcritico nos quedamos con H0 C y D pertenecen a la misma población

Por tanto podemos concluir lo siguiente (p<0.05)

A con B H0

A con C H1

A con D H0

B con C H1

B con D H0

C con D H0

Hay dos poblaciones, en una están las muestras A, B y D, y en la otra población están

C y D.

Gráficamente podemos representarlo

La muestra C es la que no pertenece a la misma población que las otras 3 (p<0.05).

Page 65: ejercicios bioestadistica

9. Cuestionario de Autoevaluación.

Fundamentos de Bioestadística 229

Si ahora trabajamos con el 99% de nivel de confianza, podríamos concluir lo

siguiente

A con B H0

A con C H1

A con D H0

B con C Ho

B con D H0

C con D H0

Hay dos poblaciones, en una están las muestras A, B y D, y en la otra población están

B, C y D.

Gráficamente podemos representarlo

Vemos, claramente que o bien la muestra A o bien la muestra C son las que no

pertenecen a la misma población (p<0.01)

d)

Pero también se me podía haber ocurrido lo siguiente: como la muestra C es la que

menos media tiene, voy a aplicar el test F a las tres muestras A, B y D. Si me sale que son de

la misma población, ya lo tenemos resuelto.

32

1int

90.67 111.07 98.30100.01

3 3

i

iraV

Con las tres medias hacemos una serie de datos de tamaño 3, es decir, estamos

considerando que esta muestra pertenece a la DMM que es una normal de media y

desviación típica SE. Calculamos su desviación típica mediante Excel, dividiendo por N-1.

Page 66: ejercicios bioestadistica

9. Cuestionario de Autoevaluación.

230 Fundamentos de Bioestadística

Continuemos:

Medias

89.33

85.67

81.50

3.92 SE

15.36 SE2

Calculamos la varianza inter-muestral

2

int · 6·15.36 92.17erV N SE

El estadígrafo F es igual al cociente de estas dos varianza, dividiendo la mayor por la

menor (sale al revés cuando lo hacíamos con 4 muestras)

int

int

100.011.09

92.17

ra

er

VF

V

El inter es igual al número de muestras menos 1

int 3 1 2er

El intra es igual al número de total de datos de las 4 muestras menos el número de

muestras

int 3·6 3 3(6 1) 15ra

Buscamos en las tablas los valores críticos de F con los grados de libertas 20 y 3

p=0.05 Fcrítico= 3.68

p=0.01 Fcrítico = 6.36

Por tanto podemos concluir:

p=0.05 F < Fcrítico nos quedamos con H0 Las diferencias observadas no son

significativas (p<0.05)

Page 67: ejercicios bioestadistica

9. Cuestionario de Autoevaluación.

Fundamentos de Bioestadística 231

p=0.01 F < Fcrítico nos quedamos con H0 Las diferencias observadas no son

significativas (p<0.01)

Ahora las tres muestras son equivalentes, pertenecen a la misma población (p<0.05).

Los tres profesores explican de forma equivalente a pesar de las diferencias

observadas en las medias de las notas (p<0.05).

Los tres grupos, elegidos aleatoriamente, son homogéneos, los alumnos de los grupos

A, B y D C obtienen los mismos resultados en este control. Las diferencias observadas no

son significativas (p<0.05).

Page 68: ejercicios bioestadistica

9. Cuestionario de Autoevaluación.

232 Fundamentos de Bioestadística

Problema 44

Sabemos que en España, sin tener en cuenta el factor RH, los grupos sanguíneos

están repartidos de la siguiente manera:

Grupo

sanguíneo

Porcentaje de españoles

0 39

A 44

B 13

AB 4

Nos desplazamos a la sierra de Alcaraz y tomamos una muestra de 200 individuos,

obteniendo los siguientes datos

Grupo

sanguíneo

Individuos

de la muestra

0 71

A 69

B 41

AB 19

Total 200

Decide si estos datos concuerdan con los datos de España con un nivel de

significación del 0.01.

Solución problema 44

Debemos comparar los datos de nuestra muestra con los teóricos/observados en toda

España. Para ello, lo primero que haremos es calcular los datos que habríamos observado si

la hipótesis de que ambas muestras provienen de las misma población se cumpliera.

Sabemos que el 39% de la población española es del grupo 0, por tanto, de nuestro grupo de

200 individuos deberíamos haber observado 78 individuos.

Grupo

sanguíneooi ei oi- ei (oi- ei)

2(oi- ei)

2/ ei

0 71 78 -7 49 0.62

A 69 88 -19 361 4.10

B 41 26 15 225 8.65

AB 19 8 11 121 15.12

Total 200 2=28.49

Debemos comparar el valor de la 2= 28.49 con el valor de crit

2para p=0.01 y 4-1 =

3 grados de libertad, que resulta ser crit2=11.35.Como

2=28.49 >> crit

2= 11.34, por lo que

se rechaza la hipótesis de partida, por tanto ambas muestras provienen de poblaciones (en el

sentido estadístico de la palabra) diferentes, las diferencias observadas son reales y no fruto

del muestreo. En definitiva, la muestra de la Sierra de Alcaraz presenta unas proporciones de

grupos sanguíneos diferentes a la media nacional.

Page 69: ejercicios bioestadistica

9. Cuestionario de Autoevaluación.

Fundamentos de Bioestadística 233

Problema 45

Queremos contrastar la hipótesis de igual probabilidad de que el sexo de hijos sea

masculino o femenino. Para ello estudiamos una muestra de 200 familias numerosas de

cuatro hijos, obteniendo los siguientes resultados

Número de

hijos varones

Número de

familias

4 13

3 52

2 90

1 39

0 6

Total 200

Contrasta estos datos con un nivel de significación del 0.05.

Solución problema 45

La dificultad de este problema reside, aunque no debiera, en la determinación de los

valores esperados. En una primera aproximación, podríamos estar tentados de pensar lo

siguiente: puesto que la probabilidad de tener chico o chica ha de ser de 0.5, podría calcular

el número total de hijos varones (427) y el de mujeres (373), proponer que los valores

esperados deberían ser, entonces, de mitad y mitad de los 800 hijos de la muestra,

construyendo así una tabla de contingencia 2x2. De hacerlo así, estaríamos obviando que la

probabilidad de tener 4 chicos es menor que la de tener 2 chicos y 2 chicas. De manera que

cualquier población en la que se cumpliera la proporción 427/373 daría el mismo resultado.

Por tanto, debemos tener en cuenta las diferentes probabilidades de tener las

diferentes combinaciones posibles.

Podemos hacerlo de dos maneras. La primera sería construirnos todas las

posibilidades (en total 16) de familias e hijos de diferentes sexos:

- 1

- 4

/ / - 4

/ / / / - 6

- 1

La segunda forma es aplicando la teoría combinatoria, de manera que las diferentes

posibilidades vendrán dadas por cada uno de los términos del desarrollo:

( + ) = · ( + ) =4

· =

= + 4 + 6 + 4 +

Page 70: ejercicios bioestadistica

9. Cuestionario de Autoevaluación.

234 Fundamentos de Bioestadística

donde =!

!( )!siendo k!=k·(k-1)·(k-2)·(k-3)·····1

Supongamos que q es la probabilidad de nacer varón y p la probabilidad de nacer

hembra. Supondremos que = = , debido a H0.

El primer término, q4, es la probabilidad de que los 4 hijos sean varones, es decir,

=

El segundo término, 4pq3, es la probabilidad de que haya una hembra y 3 varones, es

decir, 4 · · =

Y así con los demás términos.

Como se puede comprobar, la suma de todas estas probabilidades da 1.

1

16+

4

16+

6

16+

4

16+

1

16=

16

16= 1

Podemos, ahora, construir la tabla con los valores esperados:

xi oi ei oi- ei (oi- ei)2

(oi- ei)2/ ei

0 6200 · 1

16= 12.5 -6.5 42.25 3.38

1 39200 · 4

16= 50 -11 121 2.42

2 90200 · 6

16= 75 15 225 3.00

3 52200 · 4

16= 50 2 4 0.08

4 13200 · 1

16= 12.5 0.5 0.25 0.02

Total 200 2=8.90

Para un nivel de significación p = 0.05 y 4 grados de libertad, (filas-1)·(columnas-1)

= 5-1 = 4, tenemos un crit2

= 9.48, por tanto 2

< crit2así que aceptamos la hipótesis de

partida, ambas muestras provienen de la misma población, las diferencias observadas no son

significativas y se deben al muestreo, la muestra de familias estudiada presenta una

probabilidad de tener hijos e hijas del 50%, ambos sexos son igualmente probables.

Page 71: ejercicios bioestadistica

9. Cuestionario de Autoevaluación.

Fundamentos de Bioestadística 235

Problema 46

El equipo médico de una agencia espacial europea sostiene que no existe relación

entre el tiempo de permanencia de los astronautas en el espacio y ciertos trastornos

psicológicos que se han observado en dichos astronautas. Para contrastar esta hipótesis se

estudió una muestra de 100 astronautas que dio los resultados de la tabla adjunta. ¿Se puede

aceptar, con un nivel de significación del 0.05, la opinión del equipo médico?

Tiempo de

permanencia

Astronautas

con trastornos

Astronautas

sin trastornos

Total

Menos de 1 mes 12 14 26

De 1 a 3 meses 11 10 21

De 3 a 6 meses 15 14 29

Más de 6 meses 13 11 24

Total 51 49 100

Solución problema 46

Suponemos que ambas muestras provienen de la misma población, así que la suma de

ambas muestras nos servirá para calcular los valores esperados. Por ejemplo, tendremos un

26% (26 de un total de 100) de astronautas que han estado menos de un mes, así de los 51

que presentan trastornos deberíamos haber medido 13.26 y de los 49 que no han tenido

trastornos deberíamos tener 12.74. Estos valores los podemos calcular con una simple regla

de tres o bien (26·51)/100.

Podemos construir la tabla de valores de la siguiente manera, poniendo todos los

valores en una misma columna:

oi ei (oi- ei)2/ ei

12 13.26 0.1179

14 12.74 0.1246

11 10.71 0.0078

10 10.29 0.0081

15 14.79 0.0029

14 14.21 0.0031

13 12.24 0.0471

11 11.76 0.0491

2=0.3624

Por tanto como 2= 0.36 < 7.81= crit

2para p=0.05 y (4-1)·(2-1) = 3 grados de

libertad se acepta H0 y deducimos que no hay diferencias significativas y por tanto se

acepta la opinión del equipo médico. Las diferencias observadas se deben al muestreo y no

son reales.

Page 72: ejercicios bioestadistica

9. Cuestionario de Autoevaluación.

236 Fundamentos de Bioestadística

Problema 47

Una empresa multinacional desea saber si existen diferencias significativas entre sus

trabajadores en distintos países en cuanto al grado de satisfacción en el trabajo. Se

seleccionan muestras aleatorias de trabajadores en los tres países en los que opera la

empresa, obteniendo los siguientes resultados. ¿Se puede admitir, con un nivel de

significación del 5%, que la satisfacción en el trabajo es similar en los tres países?

País Muy

satisfecho

Satisfecho Insatisfecho Muy

insatisfecho

Total

España 200 300 300 100 900

Francia 300 400 350 150 1200

Italia 350 300 250 150 1050

Total 850 1000 900 400 3150

Solución problema 47

Calculemos los valores esperados. Para ello suponemos que todas las muestras

provienen de la misma población y nos basamos en los valores totales para calcularlos. De

manera que de 3150 trabajadores totales, 900 son de España, por tanto de los 850

trabajadores muy satisfechos debería haber observado 242.86 = 900·850/3150.

oi ei (oi- ei)2/ ei

200 242.86 7.56

300 285.71 0.71

300 257.14 7.14

100 114.29 1.79

300 323.81 1.75

400 380.95 0.95

350 342.86 0.15

150 152.38 0.04

350 283.33 15.69

300 333.33 3.33

250 300.00 8.33

150 133.33 2.08

2=49.52

2= 49.52 >12.59 (p=0.05 y (4-1)·(3-1) = 6 grados de libertad) Se rechaza H0 y

podemos concluir que la satisfacción en el trabajo depende del país.

Page 73: ejercicios bioestadistica

9. Cuestionario de Autoevaluación.

Fundamentos de Bioestadística 237

Problema 48

Una empresa que se dedica al estudio de la audiencia televisiva supone que el 30% de

la población prefiere el canal A, el 25% el B, el 20% el C, el 10% el D y el 15% el E. Para

confirmar esta hipótesis selecciona una muestra aleatoria de 5000 individuos de los cuales

1530 prefieren el canal A, 1210 el B, 1000 el C, 490 el D y 770 el E. Estudia si podemos

concluir que la hipótesis de la empresa es correcta con un nivel de significación del 5%.

Solución problema 48

En el enunciado se nos proporcionan los porcentajes de audiencia de cada canal, que

podemos expresar como proporciones y calcular los valores esperados:

Canal oi ei (oi- ei)2/ ei

A 1530 1500 0.60

B 1210 1250 1.28

C 1000 1000 0.00

D 490 500 0.20

E 770 750 0.53

Total 5000 2=2.61

Por tanto, como para p=0.05 y 5-1 = 4 grados de libertad, tenemos una 2

crit= 9.48

Se acepta H0 y por tanto la suposición de la empresa es correcta.

Page 74: ejercicios bioestadistica

9. Cuestionario de Autoevaluación.

238 Fundamentos de Bioestadística

Problema 49

Dos grupos, A y B, formados cada uno por 100 individuos padecen una cierta

enfermedad. Se administra un suero al grupo A, pero no al grupo B (que se suele denominar

grupo control o testigo); siendo en todo lo demás los dos grupos tratados idénticamente. Se

encuentra que en los grupos A y B, 75 y 65 individuos, respectivamente, se han recuperado

de la enfermedad.

Se

Recuperan

No se

recuperanTotal

Grupo A

(utilizando el suero)75 25 100

Grupo B

(sin suero)65 35 100

Total 140 60 200

Ensaya la hipótesis de que el suero ayuda a curar la enfermedad con un nivel de

significación del:

a) 0.01

b) 0.05

c) 0.10

d) Aplicar la corrección de Yates

Solución problema 49

Suponemos que ambas muestras provienen de la misma población, y como tenemos

las proporciones de la población total, las utilizamos para calcular los valores esperados:

Se

Recuperan

No se

recuperanTotal

Grupo A

(utilizando el suero)

140

200· 100 = 70 30 100

Grupo B

(sin suero)70 30 100

Total 140 60 200

Obtendremos un valor de 2= 2.38.

Analicemos las posibilidades que nos plantea el enunciado teniendo en cuenta que

tenemos 1 grado de libertad:

a. p=0.01 aceptamos H0, es decir, el suero no es efectivo.

b. p=0.05 aceptamos H0, es decir, el suero no es efectivo.

c. p=0.10 aceptamos H0, es decir, el suero no es efectivo.

d.2 1.93Yates , seguimos aceptando H0.

Page 75: ejercicios bioestadistica

9. Cuestionario de Autoevaluación.

Fundamentos de Bioestadística 239

En todos los casos encontramos que a pesar de que a la vista de la tabla original

parecía que el suero podría ser efectivo, las diferencias observadas se deben al muestro,

ambas muestras provienen de la misma población, no hay diferencias significativas, etc.

Este problema puede resolverse también mediante un test z de proporciones. Lo

primero que hacemos es calcular las proporciones de cada posibilidad:

=75

100= 0.75

=65

100= 0.65

En este caso la hipótesis nula será que todas las proporciones son iguales P=PA=PB de

manera que:

= = =75 + 65

200= 0.7

Calculamos el erros estándar de la diferencia de las proporciones:

=P(1 P)

N y =

P(1 P)

N SE =

0.7 · 0.3

100+

0.7 · 0.3

100= 0.0648

Con lo que podemos calcular el valor de z:

=(P P ) 0

SE=

0.75 0.65

0.0648= 1.543

Podrás comprobar que 1.5432

=2=2.38.

De esta forma, a la hora de analizar el resultado, debemos atender al intervalo, de

manera que:

p=0.05 si z [-1.96,1.96] H0. Fíjate en que 1.962=3.841=

2crit.

p=0.01 si z [-2.54,2.54] H0. Fíjate en que 2.542=6.66=

2crit.

p=0.10 si z [-1.645,1.645] H0. Fíjate en que 1.6452=2.766=

2crit.

Lo que comprobamos es que la diferencia esté dentro de ese intervalo, por tanto no

será significativa y ambas muestras provienen de la misma población. Es equivalente a hacer

un test de las dos colas.

Veamos ahora qué debemos hacer si lo que queremos comprobar es si el

medicamento produce más mejoría que no tomarlo, esto es, un test de una cola. Para ello

buscamos en la tabla de valores de z, aquellos que dejan por debajo el 95%, el 99% y el 90%

de los valores...

Así:

z95 = 1.645 > 1.543 H0.

Page 76: ejercicios bioestadistica

9. Cuestionario de Autoevaluación.

240 Fundamentos de Bioestadística

z99 = 2.33 > 1.543 H0.

z90 = 1.28 < 1.543 H1. Al 90% el suero es más efectivo.

Las conclusiones anteriores dependen de lo que estemos dispuestos a arriesgar al

tomar la decisión y poder tomar una decisión errónea.

1. Si los resultados se deben realmente al azar y se toma una decisión de que son

debidos al nuevo fármaco (error tipo I) se puede indicar un medicamente que realmente no

produce ningún efecto.

2. Podemos deducir que el suero no ayuda cuando realmente sí lo hace (error tipo II).

Esta decisión será sumamente importante si hay vidas humanas en juego.

Como hemos visto rechazar H0 al 0.05 utilizando 2

equivale a rechazar H0 con el

test de una cola con un nivel de significación del 0.10 y equivale a rechazar H0 con un test

bilateral al 0.05.

Page 77: ejercicios bioestadistica

9. Cuestionario de Autoevaluación.

Fundamentos de Bioestadística 241

Problema 50

En 360 lanzamientos de un par de dados se observó que en 74 ocasiones entre ambos

dados se sacó la puntuación de siete puntos y 24 veces once puntos. Ensaya la hipótesis de

que el dado esté bien hecho con un nivel de significación del 0.05 en los dos siguientes

casos:

a. Sin corrección de Yates

b. Con corrección de Yates

Solución problema 50

Al tirar un par de datos tendremos 62=36 posibilidades diferentes, de las cuales solo 6

sumarán 7 puntos y solo 2 sumarán 11 puntos, de manera que:

=6

36=

1

6

=2

36=

1

18

De manera que:

Observados Esperados

7 puntos 74 (360/6) = 60

11 puntos 24 (360/18) = 20

Para p=0.05 y un grado de libertad, obtenemos un valor de 2

crit = 3.84, de manera

que:

a.2

= 4.07 > 3.84 rechazamos H0, el dado está mal hecho o lo han trucado.

b.2

Yates =3.65 < 3.84 aceptamos H0, el dado está bien hecho.

Page 78: ejercicios bioestadistica

9. Cuestionario de Autoevaluación.

242 Fundamentos de Bioestadística

Problema 51

Una encuesta sobre 320 familias con 5 niños dio la distribución que aparece en la

tabla adjunta. ¿Este resultado es consistente con la hipótesis de que el nacimiento de varón y

hembra son igualmente probables? Razónalo con un nivel de significación del 5% y del 1%,

para que compruebes que las conclusiones que se obtienen son contradictorias.

Número de

niños y niñas

5 niños

0 niñas

4 niños

1 niña

3 niños

2 niñas

2 niños

3 niñas

1 niño

4 niñas

0 niños

5 niñasTotal

Número de

familias18 56 110 88 40 8 320

Solución problema 51

Este problema es equivalente al problema 45, lo que pasa es que ahora no son

familias con 4 hijos sino de 5, lo que complica su resolución calculando las diferentes

posibilidades a mano como lo hacíamos en dicho problema.

Por tanto, lo más adecuado en este caso será aplicar la teoría combinatoria, de manera

que las diferentes posibilidades vendrán dadas por cada uno de los términos del desarrollo:

( + ) = ·

En nuestro caso:

5· = + 5 + 10 + 10 + 5 +

donde =!

!( )!siendo k!=k·(k-1)·(k-2)·(k-3)·····1

En nuestro caso tanto p como q valen 0.5. Tomando cada uno de los términos del

desarrollo, podremos calcular las probabilidades como 1/32, 5/32, 10/32, 10/32, 5/32 y 1/32

Podemos, ahora, construir la tabla con los valores esperados:

Nº hijos/as oi ei

5-0 18 10

4-1 56 50

3-2 110 100

2-3 88 100

1-4 40 50

0-5 8 10

Total 320

De manera que haciendo los cálculos podemos deducir que 2= 12.0. Por tanto, se

rechaza H0 al 95% (2

crit= 11.07, = 5) pero no al 99% (2

crit= 15.086, = 5), por lo que las

diferencias observadas son probablemente significativas y el nacimiento de varón y hembra

no son probablemente iguales en este caso.

Page 79: ejercicios bioestadistica

9. Cuestionario de Autoevaluación.

Fundamentos de Bioestadística 243

Problema 52

En la tabla se indican los estudiantes aprobados y suspendidos por tres profesores de

la Facultad de Medicina de Albacete. ¿Suspenden por igual estos tres profesores? Razónalo

con un nivel de significación del 5% y del 10%, para que compruebes que las conclusiones

que se obtienen son contradictorias.

Profesor

A

Profesor

B

Profesor

CTotal

Aprobados 50 47 56 153

Suspensos 5 14 8 27

Total 55 61 64 180

Solución problema 52

Suponemos que todas las muestras provienen de la misma población y calculamos los

valores esperados con las proporciones de la muestra suma de las tres:

Profesor

A

Profesor

B

Profesor

CTotal

Aprobados 46.75 51.85 54.40 153

Suspensos 8.25 9.15 9.60 27

Total 55 61 64 180

Obtendremos un valor de 2= 4.84, no rechazamos H0 al nivel del 0.05 (

2crit= 5.991,

= 2; pero sí podemos rechazarla al nivel del 0.10 (2crit= 4.605, = 2) si estamos

dispuestos a correr el riesgo de equivocarnos un 10%. En este caso el profesor B suspende (o

sus alumnos suspenden) más que los otros dos:

Psusp(B) = 0.23 > Psusp(C) = 0.13 > Psusp(A) = 0.09

Page 80: ejercicios bioestadistica

9. Cuestionario de Autoevaluación.

244 Fundamentos de Bioestadística

Problema 53

Los manatíes son enormes criaturas marinas que viven en el Caribe y son muy

abundantes en las costas de Florida, en los Estados Unidos. Las lanchas motoras son unos de

los principales enemigos de estos amables mamíferos, porque con sus hélices les ocasionan

profundos cortes en su velluda piel de varios centímetros de grosor que pueden llegan a

producirles la muerte. En la siguiente tabla aparecen las lanchas motoras registradas en el

Departamento de Marina de Florida y el número de vacas marinas muertas por dichos barcos

entre 1977 y 1990.

AñoLanchas

(en miles)

Manatíes

muertos

1977 447 13

1978 460 21

1979 481 24

1980 498 16

1981 513 24

1982 512 20

1983 526 15

1984 559 34

1985 585 33

1986 614 33

1987 645 39

1988 675 43

1989 711 50

1990 719 47

a. Haz una gráfica de esto datos. Dibuja un diagrama de dispersión, también

conocido como diagrama X-Y, colocado las lanchas en el eje X y los

manatíes en el eje Y. ¿Hay alguna relación entre estas dos variables?

b. Calcula la recta de ajuste por mínimos cuadrados a estos 14 datos: obtén su

pendiente, su ordenada en el origen y el coeficiente de correlación.

c. Dibuja dicha recta sobre el primer gráfico que obtuviste.

d. Predice el número de sirénidos que morirán debido a las lanchas en un año en

el que haya 716000 registradas en Florida.

e. Conseguimos los datos de cuatro años más.

Año Lanchas

(en miles)

Manatíes

muertos

1991 716 53

1992 716 38

1993 716 35

1994 735 49

Page 81: ejercicios bioestadistica

9. Cuestionario de Autoevaluación.

Fundamentos de Bioestadística 245

Añade estos cuatro puntos al diagrama X-Y primero que obtuviste. Las autoridades

del estado de Florida elaboraron leyes muy rigurosas para intentar proteger a las vacas

marinas durante estos cuatro años. ¿Encuentras alguna evidencia de que estas medidas han

tenido éxito?

f. En el apartado d) se ha predicho el número de manatíes muertos cuando había

716000 barcos. En los últimos datos proporcionados tenemos 3 años con

716000 barcos. Compara las vacas marinas fallecidas en estos tres años y la

predicción del apartado d). ¿Qué grado de precisión tiene esa predicción, es

ajustada?

g. Calcula la recta de ajuste por mínimos cuadrados a estos 18 datos: obtén su

pendiente, su ordenada en el origen y el coeficiente de correlación.

h. Dibuja dicha recta sobre el gráfico que obtuviste antes.

i. Predice el número de manatíes que morirán debido a las lanchas en un año en

el que haya 716000 registradas en Florida.

j. Calcula los errores de predicción para cada uno de los 18 puntos. Hay uno que

sobresale por su gran valor. Identifícalo. Represéntalos gráficamente.

k. Queremos predecir un intervalo de confianza del 95% y un intervalo de

predicción para los manatíes muertos por las 716000 lanchas.

l. El intervalo de predicción al 95% anterior es bastante grande. Si

consideramos un intervalo de confianza del 90% obtendremos un margen de

error más pequeño. Calcula con un intervalo de confianza del 90% el número

de sirénidos cuando hay 700000 lanchas.

Solución problema 53

Para la resolución de este problema te recomendamos que utilices Excel. Genera una

tabla con los datos y podrás ir completando los diferentes apartados de manera sencilla.

Veamos cómo:

Parece que hay una dependencia lineal entre ambas variables.

0

10

20

30

40

50

60

400 500 600 700 800

Ma

na

tíe

s m

ue

rto

s

Lanchas (en miles)

Manatíes de Florida

Page 82: ejercicios bioestadistica

9. Cuestionario de Autoevaluación.

246 Fundamentos de Bioestadística

Para que Excel agregue la línea de tendencia, o la recta de ajuste, debemos hacer clic

con el ratón con el botón derecho sobre uno de los puntos de la serie. Elegiremos ajuste

lineal y las dos últimas opciones: mostrar ecuación de la recta y R2. Así podremos ver que la

pendiente vale 0.1249 y la ordenada en el origen -41.4304; la correlación será 0.9415

(R2=0.8864). Se podrían implementar las fórmulas de los coeficientes, pero así es más

sencillo, ¿no?

Parece que las medidas puestas en marcha han tenido éxito, de los 4 años 3 valores

están por debajo de la recta de ajuste.

La media de estos 3 años es 42 y nosotros predecimos, utilizando la recta de

regresión, 48, por lo que hemos hecho una sobreestimación de un 14%.

Con los nuevos datos podremos calcular la nueva recta de regresión, que resulta tener

una pendiente igual a 0.1127, ordenada en el origen = -35.179 y correlación= 0.9127.

Podemos predecir ahora, 46 manatíes muertos.

No se resuelven todas los apartados, es sencillo con Excel.

y = 0,1249x - 41,43

R² = 0,8864

0

10

20

30

40

50

60

400 450 500 550 600 650 700 750

Ma

na

tíe

s m

ue

rto

s

Lanchas (miles)

Manatíes de Florida

0

10

20

30

40

50

60

70

400 500 600 700 800

Ma

na

tíe

s m

ue

rto

s

Lanchas (en miles)

Manatíes de Florida

Page 83: ejercicios bioestadistica

9. Cuestionario de Autoevaluación.

Fundamentos de Bioestadística 247

Problema 54

En una muestra de 1000 personas de la ciudad de Albacete, 25 de ellas padecen asma.

Si la ciudad de Albacete tiene 140000 habitantes ¿Cuántos de ellos padecen asma

considerando un intervalo de confianza del 95%?

a. Exactamente 3500 personas.

b. Entre 958 y 9580 personas.

c. Entre 1138 y 6758 personas.

d. Entre 2145 y 4854 personas.

e. No hay datos suficientes para hacer la estimación.

Solución problema 54

De los 1000 individuos de la muestra, solo 25 tienen asma, por lo que la proporción

será de 0.025. Podemos calcular el error estándar de la proporción:

=P(1 P)

N=

0.025 · 0.975

1000= 4.937 · 10

Así, sabemos que P 1.96·SEprop = P 1.96 · 4.937·10-3

= 0.025 9.677·10-3

[0.0153, 0.0347] por lo que como tenemos 140000 habitantes, el número de

afectados estará en el intervalo [2142, 4858] con p=0.05.

Page 84: ejercicios bioestadistica

9. Cuestionario de Autoevaluación.

248 Fundamentos de Bioestadística

Problema 55

Para tratar una determinada enfermedad mortal se prueban dos tratamientos

alternativos (A y B) sobre una muestra de ratones enfermos N = 200. Los resultados

obtenidos con ambos tratamientos son los siguientes:

Tratamiento

Grado de éxito

A B Total

Mejoría 50 80 130

Muerte 20 50 70

Total 70 130 200

Los resultados parecen indicar que el tratamiento A es más eficaz. Pero ¿qué grado

de significación estadística tiene la diferencia observada entre los éxitos de ambos

tratamientos?

a. 0.10

b. 0.05

c. 0.01

d. 0.001

e. Ninguna de las anteriores.

Solución problema 55

Este es similar a otros tantos que hemos hecho, calculamos los valores esperados a

partir de las proporciones de la muestra total:

Tratamiento (esperados)

Grado de éxito

A B Total

Mejoría 45.5 84.5 130

Muerte 24.5 45.5 70

Total 70 130 200

Calculamos 2

= 1.9563 y buscamos en las tablas:

p 0.99 0.95

Nuestro

valor de 2

0.10 0.05 0.01 0.001

2crit 0.000157 0.00393 1.9563 2.706 3.841 6.635 10.827

De las opciones posibles, nuestro valor de 2

no cumple ninguna condición, por lo

que la diferencia no es significativa... salvo para p=0.95, así que "ninguna de las respuestas

anteriores es correcta".

Page 85: ejercicios bioestadistica

9. Cuestionario de Autoevaluación.

Fundamentos de Bioestadística 249

Problema 56

De las siguientes rectas, ¿cuál(es) NO puede(n) corresponder a una línea de tendencia

ajustada a un conjunto de datos tipificados (zX, zY)?

a. zY = +0.98 zX

b. zY = 0.02 zX

c. zY = 1.2 0.63 zX

d. zY = +1.6 zX

e. c y d) son correctas.

Solución problema 56

Para los valores tipificados, la recta que mejor se ajusta pasa por el origen de

coordenadas, así que no puede tener término independiente (la opción c no es correcta). La

pendiente está comprendida entre los valores +1 y -1 (por lo que la respuesta d tampoco es

correcta). Como piden las que NO pueden ser, la respuesta correcta es la e.

Page 86: ejercicios bioestadistica

9. Cuestionario de Autoevaluación.

250 Fundamentos de Bioestadística

Problema 57

Se sospecha que la distancia de la Facultad al domicilio particular puede influir en la

asistencia de los alumnos a las clases de primera hora de la mañana. En una muestra N = 100

se observa un coeficiente de correlación r = +0.8 entre la distancia al domicilio particular y

el número de faltas de asistencia a dichas clases. ¿Qué indica este resultado?

a. Que la distancia al domicilio es la causa de que el 80% de los alumnos falten

al menos una vez a las clases de primera hora.

b. Que la distancia al domicilio es la causa de que los alumnos falten a un 80%

de las clases de primera hora.

c. Que cuanto mayor sea la distancia del domicilio a la Facultad, menor es el

número de faltas de asistencia a las clases de primera hora.

d. Que para reducir las faltas asistenciales a las clases de primera hora, habría

que iniciar las clases más tarde.

e. Ninguna de las respuestas anteriores es correcta, ya que un alumno puede

faltar a las clases de primera hora por otras muchas causas.

Solución problema 57

El hecho de obtener un valor de r alto no implica que haya dependencia, así la

respuesta correcta es la e.

Page 87: ejercicios bioestadistica

9. Cuestionario de Autoevaluación.

Fundamentos de Bioestadística 251

Problema 58

¿Cuál de las siguientes afirmaciones es CORRECTA?

a. No existen restricciones al uso de la prueba 2

para todo tipo de tablas de

contingencia 2 2.

b. El coeficiente de correlación de Pearson sólo puede calcularse a partir de los

datos tipificados.

c. La pendiente de la recta regresión de los valores originales es el coeficiente de

correlación de Pearson.

d. La pendiente de la recta de regresión puede ser mayor que +1.

e. La pendiente de la recta de regresión no puede ser igual a cero.

Solución problema 58

La a es incorrecta, porque hemos visto en teoría que sí hay limitaciones. La b también

porque hemos visto que podemos calcular la correlación con los datos de origen, que sea

fácil es otra cosa. La c es falsa porque esto solo es cierto cuando se parte de los valores

tipificados. La correcta es la d porque no indica que estemos hablando de los datos

tipificados. Por último la e es falsa porque sí podemos tener un valor de pendiente igual a

cero.

Page 88: ejercicios bioestadistica

9. Cuestionario de Autoevaluación.

252 Fundamentos de Bioestadística

Problema 59

En una muestra N = 2000 de ciudadanos españoles con edades comprendidas entre 18

y 85 años, 1300 de ellos padecen alguna dolencia de espalda. Si en España hay 38 millones

de habitantes ¿Cuántos de ellos padecen problemas de espalda considerando un intervalo de

confianza del 95%?

a. Exactamente 24.7 millones de españoles.

b. Aproximadamente entre 18.9 y 20.5 millones de españoles.

c. Aproximadamente entre 23.7 y 25.7 millones de españoles.

d. Exactamente entre 21.3 y 23.3 millones de españoles.

e. No es posible hacer la estimación por falta de datos.

Solución problema 59

El enunciado habla de ciudadanos de entre 18 y 85 años, la pregunta es sobre

TODOS los españoles, por tanto no partimos de una muestra significativa, así que la

respuesta correcta es la "e" puesto que no podemos hacer la estimación.

Page 89: ejercicios bioestadistica

9. Cuestionario de Autoevaluación.

Fundamentos de Bioestadística 253

Problema 60

¿Cuál de las siguientes afirmaciones respecto a la prueba 2

es CIERTA?

a. Es una prueba paramétrica.

b. Puede aplicarse sin riesgo a muestras pequeñas (N < 20).

c. Puede aplicarse sin correcciones a muestras N < 100.

d. Sirve para comparar proporciones.

e. Sólo puede aplicarse a tablas de contingencia 2x2.

Solución problema 60

La opción CIERTA es la opción "d", el resto son falsas.

Page 90: ejercicios bioestadistica

9. Cuestionario de Autoevaluación.

254 Fundamentos de Bioestadística

Problema 61

El coeficiente de correlación de Pearson entre dos variables A y B es r = 0.9. ¿Qué

podemos concluir de este resultado?

a. Nada, a menos que tengamos una hipótesis a priori que relacione A y B.

b. Que un aumento en la variable A causa una disminución importante en la

variable B.

c. Que un aumento de la variable A causa un aumento moderado en la variable

B.

d. Que A y B están claramente relacionadas, pero no podemos especificar cómo.

e. Que no existe ningún tipo de relación entre las variables A y B.

Solución problema 61

La respuesta correcta es la a.

Page 91: ejercicios bioestadistica

9. Cuestionario de Autoevaluación.

Fundamentos de Bioestadística 255

Problema 62

¿Qué es el error de predicción?

a. El error cometido al estimar los coeficientes a y b de la línea de predicción

para la muestra.

b. El error cometido al estimar los parámetros y de la línea de predicción

para la población.

c. La diferencia entre el valor observado y el valor estimado por la línea de

predicción.

d. La diferencia entre los coeficientes de las rectas de regresión de la población

y la muestra.

e. Ninguna de las respuestas anteriores es correcta.

Solución problema 62

La respuesta correcta es la c.

Page 92: ejercicios bioestadistica

9. Cuestionario de Autoevaluación.

256 Fundamentos de Bioestadística

Problema 63

¿Cuál de las siguientes parejas de elementos relacionados es INCORRECTA?

a. Correlación, Coeficiente de correlación de Pearson.

b. Regresión, Variables tipificadas.

c. Partición de la varianza, r2.

d. Diagrama de dispersión, Relación entre dos variables.

e. Regresión, Predicción.

Solución problema 63

La respuesta correcta es la b.

Page 93: ejercicios bioestadistica

257

Bibliografía

Page 94: ejercicios bioestadistica
Page 95: ejercicios bioestadistica

Bibliografía

Fundamentos de Bioestadística 259

Bibliografía

Para la elaboración de estos apuntes se han consultado los siguientes textos:

[1] Rius Diaz, F y Barón López, F. “Bioestadística.” (Thomson Paraninfo, Madrid). 2005.

[2] Sentis, J, Pardell, H, Cobo, E y Canela, J. “Manual de Bioestadística”. (Mason. 3ª

Edición, Barcelona). 2003.

[3] Rowntree, D. “Statistics without tears: A primer for non-mathematicians”. (Penguin

Books, London). 1981.

[4] Norman, G.R. y Streiner, D.L. “Bioestadística”. (Harcourt Brace, Madrid). 1998.

[5] Galindo Villardón, P. “Exposición intuitiva de métodos estadísticos: Fundamentos y

aplicaciones a la Biología, Medicina y otras enseñanzas”. (Universidad de Salamanca,

Salamanca). 1984.

[6] López-Poveda, Enrique A. “Fundamentos de Estadística”. (Popular Libros S.L.,

Albacete). 200217

.

[7] Armitage, P y Berry, G. “Estadística para la investigación biomédica”. (Harcourt Brace.

3º Edición, Madrid). 1997.

[8] Castillo, E y Pruneda, R.E. “Estadística aplicada”. (Editorial Moraleda, Santander). 2001.

[9] Moud, R.F. “Introductory medical statistics”. (IOP Publishing Ltd. 3ª Edición, Bristol).

1998.

17El Dr. Enrique A. López Poveda fue responsable de la docencia de Bioestadística en la Facultad de

Medicina de Albacete desde 1998 a 2003. Estos apuntes son la evolución de sus apuntes originales y que se

publicaron en 2002 por Popular Libros.

Page 96: ejercicios bioestadistica
Page 97: ejercicios bioestadistica