Download - Bio Problem As
PROBLEMAS
TEMA 1
1.- En un estudio aleatorizado se ha investigado los efectos de una dieta baja en grasas
saturadas y colesterol sobre las concentraciones lípidas séricas y el crecimiento en 1062
niños sanos de 7 meses de edad. Entre los 7 y los 13 meses de edad en los niños del
grupo sometido a intervención no se modificaron significativamente las concentraciones
séricas del colesterol total y colesterol unido a lipoproteinas .
Clasifica el tipo de estudio. Describe la población. Define las variables de más interés y
los parámetros asociados.
2.- Del estudio que se describe en el artículo "Prevalence and Trends in Obesity
Among US Adults" comenta: el tipo de estudio, la población, las variables de más
interés y los parámetros asociados.
3.- Del estudio que se describe en el artículo "Depresion in Older People: Visual
Impairment and Subjective Ratings of Health" comenta: el tipo de estudio, la
población, las variables de más interés y los parámetros asociados.
4.- The most common treatment for breast cancer was once removal of the breast. It is
now usual to remove only the tumor and nearby lymph nodes, followed by radiation.
The change in policy was due to a large medical experiment that compared the two
treatments. Each treatment was given to a separate group of breast cancer patients,
chosen at random. The patients were closely followed to see how long they lived
following surgery. What are the explanatory and response variables? Are they
categorical or quantitative variables?
5.- A large study used records from Canada's national health care system to compare
the effectiveness of two ways to treat a disease. The two treatments are traditional
surgery and a new method that does not require surgery. The records described many
patients whose doctors had chosen each method. The study found that patients treated
by the new method were significantly more likely to die within 8 years.
a) Further study of the data showed that this conclusion was wrong. The extra deaths
among patients who got the new method could be explained by lurking variables. What
lurking variables might be confounded with a doctor's choice of surgical or nonsurgical
treatment?
b) You have 300 prostate patients who are willing to serve as subjects in an experiment
to compare the two methods. Outline the design of a randomized comparative
experiment.
6.- Case study: Effect of Dietary Magnesium Supplementation in the Prevention of
Coronary Heart Disease and Sudden Cardiac Death
Magnesium may be important in the pathogenesis of coronary heart disease and sudden
death. To study the role of magnesium, 400 high risk individuals were asked to
volunteer either for a magnesium-rich diet (group A, 206) or for our usual diet (group B,
194) for 10 years in a randomized fashion. The age groups were between 25 and 63
years and the majority (374) of them were males.
The study dietitian recruited urbanized adults with major or minor risk factors, with or
without cardiovascular disease, by advertisements in the local clubs and newspapers.
Respondents having cancer, chronic renal failure, chronic diarrhea and dysentery or
who felt unable to participate were excluded from this study.
Clinical, electrocardiographic, radiologic and laboratory data were obtained in all the
participants during 2 weeks of surveillance before admission to the study. Exercise
electrocardiograms were done to confirm the presence or absence of ischemic heart
disease (IHD) in all the participants. Hypertension was diagnosed in the presence of
blood pressures above 150/95 mm Hg, diabetes by a positive glucose tolerance test,
smoking by consumption of more than 10 cigarettes/day, obesity by 10 % more weight
than normal for that age and sex. Hypercholesterolemia was diagnosed in the presence
of fasting serum cholesterol of more than 250 mg/dl. Laboratory data included blood
urea, sugar, total cholesterol, low- and high-density lipoprotein cholesterol, total blood
leukocytes, hemoglobin, serum sodium potassium [29], magnesium [8], calcium [17]
and albumin. The criteria of sudden cardiac death SCD was death occurring within 1 h
either due to IHD or without any apparent cause. The study dietitian divided all the
participants into two groups alternately in a randomized fashion after informed consent
and the physician responsible was blinded to dietary regimens. Group A included
persons on a magnesium-rich dietary protocol and group B included persons on our
usual diet. Participants who discontinued the trial during follow-up were excluded. Only
those participants who completed a minimum of 10 years have been included in the
analysis of the data.
Clasifica el tipo de estudio. Describe la población. Define las variables de más interés y
los parámetros asociados. Clasifica todas las variables que se miden en el estudio
TEMA 2
1.-Los siguientes datos corresponden a una encuesta realizada en un colegio de Estados
Unidos, a 20 niñas.
país edad hermanos Ranking Puntuación CI Sbp Peso Color vacuna
1 2 10 3 16 70 91 114 67 2 1965
2 1 10 1 8 79 121 90 69 1 1965
3 3 10 4 1 76 111 88 85 1 1964
4 1 11 2 3 85 103 96 83 2 1965
5 1 11 3 7 82 104 113 74 3 1964
6 1 11 2 9 81 99 92 81 2 1965
7 1 11 3 25 64 87 103 97 1 1964
8 3 11 2 10 72 121 123 92 1 1964
9 1 12 4 47 25 70 125 114 2 1964
10 1 12 2 17 88 105 83 85 3 1964
11 1 12 1 31 47 96 110 94 2 1968
12 2 12 3 14 85 107 101 95 1 1964
13 4 13 4 3 88 103 127 106 3 1963
14 1 13 5 34 34 79 94 93 1 1963
15 1 13 3 26 63 91 119 108 2 1963
16 1 13 2 20 71 108 105 104 2 1964
17 4 13 3 15 74 132 97 99 2 1962
18 1 14 3 32 54 105 109 105 1 1962
19 1 14 4 37 52 93 102 112 1 1962
20 1 14 3 22 67 101 115 91 2 1961
País: 1 = U.S.A., 2 = México; 3 = Canadá; 4 = Inglaterra
Hermanos: número de hermanos de cada una de las niñas muestreada.
Ranking: Haciendo uso de un baremo propio clasifican a la niña .
Puntuación: En un examen de álgebra.
CI: Coeficiente de inteligencia
SBP: Presión sistólica de la sangre.
Color (de los ojos): 1= negro; 2 = marrón; 3 = azul
Vacunación: Año en que la niña fue vacunada.
a) Clasificar las variables. Calcular la distribución de frecuencias de la variable color, hacer
un diagrama de barras.
b) Calcular la mediana de la Puntuación y del CI y categorizar cada variable en dos clases:
ALTA, BAJA. (En la primera clase de cada variable estarán las niñas con valores de dicha
variable correspondiente superiores ó iguales a la mediana y en la segunda clase el resto).
Calcula la tabla 2x2, tabla de contingencia, resultante de cruzar las variables que has
creado en. Calcula las tablas de frecuencias relativas.
2.- A continuación se recogen datos del pesos de recién nacidos en gramos:
2985 3065 2964 3007 2927 2943 3120 3087 3042 3101 2890 3020 2993 2947
3040 2987 3121 3005 2949 3128 3054 3015 3021 3007 3095 2905 3032
3014 3049 3056 3109 3091
a) Haz una diagrama en cajas para representar la distribución del peso ¿ Te parece
adecuada la hipótesis de que la distribución es normal?.
b) Calcula con estos datos la media y la desviación típica (DT) e interpreta el intervalo
(Media2*DT).
c) Cómo cambian los análisis si el valor mínimo resulto ser 2215 en vez de 2890.
3.- Se tienen datos sobre los percentiles de la distribución del colesterol total en la
población de mujeres españolas en tres grupos de edad:
Percentiles
Edad en años 5 10 25 50 75 90 95
30-39 139 151 169 186 211 234 249
40-49 146 161 181 202 231 259 271
50-59 168 181 204 230 259 284 304
Construye en el mismo gráfico los polígonos de frecuencias relativas acumuladas para los
3 grupos de edad.
4.- Se llevó a cabo un estudio sobre la hipertensión en una población urbana obteniéndose
valores de la presión diastólica en 1500 hombres de edades entre 30 y 69 años:
Presión Diastólica (mmHg) frecuencia porcentaje
< 74 330 22%
75-84 540 36%
85-94 420 28%
95-104 150 10%
105-114 45 3%
> 114 15 1%
a) Haz una representación gráfica de la distribución.
b) Calcular las frecuencias relativas acumuladas en cada clase.
c) Un individuo es considerado hipertenso con una presión diastólica de 95 ó mayor.
Comenta la siguiente afirmación: Son considerados hipertensos aquellos individuos que
estén en un percentil mayor ó igual al P95.
5.- En un hospital infantil se realizó un estudio para comprobar la eficacia de la aspirina
en la reducción de la temperatura, las mediciones se hicieron en 12 niños de más de 5
años, antes de darles la aspirina (X1) y 1 hora después (X2). Observándose los valores que
se representan en la tabla.
Niño 1 2 3 4 5 6 7 8 9 10 11 12
X1 38.4 39.3 39.6 39.2 39.5 39.1 38.6 39.0 39.5 39.1 38.2 38.8
X2 37.7 38.2 37.8 38.3 37.8 38.4 37.9 37.9 38.0 37.6 37.9 38.5
a) ¿ Cuál es la variable que tiene interés estudiar?. Calcula sus valores en la muestra.
b) Da una medida de la reducción en la temperatura.
c) Dar medidas que sirvan para responder a las siguientes cuestiones:
(c1) ¿La reducción en la temperatura es similar en todos los niños?
(c2) ¿La reducción en la temperatura es similar para los niños con temperaturas
iniciales menores ó iguales a 39.0 que para los niños con temperaturas iniciales
mayores de 39.0?
d) Haz una representación gráfica de las variables: temperatura inicial y reducción de la
temperatura.
6.- Del artículo "Prevalence and Trends in Obesity Among US Adults"
a) Comenta la figura 1, que se representa y en que se parecen y se diferencian las
distribuciones del índice de masa corporal en los hombres y en las mujeres y en los
dos períodos de tiempo.
b) Calcula la tabla de contingencia con las frecuencias absolutas observadas para la
edad (<40 años, >=40 años) y el sexo asociada a la muestra recogida. Calcula la
tabla de frecuencias relativas.
7.- A continuación se recogen algunos de los resultados recogidos en una encuesta sobre
Datos antropométricos de la población laboral española. (diciembre 1996 - corregidos
octubre 1999).
Designación sexo Tama. muest.
Media Desv. típica
Percentiles
P 1 P 5 P 50 P 95 P 99
Masa corporal (peso, kg) M 586 60,45 9,18 44,2 48,1 59,0 77,0 90,5
Estatura (altura del cuerpo) M 593 1595,37 62,97 1439 1494 1596 1701 1744
Longitud de la mano M 593 172,99 8,72 152 159 173 188 194
Masa corporal (peso, kg) H 1125 75,67 11,05 52,9 58,6 75,0 95,8 104,9
Estatura (altura del cuerpo) H 1130 1698,84 70,49 1537 1583 1698 1820 1864
Longitud de la mano H 1126 188,18 9,79 162 172 188 204 210
Interpreta todas las medidas obtenidas, ¿ Cuál de los tres parámetros observados es más
disperso y cual crees que diferencia mejor los dos sexos?.
8.- En un estudio se han medido varias variables entre ellas la edad. Observándose
individuos con edades entre 16 y 60 años. El resumen de los datos es el gráfico
siguiente. ¿ te parece correcto?
9.- Los datos siguientes corresponden a los valores asociados a un parámetro biológico
en un grupo de individuos: (Datos reales New England Journal of Medicine 2000)
79725, 12862, 18022, 76712, 256440, 14013, 46083, 6808, 85781, 1251, 6081, 50397,
11020, 13633, 1064, 496433, 25308, 6616, 11210, 13900.
Haz una representación de la distribución y resume los datos utilizando medidas. Utiliza
una transformación que dé lugar a unos datos más manejables desde un punto de vista
estadístico y haz la representación de la distribución en la nueva escala y calcula de
nuevo las medidas.
10.- Se lleva a cabo un estudio para evaluar la relación entre el stress en el trabajo y las
enfermedades coronarias, para ello se siguen durante 10 años a 2013 individuos lo que
permitió detectar la enfermedad:
Stress \ Enfermedad Si No
Si 97 307
No 200 1409
Dar distintas medidas del grado de asociación entre las variables.
11. - Se ha realizado un estudio sobre la edad de la madre en el momento del nacimiento
de su hijo como factor de riesgo en el desarrollo del síndrome de muerte infantil repentina
(SIDS). Se seleccionaron para el estudio un total de 7330 mujeres que estaban por debajo
de los 25 años en el momento del nacimiento del niño, de ellas, 29 tuvieron niños
afectados de SIDS. De las 11256 mujeres seleccionadas para el estudio que tenían 25 años
ó más en el momento del nacimiento de sus hijos, 15 tuvieron niños con SIDS. Dar e
interpretar una medida de asociación.
12.- Del artículo :”Depression in Older People: Visual Impairment and Subjective
Ratings of Health”.Clasifica las variables que aparecen en la tabla 1.
13.- Los siguientes datos representan el nivel de astigmatismo en 18 pacientes antes y
después de una operación realizada en un determinado hospital: (se supone que el nivel de
astigmatismo es Normal)
nº Antes Después nº Antes Después
1 1.5 1.1 10 1.9 0.7
2 0.8 0.9 11 1.3 1.1
3 0.4 0.0 12 0.2 0.3
4 2.3 2.0 13 2.0 1.9
5 1.1 1.7 14 2.3 1.3
6 0.5 0.2 15 1.3 1.1
7 1.4 0.5 16 1.4 0.6
8 1.9 1.5 17 1.1 0.4
9 3.0 1.9 18 1.5 0.8
a) Calcula las medias y desviaciones típicas para las dos variables y el coeficiente de
correlación.
b) Construye un histograma para la variable nivel de astigmatismo Antes de la operación.
14.- Six healthy three year old female Suffolk sheep were injected with the antibiotic
Gentamicin, at a dosage of 10 mg/kg body weight. Their blood serum concentrations of
Gentamicin 1.5 hours after injection were: 33; 26; 34; 31; 23; 25.
a) What is the population that these values represent, and which quantity or quantities
from this population are you interested in?
b) Summary statistics from these data are : n mean sd se(mean)
Which of the quantities are related to quantities in the population that you might be
interested in estimating?. Which of the quantities would you expect to increase or
decrease if the experiment was extended to include more sheep?
15.- The distribution of the ages of a nation's population has a strong influence on
economic and social conditions. The table below shows the age distribution of U.S.
residents in 1950 and 2075, in millions of persons. The 1950 data come from that year's
census. The 2075 data are projections made by the Census Bureau. Because the total
population in 2075 is much larger than the 1950 population, comparing percents in each
age group is clearer than comparing counts. Make a table of the percent of the total
population in each age group for both 1950 and 2075.
a) Make a histogram of the 1950 age distribution (in percents). Then describe the main
features of the distribution. In particular, look at the percent of children relative to the
rest of the population.
b) Make a histogram of the projected age distribution for the year 2075. Use the same
scales as in a). for easy comparison. What are the most important changes in the U.S.
age distribution projected for the 125-year period between 1950 and 2075?
Age-group 1950 2075
Under 10 years 29.3 34.9
10 to 19 years 21.8 35.7
20 to 29 years 24.0 36.8
30 to 39 years 22.8 38.1
40 to 49 years 19.3 37.8
50 to 59 years 15.5 37.5
60 to 69 years 11.0 34.5
70 to 79 years 5.5 27.2
80 to 89 years 1.6 18.8
90 to 99 years 0.1 7.7
100 to 109 years 0.0 1.7
Total 151.1 310.6
16.- Here are the scores of 18 First-year college women on the Survey of Study Habits
and Attitudes (SSHA):
154 109 137 115 152 140 154 178 101 103 126 126 137 165 165 129 200 148
a) Find the mean score, draw a Box plot and find an outlier.
b) Find the mean for the 17 observations that remain when you drop the outlier. How
does the outlier change the mean?
17.- Do women study more than men? We asked the students how many minutes they
studied on a typical weeknight. Here are the responses of random samples of 30 women
and 30 men from the class: Women Men
180 120 180 360 240 90 120 30 90 200
120 180 120 240 170 90 45 30 120 75
150 120 180 180 150 150 120 60 240 300
200 150 180 150 180 240 60 120 60 30
120 60 120 180 180 30 230 120 95 150
90 240 180 115 120 - 200 120 120 180
a) Examine the data. Why are you not surprised that most responses are multiples of 10
minutes? We eliminated one student who claimed to study 30,000 minutes per night.
Are there any other responses you consider suspicious?
b) Make a back-to-back stemplot of these data. Does it appear that women study more
than men? Give numerical summaries that back up your conclusion.
18.- There is some evidence that drinking moderate amounts of wine helps prevent heart
attacks. The table on the next page gives data on yearly wine consumption (liters of
alcohol from drinking wine, per person) and yearly deaths from heart disease (deaths
per 100,000 people) in 19 developed nations.
Australia 2.5 211 Netherlands 1.8 167 Austria 3.9 167 New Zealand 1.9 266
Belgium 2.9 131 Norway 0.8 227 Canada 2.4 191 Spain 6.5 86
Denmark 2.9 220 Sweden 1.6 207 Finland 0.8 297 Switzerland 5.8 115
France 9.1 71 United Kingdom 1.3 285 Iceland 0.8 211 United States 1.2 199
Ireland 0.7 300 West Germany 2.7 172 Italy 7.9 107
a) Make a scatterplot that shows how national wine consumption helps explain heart
disease death rates. Calculate the correlation coefficient.
b) Describe the form of the relationship. Is there a linear pattern? How strong is the
relationship?
c) Is the direction of the association positive or negative? what this says about wine and
heart disease.
19.- Data analysts often look for a transformation of data that simplifies the overall
pattern. Here is an example of how transforming the response variable can simplify the
pattern of a scatterplot. The data show the growth of Europe between 1750 and 1950.
Year 1750 1800 1850 1900 1950 Population (millions) 125 187 274 423 594
a) Make a scatterplot of population against year. Briefly describe the pattern of Europe's
growth.
b) Now take the logarithm of the population in each year (use the log button on your
calculator). Plot the logarithms against year. What is the overall pattern on this plot?
20.- Here are data from eight high schools on smoking among students and among their
parents: Neither parent One parent Both parents
smokes smokes smoke
Student does not smoke 1168 1823 1380
Student smokes 188 416 400
a) How many students do these data describe?
b) What percent of these students smoke?
c) Calculate and compare percents to show how parents' smoking influences students'
smoking. Briefly state your conclusions about the relationship.
21.- Case study: In the mid-1970s, a medical study contacted randomly chosen people
in a district in England. Here are data on the 1314 women contacted who were either
current smokers or who had never smoked.
Two numbers are given for each age at the time of the survey and whether they were
still alive 20 years later: the number of smokers women and the number of not smokers.
Age 18 to 44 Age 45 to 64 Age 65+
Dead 19 13 Dead 78 52 Dead 42 165
Alive 269 327 Alive 167 147 Alive 7 28
a) Make from these data a two-way table of smoking (yes or no) by dead or alive. What
percent of the smokers stayed alive for 20 years? What percent of the nonsmokers
survived? It seems surprising that a higher percent of smokers stayed alive.
b) The age of the women at the time of the study is a lurking variable. Show that within
each of the three age groups in the data, a higher percent of non-smokers remained alive
20 years later. This is an example of Simpson's paradox.
c) The study authors give this explanation: "Few of the older women (over 65 at the
original survey) were smokers, but many of them had died by the time of follow-up."
Compare the percent of smokers in the three age groups to verify the explanation.
TEMA 3
1.- En un estudio sobre sensibilidad se practican necropsias en cerebros de pacientes. Se
informa que el 35% tiene alteraciones asociadas con la demencia senil, el 45% tiene
alteraciones asociadas con la degeneración arteriosclerótica cerebral y el 10% muestra
evidencia de ambas. Basándose en esta información, ¿ cuál es la probabilidad de que un
paciente con el cerebro dañado a consecuencia de una degeneración arteriosclerótica
tenga también alteraciones cerebrales características de la demencia senil?. ¿ Cuál es la
probabilidad de que un paciente que no tienen alteraciones debidas a la demencia senil
padezca de degeneración arteriosclerótica cerebral?.
2.- En un estudio sobre 200 enfermos en un centro hematológico, se encontraron 89 con
Rh+, 59 de grupo sanguíneo A y 29 hemofílicos. Además se encontraron 40 individuos
del grupo A y Rh+, 18 hemofílicos y Rh
+ y 16 hemofílicos del grupo A.
(a) Probabilidad de encontrar individuos no hemofílicos del grupo A .
(b) Probabilidad de encontrar hemofílicos con Rh-.
(c) Probabilidad de encontrar no hemofílicos con Rh+.
(d) Probabilidad de encontrar individuos no hemofílicos con Rh-.
(e) Probabilidad de encontrar individuos del grupo A y Rh-.
3.- En un estudio sobre una población se sabe que el 10% tiene 65 ó mas años y que el 1%
padece deficiencia cardíaca moderada. Además el 10.4% tiene 65 ó mas años ó padece
deficiencia cardíaca moderada. ¿ Son independientes los sucesos ; {65 ó mas años} y
{D.C.M}.
4.- Expresar matemáticamente la siguiente afirmación :
Entre los niños de 5 años se sabe que el 4% padece una enfermedad.
5. - El 2% de una determinada población padece diabetes, de ellos, solamente la mitad lo
saben. Si se selecciona aleatoriamente a un individuo. ¿ Cual es la probabilidad de que
padezca diabetes pero no sea consciente de padecerla ?
6.- En una población de donantes de sangre se sabe que el 5% tienen lesión
hepatocelular . Se realiza una prueba con el fin de detectar a los donantes-enfermos
basada en el nivel de transaminasas. la prueba da (+) en el 7% de los sanos y en el 78%
de los enfermos.
(a) Calcular la tabla de probabilidad conjunta.
(b) Calcular la especificidad y sensitividad de la prueba .
(c) Si la prueba da (+) calcular la probabilidad de error en el diagnóstico. (Igual si da (-)
(d) Calcular el riesgo relativo de tener lesión con respecto a la prueba de transaminasas
y la odds ratio.
7.- De 2000 enfermos de una población 140 padecen hepatitis, 48 anemia y el resto
otras enfermedades. La ictericia se presenta en el 76% de los enfermos de hepatitis, en
un 27% de los enfermos de anemia y en un 20% en el resto de los enfermos. Por otra
parte, se sabe que estas enfermedades no se presentaron juntas en ningún otro enfermo.
(a) Determinar la probabilidad de que un enfermo que presente ictericia padezca
hepatitis.
(b) Determinar la probabilidad de que un enfermo ictérico no tenga anemia.
(c) Calcular el riesgo relativo de tener hepatitis o anemia respecto la presencia o no
presencia de icteria.
8.- Supongamos que se dispone de un test-diagnóstico para detectar el virus del SIDA
con una sensitividad del 100% y una especificidad del 99.5% y que se aplica
rutinariamente a una población de mujeres donantes, entre las que la prevalencia del
virus es de 0.01% y a la población de homosexuales de San Francisco, entre los que la
prevalencia ha sido estimada del 50%. ¿Qué proporción de los que clasifica el test como
afectados tienen realmente el virus en cada una de las poblaciones?.
9.- Se estima que el 15% de la población adulta padece hipertensión, pero el 75% de
todos los adultos creen no tener este problema. Se estima que el 6% de la población
tiene hipertensión pero no es consciente de ello. Si un paciente adulto piensa que no
tiene hipertensión, ¿cuál es la probabilidad de que la enfermedad de hecho exista?. Si un
paciente padece hipertensión, ¿cuál es la probabilidad de que lo sospeche?.
10.- En la siguiente tabla se recogen datos sobre un grupo de individuos , sus hábitos
de fumar y la presencia/ausencia de tos crónica.
No fumador Fumador
ocasional
Fumador
regular
TOS si 266 395 80
TOS no 1037 977 92
10.1.- Estima con estos
datos la tabla de
probabilidad conjunta
y la tabla de
probabilidades condicionada que te parezca que tiene más interés en este estudio
10.2.- Estima el Riesgo Relativo de tener tos crónica entre los fumadores en relación a
los no fumadores e interpreta el valor obtenido .
11.- We examine the reliability of a test for a severe disease. For an infected person the
test gives a positive indication with probability 99% (sensitivity). If a healthy person is
tested, the test is negative with probability 99% (specificity). Furthermore it is known
that one out of 2000 persons in the population is infected (prevalence). What is the
probability (positive predictive value) that a person is infected, if the test is positive?.
12.- A study reported the use of peritoneal washing cytology in gynecologic cancers
(Zuna and Behrens,1996). One part of the report was a comparison of peritoneal
washing cytology and peritonea histology in terms of detecting cancer of the ovary,
endometrium, and cervix. Using the histology determination as the gold standard, and
the washing cytology as the new test procedure, determine the sensitivity, specificity,
and positive and negative predictive values of the washing cytology procedure.
Outcomes are given in the Table:
Diagnostic Test Disease (D+) No Disease (D−) Total
Positive (T+) 116 4 120
Negative (T−) 24 211 235
Total 140 215 355
TEMAS 4/5
1.- La densidad de la variable aleatoria, X= número de personas por día que buscaron
tratamiento innecesario en un servicio de urgencias, viene dada por :
x 0 1 2 3 4 5
--------------------------------------------------------------------
f(x) 0.01 0.1 0.3 0.4 0.1 0.09
a) Demostrar que es una función de densidad.
b) Calcular la función de distribución.
c) Hallar P [ 2 <X< 4 ].
d) ¿Cuál es la probabilidad de que alguien recurriera innecesariamente al servicio?.
2.- Una bacteria determinada produce un síntoma en el 2% de las personas infectadas.
En un picnic 20 personas comieron alimentos contaminados y se infectaron con dicho
organismo. ¿Cual es la probabilidad de que tengan síntomas?:
a) 10 personas ó menos.
b) Ninguno.
c) Más de 4.
d) Exactamente 4.
e) Calcular el valor medio esperado.
3.- Un laboratorio afirma que una droga causa efectos secundarios en una proporción de
3 de cada 100 pacientes. Para contrastar esta afirmación, otro laboratorio elige al azar a
5 pacientes a los que aplica la droga.
a) ¿ Cuál es la probabilidad de los siguientes sucesos: "ningún paciente tenga efectos
secundarios", "al menos dos tengan efectos secundarios"?.
b) ¿ Cuál es el número medio de pacientes que espera el laboratorio que sufra efectos
secundarios si elige 100 pacientes al azar y les aplica la droga?.
4.- Se supone que la probabilidad de nacer varón es 0.55. Calcular la probabilidad de
que en una familia de 5 hijos:
(a) Todos sean varones.
(b) Al menos dos sean varones.
(c) Tres sean mujeres.
5.- En una población el tiempo de coagulación del plasma sanguíneo (X), sigue una
distribución N(10.5,1). Calcular :
a) Probabilidad de que una persona elegida al azar en dicha población tenga el tiempo
de coagulación menor que 10.5. Lo mismo para el intervalo (11, 11.5) y para el tiempo
de coagulación superior a 10.1.
b) Calcular un intervalo centrado en la media en el que se encuentra 0.9 que tenga
probabilidad 0.9.
c) Se clasifica a los individuos de dicha población de la siguiente forma:
Bajo: X<P25 Normal: P25 < X < P75 Alto: X > P75
Hallar los límites de dichas categorías.
6.- Se observó que la cantidad de agente anestesiante general rectal necesario para
provocar una anestesia quirúrgica se distribuía aproximadamente de forma normal, entre
diversos pacientes, con = 50 mg y =10 mg. La dosis en la cual se presentan efectos
secundarios graves sigue otra distribución normal con = 110 mg y =20 mg. Si se
utiliza una dosis tal que se consigue anestesiar con ella al 80% de los pacientes, ¿Qué
porcentaje presentará efectos secundarios graves a causa de esta dosis?.
7.- Una regla muy usada para predecir que individuos pueden sufrir una trombosis
postoperatoria consiste en una medida numérica que sigue, en los individuos que no
sufren tal proceso, una N(3,1) mientras que entre los que si que la sufren la distribución
es una N(9,2). Normalmente se toma como punto de corte para decidir que un paciente
corre el riesgo de sufrir trombosis el valor 5. ¿Qué porcentaje de individuos que no
sufrían trombosis son catalogados como que si sufrían?. ¿Qué porcentaje de individuos
que si sufrían trombosis son catalogados como libres de tal riesgo?. Sabiendo que el
46% de individuos sufren trombosis y usando el punto de corte anteriormente citado,
calcular el valor predictivo positivo y el valor predictivo negativo de la regla.
8.- Judy's doctor is concerned that she may suffer from hypokalemia (low potassium in
the blood). There is variation both in the actual potassium level and in the blood test that
measures the level. Judy's measured potassium level varies according to the Normal
distribution with mean= 3.8 and s = 0.2. A patient is classified as hypokalemic if the
potassium level is below 3.5.
a) If a single potassium measurement is made, what is the probability that Judy is
diagnosed as hypokalemic?
b) If measurements are made instead on 4 separate days and the mean result is
compared with the criterion 3.5, what is the probability that Judy is diagnosed as
hypokalemic?.
9.- A study of education followed a large group of first grade children to see how many
years of school they eventually completed. Let X be the highest year of school that a
randomly chosen grader completes. (Students who go on to college are included in the
outcome X = 12.) The study found this probability distribution for X:
Years 4 5 6 7 8 9 10 11 12
Probability 0.010 0.007 0.007 0.013 0.032 0.068 0.070 0.041 0.752
a) What percent of graders eventually finished twelfth grade?
b) Check that this is a legitimate probability distribution.
TEMA 6
1.- Se ha medido la tasa de recuperación cardíaca (TRC) medida en minutos en 40
hombres de 40 a 49 años y se ha obtenido una media de 11.93 minutos y una desviación
típica de 0.75 minutos Calcula un I.C. para la media de la TRC en la población.
2.- Al realizar un recuento de glóbulos blancos se encontraron 125 neutrófilos de los
200 glóbulos blancos contabilizados. Dar una estimación de la proporción poblacional
con una confianza del 90%. Calcular el tamaño de la muestra para que el error cometido
en la estimación sea menor ó igual que 0.02 con una probabilidad de 0.95.
3.-Un investigador desea evaluar el porcentaje de habitantes de una ciudad que están
inoculados contra la polio. Para ello planifica un muestreo de la población deseando
obtener resultados correctos dentro del ± 3% con una probabilidad del 99%.
4.- En el laboratorio de un hospital se realizan una serie de pruebas para determinar las
características de una muestra de sangre de 500 individuos elegidos al azar en una
población. El nivel de hemoglobina es una variable (X) N(,0.4).
a) Si en la muestra se obtuvo una media de 15.46 calcular un Intervalo de Confianza
para la media al nivel 0.99.
b) Calcular el tamaño muestral necesario si se quiere obtener un I.C. al mismo nivel de
longitud 0.2.
c) Decir que variación se produce en la amplitud del intervalo si el nivel de confianza
aumenta. Calcular el intervalo para la media con un nivel de confianza de 0.995 con la
muestra anterior y compararlo con el resultado obtenido para 0.99.
d)Calcular un I.C. para la media suponiendo que la varianza de X es desconocida,
utilizar la misma muestra anterior teniendo en cuenta que la varianza muestral es 0.1.
5.- Se admite que la edad de defunción de mujeres con Cáncer de útero sigue una
distribución Normal con desviación típica 9 años. A partir de las historias clínicas de un
hospital obtenemos la siguiente muestra de edades:
65 54 51 67 49 47 64 44 49
a) Calcular un I.C. de nivel 0.9 y otro de nivel 0.99 para la edad media de defunción.
b) ¿Con que tamaño muestral el I.C. de nivel 0.99 tendría una amplitud menor de 5
años?.
c) A partir de un estudio similar en otro hospital un compañero nos dice que ha
calculado también los I.C. al 80% y al 99% y nos los da, pero sin señalar cual es cual: I1
= [ 52.3 , 67.7] I2 = [56.2 , 63.8] ¿Podrías indicar cuál es el de nivel 0.8 y cuál el de
nivel 0.99 ?. ¿Se puede deducir la media muestral que ha obtenido nuestro colega ?.
6.- Del artículo "Prevalence and Trends in Obesity Among US Adults". Comenta los
resultados: Results In 2007-2008, the age-adjusted prevalence of obesity was 33.8%
(95% confidence interval [CI], 31.6%-36.0%) overall, 32.2% (95% CI, 29.5%-35.0%)
among men, and 35.5% (95% CI, 33.2%-37.7%) among women. The corresponding
prevalence estimates for overweight and obesity combined (BMI _25) were 68.0%
(95% CI, 66.3%-69.8%), 72.3% (95% CI, 70.4%-74.1%), and 64.1% (95% CI, 61.3%-
66.9%). Obesity prevalence varied by age group and by racial and ethnic group for both
men and women.
7.- Biologists studying the levels of several compounds in shrimp embryos reported
their results with means and Standard Error of the Mean.(SEM) . The table entry for the
compound ATP was 0.84(0.01). Readers are supposed to understand that the numbers
are based on n = 3 measurements What was the sample standard deviation for these
measurements?
8.- A test for the level of potassium in the blood is not perfectly precise. Moreover, the
actual level of potassium in a person's blood varies slightly from day to day. Suppose
that repeated measurements for the same person on different days vary Normally with
sd = 0.2.
a) Julie's potassium level is measured once. The result is 3.2. Give a 90% confidence
interval for her mean potassium level.
b) If three measurements were taken on different days and the mean result is 3.2, what
is a 90% confidence interval for Julie's mean blood potassium level?
9.-. Researchers studying iron deficiency in infants examined infants who were
following different feeding patterns. One group of 26 infants was being breast-fed. At 6
months of age, these children had mean hemoglobin level equal to 12.9 grams per 100
milliliters of blood. Assume that the population standard deviation is equal to 1.6. Give
a 95% confidence interval for the mean hemoglobin level of breast-fed infants. What
assumptions (other than the unrealistic assumption that we know the sd) does the
method you used to get the confidence interval require?
10..- The distribution of blood cholesterol levelin the population of young men aged 20
to 34 years is close to Normal, with mean 188 milligrams per deciliter (mg/dl) and
standard deviation 41 mg/dl. You measure the cholesterol level of 100 young men
chosen at random and calculate the mean.
a) If you did this many times, what would be the mean and standard deviation of the
distribution of all the mean values?
b) What is the probability that your sample has mean less than 180?
TEMA 7
1.- Como parte de un experimento se decide inyectar a cada uno de los ratones de una
m.a.s. de n = 25 con un fármaco a un nivel de dosificación equivalente a 0.004 mg/gr de
peso. Se sabe que el peso se distribuye N(19gr,4 gr).
a) Si como media muestral de los pesos después de sucesivas y controladas dosis se
obtuvo 21.5 gr, ¿puede admitirse que el peso medio ha cambiado . Tomar α = 0.01 y
calcular el p-valor. ( Se supone que la varianza no ha cambiado)
b) ¿Qué tamaño muestral será necesario para obtener una potencia mayor que 0.9 en
= 22?.
2.- Tenemos datos sobre el Cieficiente intelecttual CI de 31 niñas:
114 100 104 89 102 91 114 114 103 105 108 130 120 132 111 128 118 119 86 72
111 103 74 112 107 103 98 96 112 112 93
Supongamos que la desviación típca del CI en esta población es 15.
a) Da un intervalo de confianza al 95% para la media del IQ en la población.
b) ¿ Difiere significativamente la media del valor 100, a nivel 5%?. Responde utilizando
el Intervalo de Confianza.
3.- A student group claims that first-year students at a university must study 2.5 hours
per night during the school week. A skeptic suspects that they study less than that on the
average. A class survey finds that the average study time claimed by 269 students is 137
minutes. Regard these students as a random sample of all first-year students and
suppose we know that study times follow a Normal distribution with standard deviation
65 minutes. Carry out a test of H0: mean = 150 against Ha: mean < 150. What do you
conclude?
4.- Bottles of a popular cola are supposed to contain 300 milliliters (ml) of cola. There
is some variation from bottle to bottle because the filling machinery is not perfectly
precise. The distribution of the contents is Normal with standard deviation equal to 3
ml. An inspector who suspects that the bottler is under filling measures the contents of
six bottles. The results are 299.4 297.7 301.0 298.9 300.2 297.0
Is this convincing evidence that the mean content of cola bottles is less than the
advertised 300 ml?
a) State the hypotheses that you will test.
b) Calculate the test statistic.
c) Find the P-value and state your conclusion.
5.- To determine whether the mean nicotine content of a brand of cigarettes is greater
than the advertised value of 1.4 milligrams, a health advocacy group tests
H0: mean = 1.4; Ha: mean > 1.4
The calculated value of the test statistic is z = 2:42.
a) Is the result significant at the 5% level?
b) Is the result significant at the 1% level?
6.- Weekly sales of regular ground coffee at a supermarket have in the recent past varied
according to a Normal distribution with mean equal to 354 units per week and standard
deviation equal to 33 units. The store reduces the price by 5%. Sales in the next three
weeks are 405, 378, and 411 units. Is this good evidence that average sales are now
higher?. Assume that the standard deviation of the population of weekly sales remains
equal to 33.
a) Find the sample mean and the value of the one-sample z test statistic.
b) Calculate the P-value.
c) Is the result statistically significant at the 0.05 level? Is it significant at the 0.01
level?. Do you think there is convincing evidence that mean sales are higher?.
7.- Cobra Cheese Company buys milk from several suppliers. Cobra suspects that some
producers are adding water to their milk to increase their profits. Excess water can be
detected by measuring the freezing point of the milk. The freezing temperature of
natural milk varies Normally, with mean equal to -0.545 Celsius (C) and standard
deviation equal to 0.008 C. Added water aises the freezing temperature toward 0.0 C,
the freezing point of water. Cobra's laboratory manager measures the freezing
temperature of five consecutive lots of milk from one producer. The mean measurement
is equal to −0:538 C. Is this good evidence that the producer is adding water to the
milk? State hypotheses, carry out the test, give the P-value, and state your conclusion.
TEMA 8
1.- Para estudiar los efectos de un determinado fármaco sobre los tiempos de
protombina se midieron éstos en 10 individuos, antes y después de la administración
del fármaco. Los resultados obtenidos fueron:
INDIVIDUO 1 2 3 4 5 6 7 8 9 10
ANTES 12.3 12 13 12.5 11.3 11.8 11.5 11.5 11 11.5
DESPUÉS 12 12.3 12 12.5 10.3 11.3 11.5 11.5 11 11.5
a) ¿Puedes concluir que el fármaco influye en el tiempo de protombina a un nivel =
0.05?. (Normalidad)
b) Para comparar los efectos de ese fármaco con los de otro similar se administró este
último a 10 nuevos individuos obteniéndose un tiempo medio de protombina de 13.5 y
una varianza de 2.25. ¿Qué puedes concluir ahora al nivel 0.05? (Normalidad)
2.- Con los datos del ejercicio 13 del tema 2 calcula un IC al 99% para la diferencia del
nivel de astigmatismo Antes-Después de la operación y comenta el resultado.
3.- The Lancet (vol 27, nº1, 1995). " Ensayo prospectivo aleatorizado en 1062 lactantes
alimentados con una dieta baja en grasas saturadas y colesterol ".
"En un estudio aleatorizado hemos investigado los efectos de una dieta baja en grasas
saturadas y colesterol sobre las concentraciones lípidas séricas y el crecimiento en 1062
niños sanos de 7 meses de edad. Entre los 7 y los 13 meses de edad en los niños del
grupo sometido a intervención no se modificaron significativamente las concentraciones
séricas del colesterol total y colesterol unido a lipoproteinas (variación media -0.03 [DE
0.72] mmol/l y 0.01 [0.67] mmol/l) mientras que aumentaron notablemente en los del
grupo control (0.24 [0.64] y 0.23 [0.60] mmol/l; p para la diferencia de variaciones
medias entre los grupos < 0.001)."
a) ¿Qué variables se han medido en el estudio y de que tipo son?. Define los parámetros
de interés en el estudio.
b) Plantea los contrastes que han realizado los autores y comenta el resultado de dichos
contrastes.
4.-The Lancet (Vol 27, nº1, 1995). "Comparación a doble ciego de Lamotrigina y
Carbamazepina en la epilepsia de nuevo diagnóstico".
"...Un total de 151 (131 con tratamiento de Lamotrigina y 129 con tratamiento de
carbamazepina) completaron el ensayo...La somnolencia fue menos frecuente en los
pacientes tratados con Lamotrigina que en los del grupo de Carbamazepina, (un 12% en
comparación con un 22%; p<0.05)". Plantear y realizar el contraste al que aluden los
autores del artículo. (Variables y parámetros de interés, hipótesis, estadístico-test) .
¿Qué tipo de estudio es?.
5.- The financial aid office of a university asks a sample of students about their
employment and earnings. The report says that \for academic year earnings, a
significant difference (P = 0:038) was found between the sexes, with men earning more
on the average. No difference (P = 0:476) was found between the earnings of black and
white students." Explain both of these conclusions, for the effects of sex and of race on
mean earnings, in language understandable to someone who knows no statistics.
6.- Efectos inmunológicos, hematológicos y de glucemia en la complementación de la
dieta con Agaricus sylvaticus en pacientes con cáncer colorectal.
Se llevó a cabo un estudio aleatorizado y controlado con placebo para evaluar los
efectos de una dieta en pacientes sometidos a una intervención quirúrgica de cáncer
colorectal. El ensayo clínico duró 6 meses. 67 pacientes con cáncer colorectar del
Hospital General de Brasil, se dividieron en 2 grupos que recibieron la nueva dieta(32)
y placebo (35). Los niveles de glucemia fueron en el grupo placebo: a los 6 meses,
98.52 ± 6.03 mg/dl (media±DT). Los niveles de Glucemia en el grupo tratado fueron a
los 6 meses, 92.86 ± 6.32 mg/dl......
Conclusión: El estudio sugiere que la nueva dieta puede reducir los niveles de glucemia
en los pacientes con cáncer colorectal.
Plantea las hipótesis nula y alternativa más razonables con los datos disponibles para
llegar a la misma conclusión de los autores. Calcula el p-valor asociado al contraste
anterior.
7.- Does eating more fiber reduce the blood cholesterol level of patients with diabetes?
A randomized clinical trial compared normal and high-fiber diets. Here is part of the
researchers' conclusion: The high-fiber diet reduced plasma total cholesterol
concentrations by 6.7 percent (P = 0.02), triglyceride concentrations by 10.2 percent (P
= 0.02), and very-low-density lipoprotein cholesterol concentrations by 12.5 percent (P
= 0.01). A doctor who knows no statistics says that a drop of 6.7% in cholesterol isn't a
lot | maybe it's just an accident due to the chance assignment of patients to the two diets.
Explain in simple language how P = 0.02 answers this objection.
8.- Europe and the United States differ considerably in their attitudes toward food made
from crops that have been genetically modified (GM) to, for example, resist pests or
contain more protein. A random sample of 12,178 European adults found that 63%
thought such foods were risky. In the United States, a random sample of 863 adults who
were asked the same questions found that 46% considered GM foods risky.72
a) What are the counts of people in each sample who thought GM foods were risky?
b) Give a 95% confidence interval to compare Europe and the United States.
9.- A study of \adverse symptoms" in users of over-the-counter pain relief medications
assigned subjects at random to one of two common pain relievers: acetaminophen and
ibuprofen. (Both of these pain relievers are sold under various brand names, sometimes
combined with other ingredients.) In all, 650 subjects took acetaminophen, and 44
experienced some adverse symptom. Of the 347 subjects who took ibuprofen, 49 had an
adverse symptom. How strong is the evidence that the two pain relievers differ in the
proportion of people who experience an adverse symptom?
a) State hypotheses and check that you can use the z test.
b) Find the P-value of the test and give your conclusion.
TEMA 9
1.- Se sospecha que cuanto mayor es la estancia preoperatoria en un hospital mayor es la
probabilidad de una infección intrahospitalaria en la posterior intervención para ello se
tomaron dos muestras de individuos de menos de 10 días de estancia preoperatoria y de
más de 10 días de estancia:
Estancia \ infección si no
-10 69 611
+10 65 171
a) ¿Cómo se han elegido las observaciones? (¿alguna de las distribuciones es fija?).
b) ¿Qué hipótesis tiene interés contrastar en este estudio?. ¿Qué procedimiento
estadístico utilizarías?.
c) Estima la asociación utilizando una medida adecuada y un IC e interpreta el
resultado.
2.- Se lleva a cabo un estudio para evaluar la relación entre el stress en el trabajo y las
enfermedades coronarias, para ello se siguen durante 10 años a 2013 individuos lo que
permitió detectar la enfermedad: Stress \ Enfermedad Si No
Si 97 307
No 200 1409
a) Dar distintas medidas del grado de asociación entre las variables.
b) Con estos datos se calcula un I.C al 95% para la OR = (1.70, 2.92). Interprétalo.
c) ¿El valor de la O.R en la tabla coincide con el punto medio del intervalo de
confianza?.
d) ¿Si se cambia el orden de las filas ó de las columnas cambia el valor de la OR ?.
Interpreta la OR que resulta de cambiar las filas en la tabla del ejemplo.
e) En otro estudio se examino a un grupo de 100 pacientes con enfermedad coronaria y
a otro grupo de 100 controles y se le calculo una tabla del mismo tipo. ¿ Que medida de
asociación te parece más adecuada para comparar los resultados de ambos estudios ?.
3.- Se lleva a cabo un estudio con objeto de constatar si la infección por Helicobacter
Pylori (HP) es un factor de riesgo para el desarrollo de gastritis atrófica y metaplasia
intestinal. Se estudian de forma prospectiva 125 sujetos negativos para HP y otros 145
positivos. La aparición de gastritis atrófica y metaplasia intestinal tuvo lugar en 5 de los
sujetos no infectados y en 40 de los infectados. La presencia de gastritis atrófica se asoció
de forma significativa con la infección de HP (Odds Ratio 9.143, IC 95% [3.480,24.023]).
a) Obtener e interpretar el IC para la Odds Ratio.
b) ¿Se puede estimar alguna otra medida de asociación en este estudio?
4.- Se ha realizado un estudio sobre la edad de la madre en el momento del nacimiento de
su hijo como factor de riesgo en el desarrollo del síndrome de muerte infantil repentina
(SIDS). Se seleccionaron para el estudio un total de 7330 mujeres que estaban por debajo
de los 25 años en el momento del nacimiento del niño, de ellas, 29 tuvieron niños
afectados de SIDS. De las 11256 mujeres seleccionadas para el estudio que tenían 25 años
ó más en el momento del nacimiento de sus hijos, 15 tuvieron niños con SIDS.
a) ¿Qué tipo de muestreo se ha realizado?. Señalar alguna probabilidad que no se pueda
estimar con este tipo de muestreo.
b) Calcular la Odds Ratio asociada.
c) Contrastar estadísticamente la asociación entre las dos variables. Calcular el p-valor.
5- Se quiere estudiar la relación entre la tasa de filtración glomerular (TFG) y la concentración de creatinina en plasma. Se tienen datos de 31 hombres. Se lleva a cabo una regresión lineal para modelizar la relación utilizando TFG como variable dependiente. Los datos y los resultados obtenidos vienen dados en las tablas siguientes: a) Haz un diagrama de dispersión. b) Comenta cada uno de los valores que aparecen en las tablas. c) ¿Te parece que existe una relación lineal entre las variables ? d) ¿Qué significa R-Squared = 53.17 percent ?. TFG CR TFG CR TFG CR TFG CR 90 0.85 45 0.99 103 1.13 100 1.13 93 1.13 90 1.13 70 1.13 77 1.27 47 1.41 45 1.47 60 1.47 53 1.56 35 1.56 63 1.70 55 1.75 35 1.75 38 1.83 47 1.98 45 2.03 40 2.09 27 2.77 37 2.96 25 3.11 15 3.96 15 4.69 20 4.80 10 5.93 5 5.93 5 5.93 10 7.97 12 11.0 -------------------------------------------------------------------------------------------------- Parameter Estimate Standard Error T.value Prob. Intercept 0.906 5.7206 12.3949 .0000 Slope -8.891 1.5496 -5.7379 .0000 -------------------------------------------------------------------------------------------------- Analysis of variance -------------------------------------------------------------------------------------------------- Source Sum of Squares DF Mean Square F-Ratio Prob Model 13467.357 1 13467.357 32.92 .0000 Residual 11862.321 29 409.046 --------------------------------------------------------------------------------------------------- Total 25329.677 30 Correlation Coefficient = -0.729166 R-Squared=53.17 percent
6- En el estudio anterior utilizando como variable independiente 1/CREATININA se obtuvieron los siguientes resultados : -------------------------------------------------------------------------------------------------- Parameter Estimate Standard Error T.value Prob. Intercept -2.37387 5.2129 -0.4554 .6522 Slope 87.8268 8.4422 10.4033 .0000 -------------------------------------------------------------------------------------------------- Correlation Coefficient = 0.888072 R-Squared=78.87 percent (a) Haz una representación de los datos y de la recta de regresión. (b) Comenta los resultados de la tabla 7.- La ecuación y = 15 + 0.4x corresponde a la recta de regresión entre la talla (x) y el perímetro craneal (y) calculada en una muestra de recién nacidos. Supongamos que se verifican las condiciones de aplicación del método. ¿ Las siguientes afirmaciones son ciertas ó falsas ?: - Los niños de 50cm de ésta población tienen, en media, un perímetro craneal de 35 cm. - La mayor parte de los niños de 50cm de ésta población tienen un perímetro craneal de 35 cm. - La predicción sobre el perímetro craneal de un niño de talla 50cm es de 35 cm. - A cada aumento de 1cm de perímetro craneal le corresponde, en promedio, un incremento de 0.4 cm de talla. - El coeficiente de correlación es 0.4.
8.- A food industry group asked 3368 people to guess the number of calories in each of
several common foods. The data below give the averages of their guesses and the
correct number of calories.
a) We think that how many calories a food actually has helps explain people's guesses
of how many calories it has. With this in mind, make a scatterplot of these data.
b) Find the correlation r (use your calculator). Explain why your r is reasonable based
on the scatterplot.
c) The guesses are all higher than the true calorie counts. Does this fact influence the
correlation in any way? How would r change if every guess were 100 calories higher?
d) The guesses are much too high for spaghetti and snack cake. Circle these points on
your scatterplot. Calculate r for the other eight foods, leaving out these two points.
Explain why r changed in the direction that it did.
Guessed calories and true calories
8 oz. whole milk 196 159
5 oz. spaghetti with tomato sauce 394 163
5 oz. macaroni with cheese 350 269
One slice wheat bread 117 61
One slice white bread 136 76
2-oz. candy bar 364 260
Saltine cracker 74 12
Medium-size apple 107 80
Medium-size potato 160 88
Cream snack cake 419 160
9.- Data on the smoking habits of students and of their parents.
Student smokes Student does not smoke
Both parents smoke 400 1380
One parent smokes 416 1823
Neither parent smokes 188 1168
a) Find the percent of students who smoke in each of the three parent groups. Make a
graph to compare these percents. Describe the association between parent smoking and
student smoking.
b) Explain in words what the null hypothesis for the chi-square test says about student
smoking.
c) Find the expected counts if H0 is true, and display them in a two-way table similar to
the table of observed counts.
d) Compare the tables of observed and expected counts. Explain how the comparison
expresses the same association you saw in (a).
e) Give the chi-square statistic and its P-value. Examine the terms of chi-square to
confirm the pattern you saw in (a) and (d). What is your overall conclusion?
10.- Measurements on the lengths in centimeters of the femur and the humerus for the
five fossil specimens of the extinct beast Archaeopteryx that preserve both bones:
Femur 38 56 59 64 74 Humerus 41 63 70 72 84
The strong linear relationship between the lengths of the two bones helped persuade
scientists that all five specimens belong to the same species.
a) Examine the data. Make a scatterplot with femur length as the explanatory variable.
b) Obtain the correlation r and the equation of the least-squares regression line. Do you
think that femur length will allow good prediction of humerus length?.
R-Square 0.9197 Dependent Mean 69.00000 Coeff Var 4.97482
Parameter Standard
Variable DF Estimate Error t Value Pr > |t|
Intercept 1 24.64839 7.72237 3.19 0.0496
x 1 0.76206 0.13004 5.86 0.0099
c) Explain the results below.
GENERALES
1.- El colesterol sérico (C.S.) en una población A sigue una distribución Normal de media
2.260 gr/l y desviación típica 0.354 gr/l. En otra población B sigue una distribución
Normal con la misma media y menor desviación típica.
a) Haz una representación gráfica de las funciones de densidad del C.S. en las dos
poblaciones
b) Calcula, en la población A, el valor del C.S. correspondiente al percentil 15. ¿El
percentil 15 en la población B será un valor mayor ó menor que el que acabas de calcular?
c) Se elige una muestra de tamaño 40 en la población A y se mide el C.S. ¿ Es probable
que el valor del C.S. medio observado esa muestra sea mayor de 2.4 gr/l ?.
d) Se quiere estimar, en la población B, la proporción de individuos con C.S. menor de
2.0 gr/l. ¿Qué tamaño muestral necesitaríamos para obtener una estimación con una
precisión de 0.03 y una confianza de 0.9? [intenta utilizar toda la información que te da el
problema]
2.- La revista The Lancet (Volumen 24, número 4) publica un artículo sobre la
enfermedad de Cronh en el que se dice: 78 pacientes fueron aleatoriamente asignados a
corticoides(38) y dieta(40). No se produjeron cambios significativos en el peso durante el
estudio en el grupo tratado con dieta (57.6 [DT 8.8] Kg) al inicio y 60.3 [7.4] kg a los tres
meses; ni en el tratado con corticoides (59.3 [11.4] kg y 63.8 [12.2] kg)
a) Clasifica el tipo de estudio. ¿Con qué objeto se divide "aleatoriamente" a los
individuos?.Clasifica las variables.
b) Calcular el peso medio del total de pacientes al inicio
c)¿Qué contraste/s de hipótesis realizan los autores del articulo? (Definir TODAS las
variables aleatorias y parámetros que intervienen, plantear la hipótesis nula, el
estadístico-test y su distribución)
d) ¿Qué puedes decir sobre el resultado del contraste (calcula el p-valor si tienes datos
suficientes)?.
3.- Es generalmente aceptado que existen diferencias ligadas al sexo relacionadas con la
respuesta a la tensión producida por el calor. Se sometió a un grupo de 10 hombres y 8
mujeres a un programa de ejercicios diarios. El medio era caluroso y se disponía de una
cantidad mínima de agua para los individuos. La variable de interés es el porcentaje de
peso corporal perdido. Se obtuvieron los datos siguientes:
Varones Mujeres
2.9 3.7 3.0 3.8
3.5 3.8 2.5 4.1
3.9 4.0 3.7 3.6
3.8 3.6 3.3 4.0
3.6 3.7
a) ¿De qué carácter es la variable objeto de estudio?
b) ¿Es un estudio experimental u observacional?.
c) Señalar un parámetro de interés en el estudio.
d) ¿Qué estadístico se debe utilizar para estimar dicho parámetro?. ¿ qué otros estádisticos
de interés podrías calcular con estos datos?.
e) Realizar un contraste de hipótesis que sea adecuado para el problema. Señalar
claramente las hipótesis, las variables y parámetros que intervienen, el estadístico-test y
las condiciones que es necesario suponer para realizar dicho contraste.
4.- Estudios de laboratorio sugieren que altas concentraciones de Betacaroteno protege de
la cardiopatía isquémica. Para comprobarlo se realizó un estudio de casos y controles. Se
tomaron 683 pacientes con infarto y 727 controles y se obtuvieron los siguientes datos
sobre la concentración de Betacarotenos:
CASOS: media =0.35 desviación típica =0.25
CONTROLES: media = 0.42 desviación típica =0.26
a) Calcula la media del total de la muestra. Y da una medida/s para comparar las
dispersiones en las dos muestras.
b) Calcula un intervalo de confianza al 90% para la diferencia de las concentraciones
medias de Betacaroteno poblacionales suponiendo que las desviaciones típicas
poblacionales son iguales. Interpreta el resultado.
c) Se conocen además los quintiles de la distribución en la muestra de controles:
min=0 P20=0.21 P40=0.37 P60=0.53 P80=0.82 max=1.20
con estos datos haz una representación aproximada, histograma ó polígono de
frecuencias relativas, de la distribución. ¿Te parece que puede suponerse que la
distribución es normal?.
5.- Se realiza un estudio de tiempos de reacción en una población para los que se toma una
muestra al azar de tamaño 23 de individuos de dicha población. Se supone que la variable
tiempo de reacción sigue una distribución normal. Los datos expresados en milésimas de
segundo son los siguientes:
76 94 105 104 90 109 79 122 95 104 106 113 85 119 82 111 78 98 116 100 88
91 120
a) Haz una descripción mediante gráficos y medidas numérica de la variable.
b) ¿ Se puede aceptar la hipótesis de que el tiempo medio de reacción es mayor de 93ms?.
6.- Sobre el resumen del artículo del tema 1 : El peso elevado al nacer como
factor de riesgo para obesidad infantil. Describe la(s) poblaciones , las variables , los
parámetros de interés. Calcula alguna tabla de contingencia de interés en el problema.
Interpreta los resultados de los IC y comenta las conclusiones .
7.- Se realizó un ensayo de campo para ver la eficacia de una vacuna contra la gripe en
ancianos en residencias. De entre un total de 1875 ancianos que estaban viviendo en 20
residencias en la provincia, se eligieron al azar 370. De estos, hubo 7 que no dieron su
consentimiento para participar en el estudio y 13 que fueron excluidos por otros
motivos. Los restantes fueron divididos en dos grupos del mismo tamaño, la primera
mitad recibió la vacuna y la segunda un placebo. El porcentaje de ancianos que padeció
la gripe fue del 15% y del 25%, en vacunados y no vacunados respectivamente. Define
el tipo de estudio. ¿ Se te ocurre alguna idea para mejorar el diseño?. Define las
poblaciones, variables y parámetros. Representa los datos del estudio en una tabla de
contingencia. Realiza un contraste de hipótesis (hipótesis, estadístico-test y p-valor) y
llega a una conclusión.
8.- La tasa de colesterol en cierta población sigue una distribución N(235,46). A los
individuos con una tasa de colesterol superior a la del 90% de la población se les
considera a riesgo de desarrollar cierta enfermedad.
8.1.- ¿ Que porcentaje de la población está a riesgo? Haz un gráfico en el que se
represente la distribución y ese porcentaje.
8.2.- Un individuo con una tasa de colesterol de 315 ¿ Se le considerará a riesgo ?.
8.3.- ¿ Cual es la probabilidad de que el valor medio del colesterol de 20 individuos
elegidos al azar de la población sea mayor de 240?
8.4.- Si la probabilidad de no desarrollar la enfermedad condicionado a tener el factor de
riesgo es 0.68 y la probabilidad de no desarrollar la enfermedad condicionado a no tener
el factor de riesgo es 0.96 . Calcular la especificidad y sensitividad asociadas a este factor
de riesgo.
8.5.- Calcular e interpretar una medida de asociación entre el factor de riesgo y la
enfermedad
9.- Case Study: En el artículo "Base Curve Influence on the Fitting an Comfort of the
Senofilcon A Contact Lens" se puede leer lo siguiente:
Purpose:To determine the influence of the base curve on the movement, on the corneal
surface mechanical alterations and on the subjective comfort of Senofilcon A contact
lens for corneas having central curve radius flatter than 7.80 mm.
Methods: In this prospective, double-masked, contralateral, randomized study, 40 eyes
of 20 participants, with keratometric readings above 7.80 mm, were randomly fitted
with Senofilcon A contact lenses: one having an 8.80 mm base curve in one eye and
another one having 8.40 mm base curve in the other eye. Lens movement, corneal
surface mechanical alterations and comfort were assessed in both eyes 15 days after
contact lens fitting. Comfort was recorded using a scale from 1 to 5 (1 extremely
uncomfortable, 2 uncomfortable, 3 comfortable, 4 very comfortable and 5 extremely
comfortable). Comparisons regarding lens comfor were all carried out by means of the
chi-square test. Differences were considered to be statistically significant when the P
value was <0.01.
Results: Forty eyes of 20 participants were included in this trial. Table 3 shows the
participants’ demographics. There was a statistically significant difference on comfort
rate between the two groups. the mean comfort score for the 8.80 mm base curve lens
group was 3.5±0.92, whereas for the 8.40 mm base curve group it was 4.39±0.5
(P<0.001). 55.6% of the participants gave a score of 4 or 5 (i.e; very comfortable or
extremely comfortable) to the 8.80 mm base curve lens, while 100% of the participants
gave a score of 4 or 5 to the 8.40 mm base curve lens, with (P<0.001) (see Figure 1).
Table 3 Demographics of patients. Age, sex, flatter keratometric reading, and contact lens power
shown as means and standard deviation (SD)
Patients´ Demographics
Eyes (n) 40
Age (years) 27.53 ± 6.10
Sex (Male/Female) 9/11
Figure 1. Comfort scores given to the 8.40 mm and to the 8.8 mm base curve Senofilcon A.
Comenta sobre: El diseño, las variables y los métodos estadísticos utilizados y si
cambiarías algo respecto de lo que han hecho los autores de este informe.
10.- Se lleva a cabo un estudio sobre el sexo y el glaucoma en una población y se obtiene
que el 1.8% son hombres glaucomatosos y el 0.4% son mujeres glaucomatosas, además se
sabe que el 63.2% son hombres.
a) ¿Cuál es la probabilidad de que un hombre de dicha población tenga glaucoma ?.
b) Se eligen al azar 8 hombres de la población, calcular la probabilidad de que ninguno
tenga glaucoma.
c) Se eligen al azar 10 hombres de la población, calcular la probabilidad de que como
mucho 2 tengan glaucoma.
PRACTICAS
1.-Con los datos de los estudiantes de primero de medicina del año pasado se ha hecho
la siguiente representación gráfica. ¿Te parece apropiada?. Justifica la respuesta.
2.- En una encuesta realizada en una clase se apuntaron las calificaciones medias del
bachillerato. Se han comparado las de los alumnos procedentes de centros públicos y
privados, mostrándose los resultados en la siguiente salida de SPSS. Dí si el análisis te
parece el adecuado y porqué. ¿Se puede asumir que las varianzas son iguales?
Prueba de muestras independientes
Prueba de
Levene para
la igualdad de
varianzas Prueba T para la igualdad de medias
F Sig. t gl
Sig.
(bilater
al)
Diferenci
a de
medias
Error típ.
de la
diferencia
95% Intervalo de
confianza para la
diferencia
Superior Inferior
Nota
_
Se han
asumido
varianzas
iguales
5,157 ,025 -1,356 129 ,178 -,13793 ,10174 -,33923 ,06337
No se
han
asumido
varianzas
iguales
-1,405 111,781 ,163 -,13793 ,09819 -,33248 ,05662
Altura en cmPeso en Kg
200
150
100
50
0
24
13377
24
36118
47
68
3.- En un hospital de campaña de Médicos Sin Fronteras cerca del desierto en
Mauritania se trata a un número elevado de pacientes con conjuntivitis. Se dispone de
dos colirios (A y B) y se quiere comparar su eficacia a la hora de reducir la superficie
enrojecida del ojo. Se elige a 12 personas al azar con conjuntivitis y se les aplica el
colirio A en el ojo derecho y el B en el izquierdo, y al cabo de dos días se mide la
reducción de la superficie enrojecida. Se han realizado dos análisis con el SPSS, elige el
apropiado y dí si hay diferencias entre los dos colirios a nivel 0,05 (justifica tu
respuesta).
Estadísticos de grupo
COLIRIO N Media
Desviación
típ.
Error típ. de
la media
REDUCCIO A 12 70,2500 3,47994 1,00457
B 12 72,7500 3,97915 1,14868
Prueba de muestras relacionadas
Diferencias relacionadas
t
gl
Sig.
(bilateral)
Media
Desviación
típ.
Error típ.
de la media
95% Intervalo de
confianza para la
diferencia
Inferior Superior
COLIRIO_A -
COLIRIO_B -2,50000 2,87876 ,83103 -4,32908 -,67092 -3,008 11 ,012
Prueba de muestras independientes
Prueba T para la igualdad de medias
t
gl
Sig.
bilateral
Diferenci
a de
medias
Error típ.
de la
diferencia
95% Intervalo de
confianza para la
diferencia
Inferior Superior
REDUCCIO Se han asumido
varianzas
iguales
-1,638 22 ,116 -2,50000 1,52599 -5,66470 ,66470
4.- En un puesto de salud de Médicos Sin Fronteras en Darfur (Sudán) se está llevando a
cabo un programa de nutrición infantil de emergencia. A 24 niños elegidos al azar se les
ha administrado esta dieta durante dos semanas apuntando al final el aumento de peso
experimentado por los niños. Ayudándote de las salidas de SPSS responde a las
siguientes cuestiones:
a).- ¿Se puede afirmar que el aumento medio de peso ha sido superior a 2 kilos?.
b).- Da un intervalo de confianza de nivel 90% para el aumento medio de peso.
Estadísticos para una muestra
N Media Desviación típ.
Error típ. de la
media
AUMENTO 24 2,5333 ,81464 ,16629
Prueba para una muestra
Valor de prueba = 2
t gl Sig. (bilateral)
Diferencia de
medias
90% Intervalo de
confianza para la
diferencia
Inferior Superior
AUMENTO 3,207 23 ,004 ,53333 ,2483 ,8183
5.- En un artículo aparecido en Journal of the American Medical Association se
examinaba la relación entre la Presión (medida en latidos por minuto) y el Sexo
(1=varones, 2=mujeres). Con los datos de dicho estudio se han obtenido las siguientes
salidas de SPSS. ¿Qué presiones se pueden considerar “anormales” en una mujer Descriptivos
sexo Estadístico Error típ.
presion 1 Media 73,3692 ,72873
Intervalo de confianza para la media al 95%
Límite inferior 71,9134
Límite superior 74,8250
Media recortada al 5% 73,4060
Mediana 73,0000
Desv. típ. 5,87518
Rango 28,00
Amplitud intercuartil 8,00
2 Media 74,1538 1,00533
Intervalo de confianza para la media al 95%
Límite inferior 72,1455
Límite superior 76,1622
Media recortada al 5% 74,2778
Mediana 76,0000
Desv. típ. 8,10523
Rango 32,00
Amplitud intercuartil 12,00
6.- En un artículo aparecido en Journal of the American Medical Association se
examinaba la relación entre la Presión (medida en latidos por minuto) y el Sexo
(1=varones, 2=mujeres). Con los datos de dicho estudio se han obtenido las
siguientes salidas de SPSS. Responde a las siguientes cuestiones:
a) Suponiendo que la distribución de la presión es normal haz una representación
gráfica aproximada y conjunta de la variable en ambos sexos.
b) ¿Qué presión se puede considerar “anormal” en una mujer?.
c) Interpreta los intervalos de confianza.
Descriptivos
sexo Estadístico Error típ.
presion 1 Media 73,3692 ,72873
Intervalo de confianza para la media al 95%
Límite inferior 71,9134
Límite superior 74,8250
Media recortada al 5% 73,4060
Mediana 73,0000
Desv. típ. 5,87518
Rango 28,00
Amplitud intercuartil 8,00
2 Media 74,1538 1,00533
Intervalo de confianza para la media al 95%
Límite inferior 72,1455
Límite superior 76,1622
Media recortada al 5% 74,2778
Mediana 76,0000
Desv. típ. 8,10523
Rango 32,00
Amplitud intercuartil 12,00