escuela superior de física y matemáticas instituto

133
Escuela Superior de Física y Matemáticas Instituto Politécnico Nacional Tesis Memoria: Inferencia Estadística TESIS que presenta: Rey Gaspar Hernández Noyola Para obtener el título de: Licenciado en Física y Matemáticas México, D. F., Mayo de 2004.

Upload: others

Post on 23-Oct-2021

6 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Escuela Superior de Física y Matemáticas Instituto

Escuela Superior de Física y Matemáticas Instituto Politécnico Nacional

Tesis Memoria: Inferencia Estadística

TESIS

que presenta:

Rey Gaspar Hernández Noyola

Para obtener el título de: Licenciado en Física y Matemáticas

México, D. F., Mayo de 2004.

Page 2: Escuela Superior de Física y Matemáticas Instituto

2

AGRADECIMIENTOS

A mi madre María de la Luz Noyola Gómez A la memoria de mi padre Pedro Hernández Ríos Que por su valioso y decidido apoyo han logrado que siga avanzando paso a paso por los senderos de la vida hasta lograr la victoria, siempre la victoria.

Page 3: Escuela Superior de Física y Matemáticas Instituto

3

INSTITUTO NACIONAL DE ESTADÍSTICA,

GEOGRAFÍA E INFORMÁTICA

PROGRAMA INTEGRAL DE CAPACITACIÓN, FORMACIÓN E INVESTIGACIÓN

INFERENCIA ESTADÍSTICA

REY GASPAR HERNÁNDEZ NOYOLA

Mayo de 2004

ESTE MATERIAL FORMA PARTE DEL ACERVO DE LA DIRECCIÓN DE PLANEACIÓN Y CAPACITACION DEL INSTITUTO NACIONAL DE ESTADISTICA, GEOGRAFIA E INFORMATICA. ES UTILIZADO EN LOS CURSOS DE ESTADISTICA INFERENCIAL Y BIOESTADISTICA QUE SE IMPARTEN EN ESTE INSTITUTO.

Page 4: Escuela Superior de Física y Matemáticas Instituto

4

INDICE

PAG. PRESENTACIÓN 3

OBJETIVOS DEL CURSO 3

INTRODUCCIÓN 4

ESTIMACIÓN 7

PROPIEDADES DE LOS ESTIMADORES PUNTUALES 9 ESTIMADORES INSESGADOS EFICIENCIA RELATIVA DE UN ESTIMADOR 11 CONSISTENCIA DE UN ESTIMADOR 12 ESTIMADORES SUFICIENTES 13 BONDAD DE UN ESTIMADOR PUNTUAL 15

INTERVALOS DE CONFIANZA 20

INTERVALOS DE CONFIANZA CON MUESTRAS GRANDES 24 INTERVALOS DE CONFIANZA CON MUESTRAS PEQUEÑAS PARA: µ µ µ1 2−

30 34

INTERVALOS DE CONFIANZA PARA σ 2 38 PRUEBAS DE HIPÓTESIS 45

CÁLCULO DE LAS PROBABILIDADES DEL ERROR TIPO II 58 PRUEBA PARA µ CON MUESTRAS PEQUEÑAS 65 PRUEBAS DE BONDAD DE AJUSTE 73

TABLAS DE CONTINGENCIA 82

MODELOS DETERMINÍSTICOS Y PROBABILÍSTICOS 89

REGRESIÓN Y CORRELACIÓN 92

REGRESIÓN LINEAL SIMPLE 92 COEFICIENTE DE CORRELACIÓN 97 APÉNDICE 105 BIBLIOGRAFÍA 131

Page 5: Escuela Superior de Física y Matemáticas Instituto

5

PRESENTACIÓN: Desde hace muchos años, podríamos decir que desde que se fundó el Instituto Nacional de Estadística, Geografía e Informática, y más aún, desde su antecesor, Dirección General de Estadística, se percibió la necesidad de formar cuadros nuevos que con el correr de los años ocuparían puestos claves dentro del Instituto, técnicos y directivos. Se observaba que los directivos no tenían tiempo o no querían transmitir sus conocimientos a los nuevos elementos, es así que surge, producto de esta necesidad el “Programa Integral de Capacitación, Formación e Investigación” del INEGI a principios de los 90´s, y con él, la Dirección de Planeación y Capacitación. Con este programa como base, se diseñan Diplomados, Talleres Internacionales y cursos especiales. Estos apuntes pretenden ser una guía para los profesores que imparten esta asignatura y lectura obligada para todos los trabajadores del Instituto Nacional de Estadística, Geografía e Informática, que por sus cargas de trabajo no les es posible asistir a un aula a tomar clases y mucho menos en un horario fijo, pero que desean profundizar en el estudio de las herramientas estadísticas necesarias para estimar el comportamiento de fenómenos poblacionales a partir del estudio de una muestra. Así también, para aquellas personas que estén interesadas en incursionar en cursos más avanzados y cuyos conocimientos de Inferencia Estadística no son los más afortunados. OBJETIVOS DEL CURSO • Los participantes conocerán las bases metodológicas de la estadística y sus

aplicaciones. • Podrán seleccionar y aplicar los procedimientos más adecuados para el análisis

inferencial de sus datos.

Page 6: Escuela Superior de Física y Matemáticas Instituto

6

INTRODUCCIÓN Las técnicas estadísticas se utilizan en casi todos los aspectos de la vida, algunas veces de forma inconciente pero guiados por nuestra experiencia. Así por ejemplo, los médicos investigadores, realizan experimentos para determinar el efecto de ciertos medicamentos. Se diseñan encuestas para medir el nivel de drogadicción de la sociedad, grado de marginación y pobreza, concentración del ingreso en los habitantes de nuestro país, estados y municipios, etc. Las técnicas estadísticas desempeñan una función importante en el logro del objetivo de cada uno de estos problemas prácticos. Estos apuntes consideran la teoría en la cual se fundamenta esta metodología. La estadística es un campo de estudio que está relacionado con la recopilación, organización, resumen de los datos y la obtención de inferencias acerca de una población cuando sólo se observa una parte de ella. Muchas veces nuestro objetivo, estadísticamente hablando, es hacer inferencias con respecto a parámetros poblacionales desconocidos a partir de una muestra. Estas inferencias se pueden expresar de dos maneras: como estimaciones de los parámetros respectivos o como pruebas de hipótesis referentes a sus valores. En muchos aspectos el procedimiento formal para la prueba de hipótesis es similar al método científico. El investigador observa la naturaleza, establece una teoría y después prueba su teoría respecto de la observación. En este contexto el investigador propone una teoría relativa a los valores específicos de uno o más parámetros poblacionales. Luego obtiene una muestra de la población y compara la observación con la teoría. Si las observaciones se contraponen a la teoría, el investigador rechaza la hipótesis. En caso contrario concluye que la teoría es válida o bien que la muestra no detectó la diferencia entre los valores reales y los valores de la hipótesis respecto de los parámetros poblacionales. Se someten todas estas hipótesis a una verificación estadística comparando las hipótesis con los datos muéstrales observados. ¿Cuál es el papel de la estadística en las pruebas de hipótesis? i,e. ¿cuál es el valor de la estadística en este procedimiento de prueba de hipótesis? Nótese que probar una hipótesis implica tomar una decisión al comparar la muestra observada con respecto a la teoría. ¿Cómo se decide si una muestra no concuerda con la hipótesis del investigador? ¿Cuándo debe rechazarse la hipótesis, cuándo debe aceptarse y, cuando no debe emitirse decisión alguna? ¿Cuál es la probabilidad de tomar una decisión equivocada y en consecuencia sufrir una pérdida? y, en particular, ¿qué función de las mediciones muestrales debe utilizarse para obtener una decisión? Las respuestas a estas preguntas las obtendremos del estudio de las pruebas de hipótesis estadísticas. Las herramientas estadísticas se emplean en muchos campos: negocios, educación, psicología, agricultura y economía por mencionar sólo algunos. Cuando los datos que se están analizando se obtienen de las ciencias biológicas y

Page 7: Escuela Superior de Física y Matemáticas Instituto

7

de la medicina, se utiliza el término Bioestadística para diferenciar a esta aplicación particular. En forma similar tenemos la Optometría, Econometría, etc. Una medida descriptiva calculada a partir de los datos de una muestra se conoce como estadístico. Una medida descriptiva calculada a partir de los datos de una población se conoce como parámetro. La inferencia estadística toma como base las relaciones que existen entre una población y sus muestras, para inferir acerca de la población. La inferencia estadística pretende resolver dos problemas fundamentales: la estimación de parámetros poblacionales a partir de los estadísticos muéstrales conocidos, y la decisión estadística acerca de hipótesis establecidas sobre una población, claro, también con base en el conocimiento de sus muestras. Un estimador es un valor aproximado de un parámetro poblacional. Los estimadores pueden ser puntuales o por intervalos de confianza. Si la estimación de un parámetro se hace a través de un número simple, se tendrá un estimador puntual. Por el contrario, si la estimación del parámetro se hace por medio de dos números entre los que se considera está ese parámetro, se tendrá una estimación por intervalo de confianza. PROCEDIMIENTO DEL DISEÑO DE UN EXPERIMENTO Los objetos sobre los cuales se hacen mediciones se denominan unidades experimentales. Si un investigador somete a 10 ratas a un estímulo y mide la respuesta de cada una de ella, cada rata es una unidad experimental. La colección de las 10 mediciones es una muestra (de la población formada por todas las posibles respuestas al estímulo por parte de las ratas de la misma especie, raza, tipo y edad). De manera similar, si seleccionamos 100 alumnos de una institución educativa de nivel medio superior para medir la drogadicción en dicha escuela, cada alumno seleccionado es una unidad experimental. Regularmente nos interesa conocer alguna característica bajo ciertas condiciones, más aún, en ocasiones podemos someter a distintos tratamientos a diferentes grupos de unidades experimentales y en consecuencia obtener diferentes poblaciones (tantos como tratamientos diferentes). Por ejemplo, podría desearse estudiar la densidad de un tipo específico de pastel cuando se le hornea a x F x F x F= = =350 400 450o o o, y en cierto horno. Una unidad experimental sería una sola mezcla de pasta en el horno en cierto momento. Las tres temperaturas, representarían tres tratamientos diferentes. Los millones y millones de pasteles que podrían hornearse teóricamente a 350o F generarían una población de densidades, y se podrían generar similarmente poblaciones

Page 8: Escuela Superior de Física y Matemáticas Instituto

8

correspondientes a 400 450y o F . El objetivo del experimento sería comparar la densidad “y” de los pasteles para las tres poblaciones. O podríamos querer estudiar el efecto de hornear a diferentes temperaturas sobre la densidad de los pasteles ajustando un modelo lineal o curvilíneo a los datos. Las variables que el experimentador controla completamente, tales como la temperatura del horno, se llaman variables independientes. Las variables experimentales independientes se denominan factores. Los factores pueden ser cuantitativos o cualitativos. Un factor cuantitativo es aquel que puede tomar valores correspondientes a los puntos de una recta real. Los factores que no son cuantitativos se denominan cualitativos. Al grado de intensidad de un factor se le llama nivel. En consecuencia, un tratamiento es una combinación específica de niveles de uno o varios factores. Uno de los primeros pasos en el diseño de un experimento es la selección de los factores que se desean estudiar y una decisión acerca de las combinaciones de los niveles (tratamientos) que se pretenden utilizar en el experimento. Después de seleccionar las combinaciones de los factores (tratamientos) a utilizar en el experimento, debe decidirse como asignar los tratamientos a las unidades experimentales. ¿Habría que asignar aleatoriamente los tratamientos a las unidades experimentales? Lo anterior sugiere que el diseño de un experimento implica cuatro pasos. 1.- Se seleccionan los factores que deben incluirse en el experimento y se

especifica el (los) parámetro (s) poblacional (es) de interés. 2.- Se decide cuánta información conviene utilizar para estimar el (los) parámetro

(s) de interés. 3.- Se seleccionan los tratamientos que deben utilizarse en el experimento y se

decide el número de unidades experimentales que deben asignarse a cada uno de ellos.

4.- Se decide cómo deben aplicarse los tratamientos a las unidades

experimentales.

Page 9: Escuela Superior de Física y Matemáticas Instituto

9

ESTIMACIÓN Los temas que aquí se tratan, permitirán al lector resolver una gran variedad de problemas de decisión que se presentan en la investigación científica, la tecnología, los negocios y aún en la vida diaria. Con objeto de motivar al lector hacia el estudio de estos temas y darle una idea sobre lo que trata la inferencia estadística, se comenzará con un ejemplo. Ejemplo: Para poder tomar decisiones adecuadas en los sistemas educativos, es necesario tener bastante información sobre los estudiantes. Esta información muchas veces no es posible captar de toda la población estudiantil, por falta de recursos económicos o por la prontitud con que se requiere tal información. Por ejemplo, es necesario conocer el porcentaje de alumnos del sistema educativo medio superior del país, cuyos padres se divorciaron durante el año escolar. Para conocer este porcentaje en un plantel grande (15,000 alumnos), se puede tomar una muestra de algunos cientos de estudiantes con la esperanza de que el porcentaje observado en dicha muestra, sea muy parecido al porcentaje existente en toda la población estudiantil. Esto es, que sea una buena estimación del porcentaje existente en el estudiantado total del plantel. Este es un ejemplo típico de inferencia estadística o inducción estadística: se infiere una característica de una población desconocida, a partir de observar la misma característica en una muestra. Con este procedimiento, se espera que el porcentaje poblacional no diste mucho del porcentaje muestral. Así pues, se puede estimar el porcentaje de la población p con el porcentaje de la muestra $p como sigue: p p= ±$ un pequeño error Siendo las preguntas claves: "¿qué tan pequeño es el error? y "¿con qué seguridad tenemos el resultado?". Lo esencial de la inferencia estadística está aquí. En consecuencia, el objetivo de la estadística inferencial es precisamente hacer inferencias acerca de una población basándonos en la información contenida en una muestra. Como las poblaciones se “identifican” mediante medidas numéricas denominadas parámetros, el objetivo de la mayoría de las investigaciones estadísticas es hacer una inferencia con respecto a uno o más parámetros de la población. La generalidad de los procedimientos de la inferencia estadística involucran ya sea la estimación o bien la prueba de hipótesis.

Page 10: Escuela Superior de Física y Matemáticas Instituto

10

La estimación tiene muchas aplicaciones prácticas. Por ejemplo, podríamos desear estimar la cantidad promedio de mercurio µ , que se puede extraer mediante un proceso particular de una onza de mineral que se extrajo en una localidad en particular. Podríamos presentar la estimación de dos maneras diferentes: Se podría dar un solo número, por ejemplo, 0.06 onzas. La intención es que este número esté cerca de µ , la media desconocida de la población. Este tipo de estimación se denomina estimación puntual, ya que se da un solo valor, o punto, como la estimación para µ . Por otra parte, se podría decir que µ se encuentra entre dos números, por ejemplo entre 0.04 y 0.09 onzas. En este último tipo de estimación damos dos valores que se pueden utilizar para construir un intervalo (0.04, 0.09), que se supone incluirá a el parámetro de estudio. Este segundo tipo de estimación, en donde especificamos un intervalo de valores posibles de µ , se denomina estimación por intervalo. El procedimiento de la estimación puntual utiliza la información de la muestra para obtener un solo dato que estima el parámetro de estudio. El procedimiento de estimación por intervalos hace uso de la información de la muestra para obtener dos números que se supone incluirán el parámetro de estudio. En cada caso la estimación real se hace mediante un estimador, que es una regla que establece cómo utilizar los datos de la muestra para determinar el valor (o valores) que utilizaremos como la estimación puntual (o por intervalo). DEFINICIÓN: Un estimador es una regla que establece como calcular un dato a

partir de las mediciones de una muestra. Comúnmente un estimador se expresa mediante una fórmula. Por ejemplo, la media de la muestra:

yn

yii

n

==∑1

1

es un posible estimador puntual para la media de la población µ . La expresión para y es evidentemente una regla y una fórmula al mismo tiempo. Nos indica que deben sumarse las observaciones de la muestra y dividirse entre el tamaño de la muestra n. Un estudiante que desee obtener una estimación de un parámetro por intervalo de confianza, tiene que utilizar los datos de la muestra para calcular dos puntos. Se prevé que el intervalo formado por los dos puntos tenga una alta probabilidad de incluir el parámetro de estudio. Es posible obtener muchos estimadores diferentes para un mismo parámetro poblacional, lo cual no debe sorprendernos. Si cada uno de 10 ingenieros fuesen asignados para estimar el costo de una gran obra de construcción, obtendrían casi con certeza distintas estimaciones del costo total. Tales ingenieros, llamados estimadores en la industria de la construcción, utilizan ciertos lineamientos establecidos además de su intuición para obtener sus estimaciones. Cada cual

Page 11: Escuela Superior de Física y Matemáticas Instituto

11

representa una sola regla humana subjetiva para obtener una sola estimación. Esto nos lleva a un aspecto sumamente importante: algunos estimadores se consideran buenos, otros no. ¿Cómo definiría la gerencia de una empresa constructora "bueno" y "malo" en relación con la estimación del costo de un trabajo? y ¿cómo establecería un criterio de bondad para comparar un estimador con otro? PROPIEDADES DE LOS ESTIMADORES PUNTUALES El análisis del razonamiento aplicado para calcular la bondad de un estimador puntual se facilita al considerar una analogía. La estimación puntual es similar en muchos aspectos al proceso de disparar con una pistola a un blanco. El estimador, que genera estimaciones, es semejante a la pistola; una estimación particular, a la bala, y el parámetro de interés al centro del blanco. Sacar una muestra de la población y estimar el valor del parámetro es equivalente a disparar un solo tiro al blanco. Suponga que una persona dispara un solo tiro al blanco y que el tiro da en el centro. ¿Podríamos concluir que es un excelente tirador? ¿Querría usted sostener el blanco mientras se dispara el segundo tiro? Evidentemente, no decidiríamos que el hombre es un tirador experto basados en tan escasa evidencia. Sin embargo, si un millón de tiros sucesivos dan en el centro del blanco, podríamos tener suficiente confianza en el tirador para sostener el blanco en el siguiente tiro, si la indemnización fuera adecuada. El hecho que deseamos enfatizar es bastante claro. No podemos evaluar la bondad de un procedimiento de estimación puntual solamente basándonos en una sola estimación, más bien debemos observar los resultados y utilizar el procedimiento de estimación, muchas veces. Puesto que las estimaciones son cifras, evaluaríamos la bondad de un estimador puntual construyendo una distribución de frecuencias de las estimaciones obtenidas en un muestreo repetitivo y observaríamos qué tan cerca se agrupa la distribución alrededor del parámetro de estudio. Supongamos que se desea hacer una estimación puntual para un parámetro poblacional que llamaremos θ . Denotaremos el estimador de θ por el símbolo $θ , donde el símbolo circunflejo indica que se estima el parámetro que se encuentra inmediatamente abajo. Desearíamos que la distribución de las estimaciones, o más propiamente, la distribución muestral del estimador, se centre alrededor del parámetro-objetivo como se muestra en la fig. 1. En otras palabras nos gustaría que la media o valor esperado de la distribución de las estimaciones fuera igual al parámetro estimado, es decir ( )Ε $θ θ= . Los estimadores puntuales que satisfacen esta propiedad se denominan insesgados.

Page 12: Escuela Superior de Física y Matemáticas Instituto

12

Fig. 1 Una distribución de estimaciones

La distribución muestral para un estimador puntual sesgado positivamente, para la cual ( )Ε $θ θ> , se representa en la figura 2.

Fig. 2.- Distribución muestral para un estimador sesgado positivamente.

DEF.- Sea $θ un estimador puntual del parámetro θ . $θ es un estimador

insesgado si ( )Ε $θ θ= . De lo contrario, se dice que es sesgado.

DEF.- Sea $θ un estimador puntual sesgado del parámetro θ , definimos el sesgo

B del estimador $θ por ( )Β Ε= −$θ θ

Sin embargo, además de lo insesgado que se le “exige” a un estimador, se espera

que la dispersión de la distribución de las estimaciones sea lo más pequeña

posible. Es decir, se desea que la ( )Var $θ sea mínima. Dados dos estimadores

insesgados de un parámetro θ , elegiremos el estimador con la menor varianza.

Page 13: Escuela Superior de Física y Matemáticas Instituto

13

Por lo tanto, podemos utilizar el sesgo y la varianza para describir la bondad de un

estimador.

También se emplea el valor esperado de ( )$θ θ−2

para determinar la bondad de un

estimador, es decir, el cuadrado de la distancia entre $θ y su parámetro-objetivo.

DEF.- La media del cuadrado del error de un estimador puntual $θ se define como

el valor esperado de ( )$θ θ−2 y se denota por ( )MCE $θ , es decir:

( ) ( )MCE E$ $θ θ θ= −2

y se puede demostrar que ( ) ( )MCE Var B$ $θ θ= + 2

EFICIENCIA RELATIVA DE UN ESTIMADOR Normalmente es posible obtener más de un estimador insesgado para el mismo parámetro objetivo θ . Si $θ

1 y $θ

2 denotan a dos estimadores insesgados para el mismo parámetro θ , se

optaría por utilizar el estimador con la menor varianza. Es decir, si ambos estimadores son insesgados, $θ

1 es relativamente más eficiente que $θ

2 si

( ) ( )Var Var$ $θ θ2 1> . Realmente se utiliza la razón ( ) ( )Var Var$ / $θ θ2 1 para definir la

eficiencia relativa de dos estimadores insesgados. DEF.- Dados dos estimadores insesgados, $θ

1 y $θ

2, de un parámetro θ , con

varianzas ( )V $θ1 y ( )V $θ 2 , respectivamente, entonces la eficiencia relativa de $θ

1 con respecto a $θ

2 se define como la razón

Eficiencia = ( )( )V

V

$

$

θ

θ2

1

Page 14: Escuela Superior de Física y Matemáticas Instituto

14

Si

Eficiencia = ( )( )V

V

$

$

θ

θ2

1

1> entonces $θ1es mejor estimador insesgado que $θ

2.

Por ejemplo, si la eficiencia relativa de $θ

1 con respecto a $θ

2 es 1.8, entonces la

magnitud de variabilidad asociada con ( )[ ]$ $θ θ2 2V es 1.8 veces la magnitud de

variabilidad asociada con $θ1. De manera similar, si la eficiencia relativa de $θ

1 con

respecto a $θ2 es menor que uno, digamos 0.73, entonces la magnitud de variabilidad

asociada con $θ2 es solamente 0.73 veces la variabilidad asociada con $θ

1. En este

caso se optaría por utilizar $θ2.

CONSISTENCIA DE UN ESTIMADOR Supongamos que se lanza n veces una moneda que tiene la probabilidad p de resultar sol. Si los lanzamientos son independientes, entonces y, el número de soles en n lanzamientos, tiene una distribución binomial. Si se desconoce el verdadero valor de p, la proporción muestral n

y es un estimador de p. Como veremos más adelante, cuando el número de lanzamientos se incrementa, n

y está cada vez más cerca del valor real de p. Es decir, nuestro estimador tiende a aproximarse a la cantidad que se pretende estimar conforme aumenta la cantidad de información en la muestra. Como n

y es una variable aleatoria, puede expresarse esta “cercanía” con respecto a p en términos probabilísticos. En particular, considérese la probabilidad de que la

distancia entre el estimador y el parámetro-objetivo: yn

p− es menor que un número

real positivo ε arbitrario. Es decir:

≤− εp

nypr

Debería estar cerca de la unidad para valores grandes de n, si el razonamiento es correcto. Si la probabilidad antes mencionada realmente tiende a la unidad cuando

n→ ∞ , entonces se dice que yn

es un estimador consistente de p o que ny

“converge en probabilidad a p”.

Page 15: Escuela Superior de Física y Matemáticas Instituto

15

DEF. El estimador $θ n es un estimador consistente de θ si para cualquier número

positivo ε . ( ) 1ˆlim =≤−

∞→εθθnn

pr

o equivalentemente

( ) 0ˆlim =>−∞→

εθθnnpr

TEOREMA.- Decimos que un estimador insesgado $θ n de θ es un estimador

consistente para θ si

( )lim Vn n→∞

=$θ 0

Sea y yn1,..., una muestra aleatoria de una distribución con media µ y varianza σ2 < ∞ . Entonces y es un estimador consistente de µ . A esta última afirmación se le conoce como ley de los grandes números. TEOREMA.- Supongamos que $θ n converge en probabilidad a θ y que $θ n ’ converge en probabilidad a θ ’. Entonces a) $θ n+ $θ n ’ converge en probabilidad a θ + θ ’ b) $θ n

$θ n ’ converge en probabilidad a θ θ ’

c) $$ '

θθ

n

n

converge en probabilidad a θθ ' siempre que θ '≠ 0 .

d) $θ n converge en probabilidad a θ si ( ) 1ˆ =≥ οθnpr

ESTIMADORES SUFICIENTES Aquellos estadísticos que en cierto sentido, resumen toda la información contenida en una muestra con respecto a un parámetro -objetivo tienen la propiedad de la suficiencia estos son llamados estadísticos suficientes. Por lo tanto podemos utilizar los estadísticos suficientes para desarrollar estimadores que presenten la menor varianza entre todos los estimadores insesgados.

Page 16: Escuela Superior de Física y Matemáticas Instituto

16

DEF.- Sea y y yn1 2, ,..., una muestra aleatoria de una distribución de probabilidad con un parámetro desconocido θ . Se dice que el estadístico

( )U g y y yn= 1 2, ,..., es suficiente para θ , si la distribución condicional de y yn1,..., dado U no depende de θ .

En el cuadro siguiente presentamos cuatro estimadores puntuales insesgados con sus respectivas varianzas para cuando se utiliza muestreo aleatorio. Para facilitar la comunicación utilizaremos la notación σ

θ$2 para denotar la varianza de la

distribución muestral del estimador $θ . Valores esperados y varianzas para algunos estimadores puntuales comunes. Parámetro objetivo θ

Tamaño de la(s) muestra(s)

Estimador puntual $θ

( )E $θ σθ$2

µ n y µ σ 2

n

p n $p yn= p pq

n

µ µ1 2− n y n1 2 y y1 2− µ µ1 2− σ σ12

1

22

2n n+

*

p p1 2− n y n1 2 $ $p p1 2− p p1 2− p qn

p qn

1 1

1

2 2

2+

* σ σ12

22y son las varianzas de las poblaciones 1 y 2, respectivamente.

Sean ( ) ( )Y y y y y Y y y yn n1 1 2 2 1

12

1 1= =, ,..., , ,..., dos muestras aleatorias

independientes, entonces es fácil ver que:

( ) ( ) ( )

( ) ( ) ( )

E Y Y E Y E Y

V Y Y V Y V Yn n

1 2 1 2 1 2

1 2 1 21

2

1

22

2

− = − = −

− = + = +

µ µ

σ σ

El valor esperado y varianza de $ $p p1 2− , se obtienen de manera similar. Así mismo, los valores esperados y varianzas dados en la tabla anterior son válidos independientemente de la forma de las funciones de densidad de probabilidad de las poblaciones. Los cuatro estimadores tendrán distribuciones de probabilidad que son aproximadamente normales para muestras grandes ( El teorema del límite central justifica esta afirmación para y y p$ . Algunos teoremas similares para funciones de medias muestrales justifican la afirmación para ( ) ( )y y y p p1 2 1 2− −$ $ ). Para “muchas” poblaciones, las distribuciones de probabilidad de y tendrán forma acampanada para muestras relativamente pequeñas, tan pequeñas como n = 5, y tenderán rápidamente a la normalidad cuando el tamaño de la muestra se

Page 17: Escuela Superior de Física y Matemáticas Instituto

17

aproxime a 30 o más. Sin embargo a veces se requiere seleccionar muestras mayores de las poblaciones binomiales porque el tamaño de muestra requerido depende de p. La distribución de probabilidad binomial es perfectamente simétrica con respecto a su media cuando p=1/2 y se hace cada vez más asimétrica cuando p tiende a cero o a uno. Veamos ahora como utilizar los estimadores puntuales para resolver cuestiones prácticas. Si utilizamos un estimador una vez y obtenemos una sola estimación, ¿qué tan buena será esta estimación? ¿cuánta confianza podremos tener en la validez de nuestra inferencia?

BONDAD DE UN ESTIMADOR PUNTUAL Una manera de evaluar la bondad de cualquier procedimiento de estimación puntual estriba en términos de la distancia entre las estimaciones generadas y el parámetro objetivo. Esta cantidad, que varía de una manera aleatoria en un muestreo repetitivo, se denomina error de estimación. Naturalmente nos gustaría que el error de estimación fuera lo más pequeño posible. DEFINICIÓN.- El error de estimación ε es la distancia entre un estimador y

su parámetro-objetivo. Es decir, ε θ θ= −$ .

Ya que el error de estimación es una cantidad aleatoria, no podemos afirmar que tan grande o tan pequeño será para una estimación en particular, sin embargo podemos involucrar la probabilidad. Por ejemplo, supongamos que $θ es un estimador insesgado de θ , con una distribución muestral como en la figura siguiente.

Distribución muestral del estimador puntual $θ

Page 18: Escuela Superior de Física y Matemáticas Instituto

18

Si se eligen dos puntos, ( ) ( )θ θ− +b y b , localizados cerca de las colas de la distribución de probabilidad, la probabilidad de que el error de estimación ε sea menor que b es el área sombreada en la figura anterior, es decir,

( ) [ ][ ]bb

bbb

+<<−=

<−<−=<−

θθθ

θθθθ

ˆPr

ˆPrˆPr

Podemos considerar a b como una cota del error de estimación. Así, no hay certeza absoluta de que un error dado sea menor que b, pero es posible saber que la probabilidad de tal evento es alta. Si se puede considerar a b muy pequeño, desde un punto de vista práctico, entonces ( )b<εPr proporciona una medida de la bondad de una sola estimación. Esta probabilidad indica la fracción de las veces que el estimador $θ toma un valor que se aleja a lo más en b unidades de θ , en un muestreo repetitivo. Es fácil encontrar el valor de b para un problema dado de estimación si se conoce la distribución de probabilidad de $θ . Supongamos que se desea que ε sea menor que b con una probabilidad de 0.90. Entonces buscamos el valor de b tal que

90.0ˆ)ˆ( =∫+

b

b

dfθ

θ

θθ

Si se conoce o no la distribución de probabilidad de $θ se puede encontrar un límite aproximado de ε para estimadores insesgados expresando a b como un múltiplo de la desviación estándar de $θ . Por ejemplo, si b k k= ≥σ

θ$, 1, entonces por el

teorema de Tchebysheff ε será menor que kσθ$ con una probabilidad de por lo

menos 11

2−k

. Un valor de k conveniente y que se utiliza mucho es k = 2 . Así,

sabemos que ε será menor que 2σθ$ con una probabilidad de por lo menos 0.75. La mayoría de las variables aleatorias observadas en la naturaleza caen en un intervalo de dos desviaciones estándar alrededor de su media, con una probabilidad alrededor de 0.95. La probabilidad de que Y tome un valor dentro del intervalo ( )µ σ± 2 está dada en la tabla siguiente para las distribuciones de probabilidad normal, uniforme y exponencial. Lo que queremos decir naturalmente es que θσ ˆ2=b es un buen límite aproximado del error de estimación en una situación práctica. La probabilidad de que el error de estimación sea menor que este límite estará cerca de 0.95.

Page 19: Escuela Superior de Física y Matemáticas Instituto

19

Probabilidad de que ( ) ( )µ σ µ σ− < < +2 2Y .

Distribución Probabilidad normal 0.9544 uniforme 1.0000 exponencial 0.9502

Ejemplo 1. Una muestra aleatoria de 1000 pacientes del Hospital General de

Nueva Miranda, seleccionados al azar durante el mes que acaba de concluir, mostró que 560 pacientes llegaron antes de 30 minutos de su consulta. Estime la proporción p de pacientes del Hospital General que llegan con una anticipación mayor a 30 minutos a su consulta.

Solución.-

Utilizaremos el estimador $pyn

= para estimar p. Por lo tanto, la fracción de

pacientes que llegan con mucha anticipación a su consulta es:

$ .pyn

= = =560

10000 56

Además, como la muestra es grande, con toda seguridad su distribución de probabilidad es normal. Por lo tanto, cuando b p= 2σ $ , la probabilidad de que el error de estimación ε sea menor que b es aproximadamente 0.95.

Como sabemos que:

( )Var p pqn

$ =

entonces

σ $ppqn

=

y

b pqnp= =2 2σ $

por lo tanto

b = =2 0 56 0 441000

0 03( . )( . ) .

Es decir, estamos bastante confiados en que la estimación de 0.56 difiera a lo más en 0.03 del parámetro poblacional.

Page 20: Escuela Superior de Física y Matemáticas Instituto

20

EJERCICIOS 1.- Los geólogos están interesados en los cambios y los movimientos de la

superficie de la tierra que se manifiestan por rupturas (fracturas) en la corteza de la tierra. Una de las rupturas más conocidas es la falla de San Andrés (una fractura en movimiento) en California. Un geólogo que pretendía estudiar el movimiento de los cambios relativos en la corteza de la tierra en un sitio particular encontró muchas fracturas en la estructura rocosa local. En un intento por determinar el ángulo medio de las fracturas, eligió n=50 fracturas y encontró que la media muestral y la desviación estándar eran 39.80º y 17,2º, respectivamente. Estimar la media de la dirección angular de las fracturas y establecer un límite para el error de estimación.

2.- La Agencia para la Protección Ambiental y la Universidad de Florida,

cooperaron recientemente en cierto estudio de los posibles efectos de oligoelementos en agua potable con respecto a la formación de cálculos renales. Enseguida se indican datos respecto a la edad, la concentración de calcio en el agua potable para consumo casero (medida en partes por millón), y el hábito de fumar. Se obtuvieron estos datos de individuos con problemas recurrentes de cálculos renales que viven en los estados de ambas Carolinas y en los estados de las Montañas Rocallosas.

Carolinas Rocallosas Tamaño de la muestra 467 191 Edad promedio 45.1 46.4 Desviación estándar de la edad

10.2 9.8

Concentración promedio de calcio (ppm)

11.3 40.1

Desviación estándar para el calcio

16.6 28.4

Proporción de Fumadores

0.78 0.61

a) Estimar la concentración media de calcio en el agua potable para los

pacientes con cálculo en las Carolinas. Establecer un límite para el error de estimación.

b) Estimar la diferencia en el promedio de las edades de los pacientes con

cálculos renales en las Carolinas y en las Rocallosas. Establecer un límite para el error de estimación.

Page 21: Escuela Superior de Física y Matemáticas Instituto

21

c) Estimar y establecer un límite de dos desviaciones estándar para la diferencia en las proporciones de los pacientes con cálculos renales en las Carolinas y en las Rocallosas que eran fumadores al momento del estudio.

3.- En aluminio policristalino, el número de centros de granulación por unidad

de volumen presenta un modelo de distribución de Poisson con media λ. Cincuenta especímenes de volumen unitario sometido a pruebas de recocido según el método A revelaron un promedio de 20 centros por unidad de volumen. Cincuenta especímenes de volumen unitario en las pruebas de recocido según el método B revelaron un promedio de 23 centros por unidad de volumen.

a) Estimar el número medio, λ A , de los centros de granulación para el

método A, y establecer un límite de dos desviaciones estándar para el error de estimación.

b) Estimar la diferencia en la cantidad promedio de los centros de

granulación λ λA B− , para los métodos A y B. Establecer un límite de dos desviaciones estándar para el error de estimación.

¿Considera usted que el método B tiende a producir una mayor cantidad promedio de centros de granulación? ¿Por qué?

Page 22: Escuela Superior de Física y Matemáticas Instituto

22

INTERVALOS DE CONFIANZA Como vimos anteriormente, un estimador por intervalo es una regla que especifica el método que utiliza las mediciones de la muestra para calcular dos números que forman los extremos del intervalo. En el caso ideal sería conveniente que el intervalo tuviera dos propiedades. Primero, que el intervalo contenga al parámetro-objetivo θ . Segundo, que el intervalo sea relativamente estrecho. Uno o ambos extremos del intervalo variarán de manera aleatoria de una muestra a otra, porque son funciones de las mediciones de la muestra. Así, la longitud y la localización del intervalo son cantidades aleatorias, y no podemos estar seguros de que el parámetro objetivo (fijo) θ se localice realmente entre los extremos de cualquier intervalo calculado a partir de una sola muestra. Dada esta situación, el objetivo es encontrar un estimador por intervalo que genere intervalos angostos que contengan a θ con una alta probabilidad. Los estimadores por intervalo se denominan comúnmente intervalos de confianza. Los extremos superior e inferior de un intervalo de confianza se llaman límites de confianza superior e inferior, respectivamente, la probabilidad de que un intervalo de confianza contenga a θ se conoce como coeficiente de confianza. En la práctica, el coeficiente de confianza indica la fracción de veces, en un muestreo repetitivo, de que los intervalos construidos contengan al parámetro-objetivo θ . Si se sabe que el coeficiente de confianza asociado a nuestro estimador es alto, estaremos bastante confiados de que un intervalo de confianza particular, construido a partir de una sola muestra, contenga θ . Supongamos que $θ i y $θ s son los límites de confianza inferior y superior, respectivamente, para un parámetro θ . Si

( ) αθθθ −=<< 1ˆˆPr si La probabilidad 1− α es el coeficiente de confianza. El intervalo aleatorio resultante, definido por $θ i , hasta $θ s , se denomina intervalo de confianza bilateral. También es posible construir un intervalo de confianza unilateral tal que

( ) αθθ −=< 1ˆPr i . Aunque solamente un punto es aleatorio en este caso, el intervalo de confianza es ( $ ),θ i ∞ . De manera similar, podríamos tener un intervalo de confianza unilateral superior tal que

Page 23: Escuela Superior de Física y Matemáticas Instituto

23

( ) αθθ −=< 1ˆPr s .

En cuyo caso, el intervalo de confianza correspondiente es ( )−∞ , $θ s .

Un método muy útil para obtener los intervalos de confianza se denomina método del pivote. Este método depende de la determinación de una expresión pivote que posee dos características: 1.- Es una función de las mediciones de la muestra y el parámetro

desconocido θ , en donde θ es la única cantidad desconocida. 2.- Tiene una distribución de probabilidad que no depende del parámetroθ . Si se conoce la distribución de probabilidad de la cantidad pivote, entonces se puede utilizar la lógica siguiente para obtener el intervalo deseado de estimación. Si Y es una variable aleatoria, C una constante ( )c o> y

entonces ( )

( ) 7.0Pr

7.0Pr

=≤≤

=≤≤

bcYcac

bYa

de manera similar, para cualquier constante d;

( ) 7.0Pr =+≤+≤+ dbdYda . Es decir, la probabilidad del evento ( )a Y b< < no se altera por ningún cambio de escala o traslación de Y. Por lo tanto, si conocemos la distribución de probabilidad de una cantidad pivote, es posible aplicar las operaciones descritas anteriormente para obtener el estimador por intervalo deseado. Explicaremos este método en los siguientes ejemplos: Ejemplo 2.- Supóngase que se obtiene una sola observación Y de una

distribución exponencial con media θ . Utilice Y para construir un intervalo de confianza para θ con coeficiente de confianza de 0.90.

Page 24: Escuela Superior de Física y Matemáticas Instituto

24

Solución.- La función de densidad de probabilidad para Y está dada por

f y ey

( ) ( )=

−1 00

θθ para y

en cualquier otro punto

Por lo tanto U Y=

θ tiene la función de densidad exponencial dada por

( )f ue u

u

u

=>

− para en cualquier otro punto

00

La función de densidad para U se representa gráficamente a continuación .

podemos ver que U Y=

θes una función de Y (la medición de la muestra) y θ , y

que la distribución de U no depende deθ . Por lo tanto podemos utilizar U Y=

θ

como una expresión pivote. Dado que se desea un estimador por intervalo con un coeficiente de confianza igual a 0.90, encontramos los números a y b, tales que

( ) 90.0Pr =≤≤ bUa . Por lo tanto:

( ) ∫ ==≤ −a

o

udueaU 05.0Pr

( ) ∫∞

− ==>b

uduebU 05.0Pr

entonces:

1 0 05 0 05− = =− −e y ea b. . de donde: a= 0.051 b= 2.996

Page 25: Escuela Superior de Física y Matemáticas Instituto

25

f(u)

Función de densidad para U Por lo tanto

( )996.2051.0Pr90.0 ≤≤= U

≤≤= 996.2051.0Pr

θy

como 1)0(Pr =>y entonces

≤≤=

yy996.21051.0Pr90.0

θ

≥≥=

996.2051.0Pr yy θ

≤≤=

051.0996.2Pr yy θ

Page 26: Escuela Superior de Física y Matemáticas Instituto

26

por lo tanto $

.θ i

y=

2 996

$

.θ s

y=

0 051

Para obtener los valores numéricos de estos límites, se debe observar un

valor real de Y y sustituir ese valor en las fórmulas dadas para los límites

de confianza. Sabemos que los intervalos de la forma Y Y2 996 0 051.

,.

incluirán el verdadero(desconocido) valor de θ para el 90% de los valores de Y que se obtengan a partir de un muestreo repetitivo de esa distribución exponencial.

INTERVALOS DE CONFIANZA CON MUESTRAS GRANDES Ya vimos algunos estimadores puntuales insesgados para los parámetros µ µ µ, , ,p p p1 2 1 2− − . Estos estimadores puntuales tienen aproximadamente distribuciones muéstrales normales para muestras grandes. Es decir, si el parámetro objetivo θ es µ µ µ, , ,p p p1 2 1 2− − entonces

Z =−$

$

θ θσ

θ

tiene aproximadamente una distribución normal estándar. Es decir, ( )Z = −$ $θ θ σθ

representa una expresión pivote, y por lo tanto, se pueden desarrollar estimadores por intervalos para el parámetro-objetivoθ . Ejemplo 3.- Sea $θ un estadístico que tiene una distribución normal con valor

esperado θ y varianza σθ$

2 . Encuentre un intervalo de confianza para θ que tenga un coeficiente de confianza de ( )1− α .

Solución.-

La expresión Z =−$

$

θ θσ

θ

tiene una distribución normal estándar. Ahora seleccionamos dos valores en los extremos de esta distribución, Z y Zα α

2 2− , tales que

ααα −=

<<− 1Pr

22ZZZ

Page 27: Escuela Superior de Física y Matemáticas Instituto

27

Sustituyendo Z:

ασθθσθ

ασθθσθ

ασθθσθ

ασθθσ

ασ

θθ

θαθα

θαθα

θαθα

θαθα

αθ

α

−=

+<<−

−=

−>>+

−=

+−<−<−−

−=

<−<−

−=

<

−<−

1ˆˆPr

1ˆˆPr

1ˆˆPr

1ˆPr

Pr

ˆ2

ˆ2

ˆ2

ˆ2

ˆ2

ˆ2

ˆ2

ˆ2

2ˆ2

ZZ

ZZ

ZZ

ZZ

ZZ

Por lo tanto, los límites de confianza son: Límite de confianza inferior ( )LCI Z= −$ $θ σα θ2

Límite de confianza superior ( )LCS Z= +$ $θ σα θ2

El ejemplo anterior se puede utilizar para encontrar los intervalos de

confianza con muestras grandes para ( ) ( )µ µ µ, ,p y p p1 2 1 2− − parámetros que deseamos estimar.

Ejemplo 4.- Se registraron los tiempos utilizados por consulta para 64 pacientes

del Hospital General de Nueva Miranda seleccionados al azar. La media y la varianza de los 64 tiempos por consulta fueron 33 minutos y 256, respectivamente. Estime el promedio real µ del tiempo utilizado con cada paciente, con un coeficiente de confianza de 1 0 90− =α . .

Page 28: Escuela Superior de Física y Matemáticas Instituto

28

Solución.- El parámetro de interés es θ µ= , por lo tanto $θ = =y 33 y S2 256= en una

muestra de 64 pacientes. La varianza poblacional σ 2 se desconoce, por lo tanto, utilizamos S2 como su valor estimado. En consecuencia, el intervalo de confianza

$

$θ σα θ± Z

2

tendrá la forma

y Zn

y Z Sn

±

≅ ±

α α

σ2 2

De la tabla 4 del apéndice I

Z Zα2

0 05 1 645= =. .

por lo tanto

y Z Sn

= −

=α2

33 1645 168

29 71. .

y Z Sn

+

= +

=α2

33 1645 168

36 29. .

De donde, el intervalo de confianza para µ , es (29.71 , 36.29) . Es muy

probable que este intervalo incluya µ , ya que, en un muestreo repetitivo, aproximadamente el 90% de todos los intervalos de la forma

yn

±

1 645. σ incluye µ , el promedio real del tiempo utilizado con cada

paciente. Ejemplo 5.- Dos marcas diferentes A y B de un mismo medicamento, tienen

(ambas) una garantía de un año. En una muestra aleatoria de 50 medicamentos de la marca A, 12 se descompusieron antes de terminar el periodo de garantía. Una muestra aleatoria de 60 medicamentos de la marca B reveló también 12 descompuestos durante el periodo de garantía. Estime la diferencia real entre las proporciones de fallas ( )p p1 2− durante el periodo de garantía con un coeficiente de confianza de 0.98.

Page 29: Escuela Superior de Física y Matemáticas Instituto

29

Solución.- El intervalo de confianza $

$θ σα θ± Z

2

tendrá la forma

( )$ $p p Z p qn

p qn1 2

2

1 1

1

2 2

2

− ± +α

como se desconocen p q p q1 1 2 2, , , . Podemos estimarlos con

$ , $ , $ , $p q p q1 1 2 2 logrando con ello una buena aproximación de σθ$

Por lo tanto

$ . , $ .

$ . , $ .

p q

p q

1 1

2 2

1250

0 24 0 76

1260

0 20 0 80

= = =

= = =

como 1 98− =α . entonces α = 0 02. por lo tanto ( de la tabla 4, apéndice I):

Z Zα2

0 01 2 33= =. .

y el intervalo de confianza es:

( ) ( )( ) ( )( )0 24 0 20 2 33 0 24 0 7650

0 20 0 8060

. . . . . . .− ± +

= ±0 04 0 1852. . , es decir (- 0.1452 , 0.2252) Podemos ver que el intervalo de confianza contiene al cero, entonces la

verdadera diferencia ( )p p1 2− , podría ser positiva o negativa.

Page 30: Escuela Superior de Física y Matemáticas Instituto

30

EJERCICIOS 1. La dirección médica de una clínica deseaba estimar el número promedio

de días necesarios para el tratamiento de pacientes entre 25 y 34 años. Una muestra aleatoria de 500 pacientes de la clínica con esas edades proporcionó una media y una desviación estándar de 5.4 y 3.1 días, respectivamente. Obtener un intervalo de confianza de 95% para el promedio del tiempo de estancia de la población de pacientes de la cual se obtuvo la muestra. Utilizar un coeficiente de confianza de 0.95.

2. Según el Environment News (septiembre de 1975), la “lluvia ácida”

causada por la reacción de ciertos contaminantes en el aire con el agua de lluvia parece ser un problema creciente en la parte noroeste de Estados Unidos. (La lluvia ácida afecta el suelo y corroe las superficies metálicas expuestas). La lluvia pura que se precipita a través del aire limpio tiene un pH de 5.7 (el pH es una medida para el acidez; 0 es ácido, 14 es alcalino). Supóngase que se analizan muestras de agua de 40 lluvias con respecto a su pH y que x y s son iguales a 3.7 y 0.5, respectivamente. Determinar un intervalo de confianza de 99% para la media de los pH en las lluvias e interpretar el intervalo. ¿Qué supuesto debe establecerse para que sea válido el intervalo de confianza?

3. Según Environment News (abril de 1975), “el análisis continuo de los

niveles de plomo en el agua potable de varias comunidades de Boston reveló niveles elevados de plomo en los suministros de agua de Somerville, Brighton y Beacon Hill...” Los resultados preliminares de un estudio efectuado en 1974 indicaron que “el 20% de 248 hogares que se analizaron en estas comunidades reveló niveles elevados que exceden el estándar de la Agencia de Salud Pública de EE.UU. de 50 partes por millón”. Al contrario, en Cambridge, que añade anticorrosivos al agua, “solamente el 5% de los 110 hogares analizados mostró niveles de plomo mayores que el estándar”. Obtener un intervalo de confianza de 95% para la diferencia de las proporciones de hogares que tienen niveles de plomo que exceden el estándar entre las comunidades de Somerville, Brighton y Beacon Hill, y la comunidad de Cambridge.

4. Para comparar las proporciones de artículos defectuosos producidos por

dos líneas de producción, se seleccionan muestras aleatorias independientes de 100 artículos de cada línea . La línea A produjo 18 defectuosos en la muestra y la línea B produjo 12 defectuosos. Obtener un intervalo de confianza de 98% para la diferencia real entre las

Page 31: Escuela Superior de Física y Matemáticas Instituto

31

proporciones de defectuosos para las dos líneas (¿Existe evidencia suficiente para sugerir que una línea produce una proporción más alta de defectuosos que la otra?)

5. La Research Quarterly de mayo de 1979 publica los resultados de un

estudio sobre la relación entre la participación en los deportes y la destreza manual. De una muestra aleatoria de 37 alumnos de segundo grado que participaron en los deportes, se obtuvo una calificación media de destreza manual de 32.19 y una desviación estándar de 4.34. De una muestra aleatoria independiente de 37 alumnos de segundo grado que no participaron en los deportes, se calculó una calificación media de destreza manual de 31.68 y una desviación estándar de 4.56. Estime la diferencia en los promedios reales de los resultados para los dos grupos con un intervalo de confianza de 90%. ¿Le parece que la calificación promedio de destreza manual para quienes participan en los deportes difiere de la calificación promedio de quienes no participan en los deportes?.

6. En un estudio de la relación entre el orden de nacimiento en la familia y el

grado de aprendizaje en la universidad, un investigador encontró que 126 de una muestra de 180 graduados universitarios son primogénitos o hijos únicos; en una muestra de 100 no graduados de una edad y situación socioeconómica comparable, el número de primogénitos o hijos únicos era 54. Estime la diferencia en las proporciones de primogénitos o hijos únicos para las dos poblaciones de las cuales se obtuvieron estas muestras. Utilice un intervalo de confianza de 90%.

Page 32: Escuela Superior de Física y Matemáticas Instituto

32

INTERVALOS DE CONFIANZA PARA µ . CON MUESTRAS PEQUEÑAS El intervalo de confianza que se tratará en esta sección se basa en el supuesto de que la muestra se ha seleccionado aleatoriamente de una población normal. Es apropiado para muestras de cualquier tamaño y funciona satisfactoriamente aun cuando la población no es normal, mientras que la desviación de la normalidad no sea excesiva. Es decir, rara vez conocemos la forma de la distribución de frecuencias de la población antes del muestreo. Por lo que, si un intervalo de confianza debe ser útil, tiene que funcionar bien aun cuando la población no sea normal. Funcionar “bien” quiere decir que el coeficiente de confianza no debe ser afectado por desviaciones pequeñas de la normalidad. Este intervalo de confianza mantendrá un coeficiente de confianza cerca del valor especificado por el investigador para la mayoría de las distribuciones de probabilidad con forma acampanada. Sea Y Y Yn1 2, ,..., una muestra aleatoria seleccionada de una población normal, Y y S2 la media y la varianza de la muestra, respectivamente. se desea construir un intervalo de confianza para la media poblacional cuando se desconoce ( )Var Yi = σ 2 y cuando el tamaño de la muestra es demasiado pequeño para aplicar las técnicas para muestras grandes vistas en el apartado anterior. Recordemos algunos resultados antes de continuar TEOREMA 1.- Sea Y Y Yn1 2, ,..., una muestra aleatoria de tamaño n de una distribución normal con media µ y varianza σ 2 . Entonces

Yn

Yii

n

==∑1

1

tiene una distribución normal con media µ y varianza σ2

n TEOREMA 2.- Sea Y Y Yn1 2, ,..., una muestra aleatoria de una distribución normal con media µ y varianzaσ 2 . Entonces

( ) ( )∑=

−=−

n

ii

SnYY1

2

22

2

11σσ

Page 33: Escuela Superior de Física y Matemáticas Instituto

33

tiene una distribución χ 2 con (n-1) grados de libertad . Y y S2 son también variables aleatorias independientes. DEF.- Sea Z una variable aleatoria normal estándar y sea χ 2 una variable

ji − cuadrada con ν grados de libertad. Entonces si Z y χ 2 son independientes,

ν

νχ

tZT ≈=2

tiene una distribución t con ν grados de libertad . Dado que Y Y Yn1 2, ,..., es una muestra aleatoria de una población normal con media µ y varianza σ 2 .

( )Z Y

n

n Y=

−=

−µσ

µσ

tiene una distribución normal estándar. Y por el teorema 2,

( ) 212

22 1

−≈−

= nSn χ

σχ

tiene una distribución χ 2 con (n-1) grados de libertad. Además Z y χ 2 son independientes pues Y y S2 lo son. Por lo que al aplicar la última definición

( )

( )( )

T Zn Y

n sn

T n Ys

Ys

n

= =

−−

=−

=

χυ

µσ

σ

µ µ

2 2

21

1

tiene una distribución t con (n-1) grados de libertad. Esta variable T servirá de expresión pivote para construir un intervalo de confianza para µ . De la tabla 5 apéndice I, podemos encontrar los valores de t y tα α

2 2− tales que

Page 34: Escuela Superior de Física y Matemáticas Instituto

34

ααα −=≤≤− 1)(Pr22

tTt

La distribución t tiene una distribución de densidad muy similar a la normal estándar, pero los extremos de la t son más gruesos (colas más pesadas). Recuérdese que los valores de tα

2 depende de los grados de libertad (n-1), así

como del coeficiente de confianza ( )1−α . El intervalo de confianza para µ se desarrolla tal como en el ejemplo 2. En este caso el intervalo de confianza resultante para µ tiene la forma.

Y t Sn

±

α

2

De donde:

Limite inferior de confianza: Y t Sn

α

2

Límite superior de confianza: Y t Sn

+

α

2

Ejemplo 6.- Se hicieron determinaciones de amilasa en suero de una muestra de

15 personas aparentemente normales. Dicha muestra proporcionó una media de 96 unidades /100 ml. y una desviación estándar de 35 unidades /100 ml. Encuentre un intervalo de confianza para el promedio real de amilasa en suero de la población aparentemente normal, con un coeficiente de confianza de 0.95. Suponga que las mediciones tienen aproximadamente una distribución normal.

Page 35: Escuela Superior de Física y Matemáticas Instituto

35

Solución.- El intervalo de confianza para µ es

Y t Sn

±

α

2

Donde:

Y = 96

S = 35 De la tabla 5 del apéndice, y dado que:

1 0 950 05

− ==

αα

.

.

t tα

20 025 2 145= =. . ya que hay (n-1)= 14 grados de libertad asociados con

esta muestra. Por lo tanto tenemos:

( )

( )( )

96 2 145 3515

96 2 145 5 916196 12 68999

±

=

± =

±

.

. ..

entonces: (83.31 , 108.69) es el intervalo de confianza observado para µ . Es decir,

el promedio real de la amilasa en suero de las personas normales se encuentra entre 83.31 y 108.69 unidades/100 ml, con un nivel de confianza del 95%.

Page 36: Escuela Superior de Física y Matemáticas Instituto

36

INTERVALOS DE CONFIANZA PARA µ µ1 − 2 CON MUESTRAS

PEQUEÑAS Supongamos que nos interesa comparar las medias de dos poblaciones normales, una con media µ1 y varianzaσ 1

2 y la otra con media µ 2 y varianza σ 22 . Un

intervalo de confianza para µ µ1 2− basado en una variable aleatoria T se puede construir si suponemos que σ σ σ1

222 2= = .

Si Y y Y1 2 son las medias muestrales respectivas, obtenidas de muestras aleatorias independientes, el intervalo de confianza con muestras grandes para ( )µ µ1 2− se desarrolla a partir de la variable aleatoria

( ) ( )Z

Y Y

n n

=− − −

+

1 2 1 2

12

1

22

2

µ µ

σ σ

que tiene aproximadamente una distribución normal estándar Como: σ σ σ1

22

2 2= =

( ) ( )Z

Y Y

n n

=− − −

+

1 2 1 2

1 2

1 1µ µ

σ

Ahora necesitamos un estimador para la varianza comúnσ 2 para poder construir una expresión con una distribución t. Sea Y Y Y n11 12 1 1

, ,..., la muestra aleatoria de tamaño n1 de la primera población, y sea Y Y Y n21 22 2 2

, ,..., una muestra aleatoria independiente de la segunda población. Entonces:

Yn

Y

Yn

Y

ii

n

ii

n

11

11

22

21

1

1

1

2

=

=

=

=

El estimador insesgado acostumbrado de la varianza comúnσ 2 se obtiene al ponderar los datos de las muestras para obtener

Page 37: Escuela Superior de Física y Matemáticas Instituto

37

( ) ( )S

Y Y Y Y

n n

i ii

n

i

n

21 1

22 2

2

11

1 2

21

2=

− + −

+ −==∑∑

( ) ( )Sn S n S

n n2 1 1

22 2

2

1 2

1 12

=− + −

+ −

en donde Si

2 es la varianza muestral de la i-ésima muestra, i=1,2. Note que:

( ) ( ) ( )n n S Y Y Y Yii

n

ii

n

1 22

2

1 12

12

2 22

12

21 2

+ −=

−+

−= =∑ ∑

σ σ σ

es la suma de dos variables χ 2 independientes con ( ) ( )n y n1 21 1− − grados de libertad, respectivamente. Por lo tanto:

( )2

221 2

σSnn −+

tiene una distribución χ 2 con ( )ν = + −n n1 2 2 grados de libertad(ver teoremas 1 y 2). Ahora utilizamos esta variable χ 2 y la Z anterior para formar una expresión pivote. Es decir

T Z=

χν

2

=− − −

+

+ −+ −

( ) ( )

( )( )

Y Y

n nn n S

n n

1 2 1 2

1 2

1 22

21 2

1 11

22

µ µ

σσ

( ) ( )

=− − −

+

Y Y

Sn n

1 2 1 2

1 2

1 1µ µ

tiene una distribución t con ( )n n1 2 2+ − grados de libertad.

Page 38: Escuela Superior de Física y Matemáticas Instituto

38

El intervalo de confianza para ( )µ µ1 2− tiene entonces la forma

( )Y Y t Sn n1 2

2 1 2

1 1− ± +α

en donde tα

2 se obtiene de la distribución t con ( )n n1 2 2+ − grados de libertad.

( ) ( )

Si σ σ

µ µ

12

22

1 2 1 2

12

1

22

2

′ =− − −

+T

Y Y

Sn

Sn

no sigue una distribución t con n n1 2 2+ − grados de libertad. Una forma de solucionar el problema es utilizar un valor modificado para los grados de libertad. Una fórmula conveniente para hacerlo es la dada por Dixon y Massey como sigue:

( )gl

sn

sn

sn

n

sn

n

' ...=

+

+

12

1

22

2

2

12

1

2

1

22

2

2

2

1

si se verifican las hipótesis de normalidad, T' está distribuida aproximadamente como t con los grados de libertad calculados mediante la ec. anterior. El intervalo de confianza para ( )µ µ1 2− está dado entonces por la expresión:

Y Y t Sn

Sn1 2

2

12

1

22

2

− ± +α

El valor numérico de los grados de libertad calculados a partir de la ecuación (1) puede no ser un entero. En este caso, por lo general resulta conveniente utilizar el valor más próximo de gl ' dado en la tabla de la distribución t. El intervalo obtenido mediante este método se interpreta en la forma habitual, pero debe tenerse presente que dicho intervalo es solo aproximado.

Page 39: Escuela Superior de Física y Matemáticas Instituto

39

Ejemplo 7.- Se estudió la actividad total del complemento serológico ( )CH50 en 20 personas aparentemente sanas y 10 personas enfermas. Se obtuvieron los siguientes resultados:

Personas n x s

Enfermas

10

62.5

33.8

Normales

20

47.2

10.1

Los investigadores tenían razón al pensar que las poblaciones

muestreadas estaban distribuidas en forma aproximadamente normal, pero se rehusaban a suponer que las varianzas de las dos poblaciones desconocidas eran iguales. Encuentre el intervalo de confianza del 95% para µ µ1 2− .

Solución.- El valor modificado de los grados de libertad está dado por:

( ) ( )g l.

. .

. ..' =

+

+

=

33810

10120

33810

10

10120

20

10 9

2 2 2

2 2 2 2

El valor de t que corresponde a un coeficiente de confianza de 0.95 y 11 grados de libertad es de 2.201, y el intervalo de confianza aproximado del 95% para µ µ1 2− es

( ) ( )

( )( )

( )

62 5 47 2 2 201 33810

10120

15 4 2 201 10 9215 4 24 0

8 6 39 4

2 2

. . . . .

. . .

. .

. , .

− ± +

±

±

Cuando el tamaño de la muestra n se vuelve grande, el número de grados de libertad para la distribución t se puede aproximar muy bien por la distribución normal estándar. Los intervalos son casi equivalentes cuando los grados de libertad son mayores que 30.

Page 40: Escuela Superior de Física y Matemáticas Instituto

40

INTERVALO DE CONFIANZA PARA σ 2 Recordemos que la varianza de la población σ 2

cuantifica la variabilidad de los datos poblacionales. Regularmente se desconoce el valor real de σ 2 y requerirá estimarlo. Sabemos que:

( )Sn

Y Yi2 21

1=

−−∑

es un estimador insesgado de σ 2 . Al construir intervalos de confianza para µ , utilizamos S2 para estimar σ 2 cuando esta se desconoce. Con el fin de obtener más información con respecto a σ 2 para calcular intervalos de confianza para µ µ µy 1 2− , es de utilidad construir un intervalo de confianza para σ 2 . Por ejemplo, si se hiciera un cuidadoso análisis químico de las tabletas de cierto medicamento, estaríamos interesados en la cantidad media de ingrediente activo por tableta y la cantidad de variabilidad entre las tabletas cuantificada por σ 2 . Naturalmente, para un medicamento se desearía tener una variación pequeña entre tableta y tableta y por lo tanto un valor pequeño de σ 2 . Para proceder con nuestro método de la estimación por intervalo, necesitamos disponer de una expresión pivote. Una vez más supongamos que tenemos una muestra aleatoria Y Y Yn1 2, ,..., de una distribución normal con media µ y varianza σ 2 , ambas desconocidas. Del teorema 2 tenemos que:

( ) ( )Y Y n sii

n

−=

−=∑ 2

12

2

2

1σ σ

tiene una distribución χ 2 con (n-1) grados de libertad. Entonces podemos proceder, por el método del pivote, a encontrar dos números χ χi sy2 2 tales que

( ) αχσ

χ −=

−≤ 11Pr 2

2

22

siSn

para cualquier coeficiente de confianza 1−α . (Los símbolos i y s corresponde a “inferior” y “superior”, respectivamente). La función de densidad χ 2 no es simétrica, y por esto hay cierta libertad en la elección de χ χi sy2 2 . Nos interesa encontrar el intervalo más estrecho que corresponda a una probabilidad de ( )1−α ,

Page 41: Escuela Superior de Física y Matemáticas Instituto

41

pero esto generalmente es difícil. Escogemos arbitrariamente los puntos que limitan áreas iguales en las colas, como se indica en la fig. siguiente.

Un reordenamiento de la desigualdad en el enunciado probabilístico antes mencionado nos permite obtener:

( ) ( ) αχ

σχ

−=

−≤≤

− 111Pr 2

22

2

2

is

SnSn

y por lo tanto el intervalo de confianza para σ 2 es

( ) ( ) ( )n S n S

gs i

− −

1 12

2

2

2χ χ, ...

Donde

χ χ

χ χ

α

α

i

s

2

2

2

21 2

2

=

=−

Si se saca la raíz cuadrada de cada término de la expresión (g) se tiene el intervalo de confianza para σ con un coeficiente de confianza de 1−α . Es decir

( ) ( )n s n s

s i

−< <

−1 12

2

2

2χσ

χ

Page 42: Escuela Superior de Física y Matemáticas Instituto

42

EJERCICIOS 1. En un experimento diseñado para estimar el número promedio de latidos

por minuto del corazón para cierta población, en las condiciones del experimento, se encontró que el número promedio de latidos por minuto para 49 personas era de 90. Si resulta lógico suponer que esos 49 pacientes constituyen una muestra aleatoria y que la población está distribuida normalmente, con una desviación estándar de 10, encuentre:

a) El intervalo de confianza del 90 por ciento para µ . b) El intervalo de confianza del 95 por ciento para µ . c) El intervalo de confianza del 99 por ciento para µ . 2. Se encontró que el nivel indirecto medio de bilirrubinas en el suero de 16

niños de cuatro días de nacidos era de 5.98 mg/100 cc. Suponiendo que los niveles de bilirrubinas en los niños de cuatro días de nacidos presentan una distribución aproximadamente normal con una desviación estándar de 3.5 mg/100 cc., encuentre:

a) El intervalo de confianza del 90 por ciento para µ . b) El intervalo de confianza del 95 por ciento para µ . c) El intervalo de confianza del 99 por ciento para µ . 3. En un estudio de la duración de hospitalización realizado por varios

hospitales en cooperación, se extrajo al azar una muestra de 64 pacientes con úlcera péptica de una lista de todos los pacientes con esta enfermedad admitidos alguna vez en los hospitales y se determinó, para cada uno, su duración de hospitalización por admisión. Se encontró que la duración media de hospitalización fue de 8.25 días. Si se sabe que la desviación estándar de la población es de 3 días, encuentre:

a) El intervalo de confianza del 90 por ciento para µ . b) El intervalo de confianza del 95 por ciento para µ . c) El intervalo de confianza del 99 por ciento para µ . 4. Una muestra de 100 hombres adultos aparentemente normales, de 25

años de edad, mostró una presión sistólica sanguínea media de 125. Si se tiene la sensación de que la desviación estándar de la población es de 15, encuentre:

a) El intervalo de confianza del 90 por ciento para µ . b) el intervalo de confianza del 95 por ciento para µ . 5. En un estudio en el que se utilizaron niños retrasados educables, 11 niños

y 10 niñas, después de un año de enseñanza académica combinada con

Page 43: Escuela Superior de Física y Matemáticas Instituto

43

terapias, se les calificó en relación con sus logros. La calificación media para los niños fue de x1 67 0= . y para las niñas x2 615= . . Si es lógico suponer que las calificaciones para niños semejantes bajo circunstancias similares muestran una distribución normal con desviaciones estándar de σ σ1 211 10= =y , encuentre:

a) El intervalo de confianza del 90 por ciento para µ µ1 2− . b) El intervalo de confianza del 95 por ciento para µ µ1 2− . c) El intervalo de confianza del 99 por ciento para µ µ1 2− . 6. Una muestra de 10 niñas de doce años de edad y una muestra de 10

niños de doce años también proporcionaron la estaturas medias de x1 1519= . centímetros y x2 148 6= . centímetros, respectivamente. Suponiendo distribuciones normales de las estaturas con σ 1 51= . centímetros y 6.72 =σ centímetros, encuentre:

a) El intervalo de confianza del 90 por ciento para µ µ1 2− . b) El intervalo de confianza del 95 por ciento para µ µ1 2− . c) El intervalo de confianza del 99 por ciento para µ µ1 2− . 7. Una muestra de 100 pacientes con la enfermedad A, admitidos a un

hospital de enfermedades crónicas, permanecieron en el hospital, en promedio, 35 días. Otra muestra de 100 pacientes con la enfermedad B permanecieron, en promedio, 28 días. si las variancias de ambas poblaciones son, respectivamente, de 100 y 225, encuentre:

a) El intervalo de confianza del 90 por ciento para µ µA B− . b) El intervalo de confianza del 95 por ciento para µ µA B− . c) El intervalo de confianza del 99 por ciento para µ µA B− . 8. Un encargado del archivo de expedientes médicos extrajo al azar una

muestra de 100 expedientes de pacientes y encontró que en el 8 por ciento de ellos, la carátula tenía, al menos, un detalle de información que contradecía a la demás información que aparecía en el expediente. Construya los intervalos de confianza del 90,95 y 99 por ciento para la proporción verdadera de los expedientes que contienen dichas discrepancias.

9. Una encuesta, que condujo a una muestra aleatoria de 150 familias en

cierta comunidad urbana, reveló que en el 87 por ciento de los casos, por lo menos uno de los miembros de la familia tenía alguna forma de seguro relacionado con la salud.

Construya los intervalos de confianza del 90, 95 y 99 por ciento para p, la proporción verdadera de familias en la comunidad con la característica de interés.

Page 44: Escuela Superior de Física y Matemáticas Instituto

44

10. En un estudio diseñado para conocer la relación entre cierto medicamento y cierta anomalía en los embriones de pollo, se inyectaron con el medicamento 50 huevos fecundados al cuarto día de incubación. En el vigésimo día de incubación se examinaron los embriones y se observó la presencia de la anomalía en 12 de ellos. Encuentre los intervalos de confianza del 90, 95 y 99 por ciento para p.

11. De una muestra de 150 personas, seleccionada de los pacientes que se

admitieron en un hospital grande durante un periodo de dos años, 129 de ellos tenía algún tipo de seguro de hospitalización. En una muestra de 160 pacientes seleccionados en forma similar, de un segundo hospital, 144 de ellos tuvieron algún tipo de seguro de hospitalización. Encuentre los intervalos de confianza del 90,95 y 99 por ciento para la diferencia real en las proporciones de las poblaciones.

12 En una encuesta conducida en dos secciones de un área metropolitana

grande, se obtuvieron los siguientes resultados respecto a la presión sanguínea anormal.

Área Número de personas

seleccionadas Número de anormales en la selección

1 200 20 2 250 38

Construya los intervalos de confianza del 90, 95 y 99 por ciento para la

diferencia entre las proporciones de las dos poblaciones. 13. En un estudio diseñado para conocer los efectos secundarios de dos

medicamentos, a 50 animales se les dio el medicamento A y a otros 50 se les dio el medicamento B. De los 50 que recibieron el medicamento A, 11 de ellos mostraron efectos secundarios no deseables, mientras que 8 de los que recibieron el medicamento B reaccionaron en forma similar. Encuentre los intervalos de confianza del 90, 95 y 99 por ciento para P PA B− .

14. A nueve pacientes que sufren la misma incapacidad física, pero de otra

manera comparable, se les pidió que llevaran a cabo cierta tarea como parte de un experimento. El tiempo promedio requerido para realizar la tarea fue de siete minutos con una desviación estándar de dos minutos. Suponiendo que existe normalidad, construya los intervalos de confianza del 90,95 y 99 por ciento para el tiempo medio verdadero requerido para que este tipo de pacientes efectuara la tarea.

15. El administrador de un hospital tomó una muestra de 25 cuentas vencidas,

a partir de las cuales calculó una media de $250 y una desviación

Page 45: Escuela Superior de Física y Matemáticas Instituto

45

estándar de $75. Suponiendo que las cantidades de todas las cuentas vencidas presentan una distribución normal, encuentre los intervalos de confianza del 90, 95 y 99 por ciento para µ .

16. Una muestra de 25 niños de diez años de edad proporcionó un peso

medio y una desviación estándar de 36.5 y 5 kg., respectivamente. Suponiendo una población con distribución normal, encuentre los intervalos de confianza del 90, 95 y 99 por ciento para la media de la población a partir de la cual se obtuvo la muestra.

17. Una muestra de 16 niñas de diez años de edad proporcionó un peso

medio de 35.8 kg. y una desviación estándar de 6 kg., respectivamente. Suponiendo que existe normalidad, encuentre los intervalos de confianza del 90, 95 y 99 por ciento para µ

18. Con referencia a los ejercicios 16 y 17, supóngase que las variancias de

las poblaciones son iguales. Construya los intervalos de confianza del 90, 95 y 99 por ciento para la diferencia ente las medias de las dos poblaciones.

19. Las mediciones del diámetro transversal del corazón de hombres y

mujeres adultos dieron los siguientes resultados:

Grupo Tamaño de la muestra

x (Centímetros) s (Centímetros)

Hombres 12 13.21 1.05 Mujeres 9 11.00 1.01

Suponiendo poblaciones con distribución normal y con variancias iguales,

construya los intervalos de confianza del 90, 95 y 99 por ciento para µ µ1 2− .

20. Veinticuatro animales de laboratorio con deficiencia de vitamina D se

dividieron en dos grupos iguales. El grupo 1 recibió un tratamiento consistente en una dieta que proporcionaba la vitamina D. El segundo grupo no fue tratado. Al término del período experimental, se hicieron las determinaciones del calcio en suero, obteniéndose los siguientes resultados:

Grupo tratado: 5.1,100/1.11 == smlmgx Grupo no tratado: 0.2,100/8.7 == smlmgx Suponiendo poblaciones con distribución normal y con variancias iguales,

construya los intervalos de confianza del 90, 95 y 99 por ciento para la diferencia entre las medias de las poblaciones.

Page 46: Escuela Superior de Física y Matemáticas Instituto

46

21. A dos grupos de niños se les hicieron pruebas de agudeza visual. El grupo 1 estaba formado por 11 niños que recibieron cuidados de salud por parte de médicos privados. La calificación media para este grupo fue de 26 con una desviación estándar de 5. El segundo grupo, que incluía 14 niños, recibieron cuidados de salud por parte del departamento de salud pública, tuvo una calificación promedio de 21 con una desviación estándar de 6. Suponiendo poblaciones con distribución normal y con variancias iguales, encuentre los intervalos de confianza del 90, 95 y 99 por ciento para µ µ1 2− .

22. La duración promedio de internación de una muestra de 20 pacientes

dados de alta de un hospital general fue de siete días con una desviación estándar de dos días. Una muestra de 24 pacientes dados de alta de un hospital de enfermedades crónicas tuvo una duración promedio de internación de 36 días con una desviación estándar de 10 días. Suponiendo poblaciones con distribución normal y con variancias distintas, encuentre el intervalo de confianza del 95 por ciento para la diferencia entre las medias de ambas poblaciones.

23. A cada uno de los miembros de una muestra de 51 estudiantes de

enfermería se le hizo una prueba estandarizada para medir su nivel de responsabilidad. Se obtuvo un valor de s2 12= . Construya los intervalos de confianza del 95 por ciento para σσ y2 .

24. El recuento de leucocitos de una muestra de 10 hombres adultos con

algún tipo de leucemia dio una variancia de 25,000,000. Construya los intervalos de confianza del 95 por ciento para σ σ2 y

25. Se hicieron determinaciones de la capacidad vital forzada en 20 hombres

adultos sanos. La variancia de la muestra fue de 1,000,000. Construya los intervalos de confianza del 90 por ciento para σ σ2 y .

26 En un estudio de los tiempos de conducción del miocardio, se obtuvieron

los tiempos de conducción en una muestra de 30 paciente con enfermedad de la arteria coronaria. Se encontró que la variancia de la muestra era de 1.03. Construya los intervalos de confianza del 99 por ciento para σ σ2 y

27. Se hicieron determinaciones de hemoglobina en 16 animales expuestos a

un compuesto químico nocivo. Se registraron los siguientes valores, 15.6, 14.8, 14.4, 16.6, 13.8, 14.0, 17.3, 17.4, 18.6, 16.2, 14.7, 15.7, 16.4, 13.9, 14.8, 17.5. Construya los intervalos de confianza del 95 por ciento para σ σ2 y

PRUEBAS DE HIPÓTESIS

Page 47: Escuela Superior de Física y Matemáticas Instituto

47

Recordemos que muchas veces el objetivo de la estadística es hacer inferencias con respecto a parámetros poblacionales desconocidos, basados en la información obtenida de datos muéstrales. Estas inferencias se expresan como estimaciones de los parámetros respectivos o como pruebas de hipótesis referentes a sus valores. En muchos aspectos el procedimiento formal para la prueba de hipótesis es similar al método científico. El investigador observa la naturaleza, establece una hipótesis o teoría y después la comprueba observando nuevamente la naturaleza. En este contexto el investigador propone una teoría relativa a los valores específicos de uno o más parámetros poblacionales. Luego obtiene una muestra de la población y compara la observación con la teoría. Si las observaciones se contraponen a la teoría, el investigador rechaza la hipótesis. En caso contrario concluye que la teoría es válida o bien que la muestra no detectó la diferencia entre los valores reales y los de la hipótesis respecto de los parámetros poblaciones. Por ejemplo, un investigador en medicina puede proponer la hipótesis de que un nuevo medicamento es más efectivo que otro para curar cierta enfermedad. Para probar su hipótesis, selecciona al azar algunos pacientes afectados por la enfermedad y los divide aleatoriamente en dos grupos. Se aplica entonces el nuevo medicamento A al primer grupo de pacientes y el otro medicamento B al segundo grupo. Posteriormente el investigador debe decidir, basándose en el número de pacientes curados en cada grupo, si el nuevo medicamento es más eficaz o no que el anterior. Las pruebas de hipótesis se realizan en todos los ámbitos en los cuales puede contrastarse la teoría frente a la observación. Es decir, se somete la hipótesis a una verificación estadística, comparándola con los datos muéstrales observados. El propósito de las pruebas de hipótesis es ayudar al médico, investigador o administrador a tomar una decisión en torno a una población, examinando una muestra de ella. Una hipótesis se define simplemente como una afirmación acerca de una o más poblaciones. En general, la hipótesis se refiere a los parámetros de las poblaciones acerca de las cuales se hace la afirmación. Un médico puede suponer que cierto medicamento será eficaz en el 90% de los casos en los que se utilice. Por medio de las pruebas de hipótesis, se determina si tales proposiciones son compatibles o no con los datos de que se dispone.

Page 48: Escuela Superior de Física y Matemáticas Instituto

48

Los investigadores tratan con dos tipos de hipótesis: las hipótesis de investigación y las hipótesis estadísticas: la hipótesis de investigación es la conjetura o suposición que motiva la investigación. Puede ser el resultado de años de observación por parte del investigador. Los proyectos de investigación suelen resultar del deseo de profesionales de la salud (entre otros) por determinar si sus teorías o sospechas pueden ser apoyadas o no cuando se someten a los rigores de la investigación científica. Las hipótesis de investigación conducen directamente a hipótesis estadísticas. Las hipótesis estadísticas se establecen en tal forma que pueden ser evaluadas a través de técnicas estadísticas. Por conveniencia metodológica, las pruebas de hipótesis se presentarán mediante un procedimiento de nueve pasos. 1.- Debe comprenderse la naturaleza de los datos, esto es, el tipo de variable,

el tipo de medición, que forma la base de los procedimientos de prueba, ya que esto determinará la prueba particular que debe utilizarse.

2.- Las mismas suposiciones que tienen importancia en la estimación son

también importantes en las pruebas de hipótesis. Estas incluyen, suposiciones acerca de la normalidad de la distribución de la población, igualdad de las varianzas e independencia de las muestras.

3.- En las pruebas de hipótesis se trabaja con dos hipótesis estadísticas que

deben enunciarse explícitamente. La primera es la hipótesis que debe probarse, conocida como hipótesis nula, y que se denota por Ho . Esta hipótesis a veces se conoce como hipótesis de no diferencia. En el proceso de prueba, la hipótesis nula se rechaza, o bien, no se rechaza. Si la hipótesis nula no se rechaza, se dirá que los datos sobre los cuales se basa la prueba no proporcionan evidencia suficiente que provoque el rechazo. Si el procedimiento de prueba conduce al rechazo, se concluirá que los datos disponibles no son compatibles con la hipótesis nula, pero son apoyo de alguna otra hipótesis. Esta otra hipótesis se conoce como hipótesis alternativa y se denota por Ha .

4.- El estadístico de prueba es alguno que puede calcularse a partir de los

datos de la muestra. Sirve como un productor de decisiones, ya que la decisión de rechazar o no la hipótesis nula depende de la magnitud del estadístico de prueba. Un ejemplo de estadístico de prueba es:

ZX

n

o=− µ

σ

Page 49: Escuela Superior de Física y Matemáticas Instituto

49

Donde. µ o es un valor supuesto de la media poblacional. Este estadístico de prueba esta relacionado con:

Z X

n=

− µσ

La siguiente es una fórmula para generar un estadístico de prueba que se

aplicará en muchas de las pruebas de hipótesis. Estadístico relevante - parámetro supuesto Estadístico de prueba = error estándar del estadístico relevante. 5.- Distribución del estadístico de prueba. 6.- Regla de decisión. Todos los valores posibles que el estadístico de prueba

puede tener son puntos sobre el eje horizontal de la gráfica de la distribución del estadístico y se dividen en dos grupos; uno constituye lo que se conoce como región de rechazo y el otro forma la región de no “aceptación”. Los valores del estadístico que comprenden la región de rechazo son aquellos que tienen la menor probabilidad de suceder si la hipótesis nula es verdadera, mientras que los valores que forman la región de “aceptación” son los que tienen mayor probabilidad de ocurrir si la hipótesis nula es verdadera. La regla de decisión señala que se rechace la hipótesis nula si el valor del estadístico de prueba que se calcule a partir de la muestra es uno de los valores de la región de rechazo, y que no se rechace (o “acepte”) la hipótesis nula si el valor calculado del estadístico de prueba es uno de los valores de la región de “aceptación”.

Para decidir que valores van hacia la región de rechazo y cuales a la de

aceptación, se toma de base el nivel de significación deseado, que se denota por α . Es por esto que, algunas veces, las pruebas de hipótesis reciben el nombre de pruebas de significación y un valor calculado del estadístico de prueba que cae en la región de rechazo se dice que es significativo. El nivel de significación, α , especifica el área bajo la curva de la distribución del estadístico de prueba que está por arriba de los valores sobre el eje horizontal que constituyen la región de rechazo. Podemos ver entonces que α es la probabilidad de rechazar una hipótesis nula verdadera. Por lo tanto, es de esperar valores pequeños de α , los más frecuentes son 0.01, 0.05 y 0.10.

El error que se comete cuando se rechaza una hipótesis nula verdadera se

conoce como error tipo I . El error tipo II se comete cuando se acepta una hipótesis nula falsa. La probabilidad de cometer un error tipo II se denota por β .

Page 50: Escuela Superior de Física y Matemáticas Instituto

50

Siempre que se rechaza una hipótesis nula se tiene el riesgo de cometer

un error del tipo I . Siempre que se “acepta” una hipótesis nula, existe el riesgo de que esta sea falsa. Se puede hacer pequeño α , pero en general no se ejerce control sobre β .

Nunca se sabe si se ha cometido o no uno de estos errores cuando se

rechaza o se deja de rechazar una hipótesis nula, ya que se desconoce el enunciado verdadero de los asuntos. Es importante elegir a α pequeña, de manera que si rechazamos una hipótesis nula verdadera esto sea con la menor probabilidad. Si se acepta una hipótesis nula falsa, no se sabe el riesgo, ya que por lo general se desconoce β .

7. Estadístico de prueba calculado. A partir de los datos muéstrales se

calcula el estadístico de prueba y se compara con las regiones de aceptación y de rechazo (para ver en que región cae).

8. Decisión estadística. Esta se toma al rechazar o no la hipótesis nula. Se

rechaza si el valor del estadístico cae en la región de rechazo y no se rechaza si cae en la región de aceptación.

9. Conclusión.- Si Ho se rechaza, se concluye que Ha es verdadera. Si no se

rechaza Ho , se concluye que Ho puede ser verdadera. Si no se rechaza la hipótesis nula, podría aceptarse, sin embargo es

necesario cuantificar la gravedad del error.

Cualquier prueba estadística de hipótesis funciona exactamente de la misma manera y se compone de los mismos elementos esenciales

1.- La hipótesis nula, Ho 2.- La hipótesis alternativa, Ha 3.- El estadístico de la prueba 4.- La región de rechazo Las partes funcionales de una prueba estadística son el estadístico de la

prueba y la región de rechazo asociada. El estadístico de la prueba (como un estimador) es una función de las mediciones muéstrales en el cual se fundamenta la decisión estadística. La región de rechazo, que se denotará de aquí en adelante por RR, especifica los valores del estadístico de la prueba para los cuales se rechaza la hipótesis nula. Si en una muestra particular el valor calculado del estadístico de la prueba se localiza en la región de rechazo, se rechaza la hipótesis nula Ho y se acepta la hipótesis alternativa Ha . Si el valor del estadístico de la prueba no cae en la región de rechazo RR, aceptamos Ho .

Page 51: Escuela Superior de Física y Matemáticas Instituto

51

Debemos notar que para cualquier región de rechazo fija, se pueden

cometer dos tipos de errores al llegar a una decisión. Podemos decidir a favor de Ha siendo Ho verdadera (llamado error tipo I), o podemos decidir a favor de Ho siendo verdadera Ha (llamado error tipo II).

DEF.- El error tipo I se comete cuando se rechaza Ho siendo verdadera. La

probabilidad de un error tipo I se denota por α . El error tipo II se comete si se acepta Ho cuando es verdadera Ha . La probabilidad de un error tipo II se denota por β .

En la mayoría de las situaciones reales las decisiones incorrectas cuestan dinero, prestigio y en consecuencia implican una pérdida. Por lo tanto βα y , las probabilidades de cometer estos dos tipos de errores, miden el riesgo asociado con las dos posibles decisiones equivocadas que podrían resultar de una prueba estadística. Como tal, proporcionan una manera muy práctica para medir la bondad de una prueba. Para mejorar nuestra prueba debemos equilibrar α βy cambiando la región de rechazo. Si se amplia RR a una nueva región de rechazo RR* (es decir RR RR⊂ * ), entonces la prueba que implica RR* rechazará Ho con mayor frecuencia. Si αα y* denotan las probabilidades de los errores tipo I cuando utilizamos RR* y RR como regiones de rechazo, respectivamente, entonces

αα =

=

RRenlocalicesepruebalade

oestadisticelquede

RRenubiquesepruebalade

oestadisticelquedePr

*Pr*

Asimismo, si utilizamos la región de rechazo mayor RR* , el procedimiento de la prueba aceptará Ho con menor frecuencia. Si ββ y* denotan las probabilidades de los errores tipo II para la prueba que utiliza RR* y RR, respectivamente, entonces β β* ≤ . Por lo tanto, si se cambia la región de rechazo para incrementar α , entonces β decrecerá. De manera similar, si el cambio en la región de rechazo resulta en un decremento de α , entonces β aumentará. Por lo tanto α βy se relacionan inversamente. Si después de hacer estos “ajustes” α βy aún son inconvenientemente grandes y quisiéramos reducir α βy al mismo tiempo, debemos incrementar la información. Ya que para la mayoría de las pruebas estadísticas α βy decrecen al aumentar el tamaño de muestra.

Page 52: Escuela Superior de Física y Matemáticas Instituto

52

Ejemplo 8. Un investigador ha preparado el nivel de dosificación de un fármaco

que afirma provocará sueño en por lo menos 80% de las personas que padecen insomnio. Después de examinar la dosificación, se considera que su afirmación acerca de la efectividad del fármaco es exagerada. En un intento por refutar su afirmación se administra la dosificación prescrita a 20 personas que padecen insomnio, y se observa Y, el número de personas que se adormecen debido al fármaco. Se desea probar la hipótesis H po: .= 0 8 frente a la alternativa H pa: .< 0 8 . Suponga que se utiliza la región de rechazo {y ≤ 12}

a) Encuentre α b) Encuentre β para p = 0 6. c) encuentre β para p = 0.4 Solución.- H po: .= 0 8 H pa: .< 0 8 a) α = Pr (error tipo I) = Pr (de rechazar Ho cuando es verdadera Ho ) = Pr (de que el estadístico de la prueba se localice en RR cuando es

verdadera Ho ) = Pr { y ≤ 12 p = 0.8 } considerando que Y es una variable aleatoria binomial con n = 20 y p = 0.8 , se tiene

( ) ( ) ( )α = ==

−∑ yy

y y20

0

122008 0 2 0 032. . .

b) β = Pr (error tipo II) = Pr (de aceptar Ho cuando es verdadera Ha ) β = Pr (de que el valor del estadístico de la prueba no esté en RR siendo verdadera Ha ) β = Pr (y > 12 cuando p=0.6) = 1 - Pr (y ≤ 12 cuando p=0.6) =1 - 0.584 = 0.416

Page 53: Escuela Superior de Física y Matemáticas Instituto

53

( ) ( ) ( )β = ==∑

yy

y y20

13

20

6 4 0 41620

. . .

c) β = Pr (y > 12 cuando p=0.4) = 1 - Pr (y ≤ 12 cuando p = 0.4) =1 - 0.979 = 0.021

( ) ( ) ( )β ==∑

yy

y y20

13

20

4 620

. .

β = 0.021 Supongamos que se desea probar una hipótesis referente al parámetro θ , basado en una muestra aleatoria y yn1,..., desarrollaremos un procedimiento para la prueba de hipótesis basada en el estimador $θ , que tiene (aproximadamente) una

distribución muestral normal con media θ y varianza σθ$2 . Los estimadores y y

p con muestras grandes utilizados para estimar una media poblacional µ y proporción poblacional p, respectivamente, satisfacen estos requerimientos. También lo hacen los estimadores de µ µ1 2 1 2− −y p p . Si θ o es un valor específico de θ , podemos probar Ho o:θ θ= contra Ha o:θ θ> . Si

$θ está cerca de θ o , parece razonable aceptar Ho . Sin embargo, si oθθ >ˆ favorece el rechazo de Ho o:θ θ= y la aceptación de Ha o:θ θ> . Es decir:

Ho o:θ θ=

Ha o:θ θ> Estadístico de la prueba: $θ Región de rechazo: RR k= >{$ }θ para algún valor seleccionado de k.

Page 54: Escuela Superior de Física y Matemáticas Instituto

54

Fig. 12.- Región de rechazo para Ho o:θ θ= frente a Ha o:θ θ> con muestras grandes.

El valor real de k en RR se determina al fijar α , la probabilidad del error tipo I, eligiendo k de acuerdo a este valor (véase la fig. 12). Si Ho es verdadera, $θ tiene aproximadamente una distribución normal con media θ o y varianza σ

θ$2 . Por lo

tanto, si queremos que Pr(error tipo I)= α , entonces k Zo= +θ σα θ$

es la elección adecuada para k [en donde Zα es el valor tal que αα => )Pr( ZZ cuando Z tiene una distribución normal estándar]. Ya que

RR Z Z= > + =−

>

{$ $ } $

$$

$

θ θ θ σ θθ θ

σα θθ

α00

si se utiliza Z o=−$

$

θ θσ

θ

como estadístico de la prueba, la región de rechazo puede

escribirse también como RR Z Z= >{ }α . Nótese que Z mide el número de desviaciones estándar entre $θ θy o . Por lo tanto una forma equivalente de la prueba de hipótesis, con α = Pr(error tipo I), es: Ho o:θ θ= Ha o:θ θ>

Page 55: Escuela Superior de Física y Matemáticas Instituto

55

Estadístico de la prueba: Z o=−$

$

θ θσ

θ

Región de rechazo: Z Z> α . Debemos observar que se rechaza Ho si Z cae “muy alejado”, en la cola superior de la distribución normal estándar. La hipótesis alternativa Ha o:θ θ> se denomina alternativa de cola superior, y a RR Z Z= >{ }α se le llama región de rechazo de cola superior (o derecha). Una prueba del tipo Ho o:θ θ= frente a H a o:θ θ< se efectuará de manera análoga pero ahora rechazamos Ho para valores de $θ mucho menores que θ o . El estadístico de prueba sigue siendo

Z o=−$

$

θ θσ

θ

pero para un valor de α dado rechazamos la hipótesis nula cuando Z Z< − α . Como rechazamos Ho en favor de Ha cuando Z cae suficientemente alejado en la cola inferior de una distribución normal estándar, se denomina a H a o:θ θ< una alternativa de cola inferior y RR Z Z:{ }< − α una región de rechazo de cola inferior (o izquierda). Si se desea probar Ho o:θ θ= frente a Ha o:θ θ≠ , rechazaríamos Ho si $θ es mucho menor o mucho mayor que θ o . El estadístico de la prueba sigue siendo Z (anterior), pero la región de rechazo se localiza simétricamente en las dos colas de la distribución de probabilidad para Z. Por lo tanto rechazamos H si Z Z o Z Zo < − >α α

2 2. Es decir, rechazamos H si Z Zo > α

2. Esta

prueba se denomina prueba de dos colas (ver figura 13).

Page 56: Escuela Superior de Física y Matemáticas Instituto

56

Fig. 13. Regiones de rechazo para las pruebas:

Ho o:θ θ= frente a

a) Ha o:θ θ< y

b) Ha o:θ θ≠

basada en

Z o=−$

$

θ θσ

θ

Page 57: Escuela Superior de Física y Matemáticas Instituto

57

En resumen, hemos visto las siguientes pruebas de hipótesis para muestras grandes Ho o: θ θ=

≠<>

).().inf().sup(

:colasdosdeaalternativ

eriorcoladeaalternativeriorcoladeaalternativ

H

o

o

o

a

θθθθθθ

Estadístico de la prueba:

Z o=−$

$

θ θσ

θ

>

−<>

).().inf(

).sup(:Re

2colasdosdeRRZZ

eriorcoladeRRZZeriorcoladeRRZZ

rechazodegión

α

α

α

Debemos observar que en cualquier prueba particular solamente una de las hipótesis alternativas Ha antes indicadas será apropiada, con su región de rechazo correspondiente. Ejemplo 9. Se realizó un estudio psicológico para comparar los tiempos de

reacción de hombres y mujeres con respecto a cierto estímulo. Se utilizaron en el experimento muestras aleatorias independientes de 50 hombres y 50 mujeres. Los resultados se muestran en la tabla siguiente. ¿Presentan los datos suficiente evidencia para sugerir una diferencia entre los promedios verdaderos de los tiempos de reacción para hombres y mujeres? Utilice α = 0 05.

Hombres Mujeres n1 50=

n2 50=

y segundos1 3 6= . S1

2 0 18= .

y segundos2 38= . S2

2 0 14= .

Page 58: Escuela Superior de Física y Matemáticas Instituto

58

Solución: Sean µ µ1 2y los promedios reales de los tiempos de reacción para hombres y mujeres respectivamente. Se desea probar si las medias son iguales, es decir, Ho : ( )µ µ1 2 0− = frente a Ha : ( )µ µ1 2 0− ≠ El estimador puntual de ( ) ( )µ µ1 2 1 2− −es Y Y y satisface los supuestos de la prueba para muestras grandes. En general, si deseamos probar H Do o: ( )µ µ1 2− = ( )D fijoo contra cualquier alternativa, el estadístico de la prueba está dado por:

Z Y Y D

n n

o=− −

+

( )1 2

12

1

22

2

σ σ

Para α = 0 05. , Ho se rechaza si

Z Z Z> = =α2

0 025 1 96. .

Y como las varianzas muestrales son buenos estimadores de las varianzas poblacionales:

Z Y Y

n n

=− −

+

=−

+= −

( ) . .. .

.1 2

12

1

22

2

0 3 6 3 80 1850

0 1450

2 5σ σ

de donde Z = >2 5 1 96. . y por lo tanto cae en la región de rechazo, en consecuencia, rechazamos la hipótesis de que no hay diferencia en los promedios de tiempos de reacción para hombres y mujeres.

Page 59: Escuela Superior de Física y Matemáticas Instituto

59

EJERCICIOS 1.- En una encuesta sanitaria se entrevistaron 150 personas para obtener

información sobre la compra de pastillas psicotrópicas consumidas en un año. El promedio consumido fue de 5.8 con una desviación estándar de 3.1. De encuestas anteriores se sabe que el consumo promedio es de 5 y el ministerio de salud desea saber si la evidencia observada es suficiente para afirmar que se ha incrementado el consumo con ∝= 0 05. probar

5:5: >= µµ ao HvsH . 2.- En un hospital psiquiátrico para personas que han sido afectadas por las

drogas y el alcohol, se desea realizar un estudio para comprobar si la concentración media de ácido úrico en el suero, es diferente a la que se encuentra en personas normales de la misma edad y sexo. Se toma una muestra de 12 pacientes obteniéndose 5.41 =X mg/100 ml con σ2

1 1= . Una muestra de 15 personas normales generó los siguientes resultados

4.32 =X , σ22 1= probar al 5%

0:0: 2121 ≠−=− µµµµ ao HvsH Utilizar:

( ) ( )Z

X X

n n

=− − −

+

1 2 1 2

12

1

22

2

µ µ

σ σ

Page 60: Escuela Superior de Física y Matemáticas Instituto

60

CÁLCULO DE LAS PROBABILIDADES DEL ERROR TIPO II El cálculo de β puede ser muy difícil en ciertas pruebas estadísticas. En nuestro caso podemos utilizar la prueba Z para mostrar tanto el cálculo de β como la lógica empleada para seleccionar el tamaño de la muestra en una prueba. Para la prueba de Ho o:θ θ= frente a Ha o:θ θ> , solamente es posible calcular las probabilidades de un error tipo II para puntos específicos en Ha . Supóngase que el experimentador dispone de una alternativa específica, digamos θ θ θ θ= >a a ocon( ) . Dado que la región de rechazo es de la forma

RR k= >{$ $ }θ θ la probabilidad de un error tipo II, β , es )ˆ(Pr verdaderaescuandoenlocaliceseno aHRRθβ =

)ˆ(Pr ak θθθβ =≤= cuando

=

−≤

−= a

aa kθθ

σθ

σθθ

θθ

cuandoˆˆ

ˆPr

Si θ a es el valor verdadero de θ , entonces $

$

θ θσ

θ

− a tiene aproximadamente la

distribución normal estándar, y la probabilidad β puede determinarse (aproximadamente) calculando un área bajo la curva normal estándar. Para un tamaño de muestra n el valor de β dependerá de la distancia entre θ θa oy . Si θ a está cerca de θ o , la probabilidad de aceptar Ho cuando es verdadera Ha tenderá a ser grande. Si θ a está lejos de θ o , β será considerablemente menor. Como vimos anteriormente, se puede reducir tanto α como β al escoger tamaños de muestras grandes. A continuación determinamos el tamaño de muestra para un experimento. Supongamos que queremos probar Ho o:µ µ= frente a Ha o:µ µ> . Si se específica el valor deseado de α y β (en donde β se evalúa para un valor particular de µ µ µ, a o> ), la prueba depende de dos cantidades adicionales que deben determinarse. Se trata del tamaño de muestra n, y de k, el punto donde empieza la región de rechazo. Como α y β pueden escribirse como

Page 61: Escuela Superior de Física y Matemáticas Instituto

61

probabilidades que involucran n y k, tenemos dos ecuaciones con dos incógnitas, que se pueden resolver simultáneamente para n. Por lo tanto

)(Pr okY µµα =>= cuando

=

−>

−= o

oo

n

k

n

Yµµ

σµ

σµ cuandoPr

)(Pr αZZ >=

)(Pr akY µµβ =≤= cuando

=

−≤

−= a

aa

n

k

n

Yµµ

σµ

σµ cuandoPr

)(Pr βZZ −≤= de la ecuación para α tenemos

Z k

n

µσ=

⇒ = +k Z n oα

σ µ ... ( )1

Page 62: Escuela Superior de Física y Matemáticas Instituto

62

de la ecuación para β tenemos

− =−Z k

n

µσ

⇒ = − +k Z

n aβσ µ ... ( )2

igualando las ecuaciones (1) y (2)

µ σ µ σα βo aZ n Z n+ = −

[ ] oanZZ µµσ

βα −=

+

⇒ =+

−n

Z Z

a o

( )( )

α β σµ µ

2

2

2

)()(

oa

ZZn

µµσβα

+=⇒

fórmula para calcular el tamaño de muestra para una hipótesis alternativa de cola superior.

COLA INFERIOR

Page 63: Escuela Superior de Física y Matemáticas Instituto

63

)(Pr ocuandokY µµα =≤=

=

−≤

−= o

oo cuandon

k

n

Yµµ

σµ

σµ

Pr

)(Pr αZZ −≤=

)(Pr akY µµβ =>= cuando

=

−>

−= a

aa

n

k

n

Yµµ

σµ

σµ cuandoPr

)(Pr βZZ >=

de la ecuación para α , obtenemos

− =−

⇒ = −

+Z

k

nk Z

no

oα α

µσ

σ µ

de la ecuación para β :

Zk

nk Z

na

aβ β

µσ

σ µ=−

⇒ =

+

Por lo tanto:

+ =

+Z

nZ

no aα βσ µ σ µ

[ ]⇒

+ = −σ µ µα βn

Z Z o a

⇒ =+

−n

Z Z

o a

( )( )

α β σµ µ

Page 64: Escuela Superior de Física y Matemáticas Instituto

64

⇒ =+

−n

Z Z

o a

( )( )

α β σµ µ

2

2

2

⇒ =+

−n

Z Z

a o

( )( )

α β σµ µ

2

2

2

Ejemplo 10. Se cree que la media del coeficiente de inteligencia de los niños de

Nueva Miranda es 104. Para comprobar tal creencia, se tomó una muestra aleatoria de 36 estudiantes para medir su coeficiente de inteligencia. Se obtuvo una media muestral de x = 102 con una desviación típica S = 8. Pruebe la hipótesis de que la media es diferente de 104, usando un nivel de significación de 5%.

Solución.- Ho :µ = 104 Ha :µ ≠ 104

n

XXZx σ

µσ

µ −=

−=

⇒ =−

=−

=−

= −Z 102 1048

36

28

6

128

1 5.

por otro lado, como se trata de una prueba de dos colas

Z Zα2

0 025 1 96= = ±. .

Page 65: Escuela Superior de Física y Matemáticas Instituto

65

Es decir:

Z Z= < =1 5 1 96

2. .α

Por lo tanto, la diferencia entre X y µ no es significativa, es decir, la media muestral no es diferente a la media poblacional. Por lo tanto, no rechazamos que la inteligencia media de los niños de Nueva Miranda es 104. Por otro lado, si quisiéramos probar Ho :µ = 104 contra Ha :µ = 102 con α β= = 0 05. tendríamos que incrementar el tamaño de muestra que garantice esta exactitud (estaríamos en el caso de una cola inferior). En consecuencia

nZ Z

a o

=+

( )( )

α β σµ µ

2

2

2

=+

−=

( . . ) ( )( )

.1 645 1 645 64102 104

173192

2

Por lo tanto se tendría que utilizar n = 174 observaciones para garantizar que α β= = 0 05. para esta prueba. La probabilidad de un error tipo I, α , suele denominarse nivel de significación asociada con una prueba. Pero, ¿cómo determinar el valor “óptimo” de α ? Es muy importante considerar de manera cuidadosa las consecuencias de cometer un error de tipo I. Una vez elegido el estadístico de la prueba que se va a utilizar, muchas veces es posible determinar el valor p, nivel de significación alcanzado de una prueba. Esta cantidad es un estadístico que representa el valor mínimo de α para el cual se rechaza la hipótesis nula.

Page 66: Escuela Superior de Física y Matemáticas Instituto

66

DEF .- Si w es un estadístico de una prueba, el valor p o nivel de significación alcanzado es el mínimo nivel de significación α , para el cual los datos observados indican que se tendría que rechazar la hipótesis nula.

Si la selección de α en un experimento es mayor que o igual al valor p, se rechaza la hipótesis nula. De otra manera, si α es menor que el valor p, no se puede rechazar la hipótesis nula. Por esta razón en la mayoría de las investigaciones se publican los valores p asociados a las pruebas estadísticas, porque estos valores proporcionan al lector más información que tan solo la afirmación de que se rechaza o no la hipótesis nula para algún valor de α escogido por el autor del informe. En cierto modo, el valor p permite al lector evaluar el grado de incongruencia de los datos observados con la hipótesis nula. En particular, el valor p permite a cada lector utilizar su propio valor para α y así decidir si los datos observados conducen al rechazo o no de la hipótesis nula. Ejemplo 11. Encontrar el valor p para la prueba estadística del ejemplo 9. Solución.- En el ejemplo 9 tenemos la hipótesis nula

Ho :µ µ1 2 0− = contra

Ha :µ µ1 2 0− ≠ El valor del estadístico de la prueba, calculado a partir de los datos observados, fue Z = −2 5. . Como esta prueba es de dos colas, el valor p es la probabilidad de que Z o Z≤ − ≥2 5 2 5. .

De la tabla 4 del apéndice

0062.0)5.2(Pr)5.2(Pr =≥=−≤ ZZ

Page 67: Escuela Superior de Física y Matemáticas Instituto

67

por lo tanto

p = 2(0.0062) = 0.0124 En consecuencia, como α = >0 05. p rechazamos Ho en favor de Ha , es decir, existe diferencia en los tiempos promedio de reacción entre hombres y mujeres. De otro modo, si hubiéramos seleccionado α = <0 01. p , no podríamos afirmar que exista una diferencia en el tiempo promedio de reacción para los dos sexos. En particular, determinar el valor de p es bastante útil cuando el estadístico de la prueba tiene una distribución discreta. En donde muchas veces no se puede encontrar una región de rechazo que dé un valor de α de una magnitud particular. Para algunas pruebas estadísticas no será posible calcular el valor exacto de p, quizás por no contar con las tablas adecuadas, sin embargo podremos referirnos a una región de valores, en la cual sabemos que debe caer el valor p. Por ejemplo, si el resultado de una prueba es estadísticamente significativa para α = 0 05. pero no para α = 0 025. , indicaremos que 0 025 0 05. .≤ ≤valor p . Por lo tanto para cualquier valor α > 0 05. rechazamos la hipótesis nula, y para α < 0 025. no rechazamos la hipótesis nula. Para valores de α entre 0 025 0 05. .y tendríamos que buscar tablas más completas de la distribución apropiada antes de llegar a una conclusión. Sin embargo, tenemos información muy útil con respecto al valor p. PRUEBA PARA µ CON MUESTRAS PEQUEÑAS En lo que va de este capítulo, hemos trabajado con muestras grandes, ahora desarrollaremos los procedimientos formales para probar las hipótesis acerca de µ µ µy 1 2− , procedimientos que son apropiados para muestras pequeñas de poblaciones normales. Sea Y Yn1,..., una muestra aleatoria de tamaño n de una distribución normal con media µ y varianza σ 2 desconocidas. Si Y y S son la media y desviación estándar muestral, respectivamente, y si

Ho o:µ µ= entonces:

T YS

n

o=− µ

tiene una distribución t con n-1 grados de libertad.

Page 68: Escuela Superior de Física y Matemáticas Instituto

68

Como la distribución t es simétrica y con forma monticular, la región de rechazo para una prueba de muestras pequeñas con la hipótesis Ho o:µ µ= se localizará en los extremos de la distribución t y se determinará exactamente de la misma manera que con el estadístico Z para muestras grandes. Por analogía con la prueba Z, la región de rechazo indicada en una alternativa de cola superior Ha o:µ µ> está dada por

RR t t= >{ }α en donde tα corresponde a αα => }{Pr tT para una distribución t con n-1 grados de libertad (ver tabla 5 del apéndice). En resumen. Sea Y Yn1,..., una muestra aleatoria de una distribución normal con Ε( )Yi = µ Ho o:µ µ=

≠<>

).().(

).(:

colasdosdeaalternativinferiorcoladeaalternativsuperiorcoladeaalternativ

o

o

o

aHµµµµµµ

Estadístico de la prueba:

T YS

n

o=− µ

Región de rechazo: t t RRt t RRt t RR

>

< −

>

α

α

α

( ).( ).( ).

de cola superiorde cola inferiorde dos colas

2

Ejemplo 12. La Casa Bayer, que fabrica pastillas multivitamínicas, asegura que

cada una contiene en promedio 2.48 mg de vitamina B-12. El departamento de Salud de Nueva Miranda analizó una muestra aleatoria de 28 pastillas y encontró un contenido medio de 2.45 mg, con una desviación típica S = 0.15 mg. A la luz de estos resultados, ¿rechazaría la afirmación de la Casa Bayer? Use un nivel de significación de 0.05.

Page 69: Escuela Superior de Física y Matemáticas Instituto

69

Solución.-

H mgo: .48µ = 2 H mga: .48µ < 2

T =−

= −2 20 15

281 058.45 .48

. .

por otro lado, t 0.05 = -1.703 para 27 grados de libertad, como T t> 0 05. siendo de cola inferior, aceptamos la hipótesis nula, es decir, es cierto que cada pastilla multivitamínica contiene en promedio 2.48 mg de vitamina B-12. Si planeáramos reportar los resultados de la prueba estadística, debemos calcular el valor de p asociado. Como se tendría que aceptar la hipótesis nula si T es “grande”, el valor más pequeño de α para el cual se acepta la hipótesis nula es el valor

)058.1(Pr −>T en donde T tiene una distribución t con n-1=27 grados de libertad. Observando la tabla 5 del apéndice, buscamos la fila con 27 grados de libertad y encontramos que -1.058 se encuentra entre − = − − = −t y t0 20 0 100 855 1 31. .. . . Se “muestran” estos valores en la fig. siguiente

Determinación del valor p para el ejemplo 12. Como el valor observado de T = −1 058. es menor que − = −t0 20 0 855. . pero no menor que − = −t0 10 1 31. . , rechazamos Ho para α = 0 20. pero no paraα = 0 10. . Por lo tanto, el valor p para la prueba satisface 0 10 0 20. .< <p

Page 70: Escuela Superior de Física y Matemáticas Instituto

70

PROBLEMA.- Se desea acelerar el tiempo que tarda una droga en entrar en el torrente sanguíneo; para ello, un farmacéutico agregó otro ingrediente a la fórmula normal. La fórmula original tardaba en promedio µ = 32 min. . En 20 observaciones de la nueva mezcla se obtuvo un tiempo medio X min.= 30 , con una desviación típica S min.= 2 5. ¿Cuál es su respuesta en relación con la eficacia del nuevo ingrediente, si se asume un error alfa de 0.01? Solución: µ = 32 min. n = 20 X min.= 30 S min.= 2 5. α = 0 01. Ho:µ = 32 Ha:µ < 32 Estadístico

n

SX

T oµ−=

5777.3559.0

2

205.2

3230−=

−=

−=T

( )t gl0 01 19 2 539. , .= − siendo de cola inferior y dado que ( )gltT 19,01.0< rechazamos la

hipótesis nula Ho , es decir, disminuye el tiempo con el nuevo ingrediente

( )p t > −3 5777. como ( )− <3 5777 005 19. . ,t entonces, para todo α ≥ 0.005 rechazamos la hipótesis nula Una segunda aplicación de la distribución t es la construcción de una prueba para muestras pequeñas que compara las medias de dos poblaciones normales que tienen varianzas iguales

Page 71: Escuela Superior de Física y Matemáticas Instituto

71

Sean 21 2222111211 ,....,,,...,, nn yyyyyyy dos muestras aleatorias independientes

de dos poblaciones normales, con medias y varianzas µ σi y 2 para i = 1 2, respectivamente. Además Y y Si i

2 , i = 1 2, son las medias y varianzas muestrales correspondientes. Como vimos en el capítulo anterior, cuando se satisfacen estas condiciones

S n S n Sn n

2 1 12

2 22

1 2

1 12

=− + −

+ −( ) ( )

es un estimador ponderado para σ 2 , entonces

T Y Y

Sn n

=− − −

+

( ) ( )1 2 1 2

1 2

1 1µ µ

tiene una distribución t de Student con n n1 2 2+ − grados de libertad. Las pruebas de la hipótesis H Do o:µ µ1 2− = frente a alternativas de cola superior, cola inferior y de dos colas, se manejan de la misma manera como en la prueba para muestras grandes, solamente que se aplica el estadístico t. Por lo tanto, los procedimientos de pruebas con muestras pequeñas para µ µ1 2− están dados por SUPUESTOS: Muestras independientes de poblaciones normales con

σ σ12

22=

H Do o: µ µ1 2− = para cierto valor fijo Do

HDDD

a

o

o

o

:( ).( ).( ).

µ µ

µ µµ µ

1 2

1 2

1 2

− >

− <− ≠

alternativa de cola superioralternativa de cola inferioralternativa de dos colas

Estadístico de la prueba:

T Y Y D

Sn n

o=− −

+

1 2

1 2

1 1 , en donde

S n S n Sn n

=− + −

+ −( ) ( )1 1

22 2

2

1 2

1 12

Page 72: Escuela Superior de Física y Matemáticas Instituto

72

Región de rechazo: t t RRt t RRt t RR

>

< −

>

α

α

α

( ).( ).( ).

de cola superiorde cola inferiorde dos colas

2

En donde αα => )(Pr tT Ejemplo 13. Se efectuó un estudio por parte de la Comisión de Caza y Pesca del

estado de Florida para estimar las cantidades de residuos químicos encontrados en los tejidos cerebrales de pelícanos cafés. En una prueba sobre DDT, muestras aleatorias de n1 10= pelícanos jóvenes y n2 13= polluelos dieron los resultados indicados en la tabla siguiente (las mediciones están dadas en partes por millón). Pruebe la hipótesis de que no existe diferencia en las cantidades promedio de DDT encontradas en pelícanos jóvenes y polluelos, contra la alternativa de que los pelícanos jóvenes presentan un promedio mayor.Utilice α = 0 05. . (Esta prueba tiene implicaciones importantes con respecto a la acumulación de DDT a través del tiempo).

Jóvenes Polluelos n1 10= n2 13= y1 0 041= . y2 0 026= . S1 0 017= . S2 0 006= . Solución.- Ho:µ µ1 2 0− = Ha:µ µ1 2 0− > Por lo tanto, requerimos una prueba de cola superior. El estadístico de la prueba es

( )T

y y D

Sn n

o=− −

+

1 2

1 2

1 1

Con Do = 0 , y la región de rechazo para α = 0 05. es t t> 0 05. , en donde

05.0)(Pr => αtT en este caso t0 05 1 721. .= ya que t tiene ( )n n1 2 2 21+ − = grados de libertad

Page 73: Escuela Superior de Física y Matemáticas Instituto

73

S n S n Sn n

2 1 12

2 22

1 2

1 12

=− + −

+ −( ) ( )

S22 29 0 017 12 0 006

10 13 20 00014443=

++ −

=( . ) ( . ) .

t y y

Sn n

=−

+=

+

1 2

1 2

1 10 041 0 026

0 00014443 110

113

. .

( . )

t = 2 967. Como t t> 0 05. , se rechaza la hipótesis nula, es decir, los pelícanos jóvenes presentan un promedio mayor de DDT que los polluelos. Encontremos el valor p para la prueba estadística. El valor observado del estadístico para esta prueba de cola superior es t = 2 967. , el valor de p para esta prueba es entonces la probabilidad de que T > 2 967. (área sombreada en la fig. siguiente)

Dado que este estadístico de prueba tiene ( )n n1 2 2 21+ − = g.l., consultamos la tabla 5 del apéndice para encontrar t0 005 2 83. .= . Por lo tanto, la probabilidad de que T > 2 967. cae después de 0.005, es decir, 0.005 < valor p. En consecuencia, para valores mayores a α = 0 005. podemos rechazar la hipótesis nula. Por lo tanto, nuestra decisión anterior es correcta.

Page 74: Escuela Superior de Física y Matemáticas Instituto

74

PROBLEMA.- Refiérase al ejemplo 13. ¿Existe evidencia de que el promedio

para pelícanos jóvenes sea mayor que para los polluelos en más de 0.01 partes por millón? Establezca el valor p.

Solución: Ho: .µ µ1 2 0 01− = Ha: .µ µ1 2 0 01− > Estadístico de prueba:

( )Ty y

Sn n

=− −

+=

− −

+

1 2

1 2

0 011 1

0 041 0 026 0 01

0 00014443 110

113

. . . .

( . )

= 0 98912. Como t T t0 05 0 051 721. ..= ⇒ <

⇒ no se rechaza Ho de hecho:

t T0 10 1 323. .= >

⇒ Incluso con un nivel de significancia del 0.10 no es posible rechazar Ho

Page 75: Escuela Superior de Física y Matemáticas Instituto

75

PRUEBAS DE BONDAD DE AJUSTE Muchos experimentos producen datos enumerativos (o de conteo). Por ejemplo al estudiar la reacción de un ratón a un estímulo particular en un experimento psicológico. Si un ratón reaccionara de una de tres formas cuando se le aplica el estímulo y si se sometiera un gran número de ratones al estímulo, el experimento produciría tres conteos que indicarían el número de ratones que resulta en cada tipo de reacción. Asimismo, muchas observaciones en las ciencias físicas no se pueden medir en una escala continua y por lo tanto producen datos enumerativos o de clasificación. Dichos ejemplos, tienen con cierta aproximación, las siguientes características, que definen un experimento multinomial: 1.- El experimento consta de n pruebas idénticas 2.- El resultado de cada prueba cae en una de k clases o celdas. 3.- La probabilidad de que el resultado de una prueba caiga en una celda en

particular, digamos en la i-ésima celda, es p i ki ( , ,..., )= 1 2 y permanece constante de prueba a prueba. Obsérvese que

p p p pk1 2 3 1+ + + + =...

4.- Las pruebas son independientes 5.- Estamos interesados en los valores n n nk1 2, ,..., , en donde n i Ki ( , ,..., )= 1 2

es el número de pruebas cuyo resultado cae en la i-ésima celda. Nótese que

n n n nk1 2+ + + =...

Obsérvese la similitud entre los experimentos binomial y multinomial, y en particular, que el experimento binomial representa el caso especial del experimento multinomial cuando k = 2. Las dos probabilidades de las celdas p y q del experimento binomial se reemplazan por las k probabilidades, p p pk1 2, ,..., , de las celdas en un experimento multinomial. Nuestro objetivo es hacer inferencias acerca de las probabilidades p p pk1 2, ,..., de las celdas. Las inferencias se expresarán en términos de la prueba estadística de una hipótesis acerca de sus valores numéricos específicos o acerca de su interrelación. Como el cálculo de las probabilidades multinomiales es algo laborioso, sería difícil calcular las probabilidades exactas asociadas con los errores tipo I para las hipótesis acerca de p p pk1 2, ,..., . Afortunadamente, el estadístico inglés Karl Pearson, propuso un estadístico de prueba muy útil para probar hipótesis respecto a p p pk1 2, ,..., y estableció su distribución de probabilidad aproximada en un muestreo repetitivo. Este es

Page 76: Escuela Superior de Física y Matemáticas Instituto

76

[ ] [ ]

Xn E nE n

n npnp

i i

ii

ki i

ii

k2

2

1

2

1=

−=

= =∑ ∑( )

( )

en donde: X 2 tendrá aproximadamente una distribución de probabilidad ji-cuadrada en un muestreo repetitivo, para n grande. Necesitamos saber que distribución χ 2 utilizar, - es decir, el número de grados de libertad - al aproximar la distribución de X 2, y debemos saber si hay que utilizar una prueba de una o de dos colas para localizar la región de rechazo. La determinación del número adecuado de grados de libertad para la prueba puede ser difícil. El principio establece que el número apropiado de grados de libertad es igual al número de celdas, k, menos un grado de libertad por cada restricción lineal independiente impuesta sobre los conteos observados de las celdas. Por ejemplo, una restricción lineal siempre está presente porque la suma total de los conteos de las celdas tiene que ser igual a n ; es decir,

n n n nk1 2+ + + =... Se introducirán otras restricciones en algunas aplicaciones debido a la necesidad de estimar parámetros desconocidos que se requieren para calcular las frecuencias esperadas en cada celda o debido al método de recolección de la muestra. Cuando hay que estimar parámetros desconocidos para calcular X 2, debe emplearse un estimador de máxima verosimilitud. Los grados de libertad para la aproximación por una distribución ji-cuadrada se reducirán en uno por cada parámetro que hay que estimar. Se puede utilizar también el estadístico χ 2 para verificar si los datos de una muestra indican que un modelo particular para una distribución de la población no ajusta a los datos. Este hecho es llamado prueba de bondad de ajuste. Ejemplo 14. La teoría mendeliana establece que el número de chícharos de cierto

tipo que caen en las clasificaciones redondos y amarillos, rugosos y amarillos, redondos y verdes, y rugosos y verdes tendría que ser proporcional a 9:3:3:1. Suponga que de 100 chícharos, 56, 19, 17 y 8 cayeron en las respectivas clases. ¿Son estos datos congruentes con el modelo? Utilice α = 0 05. . (La expresión 9:3:3:1 quiere decir que 9/16 de los chícharos serían redondos y amarillos, 3/16 rugosos y amarillos, etc.).

Page 77: Escuela Superior de Física y Matemáticas Instituto

77

Solución Ho : Los datos son congruentes con la teoría mendeliana Ha : Los datos no son congruentes con la teoría mendeliana La hipótesis nula Ho establece que los datos son consistentes con la teoría mendeliana clasificación : 1 2 3 4 pi- mendeliana(pio) : 0.5625 0.1875 0.1875 0.0625 1 pi- observada : 0.5600 0.1900 0.1700 0.0800 1 ni-observados( ni ) : n1 n2 n3 n4 n 56 19 17 8 100 n(pio) 56.25 18.75 18.75 6.25 100 (ni-n(pio))2 0.0625 0.0625 3.0625 3.0625 ((ni-n(pio))2 )/(n(pio)) 0.00111111 0.00333333 0.16333333 0.49 0.65777778 DE DONDE : χ estimada

2 = 0.6578

ASI TAMBIEN : ji-cuadrada( con α =0.05 y 3 grados de libertad ) = 7.8147 Por lo tanto, no podemos rechazar Ho; es decir, los datos no proporcionan evidencia suficiente para rechazar el modelo mendeliano. Supongamos que un genetista ha realizado un experimento de cruzamiento entre dos híbridos F1 y obtiene una progenie F2 de 90 crías, de las cuales 80 son de tipo salvaje y 10 son mutantes. El genetista supone dominancia y espera una proporción de fenotipos 3:1 . Sin embargo, cuando calculamos las proporciones reales, observamos que los datos están en una proporción 8:1. Los valores esperados de p y q son $ . $ .p y q= =0 75 0 25 para el tipo salvaje y mutante respectivamente. Sin embargo, las proporciones observadas de estos dos tipos son p y q= =089 011. . respectivamente. Otra forma más de observar el contraste entre lo observado y lo esperado es exponerlo en frecuencias:

Page 78: Escuela Superior de Física y Matemáticas Instituto

78

Las frecuencias observadas son 80 y 10 para los dos fenotipos. Las frecuencias esperadas serían

$ $ . ( ) .f p n1 0 75 90 67 5= = = y $ $ . ( ) .f q n2 0 25 90 22 5= = =

respectivamente, en donde n se refiere al tamaño muestral de la descendencia del cruzamiento. Nuestra primer pregunta es si la desviación de la hipótesis 3:1 observada en nuestra muestra es de tal magnitud como para resultar improbable. Es decir, ¿difieren los datos observados de los esperados lo suficiente como para hacer que rechacemos la hipótesis nula? Naturalmente, este problema se puede resolver tomando una decisión sobre la hipótesis nula. Ya que se trata de una distribución binomial en la que p es la probabilidad de que sea un tipo salvaje y q es la probabilidad de que sea mutante. Es posible hallar la probabilidad de obtener un resultado de 80 tipo salvaje y 10 mutantes así como todos los casos “peores” para $ . $ .p y q= =0 75 0 25, y una muestra de n=90 descendientes. Sin embargo, vamos a resolver el problema mediante una prueba de bondad de ajuste. La tabla 1 muestra como podemos proceder. Tabla 1.- Desarrollo de la prueba ji-cuadrada para bondad de ajuste. Frecuencias observadas y esperadas del resultado de un cruzamiento genético, suponiendo una proporción 3:1 de fenotipos entre la descendencia.

Fenotipos (1) Frecuencias observadas

f

(2) Frecuencias esperadas

$f

(3) Desviaciones

de lo esperado

f f− $

(4) Cuadrado

de las desviaciones

( )f f− $2

(5)

( )f f

f

− $

$

2

Tipo Salvaje 80 $pn= 67.5 12.5 156.25 2.315 Mutante 10 $q n = 22.5 -12.5 156.25 6.944 Suma 90 90 0 X2 =9.259 ¿Cómo podemos desarrollar un estadístico para probar en qué medida difieren las frecuencias observadas de la columna (1) de las frecuencias esperadas en la columna (2)? La siguiente prueba estadística es fácil de comprender y su estructura tiene un sentido lógico. Primero medimos f f− $ , la desviación de las frecuencias observadas respecto a las esperadas. Observemos que la suma de estas desviaciones es igual a cero, por razones muy similares a las que hacen que

Page 79: Escuela Superior de Física y Matemáticas Instituto

79

la suma de las desviaciones de una media sumen cero. Siguiendo nuestro método previo de elevar al cuadrado todas las desviaciones para hacerlas positivas, elevamos al cuadrado f f− $ en la columna (4) para dar una medida de la magnitud de la desviación de lo que se espera. Esta cantidad debe expresarse como una proporción de la frecuencia esperada. El próximo paso es sumar estos cocientes, dando un valor de 9.259 El estadístico obtenido es “conocido” por muchas personas como ji-cuadrada y debido principalmente porque la suma de la columna (5) tiene una distribución de muestreo muy próxima a una distribución ji-cuadrada con un grado de libertad. No obstante, como el estadístico de muestreo no es un ji-cuadrado, hemos seguido la costumbre, crecientemente en boga, de designar al estadístico de muestreo comoX 2 en lugar de χ 2 . El valor X 2 = 9.259 de la tabla 1, cuando se compara con el valor crítico de χ 2 ( ver tabla 6 de apéndice ), es altamente significativo ( p < 0.005). (La prueba ji-cuadrado es siempre de una cola, como las desviaciones están elevadas al cuadrado, tanto las positivas como las negativas conducen a valores positivos de X 2). Es decir

Ho: :31 Ha: :81

Clasificación Salvajes Mutantes Total pio

: 34

0 75= . 14

0 25= . 1

p obsi : 8090

0 89= . 1090

0 11= . 1

n obsi : 80 10 90 Frecuencia Obs.

npio: 67.5 22.5 90 Frec. esperada

( )n npi io−

2 156.25 156.25

( )n npnp

i i

i

o

o

−2

2.3148 6.9444 9.259=X2

( )χ

0 005 1

2 7 87944. ,

.gl

=

7 87944 9 2590 005

2 2. ..= < ==χα X

Page 80: Escuela Superior de Física y Matemáticas Instituto

80

Por lo tanto, rechazamos la hipótesis nula 3:1 y concluimos que la proporción de tipo salvaje es mayor que 0.75. En consecuencia, el genetista debe buscar un mecanismo que explique esta desviación de lo esperado. La prueba de bondad de ajuste puede aplicarse a una distribución con más de dos clases. Ejemplo 15. En un experimento genético que incluye un cruzamiento entre dos

variedades de la judia phaseolus vulgaris, Smith (1933) obtuvo los siguientes resultados

Fenotipos

(a = 8)

Frecuencias observadas

f

Frecuencias esperadas

$f Púrpura/ante 63 67.8 Púrpura/testáceo 31 22.6 Rojo/ante 28 22.6 Rojo/testáceo 12 7.5 Púrpura 39 45.2 Rojo, sangre de toro 16 15.1 Ante 40 45.2 Testáceo 12 15.1 Total 241 241.1

Sin embargo, de acuerdo a la teoría se esperaba una proporción de 18:6:6:2:12:4:12:4. Realice una prueba de bondad de ajuste para determinar si las frecuencias observadas son compatibles con las proporciones postuladas. Solución.- Debemos calcular

( )X

f f

f

i i

ii

a2

2

1

1=−

=∑

$

$( )K

o equivalentemente

Xff

ni

ii

a2

2

1

2= −=∑ $

( )K

Page 81: Escuela Superior de Física y Matemáticas Instituto

81

Si por el momento suponemos que X2 en este caso también se distribuye aproximadamente como χ2 , necesitamos saber cuantos grados de libertad existen en este ejemplo para poder compararlo con la distribución χ2 apropiada. En general (para esta prueba), cuando tenemos a clases, existen a - 1 grados de libertad Fenotipos (a=8)

Frecuencias observadas

f

Proporción esperada

p totalpp

Frecuencias esperadas

$f

( $ )$

f ff

i i

i

− 2

f ffi

i

i

* ln$

Púrpura/ante 63 18 0.2813 67.78 0.34 -4.6085 púrpura/testáceo 31 6 0.0938 22.59 3.13 9.8057 Rojo/ante 28 6 0.0938 22.59 1.29 6.0069 Rojo/testáceo 12 2 0.0313 7.53 2.65 5.5901 Púrpura 39 12 0.1875 45.19 0.85 -5.7431 Rojo,sangre de toro 16 4 0.0625 15.06 0.06 0.9661 Ante 40 12 0.1875 45.19 0.60 -4.8776 Testáceo 12 4 0.0625 15.06 0.62 -2.7276 Total 241 64 241.00 9.53 4.4120 G = 8.8240 DE DONDE X2 = 9.53 POR OTRO LADO: JI-CUADRADA ( α =0.05 y 7 g.l.) = 14.0671273 y dado que X 2 < ji-cuadrada, concluimos que las frecuencias observadas son compatibles con las proporciones postuladas. Más aun, ( )χ 0 10 7

2 12 017. , . .gl = entonces, para todo α < 010. no podemos rechazar la hipótesis nula. Recientemente se ha introducido una nueva prueba de bondad de ajuste. Se trata de la prueba G, basada en el estadístico de razón de verosimilitudes. Tiene varias ventajas sobre la más antigua ji-cuadrada. Si la proporción observada p es igual a la proporción p postulada según la hipótesis nula, las dos probabilidades serán iguales y su razón, L, será igual a 1.0. Cuando mayor sea la diferencia entre p y p$ , mayor será la razón. Esto indica que la razón de estas dos probabilidades o verosimilitudes puede utilizarse como un estadístico para medir el grado de ajuste entre frecuencias observadas y esperadas. Una prueba basada en esta razón se denomina prueba de razón de verosimilitudes. La distribución teórica de esta razón es en general compleja y escasamente conocida. No obstante, se ha demostrado que la distribución de

G L L= =2 2 10 3ln (ln ) log ( )K

Page 82: Escuela Superior de Física y Matemáticas Instituto

82

puede ser aproximada para la distribución χ2 cuando los tamaños de muestra son grandes. Los grados de libertad apropiados para una determinada prueba son los mismos que para las pruebas ji-cuadrado discutidas anteriormente. En general, G será numéricamente muy similar a X 2. A veces se utiliza para G el símbolo 2I. Algunas fórmulas equivalentes a (3) son las siguientes

G f ffi

i

ai

i

=

=∑2 4

1

* ln$

( )K

G f f f fii

a

i i ii

a

= −

= =∑ ∑2

1 1

* ln * ln $

= −

= =

∑ ∑2 2 30259 51 1

f f f fii

a

i i ii

a

* ln ( . ) * log $ ( )K

G f f f p n nii

n

i i ii

n

= − −

= =

∑ ∑2 61 1

*ln * ln $ * ln ( )K

Ejemplo.

Apliquemos esta prueba de bondad de ajuste a los datos del ejemplo 15. Solución.- De la última columna del cuadrado de la solución del ejemplo 15, tenemos que

G = < =8 8240 14 0670 05 72. .. [ ]χ

Por lo tanto, también con esta prueba, concluimos que las frecuencias observadas son compatibles con las proporciones postuladas.

Page 83: Escuela Superior de Física y Matemáticas Instituto

83

En las pruebas de bondad de ajuste que incluyen solamente dos clases, el valor de G mostrará un sesgo que puede modificarse aplicando una corrección de continuidad, aproximando más estrictamente el valor de G a la distribución χ2 . Esta corrección consiste en sumar o restar 0.5 de las frecuencias observadas, de tal manera que se haga mínimo el valor de G. Simplemente se ajustan las fi transformándolas para reducir la diferencia entre éstas y las frecuencias esperadas correspondientes en un medio. La corrección de continuidad se aplica siempre que n < 200. Cuando n < 25 incluso esta corrección es insuficiente para rectificar el sesgo. En tal caso es conveniente un cálculo exacto de las probabilidades binomiales. La prueba G para probar la bondad del ajuste de una serie de datos a una distribución de frecuencias esperada, puede aplicarse no solamente a la de Poisson sino también a la normal, binomial y otras distribuciones. Para una distribución normal, ordinariamente estimamos dos parámetros de los datos muestreados σµ y . De aquí que los grados de libertad correspondientes sean a - 3. En la binomial solamente debe estimarse un parámetro $p ; los grados de libertad correspondientes son a - 2.

Page 84: Escuela Superior de Física y Matemáticas Instituto

84

TABLAS DE CONTINGENCIA Un problema común en el análisis de datos enumerativos se refiere a la independencia de dos métodos de clasificación de eventos observados. Por ejemplo, podríamos clasificar una muestra de individuos según el sexo y según su opinión con respecto a una cuestión política para probar la hipótesis de que las opiniones con respecto a esta cuestión son independientes del sexo, o podríamos clasificar a los pacientes que padecen cierta enfermedad según el tipo de medicamento y según el porcentaje de recuperación para ver si el porcentaje de recuperación depende del tipo de medicamento. En cada uno de estos ejemplos queremos investigar la dependencia (o contingencia) entre dos criterios de clasificación. Ejemplo Se realizó una encuesta para evaluar la eficacia de una nueva vacuna contra la gripe que había sido aplicada en una pequeña comunidad. La vacuna se proporcionó sin costo alguno en una secuencia de dos inyecciones en un periodo de dos semanas a quienes desearan aprovecharla. Algunas personas recibieron las dos inyecciones, otras se presentaron solamente para la primera inyección y otras ninguna inyección recibieron. Una encuesta de 1000 habitantes locales, en la primavera siguiente, proporcionó la información que se muestra en la tabla siguiente. ¿Presentan los datos suficiente evidencia para indicar una dependencia entre la clasificación según la vacunación y la ocurrencia o no de la gripe?

Ninguna Inyección

Una inyección

Dos Inyecciones

Total

Gripe 24 (14.4) 9 (5.0) 13 (26.6) 46

No gripe 289 (298.6) 100 (104.0) 565 (551.4) 954

Total 313 109 578 1000 Solución.- Analizamos los datos como una tabla de contingencia. Las estimaciones de las frecuencias esperadas de las celdas pueden calcularse al utilizar los totales apropiados de los renglones y de las columnas.

$ ( )Ε nr c

niji j=

Page 85: Escuela Superior de Física y Matemáticas Instituto

85

entonces:

$ ( ) ( ) ( ) .4Ε n r cn11

1 1 46 3131000

14= = =

$ ( ) ( ) ( ) .Ε n r c

n121 2 46 109

10005 0= = =

M

$ ( ) ( ) ( ) .4Ε n r c

n232 3 954 578

1000515= = =

estos valores se muestran entre paréntesis en la tabla anterior. El valor del estadístico de la prueba X2 se calcula enseguida y se compara con el valor crítico de χ2 con (r-1) (c-1) = (1) (2) = 2 grados de libertad. Entonces, para α = 0 05. tenemos:

χ0 052 5 991 2. . . .= con g l

y por otro lado

X22 2 224 14

14289 298 6

298 6565 551

551=

−+

−+ +

−( .4).4

( . ).

... ( .4).4

X2 17 35= .

Como X2

0 05217 35 5 991= > =. ..χ

rechazamos la hipótesis nula de la independencia de las dos clasificaciones. Por otro lado, el valor p asociado se da por

)35.17(Pr 2 >= χp comprobando con las tablas del apéndice obtenemos que p < 0 005. . Así para cualquier valor de α mayor que o igual a 0 005. los datos presentan evidencia suficiente para indicar una dependencia entre la clasificación según la vacunación y la ocurrencia o no de la gripe.

Page 86: Escuela Superior de Física y Matemáticas Instituto

86

La que sigue es una simple regla general para el cálculo de la prueba G de independencia:

[

]

G =

+

∑∑

2 ( * )

( * )

f ln f para las frecuencias de casillas

f ln f para las sumas de fila y columna

n * ln n

Los grados de libertad para pruebas de independencia son siempre los mismos y pueden calcularse utilizando las reglas dadas anteriormente. Hay k casillas en la tabla pero debemos restar un grado de libertad por cada parámetro independiente que hayamos estimado de los datos. Naturalmente debemos restar un grado de libertad para el tamaño de muestreo total observado n. Hemos estimado además r-1 probabilidades de fila y c-1 probabilidades de columna, donde r y c son el número de filas y columnas de la tabla, respectivamente. Así, hay

k-(r-1)-(c-1)-1=k-r+1-c+1-1=k-r-c+1 grados de libertad para la prueba. Pero k = r x c, entonces

k-r-c+1=rc-r-c+1=r(c-1)-(c-1) = (r-1)(c-1) es la expresión convencional para determinar los grados de libertad en una prueba de independencia de doble entrada. Otro nombre para la prueba de independencia es prueba de asociación. Si dos propiedades no son independientes entre si, están asociadas. Asociación es pues similar a correlación, pero es un término más general que se aplica tanto a los atributos como a las variables continuas Ejemplo.-

Apliquemos la prueba G al ejemplo anterior Solución.- Calcularemos las sumas siguientes a) Suma de transformaciones de las frecuencias en el cuerpo de la tabla de

contingencia

f fij ij∑∑ =

= + + + +=

* ln

ln ln ... ln ln.

24 24 289 289 13 13 565 5655807 81

Page 87: Escuela Superior de Física y Matemáticas Instituto

87

b) Suma de transformaciones de los totales de fila 46 ln 46 + 954 ln 954 = 6 721.19 c) Suma de transformaciones de los totales de columna 313 ln 313 + 109 ln 109 + 578 ln 578 = 5 985.75 d) Transformación de la suma total n ln n = 1000 ln 1000 = 6 907.76

Por lo tanto: [ ]G a b c d= − − +2 [ ]G = − − +2 5807 81 672119 5985 75 6907 76. . . . G = 17 2519. Este valor es para compararlo con una distribución χ2 con (r-1) (c-1) grados de libertad. En este caso (2-1) (3-1) = 2 g.l Como χ

( . ) [ ].

0 005 2

2 105965=

G > χ( . ) [ ]0 005 2

2 Por lo tanto, los datos presentan evidencia suficiente para indicar una dependencia entre la clasificación según la vacunación y la ocurrencia o no de la gripe.

Page 88: Escuela Superior de Física y Matemáticas Instituto

88

EJERCICIOS En los siguientes ejercicios, lleve a cabo la prueba al nivel de significación indicado y determine el valor de p. 1.- Se clasificó en forma cruzada una muestra de 250 médicos en base a su

especialidad y a la zona de la comunidad en que estaban trabajando. Los resultados fueron los siguientes:

Especialidad

Zona de la comunidad A B C D Total

Norte 20 18 12 17 67 Sur 6 22 15 13 56 Este 4 6 14 11 35 Oeste 10 19 23 40 92

Total 40 65 64 81 250

¿Proporcionan estos datos la evidencia suficiente que indique una falta de

independencia entre los dos criterios de clasificación? Sea α =.01 2.- Quinientos empleados de una empresa que fabrica cierto producto, que se

suponía estaba asociado con alteraciones respiratorias, se clasificaron en forma cruzada en base a su nivel de exposición al producto y si tenían o no los síntomas de tales alteraciones respiratorias. Los resultados se presentan en la siguiente tabla.

Nivel de exposición Presencia de síntomas Alto Limitado Sin exposición conocida Total Si 185 33 17 235 No 120 73 72 265 Total 305 106 89 500 ¿Proporcionan estos datos la evidencia suficiente que indique, al nivel de

significación de .01, una relación entre el nivel de exposición y la presencia de los síntomas de las alteraciones respiratorias?

Page 89: Escuela Superior de Física y Matemáticas Instituto

89

3.- Quinientos niños de escuela primaria se clasificaron en forma cruzada de acuerdo con el grupo socioeconómico y la presencia o ausencia de cierto defecto en la pronunciación. Los resultados fueron los siguientes.

Grupo socioeconómico Defecto en la Medio Medio pronunciación Superior superior inferior Inferior Total Presente 8 24 32 27 91 Ausente 42 121 138 108 409 Total 50 145 170 135 500 ¿Son compatibles estos datos con la hipótesis de que el defecto en la

pronunciación no está relacionado con el estado socioeconómico? 4.- A un grupo de 350 adultos, quienes participaron en una encuesta de salud,

se les preguntó si llevaban o no una dieta. Las respuestas por sexos fueron las siguientes.

Sexo Masculino Femenino Total A dieta 14 25 39 Sin dieta 159 152 331 Total 173 177 350 ¿Sugieren estos datos que el estar a dieta depende del sexo? Sea α =.05 5.- Una muestra de 500 estudiantes de bachillerato participó en un estudio

diseñado con el fin de evaluar el grado de conocimiento respecto a un cierto grupo de enfermedades comunes de los estudiantes de este nivel. La tabla siguiente indica los estudiantes clasificados de acuerdo a su principal campo de estudio y al nivel de conocimiento del grupo de enfermedades.

Page 90: Escuela Superior de Física y Matemáticas Instituto

90

Conocimiento de las enfermedades Principal campo de estudio Bueno Deficiente Total Orientación premédica 31 91 122

Otras 19 359 378 Total 50 450 500 ¿Sugieren estos datos que existe una relación entre el conocimiento del

grupo de enfermedades y el principal campo de estudio de los estudiantes de bachillerato de los cuales se extrajo la presente muestra?

6.- En un experimento para determinar el modo de herencia de un mutante

verde, se obtuvieron 146 descendientes tipo salvaje y 30 mutantes cuando se cruzaron las moscas de la generación F1. Probar si los datos concuerdan con la hipótesis de que la razón de tipo salvaje a mutantes es 3:1, SOLUCIÓN. G = 6.4624.

7.- En un estudio de polimorfismo de inversiones cromosómicas en la

langosta Morada Scurra, Lewontin y White (1960) dieron los siguientes resultados para la composición de una población en Royalla “B” en 1958.

Cromosoma CD St/St St/B1 B1/B1 Cromosoma EF Td/Td 22 96 75 St/Td 8 56 64 St/St 0 6 6 ¿Son las frecuencias de las tres combinaciones diferentes del cromosoma

EF independientes de las frecuencias de las tres combinaciones del cromosoma CD? SOLUCIÓN. G=7.396.

8.- Comprobar si el porcentaje de ninfas del áfido Myzus persicae que se ha

desarrollado en formas aladas depende del tipo de dieta suministrada. A las hembras apomícticas se les han puesto las dietas un día antes del nacimiento de las ninfas (dato de Mittler y Dadd, 1966).

Tipo de dieta % formas aladas n Dieta sintética 100 216 “Sandwich” cotiledón 92 230 Cotiledón libre 36 75

Page 91: Escuela Superior de Física y Matemáticas Instituto

91

MODELOS DETERMINÍSTICOS Y PROBABILÍSTICOS En este capitulo estudiaremos los procedimientos inferenciales que pueden utilizarse cuando una variable y , denominada variable dependiente, tiene una media que es una función de una o más variables no aleatorias, x x x k1 2, , ... , llamadas variables independientes. (En este contexto los términos “independiente” y “dependiente” se utilizan en su sentido matemático. No existe ninguna relación con el concepto probabilístico de variables aleatorias independientes). Se pueden utilizar muchos tipos diferentes de funciones matemáticas para representar el modelo de una respuesta que sea función de una o más variables independientes. Es posible clasificar estos modelos probabilísticos. Por ejemplo, supongamos que interesa relacionar una respuesta y con una variable x , y que el conocimiento del campo científico establece que y y x están relacionadas según la ecuación

y x= +β β0 1 (en donde β β0 1y son parámetros desconocidos). Este modelo se denomina modelo matemático determinístico porque no permite algún error en la predicción de y como función de x . Es decir, y siempre toma el valor β β0 1 20+ ( ) cuando x = 20 Supongamos que se obtiene una muestra de n valores de y que corresponden a n diferentes valores de la variable independiente x , y que la representación gráfica de los datos es como se indica en la figura 1. Podemos observar que el valor esperado de y puede aumentar como una función lineal de x , pero que un modelo determinístico queda lejos de ser una descripción adecuada de la realidad. Al repetir el experimento para x = 20 , y fluctúa de manera aleatoria. Esto nos indica que el modelo determinístico no es una representación exacta de la relación entre las dos variables. Además, si se utiliza el modelo para predecir y cuando x = 20 , la predicción tendrá un error desconocido. Esto naturalmente, nos conduce a la aplicación de los métodos estadísticos. La predicción de y para un valor dado de x es un proceso inferencial y se requiere conocer las propiedades del error de la predicción si ésta va a ser de utilidad en la realidad. En contraste con los modelos determinísticos, los estadísticos utilizan modelos probabilísticos. Por ejemplo, podríamos representar las respuestas de la figura 1. mediante el modelo

Ε( ) ( )y x= +β β0 1

Page 92: Escuela Superior de Física y Matemáticas Instituto

92

lo que equivale a

Y x= + +β β ε0 1 en donde ε es una variable aleatoria con una distribución de probabilidad específica con media cero. Considérese a y como una variable que tiene un componente determinístico, Ε( )y , más un componente aleatorio ε . Este modelo toma en cuenta el comportamiento aleatorio de y representado en la fig. 1 y representa una descripción más adecuada de la realidad que el modelo determinístico. Además, se pueden obtener las propiedades del error de predicción para y en muchos de los modelos probabilísticos.

Figura 1

Aunque haya un sinfín de funciones diferentes que se pueden utilizar como modelo del valor medio de la variable respuesta y como una función de una o más variables independientes, nos concentraremos en el conjunto de modelos denominados modelos estadísticos lineales. Observe que en: Ε( )y x= +β β0 1 : Ε( )y es una función lineal de x (para β β0 1y dados) y

también es una función lineal de β β0 1y Ε( )y x= +β β0 1

2 : Ε( )y no es una función lineal de x , pero si es una función lineal de β β0 1y (ya que Ε( ) )y c d con c y d x= + = =β β0 1

21 .

Page 93: Escuela Superior de Física y Matemáticas Instituto

93

Cuando se afirma tener una modelo estadístico lineal para y , se denota que Ε( )y es una función lineal de los parámetros desconocidos β β0 1y y no necesariamente una función lineal de x . Por lo tanto y x= + +β β ε0 1 (ln ) es un modelo lineal (suponiendo que ln x es una constante conocida). Si el modelo expresa a Ε( )y como una función lineal de β β0 1y solamente, el modelo se denomina modelo de regresión lineal simple. Si hay más de una variable independiente de interés, digamos x x xk1 2, ,..., , y si el modelo de Ε( )y es

Ε( ) ...y x xk k= + + +β β β0 1 1 el modelo se conoce como modelo lineal de regresión múltiple. Ya que se consideran x x xk1 2, ,..., como constantes conocidas, supuestamente son medidas sin error en un experimento.

Page 94: Escuela Superior de Física y Matemáticas Instituto

94

REGRESIÓN Y CORRELACIÓN Al analizar información con frecuencia resulta conveniente saber algo acerca de la relación que existe entre dos o más variables involucradas. Por ejemplo, interesará estudiar la relación que existe entre la presión sanguínea y la edad, la estatura y el peso, la concentración de un medicamento inyectado a la frecuencia cardiaca, el nivel de consumo de algún nutriente y la ganancia de peso, la intensidad de un estímulo y el tiempo de reacción. La naturaleza e intensidad de las relaciones entre variables como éstas pueden estudiarse por medio del análisis de regresión y correlación, dos técnicas estadísticas que, aunque relacionadas, tienen finalidades distintas. El análisis de regresión es útil para averiguar la forma probable de la relación entre las variables y cuando se utiliza este método de análisis, el objetivo final es por lo general predecir o estimar el valor de una variable que corresponde a un valor determinado de otra variable. Por otra parte, el análisis de correlación se refiere a la medición de la intensidad de la relación entre las variables. Por el momento nos limitaremos a dos variables, por lo tanto, la regresión y correlación son llamadas simples. Con la regresión podemos expresar funcionalmente, mediante una ecuación, la relación entre las variables y podemos, por ejemplo, estimar en promedio el rendimiento en función del coeficiente intelectual; la dilatación de un cuerpo en función de la temperatura, etc. Este procedimiento se llama estimación por asociación. Convencionalmente, la variable base de la predicción (variable de entrada) se llama variable independiente y la variable que se va a predecir (variable de salida) es la variable dependiente. REGRESIÓN LINEAL SIMPLE El objetivo principal del análisis de regresión lineal es establecer una relación funcional entre dos variables relacionadas, tomando datos muestrales (aleatorios), que constituyan buenos estimadores de la correspondiente relación poblacional. Una vez que se ha establecido cuantitativamente esta relación (mediante la correspondiente ecuación), es posible predecir o estimar el valor de una de las variables (la dependiente) en función de la otra (la independiente), Una vez recolectada la información (serie bidimensional), que son pares de datos bivariados, éstos se llevan a un sistema de ejes coordenados; la variable independiente X se escribe en el eje de las abscisas, y la variable dependiente Y en el eje de las ordenadas. Al conjunto de puntos (X , Y) que aparecen en la gráfica se le llama diagrama de dispersión. De acuerdo con la forma que tome dicho diagrama, así será la función (ecuación) que se utilizará, de tal forma que

Page 95: Escuela Superior de Física y Matemáticas Instituto

95

describa adecuadamente la relación entre las variables. A continuación mostramos las formas generales de diversas relaciones, denominadas funciones o ecuaciones de predicción: Ec. de la línea recta y a bx= + Ec. de 2 o grado o cuadrática y a bx cx= + + 2 Ec. exponencial y abx= Ec. potencial y axb= Un procedimiento para estimar los parámetros de cualquier modelo lineal es el método de los mínimos cuadrados, que ilustraremos aplicándolo para ajustar una línea recta a un conjunto de puntos. Supongamos que se desea ajustar el modelo

Ε( )y x= +β β0 1 al conjunto de puntos mostrados en la fig. sig. (Debemos notar que la variable independiente x podría ser ω ω2 1

2, o lnω , etc, para alguna otra variable independiente ω ). Es decir, postulamos que y x= + +β β ε0 1 , en donde ε tiene

una distribución de probabilidad con Ε( )ε = 0 . Si $ $β β0 1y son estimadores de

los parámetros β β0 1y , entonces $ $ $y x= +β β0 1 es un estimador de Ε( )y . El procedimiento de los mínimos cuadrados para ajustar una recta a través de un conjunto de n puntos es similar al método que podríamos utilizar para ajustar una recta a simple vista; es decir, se pretende que las desviaciones sean “pequeñas” en cierto sentido. Una manera conveniente para lograr esto, y que nos aporta estimadores con propiedades adecuadas, es minimizar la suma de los cuadrados de las desviaciones verticales de la recta ajustada. Por lo tanto si

$ $ $y xi i= +β β0 1 es el valor estimado del i-ésimo valor de y (cuando x xi= ), entonces la desviación del valor observado de y a partir de la recta $y (llamada a veces el error) es

y yi i− $ y la suma de los cuadrados que debe minimizarse es

SCE y y y xi ii

n

i

n

i i= − = − −==∑∑ ( $ ) ( $ $ )2

110 1

2β β

SCE es también llamada suma de los cuadrados de los errores.

Page 96: Escuela Superior de Física y Matemáticas Instituto

96

Ajuste de una línea recta a través de un conjunto de puntos. Para satisfacer la condición de minimizar las desviaciones de los valores reales de yi con respecto a la línea teórica, basta con derivar con respecto a $β 0 y con

respecto a $β1 e igualar a cero las derivadas; las ecuaciones que resulten, al resolverlas, definirán los valores de $ $β β0 1y que minimizarán dichas desviaciones.

∂ ββ β

SCE y xii

n

i$( $ $ ) ( )

0 10 12 1= − − −

=∑

= − − −

=

= =∑ ∑2 0

10 1

1

y n xii

n

ii

n$ $β β

⇒ − − == =∑ ∑y n xii

n

ii

n

10 1

1

0$ $β β

⇒ − − =n y n n x$ $β β0 1 0

⇒ = −$ $ ... ( )β β0 1 1y x

xi x

Page 97: Escuela Superior de Física y Matemáticas Instituto

97

∂ ββ β

SCE y x xii

n

i i$( $ $ ) ( )

1 10 12 0= − − − =

=∑

⇒ − − == = =∑ ∑ ∑x y x xi ii

n

ii

n

ii

n

10

11

2

1

0$ $β β

⇒ − − − == = =∑ ∑ ∑x y y x x xi ii

n

ii

n

ii

n

11

11

2

1

0( $ ) $β β

x y y x x x xi ii

n

ii

n

ii

n

ii

n

= = = =∑ ∑ ∑ ∑− + − =

1 11

11

2

1

0$ $β β

x y nyx nx xi ii

n

ii

n

= =∑ ∑− + −

=

11

2 2

1

0$β

⇒ =−

−=

−=

=

=∑

∑∑

$β11

2 2

1

12 2

nyx x y

nx x

x y n y x

x nx

i ii

n

ii

n

i ii

n

i

( )⇒ =

−= ==∑ ∑∑

∑ ∑$ ... ( )β1

1 112 2 2

n x y x y

n x x

i ii

n

i ii

n

i

n

i i

Las ecuaciones (1) y (2) minimizan SCE y son conocidos como coeficientes de regresión.

Page 98: Escuela Superior de Física y Matemáticas Instituto

98

Ejemplo.- A continuación se dan los índices correspondientes a la producción de arroz (base: 1980 =100) Año Índice 1982 103.5 1983 127.7 1984 149.9 1985 155.3 1986 121.1 a) Calcule la ecuación de la tendencia que siguieron los índices de

producción de arroz, con origen en 1984 (Ajuste una función lineal). b) Estime la producción de arroz para 1987, si en 1980 fue de 20 toneladas. Sugerencia. Con la ecuación encontrada, estime el índice para 1987;

luego multiplique el índice encontrado por las 20 ton. y divida entre 100. Solución: x y Producción

Estimada xy x2

año Índice

de arroz

1980 100.00 20.00 1981 -3 112.66 22.53 1982 -2 103.50 20.70 -207 4 1983 -1 127.70 25.54 -127.7 1 1984 0 149.90 29.98 0 0 1985 1 155.30 31.06 155.3 1 1986 2 121.10 24.22 242.2 4 1987 3 150.34 30.07 SUMA = 0 657.5 62.8 10 PROMEDIO= 0 131.5 n = 5 B0 = 131.5 B1 = 6.28 Y = B0 + ( B1 ) X Por lo tanto: a) y x= +131 5 6 28. . b) La producción estimada de arroz para 1987 es de 30.07 toneladas

Page 99: Escuela Superior de Física y Matemáticas Instituto

99

COEFICIENTE DE CORRELACIÓN La correlación mide la intensidad o fuerza con que están relacionadas las variables, y será medida por el coeficiente r de correlación. Según el número de variables estudiadas, la correlación puede ser: • Simple: cuando se estudia el grado de asociación o dependencia entre dos

variables. • Múltiple: Cuando se estudia el grado de asociación que puede existir entre

tres o más variables; una de ellas dependiente y el resto independiente.

• Parcial: En el caso de correlación múltiple, es la cuantificación del grado de

asociación neta entre dos variables, una vez eliminada estadísticamente la influencia de las otras variables independientes.

Respecto a la naturaleza de la función y según el tipo de ecuación de regresión, la correlación puede ser rectilínea, parabólica, exponencial, potencial, etc. Respecto a la relación de las variables: • Correlación directa o positiva: Cuando al aumentar (disminuir) el valor de la

variable independiente, aumenta (disminuye) también el valor de la variable dependiente.

• Correlación inversa o negativa: Cuando al aumentar (disminuye) el valor

de la variable independiente, disminuye (aumenta) el valor de la variable dependiente.

Por el momento estudiaremos la correlación simple, positiva y negativa. El coeficiente r de correlación toma valores entre 0 y 1 para la positiva, y para la inversa o negativa entre 0 y -1. Si r = 1 o r = -1 existe correlación perfecta entre las variables, en forma positiva o negativa respectivamente. Si r = 0 , no existe ninguna relación entre las variables.

Page 100: Escuela Superior de Física y Matemáticas Instituto

100

Existe intima relación entre regresión y correlación, ya que entre mayor sea el valor del coeficiente de correlación r, mayor será la utilidad de la ecuación de regresión para hacer estimaciones de la variable dependiente Y en función de la variable independiente X; y viceversa, entre menor sea el valor de r (en valor absoluto), menos útil será la ecuación de regresión para efectos de estimaciones de la variable dependiente. Por lo tanto, podríamos recomendar que antes de calcular la ecuación de regresión entre dos variables se calcule primero el coeficiente de correlación entre éstas, y si el valor de r es del orden de 0.70 o más, recomendamos el cálculo de la ecuación. Sea ( , ) , ( , ) ,..., ( , )x y x y x xn n1 1 2 2 una muestra aleatoria de una distribución normal bivariable. El coeficiente de correlación muestral está dado por:

rx x y y

x x y y

i ii

n

i ii

n

i

n=

− −

− −

=

==

∑∑

( ) ( )

( ) ( )

1

11

2 2

o, equivalentemente

rn x y x y

n x x n y y

i i ii

n

ii

n

i

n

i ii

n

i

n

i ii

n

i

n=

= ==

== ==

∑ ∑∑

∑∑ ∑∑

1 11

2

1

2

1

2

1

2

1

Parece lógico utilizar r como un estadístico de prueba para probar la hipótesis acerca de ρ (coeficiente de correlación poblacional), pero se presentan dificultades ya que es difícil obtener la distribución de probabilidad para r . Sin embargo se puede superar esta dificultad en muestras bastante grandes al utilizar el hecho de que ( ) ln [( ) / ( )]1

2 1 1+ −r r tiene aproximadamente una distribución normal con media ( ) ln [( ) / ( )]1

2 1 1+ −ρ ρ y varianza 1/(n - 3). Por lo tanto, para probar la hipótesis Ho o: ρ ρ= , podemos utilizar una prueba Z en la cual

Z

rr

n

o

o=

+−

+−

( ) ln ( ) ln12

12

11

11

13

ρρ

La forma de la región de rechazo depende de la hipótesis alternativa, si α es la probabilidad deseada de un error tipo I. Las diferentes alternativas de mayor interés y las regiones de rechazo correspondientes son:

Page 101: Escuela Superior de Física y Matemáticas Instituto

101

HHH

a o

a o

a o

:::

ρ ρρ ρρ ρ

>

<

RR Z ZRR Z ZRR Z Z

:::

>

< −

>

α

α

α2

Ejemplo: 1.- Los experimentos diseñados para medir valores de CL50 en la

investigación de los efectos de cierto producto tóxico en peces se efectúan con dos métodos diferentes. En un método el agua fluye continuamente a través de los tanques del laboratorio dinámico y el otro método tiene condiciones de agua en reposo. A fin de establecer los criterios para sustancias tóxicas, la Agencia para la Protección Ambiental (APA) pretende ajustar todos los resultados a la condición dinámica. Por lo que se requiere de un modelo para relacionar los dos tipos de observaciones. Las observaciones acerca de ciertos productos tóxicos en ambas condiciones, estática y dinámica, dieron los siguientes resultados (las mediciones están dadas en partes por millón).

Producto tóxico CL50 dinámico y

CL50 estático x

1

23.00

39.00

2 22.30 37.50 3 9.40 22.20 4 9.70 17.50 5 0.15 0.64 6 0.28 0.45 7 0.75 2.62 8 0.51 2.36 9 28.00 32.00 10 0.39 0.77

Ajuste el modelo y xo= + +β β ε1 . ¿Qué interpretación puede dar a los

resultados? Estime el valor dinámico para un producto tóxico con un valor estático de CL50 de x = 12 partes por millón.

Page 102: Escuela Superior de Física y Matemáticas Instituto

102

Solución: Producto tóxico CL50 estático

x CL50 dinámico

y

xy x2

y2

1 39.00 23.00 897.00 1,521.00 529.00 2 37.50 22.30 836.25 1,406.25 497.29 3 22.20 9.40 208.68 492.84 88.36 4 17.50 9.70 169.75 306.25 94.09 5 0.64 0.15 0.10 0.41 0.02 6 0.45 0.28 0.13 0.20 0.08 7 2.62 0.75 1.97 6.86 0.56 8 2.36 0.51 1.20 5.57 0.26 9 32.00 28.00 896.00 1,024.00 784.00 10 0.77 0.39 0.30 0.59 0.15 12.00 7.15 SUMA = 155.04 94.48 3,011.37 4,763.98 1,993.82 PROMEDIO = 15.50 9.45 n = 10 B0 = -0.7110 B1 = 0.6553 POR LO TANTO : Y = - 0.7110 + 0.6553X Y EL VALOR DINÁMICO ESTIMADO PARA UN PRODUCTO TÓXICO CON UN VALOR ESTÁTICO DE CL50 DE x = 12 PARTES POR MILLÓN ES DE 7.15 PARTES POR MILLÓN COEFICIENTE DE CORRELACIÓN = 0.9593 α = 0.05 Z0 05. = 1.644853

H0 : ρ = 0.7 Ha : ρ > 0.7 Z = 2.8307 como Z Z> 0 05. , se rechaza Ho y además se acepta Ha

es decir, si existe bastante correlación entre el método estático y el dinámico

Page 103: Escuela Superior de Física y Matemáticas Instituto

103

EJERCICIOS 1. La siguiente información corresponde a la temperatura (°F)* y a la

dilatación de un determinado material:

Temperatura 87 50 75 90 55 54 68 85 82 80 45 58 66 Dilatación 5.0 2.2 4.1 5.4 2.8 3.0 3.6 4.9 4.1 4.2 2.0 2.7 3.1 * Un grado Fahrenheit = 0.556 centígrados. Para convertir °F a °C, reste

32 y multiplique por 5/9. a) Determine la ecuación de regresión; utilice como variable dependiente la

que usted estime conveniente. b) Calcule el coeficiente de correlación. 2. En la siguiente información, X corresponde al número de litros de bebidas

alcohólicas consumidas por cada 100 personas, y la variable Y corresponde al número de accidentes automovilísticos por cada 100 personas que ingieren bebidas alcohólicas:

X 2 3 4 5 6 7 8 9 10 Y 8 10 12 18 20 22 25 28 30

a) Calcule la ecuación de regresión de Y sobre X. b) Calcule el coeficiente de correlación. 3. Se realizó una investigación sobre los gastos en educación en familias con

tres hijos, cuyos ingresos familiares oscilan entre $6 000 y $12 000. Con la información estadística se calculó la ecuación de regresión y el coeficiente de correlación:

Y X rc = − + =125 0 85 0 82. ; . El valor de r = 0.82 indica que puede haber bastante relación entre las

variables gastos en educación e ingresos.

a) Utilice la ecuación de regresión para estimar los gastos en educación de familias con ingresos de $10 000.

b) Determine si la ecuación de regresión establecida puede servir para estimar

los gastos en educación de familias con ingresos de $4 000. Justifique su respuesta.

Page 104: Escuela Superior de Física y Matemáticas Instituto

104

c) Determine si la ecuación de regresión calculada puede ser útil para estimar los gastos en educación de familias con dos hijos. Justifique su respuesta.

4. Se sabe que las producciones de bálsamo de un país, expresadas en

miles de tonelada, fueron:

Año 69 70 71 72 73 74 75 76 77 Producción 8 10 12 15 15 18 19 23 30

a) Calcule la ecuación de la tendencia que siguió la producción de bálsamo, con origen en el año 1973

b) Calcule la ecuación de la tendencia, con origen en el inicio del periodo

(1969).

c) Estime la producción de bálsamo para 1980 con las dos ecuaciones calculadas en a) y b).

5. A continuación se suministran los datos sobre índices de comercio exterior de un país (base: 1970 = 100):

Año C70 V70 1976 95 105 1977 105 115 1978 115 120 1979 120 145 1980 130 160

Como puede observarse, a ambos tipos de índices se les puede ajustar

una función lineal.

a) Estimar la capacidad de importación para 1983, sabiendo que C70 = 1 200 kg.

b) Estimar el índice de valores unitarios de las importaciones para 1983, con

base en 1970. Sugerencias - Calcule las ecuaciones con origen en 1978.

Page 105: Escuela Superior de Física y Matemáticas Instituto

105

- Para calcular el índice de valores unitarios de las importaciones divida el índice de las exportaciones V70 entre el índice de capacidad para importar C70 multiplicado por 100, para dicho año.

6. Los siguientes son datos sobre índices de comercio exterior salvadoreño,

con base en 1970.

Año C70 V70 1978 90 110 1979 110 120 1980 120 130 1981 130 140 1982 150 160

a) Calcule la ecuación de la tendencia para ambas series; tome como origen

1980. b) Estime el índice de valores unitarios de las importaciones para 1984. Sugerencias. Con las ecuaciones encontradas, calcule tanto el índice de la

capacidad para importar, C70, como el índice de las exportaciones, V70; luego, para calcular el índice de valores unitarios de las importaciones, divida V70 entre C70, y multiplique este resultado por 100.

Page 106: Escuela Superior de Física y Matemáticas Instituto

106

SOLUCION AL PROBLEMA 5 ANTERIOR C70 Capacidad V70 Índice de de

importación valores uni-

(Kg) tarios de las x y y' importaciones xy x2 XY’ 1970 -7 100 1200 -700 49 0 1971 -6 0 36 0 1972 -5 0 25 0 1973 -4 0 16 0 1974 -3 0 9 0 1976 -2 95 105 110.526 -190 4 -210 1977 -1 105 115 109.524 -105 1 -115 1978 0 115 120 104.348 0 0 0 1979 1 120 145 120.833 120 1 145 1980 2 130 160 123.077 260 4 320 1981 3 0 9 0 1982 4 0 16 0 1983 5 155.5 1866 199 127.974 777.5 25 995 suma 0 565 645 568.308 85 10 140 promedio 0 113 129 113.662 17 2 28 n=5 5 primera ecuación BO 113.000 y=113 + 8.5 x B1 8.500 segunda ecuación BO 129.000 y' = 129 + 14 x' B1 14.000 a) Por lo tanto, la capacidad de importación para 1983 es de 1866 Kg b) El índice de valores unitarios de las importaciones para 1983, con base 1970 es de 127.974

Page 107: Escuela Superior de Física y Matemáticas Instituto

107

APÉNDICE

Page 108: Escuela Superior de Física y Matemáticas Instituto

108

Tabla 1 Probabilidades Binomiales

Los valores tabulados son P Y a p yy

a

( ) ( )≤ ==

∑0

(los cálculos se redondean a tres

cifras decimales.) (a) n = 5

P

0 .951 .774 .590 .328 .168 .078 .031 .010 .002 .000 .000 .000 .000 01 .999 .977 .919 .737 .528 .337 .188 .087 .031 .007 .000 .000 .000 12 1.000 .999 .991 .942 .837 .683 .500 .317 .163 .058 .009 .001 .000 23 1.000 1.000 1.000 .993 .969 .913 .812 .663 .472 .263 .081 .023 .001 34 1.000 1.000 1.000 1.000 .998 .990 .969 .922 .832 .672 .410 .226 .049 4

α 0.01 0.05 0.10 0.20 0.30 0.40 0.5 0.60 0.70 0.80 0.90 0.95 0.99 α (b) n=10

P

α 0.01 0.05 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 0.95 0.99 α

0 .904 .599 .349 .107 .028 .006 .001 .000 .000 .000 .000 .000 .000 01 .996 .914 .736 .376 .149 .046 .011 .002 .000 .000 .000 .000 .000 12 1.000 .988 .930 .678 .383 .167 .055 .012 .002 .000 .000 .000 .000 23 1.000 .999 .987 .879 .650 .382 .172 .055 .011 .001 .000 .000 .000 34 1.000 1.000 .998 .967 .850 .633 .377 .166 .047 .006 .000 .000 .000 45 1.000 1.000 1.000 .994 .953 .834 .623 .367 .150 .033 .002 .000 .000 56 1.000 1.000 1.000 .999 .989 .945 .828 .618 .350 .121 .013 .001 .000 67 1.000 1.000 1.000 1.000 .998 .988 .945 .833 .617 .322 .070 .012 .000 78 1.000 1.000 1.000 1.000 1.000 .998 .989 .954 .851 .624 .264 .086 .004 89 1.000 1.000 1.000 1.000 1.000 1.000 .999 .994 .972 .893 .651 .401 .096 9

Page 109: Escuela Superior de Física y Matemáticas Instituto

109

Tabla 1 (continuación) (c) n = 15

P

α 0.01 0.05 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 0.95 0.99 α

0 .860 .463 .206 .035 .005 .000 .000 .000 .000 .000 .000 .000 .000 01 .990 .829 .549 .167 .035 .005 .000 .000 .000 .000 .000 .000 .000 12 1.000 .964 .816 .398 .127 .027 .004 .000 .000 .000 .000 .000 .000 23 1.000 .995 .944 .648 .297 .091 .018 .002 .000 .000 .000 .000 .000 34 1.000 .999 .987 .836 .515 .217 .059 .009 .001 .000 .000 .000 .000 45 1.000 1.000 .998 .939 .722 .403 .151 .034 .004 .000 .000 .000 .000 56 1.000 1.000 1.000 .982 .869 .610 .304 .095 .015 .001 .000 .000 .000 67 1.000 1.000 1.000 .996 .950 .787 .500 .213 .050 .004 .000 .000 .000 78 1.000 1.000 1.000 .999 .985 .905 .696 .390 .131 .018 .000 .000 .000 89 1.000 1.000 1.000 1.000 .996 .966 .849 .597 .278 .061 .002 .000 .000 9

10 1.000 1.000 1.000 1.000 .999 .991 .941 .783 .485 .164 .013 .001 .000 1011 1.000 1.000 1.000 1.000 1.000 .998 .982 .909 .703 .352 .056 .005 .000 1112 1.000 1.000 1.000 1.000 1.000 1.000 .996 .973 .873 .602 .184 .036 .000 1213 1.000 1.000 1.000 1.000 1.000 1.000 1.000 .995 .965 .833 .451 .171 .010 1314 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 .995 .965 .794 .537 .140 14

Page 110: Escuela Superior de Física y Matemáticas Instituto

110

Tabla 1 (Continuación) (d) n = 20

P

α 0.01 0.05 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 0.95 0.99 α

0 .818 .358 .122 .012 .001 .000 .000 .000 .000 .000 .000 .000 .000 01 .983 .736 .392 .069 .008 .001 .000 .000 .000 .000 .000 .000 .000 12 .999 .925 .677 .206 .035 .004 .000 .000 .000 .000 .000 .000 .000 23 1.000 .984 .867 .411 .107 .016 .001 .000 .000 .000 .000 .000 .000 34 1.000 .997 .957 .630 .238 .051 .006 .000 .000 .000 .000 .000 .000 45 1.000 1.000 .989 .804 .416 .126 .021 .002 .000 .000 .000 .000 .000 56 1.000 1.000 .998 .913 .608 .250 .058 .006 .000 .000 .000 .000 .000 67 1.000 1.000 1.000 .968 .772 .416 .132 .021 .001 .000 .000 .000 .000 78 1.000 1.000 1.000 .990 .887 .596 .252 .057 .005 .000 .000 .000 .000 89 1.000 1.000 1.000 .997 .952 .755 .412 .128 .017 .001 .000 .000 .000 9

10 1.000 1.000 1.000 .999 .983 .872 .588 .254 .048 .003 .000 .000 .000 1011 1.000 1.000 1.000 1.000 .995 .943 .748 .404 .113 .010 .000 .000 .000 1112 1.000 1.000 1.000 1.000 .999 .979 .868 .584 .228 .032 .000 .000 .000 1213 1.000 1.000 1.000 1.000 1.000 .994 .942 .750 .392 .087 .002 .000 .000 1314 1.000 1.000 1.000 1.000 1.000 .998 .979 .874 .584 .196 .011 .000 .000 1415 1.000 1.000 1.000 1.000 1.000 1.000 .994 .949 .762 .370 .043 .003 .000 1516 1.000 1.000 1.000 1.000 1.000 1.000 .999 .984 .893 .589 .133 .016 .000 1617 1.000 1.000 1.000 1.000 1.000 1.000 1.000 .996 .965 .794 .323 .075 .001 1718 1.000 1.000 1.000 1.000 1.000 1.000 1.000 .999 .992 .931 .608 .264 .017 1819 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 .999 .988 .878 .642 .182 19

Page 111: Escuela Superior de Física y Matemáticas Instituto

111

Tabla 1 (Continuación) (e) n=25

P α 0.01 0.05 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 0.95 0.99 α

0 .778 .277 .072 .004 .000 .000 .000 .000 .000 .000 .000 0 0 01 .974 .642 .271 .027 .002 .000 .000 .000 .000 .000 .000 0 0 12 .998 .873 .537 .098 .009 .000 .000 .000 .000 .000 .000 0 0 23 1.000 .966 .764 .234 .033 .002 .000 .000 .000 .000 .000 .000 .000 34 1.000 .993 .902 .421 .090 .009 .000 .000 .000 .000 .000 .000 .000 45 1.000 .999 .967 .617 .193 .029 .002 .000 .000 .000 .000 .000 .000 56 1.000 1.000 .991 .780 .341 .074 .007 .000 .000 .000 .000 .000 .000 67 1.000 1.000 .998 .891 .512 .154 .022 .001 .000 .000 .000 .000 .000 78 1.000 1.000 1.000 .953 .677 .274 .054 .004 .000 .000 .000 .000 .000 89 1.000 1.000 1.000 .983 .811 .425 .115 .013 .000 .000 .000 .000 .000 9

10 1.000 1.000 1.000 .994 .902 .586 .212 .034 .002 .000 .000 .000 .000 1011 1.000 1.000 1.000 .998 .956 .732 .345 .078 .006 .000 .000 .000 .000 1112 1.000 1.000 1.000 1.000 .983 .846 .500 .154 .017 .000 .000 .000 .000 1213 1.000 1.000 1.000 1.000 .994 .922 .655 .268 .044 .002 .000 .000 .000 1314 1.000 1.000 1.000 1.000 .998 .966 .788 .414 .098 .006 .000 .000 .000 1415 1.000 1.000 1.000 1.000 1.000 .987 .885 .575 .189 .017 .000 .000 .000 1516 1.000 1.000 1.000 1.000 1.000 .996 .946 .726 .323 .047 .000 .000 .000 1617 1.000 1.000 1.000 1.000 1.000 .999 .978 .846 .488 .109 .002 .000 .000 1718 1.000 1.000 1.000 1.000 1.000 1.000 .993 .926 .659 .220 .009 .000 .000 1819 1.000 1.000 1.000 1.000 1.000 1.000 .998 .971 .807 .383 .033 .001 .000 1920 1.000 1.000 1.000 1.000 1.000 1.000 1.000 .991 .910 .579 .098 .007 .000 2021 1.000 1.000 1.000 1.000 1.000 1.000 1.000 .998 .967 .766 .236 .034 .000 2122 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 .991 .902 .463 .127 .002 2223 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 .998 .973 .729 .358 .026 2324 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 .996 .928 .723 .222 24

Page 112: Escuela Superior de Física y Matemáticas Instituto

112

TABLA 2 Tabla de xe− x

e x− x e x− x e x− x e x−

0.00 1.000000 2.60 .074274 5.10 .006097 7.60 .000501 0.10 .904837 2.70 .067206 5.20 .005517 7.70 .000453 0.20 .818731 2.80 .060810 5.30 .004992 7.80 .000410 0.30 .740818 2.90 .055023 5.40 .004517 7.90 .000371 0.40 .670320 3.00 .049787 5.50 .004087 8.00 .000336 0.50 .606531 3.10 .045049 5.60 .003698 8.10 .000304 0.60 .548812 3.20 .040762 5.70 .003346 8.20 .000275 0.70 .496585 3.30 .036883 5.80 .003028 8.30 .000249 0.80 .449329 3.40 .033373 5.90 .002739 8.40 .000225 0.90 .406570 3.50 .030197 6.00 .002479 8.50 .000204 1.00 .367879 3.60 .027324 6.10 .002243 8.60 .000184 1.10 .332871 3.70 .024724 6.20 .002029 8.70 .000167 1.20 .301194 3.80 .022371 6.30 .001836 8.80 .000151 1.30 .272532 3.90 .020242 6.40 .001661 8.90 .000136 1.40 .246597 4.00 .018316 6.50 .001503 9.00 .000123 1.50 .223130 4.10 .016573 6.60 .001360 9.10 .000112 1.60 .201897 4.20 .014996 6.70 .001231 9.20 .000101 1.70 .182684 4.30 .013569 6.80 .001114 9.30 .000091 1.80 .165299 4.40 .012277 6.90 .001008 9.40 .000083 1.90 .149569 4.50 .011109 7.00 .000912 9.50 .000075 2.00 .135335 4.60 .010052 7.10 .000825 9.60 .000068 2.10 .122456 4.70 .009095 7.20 .000747 9.70 .000061 2.20 .110803 4.80 .008230 7.30 .000676 9.80 .000056 2.30 .100259 4.90 .007447 7.40 .000611 9.90 .000050 2.40 .090718 5.00 .006738 7.50 .000553 10.00 .000045 2.50 .082085

Page 113: Escuela Superior de Física y Matemáticas Instituto

113

Tabla 3. Probabilidades de Poisson

P Y a ey

y

y

a

( ) !≤ = −

=∑ λ λ

0

a

λ 0

1

2

3

4

5

6

7

8

9

0.02 0.980 1.000 0.04 0.961 0.999 1.000 0.06 0.942 0.998 1.000 0.08 0.923 0.997 1.000 0.10 0.905 0.995 1.000 0.15 0.861 0.990 0.999 1.000 0.20 0.819 0.982 0.999 1.000 0.25 0.779 0.974 0.998 1.000 0.30 0.741 0.963 0.996 1.000 0.35 0.705 0.951 0.994 1.000 0.40 0.670 0.938 0.992 0.999 1.000 0.45 0.638 0.925 0.989 0.999 1.000 0.50 0.607 0.910 0.986 0.998 1.000 0.55 0.577 0.894 0.982 0.998 1.000 0.60 0.549 0.878 0.977 0.997 1.000 0.65 0.522 0.861 0.972 0.996 0.999 1.000 0.70 0.497 0.844 0.966 0.994 0.999 1.000 0.75 0.472 0.827 0.959 0.993 0.999 1.000 0.80 0.449 0.809 0.953 0.991 0.999 1.000 0.85 0.427 0.791 0.945 0.989 0.998 1.000 0.90 0.407 0.772 0.937 0.987 0.998 1.000 0.95 0.387 0.754 0.929 0.981 0.997 1.000 1.00 0.368 0.736 0.920 0.981 0.996 0.999 1.000 1.1 0.333 0.699 0.900 0.974 0.995 0.999 1.000 1.2 0.301 0.663 0.879 0.966 0.992 0.998 1.000 1.3 0.273 0.627 0.857 0.957 0.989 0.998 1.000 1.4 0.247 0.592 0.833 0.946 0.986 0.997 0.999 1.000 1.5 0.223 0.558 0.809 0.934 0.981 0.996 0.999 1.000 1.6 0.202 0.525 0.783 0.921 0.976 0.994 0.999 1.000 1.7 0.183 0.493 0.757 0.907 0.970 0.992 0.998 1.000 1.8 0.165 0.463 0.731 0.891 0.964 0.990 0.997 0.999 1.000 1.9 0.150 0.434 0.704 0.875 0.956 0.987 0.997 0.999 1.000 2.0 0.135 0.406 0.677 0.857 0.947 0.983 0.995 0.999 1.000 Reimpresión con permiso de E.C. molina, Poisson’s Exponential Binomial Limit, D. Van Nostrand Company, Inc., Princetoon, H. J., 1947

Page 114: Escuela Superior de Física y Matemáticas Instituto

114

Tabla 3. (Continuación)

a λ

0

1

2

3

4

5

6

7

8

9

2.2 0.111 0.355 0623 0.819 0.928 0.975 0.993 0.998 1.000 2.4 0.091 0.308 0.570 0.779 0.904 0.964 0.988 0.997 0.999 1.000 2.6 0.074 0.267 0.518 0.736 0.877 0.951 0.983 0.995 0.999 1.000 2.8 0.061 0.231 0.469 0.692 0.848 0.935 0.976 0.992 0.998 0.999 3.0 0.050 0.199 0.423 0.647 0.815 0.916 0.966 0.988 0.996 0.999 3.2 0.041 1.171 0.380 0.603 0.781 0.895 0.955 0.983 0.994 0.998 3.4 0.033 0.147 0.340 0.558 0.744 0.871 0.942 0.977 0.992 0.997 3.6 0.027 0.126 0.303 0.515 0.706 0.844 0.927 0.969 0.988 0.996 3.8 0.022 0.107 0.269 0.473 0.668 0.816 0.909 0.960 0.984 0.994 4.0 0.018 0.092 0.238 0.433 0.629 0.785 0.889 0.949 0.979 0.992 4.2 0.015 0.078 0.210 0.395 0.590 0.753 0.867 0.936 0.972 0.989 4.4 0.012 0.066 0.185 0.359 0.551 0.720 0.844 0.921 0.964 0.985 4.6 0.0.10 0.056 0.163 0.326 0.513 0.686 0.818 0.905 0.955 0.980 4.8 0.008 0.048 0.143 0.294 0.476 0.651 0.791 0.887 0.944 0.975 5.0 0.007 0.040 0.125 0.265 0.440 0.616 0.762 0.867 0.932 0.968 5.2 0.006 0.034 0.109 0.238 0.406 0.581 0.732 0.845 0.918 0.960 5.4 0.005 0.029 0.095 0.213 0.373 0.546 0.702 0.822 0.903 0.951 5.6 0.004 0.024 0.082 0.191 0.342 0.512 0.670 0.797 0.886 0.941 5.8 0.003 0.021 0.072 0.170 0.313 0.478 0.6338 0.771 0.867 0.929 6.0 0.002 0.017 0.062 0.151 0.285 0.446 0.606 0.744 0.847 0.916 10 11 12 13 14 15 16 2.8 1.000 3.0 1.000 3.2 1.000 3.4 0.999 1.000 3.6 0.999 1.000 3.8 0.998 0.999 1.000 4.0 0.997 0.999 1.000 4.2 0.996 0.999 1.000 4.4 0.994 0.998 0.999 1.000 4.6 0.992 0.997 0.999 1.000 4.8 0.990 0.996 0.999 1.000 5.0 0.986 0.995 0.998 0.999 1.000 5.2 0.9982 0.993 0.997 0.999 1.000 5.4 0.977 0.990 0.996 0.999 1.000 5.6 0.927 0.988 0.995 0.998 0.999 1.000 5.8 0.965 0.984 0.993 0.997 0.999 1.000 6.0 0.957 0.980 0.991 0.996 0.999 0.999 1.000

Page 115: Escuela Superior de Física y Matemáticas Instituto

115

Tabla 3 (Continuación)

a λ

0

1

2

3

4

5

6

7

8

9

6.2 0.002 0.015 0.054 0.134 0.259 0.414 0.574 0.716 0.826 0.902 6.4 0.002 0.12 0.046 0.119 0.235 0.384 0.542 0.687 0.803 0.886 6.6 0.001 0.010 0.040 0.105 0.213 0.355 0.511 0.658 0.780 0.869 6.8 0.001 0.009 0.034 0.093 0.192 0.327 0.480 0.628 0.755 0.850 7.0 0.001 0.007 0.030 0.082 0.173 0.301 0.450 0.599 0.729 0.830

7.2 0.001 0.006 0.025 0.072 0.156 0.276 0.420 0.569 0.703 0.810 7.4 0.001 0.005 0.022 0.063 0.140 0.253 0.392 0.539 0.676 0.788 7.6 0.001 0.004 0.019 0.055 0.125 0.231 0.365 0.510 0.648 0.765 7.8 0.000 0.004 0.016 0.048 0.112 0.210 0.338 0.481 0.620 0.741

8.0 0.000 0.003 0.014 0.042 0.100 0.191 0.313 0.453 0.593 0.717 8.5 0.000 0.002 0.009 0.030 0.074 0.150 0.256 0.386 0.523 0.653 9.0 0.000 0.001 0.006 0.021 0.055 0.116 0.207 0.324 0.456 0.587 9.5 0.000 0.001 0.004 0.015 0.040 0.089 0.165 0.269 0.392 0.522 10.0 0.000 0.000 0.003 0.010 0.029 0.067 0.130 0.220 0.333 0.458

10 11 12 13 14 15 16 17 18 19

6.2 0.949 0.975 0.989 0.995 0.998 0.999 1.000 6.4 0.939 0.969 0.986 0.994 0.997 0.999 1.000 6.6 0.927 0.963 0.982 0.992 0.997 0.999 0.999 1.000 6.8 0.915 0.955 0.978 0.990 0.996 0.998 0.999 1.000 7.0 0.901 0.947 0.973 0.987 0.994 0.998 0.999 1.000

7.2 0.887 0.937 0.967 0.984 0.993 0.997 0.999 0.999 1.000 7.4 0.871 0.626 0.961 0.980 0.991 0.996 0.998 0.999 1.000 7.6 0.854 0.915 0.954 0.976 0.989 0.995 0.998 0.999 1.000 7.8 0.835 0.902 0.945 0.971 0.986 0.993 0.997 0.999 1.000

8.0 0.816 0.888 0.936 0.966 0.983 0.992 0.996 0.998 0.999 1.000 8.5 0.763 0.849 0.909 0.949 0.973 0.986 0.993 0.997 0.999 0.999 9.0 0.706 0.803 0.876 0.926 0.959 0.978 0.989 0.995 0.998 0.999 9.5 0.645 0.752 0.836 0.898 0.94 0.967 0.982 0.991 0.996 0.998 10.0 0.583 0.697 0.792 0.864 0.917 0.951 0.973 0.986 0.993 0.997

20 21 22

8.5 1.000 9.0 1.000 9.5 0.999 1.000

10.0 0.998 0.999 1.000

Page 116: Escuela Superior de Física y Matemáticas Instituto

116

Tabla 3 (continuación)

a λ

0

1

2

3

4

5

6

7

8

9

10.5 0.000 0.000 0.002 0.007 0.021 0.050 0.102 0.179 0.279 0.397 11.0 0.000 0.000 0.001 0.005 0.015 0.038 0.079 0.143 0.232 0.341 11.5 0.000 0.000 0.001 0.003 0.011 0.028 0.060 0.114 0.191 0.298 12.0 0.000 0.000 0.001 0.002 0.008 0.020 0.046 0.090 0.155 0.242 12.5 0.000 0.000 0.000 0.002 0.005 0.015 0.035 0.070 0.125 0.201

13.0 0.000 0.000 0.000 0.001 0.004 0.011 0.026 0.054 0.100 0.166 13.5 0.000 0.000 0.000 0.001 0.003 0.008 0.019 0.041 0.079 0.135 14.0 0.000 0.000 0.000 0.000 0.002 0.006 0.014 0.032 0.062 0.109 14.5 0.000 0.000 0.000 0.000 0.001 0.004 0.010 0.024 0.048 0.088 15.0 0.000 0.000 0.000 0.000 0.001 0.003 0.008 0.018 0.037 0.070

10 11 12 13 14 15 16 17 18 19

10.5 0.521 0.639 0.742 0.825 0.888 0.932 0.960 0.978 0.988 0.994 11.0 0.460 0.579 0.689 0.781 0.854 0.907 0.944 0.968 0.982 0.991 11.5 0.402 0.520 0.633 0.733 0.815 0.878 0.924 0.954 0.974 0.986 12.0 0.347 0.462 0.576 0.682 0.772 0.844 0.899 0.937 0.963 0.979 12.5 0.297 0.406 0.519 0.628 0.725 0.806 0.869 0.916 0.948 0.969

13.0 0.252 0.353 0.463 0.573 0.675 0.764 0.835 0.890 0.930 0.957 13.5 0.211 0.304 0.409 0.518 0.623 0.718 0.798 0.861 0.908 0.942 14.0 0.176 0.206 0.358 0.464 0.570 0.669 0.756 0.827 0.883 0.923 14.5 0.145 0.220 0.311 0.413 0.518 0.619 0.711 0.790 0.853 0.901 15.0 0.118 0.185 0.268 0.363 0.466 0.568 0.664 0.749 0.819 0.875

20 21 22 23 24 25 26 27 28 29

10.5 0.997 0.999 0.999 1.000 11.0 1 0.998 0.999 1.000 11.5 0.992 0.996 0.998 0.999 1.000 12.0 0.988 0.994 0.997 0.999 0.999 1.000 12.5 0.983 0.991 0.995 0.998 0.999 0.999 1.000

13.0 0.975 0.986 0.992 0.996 0.998 0.999 1.000 13.5 0.965 0.980 0.989 0.994 0.997 0.998 0.999 1.000 14.0 0.952 0.971 0.983 0.991 0.995 0.997 0.999 0.999 1.000 14.5 0.936 0.960 0.976 0.986 0.992 0.996 0.998 0.999 0.999 1.000 15.0 0.917 0.947 0.967 0.981 0.989 0.994 0.997 0.998 0.999 1.000

Page 117: Escuela Superior de Física y Matemáticas Instituto

117

Tabla 3 (continuación)

a λ

4

5

6

7

8

9

10

11

12

13

16 0.000 0.001 0.004 0.010 0.022 0.043 0.077 0.127 0.193 0.275 17 0.000 0.001 0.002 0.005 0.013 0.026 0.049 0.085 0.135 0.201 18 0.000 0.000 0.001 0.003 0.007 0.015 0.030 0.055 0.092 0.143 19 0.000 0.000 0.001 0.002 0.004 0.009 0.018 0.035 0.061 0.098 20 0.000 0.000 0.000 0.001 0.002 0.005 0.011 0.021 0.039 0.066 21 0.000 0.000 0.000 0.000 0.001 0.003 0.006 0.013 0.025 0.043 22 0.000 0.000 0.000 0.000 0.001 0.002 0.004 0.008 0.015 0.028 23 0.000 0.000 0.000 0.000 0.000 0.001 0.002 0.004 0.009 0.017 24 0.000 0.000 0.000 0.000 0.000 0.000 0.001 0.003 0.005 0.011 25 0.000 0.000 0.000 0.000 0.000 0.000 0.001 0.001 0.003 0.006

14 15 16 17 18 19 20 21 22 23

16 0.368 0.467 0.566 0.659 0.742 0.812 0.868 0.911 0.942 0.963 17 0.281 0.371 0.468 0.564 0.655 0.736 0.805 0.861 0.905 0.937 18 0.208 0.287 0.375 0.469 0.562 0.651 0.731 0.799 0.855 0.899 19 0.150 0.215 0.292 0.378 0.469 0.561 0.647 0.725 0.793 0.849 20 0.105 0.157 0.221 0.297 0.381 0.470 0.559 0.644 0.721 0.787 21 0.072 0.111 0.163 0.227 0.302 0.384 0.471 0.558 0.640 0.716 22 0.048 0.077 0.117 0.169 0.232 0.306 0.387 0.472 0.556 0.637 23 0.031 0.052 0.082 0.123 0.175 0.238 0.310 0.389 0.472 0.555 24 0.020 0.034 0.056 0.087 0.128 0.180 0.243 0.314 0.392 0.473 25 0.012 0.022 0.038 0.060 0.092 0.134 0.185 0.247 0.318 0.394

Page 118: Escuela Superior de Física y Matemáticas Instituto

118

Tabla 3 (Continuación)

a λ

24

25

26

27

28

29

30

31

32

33

16 0.978 0.987 0.993 0.996 0.998 0.999 0.999 1.000 17 0.959 0.975 0.985 0.991 0.995 0.997 0.999 0.999 1.000 18 0.932 0.955 0.972 0.983 0.990 0.994 0.997 0.998 0.999 1.000 19 0.893 0.927 0.951 0.969 0.980 0.988 0.993 0.996 0.998 0.999 20 0.843 0.888 0.922 0.948 0.966 0.978 0.987 0.992 0.995 0.997 21 0.782 0.838 0.883 0.917 0.944 0.963 0.976 0.985 0.991 0.994 22 0.712 0.777 0.832 0.877 0.913 0.940 0.959 0.973 0.983 0.989 23 0.635 0.708 0.772 0.827 0.873 0.908 0.936 0.956 0.971 0.981 24 0.554 0.632 0.704 0.768 0.823 0.868 0.904 0.932 0.953 0.969 25 0.473 0.553 0.629 0.700 0.763 0.818 0.863 0.900 0.929 0.950

34 35 36 37 38 39 40 41 42 43

19 0.999 1.000 20 0.999 0.999 1.000 21 0.997 0.998 0.999 0.999 1.000 22 0.994 0.996 0.998 0.999 0.999 1.000 23 0.988 0.993 0.996 0.997 0.999 0.999 1.000 24 0.979 0.987 0.992 0.995 0.997 0.998 0.999 0.999 1.000 25 0.966 0.978 0.985 0.991 0.991 0.997 0.998 0.999 0.999 1.000

Page 119: Escuela Superior de Física y Matemáticas Instituto

119

Tabla 4. Áreas bajo la curva normal. Probabilidad normal estándar de cola superior (para valores negativos de z. las áreas se obtienen por simetría).

Segundo decimal de z

z 0.00 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09

0.0 0.5000 0.4960 0.4920 0.4880 0.4840 0.4801 0.4761 0.4721 0.4681 0.46410.1 0.4602 0.4562 0.4522 0.4483 0.4443 0.4404 0.4364 0.4325 0.4286 0.42470.2 0.4207 0.4168 0.4129 0.4090 0.4052 0.4013 0.3974 0.3936 0.3897 0.38590.3 0.3821 0.3783 0.3745 0.3707 0.3669 0.3632 0.3594 0.3557 0.3520 0.34830.4 0.3446 0.3409 0.3372 0.3336 0.3300 0.3264 0.3228 0.3192 0.3156 0.3121

0.5 0.3085 0.3050 0.3015 0.2981 0.2946 0.2912 0.2877 0.2843 0.2810 0.27760.6 0.2743 0.2709 0.2676 0.2643 0.2611 0.2578 0.2546 0.2514 0.2483 0.24510.7 0.2420 0.2389 0.2358 0.2327 0.2296 0.2266 0.2236 0.2206 0.2177 0.21480.8 0.2119 0.2090 0.2061 0.2033 0.2005 0.1977 0.1949 0.1922 0.1894 0.18670.9 0.1841 0.1814 0.1788 0.1762 0.1736 0.1711 0.1685 0.1660 0.1635 0.1611

1.0 0.1587 0.1562 0.1539 0.1515 0.1492 0.1469 0.1446 0.1423 0.1401 0.13791.1 0.1357 0.1335 0.1314 0.1292 0.1271 0.1251 0.1230 0.1210 0.1190 0.11701.2 0.1151 0.1131 0.1112 0.1093 0.1075 0.1056 0.1038 0.1020 0.1003 0.09851.3 0.0968 0.0951 0.0934 0.0918 0.0901 0.0885 0.0869 0.0853 0.0838 0.08231.4 0.0808 0.0793 0.0778 0.0764 0.0749 0.0735 0.0722 0.0708 0.0694 0.0681

1.5 0.0668 0.0655 0.0643 0.0630 0.0618 0.0606 0.0594 0.0582 0.0571 0.05591.6 0.0548 0.0537 0.0526 0.0516 0.0505 0.0495 0.0485 0.0475 0.0465 0.04551.7 0.0446 0.0436 0.0427 0.0418 0.0409 0.0401 0.0392 0.0384 0.0375 0.03671.8 0.0359 0.0352 0.0344 0.0336 0.0329 0.0322 0.0314 0.0307 0.0301 0.02941.9 0.0287 0.0281 0.0274 0.0268 0.0262 0.0256 0.0250 0.0244 0.0239 0.0233

2.0 0.0228 0.0222 0.0217 0.0212 0.0207 0.0202 0.0197 0.0192 0.0188 0.01832.1 0.0179 0.0174 0.0170 0.0166 0.0162 0.0158 0.0154 0.0150 0.0146 0.01432.2 0.0139 0.0136 0.0132 0.0129 0.0125 0.0122 0.0119 0.0116 0.0113 0.01102.3 0.0107 0.0104 0.0102 0.0099 0.0096 0.0094 0.0091 0.0089 0.0087 0.00842.4 0.0082 0.0080 0.0078 0.0075 0.0073 0.0071 0.0069 0.0068 0.0066 0.0064

2.5 0.0062 0.0060 0.0059 0.0057 0.0055 0.0054 0.0052 0.0051 0.0049 0.00482.6 0.0047 0.0045 0.0044 0.0043 0.0041 0.0040 0.0039 0.0038 0.0037 0.00362.7 0.0035 0.0034 0.0033 0.0032 0.0031 0.0030 0.0029 0.0028 0.0027 0.00262.8 0.0026 0.0025 0.0024 0.0023 0.0023 0.0022 0.0021 0.0021 0.0020 0.00192.9 0.0019 0.0018 0.0017 0.0017 0.0016 0.0016 0.0015 0.0015 0.0014 0.0014

3.0 .00135 3.5 .000 233 4.0 .000 031 7 4.5 .000 003 40 5.0 .000 000 287

De: R. E. Walpole, Introduction to Statistics (New York: Macmillan, 1968).

Page 120: Escuela Superior de Física y Matemáticas Instituto

120

Tabla 5 Puntos porcentuales de las distribuciones t.

t .100 t .050 t .025 t .010 t.005 g.l. 3.078 6.314 12.706 31.821 63.657 1 1.886 2.920 4.303 6.965 9.925 2 1.638 2.353 3.182 4.541 5.841 3 1.533 2.132 2.776 3.747 4.604 4 1.476 2.015 2.571 3.365 4.032 5 1.440 1.943 2.447 3.143 3.707 6 1.415 1.895 2.365 2.998 3.499 7 1.397 1.860 2.306 2.896 3.355 8 1.383 1,833 2.262 2.821 3.250 9 1.372 1.812 2.228 2.764 3.169 10 1.363 1.796 2.201 2.718 3.106 11 1.356 1.782 2.179 2.681 3.055 12 1.350 1.771 2.160 2.650 3.012 13 1.345 1.761 2.145 2.624 2.977 14 1.341 1.753 2.131 2.602 2.947 15 1.337 1.746 2.120 2.583 2.921 16 1.333 1.740 2.110 2.567 2.898 17 1.330 1.734 2.101 2.552 2.878 18 1.328 1.729 2.093 2.539 2.861 19 1.325 1.725 2.086 2.528 2.845 20 1.323 1.721 2.080 2.518 2.831 21 1.321 1.717 2.074 2.508 2.819 22 1.319 1.714 2.069 2.500 2.807 23 1.318 1.711 2.064 2.492 2.797 24 1.316 1.708 2.060 2.485 2.787 25 1.315 1.706 2.056 2.479 2.779 26 1.314 1.703 2.052 2.473 2.771 27 1.313 1.701 2.048 2.467 2.763 28 1.311 1.699 2.045 2.462 2.756 29 1.282 1.645 1.960 2.326 2.576 inf.

De: “Table of Percentage Points of the t-Distribution”. Calculado por Maxine Merrington, Biometrika, Vol. 32 (1941), p. 300. Reproducido con la autorización del profesor E.S. Pearson.

Page 121: Escuela Superior de Física y Matemáticas Instituto

121

Tabla 6. Puntos porcentuales delas distribuciones χ2

g.l. χ0 995

2. χ0 990

2. χ0 975

2. χ0 950

2. χ0 900

2.

1 0.0000393 0.0001571 0.0009821 0.0039321 0.01579082 0.0100251 0.0201007 0.0506356 0.102587 0.2107203 0.0717212 0.114832 0.215795 0.351846 0.5843754 0.206990 0.297110 0.484419 0.710721 1.063623

5 0.411740 0.554300 0.831211 1.145476 1.610316 0.675727 0.872085 1.237347 1.63539 2.204137 0.989265 1.239043 1.68987 2.16735 2.833118 1.344419 1.646482 2.17973 2.73264 3.489549 1.734926 2.087912 2.70039 3.32511 4.16816

10 2.15585 2.55821 3.24697 3.94030 4.8651811 2.60321 3.05347 3.81575 4.57481 5.5777912 3.07382 3.57056 4.40379 5.22603 6.3038013 3.56503 4.10691 5.00874 5.89186 7.0415014 4.07468 4.66043 5.62872 6.57063 7.78953

15 4.60094 5.22935 6.26214 7.26094 8.5467516 5.14224 5.81221 6.90766 7.96164 9.3122317 5.69724 6.40776 7.56418 8.67176 10.085218 6.26481 7.01491 8.23075 9.39046 10.864919 6.84398 7.63273 8.90655 10.1170 11.6509

20 7.43386 8.26040 9.59083 10.8508 12.442621 8.03366 8.89720 10.28293 11.5913 13.239622 8.64272 9.54249 10.9823 12.3380 14.041523 9.26042 10.19567 11.6885 13.0905 14.847924 9.88623 10.8564 12.4011 13.8484 15.6587

25 10.5197 11.5240 13.1197 14.6114 16.473426 11.1603 12.1981 13.8439 15.3791 17.291927 11.8076 12.8786 14.5733 16.1513 18.113828 12.4613 13.5648 15.3079 16.9279 18.939229 13.1211 14.2565 16.0471 17.7083 19.7677

30 13.7867 14.9535 16.7908 18.4926 20.599240 20.7065 22.1643 24.4331 26.5093 29.050550 27.9907 29.7067 32.3574 34.7642 37.688660 35.5346 37.4848 40.4817 43.1879 46.4589

70 43.2752 45.4418 48.7576 51.7393 55.329080 51.1720 53.5400 57.1532 60.3915 64.277890 59.1963 61.7541 65.6466 69.1260 73.2912

100 67.3276 70.0648 74.2219 77.9295 82.3581

Page 122: Escuela Superior de Física y Matemáticas Instituto

122

Tabla 6 (Continuación)

χ0 1002

. χ0 0502

. χ0 0252

. χ0 0102

. χ0 0052

. g.l. 2.70554 3.84146 5.02389 6.63490 7.87944 1 4.60517 5.99147 7.37776 9.21034 10.5966 2 6.25139 7.81473 9.34840 11.3449 12.8381 3 7.77944 9.48773 11.1433 13.2767 14.8602 4 9.23635 11.0705 12.8325 15.0863 16.7496 5 10.6446 12.5916 14.4494 16.8119 18.5476 6 12.0170 14.0671 16.0128 18.4753 20.2777 7 13.3616 15.5073 17.5346 20.0902 21.9550 8 14.6837 16.9190 19.0228 21.6660 23.5893 9 15.9871 18.3070 20.4831 23.2093 25.1882 10 17.2750 19.6751 21.9200 24.7250 26.7569 11 18.5494 21.0261 23.3367 26.2170 28.2995 12 19.8119 22.3621 24.7356 27.6883 29.8194 13 21.0642 23.6848 26.1190 29.1413 31.3193 14 22.3072 24.9958 27.4884 30.5779 32.8013 15 23.5418 26.2962 28.8454 31.9999 34.2672 16 24.7690 27.5871 30.1910 33.4087 35.7185 17 25.9894 28.8693 31.5264 34.8053 37.1564 18 27.2036 30.1435 32.8523 36.1908 38.5822 19 28.4120 31.4104 34.1696 37.5662 39.9968 20 29.6151 32.6705 35.4789 38.9321 41.4010 21 30.8133 33.9244 36.7807 40.2894 42.7956 22 32.0069 35.1725 38.0757 41.6384 44.1813 23 33.1963 36.4151 39.3641 42.9798 45.5585 24 34.3816 37.6525 40.6465 44.3141 46.9278 25 35.5631 38.8852 41.9232 45.6417 48.2899 26 36.7412 40.1133 43.1944 46.9630 49.6449 27 37.9159 41.3372 44.4607 48.2782 50.9933 28 39.0875 42.5569 45.7222 49.5879 52.3356 29 40.2560 43.7729 46.9297 50.8922 53.6720 30 51.8050 55.7585 59.3417 63.6907 66.7659 40 63.1671 67.5048 71.4202 76.1539 79.4900 50 74.3970 79.0819 83.2976 88.3794 91.9517 60 85.5271 90.5312 95.0231 100.425 104.215 70 96.5782 101.879 106.629 112.329 116.321 80 107.565 113.145 118.136 124.116 128.299 90 118.498 124.342 129.561 135.807 140.169 100

De: “Table of Percentage Points of the t-Distribution”. Calculado por Maxine Merrington, Biometrika, Vol. 32 (1941), pp. 188-189, por Catherine M. Thompson. Reproducido con la autorización del profesor E.S. Pearson.

Page 123: Escuela Superior de Física y Matemáticas Instituto

123

TABLA 7 Puntos porcentuales de las distribuciones F g.l. g.l. del numerador del deno-

α 1 2 3 4 5 6 7 8 9

nimador 1 .100 39.86 49.50 53.59 55.83 57.24 58.20 58.91 59.44 59.86 .050 161.4 199.5 215.7 224.6 230.2 234.0 236.8 238.9 240.5 .025 647.8 799.5 864.2 899.6 921.8 937.1 948.2 956.7 963.3 .010 4052 4999.5 5403 5625 5764 5859 5928 5982 6022 .005 16211 20000 21615 22500 23056 23437 23715 23925 24091 2 .100 8.53 9.00 9.16 9.24 9.29 9.33 9.35 9.37 9.38 .050 18.51 19.00 19.16 19.25 19.30 19.33 19.35 19.37 19.38 .025 38.51 39.00 39.17 39.25 39.30 39.33 39.36 39.37 39.39 .010 98.50 99.00 99.17 99.25 99.30 99.33 99.36 99.37 99.39 .005 198.5 199.00 199.2 199.2 199.3 199.3 199.4 199.4 199.4 3 .100 5.54 5.46 5.39 5.34 5.31 5.28 5.27 5.25 5.24 .050 10.13 9.55 9.28 9.12 9.01 8.94 8.89 8.85 8.81 .025 17.44 16.04 15.44 15.10 14.88 14.73 14.62 14.54 14.47 .010 34.12 30.82 29.46 28.71 28.24 27.91 27.67 27.49 27.35 .005 55.55 49.80 47.47 46.19 45.39 44.84 44.43 44.13 43.88 4 .100 4.54 4.32 4.19 4.11 4.05 4.01 3.98 3.95 3.94 .050 7.71 6.94 6.59 6.39 6.26 6.16 6.09 6.04 6.00 .025 12.22 10.65 9.98 9.60 9.36 9.20 9.07 8.98 8.90 .010 21.20 18.00 16.69 15.98 15.52 15.21 14.98 14.80 14.66 .005 31.33 26.28 24.26 23.15 22.46 21.97 21.62 21.35 21.14 5 0.100 4.06 3.78 3.62 3.52 3.45 3.40 3.37 3.34 3.32 0.050 6.61 5.79 5.41 5.19 5.05 4.95 4.88 4.82 4.77 0.025 10.01 8.43 7.76 7.39 7.15 6.98 6.85 6.76 6.68 0.010 16.26 13.27 12.06 11.39 10.97 10.67 10.46 10.29 10.16 0.005 22.78 18.31 16.53 15.56 14.94 14.51 14.20 13.96 13.77 6 0.100 3.78 3.46 3.29 3.18 3.11 3.05 3.01 2.98 2.96 0.050 5.99 5.14 4.76 4.53 4.39 4.28 4.21 4.15 4.10 0.025 8.81 7.26 6.60 6.23 5.99 5.82 5.70 5.60 5.52 0.010 13.75 10.92 9.78 9.15 8.75 8.47 8.26 8.10 7.98 0.005 18.63 14.54 12.92 12.03 11.46 11.07 10.79 10.57 10.39 7 0.100 3.59 3.26 3.07 2.96 2.88 2.83 2.78 2.75 2.72 0.050 5.59 4.74 4.35 4.12 3.97 3.87 3.79 3.73 3.68 0.025 8.07 6.54 5.89 5.52 5.29 5.12 4.99 4.90 4.82 0.010 12.25 9.55 8.45 7.85 7.46 7.19 6.99 6.84 6.72 0.005 16.24 12.4 10.88 10.05 9.52 9.16 8.89 8.68 8.51

Page 124: Escuela Superior de Física y Matemáticas Instituto

124

TABLA 7 (Continuación) Fα

g.l. del numerador g.l. del 10 12 15 20 24 30 40 60 120 ∞ α deno- minador60.19 60.71 61.22 61.74 62.00 62.26 62.53 62.79 63.06 63.33 .100 1 241.9 243.9 245.9 248.0 249.1 250.1 251.1 252.2 253.3 254.3 .050 968.6 976.7 984.9 993.10 997.2 1001 1006 1010 1014 1018 .025 6056 6106 6157 6209 6235 6261 6287 6313 6339 6366 .010 24224 24426 24630 24836 24940 25044 25148 25253 25359 25465 .005 9.39 9.41 9.42 9.44 9.45 9.46 9.47 9.47 9.48 9.49 .100 2 19.40 19.41 19.43 19.45 19.45 19.46 19.47 19.48 19.49 19.50 .050 39.40 39.41 39.43 39.45 39.46 39.46 39.47 39.48 39.49 39.50 .025 99.40 99.42 99.43 99.45 99.46 99.47 99.47 99.48 99.49 99.50 .010 199.4 199.4 199.4 199.4 199.5 199.5 199.5 199.5 199.5 199.5 .005 5.23 5.22 5.20 5.18 5.18 5.17 5.16 5.15 5.14 5.13 .100 3 8.79 8.74 8.70 8.66 8.64 8.62 8.59 8.57 8.55 8.53 .050 14.42 14.34 14.25 14.17 14.12 14.08 14.04 13.99 13.95 13.90 .025 27.23 27.05 26.87 26.69 26.60 26.50 26.41 26.32 26.22 26.13 .010 43.69 43.39 43.08 42.78 42.62 42.47 42.31 42.15 41.99 41.83 .005 3.92 3.90 3.87 3.84 3.83 3.82 3.80 3.79 3.78 3.76 .100 4 5.96 5.91 5.86 5.80 5.77 5.75 5.72 5.69 5.66 5.63 .050 8.84 8.75 8.66 8.56 8.51 8.46 8.41 8.36 8.31 8.26 .025 14.55 14.37 14.20 14.02 13.93 13.84 13.75 13.65 13.56 13.46 .010 20.97 20.70 20.44 20.17 20.02 19.89 19.75 19.61 19.47 19.32 .005 3.30 3.27 3.24 3.21 3.19 3.17 3.16 3.14 3.12 3.10 .100 5 4.74 4.68 4.62 4.56 4.53 4.50 4.46 4.43 4.40 4.36 .050 6.62 6.52 6.43 6.33 6.28 6.23 6.18 6.12 6.07 6.02 .025 10.05 9.89 9.72 9.55 9.47 9.38 9.29 9.20 9.11 9.02 .010 13.62 13.38 13.15 12.90 12.78 12.66 12.53 12.40 12.27 12.14 .005 2.94 2.90 2.87 2.84 2.82 2.80 2.78 2.76 2.74 2.72 .100 6 4.06 4.00 3.94 3.87 3.84 3.81 3.77 3.74 3.70 3.67 .050 5.46 5.37 5.27 5.17 5.12 5.07 5.01 4.96 4.90 4.85 .025 7.78 7.72 7.56 7.40 7.31 7.23 7.14 7.06 6.97 6.88 .010 10.25 10.03 9.81 9.59 9.47 9.36 9.24 9.12 9.00 8.88 .005 2.70 2.67 2.63 2.59 2.58 2.56 2.54 2.51 2.49 2.47 .100 7 3.64 3.57 3.51 3.44 3.41 3.38 3.34 3.30 3.27 3.23 .050 4.76 4.67 4.57 4.47 4.42 4.36 4.31 4.25 4.20 4.14 .025 6.62 6.47 6.31 6.16 6.07 5.99 5.91 5.82 5.74 5.65 .010 8.38 8.18 7.97 7.75 7.65 7.53 7.42 7.31 7.19 7.08 .005

Page 125: Escuela Superior de Física y Matemáticas Instituto

125

TABLA 7 (Continuación) Fα g.l. g.l. del numerador del deno- α 1 2 3 4 5 6 7 8 9 nominador 8 0.100 3.46 3.11 2.92 2.81 2.73 2.67 2.62 2.59 2.56 0.050 5.32 4.46 4.07 3.84 3.69 3.58 3.50 3.44 3.39 0.025 7.57 6.06 5.42 5.05 4.82 4.65 4.53 4.43 4.36 0.010 11.26 8.65 7.59 7.01 6.63 6.37 6.18 6.03 5.91 0.005 14.69 11.04 9.60 8.81 8.30 7.95 7.69 7.50 7.34 9 0.100 3.36 3.01 2.81 2.69 2.61 2.55 2.51 2.47 2.44 0.050 5.12 4.26 3.86 3.63 3.48 3.37 3.29 3.23 3.18 0.025 8.21 5.71 5.08 4.72 4.48 4.32 4.20 4.10 4.03 0.010 10.56 8.02 6.99 6.42 6.06 5.80 5.61 5.47 5.35 0.005 13.61 10.11 8.72 7.96 7.47 7.13 6.88 6.69 6.54 10 0.100 3.29 2.92 2.73 2.61 2.52 2.46 2.41 2.38 2.35 0.050 4.96 4.10 3.71 3.48 3.33 3.22 3.14 3.07 3.02 0.025 6.94 5.46 4.83 4.47 4.24 4.07 3.95 3.85 3.78 0.010 10.04 7.56 6.55 5.99 5.64 5.39 5.20 5.06 4.94 0.005 12.83 9.43 8.08 7.34 6.87 6.54 6.30 6.12 5.97 11 0.100 3.23 2.86 2.66 2.54 2.45 2.39 2.34 2.30 2.27 0.050 4.84 3.98 3.59 3.36 3.20 3.09 3.01 2.95 2.90 0.025 6.72 5.26 4.63 4.28 4.04 3.88 3.76 3.66 3.59 0.010 9.65 7.21 6.22 5.67 5.32 5.07 4.89 4.74 4.63 0.005 12.23 8.91 7.60 6.88 6.42 6.10 5.86 5.68 5.54 12 0.100 3.18 2.81 2.61 2.48 2.39 2.33 2.28 2.24 2.21 0.050 4.75 3.89 3.49 3.26 3.11 3.00 2.91 2.85 2.80 0.025 6.55 5.10 4.47 4.12 3.89 3.73 3.61 3.51 3.44 0.010 9.33 6.93 5.95 5.41 5.06 4.82 4.64 4.50 4.39 0.005 11.75 8.51 7.23 6.52 6.07 5.76 5.52 5.35 5.20 13 0.100 3.14 2.76 2.56 2.43 2.35 2.28 2.23 2.20 2.16 0.050 4.67 3.81 3.41 3.18 3.03 2.92 2.83 2.77 2.71 0.025 6.41 4.97 4.35 4.00 3.77 3.60 3.48 3.39 3.31 0.010 9.07 6.70 5.74 5.21 4.86 4.62 4.44 4.30 4.19 0.005 11.37 8.19 6.93 6.23 5.79 5.48 5.25 5.08 4.94 14 0.100 3.10 2.73 2.52 2.39 2.31 2.24 2.19 2.15 2.12 0.050 4.60 3.74 3.34 3.11 2.96 2.85 2.76 2.70 2.65 0.025 6.30 4.86 4.24 3.89 3.66 3.50 3.38 3.29 3.21 0.010 8.86 6.51 5.56 5.04 4.69 4.46 4.28 4.14 4.03 0.005 11.06 7.92 6.68 6.00 5.56 5.26 5.03 4.86 4.72

Page 126: Escuela Superior de Física y Matemáticas Instituto

126

TABLA 7 (Continuación) Fα

g.l. del numerador

g.l. del

10 12 15 20 24 30 40 60 120 ∞ α deno-minador

2.54 2.50 2.46 2.42 2.40 2.38 2.36 2.34 2.32 2.29 .100 8 3.35 3.28 3.22 3.15 3.12 3.08 3.04 3.01 2.97 2.93 .050 4.30 4.20 4.10 4.00 3.95 3.89 3.84 3.78 3.73 3.67 .025 5.81 5.67 5.52 5.36 5.28 5.20 5.12 5.03 4.95 4.86 .010 7.21 7.01 6.81 6.61 6.50 6.40 6.29 6.18 6.06 5.95 .005 2.42 2.38 2.34 2.30 2.28 2.25 2.23 2.21 2.18 2.16 .100 9 3.14 3.07 3.01 2.94 2.90 2.86 2.83 2.79 2.75 2.71 .050 3.96 3.87 3.77 3.67 3.61 3.56 3.51 3.45 3.39 3.33 .025 5.26 5.11 4.96 4.81 4.73 4.65 4.57 4.48 4.40 4.31 .010 6.42 6.23 6.03 5.83 5.73 5.62 5.52 5.41 5.30 5.19 .005 2.32 2.28 2.24 2.20 2.18 2.16 2.13 2.11 2.08 2.06 .100 10 2.98 2.91 2.85 2.74 2.77 2.70 2.66 2.62 2.58 2.54 .050 3.72 3.62 3.52 3.42 3.37 3.31 3.26 3.20 3.14 3.08 .025 4.85 4.71 4.56 4.41 4.33 4.25 4.17 4.08 4.00 3.91 .010 5.85 5.66 5.47 5.27 5.17 5.07 4.97 4.86 4.75 4.64 .005 2.25 2.21 2.17 2.12 2.10 2.08 2.05 2.03 2.00 1.97 .100 11 2.85 2.79 2.72 2.65 2.61 2.57 2.53 2.49 2.45 2.40 .050 3.53 3.43 3.33 3.23 3.17 3.12 3.06 3.00 2.94 2.88 .025 4.54 4.40 4.25 4.10 4.02 3.94 3.86 3.78 3.69 3.60 .010 5.42 5.24 5.05 4.86 4.76 4.65 4.55 4.44 4.34 4.23 .005 2.19 2.15 2.10 2.06 2.04 2.01 1.99 1.96 1.93 1.90 .100 12 2.75 2.69 2.62 2.54 2.51 2.47 2.43 2.38 2.34 2.30 .050 3.37 3.28 3.18 3.07 3.02 2.96 2.91 2.85 2.79 2.72 .025 4.30 4.16 4.01 3.86 3.78 3.70 3.62 3.54 3.45 3.36 .010 5.09 4.91 4.72 4.53 4.43 4.33 4.23 4.12 4.01 3.90 .005 2.14 2.10 2.05 2.01 1.98 1.96 1.93 1.90 1.88 1.85 .100 13 2.67 2.60 2.53 2.46 2.42 2.38 2.34 2.30 2.25 2.21 .050 3.25 3.15 3.05 2.95 2.89 2.84 2.78 2.72 2.66 2.60 .025 4.10 3.96 3.82 3.66 3.59 3.51 3.43 3.34 3.25 3.17 .010 4.82 4.64 4.46 4.27 4.17 4.07 3.97 3.87 3.76 3.65 .005 2.10 2.05 2.01 1.96 1.94 1.91 1.89 1.86 1.83 1.80 .100 14 2.60 2.53 2.46 2.39 2.35 2.31 2.27 2.22 2.18 2.13 .050 3.15 3.05 2.95 2.84 2.79 2.73 2.67 2.61 2.55 2.49 .025 3.94 3.80 3.66 3.51 3.43 3.35 3.27 3.18 3.09 3.00 .010 4.60 4.43 4.25 4.06 3.96 3.86 3.76 3.66 3.55 3.44 .005

Page 127: Escuela Superior de Física y Matemáticas Instituto

127

TABLA 7 (Continuación) Fα g.l. g.l. del numerador del deno-

α 1 2 3 4 5 6 7 8 9

nominador

15 .100 3.07 2.70 2.49 2.36 2.27 2.21 2.16 2.12 2.09 .050 4.54 3.68 3.29 3.06 2.90 2.79 2.71 2.64 2.59 .025 6.20 4.77 4.15 3.80 3.58 3.41 3.29 3.20 3.12 .010 8.68 6.36 5.42 4.89 4.56 4.32 4.14 4.00 3.89 .005 10.80 7.70 6.48 5.80 5.37 5.07 4.85 4.67 4.54 16 .100 3.05 2.67 2.46 2.33 2.24 2.18 2.13 2.09 2.06 .050 4.49 3.63 3.24 3.01 2.85 2.74 2.66 2.59 2.54 .025 6.12 4.69 4.08 3.73 3.50 3.34 3.22 3.12 3.05 .010 8.53 6.23 5.29 4.77 4.44 4.20 4.03 3.89 3.78 .005 10.58 7.51 6.30 5.64 5.21 4.91 4.69 4.52 4.38 17 .100 3.03 2.64 2.44 2.31 2.22 2.15 2.10 2.06 2.03 .050 4.45 3.59 3.20 2.96 2.81 2.70 2.61 2.55 2.49 .025 6.04 4.62 4.01 3.66 3.44 3.28 3.16 3.06 2.98 .010 8.40 6.11 5.18 4.67 4.34 4.10 3.93 3.79 3.68 .005 10.38 7.35 6.16 5.50 5.07 4.78 4.56 4.39 4.25 18 .100 3.01 2.62 2.42 2.29 2.20 2.13 2.08 2.04 2.00 .050 4.41 3.55 3.16 2.93 2.77 2.66 2.58 2.51 2.46 .025 5.98 4.56 3.95 3.61 3.38 3.22 3.10 3.01 2.93 .010 8.29 6.01 5.09 4.58 4.25 4.01 3.84 3.71 3.60 .005 10.22 7.21 6.03 5.37 4.96 4.66 4.44 4.28 4.14 19 .100 2.99 2.61 2.40 2.27 2.18 2.11 2.06 2.02 1.98 .050 4.38 3.52 3.13 2.90 2.74 2.63 2.54 2.48 2.42 .025 5.92 4.51 3.90 3.56 3.33 3.17 3.05 2.96 2.88 .010 8.18 5.93 5.01 4.50 4.17 3.94 3.77 3.63 3.52 .005 10.07 7.09 5.92 5.27 4.85 4.56 4.34 4.18 4.04 20 .100 2.97 2.59 2.38 2.25 2.16 2.09 2.04 2.00 1.96 .050 4.35 3.49 3.10 2.87 2.71 2.60 2.51 2.45 2.39 .025 5.87 4.46 3.86 3.51 3.29 3.13 3.01 2.91 2.84 .010 8.10 5.85 4.94 4.43 4.10 3.87 3.70 3.56 3.46 .005 9.94 6.90 5.82 5.17 4.76 4.47 4.26 4.09 3.96 21 .100 2.96 2.57 2.36 2.23 2.14 2.08 2.02 1.98 1.95 .050 4.32 3.47 3.07 2.84 2.68 2.57 2.49 2.42 2.37 .025 5.83 4.42 3.82 3.48 3.25 3.09 2.97 2.87 2.80 .010 8.02 5.78 4.87 4.37 4.04 3.81 3.64 3.51 3.40 .005 9.83 6.89 5.73 5.09 4.68 4.39 4.18 4.01 3.88

Page 128: Escuela Superior de Física y Matemáticas Instituto

128

TABLA 7 (Continuación) Fα

g.l. del numerador g.l. del 10 12 15 20 24 30 40 60 120 ∞ α deno-

minador2.06 2.02 1.97 1.92 1.90 1.87 1.85 1.82 1.79 1.76 .100 15 2.54 2.48 2.40 2.33 2.29 2.25 2.20 2.16 2.11 2.07 .050 3.06 2.96 2.86 2.76 2.70 2.64 2.59 2.52 2.46 2.40 .025 3.80 3.67 3.52 3.37 3.29 3.21 3.13 3.05 2.96 2.87 .010 4.42 4.25 4.07 3.88 3.79 3.69 3.58 3.48 3.37 3.26 .005 2.03 1.99 1.94 1.89 1.87 1.84 1.81 1.78 1.75 1.72 .100 16 2.49 2.42 2.35 2.28 2.24 2.19 2.15 2.11 2.06 2.01 .050 2.99 2.89 2.79 2.68 2.63 2.57 2.51 2.45 2.38 2.32 .025 3.69 3.55 3.41 3.26 3.18 3.10 3.02 2.93 2.84 2.75 .010 4.27 4.10 3.92 3.73 3.64 3.54 3.44 3.33 3.22 3.11 .005 2.00 1.96 1.91 1.86 1.84 1.81 1.78 1.75 1.72 1.69 .100 17 2.45 2.38 2.31 2.23 2.19 2.15 2.10 2.06 2.01 1.96 .050 2.92 2.82 2.72 2.62 2.56 2.50 2.44 2.38 2.32 2.25 .025 3.59 3.46 3.31 3.16 3.08 3.00 2.92 2.83 2.75 2.65 .010 4.14 3.97 3.79 3.61 3.51 3.41 3.31 3.21 3.10 2.98 .005 1.98 1.93 1.89 1.84 1.81 1.78 1.75 1.72 1.69 1.66 .100 18 2.41 2.34 2.27 2.19 2.15 2.11 2.06 2.02 1.97 1.92 .050 2.87 2.77 2.67 2.56 2.50 2.44 2.38 2.32 2.26 2.19 .025 3.51 3.37 3.23 3.08 3.00 2.92 2.84 2.75 2.66 2.57 .010 4.03 3.86 3.68 3.50 3.40 3.30 3.20 3.10 2.99 2.87 .005 1.96 1.91 1.86 1.81 1.79 1.76 1.73 1.70 1.67 1.63 .100 19 2.38 2.31 2.23 2.16 2.11 2.07 2.03 1.98 1.93 1.88 .050 2.82 3.72 2.62 2.51 2.45 2.39 2.33 2.27 2.20 2.13 .025 3.43 3.30 3.15 3.00 2.92 2.84 2.76 2.67 2.58 2.49 .010 3.93 3.76 3.59 3.40 3.31 3.21 3.11 3.00 2.89 2.78 .005 1.94 1.89 1.84 1.79 1.77 1.74 1.71 1.68 1.64 1.61 .100 20 2.35 2.28 2.20 2.12 2.08 2.04 1.99 1.95 1.90 1.84 .050 2.77 2.68 2.57 2.46 2.41 2.35 2.29 2.22 2.16 2.09 .025 3.37 3.23 3.09 2.94 2.86 2.78 2.69 2.61 2.52 2.42 .010 3.85 3.68 3.50 3.32 3.22 3.12 3.02 2.92 2.81 2.69 .005 1.92 1.87 1.83 1.78 1.75 1.72 1.69 1.66 1.62 1.59 .100 21 2.32 2.25 2.18 2.10 2.05 2.01 1.96 1.92 1.87 1.81 .050 2.73 2.64 2.53 2.42 2.37 2.31 2.25 2.18 2.11 2.04 .025 3.31 3.17 3.03 2.88 2.80 2.72 2.64 2.55 2.46 2.36 .010 3.77 3.60 3.43 3.24 3.15 3.05 2.95 2.84 2.73 2.61 .005

Page 129: Escuela Superior de Física y Matemáticas Instituto

129

TABLA 7 (Continuación) Fα g.l. g.l. del numerador del deno- α 1 2 3 4 5 6 7 8 9 nominador 22 .100 2.95 2.56 2.35 2.22 2.13 2.06 2.01 1.97 1.93 .050 4.30 3.44 3.05 2.82 2.66 2.55 2.46 2.40 2.34 .025 5.79 4.38 3.78 3.44 3.22 3.05 2.93 2.84 2.76 .010 7.95 5.72 4.82 4.31 3.99 3.76 3.59 3.45 3.35 .005 9.73 6.81 5.65 5.02 4.61 4.32 4.11 3.94 3.81 23 .100 2.94 2.55 2.34 2.21 2.11 2.05 1.99 1.95 1.92 .050 4.28 3.42 3.03 2.80 2.64 2.53 2.44 2.37 2.32 .025 5.75 4.35 3.75 3.41 3.18 3.02 2.90 2.81 2.73 .010 7.88 5.66 4.76 4.26 3.94 3.71 3.54 3.41 3.30 .005 9.63 6.73 5.58 4.95 4.54 4.26 4.05 3.88 3.75 24 .100 2.93 2.54 2.33 2.19 2.10 2.04 1.98 1.94 1.91 .050 4.26 3.40 3.01 2.78 2.62 2.51 2.42 2.36 2.30 .025 5.72 4.32 3.72 3.38 3.15 2.99 2.87 2.78 2.70 .010 7.82 5.61 4.72 4.22 3.90 3.67 3.50 3.36 3.26 .005 9.55 6.66 5.52 4.89 4.49 4.20 3.99 3.83 3.69 25 .100 2.92 2.53 2.32 2.18 2.09 2.02 1.97 1.93 1.89 .050 4.24 3.39 2.99 2.76 2.60 2.49 2.40 2.34 2.28 .025 5.69 4.29 3.69 3.35 3.13 2.97 2.85 2.75 2.68 .010 7.77 5.57 4.68 4.18 3.85 3.63 3.46 3.32 3.22 .005 9.48 6.60 5.46 4.84 4.43 4.15 3.94 3.78 3.64 26 .100 2.91 2.52 2.31 2.17 2.08 2.01 1.96 1.92 1.88 .050 4.23 3.37 2.98 2.74 2.59 2.47 2.39 2.32 2.27 .025 5.66 4.27 3.67 3.33 3.10 2.94 2.82 2.73 2.65 .010 7.72 5.53 4.64 4.14 3.82 3.59 3.42 3.29 3.18 .005 9.41 6.54 5.41 4.79 4.38 4.10 3.89 3.73 3.60 27 .100 2.90 2.51 2.30 2.17 2.07 2.00 1.95 1.91 1.87 .050 4.21 3.35 2.96 2.73 2.57 2.46 2.37 2.31 2.25 .025 5.63 4.24 3.65 3.31 3.08 2.92 2.80 2.71 2.63 .010 7.68 5.49 4.60 4.11 3.78 3.56 3.39 3.26 3.15 .005 9.34 6.49 5.36 4.74 4.34 4.06 3.85 3.69 3.56 28 .100 2.89 2.50 2.29 2.16 2.06 2.00 1.94 1.90 1.87 .050 4.20 3.34 2.95 2.71 2.56 2.45 2.36 2.29 2.24 .025 5.61 4.22 3.63 3.29 3.06 2.90 2.78 2.69 2.61 .010 7.64 5.45 4.57 4.07 3.75 3.53 3.36 3.23 3.12 .005 9.28 6.44 5.32 4.70 4.30 4.02 3.81 3.65 3.52

Page 130: Escuela Superior de Física y Matemáticas Instituto

130

TABLA 7 (Continuación) Fα g.l. del numerador

g.l. del

10 12 15 20 24 30 40 60 120 ∞ α deno-minador

1.90 1.86 1.81 1.76 1.73 1.70 1.67 1.64 1.60 1.57 .100 22 2.30 2.23 2.15 2.07 2.03 1.98 1.94 1.89 1.84 1.78 .050 2.70 2.60 2.50 2.39 2.33 2.27 2.21 2.14 2.08 2.00 .025 3.26 3.12 2.98 2.83 2.75 2.67 2.58 2.50 2.40 2.31 .010 3.70 3.54 3.36 3.18 3.08 2.98 2.88 2.77 2.66 2.55 .005 1.89 1.84 1.80 1.74 1.72 1.69 1.66 1.62 1.59 1.55 .100 23 2.27 2.20 2.13 2.05 2.01 1.96 1.91 1.86 1.81 1.76 .050 2.67 2.57 2.47 2.36 2.30 2.24 2.18 2.11 2.04 1.97 .025 3.21 3.07 2.93 2.78 2.70 2.62 2.54 2.45 2.35 2.26 .010 3.64 3.47 3.30 3.12 3.02 2.92 2.82 2.71 2.60 2.48 .005 1.88 1.83 1.78 1.73 1.70 1.67 1.64 1.61 1.57 1.53 .100 24 2.25 2.18 2.11 2.03 1.98 1.94 1.89 1.84 1.79 1.73 .050 2.64 2.54 2.44 2.33 2.27 2.21 2.15 2.08 2.01 1.94 .025 3.17 3.03 2.89 2.74 2.66 2.58 2.49 2.40 2.31 2.21 .010 3.59 3.42 3.25 3.06 2.97 2.87 2.77 2.66 2.55 2.43 .005 1.87 1.82 1.77 1.72 1.69 1.66 1.63 1.59 1.56 1.52 .100 25 2.24 2.16 2.09 2.01 1.96 1.92 1.87 1.82 1.77 1.71 .050 2.61 2.51 2.41 2.30 2.24 2.18 2.12 2.05 1.98 1.91 .025 3.13 2.99 2.85 2.70 2.62 2.54 2.45 2.36 2.27 2.17 .010 3.54 3.37 3.20 3.01 2.92 2.82 2.72 2.61 2.50 2.38 .005 1.86 1.81 1.76 1.71 1.68 1.65 1.61 1.58 1.54 1.50 .100 26 2.22 2.15 2.07 1.99 1.95 1.90 1.85 1.80 1.75 1.69 .050 2.59 2.49 2.39 2.28 2.22 2.16 2.09 2.03 1.95 1.88 .025 3.09 2.96 2.81 2.66 2.58 2.50 2.42 2.33 2.23 2.13 .010 3.49 3.33 3.15 2.97 2.87 2.77 2.67 2.56 2.45 2.33 .005 1.85 1.80 1.75 1.70 1.67 1.64 1.60 1.57 1.53 1.49 .100 27 2.20 2.13 2.06 1.97 1.93 1.88 1.84 1.79 1.73 1.67 .050 2.57 2.47 2.36 2.25 2.19 2.13 2.07 2.00 1.93 1.85 .025 3.06 2.93 2.78 2.63 2.55 2.47 2.38 2.29 2.20 2.10 .010 3.45 3.28 3.11 2.93 2.83 2.73 2.63 2.52 2.41 2.29 .005 1.84 1.79 1.74 1.69 1.66 1.63 1.59 1.56 1.52 1.48 .100 28 2.19 2.12 2.04 1.96 1.91 1.87 1.82 1.77 1.71 1.65 .050 2.55 2.45 2.34 2.23 2.17 2.11 2.05 1.98 1.91 1.83 .025 3.03 2.90 2.75 2.60 2.52 2.44 2.35 2.26 2.17 2.06 .010 3.41 3.25 3.07 2.89 2.79 2.69 2.59 2.48 2.37 2.25 .005

Page 131: Escuela Superior de Física y Matemáticas Instituto

131

TABLA 7 (Continuación) Fα g.l g.l. del numerador del deno- α 1 2 3 4 5 6 7 8 9 nominador 29 .100 2.89 2.50 2.28 2.15 2.06 1.99 1.93 1.89 1.86 .050 4.18 3.33 2.93 2.70 2.55 2.43 2.35 2.28 2.22 .025 5.59 4.20 3.61 3.27 3.04 2.88 2.76 2.67 2.59 .010 7.60 5.42 4.54 4.04 3.73 3.50 3.33 3.20 3.09 .005 9.23 6.40 5.28 4.66 4.26 3.98 3.77 3.61 3.48 30 .100 2.88 2.49 2.28 2.14 2.05 1.98 1.93 1.88 1.85 .050 4.17 3.32 2.92 2.69 2.53 2.42 2.33 2.27 2.21 .025 5.57 4.18 3.59 3.25 3.03 2.87 2.75 2.65 2.57 .010 7.56 5.39 4.51 4.02 3.70 3.47 3.30 3.17 3.07 .005 9.18 6.35 5.24 4.62 4.23 3.95 3.74 2.58 3.45 40 .100 2.84 2.44 2.23 2.09 2.00 1.93 1.87 1.83 1.79 .050 4.08 3.23 2.84 2.61 2.45 2.34 2.25 2.18 2.12 .025 5.42 4.05 3.46 3.13 2.90 2.74 2.62 2.53 2.45 .010 7.31 5.18 4.31 3.83 3.51 3.29 3.12 2.99 2.89 .005 8.83 6.07 4.98 4.37 3.99 3.71 3.51 3.35 3.22 60 .100 2.79 2.39 2.18 2.04 1.95 1.87 1.82 1.77 1.74 .050 4.00 3.15 2.76 2.53 2.37 2.25 2.17 2.10 2.04 .025 5.29 3.93 3.34 3.01 2.79 2.63 2.51 2.41 2.33 .010 7.08 4.98 4.13 3.65 3.34 3.12 2.95 2.82 2.72 .005 8.49 5.79 4.73 4.14 3.76 3.49 3.29 3.13 3.01 120 .100 2.75 2.35 2.13 1.99 1.90 1.82 1.77 1.72 1.68 .050 3.92 3.07 2.68 2.45 2.29 2.17 2.09 2.02 1.96 .025 5.15 3.80 3.23 2.89 2.67 2.52 2.39 2.30 2.22 .010 6.85 4.79 3.95 3.48 3.17 2.96 2.79 2.66 2.56 .005 8.18 5.54 4.50 3.92 3.55 3.28 3.09 2.93 2.81 ∞ .100 2.71 2.30 2.08 1.94 1.85 1.77 1.72 1.67 1.63

.050 3.84 3.00 2.60 2.37 2.21 2.10 2.01 1.94 1.88 .025 5.02 3.69 3.12 2.79 2.57 2.41 2.29 2.19 2.11 .010 6.63 4.61 3.78 3.32 3.02 2.80 2.64 2.51 2.41 .005 7.88 5.30 4.28 3.72 3.35 3.09 2.90 2.74 2.62

Page 132: Escuela Superior de Física y Matemáticas Instituto

132

TABLA 7 (Continuación) Fα g.l. del numerador

g.l. del

10 12 15 20 24 30 40 60 120 ∞ α deno-minador

1.83 1.78 1.73 1.68 1.65 1.62 1.58 1.55 1.51 1.47 .100 29 2.18 2.10 2.03 1.94 1.9 1.85 1.81 1.75 1.70 1.64 .050 2.53 2.43 2.32 2.21 2.15 2.09 2.03 1.96 1.89 1.81 .025 3.00 2.87 2.73 2.57 2.49 2.41 2.33 2.23 2.14 2.03 .010 3.38 3.21 3.04 2.86 2.76 2.66 2.56 2.45 2.33 2.21 .005 1.85 1.77 1.72 1.67 1.64 1.61 1.57 1.54 1.50 1.46 .100 30 2.16 2.09 2.01 1.93 1.89 1.84 1.79 1.74 1.68 1.62 .050 2.51 2.41 2.31 2.20 2.14 2.07 2.01 1.94 1.87 1.79 .025 2.98 2.84 2.70 2.55 2.47 2.39 2.30 2.21 2.11 2.01 .010 3.34 3.18 3.01 2.82 2.73 2.63 2.52 2.42 2.30 2.18 .005 1.76 1.71 1.66 1.61 1.57 1.54 1.51 1.47 1.42 1.38 .100 40 2.08 2.00 1.92 1.84 1.79 1.74 1.69 1.64 1.58 1.51 .050 2.39 2.29 2.18 2.07 2.01 1.94 1.88 1.80 1.72 1.64 .025 2.80 2.66 2.52 2.37 2.29 2.20 2.11 2.02 1.92 1.80 .010 3.12 2.95 2.78 2.60 2.50 2.40 2.30 2.18 2.06 1.93 .005 1.71 1.66 1.60 1.54 1.51 1.48 1.44 1.40 1.35 1.29 .100 60 1.99 1.92 1.84 1.75 1.70 1.65 1.59 1.53 1.47 1.39 .050 2.27 2.17 2.06 1.94 1.88 1.82 1.74 1.67 1.58 1.48 .025 2.63 2.50 2.35 2.20 2.12 2.03 1.94 1.84 1.73 1.60 .010 2.90 2.74 2.57 2.39 2.29 2.19 2.08 1.96 1.83 1.69 .005 1.65 1.60 1.55 1.48 1.45 1.41 1.37 1.32 1.26 1.19 .100 120 1.91 1.83 1.75 1.66 1.61 1.55 1.50 1.43 1.35 1.25 .050 2.16 2.05 1.94 1.82 1.76 1.69 1.61 1.53 1.43 1.31 .025 2.47 2.34 2.19 2.03 1.95 1.86 1.76 1.66 1.53 1.38 .010 2.71 2.54 2.37 2.19 2.09 1.98 1.87 1.75 1.61 1.43 .005 1.60 1.55 1.49 1.42 1.38 1.34 1.30 1.24 1.17 1.00 .100 ∞ 1.83 1.75 1.67 1.57 1.52 1.46 1.39 1.32 1.22 1.00 .050 2.05 1.94 1.83 1.71 1.64 1.57 1.48 1.39 1.27 1.00 .025 2.32 2.18 2.04 1.88 1.79 1.70 1.59 1.47 1.32 1.00 .010 2.52 2.36 2.19 2.00 1.90 1.79 1.67 1.53 1.36 1.00 .005

Page 133: Escuela Superior de Física y Matemáticas Instituto

133

BIBLIOGRAFÍA

1. Bioestadística. Base para el análisis de las ciencias sociales Wayne W. Daniel Limusa noriega 6ª edición

2. Serie de Biología Fundamental. Introducción a la Bioestadística Robert R. Sokal F. James Rohlf Editorial Reverte S.A.

3. Fundamentos de Estadística en la Investigación Social

Jack Levin Editorial Harla

4. Eestadística Matemática con Aplicaciones

Mendenhall Scheaffer Wackerly

5. Estadística Inferencial Básica

Juana Castillo Padilla Jorge Gómez Arias

Grupo Editorial Iberoamérica