inferencia estadística 2

UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA

ESCUELA DE CIENCIAS BÁSICAS, TECNOLOGÍA E INGENIERÍA

UNIDAD DE CIENCIAS BÁSICAS

Actualización

JEAMMY JULIETH SIERRA HERNÁNDEZ

(Director Nacional de Curso)

100403 – INFERENCIA ESTADÍSTICA

VOLUMEN II

Autor Primera Edición JORGE RONDON

DANIS BRITO

Evaluador

EMERSON CHAPARRO

IBAGUÉ

JUNIO 2012

UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD

ESCUELA DE CIENCIAS BÁSICAS, TECNOLOGÍA E INGENIERIA

CONTENIDO DIDÁCTICO DEL CURSO: 100403 –INFERENCIA ESTADISTICA

COMITE DIRECTIVO

Jaime Alberto Leal Afanador

Rector

Constanza Abadía García

Vicerrectora Académica y de Investigación

Gloria Herrera

Vicerrector de Medios y mediaciones Pedagógicos

Maribel Córdoba Guerrero

Secretaria General

Inferencia Estadística

Tercera Versión

Copyright

Universidad Nacional Abierta y a Distancia

Unidad de Ciencias Básicas UNAD

CAMPOS DE

FORMACIÓN

Básica CRÉDITOS: 2 TRABAJO INDEPENDIENTE: 72

Horas TIPO DE CURSO Teórico CÓDIGO:100403 ACOMPAÑAMIENTO TUTORIAL: 24

OBJETIVO GENERAL:

Que el estudiante comprenda, aplique y desarrolle la teoría y las técnicas de la

inferencia estadística en diversos campos de su saber formativo, y que dicha

aplicación se convierta en una herramienta de uso matemático para la toma de

decisiones sobre hipótesis cuantitativas de datos, basado en la información

extraída de una muestra.

OBJETIVOS ESPECÍFICOS:

Que el estudiante identifique las técnicas y procedimientos que se

deben emplear para que las muestras sean representativas de la población

que se pretende estudiar, de forma que los errores en la determinación de

los parámetros de la población objeto de estudio sean mínimos.

Que el estudiante comprenda el comportamiento de una población a

partir del análisis metódico de una muestra aleatoria de la misma, y que

entienda que la inferencia inductiva de los parámetros estadísticos que

estime sobre dicha muestra, conlleva un error, el cual es posible de ser

cuantificado.

Conocer los criterios técnicos que hay que tener en cuenta antes

de seleccionar un tamaño de muestra.

Identificar el tipo de muestreo de acuerdo a los objetivos del estudio.

Diferenciar y analizar las ventajas y desventajas de la estimación

por intervalos de confianza y las pruebas de hipótesis.

Determinar la prueba o técnica apropiada a aplicar en las diferentes

pruebas de hipótesis paramétricas y No paramétricas.

COMPETENCIA GENERAL DE APRENDIZAJE:

Identificar un procedimiento adecuado para seleccionar de una población una

parte de ella, con el fin de obtener resultados confiables y poder generalizar los

resultados obtenidos a toda la población.

Determinar los estadísticos necesarios para el análisis y solución de situaciones

que implican conjuntos de datos de su disciplina de formación, por medio del

conocimiento de la teoría elemental del muestreo y de las distribuciones

muestrales.

Plantear y desarrollar el proceso de la inferencia estadística para resolver

problemas concretos de investigación en el ámbito de otras disciplinas.

Aplicar apropiadamente los resultados teóricos y metodológicos de la inferencia

estadística de estimación y prueba de hipótesis en el marco de la modelación.

Habilidad para planear una investigación, diseño de instrumentos, definición de

variables, recolección de la información, resumen y presentación de los datos.

UNIDADES DIDÁCTICAS

UNIDAD DOS: ...................................................................................................................................... 6

PRUEBA DE HIPÓTESIS, ANÁLISIS DE VARIANZAS Y ESTADÍSTICAS NO PARAMÉTRICAS .................... 6

CAPITULO CUATRO: PRUEBAS DE HIPÓTESIS .................................................................................. 7

Lección 16: Conceptos Básicos .................................................................................................... 8

Lección 17: Pruebas para la Media y la Diferencia de medias con grandes muestras. ............ 14

Lección 18: Pruebas para la proporción y la Diferencia de proporciones (siempre con grandes

muestras)................................................................................................................................... 26

Lección 19: Pruebas para la media y la diferencia de medias (muestras pequeñas). .............. 34

Lección 20: Pruebas para la varianza ........................................................................................ 45

CAPITULO CUATRO: ANÁLISIS DE VARIANZA ................................................................................ 49

Lección 21: Generalidades ........................................................................................................ 51

Lección 22. Análisis de Varianza de un Factor........................................................................... 52

Lección 23. Comparación Múltiple de Medias (Pruebas “a Posteriori”) .................................. 62

Lección 24. Análisis de varianza con dos factores (diseño de bloques aleatorizados). .......... 63

Lección 25. Análisis de varianza de dos factores con interacción. (Diseño factorial). ............. 68

UNIDAD DOS:

PRUEBA DE HIPÓTESIS, ANÁLISIS DE VARIANZAS Y

ESTADÍSTICAS NO PARAMÉTRICAS

CAPITULO CUATRO: PRUEBAS DE HIPÓTESIS

Introducción

En casos relacionados con situaciones especiales en las cuales se desea

comprobar la efectividad de estándares preestablecidos, la técnica de prueba de

hipótesis resultaba bastante apropiada, por cuanto permite comprobar con

bastante certeza el grado de acierto en la fijación de éstos.

Una hipótesis estadística se define como un supuesto hecho sobre algún

parámetro de la población. Por ejemplo, los siguientes enunciados podrían ser

tomados como hipótesis:

- El ingreso promedio de los trabajadores de la fábrica es de $X.

- El rendimiento promedio de los empleados de dos fábricas es

diferente.

- El promedio de duración de las bombillas es de 1.000 horas.

- El promedio de duración de las llantas es de 100.000 kilómetros.

Ya se ha recabado en muchas ocasiones, que el objetivo es tomar muestras

para extraer alguna conclusión o inferencia sobre la población y que el único

objetivo de examinar muestras, es que las poblaciones suelen ser demasiado

grandes y costosas de estudiar.

Objetivo general. Contrastar la validez de una hipótesis o conjetura que se haya planteado en relación con una situación determinada de la empresa, analizando errores estadísticos posibles en las pruebas de hipótesis Objetivos específicos.

Examinar que se entiende por hipótesis y qué por prueba de hipótesis.

Describir los pasos que se siguen para demostrar una hipótesis.

Describir los errores estadísticos que se pueden presentar.

Realizar pruebas en relación con una y dos medias poblacionales, con una

y dos colas.

Realizar pruebas con una y dos proporciones poblacionales.

Realizar pruebas de hipótesis para datos que se encuentran en una escala

nominal u ordinal con aplicación de la distribución chi cuadrado.

Lección 16: Conceptos Básicos

16. DECISIONES ESTADÍSTICAS

En la práctica, con frecuencia se tienen que tomar decisiones acerca de una

población con base en información muestral.

A tales decisiones se les llama decisiones estadísticas. Por ejemplo, tal vez se

tenga que decidir, con base en datos muestrales, si determinado suero es

realmente eficaz en la curación de una enfermedad, si un método educativo es

mejor que otro, o bien si una moneda está alterada o no.

16.1. Hipótesis

Hipótesis estadísticas: Cuando se trata de tomar una decisión es útil hacer

suposiciones o proposiciones (o conjeturas) acerca de la población de que se

trata. Muchos problemas de ingeniería, ciencia, y administración, requieren que se

tome una decisión entre aceptar o rechazar una proposición sobre algún

parámetro. A estas suposiciones, que pueden ser o no ciertas, se les llama

hipótesis estadísticas. Estas hipótesis estadísticas son por lo general afirmaciones

acerca de las distribuciones de probabilidad de las poblaciones.

Este es uno de los aspectos más útiles de la inferencia estadística, puesto que

muchos tipos de problemas de toma de decisiones, pruebas o experimentos en el

mundo de la ingeniería, pueden formularse como problemas de prueba de

hipótesis. Consultado en la Web de ITC (s.f).

Otras definiciones

“Una hipótesis estadística es una afirmación para verificar acerca de las

características de una o más poblaciones”. Alvarado, J. & Obagi, J. (2008)

“Una hipótesis estadística es una aseveración o conjetura acerca de la distribución

de la población, afirmación que generalmente está asociada a un subconjunto del

espacio del parámetro correspondiente al modelo probabilístico que representa

la citada población”. Mayorga, J. (2004, p. 189)

Una hipótesis estadística es un enunciado provisional referente a uno o más parámetros de una población o grupo de poblaciones. En el proceso de estadística inferencial hay dos tipos de hipótesis: 1. Hipótesis nula, designada mediante Ho y se lee “H subcero”. La letra H

significa hipótesis y el subíndice cero indica “no hay diferencia”. Por lo

general en la hipótesis nula se plantea en términos de “no hay cambio”, “no

hay diferencia”, se plantea con el objetivo de aceptarla o rechazarla.

2. Hipótesis alternativa, describe lo que se considerará si se rechaza la

hipótesis nula. A menudo también se le denomina hipótesis de investigación,

y se designa por H1, que se lee “h subuno”

Otras definiciones

Hipótesis Nula: Es la conjetura inicial, es la suposición que se hace sobre la

base de la experiencia del pasado, el conocimiento a priori y las necesidades

empresariales, es, en un comienzo la respuesta más lógica al problema que

se ha planteado; es el valor que se asumiría como cierto de no poderse hacer

la investigación. La aseveración se enuncia después de la abreviatura y

Mayorga, J. (2004, p. 189).

Hipótesis Alternativa: A toda hipótesis que difiera de la hipótesis dada se le

llama hipótesis alternativa. Por ejemplo, si una hipótesis es p = 0.5, la

hipótesis alternativa puede ser 7 5 . La hipótesis

alternativa a la hipótesis nula se denota H1. Murray, R. ()

16.2. Prueba de hipótesis

Prueba de hipótesis: Según Mayorga, prueba de hipótesis es una de las

acepciones más comunes, al igual que Contraste de hipótesis o Docimacia, para

lo que él prefiere llamar, como justifica en su libro, “juzgamiento de hipótesis”, que

define como, “el proceso que culmina con una decisión de rechazar o de no

rechazar una hipótesis con base en la información de una muestra aleatoria

de una población para la cual se ha asumido un modelo probabilístico

cuya función de densidad es ( )”.

Si se supone que una hipótesis es verdadera, pero se encuentra que los

resultados que se observan en una muestra aleatoria difieren marcadamente de

los resultados esperados de acuerdo con la hipótesis (es decir, esperados con

base sólo en la casualidad, empleando la teoría del muestreo), entonces se dice

que las diferencias observadas son significativas y se estará inclinado a rechazar

la hipótesis (o por lo menos a no aceptarla de acuerdo con la evidencia obtenida).

Murray, R. ()

Pasos en una prueba de hipótesis

La prueba de hipótesis consiste en aplicar técnicas estadísticas que

permitan aceptar o rechazar una hipótesis. Este procedimiento se conoce como

contraste de hipótesis. Las pruebas de hipótesis utilizan un procedimiento

de cinco pasos, los cuales se mencionan a continuación:

1. Plantear las hipótesis nula y alternativa. Definiendo la lateralidad de la

prueba.

2. Determinar el nivel de significancia. (valores aceptables de error I y II)

3. Estimar el valor estadístico de prueba. (a partir de la muestra)

4. Establecer la regla de decisión. (al comparar el valor crítico o teórico con el

de prueba)

5. Tomar la decisión.

Gráfico 1. Pruebas de Hipótesis

16.3. Tipos de error.

La hipótesis nula y alternativa son entonces aseveraciones sobre la población

PRUEBAS DE HIPÓTESIS

Muestras Grandes (Z-normal)

*Meias

*Proporciones

*Diferencia de Medias

*Diferencia de Proporciones

Muestras pequeñas n<30 (T-student)

*Medias

*Diferencia de Medias

Varianza

Una Prueba de hipótesis es el proceso para determinar si las muestras

observadas difieren significativamente de los resultados esperados, ayudando

así a decidir si se acepta o se rechaza la hipótesis.

que compiten entre sí, en el siguiente sentido: ó la hipótesis nula (Ho) es

verdadera, o lo es la hipótesis alternativa (H1), pero no ambas. En el caso ideal,

el procedimiento de prueba de hipótesis debe conducir a la aceptación de Ho

cuando sea verdadera y al rechazo de H1. Desafortunadamente no siempre es

posible puesto que como las pruebas de hipótesis se basan en la información de

la muestra, se debe considerar la posibilidad de cometer errores. La siguiente

tabla muestra los dos tipos de errores que se pueden cometer:

Tabla No.1 Tipos de errores

DECISIÓN SOBRE Ho VERDADERA FALSA

Aceptar H0 Correcta 1 Error tipo II

Rechazar H0 Error tipo I Nivel de significancia

Correcta 1 Potencia de la prueba

Cuando se tiene una hipótesis esta puede ser verdadera o falsa y la decisión que

se toma en la prueba es aceptar o rechazar la hipótesis. Si la decisión que se

toma está de acuerdo con la realidad no se cometen errores, en este caso las

dos buenas decisiones son: aceptar la hipótesis nula cuando es cierta o rechazar

la hipótesis nula cuando es falsa.

Pero cuando la decisión no está de acuerdo con la realidad se pueden comete r

dos tipos de errores vistos anteriormente: rechazar la hipótesis nula cuando en

realidad es cierta, llamado error tipo I representado por alfa ( ); aceptar la

hipótesis nula cuando en realidad es falso, llamado error tipo II representado por

beta ( ), llamados también nivel de significancia. El procedimiento utilizado

consiste en limitarlos a un nivel preestablecido pequeño, generalmente 0.01 ó

0.05. Este planteamiento se le denomina la potencia de la prueba y se

representa así:

Probabilidad de cometer el error tipo I

Probabilidad de rechazar Ho cuando es verdadera.

Probabilidad de NO cometer el error tipo I (1 - ) Probabilidad de acertar la Ho cuando es verdadera.

Probabilidad de cometer el error tipo II Probabilidad de aceptar Ho cuando es falsa. Probabilidad de NO cometer el error tipo II

(1 - ) Probabilidad de rechazar Ho cuando es falsa.

Toda prueba de hipótesis determina una región de rechazo de la hipótesis

llamada región crítica, la cual depende del tipo de hipótesis que se pruebe y se

determina utilizando un nivel de significancia .

16.4. El Nivel mínimo o de rechazo.

Al establecer una prueba de hipótesis una de las formas de llegar a una

conclusión es a través de la comparación del valor crítico (o teórico) con el de

prueba. Otra forma de poder tomar una decisión es, usar en lugar del valor

crítico, es decir, observar la probabilidad de rechazar Ho cuando es verdadera

(error tipo I), o como afirma Alvarado, J.A y Otros (2008), responder a la pregunta:

¿cuál es el riesgo que debo correr para poder rechazar Ho? Si ese riesgo es

grande, no se puede rechazar Ho; si es pequeño se rechaza Ho.

El p-valor

El mínimo de rechazo recibe también el nombre de “valor p” en el cual Ho sería

rechazado. Si el p-valor es menor que el nivel de significancia, la hipótesis nula se

rechaza. Lo puede encontrar en algunos textos como p-value en inglés. Más

adelante puede verse un ejemplo dónde se utiliza el p-value para rechazar la

hipótesis nula.

16.5. Lateralidad de las pruebas

Dependiendo del planteamiento de la hipótesis alternativa (H1) se distingue dos

tipos de pruebas:

En una prueba de hipótesis unilateral derecha, no se puede rechazar la

hipótesis nula Ho, si el estadístico de prueba (o calculado) es menor o igual

que el teórico (tabulado). O lo mismo es, se rechaza la hipótesis nula cuando

el valor calculado es mayor que el tabulado

𝑆𝑖 𝑝 − 𝑣𝑎𝑙𝑢𝑒 < 𝛼

𝑒𝑛𝑡𝑜𝑛𝑐𝑒𝑠 𝑙𝑎 𝑃𝑟𝑢𝑒𝑏𝑎 𝑒𝑠 𝑠𝑖𝑔𝑛𝑖𝑓𝑖𝑐𝑎𝑡𝑖𝑣𝑎

Una prueba de hipótesis es significativa si el p-value es menor que el nivel de

significación, es decir:

Pruebas bilaterales.

Pruebas unilaterales

Prueba Bilateral: El investigador desea comprobar la hipótesis de un cambio en

el parámetro. El nivel de significancia se divide en dos y existen dos regiones de

rechazo.

Prueba Unilateral Derecha: El investigador desea comprobar la hipótesis de un

aumento en el parámetro, en este caso el nivel de significancia se carga todo

hacia el lado derecho, para definir las regiones de aceptación y de rechazo

Prueba Unilateral Izquierda: El investigador desea comprobar la hipótesis de una

disminución en el parámetro, en este caso el nivel de significancia se carga todo

hacia el lado izquierdo, para definir las regiones de aceptación y de rechazo.

𝐻 𝑃𝑎𝑟á𝑚𝑒𝑡𝑟𝑜 𝑥

Prueba de hipótesis:

𝐻 𝑃𝑎𝑟á𝑚𝑒𝑡𝑟𝑜 ≤ 𝑥

𝐻 𝑃𝑎𝑟á𝑚𝑒𝑡𝑟𝑜 𝑥

𝐻 𝑃𝑎𝑟á𝑚𝑒𝑡𝑟𝑜 ≥ 𝑥

𝐻 𝑃𝑎𝑟á𝑚𝑒𝑡𝑟𝑜 < 𝑥

Gráfico No. 1. Prueba bilateral (o a dos colas)

Gráfico No. 2. Prueba unilateral izquierda (inferior)

Gráfico No. 3. Prueba unilateral derecha (superior)

Lección 17: Pruebas para la Media y la Diferencia de medias con

grandes muestras.

valor crítico Valor crítico

Región de rechazo

Región de aceptación

Verdadera)

Valor crítico

Región de rechazo Región de aceptación

Ho (Verdadera)

Valor crítico

Ho (verdadera)

Región de aceptación Región de rechazo

17. Prueba para la media y diferencia de medias (Muestras grandes

( ≥ )

En las pruebas para la media de población de muestra grande se distingue dos

situaciones:

Conocida la desviación estándar de la población.

Desconocida la desviación estándar de la población.

17.1. Prueba para la media (conocida la desviación estándar poblacional).

Cuando se tiene la oportunidad de conocer

17.1.1. Prueba bilateral (para la media)

El procedimiento de prueba de hipótesis para pruebas bilaterales a cerca de la

media de una población, cuando se considera el caso de muestra grande ≥ 3

en que el teorema del límite central permite suponer que la media de la

distribución muestral de medias se puede aproximar a una distribución normal de

probabilidad, y la desviación estándar de la población es conocida, sigue la

siguiente forma general:

Muestra grande ( ≥ 3 ) Planteamiento de hipótesis:

Estadístico de prueba para desviación estándar poblacional conocida:

Ecuación No.1

Regla de rechazo a un nivel de significancia :

220 Z Zsi o -Zz si HRechazar

Ejemplo

La empresa coca cola ha establecido como política general para su producción en

pequeña escala, un promedio ( ) de llenado para sus envases de 200

centímetros cúbicos con una desviación estándar ( ) de 16 centímetros cúbicos.

Dado que recientemente se han contratado y diseñado nuevos métodos de

producción, utilizando un nivel de significancia del 0.01, se desea probar la

hipótesis, que el promedio de llenado sigue siendo de 200 centímetros cúbicos.

Para tal efecto se tomó una muestra de 100 envases llenos, los cuales mostraron

una media de llenado de 203.5 centímetros cúbicos.

En los intervalos de confianza el alfa siempre se divide en

dos, para distribuirlo en las dos colas, en las pruebas de

hipótesis el alfa sólo se divide, si la prueba es a dos colas

Paso 1: Planteamiento de hipótesis

Planteamiento de la hipótesis nula: la media poblacional es 200

Planteamiento de la hipótesis alternativa: La media poblacional es

diferente a 200. Estas hipótesis se expresan como sigue:

Esta es una prueba de dos colas, debido a que la hipótesis alternativa ( ) es

planteada en palabras de diferencia, es decir, la hipótesis no indica si la media

es mayor o menor que 200.

Paso 2: Nivel de significancia 𝜶

El nivel de significancia es de 0.01 que es el alfa ( ), la probabilidad de

cometer el error de tipo uno, es decir la probabilidad de rechazar la hipótesis

siendo verdadera. Para éste tipo de problema se utiliza la distribución normal

estandarizada en Z.

Paso 3: Estadístico de prueba (o calculado)

El valor estadístico de prueba para este tipo de problema es utilizando la

distribución normal estandarizada en Z:

Paso 4: Estadístico teórico (o tabulado) y regla de decisión

La formulación de la regla de decisión consiste en hallar el valor crítico de Z

con una prueba de dos colas. En la tabla de la normal estándar (descargar

tabla) se identifica el valor de Z correspondiente a una probabilidad igual

1 − 𝛼2 1 − 5 995. El valor más cercano a 0,995 es 0.995059 que

corresponde a un valor de Z igual a 2.58, que es el valor crítico para la prueba

de hipótesis. Dado que es una prueba de dos colas, se tendrán dos valores

críticos, tal como se indica en el siguiente gráfico:

Gráfico No. 4. Prueba bilateral (a dos colas)

La regla de decisión es aceptar la hipótesis nula (Ho), puesto que el valor

estadístico de prueba (2.19) ha caído en la zona de aceptación de dicha

hipótesis

Se concluye que el llenado de los envases cumple con las políticas generales de

la empresa, y la diferencia de promedios se atribuye a variaciones aleatorias.

17.1.2. Prueba unilateral (para la media)

Con anterioridad de dijo que la hipótesis alternativa indica una dirección ya sea

“mayor que” o “menor que”, la prueba es de una cola. El procedimiento para

demostrar la hipótesis es por lo general igual a la prueba de dos colas, excepto

que el valor crítico es diferente. Ahora se modificará la hipótesis alternativa del

problema anterior, sobre el llenado de los envases de una factoría de coca cola,

pues se sospecha que el promedio de llenado está por encima de lo que la

empresa determina (por eso en la hipótesis alterna se plantea una relación mayor

Igual al ejemplo anterior.

El valor crítico cambia. En la tabla de la distribución normal se identifica el valor

Paso 5: Tomar la Decisión

Prueba de

hipótesis para la

media (Bilateral)

de Z correspondiente a una probabilidad igual 0,99. El valor más cercano a 0,99

corresponde a un valor de Z igual a 2.33, que es el valor crítico para la prueba de

hipótesis. Dado que es una prueba de una cola, se tendrá el valor crítico, tal como

se indica en la siguiente gráfica:

Igual, puesto que el valor estadístico de prueba está ubicado en la zona de

aceptación de la hipótesis nula, es decir, se está diciendo que el promedio de

llenado es de 200, tal como está planteada la hipótesis nula.

17.2. Prueba para la media (desconocida la desviación estándar

poblacional).

En la mayoría de los casos se desconoce la desviación estándar de la población

, la cual debe calcularse en estudios previos o se estima utilizando la desviación

Escala Z |2.33

Ho (verdadera)

Prueba de

hipótesis para la

media (unilateral)

estándar de la muestra (s). En estos casos se utiliza la desviación estándar de la

muestra, quedando la fórmula para el estadístico de prueba así:

Ecuación No.2

Ejemplo

Una cadena grande de almacenes expide su propia tarjeta de crédito y Ud. desea

saber si los saldos promedios por créditos de los clientes son mayores que 400

unidades monetarias. El nivel de significancia se fija en 0.05. Una revisión

aleatoria de 172 clientes, reveló que el promedio por crédito de los clientes es de

407 unidades monetarias y la desviación estándar de la muestra es de 38

unidades monetarias. ¿Concluye UD. que la media poblacional es mayor que 400

unidades monetarias?

Dado que la hipótesis alternativa se enuncia “mayor que”, se aplica una cola a la

derecha, y como la muestra es grande (n >= 30), se aplica la distribución normal

estandarizada en Z.

El nivel de significancia se fija en 0.05

400407

El valor crítico es 1.645 y la ubicación del estadístico de prueba se encuentra en la

zona de rechazo de la hipótesis nula, por lo tanto se acepta la hipótesis

alternativa.

La decisión a tomar por Ud. es que el promedio de los créditos es mayor que 400

unidades monetarias con un grado de confianza del 95%.

17.3. Prueba para la diferencia de medias (desconocida la desviación

estándar poblacional).

En la mayor parte de los casos no se conoce la varianza o desviación estándar

real de ninguna población. En general la única información que es posible obtener

se relaciona con las medias muestrales y , las varianzas muestrales y

y las desviaciones estándar de las muestras y . Si se hacen las suposiciones

que las muestras se obtienen de manera aleatoria e independiente a partir de las

poblaciones respectivas que tiene una distribución normal y que las varianzas

poblacionales son iguales, es decir,

, se puede utilizar una prueba de

distribución normal de varianzas combinadas para determinar si existe una

diferencia significativa entre las dos poblaciones.

Recordemos que para diferencias de medias se utiliza el siguiente estadístico de

prueba:

Escala Z |2.42

Ho (verdadera)

|1,645

Unidades monetarias de crédito

1- =0,95 = 0,05

( ) ( )

√ 12

Ecuación No.3

Ejemplo

Una obra de construcción requiere un gran número de bloques de concreto. Dos

empresas abastecedoras A y B licitan para su adjudicación, y dentro del pliego de

condiciones se estipula que la resistencia mínima es de 1.000 unidades métricas a

la resistencia, y el contrato se adjudicará a la empresa que mayor resistencia

presente su producto.

Se plantea la hipótesis nula (Ho) que no existe diferencia entre las resistencias

medias a la compresión de los bloques de concreto. La hipótesis alternativa se

plantea en términos que hay alguna diferencia significativa entre las dos

resistencias medias a la compresión. Simbólicamente se expresa así:

Dado que la hipótesis alternativa no indica una dirección específica, la prueba es

de dos colas

Se elige un nivel de significancia de 0.01. Esto equivale a cometer un error de tipo

I. Se usará una distribución normal estandarizada en Z, razón por la cual se debe

seleccionar una muestra que al menos contenga como mínimo 30 unidades de

bloque, cada una de las empresas licitantes.

El estadístico de prueba a aplicar está dado por la siguiente fórmula:

√ 12

Ecuación No.4

Suponga que Ud. Seleccionó una muestra de cada una de las empresas licitantes

y determinó la resistencia a la compresión, con los siguientes resultados:

Tabla No.2 Resultados de muestra

Licitante A Licitante B

X = 1.070 X = 1.020

n = 81 n = 64

S = 63 S = 57

El valor del estadístico de prueba es:

98827.9

020.1070.122

Recuérdese que se seleccionó un nivel de significancia del 0.01 y se utilizará una

prueba de dos colas. Los valores críticos y zonas de aceptación para las hipótesis

se presentan en la siguiente figura:

valor crítico -2.58| |2.58

Región de rechazo

0.01/2= 0.005

Región de rechazo

0.01/2=0.005

Región de aceptación

Resistencia ladrillos

Ho (Verdadera)

Gráfico No. 7. Prueba bilateral (o a dos colas)

El valor Z calculado queda en el área de rechazo de la hipótesis nula, por lo tanto se

concluye que la media poblacional de la resistencia a la compresión es diferente en las

dos empresas y la diferencia no se debe al azar del muestreo, con un grado de confianza

del 99%.

17.4. Prueba para la diferencia de medias (Muestras independientes

desviación estándar poblacional conocida).

( 1− 2)−( 1− 2)

√ 12

Ecuación No.5

Si − < <

entonces No se rechaza

Recuerde que es el estadístico de prueba (o calculado)

Ejemplo

Un constructor está considerando dos lugares alternativos (dos comunidades)

para construir un centro comercial. Como los ingresos de los hogares de la

comunidad son una consideración importante en ésta selección, desea probar que

el ingreso promedio de la primera comunidad excede al promedio de la segunda

comunidad en cuando menos $1.500 diarios. Con la información de un censo

realizado el año anterior sabe que la desviación estándar del ingreso diario de la

primera comunidad es de $1.800 y la de la segunda es de $2.400

Para una muestra aleatoria de 30 hogares de la primera comunidad, encuentra

que el ingreso diario promedio es de $35.500 y con una muestra de 40 hogares de

la segunda comunidad el ingreso promedio diario es de $34.600. Pruebe la

hipótesis con un nivel de confianza del 95 por ciento.

− ≥ 15

− < 15

Recordemos que el nivel de confianza es 95%

Es decir 1 − 95 eso indica que:

El tamaño de las muestras es grande y las varianzas poblacionales son conocidas,

por consiguiente la estadística de trabajo a utilizar la ecuación 5.

Tabla No.3 Resultados de las comunidades

Comunidad 1 Comunidad 2

√ 12

(35 − 346 ) − 15

√18 2

3 24 2

−1 195

Para un nivel de confianza del 95 %, ya que es una prueba de unilateral izquierda, lo que se busca es el valor crítico que deja por encima un 95% de área, por tanto es lógico pensar que el valor será un Z negativo, en la tabla de la distribución normal se tiene un valor de Z de -1,64 (estadístico teórico o tabulado). Como puede observarse en el gráfico No.8, el estadístico de prueba se ubica en la zona de aceptación de la hipótesis nula.

Gráfico No. 8. Prueba unilateral izquierda (cola inferior)

Por lo tanto, con una confiabilidad del 95 por ciento, la diferencia entre el ingreso promedio por hogar en las dos comunidades es mayor a $1.500 diarios.

En una prueba de hipótesis la confiabilidad significa la probabilidad

de no rechazar la hipótesis nula que es cierta, porque el nivel de

confianza es la probabilidad que el estadístico de prueba se

encuentre en la zona de aceptación.

Lección 18: Pruebas para la proporción y la Diferencia de

proporciones (siempre con grandes muestras).

18. Prueba de hipótesis para proporciones.

Se entiende por proporción, la porción relativa o porcentaje que expresa la parte

de la población o muestra que tiene un atributo particular de interés como el

resultado comparativo de contar algo, Se cuenta el número de partes defectuosas;

se cuenta el número de votantes por la preferencia de un candidato. Así la prueba

de proporción implica niveles nominales de medida.

18.1. Prueba para una proporción

Para demostrar una proporción muestral se requiere cumplir con ciertos principios

binomiales, tales como:

= 0.05

Valor crítico -1.64| -1.195|

Región de rechazo Región de aceptación

Ho (Verdadera)

1. Los datos recolectados son el resultado de un conteo.

2. El resultado de un experimento se clasifica en una de las dos

categorías mutuamente excluyentes: un éxito o un fracaso.

3. La probabilidad de éxito se mantiene constante.

4. Los intentos para realizar cada experimento son independientes.

5. El tamaño de la muestra debe ser tan grande para que se dé la

siguiente condición: (n)(p)>5 y (n)(1-p)>5

Para realizar una prueba de hipótesis a fin de evaluar la magnitud de la diferencia

entre la proporción muestral p y la proporción poblacional (P), se puede usar el

siguiente estadístico de prueba:

Ecuación No.6

Dónde:

P es la proporción muestral.

P es la proporción poblacional.

n es el tamaño de la muestra.

De otra manera, en lugar de examinar la proporción de éxitos en una muestra

como en el caso anterior, es posible estudiar el número de éxitos en una muestra,

para determinar el número de éxitos esperados o hipotéticos en la población, se

utiliza el siguiente estadístico de prueba:

Ecuación No.7

Dónde:

X es el número de éxitos en la muestra.

P es la proporción hipotética de éxitos.

Ejemplo

Suponga que para que lo elijan a Ud. como alcalde, es necesario que logre al

menos el 80% de los votos del barrio donde vive. Dado su interés decide hacer

una encuesta en el barrio con una muestra de 2.000 personas, para ver la

posibilidad y 1.550 dieron respuesta favorable por sus aspiraciones. Pruebe la

hipótesis de favorabilidad, con un nivel de significancia del 0.05.

Antes de realizar el procedimiento de los cinco pasos, veamos si cumple la

condición de:

(n)(p)>5 (2.000)(0.8)>5 1.600>5 Cierto

(n)(1-p)>5 (2.000)(0.2)>5 400>5 Cierto

La hipótesis nula se plantea diciendo que Ud. sí tiene el 80% de favorabilidad de

voto en su barrio y la hipótesis alternativa en que no alcanza a tener este

porcentaje de favorabilidad de voto. Simbólicamente se expresa como sigue:

La distribución de probabilidad a utilizar es la normal estandarizada en Z, con un

nivel de significancia del 5%, con una cola a la izquierda.

Dónde:

P es la proporción muestral.

P es la proporción poblacional.

n es el tamaño de la muestra.

)1( Es el error estándar de la proporción poblacional.

Reemplazando los diferentes valores en la ecuación se tiene:

80.20089443.0

00008.0

80.0775.0

)80.01(80.0

80.0000.2

La regla de decisión se toma sobra la base de un valor critico calculado a partir de

la tabla de distribución Z, con un área de 0.4500 (0.5000-0.0500)

Gráfico No. 9. Prueba unilateral izquierda (cola inferior)

Como el valor Z (-2080) está en la región de rechazo de la hipótesis nula,

entonces se acepta la hipótesis alternativa y se concluye la favorabilidad de voto

es menos al 80%.

Ejemplo

Probar al nivel de significancia del 0.01 la aseveración que el 55% de las familias

que planean adquirir una residencia en Melgar desea su ubicación en un

condominio. Para su estudio Ud. toma una muestra aleatoria de 400 familias que

planean comprar una residencia en Melgar, de las cuales 228 familias desean en

un condominio.

La hipótesis nula se plantea diciendo que el 55% de las familias desean adquirir

residencia en un condominio en Melgar.

La distribución de probabilidad a utilizar es la normal estandarizada en Z, con un

nivel de significancia del 1%, con dos colas.

80.00248747.0

)55.01(55.0

55.0400

La regla de decisión se toma sobre la base del siguiente gráfico:

Gráfico No. 10. Prueba Bilateral (a dos colas)

La hipótesis nula que la proporción verdadera es del 55% no es rechazada a un

nivel de significancia del 1%, concluyendo que el 55% de las familias planean

adquirir residencia vacacional en Melgar lo desean en un condominio.

18.2. Prueba para diferencias entre dos proporciones

Se presenta a continuación un ejemplo donde se emplea la prueba de proporción

para dos poblaciones, utilizando el siguiente estadístico de prueba:

)1()1(

Ecuación No.8

Dónde:

1n Es la cantidad seleccionada en una muestra.

2n Es la cantidad seleccionada en la otra muestra.

Es la media ponderada de las proporciones muestrales.

1X Es la cantidad de éxitos de la primera muestra.

2X Es la cantidad de éxitos de la segunda muestra.

21yPP Proporción de éxitos de la población uno y dos respectivamente.

Ejemplo

Una fábrica de perfumes ha desarrollado un nuevo producto. Varias pruebas de

comparación indican que el perfume tiene un buen potencial en el mercado. Sin

embargo el departamento de mercadotecnia y publicidad quieren planear una

estrategia de manera que el producto llegue e impresione al sector más grande

posible del público comprador. Una de las preguntas es si prefiera el perfume una

proporción mayor de mujeres jóvenes o una proporción mayor de mujeres

maduras. Por tanto, existen dos poblaciones: una que consta de mujeres jóvenes

y otra de damas maduras. Se usó una prueba estándar de aroma. Se

seleccionaron aleatoriamente damas y se les pidió que olieran varios perfumes,

incluyendo el que suelen usar, y por supuesto el nuevo perfume. La persona que

realiza la prueba es la única que conoce el nombre de los perfumes. Cada mujer

selecciona el perfume que le agrada más.

La hipótesis nula se plantea diciendo que no hay diferencia entre la proporción de

mujeres jóvenes y maduras que prefieren el nuevo perfume. La hipótesis

alternativa se plantea que las dos proporciones no son iguales.

Se designa P subuno como la proporción de mujeres jóvenes y P subdos como la

proporción de mujeres maduras.

Se decidió un nivel de significancia del 0.05.

Los planes son tomar una muestra al azar de 100 mujeres jóvenes designada por

n subuno y una muestra de 200 mujeres mayores designada como n subdos. Los

resultados una vez hecha el experimento dio los siguientes resultados: de las 100

mujeres jóvenes 20 eligieron el nuevo perfume, designando este valor como X

subuno; y de las 200 mujeres maduras 100 prefirieron el nuevo perfume,

designando este valor como X subdos.

La proporción ponderada, da como resultado:

40.0300

200100

0.506.0

)40.01(40.0

200100

)1()1(

Los valores críticos para un nivel de significancia del 5% son –1.96 y +1.96. Igual

que en los otros casos, la siguiente grafica establece la regla de decisión:

El valor de Z calculado de –5.0 se encuentra en el área de rechazo de la hipótesis

nula. Por tanto, la hipótesis que las proporciones son iguales se rechaza a un nivel

del 5% de significancia.

Ejemplo

Dos lotes de frutas conformados cada uno por 250 unidades son tratados y

almacenados en iguales condiciones salvo que el lote No 1 está a temperatura

ligeramente inferior que el lote No 2. Pasado un tiempo se encuentra que el lote

No 1 hay 225 frutas sanas y en el lote No 2 hay 200 sanas. Probar la hipótesis que

la temperatura más baja favorece la conservación de las frutas al nivel de

significación de 0.05.

Utilizando la distribución de probabilidad normal con ensayo unilateral a la derecha

con un nivel significativo de 0.05, el valor critico es de 1.645.

13.30319.0

)15.0)(85.0(

80.090.0

)1()1(

85.0250250

200225

Gráfico No. 12. Prueba unilateral superior (cola derecha)

Como 3.12>1.645 se rechaza la hipótesis nula y se acepta la hipótesis alternativa.

La temperatura más baja favorece la conservación de las frutas.

Lección 19: Pruebas para la media y la diferencia de medias

(muestras pequeñas).

19. Pruebas de hipótesis para pequeñas muestras.

Ahora veamos el caso en que las muestras son pequeñas, 30n , pero donde la

distribución muestral del estadístico de prueba se puede aproximar a una

distribución t student. Dicha aproximación es posible cuando los valores

subyacentes de la población son casi normalmente distribuidos, y cuando

intervienen poblaciones donde las desviaciones estándar, aunque desconocidas,

se sabe que son iguales. Habiendo estudiado pruebas para muestras grandes con

todo detalle, podemos restringirnos a ejemplos en donde se aplique este tipo de

distribución.

19.1. Prueba para media (pequeña muestra)

Si también es razonable suponer que la población tiene una distribución normal de

probabilidad, con la distribución t se puede hacer inferencia a cerca del valor de la

media de la población.

Ejemplo

Una compañía de seguros revela que en promedio la investigación por demandas

en accidentes y todos los trámites tiene un costo promedio de 60 unidades

monetarias. Este costo se considera exagerado comparado con el de otras

compañías del mismo tipo. A fin de evaluar el costo se seleccionó una muestra

aleatoria de 26 demandas recientes y se realizó el estudio de costos. Se concluyó

que el costo promedio es de 57 unidades monetaria con una desviación estándar

de 10 unidades monetarias. Con un nivel de significancia del 0.01 se puede decir

que ¿el estudio reveló un costo menor al establecido por la empresa?

La hipótesis nula se plantea en el sentido que el costo promedio es de 60

unidades monetarias. La hipótesis alternativa que el costo es menor a 60 unidades

monetarias. Esto se expresa en la siguiente forma:

La prueba es de una cola a la izquierda, según el planteamiento de la hipótesis

alternativa.

Se usa un nivel de significancia del 0.01 con una distribución “t”, en consideración

a que la muestra en menor a 30, es decir, es una pequeña muestra.

Utilizando los datos de la muestra, se utiliza la siguiente fórmula como estadístico

de prueba:

Los valores críticos para la distribución “t” se encuentran en la tabla

correspondiente (anexo D), con 25 grados de libertad (26 – 1), prueba de una cola

a un nivel de significancia de 0.01, correspondiendo un valor crítico de 2.485. En el

siguiente figura se indica el presente planteamiento:

Gráfico No. 13. Prueba unilateral superior (cola derecha)

Puesto que –1.53 se encuentra en la región de aceptación de la hipótesis nula a

un nivel del 1% de significancia, se concluye que los costos para los tramites de

seguros de accidente no se han disminuido y se mantiene a un nivel promedio de

costo de 60 unidades monetarias.

Ejemplo

Una empresa produce elementos con un promedio de 43 mm de largo. Un ajuste

en las máquinas de producción supone que dicho estándar ha cambiado. Se

quiere probar ésta hipótesis con un nivel de significancia del 0.02.

Para afrontar el problema Ud. selecciona una muestra aleatoria de 12 elementos y

procede a medir su largor con los siguientes resultados:

Tabla No. 4. Selección muestra aleatoria

Elemento 1 2 3 4 5 6 7 8 9 10 11 12

Medida 42 39 42 45 43 40 39 41 40 42 43 42

Plantea sus hipótesis:

Como hipótesis nula que no se ha producido un cambio en las dimensiones del

producto. Como hipótesis alternativa que se ha producido un cambio en las

características internas del producto debido a los ajustes en las máquinas.

Se dispone a probar la hipótesis con un nivel de significancia del 0.02, utilizando la

distribución “t” porque es una pequeña muestra, con 11 grados de libertad

aplicando el principio de (n- 1) y cálculo para dos colar puesto que la hipótesis

alternativa está planteada desde el punto de vista de “diferente”.

El estadístico de prueba a utilizar es el siguiente:

Procede al cálculo de la media y la desviación estándar muestral:

5.4112

Con la información anterior, aplica la fórmula del estadístico de prueba:

0.435.41

Para aplicar la regla de decisión, muestra en el siguiente gráfico el planteamiento

significancia del 0.02 y se acepta la hipótesis alternativa, concluyendo que los

ajustes en las máquinas sí causaron un cambió en la calidad de control en el

largor de los diferentes elementos que se producen.

Anteriormente se analizó ampliamente la prueba de hipótesis para cuando las

muestra son pequeñas, es decir, el tamaño de la muestra es menor a 30. A

continuación se propone un ejercicio de aplicación, para que Ud. los desarrolle

atendiendo las sugerencias dadas.

19.2. Prueba para dos medias muestrales (pequeña muestra)

Una prueba que utiliza la distribución t también puede aplicarse para comparar dos

medias muestrales que tienen las siguientes características:

1. Las poblaciones deben de distribuirse normalmente. 2. Las poblaciones deben de ser independientes. 3. Las varianzas de las poblaciones deben de ser iguales. 4. Las muestras tienen menos de 30 observaciones. 5. Las desviaciones estándar de las poblaciones no se conocen.

Cuando se está frente a estas características, el estadístico de prueba a utilizar es

el siguiente:

Ecuación No.9

Dónde:

21 XyX Las medias de las muestras

21ynn Los tamaños de las muestras

1 ySS Las varianzas de las muestras

G.L. Grados de libertas, igual a = 221 nn

Ejemplo

Se ha propuesto realizar un examen de estadística a dos grupos de estudiantes,

con el propósito de saber si los grupos tienen similares conocimientos sobre

pruebas de hipótesis. Para ello Ud. seleccionó el grupo A compuesto de 5

estudiantes de educación a distancia y el grupo B compuesto por 6 estudiantes de

educación presencial, y los sometió a la prueba, dando como resultado los

siguientes tiempos en minutos:

Tabla No. 5. Prueba para dos grupos

Educación a distancia Educación presencial

Probar con un nivel de significancia del 0.10 si existe alguna diferencia de

habilidad en los conocimientos de los dos grupos.

Las hipótesis las plantea en los siguientes términos:

La hipótesis nula consistente en que los dos grupos no tienen alguna diferencia en

la habilidad de conocimiento, y la hipótesis alternativa en que existe diferencia

entre los grupos sobre la habilidad en la aplicación de los conocimientos.

Prueba la hipótesis con un nivel de significancia del 10%, utilizando la distribución

t student porque las muestras son menores que 30, con 9 grados de libertad (5+6

– 2) y prueba de dos colar porque la hipótesis alternativa está planteada en

función de “diferente”.

Para el cálculo del estadístico de prueba se requiere estimar las medias de los

grupos y sus varianzas, los cuales se presentan en el siguiente cuadro:

Tabla No.6. Resultados para los grupos de estudiantes

Grupo estudiantes a distancia Grupo presencial

Media = 4 Media = 5

Varianza = 8.5 Varianza = 4.4

Muestra = 5 Muestra = 6

6620.0

164.4155.8

Gráfico No. 15. Prueba Bilateral (a dos colas). Diferencia de dos medias

La decisión es no rechazar la hipótesis nula debido a que el valor del estadístico

de prueba –06620 ha caído en la zona de aceptación de dicha hipótesis,

concluyendo que no existe diferencia en la habilidad de aplicación de

conocimientos entre los estudiantes a distancia y los estudiantes de presencial,

con un nivel de significancia del 10%.

19.3. Prueba de hipótesis para observaciones pareadas o relacionadas

La característica principal para aplicar este tipo de prueba, es que las muestras

sean dependientes y el tamaño de cada muestra sea inferior a 30 elementos

seleccionados.

Ejemplo

Un grupo de alumnos registra un índice de puntuación en estadística, que se

considera muy bajo para aceptarlos al siguiente nivel. Proceden a tomar un curso

de nivelación, obteniendo los siguientes registros antes y después del curso. Con

un nivel de significancia del 0.05 probar si el curso de nivelación mejoró las

condiciones del grupo.

Antes 128 105 119 140 98 123 127 115 122 145

Después 135 110 131 142 105 130 131 110 125 149

En estas condiciones hay un par de índices de eficiencia para cada miembro del

grupo, antes y después del curso,; éste conjunto de pares es lo que se denomina

muestra por pares. La prueba de hipótesis que se realiza para determinar si hay

diferencia entre los índices antes y después del curso de nivelación, es lo que

denomina prueba de diferencia por pares. Obsérvese que las dos muestras, una

antes y una después, dependen entre sí, debido a que los mismos alumnos están

en ambas pruebas, por tanto son dependientes.

La muestra está constituida por la diferencia entre los registros de puntuación

antes y después del programa. Así, la media de las diferencias entre los registros

de rendimiento, se designa mediante d . Se presenta a continuación el

procedimiento de la prueba:

La hipótesis nula plantea que no hay diferencia de eficiencia después del curso. La

hipótesis alternativa plantea que el programa de nivelación mejoró el nivel de los

estudiantes.

Se usa un nivel de significancia del 5%, la muestra seleccionada es de 10

estudiantes considerada pequeña muestra, la distribución de probabilidad a utilizar

es la “t” student, con n – 1 grados de libertad.

El estadístico de prueba a utilizar es:

Ecuación No.10

Dónde:

d : es la media de la diferencia entre las observaciones por pares.

dS : es la desviación estándar de las diferencias entre las observaciones por

pares.

n: es el número de observaciones por pares.

G.L: son los grados de libertad (n –1)

Para determinar el cálculo del estadístico de prueba se requiere conocer la media

de las diferencias y su desviación estándar, para lo cual procedemos a su cálculo

utilizando el siguiente cuadro:

Tabla No. 7. Calculo estadístico sobre diferencia de medias

Muestra Registro

Registro

después

Diferencia d Diferencia al

cuadrado

Sumas 46 386

60.410

40.4110

Aplicando la fórmula, se obtiene:

El valor crítico de t para esta prueba de una cola a la derecha, es 1.833 que se

obtiene en la tabla de la distribución “t” (anexo D), ubicando en la columna de la

izquierda 9 grados de libertad y recorriendo a la derecha hasta la columna de una

cola con 0.05 nivel de significancia. En la siguiente gráfica se indica lo expuesto:

Gráfico No. 16. Prueba unilateral superior (cola derecha). Prueba de hipótesis por pares

Como el valor t (3.30) está en la región de rechazo de la hipótesis nula, entonces

se acepta la hipótesis alternativa y se concluye que el programa de adiestramiento

para los alumnos fue eficaz para aumenta su eficiencia.

Lección 20: Pruebas para la varianza

20. Pruebas de hipótesis para la varianza

Como su nombre lo indica, consiste en comparar tres o más medias de una

muestra para identificar su homogeneidad o variabilidad. esta técnica estadística,

normalmente es utilizada para analizar resultados en la investigación con diseños

experimentales y cuasi-experimentales; muchas veces necesitamos comparar dos

o más distribuciones que corresponden a variaciones de una misma variable

dependiente, afectada por una o más variables independientes.

Comparación de dos varianzas poblacionales

Su utilidad radica en determinar si una población normal tiene más variación que

otra población que se considera también normal. Como ejemplo se pueden

mencionar, si dos máquinas dedicadas a producir cierto artículo de precisión

pueden ser confiables en el control de calidad, es decir, el producto tiene el mismo

largor, el mismo diámetro y las variaciones presentadas son similares.

Ejemplo

La tasa media de rendimiento de dos tipos de acciones se puede apreciar en el

siguiente cuadro, se desea saber si el rendimiento promedio es diferente a un nivel

de significancia del 0.10.

Tabla No. 8. Tasa de rendimiento de las acciones

Acciones Rendimiento

promedio

Desviación

estándar

Tamaño de la

muestra

Tipo A

Tipo B

La variación de los rendimientos promedios de las acciones es igual como la

hipótesis nula. La variación de los rendimientos de las acciones es diferente como

hipótesis alternativa.

Se selecciona un nivel de significancia de 0.01 utilizando la distribución F.

El valor del estadístico de prueba sigue una distribución F, con la siguiente

relación:

Se acostumbra a colocar el mayor valor en el numerador, de tal forma que la

relación siempre será por lo menos igual a uno.

El valor crítico se obtiene del Anexo F, para lo cual se reproduce una parte de la

tabla. Debido a que utiliza una prueba de dos colas, el nivel de significancia para

cada cola será de:

Grados de libertad para el numerador: n – 1 = 7-1 = 6

Grados de libertad para el denominador: n – 1 = 8 – 1 = 7

Para encontrar el valor crítico, se incorpora parte de la tabla F:

Tabla No. 9. Grados libertad numerador denominador

GRADOS LIBERTAD NUMERADOR

Denominador

5 6 7 8

Dado que el valor de la distribución F (5.76) se encuentra a la derecha del valor

crítico (3.87), se acepta la hipótesis alternativa y se concluye que los rendimientos

promedios de las acciones son diferentes.

Ejercicios

A continuación se proponen dos ejercicios para que los desarrolle aplicando las

sugerencias propuestas:

1. Se lanza una moneda 200 veces y se obtienen 105 caras. Si el nivel de

significancia es de 1% probar la hipótesis que la probabilidad de caras es de ½

contra la hipótesis:

a. Que es mayor de ½. b. Que es menor de ½. c. Que es diferente de ½.

Sugerencia: En este caso utilice las propiedades de la distribución binomial donde:

1200 np 07.72

1200 qpn

2. Un fabricante de un empaque para harinas garantiza que tiene una efectividad

de 95% en la protección contra la humedad durante un período de 6 meses. Se

observó una muestra de 100 paquetes encontrándose resultados positivos en

85 paquetes. Comprobar si la afirmación del fabricante es verdadera con un

nivel de significancia de 0.05.

Sugerencia: Utilizar prueba de una proporción.

3. Un fabricante de pastas alimenticias sostiene que el contenido medio de

proteínas del producto es de 10.7. Un análisis de una muestra de 8 paquetes

dio como resultado un contenido medio de 10% con una desviación de 1. ¿Se

puede aceptar como verdadera la afirmación del fabricante a un nivel de 0.01?

Sugerencia:

Utilizar el siguiente estadístico de prueba:

Un ensayo unilateral con cola a la izquierda con un nivel significativo de 0.01 el

valor crítico con 7 grados de libertad es igual a –3.0

CAPITULO CUATRO: ANÁLISIS DE VARIANZA

Introducción.

En esta unidad se prosigue con el análisis de pruebas de hipótesis. Recuerde que

en capítulo anterior se examinó la teoría general de la prueba de hipótesis y se

describió el caso en el que fue seleccionada una muestra grande a partir de la

población. Se empleó la distribución Z como base para determinar si es razonable

concluir que una media calculada a partir de una muestra, proviene de una

población hipotética. Además se probó si dos medias muestrales provienen de

poblaciones iguales. También se efectuaron pruebas de una y dos muestras para

relaciones proporcionales utilizando la distribución normal como entidad

estadística de prueba. Se utilizó la distribución t como entidad estadística de

prueba para muestras pequeñas (con menos de 30 observaciones)

Cuando se desea conocer la homogeneidad que existe entre tres o más medias

muestrales, se procede a determinar la variabilidad entre esas medias, técnica que

se conoce como “análisis de varianza”. Es decir, cuando productos o individuos

son sometidos a tratamientos determinados para ver cómo éstos influyen en

resultados o comportamientos, lo más aconsejable es utilizar la técnica de análisis

de varianza.

El objetivo del análisis de varianza es determinar cuáles son las variables

independientes de importancia en un estudio, y en qué forma interactúan y afectan

la respuesta.

El Análisis de varianza en el presente capitulo se encuentra dividido de la

siguiente forma.

Gráfico No. 17. ANOVA

ANALISIS DE VARANIZA

De un Factor De dos Factores

Con interacción

Objetivo general.

Reconocer la importancia principios en que se basa y campos de aplicación de la

técnica de Análisis de Varianza.

Objetivos específicos.

Comprender la noción general del análisis de varianza.

Realizar una prueba de hipótesis para determinar si dos varianzas

muestrales provienen de poblaciones iguales.

Probar e interpretar hipótesis aplicando el análisis simple de varianza.

Establecer y organizar datos en una tabla de ANOVA de una y de dos

direcciones.

Plantear, probar e interpretar hipótesis de análisis de varianza de dos

factores de diseño de bloque aleatorizado.

Plantear, probar e interpretar hipótesis de análisis de varianza de dos

factores con interacción o diseño de factorial.

Definir los términos tratamientos y bloques.

Dar a conocer el manejo de la herramienta de Análisis de varianza en

Excel.

Lección 21: Generalidades

Como su nombre lo indica, el ANALISIS DE VARIANZA, se utiliza para probar

hipótesis sobre la igualdad de tres o más medias poblacionales. Al comparar las

varianzas muestrales, es posible sacar una conclusión o inferencia sobre los

valores relativos de las medias poblacionales.

21. Comparación de más de dos poblaciones

Del análisis de varianza, podemos decir que esta técnica estadística normalmente

es utilizada para analizar resultados en la investigación con diseños

experimentales y cuasi-experimentales; muchas veces necesitamos comparar dos

o más distribuciones que corresponden a variaciones de una misma variable

dependiente, afectada por una o más variables independientes.

El análisis de varianza estudia la relación entre una variable cualitativa (o variable

independiente) con más de dos categorías y una variable cuantitativa (o variable

dependiente).

Ejemplo

Un agrónomo desea estudiar el rendimiento (en libras) de cuatro variedades

diferentes de calabacitas.

La variable cualitativa es el factor de este experimento, que en este caso es la

variedad de calabacita, los niveles son cada una de las cuatro variedades. Y la

variable cuantitativa es el rendimiento (en libras).

El factor corresponde a la variable cualitativa y los niveles a las

categorías de esa variable

El análisis de varianza tiene como objetivo identificar, si hay evidencia de una

diferencia significativa entre los niveles, basados en las medias muestrales.

21.1. Variabilidad producto de factores controlables e incontrolables

Teóricamente es posible dividir la variabilidad del resultado de un experimento en

dos partes: la originada por factores o tratamientos que influyen directamente en el

resultado del experimento, y la producida por el resto de factores desconocidos o

no controlables, que se conoce con el nombre de error experimental. En el

ejemplo anterior los factores desconocidos pueden ser: la humedad, la

temperatura y plagas entre otros.

21.2. Tipos de modelos

Modelo de efectos fijos: Un modelo de análisis de varianza es de efectos

fijos cuando los resultados obtenidos sólo son válidos para esos determinados

niveles del factor estudiado y lo que ocurra a otros niveles del factor puede ser

diferente.

Modelo de efectos aleatorios: Un modelo de análisis de varianza es de

efectos aleatorios cuando los resultados obtenidos son válidos para cualquier

nivel del factor estudiado.

Modelo replicado: Un modelo es replicado si el experimento se repite varias

veces para cada nivel del factor; en caso contrario se dice que el modelo es

por unidad de casilla.

21.3. Supuestos Del Análisis De Varianza

Para cada población la variable de respuesta está normalmente distribuida.

La varianza de la variable respuesta es la misma para todas las

poblaciones.

Las observaciones deben ser independientes.

Lección 22. Análisis de Varianza de un Factor

El análisis de varianza simple se presenta cuando se tiene un solo factor

estudiado en sus distintos niveles que influyen sobre una variable respuesta que

mide el resultado del experimento, y el resto de los factores conforman el error

experimental influyendo sobre la variable respuesta de manera no controlable. El

factor se presenta con j niveles, y dentro de cada nivel se analiza una serie de

observaciones del experimento en control (unidades experimentales) y su efecto

sobre la variable respuesta, es decir, para cada nivel se repite el experimento

varias veces (replicación).

El análisis de varianza descompone la variabilidad del resultado de un

experimento en componentes independientes (variación total descompuesta en

variaciones particulares).

Ejemplo

Se puede considerar los rendimientos de un mismo cultivo en parcelas diferentes,

que aunque labradas en las mismas condiciones, producen cosechas que son

distintas. La variabilidad de rendimientos es producida por factores o tratamientos

controlables (abono, riego, etc.), donde cada factor o tratamiento puede presentar

diferentes niveles (diferentes cantidades o calidades de abono, distinta intensidad

de riego); también puede ser producida por otros factores o tratamientos no

controlables (humedad relativa, clima, plagas, etc.).

Tabla No. 10. Observaciones por cada nivel

Nivel1 Nivel 2 … Nivel j

X11 X12 X1j X21 X22 X2j

ijX : Observación i-ésima de la variable respuesta relativa al j-ésimo nivel de

factor.

En el ejemplo anterior, ijX es el rendimiento obtenido (variable respuesta) bajo el

nivel j del factor (abono) en la observación i-ésima (Para cada nivel j de factor se

repite el cálculo de rendimiento veces para recoger el efecto del error

experimental).

: Tamaño de la muestra para cada nivel (categorías de la variable cualitativa)

En esta sección se considera el análisis de varianza de un solo factor, en el cual

solo interviene en el experimento un solo tipo de tratamiento. Cuando se desea

contrastar las hipótesis sobre la diferencia global entre tres o más medias de

población, se aplica la distribución de probabilidad F encontrando en cociente de

dos varianzas calculadas a partir de los datos experimentales. El modelo lineal en

que se basa el método de análisis de varianza de un solo factor es:

ijiiJX

Ecuación No.11

Dónde:

Es la i-ésima observación del j-ésimo nivel experimental.

La media de todas las observaciones de todas las poblaciones j del tratamiento. Es

una constante.

Efecto del tratamiento en la población j. Son variables aleatorias independientes.

Error aleatorio asociado a la i-ésima observación del factor de la población j

El efecto i del tratamiento o factor es la diferencia entre la gran media y la media

J de la población en tratamiento J, esto es:

Ecuación No.12

Por consiguiente, si hay J tratamientos en un experimento, la suma de todos los J

efectos de los tratamientos debe ser igual a cero:

Ecuación No.13

El último término iK refleja la variabilidad dentro de cada una de las poblaciones

en tratamiento, y su presencia se atribuye al proceso aleatorio, y se interpreta

como lo resultante de la diferencia entre el resultado observado y la media de la

población del tratamiento:

jijiJ X

Ecuación No.14

El valor esperado o la esperanza de ij es igual a cero.

El modelo se basa en las siguientes suposiciones:

Admite que los errores aleatorios ij tienen una distribución normal

para cada población en tratamiento J.

Admite que los errores iJ se distribuyen independientemente tanto

entre poblaciones en tratamiento como dentro de ellas.

Acepta que la varianza 2 del error permanece constante para cada

una de las poblaciones.

Hipótesis del ANOVA de un factor.

El análisis de varianza se usa para probar la igualdad de K medias poblacionales

y la forma general del planteamiento de las hipótesis es:

Dónde: j = Media de la j-ésima población.

La media general de las muestra, está representada por X , y es la suma de todas

las observaciones divida entre la cantidad total de las mismas, expresada de la

siguiente forma:

Media General:

Ecuación No.15

Dónde: Kt nnnn ...21

Si el tamaño de cada muestra es knnn T , , la ecuación de la media general se

reduce a:

11 11 1

Ecuación No.16

En otras palabras, cuando los tamaños de muestra son iguales, la media general

muestral es justamente el promedio de las medias de las K muestras.

Si supone que se ha tomado una muestra aleatoria simple de tamaño jn de cada

una de las K poblaciones, se tiene:

ijX es la i-ésima observación del grupo, nivel j.

jn es el número de observaciones del grupo, nivel j.

n es el total del número de observaciones en todos los grupos combinados.

K Es el número total de grupos, niveles del factor de interés.

to. tratamienésimo-j del muestra la de MediaX j

Pasos para la Realizar un análisis de varianza.

1. Establecer la hipótesis nula y alterna.

2. Establecer el nivel de significancia α

3. Realizar el ANOVA

4. Calcular el valor F o el valor crítico correspondiente al nivel de confianza

fijado con los grados de libertad.

5. Hallar el estadístico de prueba

6. Tomar la decisión teniendo en cuenta que:

críticoValor B

A si H Rechaza 0

Gráfico No. 18. Distribución F.

Ejemplo 1

Suponga que una empresa tiene tres dependencias diferentes en donde produce

tubos de iluminación, y desea verificar el control de calidad en cuanto a duración

se refiere de las bombillas, y para ello toma una muestra de 6 unidades de cada

factoría y las somete a desgaste hasta que dejan de iluminar con los siguientes

resultados en horas:

Tabla No. 11. Observaciones por cada nivel

Observación Planta 1 Planta 2 Planta 3 Total

1 2 3 4 5 6

85 75 82 76 71 85

71 75 73 74 69 82

59 64 62 69 75 67

JX 79 74 66 73

JS 34 20 32

JS 5.83 4.47 5.66

Jn 6 6 6 18

474 444 396 1314

La media general es igual a:

667479

Se observa que se obtienen las medias para cada tratamiento (79, 74 y 66) y una

media general (73). Para llevar a cabo la prueba de la igualdad de las medias de

la población, se subdivide la variación total en dos mediciones:

Diferencia entre los grupos.

Diferencia dentro de los grupos.

La varianza de la muestra total se particiona en la varianza dentro de las plantas y

la varianza entre las plantas, tal como se indica en el siguiente gráfico:

Variación

Total (VT) =

Variación Dentro

del Grupo (VDG) + Variación Entre

Grupo (VEG)

Variación total (VT)

ij XXVT

Ecuación No.17

1 94673647359

...73757371...73757385

Variación dentro del grupo (VDG)

jij XXVDG1 1

Ecuación No.18

430....66646659

...74757471...79757985

Variación entre grupos (VEG)

jj XXnVEG1

Ecuación No.19

6 516736667374673796J

XXnVEG

Se debe comprobar que la variación total sea igual a la sumatoria de la variación

entre y dentro de los grupos.

Puesto que K es el total de niveles comparados, existen (K-1) grados de libertad

asociados con la suma de cuadrados entre los grupos, niveles o tratamientos.

Como cada uno de los K niveles contribuye con ( 1jn ) grados de libertad, existen

(n–k) grados de libertad asociados con la suma de cuadrados dentro de los

grupos.

Si cada suma de cuadrados se divide entre sus grados de libertad asociados, se

obtienen tras varianzas o términos cuadráticos medios, como se indica en el

siguiente cuadro:

Tabla No. 12. Componentes del análisis de varianza

Variación Suma cuadrados Grados libertad Cuadrado medio Distribución F

Entre tratamiento

jj XXn1

Dentro o error

jij XX1 1

Los resultados para el problema de análisis es el siguiente:

Tabla No. 13. Resultados del análisis de varianza

Variación Suma cuadrados Grados libertad

Cuadrado medio

Distribución F

Entre tratamiento

516 (K-1)= 2 00.258

516 99.8

Dentro o error 430 (n-K)=15 67.28

Total 946 (n-1)=17

En la Tabla de Distribución F se determina el correspondiente valor crítico para el

numerador (k-1= 3-1=2) y el denominador (n-K = 18-3=15), con una probabilidad

de error tipo 1 o un nivel de significancia del 5%, que corresponde a 68.305.0 F ,

significando que si se tuviera que seleccionar un valor al azar de una distribución F

con 2 grados de libertad en el numerador y 15 en el denominador, sólo el 5% de

las veces se obtendría un valor mayor que 3.68. Además la teoría del análisis del

varianza indica que si es cierta la hipótesis nula, la relación entre los cuadrados

medios entre y dentro de los tratamientos sería un valor dentro de esa distribución,

tal que se rechaza si, el valor de dicha relación es mayor que el valor crítico:

El valor de la relación es superior al valor crítico, por tal razón se rechaza la

hipótesis nula consistente en que las medias poblacionales sean iguales.

críticoValor B

A si H Rechaza 0

Para el caso la relación es igual a 8.99 mayor que el valor crítico 3.68, entonces se

tienen pruebas suficientes para rechazar la hipótesis nula consistente en que las

medias de las tres poblaciones son iguales. En otras palabras el análisis de

varianza apoya la conclusión que las medias para la duración de las bombillas es

diferente en las tres plantas.

El gráfico para dicho planteamiento es el siguiente:

Ejemplo: Análisis de varianza

Suponga que dispone de un conjunto de árboles clasificados por altura (en

metros) y por especie, según los siguientes datos:

Tabla No. 14. Altura de árboles según especies Especie Altura Especie Altura Especie Altura

Para ajustar la información a un modelo de análisis de varianza, se considera

como variable respuesta la altura de los árboles en metros, y como único factor la

variable cualitativa especie con cinco niveles (A, B, C, D, E). Dado que se tiene un

modelo de un solo factor, se desea probar si las variadas especies de árboles

tienen igual o diferente promedio de altura con un nivel de significancia del 1%.

Primero se estiman las medias para cada una de las especies y la media total, conforme al siguiente cuadro:

Tabla No. 15. Registro de estadísticos para diferentes especies

Especie A Especie B Especie C Especie D Especie E Total

8.52 7.15 6.43 6.21 8.13 6.12

6.45 8.73 8.52 8.83 8.53 8.94 8.40 8.91 8.19 8.56

7.41 8.65 8.81 8.59 8.87 8.81

7.55 7.74 7.84 7.41 7.40

6.54 7.07 7.17

Sumas 42.56 84.06 51.14 37.94 20.78 236.48

Promedio 7.093 8.406 8.523 7.588 6.926 7.707

Observaciones 6 10 6 5 3 30

Gran media =

882666.730

48.236

.......65.841.7...76.845.6...15.752.8

Variación total (VT) =

0741867.2488.717.788.707.7...88.712.6...88.752.82222

Variación dentro del grupo (VDG) =

9584533.11

926.617.7....523.841.7...406.845.6...09.752.82222

jij XX

Variación entre grupos (VEG) =

1157333.1288.7926.6....88.7406.888.7093.7222

jj XXn

Para calcular el estadístico de prueba perteneciente a la distribución F , se resume

en el siguiente cuadro:

Tabla No. 16. Cálculos del cuadro de análisis de varianza

Variación Suma cuadrados Grados libertad Cuadrado medio Distribución F

Entre tratamiento 12.1157333 (K-1)= 4 3.0289 6.332 Dentro o error 11.9584533 (n-K)=25 0.4783

Total 24.0741867 (n-1)=29

En la tabla “F” determina el correspondiente valor crítico para el numerador (k-1=

5-1=4) y el denominador (n-K = 30-5=25), con una probabilidad de error tipo 1 o un

nivel de significancia del 1%, que corresponde a 18.401.0 F . Para el caso la

relación es igual a 6.332 mayor que el valor crítico 4.18, entonces se tienen

pruebas suficientes para rechazar la hipótesis nula consistente en que las medias

de las cinco variedades de árboles son iguales. En otras palabras el análisis de

varianza apoya la conclusión que las medias para la altura de las diferentes

especies de árboles es diferente.

Lección 23. Comparación Múltiple de Medias (Pruebas “a

Posteriori”)

Las pruebas "a posteriori" son un conjunto de pruebas para probar todas las

posibles medias que podría ser diferente al rechazar la hipótesis.

Existen varias, (Duncan, Newman-Keuls, LSD): todas ellas muy parecidas. Usan el

rango (diferencia entre medias) de todos los pares de muestras como estadístico y

dicho rango debe superar un cierto valor llamado mínimo rango significativo para

considerar la diferencia significativa.

La principal diferencia con respecto a la t-student radica en que usan MSE como

estimador de la varianza, es decir un estimador basado en todas las muestras.

Lección 24. Análisis de varianza con dos factores (diseño de

bloques aleatorizados).

Con frecuencia interesa analizar los efectos de dos tipos de factores o

tratamientos. Suponga que un experimento incluye dos tipos de factores: el uno

llamado C (lo que sugiere columna) consistente en K tratamientos diferentes, y el

otro, denominado F (lo que sugiere fila) consistente en J tratamientos diferentes.

Se admite que respecto al j-ésimo tratamiento de F y el K-ésimo tratamiento de C,

existen cuatro componentes así:

ijkjiijKX

Ecuación No.20

Dónde:

La varianza total de la muestra se particiona en la varianza entre las filas, varianza

entre columnas, varianzas entre la j x k, y las varianzas del error aleatorio. Para

este modelo, los cálculos del análisis de la varianza para las sumas de los

cuadrados son idénticos a los realizados en el modelo de un solo factor, tan solo

que se calculan variaciones para el factor de fila, de columna y para el error

aleatorio. De manera análoga, los grados de libertad y los cuadrados medios son

los mismos. A continuación se indica el cuadro resumen para el análisis de

varianza de dos factores:

Tabla No. 17. Análisis de varianza para dos factores

Fuente de

variación

Suma de los cuadrados, SC Grados de

Libertad, gl

Media cuadrática,

Relación F

Entre los grupos

o columnas (j)

j XXrVEC1

VECMCA

Entre los bloques

o filas (i)

i XXcVEF11

VEFMCB

Error de

muestreo, E

ijij XXXXVE1 1

.. 11 cr

Total, T

ij XXVT1 1

La definición de los términos del cuadro son los siguientes:

nes.observacio de totalNúmeron

grupos. de número Elc

bloques. de número Elr

.gran total al eequivalent

grupos, los todosdey bloques los todosde valoreslos de sumatoria La X

j. grupo del to tratamienel para valoreslos todosde media LaX

i. bloque elen valoreslos todosde media La

ésimo.-i grupo del to tratamienel para ésimo-i bloque delValor

Para contrastar los efectos de los factores en el modelo, se construye un

estadístico que se compara los cuadrados medios, que bajo la hipótesis nula sigue

una distribución F.

Ejemplo

Suponga que existen cuatro parcelas diferentes las cuales son sometidas

sucesivamente a seis tipos de insumos y se piensa que la producción es afectada

por el tipo de insumo y mantenimiento a que es sometida. Se desea probar los

diferentes tratamientos afectan la producción por parcela, y la producción es la

Tratamiento RENDIMIENTO EL KILOS Parcela 1 Parcela 2 Parcela 3 Parcela 4 Total Medias

A B C D E F

70 77 76 80 84 78

61 75 67 63 66 68

82 88 90 96 92 98

74 76 80 76 84 86

287 316 313 315 326 330

71.75 79.00 78.25 78.75 81.50 82.50

Totales 465 400 546 476 1.887

Medias 77.50 66.67 91.00 79.33 78.625

Los totales por grupo (parcelas) y sus correspondientes promedios, los totales y

los promedios por tratamientos o bloques (insumo y manteniendo), así como la

gran media se indican en el cuadro.

Además de las estadísticas representadas en el cuadro, se tiene:

24rcn 4;c ;6 r

625,7824

887.11 1

Para determinar los resultados del experimento de diseños de bloques

aleatorizados con fines ilustrativos, se hacen los siguientes cálculos:

Variación Total de Cuadrados:

ij XXVT1 1

63,295.2625,7886...625,7877625,7870222

Variación entre grupos o columnas:

j XXrVEC1

Ecuación No.21

46,787.1625,7833.79...625,7867.66625,785.776222

Variación entre bloques o filas:

i XXcVEF11

Ecuación No.22

38,238625,785.82...625,7879625,7875.714222VEF

Variación del error de muestreo:

ijij XXXXVE1 1

Ecuación No.23

244.79

78,62582.50-79.33-86

625,7800.7950.7777

625,7875.715.7770

Los medios o promedios cuadráticos, se calculan así:

82,59514

46,787.1

VECMCA

676,5616

38.283

VEFMCB

986,14

79.224

Los cálculos anteriores se pueden resumir en el siguiente cuadro:

Tabla No. 20. Resultados del análisis de varianza para dos factores

Fuente Suma de cuadrados

Grados libertad

Cuadrado medio (varianza)

Entre grupos 1.787.46

595,820

46.787.1

39,758

986,14

82.595

Entre Bloques

283.38

56,676

38.283

986,14

676,56

Error 224.79

(6-1)(4-1)=15

Total 2.295.63 (6)(4)-1=23

14,986

79.224

Además de los registros anteriores, en las tablas ANOVA de los diferentes

paquetes de software estadísticos, incluyen el p-valor que consiste en la

probabilidad de obtener un estadístico F igual o mayor a la obtenida dado que la

hipótesis nula sea verdadera, es decir, si el p- valor es menor que el nivel

especificado de significancia , la hipótesis nula es rechazada. Para nuestro caso

se utiliza la información contenida en el cuadro anterior.

Si se desea probar las diferencias entre los rendimientos de las parcelas con un

nivel de significancia del 5%, la regla de decisión consiste en rechazar la hipótesis

nula 4321: oH si el valor F calculado es mayor que 3.29 (Ver tabla F

con 3 grados de libertad en el numerador y 15 grados en el denominador). Para el

caso F = 39,758 es mayor que el valor crítico 3.29, entonces se rechaza la

hipótesis nula y se llega a la conclusión que existe evidencia de una diferencia

entre la producción promedio de las diferentes parcelas, como se puede apreciar

en el siguiente gráfico:

Gráfico No. 20. Región de aceptación de hipótesis

Como una verificación de la efectividad de la utilización de insumos, se puede

probar la diferencia de efectividad de los diferentes insumos aplicados. La regla de

decisión utilizando un nivel de significancia del 5%, sería la de rechazar la

hipótesis nula 654321: oH si el valor F calculado excede a

2.90 (Ver anexo F con 5 grados de libertad en el numerados y 15 grados en el

denominador). Para el caso el valor F = 3,782 es mayor al valor crítico, lo que se

concluye que la utilización de los diferentes insumos, produce diferencia

significativa entre los promedios de producción para las parcelas, y que la

conformación de dichos bloques es ventajosa para reducir el error experimental,

situación que se presenta en el siguiente gráfico:

Gráfico No. 21. Región de aceptación de hipótesis

Lección 25. Análisis de varianza de dos factores con interacción.

(Diseño factorial).

Se ha visto hasta ahora el análisis de varianza de una dirección o el modelo de

diseño completamente aleatorizado, después el modelo de diseño de bloque

aleatorizado, y en la presente sección el análisis de varianza de dos factores con

interacción.

Con el propósito de desarrollar el procedimiento de la prueba F, se define a

continuación los siguientes términos:

r.c.nn(con oexperiment del nesobservacio de totalNúmeron

celda. cada para replicas) valores(de Númeron

B.factor del niveles de Númeroc

A.factor del niveles de Númeror

columnas.y hileras las en todas valoreslos todosde Gran totalGT

B.factor del j columna la de valoreslos de SumaX

A.factor del i hilera la de valoreslos de SumaX

B.factor del j nivel dely A factor del i nivel del nesobservacio (las ij celda la de valoreslos de SumaX

B.factor del j nivel delA t factor del i nivel deln observació ésima-k la deValor

Con fines ilustrativos se hacen planteamientos tanto conceptuales como de

cálculos para la descomposición de la variación total necesaria para el desarrollo

del procedimiento de la prueba F. Debido a la gran cantidad de cálculos se

recomienda que dicho proceso sea llevado por el paquete de software analizado

más adelante.

Tabla resumen para el análisis de varianzas de dos vías con más de una

observación por célula se resume en el siguiente cuadro:

Tabla No. 21. Resumen de análisis de varianza de dos vías

Fuente de variación

Suma de los cuadrados, SC

Grados de libertad, gl

Media cuadrática, MC

Relación F

Entre grupos de tratamiento A

VEGAMCA

Entre grupos de tratamiento, B

BEGBMCB

Interacción entre factores A y B.

11 cr 11

VEABIMCC

Error de muestreo, E 1' nrc

Total, T

ijkrcn

1 1 1'

1' rcn

Ejemplo

Para ilustrar el modelo factorial de dos factores, suponga que UD como dueño y

propietario de una cadena de supermercados está interesado en saber el efecto

de la colocación de los estantes en la venta de un producto. Para ello estudia 4

posibles lugares distintos donde colocar los estantes: Colocación normal entre el

pasillo(A), colocación ingreso del pasillo (B), colocación a la entrada del pasillo con

impulsadora (C) y colocación normal con propaganda (D). Se toman ventas

aleatorias en las jornadas de la mañana, tarde y noche y los resultados de las

ventas semanales se resumen en la siguiente tabla:

1 01 1 1 1'

Tabla No. 22. Colocación de productos en un estantes durante jornadas

JORNADA COLOCACIÓN ESTANTE

A B C D Totales Medias Mañana 45

50 56 63

451 56,375

Tarde 57 65

539 67,375

Noche 70 78

622 77,750

Totales 365 423 460 364 1.612

Medias 60.83 70.50 76.67 60.67 67,167

Se tiene la siguiente información:

612.1GT

ijkX1 1

2 550.11175...5045

75,100.110

622539451 222

375.109

364460423365 2222

292.111

146...11995 222

66.272.108243

612.1 2

Variación Total de Cuadrados:

34.277.366.272.108550.111

1 1 1'

ijkrcn

Variación entre grupos del tratamiento A:

09.828.166.272.10875.100.110

.. rcn

Variación entre grupos del tratamiento B:

34.102.166.272.108375.109

Variación entre los factores A y B:

88.91108.272.66109.375-110.100.75-111.292

Variación del error de muestreo:

258292.111550.111

1 1 1'

ijkrcn

Para el cálculo de las varianzas se utilizan las siguientes relaciones:

045.91413

09.828.1

VEGAMCA

447.36714

34.102.1

BEGBMCB

818,14

VEABIMCC

Los cálculos anteriores se resumen en el siguiente cuadro:

Tabla No. 23. Resumen de análisis de varianza de dos vías

Fuente de variación Suma de los cuadrados, SC

Grados de libertad, gl

Media cuadrática, MC

Relación F

Entre grupos de tratamiento A

1.828.09

914.045

Entre grupos de tratamiento, B

1.102.34

367.447

Interacción entre factores A y B.

14.818

Error de muestreo, E 258 121243 21.5

Total, T 3.277.34 231243

Si utiliza un nivel de significancia del 0.05 y se prueba la diferencia entre las

ventas en las diferentes jornadas (mañana, tarde, noche), la regla de decisión es

la rechazar la hipótesis nula ( rH ...: 210 ) si el valor calculado para F

(42.51) es mayor que 3.49 (observar tabla F para 2 grados de libertad en el

numerador y 12 grados de libertad en el denominador); se rechaza la hipótesis

nula y se llega a la conclusión que existe evidencia que entre las diferentes

jornadas las ventas en promedio son diferentes.

Así mismo si utiliza un nivel de significancia de 0.05 para probar si existe alguna

diferencia entre la ubicación de los estantes, la regla de decisión es rechazar la

hipótesis nula ( cH ...: 210 ), si el valor calculado F (17.09) es mayor que

3.49 (observar tabla F para 3 grados de libertad en el numerador y 12 grados de

libertad en el denominador); se rechaza la hipótesis nula y se concluye que existe

una diferencia entre los promedios de ventas para la colocación de los diferentes

estantes en el almacén.

Finalmente se puede probar si existe algún efecto de interacción entre el factor A

(ventas en las diferentes jornadas) y el factor B (colocación de los estantes).

Utilizando un nivel de significancia del 5%, la regla de decisión es rechazar la

hipótesis nula ( jy i todopara ,0ijAB ), si el valor calculado F (0.69) es mayor que

3.0 (observar tabla F para 6 grados de libertad en el numerador y 12 grados de

libertad en el denominador); no se rechaza la hipótesis nula y se concluye que no

existe evidencia de un efecto de interacción entre las jornadas del día y la

colocación de los estantes.

INTERPRETACIÓN DE LOS EFECTOS DE LA INTERACCIÓN

Se ha realizado hasta ahora las pruebas para la significación del factor A, del

factor B y de la interacción, corresponde entender en mejor forma el concepto de

interacción, si se grafica las medias, empleando la siguiente fórmula:

Se procede a graficar las ventas semanales promedio de cada jornada y de cada

colocación de la estantería, como se indica a continuación:

Gráfico No. 22. Ventas de producto en tres jornadas

Mañana Tarde Noche

Jornada

Ventas Jornada mañana-tarde-noche

Las cuatro líneas representan las colocaciones de las estanterías aparecen

apuntando casi representando en la misma dirección, lo que significa que la

diferencia en las ventas entre las cuatro colocaciones de los estantes es

virtualmente la misma para las ventas de las diferentes jornadas. En otras

palabras, no existe interacción entre los dos factores (jornada y estantería), como

claramente se evidenció en la prueba F vista anteriormente.

¿Cuál es la interpretación si se presenta el efecto de interacción? En tal situación,

algunos niveles del factor A responden mejor con ciertos niveles del factor B; por

ejemplo, suponga que algunas colocaciones en los estantes fueran mejor para las

jornadas. Si este fuera el caso, las líneas de la figura no estarían apuntando en la

misma dirección que las hace casi paralelas y el efecto de interacción sería

estadísticamente significativo, y por consiguiente, las diferencias entre las

diferentes localizaciones de estantes no serían las mismas para las diferentes

jornadas.

EJERCICIOS COMPLEMENTARIOS

1. Un inspector de un distrito escolar quiere estudiar el ausentismo de los

profesores de diversos grados escolares. Se seleccionaron muestras aleatorias de

profesores en escuelas primarias, secundarias, y preparatorias, y el número de

días de ausencia el año anterior fue como sigue:

Primaria Secundaria Preparatoria 7 13 7 4 14 2 10 9 6 6 8 9 5 7 9 10

Con un nivel de significancia de .025, determine si hay una diferencia en el

ausentismo entre los diversos grados.

2. El propietario de una distribuidora de combustible pretende investigar la

rapidez con la cual le pagan sus facturas en tres áreas suburbanas. Se

seleccionaron muestras de clientes en cada zona y se registró el número de días

entre la entrega y el pago de la factura, con los siguientes resultados:

Área 1 Área 2 Área 3 8 10 32 18 16 8 14 28 16 20 25 27 12 7 17 14 17 20 15 19 16 21 20

Con un nivel de significancia de .025, determine si hay una diferencia en la

rapidez con que pagan las facturas en estas tres áreas.

3. Un agrónomo desea estudiar el rendimiento (en libras) de cuatro variedades

diferentes de calabacitas. Se dividió una parcela en 16 lotes y se asignaron cuatro

lotes al azar a cada variedad. Los resultados del experimento (en libras) fueron

Calabacita redonda

Calabacita común

Calabaza alargada

Calabacita rayada

86 40 30 48 74 48 36 54 88 54 42 42 76 46 34 56

Con un nivel de significancia de .01, determine si hay una diferencia en el

rendimiento de las diferentes variedades de calabacitas.

4. Un distribuidor de automóviles nuevos quiere estudiar la cantidad de dinero

aplicado a la compra de equipo opcional en automóviles de tamaño grande. Se

seleccionó una muestra de 20 compras. Los sujetos se dividieron en las siguientes

clasificaciones por edades: 18-24, 25-29, 30-39, 40-59, 60 y más. La cantidad de

equipo opcional comprado (en miles de pesos) se organizó en grupos de edad

como sigue:

Edad 18-24 25-29 30-39 40-59 60 y más 6.31 7.64 8.37 11.23 6.74 4.27 5.36 9.26 10.64 7.36 5.75 3.85 10.16 8.32 5.12

6.24 6.48 9.00 7.86 7.53

Con un nivel de significancia de .05, determine si hay una diferencia en la

cantidad de dinero aplicado a la compra de equipo opcional en automóviles

nuevos entre los diferentes grupos de edad.

5. Los alumnos de la clase de mercadotecnia calificaron el desempeño del

profesor como excelente, bueno, malo y pésimo. Las calificaciones que dieron los

estudiantes al profesor fueron comparadas con sus calificaciones finales del curso

de mercadotecnia. Lógicamente, se pensaría que en general, los estudiantes que

calificaron al profesor con excelente tendrían una calificación final mucho más alta

que los que lo calificaron como bueno, malo o pésimo. Esto supondría también

que quienes calificaron al docente como pésimo obtendrían las calificaciones mas

bajas. Se seleccionaron muestras de calificaciones finales de los alumnos por

cada tipo de calificación dada al maestro.

Calificaciones finales de la clase de Mercadotecnia

Excelente Bueno Malo Pésimo 94 75 70 68 90 68 73 70 85 77 76 72 80 83 78 65 88 80 74

68 65 65

Se pretende determinar si hay una diferencia estadística entre la calificación

promedio obtenida por los estudiantes de acuerdo a la calificación otorgada al

maestro. Utilice un nivel de significancia de .01

6. En un esfuerzo por determinar la más efectiva manera de enseñar

principios de seguridad a un grupo de empleados de una compañía, cuatro

diferentes métodos fueron tratados. Veinte empleados fueron asignados

aleatoriamente a cuatro grupos. El primer grupo recibió instrucción programada en

folletos y trabajaron a lo largo del curso a su propio paso. El segundo grupo

atendió lecturas. El tercer grupo observó presentaciones en televisión, y el cuarto

fue dividido en pequeños grupos de discusión. Al final de las sesiones, una prueba

fue aplicada a los cuatro grupos. Los resultados fueron:

Calificaciones Instrucción programada

Lecturas Televisión Grupos de discussion

6 8 7 8 7 5 9 5 6 8 6 6 5 6 8 6 6 8 5 5

Pruebe en el nivel de significancia de .05 si hay o no diferencia entre las cuatro

medias.

7. Una revista para consumidores está interesada en saber si existe o no

alguna diferencia en la duración promedio de cuatro marcas diferentes de pilas

para radios de transistores. Se probó una muestra aleatoria de cuatro pilas de

cada marca, con los siguientes resultados (en horas):

Marca 1 Marca 2 Marca 3 Marca 4 12 14 21 14 15 17 19 21 18 12 20 25 10 19 23 20

Con un nivel de significancia de .05, pruebe si hay alguna diferencia en la

duración promedio de estas cuatro marcas de pilas para radios de transistores

8. Un psicólogo industrial querría determinar el efecto del consumo de

bebidas alcohólicas sobre la capacidad mecanográfica de un grupo de secretarias.

Se asignaron en forma aleatoria cinco secretarias a cada uno de los tres niveles

de consumo y a cada una de las tres diferentes bebidas. Se dieron a cada

secretaria las mismas instrucciones para mecanografiar la misma página. Se

registró el número de errores cometido por cada secretaria con los siguientes

resultados

Consumo de alcohol

1 onza 2 onzas 3 onzas Tequila Brandy Ron Tequila Brandy Ron Tequila Brandy Ron

2 3 4 7 5 9 10 8 12 5 4 4 5 6 4 6 7 5 3 4 4 6 4 8 10 8 12 6 5 4 3 4 2 12 13 11 4 5 4 9 7 11 12 10 12

Con un nivel de significancia de .01, pruebe las siguientes hipótesis:

Es diferente la cantidad de errores dependiendo de la cantidad de bebida.

Es diferente la cantidad de errores dependiendo del tipo de bebida.

Es diferente la cantidad de errores dependiendo de la interacción de las

dos variables.

9. El gerente de menudeo de una cadena de tiendas desea determinar si la

ubicación del producto tiene o no algún efecto sobre la venta de juguetes de

peluche en forma de animales. Se van a considerar tres ubicaciones diferentes en

el pasillo: frente, centro y atrás. Se seleccionó una muestra de 18 tiendas y se hizo

una asignación aleatoria en seis tiendas para cada ubicación en el pasillo. Los

juguetes estaban presentados en cuatro figuras de animales diferentes. Al final de

un periodo de prueba de una semana las ventas de los productos fueron como

sigue:

frente centro Atrás

osos perros gatos león osos perros gatos león osos perros gatos león 86 81 76 71 20 16 19 24 46 51 56 56 72 77 82 87 32 36 32 29 28 24 20 21 54 49 44 39 24 20 23 28 60 65 68 66 40 45 50 55 18 22 18 15 22 18 16 19 50 45 40 35 14 10 13 18 28 33 34 30 62 67 72 77 16 20 16 13 40 36 36 41

Con un nivel de significancia de .01 pruebe las siguientes hipótesis:

Las ventas en las diferentes ubicaciones del pasillo son diferentes

Las ventas de las diferentes figuras de animales son diferentes

Las ventas son diferentes debido a la interacción de las dos variables.

10. El departamento de nutrición de cierta universidad lleva a cabo un estudio

para determinar si hay diferencia o no en el contenido de ácido ascórbico entre

tres diferentes marcas de concentrado de jugo de naranja. Se hacen cuatro

pruebas de los tres tipos de concentrado de jugo de naranja que fue congelado

durante tres periodos de tiempo diferentes (en días). Los resultados, en

miligramos de ácido ascórbico por litro, son los siguientes:

MARCA TIEMPO ( DÍAS )

0 3 7 RICA 52.6 54.2 49.4 49.2 42.7 48.8

49.8 46.5 42.8 53.2 40.4 47.6 BUENA 56.0 48.0 48.8 44.0 49.2 44.0

49.6 48.4 44.0 42.4 42.0 43.2 BARATA 52.5 52.0 48.0 47.0 48.5 43.3

51.8 53.6 48.2 49.6 45.2 47.6

Utilice un nivel de significancia de .05 para probar la hipótesis de que:

Los contenidos de ácido ascórbico por marca de jugo son diferentes

Los contenidos de ácido ascórbico por tiempo de congelamiento son

diferentes

Los contenidos de ácido ascórbico son diferentes debido a la interacción de

las dos variables.

11. Se estudia el comportamiento de tres camadas de ratas bajo dos condiciones

ambientales en una prueba de laberinto. Las calificaciones de error para las 48

ratas se registran a continuación:

Camada Ambiente Libre Restringido

Brillante 28 22 25 36 72 25 32 93 12 23 10 86 48 91 31 19

Mezclada 36 33 41 22 60 35 83 99 83 14 76 58 89 126 110 118

Lenta 101 33 122 35 136 38 64 87 94 56 83 23 120 153 128 140

Las calificaciones de error para las camadas son diferentes

Las calificaciones de error para los ambientes son diferentes

Las calificaciones de error son diferentes debido a la interacción de las dos

variables

12. Considere la combinación de dos factores en la eliminación de mugre en

cargas estándar de lavandería. El primer factor es la marca del detergente, X, Y o

Z. El segundo factor es la temperatura del agua, caliente o tibia. El experimento se

replica seis veces. La respuesta es el porcentaje de eliminación de mugre. Los

datos son los siguientes:

Marca Temperatura

Caliente Caliente X 85 88 80 82 83 85

78 75 72 75 75 73 Y 90 78 76 86 88 76

92 92 76 88 76 77 Z 85 60 70 76 74 78

87 88 68 55 57 54

Los porcentajes de eliminación de mugre son diferentes dependiendo del

detergente.

Los porcentajes de eliminación de mugre son diferentes dependiendo de la

temperatura.

Los porcentajes de eliminación de mugre son diferentes debido a la

interacción de las dos variables.

13. Los puntajes obtenidos en una prueba de rendimiento motor hecha a dos

grupos de estudiantes que participan en deportes universitarios, el primer grupo

está formado por estudiantes que practicaron deporte en la preparatoria, mientras

que el segundo está formado por estudiantes que no practicaron deporte en la

preparatoria. Los puntajes obtenidos por ambos grupos son los siguientes:

GRUPO 1 GRUPO 2

GIMNASIA FUTBOL GIMNASIA FUTBOL 55 56 59 40 58 86 48 55 63 59 58 70 58 65 54 56 50 52 52 43 51 55 42 32 69 28 77 37 79 45

60 51 45 32

El rendimiento motor es diferente dependiendo del grupo

El rendimiento motor es diferente dependiendo del deporte

El rendimiento motor es diferente debido a la interacción de las dos variables.

14. La asociación de egresados de la escuela “Mao Meno”, sospecha que sus

miembros reciben en promedio un sueldo inferior al ingreso de los egresados de la

escuela “Much A. Money”. Para comprobarlo se obtuvieron muestras de

egresados de ambas escuelas. La información que se obtuvo fue la siguiente: (en

miles de pesos)

MAO MENO MUCH A. MONEY

CRIMINOLOGÍA PSICOLOGÍA CRIMINOLOGÍA PSICOLOGÍA 5.0 3.2 5.5 7.5 5.5 3.5 3.5 5.5 4.5 4.5 9.5 4.5 3.5 8.2 3.4 8.5

7.5 6.6 6.8 3.2

El ingreso es diferente dependiendo de la escuela

El ingreso es diferente dependiendo de la carrera

El ingreso es diferente debido a la interacción de las dos variables.

15. En una secundaria se formaron al azar dos grupos de estudiantes,

formados por alumnos de todos los grados. En un grupo se utilizó un nuevo

método de enseñanza. En el otro se utilizaron los métodos tradicionales. Las

calificaciones al final del curso fueron las siguientes:

MÉTODO TRADICIONAL MÉTODO NUEVO

PRIMERO SEGUNDO TERCERO PRIMERO SEGUNDO TERCERO 8 9 8.5 8 8 7.5

6.5 10 10 7 10 8.5 7 8 9 5 10 7.5 8 7 8.5 8 9 8 6 7.5 8 7 8.5 9

8 8 8 7.5 9 9

Las calificaciones son diferentes dependiendo del método

Las calificaciones son diferentes dependiendo del grado

Las calificaciones son diferentes debido a la interacción de las dos variable

REFERENTES

Alvarado, J. A., Obagi, J.J. (2008). Fundamentos de Inferencia Estadística.

Pontificia Universidad Javeriana. Bogotá. D.C. Colombia. Extraído el 18 de octubre

de 2012 de

http://books.google.com.co/books?id=3uhUqvF0_84C&printsec=frontcover&dq=inf

erencia&source=bl&ots=DC7Ajfx6Os&sig=pOn4JMXwSC0qd0FmDBlpoMGQLkg&

hl=es&sa=X&ei=_2qAUKmEJaqG0QHT6YGwBw&ved=0CD0Q6AEwAw

Juárez, F., Villatoro, J. A. y López, E. K. (2002). Apuntes de Estadística Inferencial.

México, D. F.: Instituto Nacional de Psiquiatría Ramón de la Fuente. Extraído el 10

de enero de 2012 de: http://rincondepaco.com.mx/Apuntes/Inferencial.pdf

Mayorga, J. (2004). Inferencia Estadística. Universidad Nacional de Colombia.

Bogotá. D. C. Colombia. Extraído el 18 de octubre de 2012 de

http://books.google.com.co/books?id=bmCV6r_pQQUC&printsec=frontcover&dq=i

nferencia&source=bl&ots=KM2dtf_GYn&sig=vFmWR0tlvVlMGVrNUKn9MKRlr_I&h

l=es&sa=X&ei=G2mAUK6qLIeo8gTa_oCwAw&redir_esc=y#v=onepage&q=prueba

%20de%20hip%C3%B3tesis&f=false

Web del Instituto Tecnológica De Chihuahua curso Estadística 1 ITC (s. f).

Extraído el 18 de octubre de 2012 de:

http://www.itch.edu.mx/academic/industrial/estadistica1/cap02.html.

inferencia estadística 2

Documents

fundamentos de inferencia estadística pliego.pdf

iniciación a la inferencia estadística

problemas de inferencia estadística

probabilidad e inferencia estadística

inferencia estadística - mat322 (1).pdf

inferencia estadÍstica - uclm

tema 2 nociones elementales de inferencia estadística

estadística (2012). bloque temático 3. tema 5. inferencia...

introducción a la inferencia estadística vía simulación...

inferencia estadística y distribuciones muestrales

estadística ii. inferencia estadística

inferencia estadÍstica

estadística avanzada - inferencia estadística

bases de datos curso inferencia estadística bases de datos...

iii.unidad. inferencia estadística. (1)

santaló - probabilidad e inferencia estadística

introduccion probabilidad inferencia estadística

estadÍstica descriptiva e inferencial ii · unidad 2....

inferencia estadística e inducción

inferencia estadÍstica mat - 322