estadística ultimaparte
TRANSCRIPT
Muestreo Aleatorio y Probabilidad
• En la estadística inferencial se pretende usar los datos de una muestra para hacer una afirmación acerca de una característica de la población.
• Se hacen 2 afirmaciones:– Prueba de Hipótesis: se asegura o se descarta
una afirmación sobre la variable a estudiar.– Estimación de Parámetros: se cuantifica alguna
característica de la población.
Muestreo Aleatorio• Una muestra debe ser aleatoria. Cualquier
elemento introducido para elegir la muestra que no sea el azar, puede condicionar, tendenciar, sesgar la muestra.
• Para ser aleatoria, debe reunir dos condiciones:– Cada muestra de un tamaño n tenga la misma
probabilidad de ser elegida.– Todos los miembros de la muestra la misma
probabilidad de quedar en la muestra.
Técnicas de muestreo
• Muestreo con reemplazo: cada miembro de la población elegida para la muestra, se regresa a la población, antes de elegir el siguiente miembro.
• Muestreo sin reemplazo: cada miembro elegido de la población no retorna a la misma.
Probabilidad
• A priori: antes de realizar la prueba.• A posteriori: luego de la prueba.• p(A)= número de eventos clasificables como A
Cantidad total de eventos posiblesEj: si tenemos un dado y lo arrojamos, cual es la
probabilidad de que salga un 2?A= número de eventos “cara 2 del dado”p(A) = 1 = 0,1667 ( a priori )
6
Probabilidad • La probabilidad varía entre 0 y 1. 0 indica
que no existe posibilidad alguna de que ocurra el evento y 1 indica la certeza de que ocurra.
• Si se multiplica por 100, se halla en porcentaje. Ej: p(A) = 0,1667 16,67 %
• A veces se expresa en términos de “a favor” o “en contra” de un evento. Ej: 3 a 1 a favor de …sería igual ¾ = 0,75 o 75 %
Cálculo de la Probabilidad
• La Suma: La probabilidad de ocurrencia de A o B es igual a la ocurrencia de A mas la probabilidad de que ocurra B menos la probabilidad de que ocurran A y B. – p(A o B)= p(A) + p(B) – p(A y B)
• Eventos mutuamente excluyentes: si no pueden ocurrir al mismo tiempo, o la ocurrencia de uno impide la ocurrencia del otro. p(A y B) = 0 . p(A o B) = p(A) + p(B)
• Si hay dos o mas eventos mutuamnete excluyentes la probabilidad de que ocurra cualquiera de esos eventos es igual a la suma de las probabilidades de cada evento. p(A o B…o Z) = p(A) + p(B) +...+p(Z)
• Un conjunto de eventos es exhaustivo si incluye a todos los eventos posibles. La suma de las probabilidades individuales de un conjunto exhaustivo es igual a 1. Ej: el dado.
• Cuando existen dos eventos y son mutuamente excluyentes se denomina P a la probabilidad de que ocurra uno de ellos y Q a la probabilidad de que ocurra el otro evento.
Cálculo de la Probabilidad
• El Producto: La probabilidad de ocurrencia de A y B es igual a la probabilidad de ocurrencia de A, multiplicada la probabilidad de que B ocurra, dado que A ha ocurrido. p(A y B) = p(A) p(B/A).
• Si son eventos excluyentes: p(A y B) = 0 • Eventos Independientes: son aquellos en los que
la ocurrencia de uno no tiene efecto sobre la probabilidad del otro. Ej: el muestreo con reemplazo. Si A y B son independientes, entonces p(B/A) = p(B), y p(A y B) = p(A) p(B)
• Si hay mas de 2 eventos independientes: • p(A y B y …y Z) = p(A) p(B)…p(Z)
Cálculo de la Probabilidad
• Producto: Eventos dependientes. La probabilidad de B es afectada por la p(A). Es el caso del muestreo sin reemplazo.
• Ejemplo: A=sacar As en la 1era. vezB=sacar As en la 2da. Vez
p(A) = 4/52 = 0,07692p(B) = p(A) en el caso con reemplazo (independientes)p(B) = p(B/A) = 3/51 = 0,05882 en el caso sin reemplazo
(dependientes).• Para el caso de tener mas de 2 eventos dependientes:p(A y B y C y… y Z) = p(A) p(B/A) p(C/AB)…p(Z/ABC…Y)
Cálculo de la Probabilidad
Probabilidad y Variables Continuas
• Cuando trabajamos con variables continuas,
p(A) = área debajo de la curva, correspondiente a A área total bajo la curva.
0
5
10
15
20
25
30
35
40
45
0 2 4 6 8
La probabilidad de que x sea >= 6
Z = x – μ = 6 - 4 = 1,74
σ 1,15
Probabilidad y Variables Continuas
Prueba de Hipótesis • Diseño de medidas repetidas: ( de medidas
replicadas o de grupos correlacionados): son las que aparea resultados obtenidos como control y resultados obtenidos experimentalmente y se analiza la diferencia entre ambos.
• Se puede tratar del mismo grupo evaluado con diferentes “métodos”, o dos grupos homogéneos por alguna condición y se desea evaluar otra condición.
Hipótesis• Hipótesis Alternativa H1:es la que afirma que la
diferencia de resultados entre las condiciones se debe a la variable independiente.
• Se enuncia como “afecta”, “es causa de”, “influye en”, “ aumenta”, “disminuye”, etc.
• Puede direccional o no direccional. • Hipótesis Nula H0: es la contraparte lógica de H1,
por lo tanto es excluyente y exhaustiva de ésta. • Se enuncia en función de H1: “no afecta”, “no es
causa de”, “no influye en”, “no aumenta”, “no disminuye”, etc.
• Al rechazar una hipótesis, se acepta la otra.
Regla de Decisión (Nivel α)• Siempre se evalúa la H0, suponiendo que es
verdadera y verificando si la misma se produce solo por efecto del azar.
• Si la probabilidad resultante es menor o igual que un nivel de probabilidad crítico, llamado nivel α, rechazamos al H0.
• Cuando rechazamos H0, decimos que los resultados son significativos y aceptamos H1, ya que consideramos que es una explicación razonable.
• Si conservamos H0, decimos que los datos no son significativos o confiables y no aceptamos H1.
• Si la probabilidad obtenida <= α, rechazamos H0• Si la probabilidad obtenida > α, conservamos H0
Errores y Niveles de α• Por lo general, los niveles de α son pequeños.
Pueden ser α = 0,01 o α = 0,05• Error de Tipo I consiste en rechazar H0, cuando
ésta es Verdadera.• Error de Tipo II consiste en NO rechazar H0,
cuando ésta es falsa.• El nivel α minimiza la posibilidad de cometer ET I. • Al rechazar la H0, con α = 0,05, estamos diciendo
que podemos cometer un error del 5%.• Cuanto menor sea α incrementamos la posibilidad
de cometer ET II.
Errores y Niveles de α• Por lo general, los niveles de α son pequeños.
Pueden ser α = 0,01 o α = 0,05• Error de Tipo I consiste en rechazar H0, cuando
ésta es Verdadera.• Error de Tipo II consiste en NO rechazar H0,
cuando ésta es falsa.• El nivel α minimiza la posibilidad de cometer ET I. • Al rechazar la H0, con α = 0,05, estamos diciendo
que podemos cometer un error del 5%.• Cuanto menor sea α incrementamos la posibilidad
de cometer ET II.
ET IID. C.Aceptar H00,020,01D. C.ET IRechazar H00,020,05
H0 es FalsaH0 es VerdaderaDecisiónProbabilidad obtenida
Nivel αEstado Real
Errores y Niveles de α
• Si los resultados sirven para comunicar un nuevo hecho científico a la comunidad científica, es mejor usar niveles de α estrictos, ya que hay que minimizar el ET I.
• Si el experimento tiene una finalidad mas “exploratoria”conviene usar niveles menos estrictos (α= 0,10 o α= 0,20) ya que los resultados pueden guiar al investigador hacia nuevos experimentos.
• Los resultados certeros no dependen del nivel de α. • Lo mejor es repetir, de manera independiente el
experimento.
Distribuciones Muestrales
• Una Distribución Muestral proporciona todos los valores que puede asumir un estadístico, junto con la probabilidad de obtener cada valor si el muestreo es aleatorio a partir de la población de hipótesis nula.
• Las pruebas estadísticas suponen una determinada distribución muestral.
• La prueba z, emplea las medias muestrales como estadístico básico.
Prueba z• La distribución muestral de la media proporciona todos
los valores que puede asumir la media, junto con la probabilidad de obtener cada valor si el muestreo es aleatorio a partir de la población de la hipótesis nula.
0
5
10
15
20
25
30
35
40
45
0 2 4 6 8
Muestra 1 de tamaño N
X1
Muestra 2 de tamaño N
X2
Muestra 3 de tamaño N
X3
Muestra K de tamaño N
Xk
• Si los datos crudos tienen una distribución muestral, entonces la distribución de las medias muestrales también tendrá esa característica.
• Si no es así, o no se sabe la distribución, entonces habrá que incrementar el tamaño de muestras. N >= 30.
• Teorema Central del Límite: sin importar la forma que presente la población de datos crudos, la distribución muestral de la media tiende a distribuirse de manera normal cuando aumenta N, el tamaño de la muestra.
Características de la Distribución Muestral de la Media
Cálculo de Zob• Región crítica de rechazo de H0:es el área debajo
de la curva que contiene a todos los valores del estadístico que permiten el rechazo de la H0. Estádeterminado por α. Hay que considerar 1 o 2 colas.
• El valor crítico de un estadístico es aquel que determina la región crítica. Zcri
• Por ejemplo: si α=0,051cola, en la dirección que predice un valor negativo de Zob, entonces la región crítica para el rechazo de H0 es el área bajo la cola izquierda de la curva que es igual a 0,05. El valor de Z para α=0,05 es Zcri=1,645
• Si Zob cae en la región de rechazo, no aceptamos H0
Cálculo de Zob1. Cálculo del Estadístico2. Evaluación del Estadístico con base en su
distribución muestralEjemplo: Zob = Xob – μ = 72 – 75 = - 1,88
σx 1,6 Zcri para α= 0,05 es …. Zcri = -1,645Como Zob < Zcri cae dentro del área de rechazo de
H0, entonces rechazamos H0También se puede tomar el valor absoluto:Si Zob >= Zcri se rechaza H0
Cálculo de Zob1. Cálculo del Estadístico2. Evaluación del Estadístico con base en su
distribución muestralEjemplo: Zob = Xob – μ = 72 – 75 = - 1,88
σx 1,6 Zcri para α= 0,05 es …. Zcri = -1,645Como Zob < Zcri cae dentro del área de rechazo de
H0, entonces rechazamos H0También se puede tomar el valor absoluto:Si Zob >= Zcri se rechaza H0
Prueba t de Student para grupos correlacionados
• Grupos correlacionados:– Se aplica la misma prueba al mismo grupo en varias
oportunidades.– Se aplican distintas pruebas al mismo grupo.– Se aplican distintas pruebas a grupos homogéneos.
• La prueba t se aplica cuando no se conoce σ. Entonces se trabaja con S.
• En el caso de grupos correlacionados, evalúa las diferencias obtenidas en la medición de ambos grupos.
tob = Dob – μ D
SD/ N
tob = Dob – μ D
SC DN (N – 1)
SC = Σ D2 – (ΣD)2
N
tob = Xob – μS/ N
tob = Xob – μ SC
N (N – 1)
SC = Σ x2 – (Σx)2
N
Prueba t para grupos correlacionados
Prueba t para muestras Simples
Cálculo de tob1. Cálculo del Estadístico2. Evaluación del Estadístico con base en su
distribución muestral.Ejemplo: tob = Dob – μD = 5,3 – 0 = 5,08
sx 10 Para hallar tcri, se observan los grados de libertad
(gl), que en este caso se usa N-1 porque se usó S. La prueba es a 2 colas
tcri para α= 0,052colas es …. tcri = ± 2,262Como tob >= tcri se rechaza H0
Prueba z y t para grupos Independientes• Se utilizan en experimentos en los cuales hay dos (o mas) condiciones,
por lo general: de control y de experimental. • No existe base alguna para que cada sujeto entre en uno u otro grupo,
por eso se denomina independiente. • Se calculan los estadísticos de manera separada y se comparan entre
ellos para determinar si es el azar, por si solo, la explicación razonable para las diferencias.
• μ1 σ1 y μ2 σ2• Se supone que el hecho de modificar el nivel de la variable independiente
afecta la media, pero no debería afectar al desvío estándar. • Por lo tanto, bajo este supuesto:
– σ1 = σ2
– μ1 > μ2 ó μ1 < μ2 H1 direccional
– μ1 # μ2 H1 no direccional
– μ1 = μ2 H0
Zob para 2 muestras independientes
Z ob= (X1 – X2) – μx1-x2
σx1-x2
μx1-x2= μ1 – μ2
σx1-x2= σ2 1 + 1n1 n2
Zob para 2 muestras independientes
Z ob= (X1 – X2) – μx1-x2
σx1-x2
μx1-x2= μ1 – μ2
σx1-x2= σ2 1 + 1n1 n2
tob para 2 muestra
t ob = (X1 – X2) – μx
sx1-x2
μx1-x2= μ1 – μ2
s independientes
1-x2
sx1-x2= sw2 1 + 1
n1 n2
Sw2 = SC1 + SC2
n1+n2 -2
SCi = Σxi2 - (Σxi)2
ni
tob para 2 muestra
t ob = (X1 – X2) – μx
sx1-x2
μx1-x2= μ1 – μ2
s independientes
1-x2
sx1-x2= sw2 1 + 1
n1 n2
Sw2 = SC1 + SC2
n1+n2 -2
SCi = Σxi2 - (Σxi)2
ni
Grados de Libertad gl• Los grados de libertad para cualquier estadístico
es el número de datos que pueden variar libremente para calcular dicho estadístico.
• La media tiene N gl, porque ya está dado, si se saben los N-1 datos el n-ésimo dato puede ser cualquiera, sin restricciones.
• Cuado se calcula desvío estandar, por ejemplo, como la suma de las desviaciones debe ser igual a 0, solo N-1 valores pueden asumir cualquier valor, porque el n-ésimo valor debe ser tal que cumpla con la condición dada, por lo tanto tiene N-1 gl
Grados de Libertad gl• Los grados de libertad para cualquier estadístico
es el número de datos que pueden variar libremente para calcular dicho estadístico.
• La media tiene N gl, porque ya está dado, si se saben los N-1 datos el n-ésimo dato puede ser cualquiera, sin restricciones.
• Cuado se calcula desvío estandar, por ejemplo, como la suma de las desviaciones debe ser igual a 0, solo N-1 valores pueden asumir cualquier valor, porque el n-ésimo valor debe ser tal que cumpla con la condición dada, por lo tanto tiene N-1 gl
Distribución normal y significado del área bajo la curva
Áreas bajo la curva normal estándar. Los valores de la tabla que se muestran representan la probabilidad de observar un valor menor o igual que z. La cifra entera y el primer decimal se buscan en la primer columna y el 2do. Decimal en la cabecera de la tabla