estadística ultimaparte

Muestreo Aleatorio y Probabilidad

• En la estadística inferencial se pretende usar los datos de una muestra para hacer una afirmación acerca de una característica de la población.

• Se hacen 2 afirmaciones:– Prueba de Hipótesis: se asegura o se descarta

una afirmación sobre la variable a estudiar.– Estimación de Parámetros: se cuantifica alguna

característica de la población.

Muestreo Aleatorio• Una muestra debe ser aleatoria. Cualquier

elemento introducido para elegir la muestra que no sea el azar, puede condicionar, tendenciar, sesgar la muestra.

• Para ser aleatoria, debe reunir dos condiciones:– Cada muestra de un tamaño n tenga la misma

probabilidad de ser elegida.– Todos los miembros de la muestra la misma

probabilidad de quedar en la muestra.

Técnicas de muestreo

• Muestreo con reemplazo: cada miembro de la población elegida para la muestra, se regresa a la población, antes de elegir el siguiente miembro.

• Muestreo sin reemplazo: cada miembro elegido de la población no retorna a la misma.

Probabilidad

• A priori: antes de realizar la prueba.• A posteriori: luego de la prueba.• p(A)= número de eventos clasificables como A

Cantidad total de eventos posiblesEj: si tenemos un dado y lo arrojamos, cual es la

probabilidad de que salga un 2?A= número de eventos “cara 2 del dado”p(A) = 1 = 0,1667 ( a priori )

6

Probabilidad • La probabilidad varía entre 0 y 1. 0 indica

que no existe posibilidad alguna de que ocurra el evento y 1 indica la certeza de que ocurra.

• Si se multiplica por 100, se halla en porcentaje. Ej: p(A) = 0,1667 16,67 %

• A veces se expresa en términos de “a favor” o “en contra” de un evento. Ej: 3 a 1 a favor de …sería igual ¾ = 0,75 o 75 %

Cálculo de la Probabilidad

• La Suma: La probabilidad de ocurrencia de A o B es igual a la ocurrencia de A mas la probabilidad de que ocurra B menos la probabilidad de que ocurran A y B. – p(A o B)= p(A) + p(B) – p(A y B)

• Eventos mutuamente excluyentes: si no pueden ocurrir al mismo tiempo, o la ocurrencia de uno impide la ocurrencia del otro. p(A y B) = 0 . p(A o B) = p(A) + p(B)

• Si hay dos o mas eventos mutuamnete excluyentes la probabilidad de que ocurra cualquiera de esos eventos es igual a la suma de las probabilidades de cada evento. p(A o B…o Z) = p(A) + p(B) +...+p(Z)

• Un conjunto de eventos es exhaustivo si incluye a todos los eventos posibles. La suma de las probabilidades individuales de un conjunto exhaustivo es igual a 1. Ej: el dado.

• Cuando existen dos eventos y son mutuamente excluyentes se denomina P a la probabilidad de que ocurra uno de ellos y Q a la probabilidad de que ocurra el otro evento.


• El Producto: La probabilidad de ocurrencia de A y B es igual a la probabilidad de ocurrencia de A, multiplicada la probabilidad de que B ocurra, dado que A ha ocurrido. p(A y B) = p(A) p(B/A).

• Si son eventos excluyentes: p(A y B) = 0 • Eventos Independientes: son aquellos en los que

la ocurrencia de uno no tiene efecto sobre la probabilidad del otro. Ej: el muestreo con reemplazo. Si A y B son independientes, entonces p(B/A) = p(B), y p(A y B) = p(A) p(B)

• Si hay mas de 2 eventos independientes: • p(A y B y …y Z) = p(A) p(B)…p(Z)


• Producto: Eventos dependientes. La probabilidad de B es afectada por la p(A). Es el caso del muestreo sin reemplazo.

• Ejemplo: A=sacar As en la 1era. vezB=sacar As en la 2da. Vez

p(A) = 4/52 = 0,07692p(B) = p(A) en el caso con reemplazo (independientes)p(B) = p(B/A) = 3/51 = 0,05882 en el caso sin reemplazo

(dependientes).• Para el caso de tener mas de 2 eventos dependientes:p(A y B y C y… y Z) = p(A) p(B/A) p(C/AB)…p(Z/ABC…Y)


Probabilidad y Variables Continuas

• Cuando trabajamos con variables continuas,

p(A) = área debajo de la curva, correspondiente a A área total bajo la curva.

0

5

10

15

20

25

30

35

40

45

0 2 4 6 8

La probabilidad de que x sea >= 6

Z = x – μ = 6 - 4 = 1,74

σ 1,15

Probabilidad y Variables Continuas

Prueba de Hipótesis • Diseño de medidas repetidas: ( de medidas

replicadas o de grupos correlacionados): son las que aparea resultados obtenidos como control y resultados obtenidos experimentalmente y se analiza la diferencia entre ambos.

• Se puede tratar del mismo grupo evaluado con diferentes “métodos”, o dos grupos homogéneos por alguna condición y se desea evaluar otra condición.

Hipótesis• Hipótesis Alternativa H1:es la que afirma que la

diferencia de resultados entre las condiciones se debe a la variable independiente.

• Se enuncia como “afecta”, “es causa de”, “influye en”, “ aumenta”, “disminuye”, etc.

• Puede direccional o no direccional. • Hipótesis Nula H0: es la contraparte lógica de H1,

por lo tanto es excluyente y exhaustiva de ésta. • Se enuncia en función de H1: “no afecta”, “no es

causa de”, “no influye en”, “no aumenta”, “no disminuye”, etc.

• Al rechazar una hipótesis, se acepta la otra.

Regla de Decisión (Nivel α)• Siempre se evalúa la H0, suponiendo que es

verdadera y verificando si la misma se produce solo por efecto del azar.

• Si la probabilidad resultante es menor o igual que un nivel de probabilidad crítico, llamado nivel α, rechazamos al H0.

• Cuando rechazamos H0, decimos que los resultados son significativos y aceptamos H1, ya que consideramos que es una explicación razonable.

• Si conservamos H0, decimos que los datos no son significativos o confiables y no aceptamos H1.

• Si la probabilidad obtenida <= α, rechazamos H0• Si la probabilidad obtenida > α, conservamos H0

Errores y Niveles de α• Por lo general, los niveles de α son pequeños.

Pueden ser α = 0,01 o α = 0,05• Error de Tipo I consiste en rechazar H0, cuando

ésta es Verdadera.• Error de Tipo II consiste en NO rechazar H0,

cuando ésta es falsa.• El nivel α minimiza la posibilidad de cometer ET I. • Al rechazar la H0, con α = 0,05, estamos diciendo

que podemos cometer un error del 5%.• Cuanto menor sea α incrementamos la posibilidad

de cometer ET II.

Errores y Niveles de α• Por lo general, los niveles de α son pequeños.

Pueden ser α = 0,01 o α = 0,05• Error de Tipo I consiste en rechazar H0, cuando

ésta es Verdadera.• Error de Tipo II consiste en NO rechazar H0,

cuando ésta es falsa.• El nivel α minimiza la posibilidad de cometer ET I. • Al rechazar la H0, con α = 0,05, estamos diciendo

que podemos cometer un error del 5%.• Cuanto menor sea α incrementamos la posibilidad

de cometer ET II.

ET IID. C.Aceptar H00,020,01D. C.ET IRechazar H00,020,05

H0 es FalsaH0 es VerdaderaDecisiónProbabilidad obtenida

Nivel αEstado Real

Errores y Niveles de α

• Si los resultados sirven para comunicar un nuevo hecho científico a la comunidad científica, es mejor usar niveles de α estrictos, ya que hay que minimizar el ET I.

• Si el experimento tiene una finalidad mas “exploratoria”conviene usar niveles menos estrictos (α= 0,10 o α= 0,20) ya que los resultados pueden guiar al investigador hacia nuevos experimentos.

• Los resultados certeros no dependen del nivel de α. • Lo mejor es repetir, de manera independiente el

experimento.

Distribuciones Muestrales

• Una Distribución Muestral proporciona todos los valores que puede asumir un estadístico, junto con la probabilidad de obtener cada valor si el muestreo es aleatorio a partir de la población de hipótesis nula.

• Las pruebas estadísticas suponen una determinada distribución muestral.

• La prueba z, emplea las medias muestrales como estadístico básico.

Prueba z• La distribución muestral de la media proporciona todos

los valores que puede asumir la media, junto con la probabilidad de obtener cada valor si el muestreo es aleatorio a partir de la población de la hipótesis nula.

0

5

10

15

20

25

30

35

40

45

0 2 4 6 8

Muestra 1 de tamaño N

X1


X2


X3

Muestra K de tamaño N

Xk

• Si los datos crudos tienen una distribución muestral, entonces la distribución de las medias muestrales también tendrá esa característica.

• Si no es así, o no se sabe la distribución, entonces habrá que incrementar el tamaño de muestras. N >= 30.

• Teorema Central del Límite: sin importar la forma que presente la población de datos crudos, la distribución muestral de la media tiende a distribuirse de manera normal cuando aumenta N, el tamaño de la muestra.

Características de la Distribución Muestral de la Media

Cálculo de Zob• Región crítica de rechazo de H0:es el área debajo

de la curva que contiene a todos los valores del estadístico que permiten el rechazo de la H0. Estádeterminado por α. Hay que considerar 1 o 2 colas.

• El valor crítico de un estadístico es aquel que determina la región crítica. Zcri

• Por ejemplo: si α=0,051cola, en la dirección que predice un valor negativo de Zob, entonces la región crítica para el rechazo de H0 es el área bajo la cola izquierda de la curva que es igual a 0,05. El valor de Z para α=0,05 es Zcri=1,645

• Si Zob cae en la región de rechazo, no aceptamos H0

Cálculo de Zob1. Cálculo del Estadístico2. Evaluación del Estadístico con base en su

distribución muestralEjemplo: Zob = Xob – μ = 72 – 75 = - 1,88

σx 1,6 Zcri para α= 0,05 es …. Zcri = -1,645Como Zob < Zcri cae dentro del área de rechazo de

H0, entonces rechazamos H0También se puede tomar el valor absoluto:Si Zob >= Zcri se rechaza H0

Cálculo de Zob1. Cálculo del Estadístico2. Evaluación del Estadístico con base en su

distribución muestralEjemplo: Zob = Xob – μ = 72 – 75 = - 1,88

σx 1,6 Zcri para α= 0,05 es …. Zcri = -1,645Como Zob < Zcri cae dentro del área de rechazo de

H0, entonces rechazamos H0También se puede tomar el valor absoluto:Si Zob >= Zcri se rechaza H0

Prueba t de Student para grupos correlacionados

• Grupos correlacionados:– Se aplica la misma prueba al mismo grupo en varias

oportunidades.– Se aplican distintas pruebas al mismo grupo.– Se aplican distintas pruebas a grupos homogéneos.

• La prueba t se aplica cuando no se conoce σ. Entonces se trabaja con S.

• En el caso de grupos correlacionados, evalúa las diferencias obtenidas en la medición de ambos grupos.

tob = Dob – μ D

SD/ N

tob = Dob – μ D

SC DN (N – 1)

SC = Σ D2 – (ΣD)2

N

tob = Xob – μS/ N

tob = Xob – μ SC

N (N – 1)

SC = Σ x2 – (Σx)2

N

Prueba t para grupos correlacionados

Prueba t para muestras Simples

Cálculo de tob1. Cálculo del Estadístico2. Evaluación del Estadístico con base en su

distribución muestral.Ejemplo: tob = Dob – μD = 5,3 – 0 = 5,08

sx 10 Para hallar tcri, se observan los grados de libertad

(gl), que en este caso se usa N-1 porque se usó S. La prueba es a 2 colas

tcri para α= 0,052colas es …. tcri = ± 2,262Como tob >= tcri se rechaza H0

Prueba z y t para grupos Independientes• Se utilizan en experimentos en los cuales hay dos (o mas) condiciones,

por lo general: de control y de experimental. • No existe base alguna para que cada sujeto entre en uno u otro grupo,

por eso se denomina independiente. • Se calculan los estadísticos de manera separada y se comparan entre

ellos para determinar si es el azar, por si solo, la explicación razonable para las diferencias.

• μ1 σ1 y μ2 σ2• Se supone que el hecho de modificar el nivel de la variable independiente

afecta la media, pero no debería afectar al desvío estándar. • Por lo tanto, bajo este supuesto:

– σ1 = σ2

– μ1 > μ2 ó μ1 < μ2 H1 direccional

– μ1 # μ2 H1 no direccional

– μ1 = μ2 H0

Zob para 2 muestras independientes

Z ob= (X1 – X2) – μx1-x2

σx1-x2

μx1-x2= μ1 – μ2

σx1-x2= σ2 1 + 1n1 n2

Zob para 2 muestras independientes

Z ob= (X1 – X2) – μx1-x2

σx1-x2

μx1-x2= μ1 – μ2

σx1-x2= σ2 1 + 1n1 n2

tob para 2 muestra

t ob = (X1 – X2) – μx

sx1-x2

μx1-x2= μ1 – μ2

s independientes

1-x2

sx1-x2= sw2 1 + 1

n1 n2

Sw2 = SC1 + SC2

n1+n2 -2

SCi = Σxi2 - (Σxi)2

ni

tob para 2 muestra

t ob = (X1 – X2) – μx

sx1-x2

μx1-x2= μ1 – μ2

s independientes

1-x2

sx1-x2= sw2 1 + 1

n1 n2

Sw2 = SC1 + SC2

n1+n2 -2

SCi = Σxi2 - (Σxi)2

ni

Grados de Libertad gl• Los grados de libertad para cualquier estadístico

es el número de datos que pueden variar libremente para calcular dicho estadístico.

• La media tiene N gl, porque ya está dado, si se saben los N-1 datos el n-ésimo dato puede ser cualquiera, sin restricciones.

• Cuado se calcula desvío estandar, por ejemplo, como la suma de las desviaciones debe ser igual a 0, solo N-1 valores pueden asumir cualquier valor, porque el n-ésimo valor debe ser tal que cumpla con la condición dada, por lo tanto tiene N-1 gl

Grados de Libertad gl• Los grados de libertad para cualquier estadístico

es el número de datos que pueden variar libremente para calcular dicho estadístico.

• La media tiene N gl, porque ya está dado, si se saben los N-1 datos el n-ésimo dato puede ser cualquiera, sin restricciones.

• Cuado se calcula desvío estandar, por ejemplo, como la suma de las desviaciones debe ser igual a 0, solo N-1 valores pueden asumir cualquier valor, porque el n-ésimo valor debe ser tal que cumpla con la condición dada, por lo tanto tiene N-1 gl

Distribución normal y significado del área bajo la curva

Áreas bajo la curva normal estándar. Los valores de la tabla que se muestran representan la probabilidad de observar un valor menor o igual que z. La cifra entera y el primer decimal se buscan en la primer columna y el 2do. Decimal en la cabecera de la tabla

estadística ultimaparte

Education