distribuciones de probabilidad …maristascoruna.wikispaces.com/file/view/apuntes estadistica...

48
____________________Introducción a los métodos estadísticos, numéricos y probabilísticos 65 DISTRIBUCIONES DE PROBABILIDAD FUNDAMENTALES ¿Para qué? Para conocer y explotar el hecho de que la mayoría de los fenómenos, bien responden a determinados patrones, que denominamos distribuciones de probabilidad fundamentales o bien es posible, mediante artificio matemático, reducirlos a dichas distribuciones, lo que nos permite predecir sucesos, establecer comparaciones entre ellos y dar un paso decisivo (más bien un auténtico salto cualitativo) en el proceso de toma de decisiones.

Upload: buinga

Post on 03-Feb-2018

236 views

Category:

Documents


2 download

TRANSCRIPT

Page 1: DISTRIBUCIONES DE PROBABILIDAD …maristascoruna.wikispaces.com/file/view/Apuntes Estadistica P2.pdf... · representa la distribución de probabilidad de una variable continua. Una

____________________Introducción a los métodos estadísticos, numéricos y probabilísticos

65

DISTRIBUCIONES DE PROBABILIDAD FUNDAMENTALES

¿Para qué?

Para conocer y explotar el hecho de que la mayoría de los fenómenos, bien responden a determinados patrones, que denominamos distribuciones de probabilidad fundamentales o bien es posible, mediante artificio matemático, reducirlos a dichas distribuciones, lo que nos permite predecir sucesos, establecer comparaciones entre ellos y dar un paso decisivo (más bien un auténtico salto cualitativo) en el proceso de toma de decisiones.

Page 2: DISTRIBUCIONES DE PROBABILIDAD …maristascoruna.wikispaces.com/file/view/Apuntes Estadistica P2.pdf... · representa la distribución de probabilidad de una variable continua. Una

____________________Introducción a los métodos estadísticos, numéricos y probabilísticos

Distribuciones de Probabilidad fundamentales Variable aleatoria Definición: Sea E el espacio muestral asociado a un experimento aleatorio. Se denomina variable aleatoria a toda aplicación del espacio muestral E en un subconjunto de los números reales.

ii xsSEX

→ℜ⊆→:

Definición: Una variable aleatoria se dirá discreta, si toma un número finito o infinito numerable de valores. Definición: Una variable aleatoria se dirá continua, si toma infinitos valores en un intervalo de la recta real. Función de densidad de probabilidad y función de distribución de probabilidad Definición: Función de Distribución Dada una variable aleatoria ξ, se define la función de distribución de ξ como sigue:

ℜ∈∀≤= xxPxF )()( ξ Es decir, la función de distribución asigna a cada número real x la probabilidad acumulada hasta dicho valor. Propiedades:

i. 0≤F(x)≤1 , es decir, la gráfica de una función de distribución está siempre en la franja (0,1)

ℜ∈∀x

ii. )()()( aFbFbaPba −=≤≤≤∀ ξ iii. La función de distribución es continua por la derecha en todo punto. No

puede afirmarse lo mismo respecto a la izquierda, ya que para una variable discreta, se trata de una función escalonada.

Definición: Función de Densidad (Variable Discreta) Sea ξ una variable discreta que puede tomar los valores x1,.......,xn; se denomina función de densidad o cuantía a la función f(x) que asigna a cada valor de la variable, la probabilidad de que ocurra:

)()( ii xPxf == ξ Propiedades:

i. ii xxf ∀≤≤ 1)(0

ii. ∑=

=n

iixf

1

)( 1

66

Page 3: DISTRIBUCIONES DE PROBABILIDAD …maristascoruna.wikispaces.com/file/view/Apuntes Estadistica P2.pdf... · representa la distribución de probabilidad de una variable continua. Una

____________________Introducción a los métodos estadísticos, numéricos y probabilísticos

67

1iii. Si x recorre un infinito numerable ∑∞

=

=1

)(i

ixf

Definición: Función de Densidad (Variable Continua) Se dice que f(x) es una función de densidad de probabilidad o simplemente una función de densidad de la variable aleatoria ξ continua, si se verifica:

∫ ∫∞

∞−=≤<=ℜ∈∀≥

b

adxxfbxaPdxxfxxf )()(;1)(;0)(

En la igualdad anterior, es indistinto usar < o ≤ ya que el valor de la integral no varía. Relación entre función de densidad y distribución

- Variable discreta Dada f(xi), función de densidad, puede obtenerse la función de distribución como sigue:

∑=

=j

iij xfxF

1

)()(

Análogamente, si F(xj) es conocida, puede obtenerse la función de densidad como sigue: )()()( 1−−= jjj xFxFxf

- Variable continua Conocida f(x) función de densidad, puede obtenerse la función de distribución F(x) como sigue:

∫ ∞−=

xdxxfxF )()(

Análogamente, si F(x) es conocida, puede obtenerse f(x) haciendo: )(')( xFxf =

Teorema de Chebyshev Hemos visto anteriormente que la varianza es una medida de la desviación de los datos con respecto a la media. Chebyshev, matemático ruso, enunció y demostró un teorema que da una estimación de la probabilidad de que una variable aleatoria se desvíe de la media menos de k desviaciones típicas. Se enuncia como:

[ ] 211k

kkP −≥+><− σµξσµ

Y es válido para variables discretas y continuas.

Page 4: DISTRIBUCIONES DE PROBABILIDAD …maristascoruna.wikispaces.com/file/view/Apuntes Estadistica P2.pdf... · representa la distribución de probabilidad de una variable continua. Una

____________________Introducción a los métodos estadísticos, numéricos y probabilísticos

Parámetros de una variable aleatoria discreta Definición: Se denomina media o Esperanza Matemática de la variable aleatoria X, y se denota como E(X) o µ al sumatorio:

∑=

=++=n

iiinn pxpxpx

111 .........µ

Definición: La varianza de una variable aleatoria X, se denota como y su cálculo responde a la expresión:

i

n

iinn pxpxpx )²()²(........)²(²

111 ∑

=

−=−++−= µµµσ

Definición: La desviación típica de la variable X, se denota como σ y se calcula como:

∑=

−==n

iii px

1

)²(² µσσ

NOTA: En las tres definiciones anteriores, pi es la probabilidad de que ocurra el suceso xi, , como por otra parte resulta fácil imaginar. Variable aleatoria continua. Diferencias Si la variable aleatoria es continua, la función de distribución como tal no tiene sentido y usamos en su sustitución la denominada función de densidad, que representa la distribución de probabilidad de una variable continua. Una función y=f(x) es la función de densidad de una variable aleatoria continua X, si cumple:

- xxf ∀≥ 0)( - El área total encerrada bajo la gráfica es la unidad - La probabilidad de que la variable tome valores en el intervalo (xi,xj) es

precisamente el área bajo la curva en dicho intervalo. Aún así, es posible definir una función de distribución de variable continua: Definición: Una función F(x) se llama función de distribución de una variable continua X, si:

- F’(x) es una función de densidad de la variable X - ixxxF <∀= 0)( siendo xi el menor valor de X - siendo xjxxxF >∀= 1)( j el mayor valor de X

68

Page 5: DISTRIBUCIONES DE PROBABILIDAD …maristascoruna.wikispaces.com/file/view/Apuntes Estadistica P2.pdf... · representa la distribución de probabilidad de una variable continua. Una

____________________Introducción a los métodos estadísticos, numéricos y probabilísticos

Distribución Binomial Definición: Un experimento aleatorio se dirá que sigue una distribución Binomial o de Bernouilli, si:

- En cada ensayo sólo es posible obtener dos resultados; el suceso A, que denominamos éxito y su complementario, A , que denominamos fracaso.

- El resultado obtenido en cada ensayo, es independiente de los obtenidos anteriormente.

- Las probabilidades de A y A son constantes, y se verifica que P(A)=p, P( )=q y p+q=1 A

- En cada experimento se realizan n pruebas idénticas. Definición: La variable X, que muestra el número de éxitos obtenidos en cada prueba del experimento, se denomina Variable Aleatoria Binomial. Supongamos que realizamos n pruebas de un experimento que sigue el modelo binomial y deseamos conocer la probabilidad de obtener r éxitos en esas n pruebas. Es decir, consideramos el suceso B, caracterizado por la aparición de r éxitos y n-r fracasos. Al tratarse de sucesos independientes, y teniendo en cuenta que P(A)=p y P( )=q, podríamos afirmar que P(B)=prqn-r.

A

Ahora bien, esos éxitos y fracasos, pueden obtenerse en cualquier orden, por lo que el número de sucesos con r éxitos y n-r fracasos, son exactamente las permutaciones de n elementos con r repeticiones del suceso A y n-r repeticiones del suceso , es decir:

A

==

−=−

rn

Crnr

nPR rn

rnrn )!(!

!,

De manera que la probabilidad de obtener r éxitos, será exactamente:

rnrqprn

rXP −

== )(

De donde, generalizando, la función de distribución de la Binomial B(n,p) será:

>

≤≤

=≤

<

= ∑=

nxsi

nxsiqpjn

xP

xsi

xF

i

h

ji

jnjj

i

i

1

0)(

00

)(0

ξ

69

Page 6: DISTRIBUCIONES DE PROBABILIDAD …maristascoruna.wikispaces.com/file/view/Apuntes Estadistica P2.pdf... · representa la distribución de probabilidad de una variable continua. Una

____________________Introducción a los métodos estadísticos, numéricos y probabilísticos

Los parámetros de una distribución binomial, pueden calcularse de forma abreviada a partir de n y p como:

qpn

qpnpn

··

··²·

=

==

σ

σµ

Distribución Normal Definición: Diremos que una variable aleatoria X sigue una distribución normal de media µ y desviación típica σ si se cumplen las siguientes condiciones:

- El recorrido de X es todo ℝ - La función de distribución tiene la siguiente forma funcional

²21

21)(

−−

= σµ

πσ

x

exf

- La distribución se designará entonces por N(µ,σ), siendo µ la media de la distribución y σ su desviación típica.

Propiedades : Pueden establecerse a partir de la observación de su gráfica

)( 0xf −µ

πσµ

21,

µ 0x+µ

- ∀ℜ∃ - )()( 0xfxf +=− µµ - La gráfica es simétrica respecto del eje x=µ

- Máx f(x)=f(µ)=π2

- x1=(µ-σ) y x2=(µ+σ) son puntos de inflexión - OX es asíntota horizontal - El área encerrada bajo la curva es la unidad. 0x−

Distribución normal estándar: Es la usada para tabulación, está definida de forma que µ=0 y σ=1. La función de distribución resultante, es:

·21)(

xexf −

70

Page 7: DISTRIBUCIONES DE PROBABILIDAD …maristascoruna.wikispaces.com/file/view/Apuntes Estadistica P2.pdf... · representa la distribución de probabilidad de una variable continua. Una

____________________Introducción a los métodos estadísticos, numéricos y probabilísticos

Casuística del manejo de tablas de la distribución normal. - P(X≤ x)- Valor en tablas - P(X>x)=1-P(X≤ x) - P(X<-x)=P(X>x)=1-P(X≤ x) - P(X>-x)=1-P(X≤ -x)=1-P(X x)=1-(1-P(X<x))=P(X<x)=P(X≥ ≤ x) - P(x1≤X x≤ ≤2)=P(X x2)-P(X≤ x1) Tipificación de la variable Si manejamos una distribución normal cualquiera N(µ,σ) y necesitamos calcular determinadas probabilidades, no encontraremos los valores en las tablas de la distribución normal N(0,1). Para hacer posible la búsqueda, usamos un procedimiento que se conoce con el nombre de tipificación y que básicamente

consiste en un cambio de variable de la forma σµ−

=xz , lo que nos permite calcular

la probabilidad buscada sin más que localizar en las tablas el valor de z. Aproximación Binomial-Normal Si se verifican las desigualdades n·p 5, y n·q , distribución binomial B(n,p) puede aproximarse a la distribución normal N(µ,σ) donde :

≥ 5≥

npqpn == σµ · Teorema de la adición para la distribución binomial o de Bernouilli Dadas las variables ),(.,),........,(),,( 2211 pnBpnBpnB kk ∈∈∈ ξξξ , la variable

kξξξξ +++= .......21 , se distribuye también según una binomial, tal que )......( 21 knnnB +++∈ξ

Distribuciones discretas de Probabilidad Distribución de Poisson Se dice que la variable ξ tiene una distribución de Poisson de parámetro λ y se denota )(λξ P∈ si ξ es una variable discreta que puede tomar valores de 0 a con probabilidad

)( x

x

exPλ

λξ

−==

71

Page 8: DISTRIBUCIONES DE PROBABILIDAD …maristascoruna.wikispaces.com/file/view/Apuntes Estadistica P2.pdf... · representa la distribución de probabilidad de una variable continua. Una

____________________Introducción a los métodos estadísticos, numéricos y probabilísticos

- Las demostraciones y operatividad de esta distribución, necesitan el apoyo teórico de los desarrollos en serie de McLaurin, de manera que admitiremos como ciertas las propiedades que citamos a continuación: - Esperanza matemática λξ =)(E - Varianza λσ =² - Desviación típica λσ +=

Teorema de la adición de la distribución de Poisson La suma de variables de Poisson independientes es una variable de Poisson, de parámetro λ igual a la suma de los parámetros de las variables que se suman. Distribución de Poisson como límite de la binomial Supongamos que ),( pnB∈ξ y calculemos qué pasa con la probabilidad de cada valor de ξ al tender n a infinito. Intentamos calcular

∞→=

nxP )(lim ξ ; hacemos n·p=λ , de donde tendremos

nqnp λλ −== 1; Dado que en principio nuestra variable es binomial, sabemos que :

( )

( )

∞→∞→∞→

∞→

−−−=

∞→

−−−

=

=

==

nnn

n

nn

xnxnnn

nnnx

xnnn

xn

ndodesarrollaqpxn

xP

x

n

x

x

xnx

xnx

λ

λ

λ

λλ

ξ

1lim

1lim

.!

·lim))1(().........1(lim

1!

)1....().........1(lim

lim)(lim

Si calculamos cada uno de estos límites por separado, tendremos:

∞→

=

nxx

xx

!!lim λλ

∞→

=∞∞

=−−−

nn

xnnnx 1))1()........(1(lim

72

Page 9: DISTRIBUCIONES DE PROBABILIDAD …maristascoruna.wikispaces.com/file/view/Apuntes Estadistica P2.pdf... · representa la distribución de probabilidad de una variable continua. Una

____________________Introducción a los métodos estadísticos, numéricos y probabilísticos

∞→∞→

=

−+=

− −

−−

nn

enn

nn

λ

λλ

λ

λ 11lim1lim

∞→

==

nn

xx

111lim λ

luego:

∞→

=

−−

nx

eqpxn x

xnx

!·lim λλ

- Ello demuestra que la distribución de Poisson es una buena aproximación de la binomial, cuando n es grande y p=λ/n tiende a 0. Por esto último, la distribución de Poisson, recibe en ocasiones el nombre de “Distribución de los sucesos raros”.

- Lo habitual es considerar como buena la aproximación de Poisson cuando p ≤ 0,1 y np ≤ 5.

Distribución Multinomial La distribución binomial nos permite resolver tan sólo aquellos problemas de pruebas sucesivas cuyos resultados pueden clasificarse en éxito/fracaso. Existen, sin embargo, problemas en que los resultados pueden ser de índole diversa y es necesario tener más categorías de clasificación. La distribución que estudia este tipo de problemas se denomina Multinomial y se obtiene como sigue:

- Supongamos un experimento aleatorio en el que son posibles los resultados A1,...Ak.

- Sea pj la probabilidad de obtener el resultado Aj en una prueba y supongamos que se realizan pruebas independientes.

- De forma trivial, podemos asociar a este experimento una variable aleatoria k-dimensional (ξ1,ξ2,......ξk) donde ξi indica el número de veces que el suceso Ai ocurrió en las n pruebas.

- Diremos que esta variable k-dimensional es multinomial, si:

nxn

xx

nkk xxxnsiendoppp

xxxnxxxP n +++===== .....,......

!!.....!!),,.........,( 2121

212211

21ξξξ

- Esta distribución se denomina multinomial de parámetros n,p1,p2,......pk y sus estadísticos son:

i) Esperanza matemática ),....,(),....( 212,1 kk npnpnpE =ξξξ

ii) Varianza

73

Page 10: DISTRIBUCIONES DE PROBABILIDAD …maristascoruna.wikispaces.com/file/view/Apuntes Estadistica P2.pdf... · representa la distribución de probabilidad de una variable continua. Una

____________________Introducción a los métodos estadísticos, numéricos y probabilísticos

kipnp iii ,....2,1)1()²( =−=ξσ iii) Covarianza

jijiji pnpS −=),(, ξξ Distribución Hipergeométrica Supongamos un experimento que se realiza N veces y cuyos resultados son tales que k pueden ser considerados como éxito y N-k como fracaso. Consideremos que tomamos una muestra de tamaño n de entre los N resultados del experimento. La variable “número de éxitos”, de entre estos n resultados, se denomina Variable Hipergeométrica de parámetros N,n,k , si la probabilidad de obtener x éxitos es:

nx

nN

xnkN

xk

xP ,.....,2,1,0;)( =

−−

==ξ

y lo denotamos como ξ∈h(N,n,k). Los parámetros característicos, serán:

- Esperanza matemática

NnkE =)(ξ

- Varianza

−−

=Nk

Nkn

NnN 1··1

²σ

Distribuciones continuas de Probabilidad Teoremas fundamentales respecto a la distribución Normal Teorema 1 (Suma) Si Kηηη ,........, 21

N jjj ),(∈ son variables aleatorias independientes, con distribuciones

kj ,....1=∀σµη , entonces la variable suma kηηηλ ....21 ++= es también una variable de distribución normal, siendo su media

kµµµµ +++= .....21 y su desviación típica

222

21 ...... kσσσσ +++=

Teorema 2 (Promedio de distribuciones) Si Kηηη ,........, 21 son variables aleatorias independientes e igualmente distribuidas según N(µ,σ), la variable

74

Page 11: DISTRIBUCIONES DE PROBABILIDAD …maristascoruna.wikispaces.com/file/view/Apuntes Estadistica P2.pdf... · representa la distribución de probabilidad de una variable continua. Una

____________________Introducción a los métodos estadísticos, numéricos y probabilísticos

kkηηη

η+++

=....21

es decir, la media de las variables, se distribuye según una normal ),(k

N σµ

NOTA: Ambos Teoremas son fundamentales en toda la Inferencia Estadística, tanto en el estudio de intervalos de confianza, como en el Contraste de Hipótesis. Distribución χ² de Pearson Se define como la suma de cuadrados de variables N(0,1) independientes. El número de variables normales cuyo cuadrado se suma se denomina "número de grados de libertad de la χ²".

Es decir, si )1,0(,....., 21 Nk ∈ξξξ independientes, definimos 22

22

12 ..... kn ξξξχ +++=

Enunciamos a continuación las principales características de la distribución, sin incluir demostraciones, para las cuales la función Г de Euler es necesaria constantemente, complicando en exceso el razonamiento.

- Esperanza matemática: µ=n= Número de grados de libertad. - Desviación Típica: n2=σ

- Aproximación a la normal: ∞→

=n

nnNn )2,(2χlim ; siendo buena la

aproximación cuando n>30 Distribución t-STUDENT Denominada así porque su descubridor, Gosset, firmaba con dicho seudónimo sus trabajos. Sean nηηηη ,.....21 ,,0 n+1 variables aleatorias independientes, todas ellas con

distribuciones N(0,σ).La variable:

( )222

21 ......1

n

n

n

tηηη

η

+++=

se denomina t-Student con n grados de libertad. Puede demostrarse que si n ∞ , entonces tn N(0,1), siendo la

75

aproximación tanto mejor cuanto mayor sea el número de grados de libertad.

Page 12: DISTRIBUCIONES DE PROBABILIDAD …maristascoruna.wikispaces.com/file/view/Apuntes Estadistica P2.pdf... · representa la distribución de probabilidad de una variable continua. Una

____________________Introducción a los métodos estadísticos, numéricos y probabilísticos

La aproximación es aceptablemente buena con tal que n>30, motivo por el cual, las tablas t-Student llegan sólo a 30 grados de libertad.

Distribución F de Snedecor Es una distribución de probabilidad llamada tras la inicial de Fisher, descubridor de la denominada z de Fisher, precursora de la variable F descrita como . ze 2=F Sean ,....2 nm '......',',, 211 ηηηηηη n+m variables aleatorias independientes e

igualmente distribuidas según N(0,σ). Se define entonces la variable F con (m,n) grados de libertad, como:

( )

( )221

221

,

'.........'1

........1

n

m

nm

n

mFηη

ηη

++

++=

Distribución Uniforme Se dice que la variable ξ es uniforme en el intervalo (a,b) y se denota ),( baU∈ξ , si su función de densidad es constante en el intervalo (a,b) y 0 en el resto de su recorrido. Al ser constante en (a,b) y tratarse de una función de densidad, ha de

verificarse que:

∫ ∫∞

∞− −=⇒=⇒=

b

a abkkdxdxxf 111)(

La función de densidad de la variable ),( baU∈ξ , quedará como:

≤≤−

=

bxsi

bxasiab

axsi

xf

0

10

)(

Sus parámetros fundamentales, serán:

Esperanza matemática: 2

ba +=µ

Varianza: )²(121² ab −=σ

Desviación típica: )(63 ab −=σ

76

Page 13: DISTRIBUCIONES DE PROBABILIDAD …maristascoruna.wikispaces.com/file/view/Apuntes Estadistica P2.pdf... · representa la distribución de probabilidad de una variable continua. Una

____________________Introducción a los métodos estadísticos, numéricos y probabilísticos

77

Distribuciones de Probabilidad. Problemas General 1. La distribución de probabilidad de una variable aleatoria discreta X, viene dada

por xi -2 -1 0 1 2

P(x=xi) 0.08 0.32 0.05 m 0.32 Calcúlense f(1), f(2), f(2), f(3) y m

2. Halla la función de probabilidad del experimento que consiste en lanzar dos

dados y anotar la suma de las puntuaciones obtenidas. 3. En el experimento anterior, halla la función de distribución y represéntala gráficamente. 4. Halla la media, la varianza y la desviación típica de una variable aleatoria X que

tiene como función de probabilidad: xi 0 1 2 3

f(xi) 0.2 0.3 0.1 0.4 5. En una urna hay 4 bolas rojas y 2 negras. El experimento consiste en extraer 5

bolas con devolución o reemplazamiento. Halla la función de probabilidad y la función de distribución de la variable "número de bolas negras".

Distribución Binomial

1. La probabilidad de que una pieza fabricada por una empresa sea defectuosa es 0,1. Halla la probabilidad de que en una muestra de 100 piezas, se encuentren 3 defectuosas.

2. La probabilidad de que un estudiante de Matemáticas obtenga título es de 0,2.

Halla la probabilidad de que de un grupo de seis estudiantes, al menos 2 acaben la carrera.

3. Halla la media, la varianza y la desviación típica de la distribución binomial B(150; 0,3 )

Page 14: DISTRIBUCIONES DE PROBABILIDAD …maristascoruna.wikispaces.com/file/view/Apuntes Estadistica P2.pdf... · representa la distribución de probabilidad de una variable continua. Una

____________________Introducción a los métodos estadísticos, numéricos y probabilísticos

78

4. Una moneda está trucada, de forma que la probabilidad de obtener cara es 4/7. Se lanza la moneda 10 veces. Calcúlese:

a) Probabilidad de obtener 7 caras b) Probabilidad de obtener, como máximo 4 cruces.

5. Un dado numerado del 1 al 6, está trucado de forma que la probabilidad de

obtener número par es 11/24. Se lanza el dado 12 veces. Calcúlese: a) Probabilidad de obtener 6 números pares b) Probabilidad de obtener 12 números pares

6. La probabilidad de que un tirador haga blanco en un disparo, es de 0,2, halla

la probabilidad de que en una serie de cinco disparos: a) No haga ningún blanco b) Haga cinco blancos c) Haga más de 3 blancos.

Distribución Normal

7. En una distribución normal N(0,1), calcula: a) P(x≤0,7) b) P(x>0,55) c) P(0,4≤x≤0,7) d) P(x≤0,83) e) P(x>-0,45) f) P(-0,5≤x≤7)

8. Dada una distribución N(7; 2,5), calcula: a) P(x≤4) b) P(x≥8) c) P(5≤x≤7) d) P(5≤x≤9)

9. Dada la distribución B(150, 0,2) a) Comprueba si puede ajustarse a una normal b) Transfórmala en una distribución normal si la respuesta a la primera pregunta

es positiva.

10. Se lanza una moneda de curso legal 100 veces, calcúlese la probabilidad de: a) Obtener más de 55 caras b) Obtener menos de 25 caras

Page 15: DISTRIBUCIONES DE PROBABILIDAD …maristascoruna.wikispaces.com/file/view/Apuntes Estadistica P2.pdf... · representa la distribución de probabilidad de una variable continua. Una

____________________Introducción a los métodos estadísticos, numéricos y probabilísticos

79

11. En la distribución N(0,1), calcula el valor de k en los casos siguientes, sabiendo que k≥0:

a) P(z≤k)=0.9066 b) P(z≤k)=0.6368 c) P(z≥k)=0.0014

12. La duración media de una picadora de cocina es de 4 años, con una

desviación típica de 0,3 años. Si la vida de la picadora se distribuye normalmente, halla la probabilidad de que al comprar una unidad ésta dure más de 6 años.

13. El peso de los individuos de una población americana, se distribuye

normalmente con una media de 90 Kg. y una desviación típica de 20 Kg. Calcúlese el porcentaje de individuos cuyo peso esté comprendido entre 70 y 75 Kg.

14. Una máquina que expende bebidas, está programada de forma que descarga

una media de 200 cm³. por vaso. Si la cantidad de líquido dispensado está distribuida normalmente con una desviación típica de de 15 cm³, calcúlese

a) Porcentaje de vasos que llenará con más de 220 cm³ b) Si usamos seis vasos de 220 cm³, ¿cuál es la probabilidad de que se derrame

líquido exáctamente en 2 vasos?

15. Se sabe que la nota de determinado examen, está distribuida según una normal, sabemos que el 17 % tiene una nota superior a 6 puntos, mientras que el 17 % tiene una nota inferior a 4 puntos. Calcúlese:

a) Porcentaje de estudiantes con nota comprendida entre 4 y 6 b) Nota media del examen.

16. De un estudio de nieblas ocurridas durante el mes de marzo en un aeropuerto

durante 50 años, se han obtenido los siguientes resultados: 25 años sin nieblas, 15 con una niebla, 6 años con dos nieblas, tres años con 3 nieblas y un año con cuatro nieblas. Determinar la distribución de Poisson que representaría el fenómeno y calcular las probabilidades teóricas que corresponderían a cada suceso.

17. En una estación de montaña, se han observado 20 días con altura de nieve mayor que h, durante un período de 10 años. Suponiendo que es aplicable la distribución de Poisson, calcular la probabilidad de superar dicho valor h:

a) Menos de cinco veces en los próximos 2 años b) Más de tres veces en el próximo año

Page 16: DISTRIBUCIONES DE PROBABILIDAD …maristascoruna.wikispaces.com/file/view/Apuntes Estadistica P2.pdf... · representa la distribución de probabilidad de una variable continua. Una

____________________Introducción a los métodos estadísticos, numéricos y probabilísticos

PAFNUTI LVOVICH CHEBYSHEV En 1847, Pafnuty Chebyshev fue nombrado profesor de la Universidad de San Petersburgo. Fue también asociado foráneo al Institut de France en 1874, así como miembro de la Royal Society.

80

Es especialmente famoso por sus trabajos sobre números primos y escribió en 1849 un Tratado sobre la Teoría de la Congruencia. Realizó importantes aportaciones al Cálculo Integral. Mostró también interés por la Mecánica y la conversión del movimiento rotatorio en movimiento rectilíneo, mediante acoplamiento mecánico. Escribió papeles acerca de numerosos temas, de entre los que resultan especialmente destacables aquellos que versaban sobre la Teoría de la Probabilidad, Formas Cuadráticas, Funciones Ortogonales, Teoría de Integrales y Cálculo de Volúmenes Genéricos.

Page 17: DISTRIBUCIONES DE PROBABILIDAD …maristascoruna.wikispaces.com/file/view/Apuntes Estadistica P2.pdf... · representa la distribución de probabilidad de una variable continua. Una

____________________Introducción a los métodos estadísticos, numéricos y probabilísticos

81

TEORÍA DE MUESTRAS

¿Para qué?

Para conocer características de una población a partir de un

grupo pequeño de elementos de la misma. Para conocer los errores que podemos cometer cuando aventuramos

características de la población a partir las muestras de la misma.

Page 18: DISTRIBUCIONES DE PROBABILIDAD …maristascoruna.wikispaces.com/file/view/Apuntes Estadistica P2.pdf... · representa la distribución de probabilidad de una variable continua. Una

____________________Introducción a los métodos estadísticos, numéricos y probabilísticos

82

Teoría de muestras Existen situaciones de estudio científico en las que resulta prácticamente imposible tomar datos de todos los elementos de la población. En tales situaciones, por cuestiones de tiempo y economía, se reduce el estudio a determinados subconjuntos de la población, que denominamos MUESTRAS. Es a partir de ellas que intentamos obtener conclusiones válidas para toda la población. La inferencia estadística es la disciplina que intenta regular las condiciones en que los parámetros muestrales pueden considerarse válidos para la población completa y en qué medida cometemos errores al hacer tal apuesta de simplificación. Tipos de muestreo Muestreo Probabilístico Caracterizado porque conocemos apriorísticamente la probabilidad de que

un elemento de la población pase a formar parte de la muestra. Puede ser llevado a cabo de dos formas diferentes: a) Con reemplazamiento: cuando el elemento escogido puede ser elegido de

nuevo al reincorporarse a la población tras el proceso de extracción. b) Sin reemplazamiento: cuando el elemento escogido se retira

definitivamente de la población Aparte de esta caracterización por el modo concreto en que se lleva a cabo la selección de elementos de la muestra, podemos definir diferentes tipos de muestreo probabilístico.

c) Aleatorio Simple: Diremos que un muestreo es Aleatorio Simple, si todas las posibles muestras de determinado tamaño extraídas de una población, tienen las mismas probabilidades de ser seleccionadas.

d) Sistemático: Consiste en establecer una rutina de extracción para los elementos de la muestra de tamaño n, estableciendo previamente n grupos en la población

e) Estratificado: Consiste en dividir la población en grupos homogéneos o estratos, dentro de los cuales se realiza un muestreo aleatorio simple.

f) Por Conglomerados: En una primera etapa, consiste en seleccionar grupos de características comunes, que llamaremos conglomerados, dentro de la

Page 19: DISTRIBUCIONES DE PROBABILIDAD …maristascoruna.wikispaces.com/file/view/Apuntes Estadistica P2.pdf... · representa la distribución de probabilidad de una variable continua. Una

____________________Introducción a los métodos estadísticos, numéricos y probabilísticos

83

población. Posteriormente estableceremos nuevos conglomerados dentro de cada conglomerado inicial, y elegiremos individuos dentro de éstos últimos.

Muestreo no Probabilístico Se trata en definitiva de un tipo de muestreo "a ojo", de escaso valor

estadístico, aunque con la suficiente intuición puedan mostrarse acertados en algún tipo de cuestión. Son, en general, poco recomendables.

Distribución teórica muestral Para diseñar estrategias de muestreo, supondremos que la población sigue cierta distribución conocida, lo que permitirá establecer una distribución teórica para la muestra. Muestra Aleatoria. Estadístico Cuando tenemos en consideración una determinada población para su estudio, supondremos que vendrá determinada en todos sus valores por una variable aleatoria, que se comportará de acuerdo con determinado proceso probabilístico, generalmente binomial o normal.

- Si denotamos por X la variable aleatoria correspondiente a la característica que se pretende estudiar, consideramos que las n observaciones x1,....xn que se hacen de la población, son n valores de n variables X1,.......Xn independientes, que siguen la misma distribución de la variable X. - Cualquier función que se obtenga mediante operaciones a partir de X1,......Xn, se denominará Estadístico Muestral.

Propiedades esenciales deseables en un estimador 1. Se dice que un estimador H es insesgado para el parámetro poblacional θ, si se

verifica que E(H)= θ, lo que se lee como: "La Esperanza Matemática de H es θ". Siendo la esperanza matemática y la media, conceptos idénticos.

2. Dados dos estimadores H1 y H2 del parámetro θ, ambos insesgados, diremos que

H1 es más eficiente que H2 si se verifica que σ²(H1)<σ²(H2)

- En definitiva, si un estimador es insesgado, se centra en el parámetro poblacional y si además es el más eficiente de todos los posibles, será el que

Page 20: DISTRIBUCIONES DE PROBABILIDAD …maristascoruna.wikispaces.com/file/view/Apuntes Estadistica P2.pdf... · representa la distribución de probabilidad de una variable continua. Una

____________________Introducción a los métodos estadísticos, numéricos y probabilísticos

en las diferentes muestras, tome valores menos dispersos respecto a dicho parámetro. - Aún contando con un estimador insesgado, al usarlo sobre una muestra concreta, obtenemos una Estimación Puntual, que probablemente no coincida exáctamente con el parámetro poblacional. - Por este motivo, las estimaciones suelen expresarse indicando un intervalo de confianza en el que se espera que se encuentre el parámetro poblacional. Dicho intervalo se denomina "Intervalo de Confianza". - Dado un estimador, los valores que éste toma para las diferentes muestras seguirán una distribución que dependerá del valor real del parámetro θ de la población. Estudiando tal distribución pueden calcularse los valores H1 y H2 del estimador H, tales que :

[ ] αθ −=<< 121 HHP , siendo α un valor fijado de antemano. - El valor 1-α se denomina Nivel de Confianza y el intervalo (H1,H2)se denomina intervalo de confianza al (1-α)%. - Así las cosas, puede afirmarse que el valor del parámetro poblacional θ, se encontrará entre los valores 1 y 2 de H con una probabilidad de 1-α y que tal afirmación, será falsa en el α % de los casos. - Admitiendo que lo ideal sería cerrar al máximo el intervalo de confianza, debe puntualizarse que ello sólo es posible aumentando α (también denominado nivel de significación) es decir, el riesgo de error, o bien aumentando el tamaño de la muestra en detrimento de la economía.

Inferencia Estadística Es la disciplina que estudia los métodos que permiten obtener conclusiones sobre algunas características de la población, a partir de la información contenida en una muestra.

- De forma básica, la inferencia estadística usa dos técnicas fundamentales; la primera es denominada "Estimación de parámetros" y la segunda "Contraste de Hipótesis". - Para estudiar un parámetro poblacional en el que estamos interesados definimos un estimador, que como vimos, no es otra cosa que un operador

84

Page 21: DISTRIBUCIONES DE PROBABILIDAD …maristascoruna.wikispaces.com/file/view/Apuntes Estadistica P2.pdf... · representa la distribución de probabilidad de una variable continua. Una

____________________Introducción a los métodos estadísticos, numéricos y probabilísticos

85

que actúa sobre los datos de la muestra. El resultado de dicho estimador es lo que denominamos "Estimación".

- Por ejemplo, al estimar la media de una población, podemos usar como estimador la media muestral de manera que la media de la muestra, sería una estimación de la media poblacional. - No es de esperar que un estimador calcule sin error el parámetro en estudio; al estimar corremos un cierto riesgo de error en aras de una mayor economía de tiempo o de medios. - También es competencia de la Teoría de la Estimación el determinar la forma en que debe usarse la misma y como cuantificar los riesgos de error.

Page 22: DISTRIBUCIONES DE PROBABILIDAD …maristascoruna.wikispaces.com/file/view/Apuntes Estadistica P2.pdf... · representa la distribución de probabilidad de una variable continua. Una

____________________Introducción a los métodos estadísticos, numéricos y probabilísticos

Teoría de Muestras. Problemas

1. En una clase de 25 alumnos extraemos muestras de tamaño 4. ¿Cuántas muestras diferentes podemos hacer?.¿Cuál es la probabilidad de que 4 alumnos concretos formen parte de la misma muestra?

2. Diseña formas de extraer, mediante muestreo sistemático, muestras de

tamaño 10 de una población de tamaño 100. 3. Queremos investigar sobre la utilización del transporte público en

determinada ciudad. ¿Qué plan de muestreo se te ocurriría proponer?

4. Se desea estimar el tiempo medio de desplazamiento de los alumnos de un colegio desde casa a clase y viceversa. ¿Cómo escogerías la muestra? ¿Qué plan de extensión se te ocurriría proponer si quisieras extender el estudio a los 20 centros de la ciudad?

5. Una fábrica de tornillos fabrica 3 tipos fundamentales de ellos, 2,5x16,

2,5x24 y 4x60. Su producción diaria es de 500.000, 300.000 y 200.000 unidades diarias respectivamente. ¿Qué tipo de muestreo sería conveniente utilizar?,¿Cómo se seleccionaría la muestra?.

6. Idea una plan para elegir una muestra del 10% del alumnado de tu centro:

a) Mediante tablas de números aleatorios b) Mediante papeletas en una urna c) Mediante ordenador d) Mediante muestreo sistemático.

7. En la siguiente población formada por las estaturas en centímetros:

170,175,168,182, trátese de calcular la distribución de la media muestral en muestras sin repetición de tamaño 3. a) Calcula la media poblacional µ b) Calcula la varianza poblacional σ² c) ¿Cuántas muestras hay de tamaño 3 sin elementos repetidos? d) Escribe todas las muestras posibles e) Calcula la media de cada muestra y construye la correspondiente

distribución de medias muestrales. f) Calcula )()( xVyxE y comprueba las relaciones teóricas con la media y varianzas poblacionales.

86

Page 23: DISTRIBUCIONES DE PROBABILIDAD …maristascoruna.wikispaces.com/file/view/Apuntes Estadistica P2.pdf... · representa la distribución de probabilidad de una variable continua. Una

____________________Introducción a los métodos estadísticos, numéricos y probabilísticos

8. Supongamos que los paquetes de pipas de girasol envasados por una máquina siguen una distribución normal de media 50 gr. y desviación 2,5 gr. Para hacer un control de calidad, se toman 100 paquetes en una muestra y se pesan. ¿Cuál será la probabilidad de que la media muestral tome el valor de 256 gr.?

9. Sabemos que la proporción de daltónicos en una distribución normal, es

aproximadamente del 5%. Si elegimos una muestra de la población de una ciudad, de 100 elementos, ¿Cuál es la probabilidad de obtener un 7% de daltónicos?.

10. Los resultados de un experimento de engorde de doradas en piscifactoría, usando dos piensos compuestos de diferente composición, fue la siguiente:

A 300 425 400 375 515 423 289 420 450 453 B 400 450 475 384 500 425 375 395 415 422

a) Represéntese la distribución de frecuencias de la variable diferencia de peso en gramos. Calculese la media b) Suponiendo que dicha diferencia tenga una distribución N(0,1) ¿Cuál es la probabilidad de obtener unas diferencias superiores a la media de las obtenidas realmente? c) A la vista de los resultados obtenidos, ¿podemos concluir que existen diferencias significativas entre los dos piensos?

87

Page 24: DISTRIBUCIONES DE PROBABILIDAD …maristascoruna.wikispaces.com/file/view/Apuntes Estadistica P2.pdf... · representa la distribución de probabilidad de una variable continua. Una

____________________Introducción a los métodos estadísticos, numéricos y probabilísticos

RONALD AYLMER FISHER Era un estadístico de Cambridge que, allá por los años 20, se dio cuenta de un pequeño pero fundamental detalle: por más que nos empeñáramos, nunca obtendríamos toda la información que quisiéramos de un sistema dado. O, dicho de otra manera, toda la información que uno puede obtener de un sistema físico es la denominada "información Fisher", que, a pesar de no ser toda la que posee dicho sistema, nos sirve para decretar una ley sobre su funcionamiento. Lógicamente, nunca llegamos a saber de dónde viene esa ley y mucho menos por qué diablos funciona. Sin embargo, en esta disparidad se basan desde el electromagnetismo a la gravedad, pasando por la Física de partículas, los gases y, por supuesto, el inicio del Universo, el espacio/tiempo y para no alargar demasiado la lista, nosotros mismos. No se sabe si Fisher llegó a su revolucionaria conclusión tras una profunda reflexión sobre la innata tendencia al error de la naturaleza humana, aunque casi seguro, fue su reconocida experiencia como estadístico la que le puso sobre la pista de este dato esencial. Fuera por el camino que fuese, Fisher se dio cuenta que todo fenómeno, todo sistema, todo acontecimiento en la naturaleza posee un volumen determinado de información y nuestro esfuerzo por adquirirlo es propenso al fallo. Para empezar, los equipos de medición y observación siempre tienen errores, a los que se suman los inherentes al sistema observado, como pueden ser fases caóticas transitorias inducidas por cambios internos o externos o, algo de sobras conocido, alteraciones causadas por el propio hecho de la observación. En otras palabras, la naturaleza no parece muy inclinada a dejarnos saber todo lo que ella sabe y nosotros sólo alcanzamos a saber una parte, por grande que sea, de todo ese saber.

88

Page 25: DISTRIBUCIONES DE PROBABILIDAD …maristascoruna.wikispaces.com/file/view/Apuntes Estadistica P2.pdf... · representa la distribución de probabilidad de una variable continua. Una

____________________Introducción a los métodos estadísticos, numéricos y probabilísticos

89

TEORÍA DE LA ESTIMACIÓN

¿Para qué?

Para ahorrar trabajo, tiempo y dinero en la toma de decisiones, manejando un puñado de datos (una muestra) en lugar de la población completa; para establecer los criterios mediante los que el estudio de la muestra puede reproducir el comportamiento de la población, con un grado de exactitud determinado de antemano. Para comenzar a Hacer Estadística (así, con mayúsculas).

Page 26: DISTRIBUCIONES DE PROBABILIDAD …maristascoruna.wikispaces.com/file/view/Apuntes Estadistica P2.pdf... · representa la distribución de probabilidad de una variable continua. Una

____________________Introducción a los métodos estadísticos, numéricos y probabilísticos

Teoría de la estimación Estimadores para la media y la varianza Sea una población P de la que extraemos muestras de tamaño n, cuya composición viene dada como x1,x2,.....xn. Supongamos que la media poblacional es µ y que la varianza poblacional es σ². Intentamos conseguir estimadores insesgados de la media y varianza poblacionales. En las condiciones anteriores, la esperanza matemática de la “media muestral”, será:

µµ ==+++=

+++= ..1))(......)()((1.....

)( 2121 n

nxExExE

nnxxx

ExE nn

x1,x2........xn , son valores elegidos al azar de la población, cuya media es µ, ya que cada una de las variables xi, sigue la misma distribución de la población. Así pues, la media muestral es un estimador insesgado de la media poblacional. Respecto a la varianza de la variable “media muestral”:

[ ] [ ]nn

xxn

VARIANZAPROPSn

xxxx n

x ²²²

1)²(......)²(²

1.......

²)²( 121 σσσσσσ ==++==

+++=

Es decir, la varianza de la variable “media muestral”, viene dada por la varianza poblacional dividida por el tamaño de la muestra. Al ser un estimador insesgado de µ, la distribución está centrada en µ y al ser su

varianza n

2σ , cuanto mayor sea el tamaño de la muestra, menor será su varianza y

mayor su eficacia.

x

Si el parámetro que intentamos estimar es la varianza, dada una muestra de tamaño n,

su varianza será 2

(² i )x xsn

Σ −= ; si elegimos muestras al azar, s² es una variable

aleatoria, para la que podemos calcular la esperanza matemática. Realizando algunas transformaciones elementales en la fórmula de s², obtenemos:

22

2 )()(

µµ

−−−Σ

= xn

xs i

y calculando su esperanza matemática, tendremos:

90

Page 27: DISTRIBUCIONES DE PROBABILIDAD …maristascoruna.wikispaces.com/file/view/Apuntes Estadistica P2.pdf... · representa la distribución de probabilidad de una variable continua. Una

____________________Introducción a los métodos estadísticos, numéricos y probabilísticos

[ ]nn

nnxE

nxE

xn

xEsE ii )1²(²²)²(

)²()(

)(²)( 2

2 −=−

Σ=−−

−Σ=

−−

−Σ=

σσσµµ

µµ

En el razonamiento anterior, se tuvo en cuenta que [ ]n

xE ²)( 2 σµ =− , como se

demostró en el párrafo precedente. Por el resultado obtenido, puede concluirse que la varianza muestral no es un estimador insesgado de la varianza poblacional. Sin embargo, manipulando ligeramente la expresión obtenida, si calculamos:

²)1²(.1

²)(1

²)(11

² σσ

=−

−=

−=

−=

− nn

nnsE

nnsE

nn

nnsE

de donde podemos concluir que el parámetro 1²−n

ns sí es un estimador insesgado de la

varianza poblacional. Denominamos CUASIVARIANZA a dicho parámetro y lo definimos como:

ŝ=1

)²(1²

−−Σ

=− n

xxnns i

Teorema Central del Límite Se trata de uno de los teoremas más importantes de la estadística; fue enunciado en su versión inicial por Moivre y posteriormente enunciado y demostrado por diversos autores. Nosotros veremos, sin demostración, la versión de Levy-Lindenberg. Este teorema, permite utilizar la distribución normal para dar estimaciones de la media muestral, incluso cuando la población de origen no es normal. Teorema: Sean las variables nηηη ,.......2,1 , independientes, igualmente distribuidas con media µ y desviación típica σ≠0 finita. Entonces, la distribución de la variable

nnηηη

η....21 +

= + , tiende, cuando ∞→n , a una distribución normal de media µ y

desviación típica n

σ .

Conclusiones:

1-∞→

=

nn

Nx ),() σµF (lim η

2-Si en lugar de η consideramos la variable , es decir, multiplicamos por n la variable original, tendremos

ηΣ

∞→

n

nnNxF ),()(lim σµη

91

Page 28: DISTRIBUCIONES DE PROBABILIDAD …maristascoruna.wikispaces.com/file/view/Apuntes Estadistica P2.pdf... · representa la distribución de probabilidad de una variable continua. Una

____________________Introducción a los métodos estadísticos, numéricos y probabilísticos

Intervalos de confianza para la media Caso 1. Población normal con σ conocida Sabemos, por lo visto anteriormente, que x es un estimador insesgado de µ y si la población de origen es normal, se verifica además que:

[ ]oTipificandN

n

xn

Nx );1,0(),( ∈−

=⇒∈σ

µξσµ

Por lo tanto, dado un determinado nivel de confianza, (1-α), puede obtenerse en las tablas de la distribución N(0,1) el valor de

2αλ tal que

><−

22αα λξλP =1-α

lo que equivale, deshaciendo la tipificación a

ασλµσλµ αα −=

+<<− 1..

22 nx

nP (1)

De ello, puede deducirse que :

ασλµσλ αα −=

+<<− 1..

22 nx

nxP (2)

La expresión (1) no tiene utilidad alguna, ya que la media poblacional es desconocida; la expresión (2), por el contrario, da lugar a la formulación del intervalo de confianza para la media poblacional

+−

nx

nx σλσλ αα ·,·

22

Para un problema concreto, x es la media de una muestra seleccionada al azar y los extremos del intervalo, serán dos números enteros entre los que afirmaremos se encuentra la media poblacional, con una confianza del (1-α)%.

-Debe entenderse que esta construcción del intervalo, no significa que el parámetro poblacional µ "caiga" entre sus valores extremos, ya que la media poblacional es, en este caso, un parámetro desconocido que intentamos estimar, pero que en ningún caso calculamos. La interpretación correcta, nos indicaría que si tomásemos muchas muestras, y calculásemos el intervalo de confianza en todas ellas, el (1-α)% de los mismos, contendría a µ en su interior, mientras que el α% restante, no lo haría.

92

Page 29: DISTRIBUCIONES DE PROBABILIDAD …maristascoruna.wikispaces.com/file/view/Apuntes Estadistica P2.pdf... · representa la distribución de probabilidad de una variable continua. Una

____________________Introducción a los métodos estadísticos, numéricos y probabilísticos

Caso 2. Población cualquiera con σ conocida En este caso particular, tomaremos muestras de tamaño n>30 y mediante la aplicación del Teorema Central del Límite (en adelante TCL), aplicaremos el mismo intervalo anterior Caso 3. Población normal con σ desconocida Podemos demostrar, aunque no lo hacemos por exceder dicha demostración el carácter de iniciación de este curso, que la variable auxiliar o estadístico

ns

x .µ−

sigue una distribución t-Student con n-1 grados de libertad, con lo que, fijado un nivel de confianza 1-α, puede obtenerse en las tablas de dicha distribución, el valor

, tal que : 2

αt

αµαα −=

<

−<− 1

ˆ 22tn

sxtP

Lo que facilita la formulación del intervalo de confianza para la media poblacional

+−

nstx

nstx

ˆ,

ˆ22

αα al (1-α)%

En este caso, el valor de σ desconocido, se estima mediante el estimador insesgado que hemos denominado Cuasivarianza, definido anteriormente. Caso 4. Población cualquiera con σ desconocida En la práctica, suele usarse el intervalo del caso 1, estimando σ mediante s si n>30 y el intervalo del caso 3, si n<30. Intervalos de confianza para la diferencia de medias Caso 1. Poblaciones normales con σ1 y σ2 conocidas En este caso, consideramos dos poblaciones normales de varianzas conocidas e intentamos compararlas, dando un intervalo de confianza para la diferencia de medias µ1-µ2; para ello, seleccionamos muestras de tamaños n1 y n2 de las respectivas poblaciones. Aprovechando el resultado obtenido para los parámetros de la suma de poblaciones normales, afirmaremos que:

93

Page 30: DISTRIBUCIONES DE PROBABILIDAD …maristascoruna.wikispaces.com/file/view/Apuntes Estadistica P2.pdf... · representa la distribución de probabilidad de una variable continua. Una

____________________Introducción a los métodos estadísticos, numéricos y probabilísticos

+−∈−

nnNxx

22

1

21

2121 ,)(σσ

µµ

Operando como en casos anteriores y sirviéndonos de las tablas de la distribución normal para el cálculo de λ, llegamos a la expresión del intervalo de confianza al (1-α)% para la diferencia de media, que resulta ser:

++−+−−

2

22

1

21

221

2

22

1

21

221 ,

nnxx

nnxx

σσλ

σσλ αα

Caso 2. Poblaciones cualesquiera con σ1 y σ2 conocidas Bastará con tomar muestras tales que n1>30 y n2>30 y aplicar el mismo intervalo de confianza del caso anterior. Caso3. Poblaciones normales con σ1 y σ2 desconocidas Usaremos el mismo intervalo del Caso 1, estimando σ1 y σ2 mediante s1 y s2 (desviaciones típicas muestrales) Caso 4. Poblaciones normales con σ1 y σ2 desconocidas pero iguales Admitiremos, sin demostrar, que estimando σ1 y σ2 mediante s1 y s2 , llegamos al intervalo de confianza siguiente, usando una t-Student con n1+n2-2 grados de libertad.

+

−++

+−+−+

+−−

2121

222

211

221

2121

222

211

221

112

.,112

.nnnn

snsntxx

nnnnsnsn

txx αα

Intervalos de confianza para la varianza Puede demostrarse que la variable auxiliar ²

²σ

ns , se distribuye según una χ² de

Pearson con n-1 grados de libertad. Ello permite establecer el intervalo de confianza al (1-α)% para la varianza poblacional, como sigue:

2 21 2 2

² ²,ns ns

α αχ χ−

siendo 2

2αχ y 2

1 αχ− 2

los valores obtenidos en las tablas de la χ² con n-1 grados de

libertad, que dejan a su izquierda y derecha, respectivamente, un área igual a y 2α

94

Page 31: DISTRIBUCIONES DE PROBABILIDAD …maristascoruna.wikispaces.com/file/view/Apuntes Estadistica P2.pdf... · representa la distribución de probabilidad de una variable continua. Una

____________________Introducción a los métodos estadísticos, numéricos y probabilísticos

21 α− .

95

α/2 1-α 1-α/2 2

αχ2

2

21 αχ−

Naturalmente, por métodos similares, pueden obtenerse intervalos de confianza para otros muchos parámetros estadísticos.

Page 32: DISTRIBUCIONES DE PROBABILIDAD …maristascoruna.wikispaces.com/file/view/Apuntes Estadistica P2.pdf... · representa la distribución de probabilidad de una variable continua. Una

____________________Introducción a los métodos estadísticos, numéricos y probabilísticos

96

Teoría de la estimación. Problemas. 1. Supongamos una población formada por los siguientes pesos expresados en

kilogramos: 65, 70, 75, 90. Calcúlense media y desviación típica poblacionales. Supongamos que de dicha población extraemos muestras con reemplazamiento de tamaño 2. ¿Cuántas muestras diferentes pueden extraerse? ¿Cuáles son?, construye la lista completa de las mismas y la distribución de las correspondientes medias y desviaciones típicas muestrales. Con todos los datos disponibles, concluye si la media muestral y la desviación típica muestral, son estimadores insesgados de los correspondientes parámetros poblacionales.

2. Utilizando los datos del ejercicio anterior, determínese si la moda muestral es un

estimador insesgado de la media poblacional. 3. Calcular la cuasivarianza de la siguiente muestra de tamaño 6:

23, 56, 45, 32, 43, 28. 4. Supongamos que la desviación de una población normal de diámetros de

arandelas es 0,1 mm. Obténganse intervalos de confianza para la media de la población, con niveles de confianza 0.90, 0.95 y 0,99, suponiendo un tamaño de muestra 20. ¿Cómo varía el intervalo de confianza en función del nivel de confianza?

5. En las mismas hipótesis del problema anterior, determínense intervalos de

confianza para la media poblacional, con muestras de tamaño 10, 20 y 30,suponiendo en todo caso, un nivel de confianza de 0,95. ¿Cómo varía el intervalo de confianza con respecto al tamaño de la muestra?.

6. Constrúyase un intervalo de confianza al nivel de significación 0,01 para la

media de una población normal, sabiendo que la varianza poblacional es 10.000 y suponiendo un tamaño de muestra n=20.

7. Obténgase un intervalo de confianza al nivel de significación 0,05 para la media

poblacional correspondiente a los saldos bancarios medios de determinada sucursal, en millones de pesetas. Se tomó la siguiente muestra aleatoria de tamaño 6:

2, 0, 4, 1, -2, 4 8. La probabilidad de que una variable N(0,1) esté comprendida entre –l (ele) y l es 0,90. Calcúlese l.

Page 33: DISTRIBUCIONES DE PROBABILIDAD …maristascoruna.wikispaces.com/file/view/Apuntes Estadistica P2.pdf... · representa la distribución de probabilidad de una variable continua. Una

____________________Introducción a los métodos estadísticos, numéricos y probabilísticos

97

9. En una multinacional de servicios, se modifica la aplicación informática de gestión. Los tiempos en horas que tardaron 15 trabajadores en adaptarse al nuevo sistema, fueron los siguientes: 3.3, 2.9, 4.3, 2.6, 3.2, 4.1, 4.9, 2.8, 5.5, 5.3, 3.6, 3, 3.5, 2.9, 4.7. Determínese un intervalo de confianza al 95% para el “verdadero” tiempo de adaptación. El responsable de implantación del nuevo sistema, considera que el tiempo medio de adaptación es superior a las cinco horas ¿qué podemos decir de tal aseveración? 10. Un fabricante de baterías de coche, afirma que duran cuatro años con una

desviación de 1 año. Se tiene una muestra de 5 baterías que duraron respectivamente 3, 5, 5.8, 6.4, y 8 años. Determínese un intervalo de confianza al 99% para s² e indíquese si es válida la afirmación del fabricante.

11. Una máquina llena paquetes de harina. El supervisor del proyecto, desea

conocer con un error de estimación máximo de 2 y un nivel de confianza del 90% una medida estimada del peso. Como la varianza es desconocida, se procedió a la estimación de una muestra piloto, que dio los siguientes resultado en gramos: 247, 253, 248, 245, 258, 249, 254, 249. Calcúlese dicho intervalo de confianza y dimensiónese la muestra para poder alcanzar el error de estimación preciso. Nota: El error de estimación no es otra cosa que la semilongitud del intervalo de confianza.

12. Una muestra aleatoria de 100 vecinos de determinada ciudad, indica que

caminan diariamente una media de 0,9 Km con una desviación de 0,7. Calcúlese un intervalo de confianza al 90% para la media de kilómetros caminados a diario por los habitantes de dicha ciudad. interprétese el resultado.

13. Para realizar el control de calidad de un proceso de fabricación de tornillos, se toman muestras de tamaño 10 y se mide la longitud de cada unidad. Se requiere que la longitud del tornillo fabricado no difiera de 24 mm en más de 0,3 mm; estando éste último desvío garantizado de antemano. Para ver si el proceso cumple las especificaciones, obtenemos un valor de

media muestral de 24,5 mm. A partir de este valor, inténtese contrastar la hipótesis µ=24, frente a la alternativa µ≠24.

14. Se mide una muestra de 9 carretes de hilo que presentaron una resistencia

media de 4,40 Kg. y una desviación de 1,15. Suponiendo que la resistencia a

Page 34: DISTRIBUCIONES DE PROBABILIDAD …maristascoruna.wikispaces.com/file/view/Apuntes Estadistica P2.pdf... · representa la distribución de probabilidad de una variable continua. Una

____________________Introducción a los métodos estadísticos, numéricos y probabilísticos

98

la tensión es una variable normal, ¿deberíamos hacer caso al fabricante cuando afirma que la resistencia de sus hilos es de 4,5 Kg?

15. Las calificaciones obtenidas por diez alumnos de un colectivo que realizó un examen, fueron las siguientes: 4.3, 5.7, 6.8, 3, 2, 7, 6, 3, 3, 9. Trátese de contrastar la hipótesis “La media del examen fue 6” frente a la alternativa “la media del examen fue distinta de seis” 16. Supongamos una población formada por las cantidades de camarones, en

kilogramos, vendidas en una lonja portuaria: 650,700,750,900. Calcúlense: a) Media y Varianza poblacionales b) Lista de muestras con reemplazamiento de tamaño 2 c) Distribución de las medias muestrales d) Esperanza matemática de las medias muestrales e) Determínese si la esperanza matemática de las medias muestrales, es un buen

estimador (INSESGADO) de la media poblacional. f) Realícese el mismo tratamiento con las varianzas muestrales y determínese si

la varianza muestral es estimador INSESGADO de la varianza poblacional. g) Realícese el mismo tratamiento con las cuasi-varianzas muestrales y

determínese si la cuasi-varianza muestral es estimador INSESGADO de la varianza poblacional.

17. Utilizando el dataje del ejercicio nº11, determínese si la moda muestral es un estimador insesgado de la moda poblacional. 18. Calcular la cuasi-varianza de la siguiente muestra de tamaño 6: 23, 56, 45, 32,

43, 28. 19. Supongamos que la desviación de los diámetros de los tornillos fabricados por

una máquina es 0,1 mm. Obténgase un intervalo de confianza para la media de dicha población, basado en una muestra de tamaño 20, al nivel de confianza del 90%.

20. Calcúlese, en las mismas condiciones anteriores, el intervalo de confianza del 95% y estúdiese como cambia la longitud del intervalo con respecto al nivel de confianza.

21. En condiciones análogas al ejercicio anterior, calcúlese el intervalo de confianza al 95 % para una muestra de tamaño 30 y estúdiese cómo varía la longitud del intervalo con respecto al tamaño de la muestra.

22. Calcúlese un intervalo de confianza al nivel de significación 0,01 para la media de una población normal, sabiendo que la varianza poblacional es 100 y tomando

Page 35: DISTRIBUCIONES DE PROBABILIDAD …maristascoruna.wikispaces.com/file/view/Apuntes Estadistica P2.pdf... · representa la distribución de probabilidad de una variable continua. Una

____________________Introducción a los métodos estadísticos, numéricos y probabilísticos

99

una muestra aleatoria simple de tamaño 30.

23. Calcúlese un intervalo de confianza para la media de una población cualquiera de la que se desconocen tanto media como desviación típica, y de la que se extrajo una muestra piloto formada por los siguientes elementos: 2,0,4,1,-1,-2,4.

Page 36: DISTRIBUCIONES DE PROBABILIDAD …maristascoruna.wikispaces.com/file/view/Apuntes Estadistica P2.pdf... · representa la distribución de probabilidad de una variable continua. Una

____________________Introducción a los métodos estadísticos, numéricos y probabilísticos

WILLIAM SEALEY GOSSET

100

Canterbury en el año

có en Winchester, en donde más tarde fue profesor, y

n 1899 se inició en trabajos en el departamento de

Fue el hijo mayor del coronel Frederic Gosset, R.E. Nació ende 1876 y falleció el 16 de octubre de 1937. Se eduen el New College de Oxford en donde estudió química y matemáticas. Efermentación de la compañía cervecera de los Sres. Guinness en Dublin. No se sabe con exactitud en qué momento empezó a interesarse Gosset en la estadística, sin embargo en esa época se empezaron a usar métodos científicos y determinaciones de laboratorio para técnicas de fermentación, por lo que es muy posible que siendo Gosset el de mayor inclinación matemática del departamento de fermentación, recibiera las preguntas que le hacían sus colegas sobre los métodos estadísticos en uso y sobre la masa de datos que se recolectaban -los cuales requerían análisis-. Quizá esto lo motivó a estudiar la materia más a fondo. Su principal herramienta y con la que inició sus estudios fueron los libros "Teoría de errores de observaciones" de G.B.Airy y "El método de mínimos cuadrados" de M. Merriman. Se sabe que ya en 1903 él calculaba el error probable. Las circunstancias en las que se llevan a cabo los procesos de fermentación en la producción de cerveza, con materiales variables, susceptibilidad a cambio de temperaturas y necesariamente series pequeñas de experimentos, son tales que pronto demostraron a Gosset las limitaciones de la teoría de muestras grandes y le enfatizaron la necesidad de un método correcto para el tratamiento de muestras pequeñas. No fue entonces accidente, sino más bien las circunstancias de su trabajo, las que dirigieron a Gosset hacia este problema, y lo condujeron al descubrimiento de la distribución de la desviación estándar muestral, lo cual dio origen a lo que en su forma moderna se conoce como la prueba t. Durante mucho tiempo después de su descubrimiento, el uso de esta prueba no se conoció ampliamente fuera de la compañía Cervecera Guinness, en donde se le ha usado intensamente desde entonces. En al menos una ocasión le fue ofrecida una posición académica en la que tal vez hubiera sido un buen profesor, pero es muy poco probable que su trabajo de investigación hubiera florecido en circunstancias académicas; su mente funcionaba de forma diferente. Egon Pearson, quien tuvo la fortuna de conocerlo escribió:

Page 37: DISTRIBUCIONES DE PROBABILIDAD …maristascoruna.wikispaces.com/file/view/Apuntes Estadistica P2.pdf... · representa la distribución de probabilidad de una variable continua. Una

____________________Introducción a los métodos estadísticos, numéricos y probabilísticos

101

"Todos los que lo conocieron estarán de acuerdo en que poseía más de las características del estadístico perfecto que cualquier otro hombre de su tiempo. Ellos también coincidirán en el balance esencial y tolerancia de su punto de vista, y en ese algo que lo hizo durante su vida la misma persona amistosa, confiable, callada y sin malicia, que trabajó no para su reputación personal, sino porque sintió que había un trabajo que hacer y por lo tanto valía la pena hacerlo bien".

Page 38: DISTRIBUCIONES DE PROBABILIDAD …maristascoruna.wikispaces.com/file/view/Apuntes Estadistica P2.pdf... · representa la distribución de probabilidad de una variable continua. Una

____________________Introducción a los métodos estadísticos, numéricos y probabilísticos

102

CONTRASTE DE HIPÓTESIS

¿Para qué?

Para, siguiendo con el proceso de ahorro mediante el estudio de muestras, establecer los criterios matemáticos que nos permiten predecir y asegurar características de la población; para asegurar que otra muestra procede o no de la misma población, para determinar si un medicamento o una dieta funcionan, para aprender a interpretar las estadísticas hechas por otros y decidir si "son de fiar"

Page 39: DISTRIBUCIONES DE PROBABILIDAD …maristascoruna.wikispaces.com/file/view/Apuntes Estadistica P2.pdf... · representa la distribución de probabilidad de una variable continua. Una

____________________Introducción a los métodos estadísticos, numéricos y probabilísticos

Contraste de Hipótesis Hipótesis estadísticas. Definiciones Como se indicó anteriormente, el método de Contraste de Hipótesis no es más que otra de las metodologías empleadas dentro de la Inferencia Estadística. Planteamiento del problema General: Se trata de tomar decisiones y conocer características de la población a partir de datos obtenidos en el estudio de una muestra. Para ello, realizamos suposiciones acerca de la población en estudio; tales supuestos, que finalmente pueden resultar ciertos o falsos, se denominan Hipótesis Estadísticas.

-Para plantear este tipo de problemas, se establece una hipótesis principal, H0, que denominamos Nula y consideramos en principio cierta, para comenzar a trabajar; establecemos además otra hipótesis, que denominamos Alternativa, denotamos como H1 , y consideramos en principio falsa. -El problema consiste en obtener un criterio de decisión que permita determinar si se acepta H0, o si por el contrario, debe rechazarse y aceptar H1. -Si planteamos H0 en términos de igualdad, es decir, la enunciamos como: "Parámetro estadístico x=B" deberemos realizar un test bilateral o de dos colas, mientras que si la planteamos en términos de mayoría / minoría, es decir: "Parámetro estadístico x>B (<B)" el test a utilizar, deberá ser unilateral o de una cola.

Casuística: En la utilización de esta metodología que describimos, pueden presentarse 4 casos: 1-Aceptar H0 siendo cierta 2-Aceptar H0 siendo falsa⇒ ERROR TIPO II 3-Rechazar H0 siendo cierta ERROR TIPO I ⇒

4-Rechazar H0 siendo falsa En los casos 1 y 4, la decisión que tomamos es la correcta, en los casos 2 y 3, obviamente, tomamos la decisión errónea. Los errores cometidos se denominan como se indica al margen.

103

Page 40: DISTRIBUCIONES DE PROBABILIDAD …maristascoruna.wikispaces.com/file/view/Apuntes Estadistica P2.pdf... · representa la distribución de probabilidad de una variable continua. Una

____________________Introducción a los métodos estadísticos, numéricos y probabilísticos

En realidad, desconocemos lo que ocurre realmente con H0, es precisamente para ello que realizamos el test. En sentido estricto, no sabremos nunca con exactitud, en cual de los 4 casos posibles nos encontramos, tratamos de minimizar las probabilidades de cometer error o al menos, cuantificar claramente dicha probabilidad. Para limitar el error tipo I, fijamos un nivel de significación al test, que definimos precisamente como "probabilidad de error tipo I" y denotamos como α. Dicho nivel de significación, se fija como viene siendo habitual, con anterioridad a la realización del test y dependiendo de la importancia del problema. Los valores habituales, son α=0,05 y α=0,01. Para limitar el error tipo II, es necesario estudiar las denominadas curvas características o curvas de potencia del test, pero ello es algo que sobrepasa con mucho el propósito de este curso, y no lo realizaremos. En definitiva, el problema se plantea y resuelve como sigue:

*Se trata de estimar un parámetro poblacional, a partir de los datos contenidos en una muestra. 1. Definimos un estimador γ 2. Enunciamos H0 y H1 3. Fijamos el nivel de significación del test (α) 4. Obtenemos las regiones Ra (Aceptación) y Rc(Rechazo) 5. Adoptamos el siguiente criterio de decisión:

0

0

....Re

....

HchazamosR

HAceptamosR

c

a

⇒∈

⇒∈

γ

γ

Contraste de hipótesis para la media Caso 1. Población con σ conocida o n ≥ 30 Descripción: Suponemos una población de σ conocida, para la que deseamos contrastar la hipótesis µ= x . -Disponemos de una muestra de tamaño n -H0: µ=x ; H1: µ≠x Consideraciones: Sabemos que la distribución de las medias muestrales , de muestras de tamaño n, procedentes de una población normal de media µ y

desviación típica σ , es una normal

nN σµ , .

x

Procedimiento:

·Definimos el estimador )1,0(N

n

xz ∈−

µ

104

Page 41: DISTRIBUCIONES DE PROBABILIDAD …maristascoruna.wikispaces.com/file/view/Apuntes Estadistica P2.pdf... · representa la distribución de probabilidad de una variable continua. Una

____________________Introducción a los métodos estadísticos, numéricos y probabilísticos

·Fijamos α ·Obtenemos en tablas N(0,1), los valores de

2αλ y -

2αλ , tales que

αλα

µλ αα −=

<

−<− 1

22

n

xP

·Definimos Ra= −

22, εε λλ

·Usamos la siguiente regla de decisión: Si z R∈ se acepta Ha 0 nivel 100(1-α)%; caso contrario, rechazamos H0

Caso 2. Población con σ desconocida pero con n ≥ 30 En este caso y gracias al TCL, podemos utilizar el contraste anterior, sustituyendo σ por la desviación típica muestral s. Caso3. Población con σ desconocida y n < 30 Descripción: Suponemos una población de σ desconocida, para la que deseamos

contrastar la hipótesis µ=x. -Disponemos de una muestra de tamaño n<30 -H0: µ=x ; H1: µ≠x

Consideraciones: Sabemos que el estadístico

1−

nsx µ

∈ 1−nt ; es decir, sigue una

distribución t de Student con n-1 grados de libertad. Procedimiento:

·Definimos el estimador z=

1−

nsx µ 1−∈ nt

·Fijamos el nivel de significación α ·Obtenemos de la tabla t-Student los valores

2αt y -

2αt (importante recordar

en este paso que la búsqueda debe hacerse teniendo en cuenta que usamos n-1 grados de libertad), tales que:

αµαα −=

<

−<− 1

122

t

nsxtP

105

Page 42: DISTRIBUCIONES DE PROBABILIDAD …maristascoruna.wikispaces.com/file/view/Apuntes Estadistica P2.pdf... · representa la distribución de probabilidad de una variable continua. Una

____________________Introducción a los métodos estadísticos, numéricos y probabilísticos

·Definimos el intervalo Ra=

22, αα tt

·Usamos la siguiente regla de decisión: Si z∈Ra aceptamos H0 al nivel (1-α)%, caso contrario la rechazamos. Contraste de hipótesis para la diferencia de medias Caso1. Varianzas conocidas Descripción: Tenemos dos poblaciones de varianzas conocidas y , cuyas medias queremos comparar.

21σ

22σ

Seleccionamos muestras de tamaños n1 y n2 H0: µ1-µ2=d H1: µ1-µ2≠d

Consideraciones:Si hacemos d=0, H0 quedará como µ1=µ2, lo que significa que este mismo test, podrá usarse para comprobar si dos muestras proceden de poblaciones con la misma media.

Procedimiento:

·Definimos el estadístico z= )1,0(

2

22

1

21

21 N

nn

dxx∈

+

−−

σσ

·Fijamos α

·Obtenemos de la tabla N(0,1) los valores 2 2

yα αλ λ−

·Definimos Ra=

22, αα λ

λ

·Adoptamos la misma regla de decisión que en los casos anteriores. Caso 2. Varianzas desconocidas pero n1≥30, n2≥30 En este caso y gracias al TCL, podemos utilizar el contraste anterior, estimando σ1 y σ2 por las desviaciónes típicas muestrales s1 y s2. Caso3. Varianzas desconocidas pero iguales (Caso menos frecuente) Descripción y Consideraciones: Idem a los casos anteriores.

106

Page 43: DISTRIBUCIONES DE PROBABILIDAD …maristascoruna.wikispaces.com/file/view/Apuntes Estadistica P2.pdf... · representa la distribución de probabilidad de una variable continua. Una

____________________Introducción a los métodos estadísticos, numéricos y probabilísticos

Procedimiento:

·Definimos el estadístico 2

21

21 21

11−+∈

+

−−= nnt

nns

dxxt

siendo 2

)1()1(

21

222

211

−+−+−

=nn

snsns

·Fijamos α ·Usando las tablas de la t-Student con n1+n2-2 grados de libertad, determinamos los valores

2αt− y

2αt .

·Definimos Ra=

22, αα tt

·Aplicamos la misma regla de decisión que en los casos anteriores. Contrastes unilaterales Hasta ahora, hemos usado contrastes en los que se utilizaban las dos colas de la distribución. Existen, sin embargo, problemas en los que es suficiente utilizar una sola cola de la misma; aquellos, por ejemplo, en los que queremos determinar si la media de determinada población es mayor que determinado valor o si determinado producto, tiene un rendimiento mayor que otro dado. En este tipo de test, se asigna el nivel de significación a una de las colas de la distribución del estadístico utilizado; es decir, si el estadístico z∈N(0,1) y α=0,05, se determina el valor 05.0λ que deja a su derecha un área bajo la curva normal igual a 0,05. Si el estadístico z< 05.0λ , aceptamos H0 al 95%; caso contrario, rechazamos H0 y aceptamos H1. Los estadísticos a usar en tests unilaterales, son idénticos a los definidos para tests bilaterales. Contrastes relacionados con la χ² de Pearson Caso 1.Contraste de la bondad de un ajuste Descripción:El problema que se trata de resolver consiste en decidir si una muestra obtenida al azar, procede de una población con cierta distribución. H0=La población tiene una distribución determinada H1=La población no tiene tal distribución

107

Page 44: DISTRIBUCIONES DE PROBABILIDAD …maristascoruna.wikispaces.com/file/view/Apuntes Estadistica P2.pdf... · representa la distribución de probabilidad de una variable continua. Una

____________________Introducción a los métodos estadísticos, numéricos y probabilísticos

Procedimiento: ·Bajo la hipótesis H0, se calculan las frecuencias esperadas para la muestra y se designan por ei. ·Dichas frecuencias deben compararse con las realmente observadas, designadas por oi. ·Si las diferencias entre ei y oi son grandes o significativas, se rechaza H0 y se concluye que la población no responde al modelo de probabilidad propuesto. ·El estadístico que suele usarse para este contraste es:

( )i

iik

i eeo 2

1

2 −=Σ

=

χ

para el que puede demostrarse que se distribuye según una con k-1 grados de libertad, siendo k el número que indica la cantidad tanto de observaciones como de estimaciones, si no es necesario estimar ningún parámetro poblacional para obtener la colección e

i, o con k-r-1 grados de libertad, si es necesario estimar r parámetros para obtener dicha colección. ·Una vez fijado el valor de α y los grados de libertad correspondientes, determinamos en las tablas de la χ², el valor de que deja a su derecha una probabilidad igual a α.

2tχ

·Por último, se adopta la siguiente regla de decisión: Se aceptan H22 χχ >t 0 y el ajuste

Se rechazan H22 χχ <t 0 y el ajuste

Caso 2. Contrastes de homogeneidad Descripción: El problema que se trata de resolver, consiste en determinar si dividida la población en subgrupos y clasificados los mismos según determinada variable estadística (aquella que analizamos) en una tabla de contingencia, todos ellos responden a dicha variable con homogeneidad ( o en definitiva, todos ellos proceden de la misma población). Procedimiento:

·Formulamos las siguientes hipótesis: H0: Los resultados son homogéneos H1: Los resultados no son homogéneos ·A partir de H0 y tomando como referencia los valores y/o proporciones totales, se calculan las frecuencias esperadas para los diferentes grupos. ·Se define el estadístico:

108

Page 45: DISTRIBUCIONES DE PROBABILIDAD …maristascoruna.wikispaces.com/file/view/Apuntes Estadistica P2.pdf... · representa la distribución de probabilidad de una variable continua. Una

____________________Introducción a los métodos estadísticos, numéricos y probabilísticos

∑−

=ji ij

ijij

eeo

,

22 )(

χ

y se calcula su valor para la tabla de contingencia dada. ·Fijamos el nivel de significación α ·Si la tabla de contingencia tiene k filas y h columnas, la χ² teórica que debe

usarse, tiene (k-1)(h-1) grados de libertad, representando dicho número, el número de valores esperados que es necesario calcular, para obtener la colección eij ·El hecho de usar (k-1) y (h-1) se debe a que el último valor de cada fila o columna, puede calcularse por simple diferencia con los totales respectivos. ·Como en casos anteriores, adoptamos la siguiente regla de decisión:

Se aceptan H22 χχ >t 0 y la homogeneidad Se rechazan H22 χχ <t 0 y la homogeneidad

109

Page 46: DISTRIBUCIONES DE PROBABILIDAD …maristascoruna.wikispaces.com/file/view/Apuntes Estadistica P2.pdf... · representa la distribución de probabilidad de una variable continua. Una

____________________Introducción a los métodos estadísticos, numéricos y probabilísticos

110

Contraste de Hipótesis. Problemas

1. Para realizar el control de calidad de un proceso de fabricación de tornillos, se toman muestras de tamaño 10 y se mide la longitud de cada unidad. Se requiere que la longitud del tornillo fabricado no se desvíe de 24 mm más de 0,3 mm, estando éste último desvío patrón garantizado de antemano. Para ver si el proceso cumple las especificaciones, obtenemos un valor para la media muestral de 24,5 mm; a partir de este valor, inténtese contrastar la hipótesis µ=24 frente a la alternativa µ≠24

2. Se mide una muestra de carrete de hilo, que presenta una resistencia media de

4,40 Kg. y una desviación de 1,15. Suponiendo que la resistencia a la tensión sea una variable normal ¿Debemos hacer caso al fabricante cuando afirma que su producto tiene una resistencia de 4,5 Kg. ?

3. Las calificaciones obtenidas por diez alumnos de un colectivo que realizó un

examen, fueron las siguientes: 4.3; 5.7; 6.8; 3; 2; 7; 6; 3; 3; 9. Trátese de contrastar al hipótesis: "La media del examen fue 6", frente a la alternativa "La media del examen fue distinta de 6".

4. Trátese de comprobar, al nivel de significación 0,05 si la siguiente

distribución de pesos procede de una población normal:

Peso 57-60 60-63 63-66 66-69 69-72 72-75 Total Oi 4 11 23 27 21 9 95

5. Uno de los experimentos más célebres de Mendel, el cruce de guisantes

verdes y guisantes amarillos, dio como resultado una distribución del 75% de guisantes amarillos y 25% de guisantes verdes. En una toma de muestras de 956 unidades, se obtuvieron 246 verdes. ¿Está este resultado de acuerdo con la hipótesis de Mendel?

Page 47: DISTRIBUCIONES DE PROBABILIDAD …maristascoruna.wikispaces.com/file/view/Apuntes Estadistica P2.pdf... · representa la distribución de probabilidad de una variable continua. Una

____________________Introducción a los métodos estadísticos, numéricos y probabilísticos

111

6. Diez personas fueron sometidas a un examen pormenorizado de Estadística, de tipo test, antes y después de recibir un curso sobre tal materia. Los resultados obtenidos fueron los siguientes:

Persona 1 2 3 4 5 6 7 8 9 10 Antes 6 7 5.5 4.6 3.3 8.3 9 5 7 3

Después 6.5 7.3 9 4 6 6 9.2 6.1 4 6 ¿Proporcionan los resultados una base suficiente para afirmar con α=0.05, que el curso fue efectivo?

7. En un centro de investigación pesquera, se investiga sobre la dieta más

adecuada para los alevines de Rodaballo. Para ello, se eligieron 24 alevines de características similares, y se repartieron en dos piscinas con alimentación diferenciada. Se citan los pesos ganados en tres meses.

A 0.95 1.27 1.60 1.40 1.50 1.30 0.97 1.47 1.56 1.34 1.35 1.00B 1.02 1.45 1.26 1.80 1.30 1.54 1.07 1.90 1.75 1.22 1.65 1.50

¿Puede asegurarse a la vista de los resultados y con un nivel de significación

α=0.01 que una de las dietas de alimentación de los rodaballos produce un engorde significativamente mayor que la otra?

Page 48: DISTRIBUCIONES DE PROBABILIDAD …maristascoruna.wikispaces.com/file/view/Apuntes Estadistica P2.pdf... · representa la distribución de probabilidad de una variable continua. Una

____________________Introducción a los métodos estadísticos, numéricos y probabilísticos

112

EGON SHARPE PEARSON Egon Pearson, hijo único del famoso matemático Karl Pearson, no está reputado como un creador o un descubridor dentro del campo de la Estadística. Vivió la totalidad de su vida a la sombra (indeseada por él, por otra parte) de la fama de su padre. Sin embargo, su contribución a la Teoría de la Estimación, es de una importancia radical y comúnmente reconocida. Fue junto con Newman que desarrolló la Técnica de Contraste de Hipótesis, recibida en principio con animadversión por Fisher, pero finalmente aceptada de forma global. Durante la Segunda Guerra Mundial, trabajó en Métodos Estadísticos para el Control de Calidad, contribuyendo en gran medida a la creación de una nueva disciplina en el campo del control de operaciones.