introducción al análisis de datos. fundamentos de inferencia · introducción al análisis de...

67

Upload: dangxuyen

Post on 04-Nov-2018

235 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Introducción al análisis de datos. Fundamentos de inferencia · Introducción al análisis de datos. undamentosF de inferencia Loly Redondas Introducción Descriptiva Medidas Grá

Introducción alanálisis de datos.Fundamentos de

inferencia

Loly Redondas

Introducción

Descriptiva

Medidas

Grá�cos

Probabilidad

Probabilidad

Modelos deProbabilidad

El modelo Normal

Inferencia

Estimación

Intervalos

Contrastes

Contrastes deajuste

Introducción al análisis de datos.

Fundamentos de inferencia

M Dolores [email protected]

E.U. Arquitectura Técnica

U.P.M.

Febrero 2010

1

Page 2: Introducción al análisis de datos. Fundamentos de inferencia · Introducción al análisis de datos. undamentosF de inferencia Loly Redondas Introducción Descriptiva Medidas Grá

Introducción alanálisis de datos.Fundamentos de

inferencia

Loly Redondas

Introducción

Descriptiva

Medidas

Grá�cos

Probabilidad

Probabilidad

Modelos deProbabilidad

El modelo Normal

Inferencia

Estimación

Intervalos

Contrastes

Contrastes deajuste

Problemas básicos de la estadística

aplicada

Algunos problemas básicos que suelen presentarse en lainvestigación cientí�ca son los siguientes:

1. Ordenación de la información. (Estadística descriptiva.)

2. Búsqueda de un modelo que explique el comportamientode una variable. (Probabilidad e inferencia.)

3. Análisis de la veracidad de una conjetura. (Inferencia.)

4. Estudio de la relación causal entre distintas variables.(Análisis de la varianza, diseño de experimentos yregresión.)

2

Page 3: Introducción al análisis de datos. Fundamentos de inferencia · Introducción al análisis de datos. undamentosF de inferencia Loly Redondas Introducción Descriptiva Medidas Grá

Introducción alanálisis de datos.Fundamentos de

inferencia

Loly Redondas

Introducción

Descriptiva

Medidas

Grá�cos

Probabilidad

Probabilidad

Modelos deProbabilidad

El modelo Normal

Inferencia

Estimación

Intervalos

Contrastes

Contrastes deajuste

Técnicas de estadística descriptiva

En función de las características de la variable, lasherramientas habituales de la estadisitica descriptiva son:

1. Tablas

2. Índices numéricos:

I De centralización: Media, mediana, moda, percentiles.

I De dispersión: Rango, varianza, desviación típica.

3. Grá�cos: Diagramas de barras, histogramas, diagramasde cajas, de dispersión,...

3

Page 4: Introducción al análisis de datos. Fundamentos de inferencia · Introducción al análisis de datos. undamentosF de inferencia Loly Redondas Introducción Descriptiva Medidas Grá

Introducción alanálisis de datos.Fundamentos de

inferencia

Loly Redondas

Introducción

Descriptiva

Medidas

Grá�cos

Probabilidad

Probabilidad

Modelos deProbabilidad

El modelo Normal

Inferencia

Estimación

Intervalos

Contrastes

Contrastes deajuste

Medidas de Centralización

I La media es el valor promedio de los datos.

x =x1 + . . .+ xn

n

Por ejemplo: tomamos el número de plantas que tienenen casa 10 personas tomadas al azar

(3, 2, 6, 4, 1, 0, 1, 0, 9, 3)

La media de estos datos es

x =3 + 2 + 6 + 4 + 1 + 0 + 1 + 0 + 9 + 3

10= 2,9

4

Page 5: Introducción al análisis de datos. Fundamentos de inferencia · Introducción al análisis de datos. undamentosF de inferencia Loly Redondas Introducción Descriptiva Medidas Grá

Introducción alanálisis de datos.Fundamentos de

inferencia

Loly Redondas

Introducción

Descriptiva

Medidas

Grá�cos

Probabilidad

Probabilidad

Modelos deProbabilidad

El modelo Normal

Inferencia

Estimación

Intervalos

Contrastes

Contrastes deajuste

Medidas de centralización

I La moda es el valor más frecuente.Puede haber ninguno, uno o muchos.En este caso, el valor 0 y el valor 1 aparecen dos veces,son los más frecuentes.

I La mediana es el valor central de los datos ordenados.Si n es par es el promedio de los dos valores centrales, sin es impar, es el valor central.Por ejemplo en los datos anteriores:

(0, 0, 1, 1, 2, 3, 3, 4, 6, 9) −→ 2 + 32

= 3,5

Si fuesen sólo 9 observaciones:

(0, 0, 1, 1, 2, 3, 4, 6, 9) −→ 2.

5

Page 6: Introducción al análisis de datos. Fundamentos de inferencia · Introducción al análisis de datos. undamentosF de inferencia Loly Redondas Introducción Descriptiva Medidas Grá

Introducción alanálisis de datos.Fundamentos de

inferencia

Loly Redondas

Introducción

Descriptiva

Medidas

Grá�cos

Probabilidad

Probabilidad

Modelos deProbabilidad

El modelo Normal

Inferencia

Estimación

Intervalos

Contrastes

Contrastes deajuste

Medidas de dispersión

I El rangoR = max {xi} −min {xi}

I La varianza

s2 =1n

n∑i=1

(xi − x)2

I La desviación típica

s =√s2

Tiene la ventaja de que las unidades de medida son lasmismas que la de la variable.

6

Page 7: Introducción al análisis de datos. Fundamentos de inferencia · Introducción al análisis de datos. undamentosF de inferencia Loly Redondas Introducción Descriptiva Medidas Grá

Introducción alanálisis de datos.Fundamentos de

inferencia

Loly Redondas

Introducción

Descriptiva

Medidas

Grá�cos

Probabilidad

Probabilidad

Modelos deProbabilidad

El modelo Normal

Inferencia

Estimación

Intervalos

Contrastes

Contrastes deajuste

Medidas de dispersión

I La cuasi-varianza

s2 =1

n − 1

n∑i=1

(xi − x)2

I La cuasi-desviación típica

s =√s2

7

Page 8: Introducción al análisis de datos. Fundamentos de inferencia · Introducción al análisis de datos. undamentosF de inferencia Loly Redondas Introducción Descriptiva Medidas Grá

Introducción alanálisis de datos.Fundamentos de

inferencia

Loly Redondas

Introducción

Descriptiva

Medidas

Grá�cos

Probabilidad

Probabilidad

Modelos deProbabilidad

El modelo Normal

Inferencia

Estimación

Intervalos

Contrastes

Contrastes deajuste

Gráficos

I Histograma.Consiste en dividir los datos en clases contiguas yrepresentamos la frecuencia (absoluta o relativa) conque cada clase aparece.

Histogram for Plantas

Plantas

freq

uenc

y

0 2 4 6 8 100

0.5

1

1.5

2

2.5

3

8

Page 9: Introducción al análisis de datos. Fundamentos de inferencia · Introducción al análisis de datos. undamentosF de inferencia Loly Redondas Introducción Descriptiva Medidas Grá

Introducción alanálisis de datos.Fundamentos de

inferencia

Loly Redondas

Introducción

Descriptiva

Medidas

Grá�cos

Probabilidad

Probabilidad

Modelos deProbabilidad

El modelo Normal

Inferencia

Estimación

Intervalos

Contrastes

Contrastes deajuste

Gráficos

I Diagrama de cajasLa caja contiene al 50% central de los datos.En el medio de la caja, se dibuja la mediana y la media.Dibuja los atípicos y da una buena idea de la simetría delos datos.

Box-and-Whisker Plot

0 2 4 6 8 10

plantas

9

Page 10: Introducción al análisis de datos. Fundamentos de inferencia · Introducción al análisis de datos. undamentosF de inferencia Loly Redondas Introducción Descriptiva Medidas Grá

Introducción alanálisis de datos.Fundamentos de

inferencia

Loly Redondas

Introducción

Descriptiva

Medidas

Grá�cos

Probabilidad

Probabilidad

Modelos deProbabilidad

El modelo Normal

Inferencia

Estimación

Intervalos

Contrastes

Contrastes deajuste

Ejemplo I

I El archivo coleop contiene las longitudes de los élitrosde una muestra de una especie de insectos, así como elsexo de cada uno de ellos. Se trata de resumir lainformación contenida en estos datos, en base a:

I Conocer cuáles son los valores más comunes en lamuestra.

I Establecer el valor medio de los mismos.

I Determinar su rango de variación.

I Analizar la existencia de valores atípicos.

I Discutir si existen diferencias entre los valores de losélitros de los machos y de las hembras.

10

Page 11: Introducción al análisis de datos. Fundamentos de inferencia · Introducción al análisis de datos. undamentosF de inferencia Loly Redondas Introducción Descriptiva Medidas Grá

Introducción alanálisis de datos.Fundamentos de

inferencia

Loly Redondas

Introducción

Descriptiva

Medidas

Grá�cos

Probabilidad

Probabilidad

Modelos deProbabilidad

El modelo Normal

Inferencia

Estimación

Intervalos

Contrastes

Contrastes deajuste

Ejemplo II

En el archivo países se encuentran la super�cie y lapoblación de un conjunto de países. Se trata de resumir lainformación contenida en estos datos, en base a:

I Conocer cuáles son los valores más comunes en lamuestra.

I Establecer el valor medio de los mismos.

I Determinar su rango de variación.

I Analizar la existencia de valores atípicos.

I Discutir si existe alguna relación entre las variables delarchivo.

11

Page 12: Introducción al análisis de datos. Fundamentos de inferencia · Introducción al análisis de datos. undamentosF de inferencia Loly Redondas Introducción Descriptiva Medidas Grá

Introducción alanálisis de datos.Fundamentos de

inferencia

Loly Redondas

Introducción

Descriptiva

Medidas

Grá�cos

Probabilidad

Probabilidad

Modelos deProbabilidad

El modelo Normal

Inferencia

Estimación

Intervalos

Contrastes

Contrastes deajuste

Ejemplo III

Los datos del archivo salarios informan de los salarios de unconjunto de hombres y mujeres que trabajan en una mismaempresa.

Existe la percepción social de que, en general, los hombresreciben mayores salarios que las mujeres.

I Se trata de analizar si los datos del archivo corroboranesta idea.

12

Page 13: Introducción al análisis de datos. Fundamentos de inferencia · Introducción al análisis de datos. undamentosF de inferencia Loly Redondas Introducción Descriptiva Medidas Grá

Introducción alanálisis de datos.Fundamentos de

inferencia

Loly Redondas

Introducción

Descriptiva

Medidas

Grá�cos

Probabilidad

Probabilidad

Modelos deProbabilidad

El modelo Normal

Inferencia

Estimación

Intervalos

Contrastes

Contrastes deajuste

Observaciones I

I En el análisis de datos es necesario tener presente quealgunas elecciones del investigador pueden condicionarlos resultados del análisis:

I Las escalas de los grá�cos.

I El número de clases de los histogramas.

I El estudio de los datos transformados...

13

Page 14: Introducción al análisis de datos. Fundamentos de inferencia · Introducción al análisis de datos. undamentosF de inferencia Loly Redondas Introducción Descriptiva Medidas Grá

Introducción alanálisis de datos.Fundamentos de

inferencia

Loly Redondas

Introducción

Descriptiva

Medidas

Grá�cos

Probabilidad

Probabilidad

Modelos deProbabilidad

El modelo Normal

Inferencia

Estimación

Intervalos

Contrastes

Contrastes deajuste

Observaciones II

I La desigualdad de Chebychef establece que si unconjunto de datos tiene de media x y desviación típica s,en el intervalo:

(x − ks, x + ks),

se encuentra, al menos, el (1− 1k2

)× 100% de los datos.

I Esta desigualdad dota a la desviación típica de unconjunto de datos en una referencia de distancia entrelos mismos.

14

Page 15: Introducción al análisis de datos. Fundamentos de inferencia · Introducción al análisis de datos. undamentosF de inferencia Loly Redondas Introducción Descriptiva Medidas Grá

Introducción alanálisis de datos.Fundamentos de

inferencia

Loly Redondas

Introducción

Descriptiva

Medidas

Grá�cos

Probabilidad

Probabilidad

Modelos deProbabilidad

El modelo Normal

Inferencia

Estimación

Intervalos

Contrastes

Contrastes deajuste

Probabilidad

Variables aleatorias

De una manera poco rigurosa se admitirá que una variable

aleatoria es el resultado numérico de un experimento quedepende del azar.

I Ejemplos de variables aleatorias:

I Tiempo de vida de un ordenador.I Dureza de una probeta de hormigón.I Número de mensajes diarios recogidos en un ordenador,

. . .

15

Page 16: Introducción al análisis de datos. Fundamentos de inferencia · Introducción al análisis de datos. undamentosF de inferencia Loly Redondas Introducción Descriptiva Medidas Grá

Introducción alanálisis de datos.Fundamentos de

inferencia

Loly Redondas

Introducción

Descriptiva

Medidas

Grá�cos

Probabilidad

Probabilidad

Modelos deProbabilidad

El modelo Normal

Inferencia

Estimación

Intervalos

Contrastes

Contrastes deajuste

Probabilidad

I La probabilidad es una medida de la incertidumbre.

I Cualquier probabilidad veri�ca las siguientespropiedades:

I Si S es un suceso cualquiera de un experimentoaleatorio:

0 ≤ P(S) ≤ 1

I Si E es el suceso seguro

P(E ) = 1

I Si S1, . . . ,Sn, . . . es un conjunto numerable de sucesosdisjuntos, (Si ∩ Sj = ∅, para todo i , j), se cumple que:

P

(∞⋃i=1

Si

)=∞∑i=1

P(Si ).

16

Page 17: Introducción al análisis de datos. Fundamentos de inferencia · Introducción al análisis de datos. undamentosF de inferencia Loly Redondas Introducción Descriptiva Medidas Grá

Introducción alanálisis de datos.Fundamentos de

inferencia

Loly Redondas

Introducción

Descriptiva

Medidas

Grá�cos

Probabilidad

Probabilidad

Modelos deProbabilidad

El modelo Normal

Inferencia

Estimación

Intervalos

Contrastes

Contrastes deajuste

Probabilidad

I Conocer una variable aleatoria signi�ca poder precisar:

I Los posibles valores de la misma.

I Las probabilidades con las que la variable tomacualquier valor, o conjunto de valores.

I El conocimiento de una variable aleatoria se adquiere, engeneral, identi�cando su comportamiento con el de unmodelo de probabilidad, (objeto matemático idealconstruído de forma abstracta).

17

Page 18: Introducción al análisis de datos. Fundamentos de inferencia · Introducción al análisis de datos. undamentosF de inferencia Loly Redondas Introducción Descriptiva Medidas Grá

Introducción alanálisis de datos.Fundamentos de

inferencia

Loly Redondas

Introducción

Descriptiva

Medidas

Grá�cos

Probabilidad

Probabilidad

Modelos deProbabilidad

El modelo Normal

Inferencia

Estimación

Intervalos

Contrastes

Contrastes deajuste

Modelos de Probabilidad

Los modelos de probabilidad, al igual que las variablesaleatorias, de manera general se clasi�can en:

I Modelos (variables) discretos:

I Bernoulli, Binomial, Poisson, . . .

I Modelos (variables) continuos:

I Normal, Exponencial, t de Student, Chi cuadrado, . . .

18

Page 19: Introducción al análisis de datos. Fundamentos de inferencia · Introducción al análisis de datos. undamentosF de inferencia Loly Redondas Introducción Descriptiva Medidas Grá

Introducción alanálisis de datos.Fundamentos de

inferencia

Loly Redondas

Introducción

Descriptiva

Medidas

Grá�cos

Probabilidad

Probabilidad

Modelos deProbabilidad

El modelo Normal

Inferencia

Estimación

Intervalos

Contrastes

Contrastes deajuste

Modelos de Probabilidad

I La descripción de un modelo (o variable aleatoria) serealiza utilizando:

I En el caso de los modelos (variables) discretos, lafunción de probabilidad.

I En el caso de los modelos (variables) continuos, lafunción de densidad.

I En ambos casos la función de distribución.

19

Page 20: Introducción al análisis de datos. Fundamentos de inferencia · Introducción al análisis de datos. undamentosF de inferencia Loly Redondas Introducción Descriptiva Medidas Grá

Introducción alanálisis de datos.Fundamentos de

inferencia

Loly Redondas

Introducción

Descriptiva

Medidas

Grá�cos

Probabilidad

Probabilidad

Modelos deProbabilidad

El modelo Normal

Inferencia

Estimación

Intervalos

Contrastes

Contrastes deajuste

Modelos de Probabilidad

I Si X es una variable aleatoria discreta, que toma losvalores a1, . . . , ak , . . . su función de probabilidad vienede�nida por:

f (ak) = P(X = ak).

I Dada una variable aleatoria continua, X , su función dedensidad, f (x), veri�ca que:

P(a ≤ X ≤ b) =

∫b

a

f (x) dx .

I Para cualquier variable aleatoria, X , su función dedistribución, F (x), es tal que:

F (x) = P(X ≤ x), para todo x .

20

Page 21: Introducción al análisis de datos. Fundamentos de inferencia · Introducción al análisis de datos. undamentosF de inferencia Loly Redondas Introducción Descriptiva Medidas Grá

Introducción alanálisis de datos.Fundamentos de

inferencia

Loly Redondas

Introducción

Descriptiva

Medidas

Grá�cos

Probabilidad

Probabilidad

Modelos deProbabilidad

El modelo Normal

Inferencia

Estimación

Intervalos

Contrastes

Contrastes deajuste

Modelos de Probabilidad

Distribución Bernoulli

x ∼ Be (p)

Una variable aleatoria es Bernoulli queda de�nida por

x =

{0 aceptable1 defectuoso

Donde la probabilidad de defectuoso, P (x = 1), es p y laprobabilidad de aceptable, P (x = 0) , es q = 1− p.

21

Page 22: Introducción al análisis de datos. Fundamentos de inferencia · Introducción al análisis de datos. undamentosF de inferencia Loly Redondas Introducción Descriptiva Medidas Grá

Introducción alanálisis de datos.Fundamentos de

inferencia

Loly Redondas

Introducción

Descriptiva

Medidas

Grá�cos

Probabilidad

Probabilidad

Modelos deProbabilidad

El modelo Normal

Inferencia

Estimación

Intervalos

Contrastes

Contrastes deajuste

Modelos de Probabilidad

Distribución Binomial

x ∼ Bi (n, p)

Podemos de�nir la Binomial a partir de la Bernoulli como elnúmero de elementos defectuosos al observar n.

P (x = r) =

(n

r

)prqn−r

22

Page 23: Introducción al análisis de datos. Fundamentos de inferencia · Introducción al análisis de datos. undamentosF de inferencia Loly Redondas Introducción Descriptiva Medidas Grá

Introducción alanálisis de datos.Fundamentos de

inferencia

Loly Redondas

Introducción

Descriptiva

Medidas

Grá�cos

Probabilidad

Probabilidad

Modelos deProbabilidad

El modelo Normal

Inferencia

Estimación

Intervalos

Contrastes

Contrastes deajuste

Modelos de Probabilidad

Distribución Geométrica

x ∼ Ge (p)

Mide el número de elementos hasta el primer defectuoso

P (x = n) = pqn−1

A diferencia de la binomial, el conjunto de posibles valores dela variable geométrica es in�nito.

23

Page 24: Introducción al análisis de datos. Fundamentos de inferencia · Introducción al análisis de datos. undamentosF de inferencia Loly Redondas Introducción Descriptiva Medidas Grá

Introducción alanálisis de datos.Fundamentos de

inferencia

Loly Redondas

Introducción

Descriptiva

Medidas

Grá�cos

Probabilidad

Probabilidad

Modelos deProbabilidad

El modelo Normal

Inferencia

Estimación

Intervalos

Contrastes

Contrastes deajuste

Modelos de Probabilidad

Distribución de Poisson

x ∼ Po (λ)

Mide la aparición de sucesos sobre un tiempo continuo.

x = número de sucesos en un intervalo de longitud �ja

Por ejemplo: averías de una máquina, llamadas a unacentralita, número de defectos de una plancha por unidad demedida...

P (x = r) =λr

r !e−λ

24

Page 25: Introducción al análisis de datos. Fundamentos de inferencia · Introducción al análisis de datos. undamentosF de inferencia Loly Redondas Introducción Descriptiva Medidas Grá

Introducción alanálisis de datos.Fundamentos de

inferencia

Loly Redondas

Introducción

Descriptiva

Medidas

Grá�cos

Probabilidad

Probabilidad

Modelos deProbabilidad

El modelo Normal

Inferencia

Estimación

Intervalos

Contrastes

Contrastes deajuste

Modelos de Probabilidad

Distribución Exponencial

t ∼ exp (λ)

Mide el tiempo que transcurre entre la ocurrencia de dossucesos contiguos.

f (t) = λe−λt

Donde λ es la tasa media de sucesos por unidad de tiempo.

25

Page 26: Introducción al análisis de datos. Fundamentos de inferencia · Introducción al análisis de datos. undamentosF de inferencia Loly Redondas Introducción Descriptiva Medidas Grá

Introducción alanálisis de datos.Fundamentos de

inferencia

Loly Redondas

Introducción

Descriptiva

Medidas

Grá�cos

Probabilidad

Probabilidad

Modelos deProbabilidad

El modelo Normal

Inferencia

Estimación

Intervalos

Contrastes

Contrastes deajuste

Modelos de Probabilidad

El modelo NormalEl modelo de probabilidad normal es un modelo deprobabilidad continuo, cuya función de densidad viene dadapor la expresión:

f (x) =1

σ√2π

e−12

(x − µσ

)2

I µ representa la esperanza matemática (media) de lavariable.

I σ representa su desviación típica.

26

Page 27: Introducción al análisis de datos. Fundamentos de inferencia · Introducción al análisis de datos. undamentosF de inferencia Loly Redondas Introducción Descriptiva Medidas Grá

Introducción alanálisis de datos.Fundamentos de

inferencia

Loly Redondas

Introducción

Descriptiva

Medidas

Grá�cos

Probabilidad

Probabilidad

Modelos deProbabilidad

El modelo Normal

Inferencia

Estimación

Intervalos

Contrastes

Contrastes deajuste

Modelos de Probabilidad

El modelo Normal

µb

σ

1

27

Page 28: Introducción al análisis de datos. Fundamentos de inferencia · Introducción al análisis de datos. undamentosF de inferencia Loly Redondas Introducción Descriptiva Medidas Grá

Introducción alanálisis de datos.Fundamentos de

inferencia

Loly Redondas

Introducción

Descriptiva

Medidas

Grá�cos

Probabilidad

Probabilidad

Modelos deProbabilidad

El modelo Normal

Inferencia

Estimación

Intervalos

Contrastes

Contrastes deajuste

Modelos de Probabilidad

El modelo Normal

b b

a b

b

P (X ≤ a ≤ b)

28

Page 29: Introducción al análisis de datos. Fundamentos de inferencia · Introducción al análisis de datos. undamentosF de inferencia Loly Redondas Introducción Descriptiva Medidas Grá

Introducción alanálisis de datos.Fundamentos de

inferencia

Loly Redondas

Introducción

Descriptiva

Medidas

Grá�cos

Probabilidad

Probabilidad

Modelos deProbabilidad

El modelo Normal

Inferencia

Estimación

Intervalos

Contrastes

Contrastes deajuste

Modelos de Probabilidad

Ejemplo IVEmpleando las utilidades del programa Statgraphics:

I Compruebe el efecto de la variación de los parámetrosde la N(µ, σ) sobre el comportamiento de la variablealeatoria.

I Calcule las siguientes probabilidades relativas a unapoblación, X , que se distribuye como una N(µ, σ)elegida al azar:

I P(µ− σ ≤ X ≤ µ+ σ)

I P(µ− 2σ ≤ X ≤ µ+ 2σ)

I P(µ− 3σ ≤ X ≤ µ+ 3σ)

29

Page 30: Introducción al análisis de datos. Fundamentos de inferencia · Introducción al análisis de datos. undamentosF de inferencia Loly Redondas Introducción Descriptiva Medidas Grá

Introducción alanálisis de datos.Fundamentos de

inferencia

Loly Redondas

Introducción

Descriptiva

Medidas

Grá�cos

Probabilidad

Probabilidad

Modelos deProbabilidad

El modelo Normal

Inferencia

Estimación

Intervalos

Contrastes

Contrastes deajuste

Modelos de Probabilidad

Teorema Central del Límite

Si x1, ..., xn son variables aleatorias independientes con mediaµi , varianza σ2i y distribución cualquiera (no necesariamentela misma) entonces la variable suma,

y = x1 + . . .+ xn

cuando n crece, sigue una distribución

y ∼ N

(∑µi ,√∑

σ2i

)

30

Page 31: Introducción al análisis de datos. Fundamentos de inferencia · Introducción al análisis de datos. undamentosF de inferencia Loly Redondas Introducción Descriptiva Medidas Grá

Introducción alanálisis de datos.Fundamentos de

inferencia

Loly Redondas

Introducción

Descriptiva

Medidas

Grá�cos

Probabilidad

Probabilidad

Modelos deProbabilidad

El modelo Normal

Inferencia

Estimación

Intervalos

Contrastes

Contrastes deajuste

Modelos de Probabilidad

Teorema Central del Límite

I El teorema central del límite constituye una justi�caciónde la presencia de la normalidad en la naturaleza.

Cuando los resultados de un experimento son debidos a unconjunto muy grande de causas independientes, que actúansumando efectos, siendo cada efecto individual de pocaimportancia respecto al conjunto, es esperable que losresultados sigan una distribución normal.

31

Page 32: Introducción al análisis de datos. Fundamentos de inferencia · Introducción al análisis de datos. undamentosF de inferencia Loly Redondas Introducción Descriptiva Medidas Grá

Introducción alanálisis de datos.Fundamentos de

inferencia

Loly Redondas

Introducción

Descriptiva

Medidas

Grá�cos

Probabilidad

Probabilidad

Modelos deProbabilidad

El modelo Normal

Inferencia

Estimación

Intervalos

Contrastes

Contrastes deajuste

Modelos de Probabilidad

El modelo Normal

I Algunas propiedades interesantes de la distribuciónnormal son las siguientes:

I Simetría respecto de la media. As = 0.

I Coe�ciente de curtosis, K = 3.

I La única combinación lineal de distribuciones normaleses normal.

I Si X ∼ N(µ, σ):

Z =X − µσ

−→ N(0, 1)

32

Page 33: Introducción al análisis de datos. Fundamentos de inferencia · Introducción al análisis de datos. undamentosF de inferencia Loly Redondas Introducción Descriptiva Medidas Grá

Introducción alanálisis de datos.Fundamentos de

inferencia

Loly Redondas

Introducción

Descriptiva

Medidas

Grá�cos

Probabilidad

Probabilidad

Modelos deProbabilidad

El modelo Normal

Inferencia

Estimación

Intervalos

Contrastes

Contrastes deajuste

Inferencia Estadística

Identi�cación del comportamiento de una variableEl reconocimiento del comportamiento de una variablealeatoria se puede realizar:

I Por métodos deductivos. (Cálculo de probabilidades).Ejemplos:

I Si z1, . . . , zn son N(0, 1) independientes, la variable:

z21

+ · · ·+ z2n = χ2n.

I Si z es una N(0, 1) independiente de una χ2n, resultaque:

z√1

nχ2n

= tn.

33

Page 34: Introducción al análisis de datos. Fundamentos de inferencia · Introducción al análisis de datos. undamentosF de inferencia Loly Redondas Introducción Descriptiva Medidas Grá

Introducción alanálisis de datos.Fundamentos de

inferencia

Loly Redondas

Introducción

Descriptiva

Medidas

Grá�cos

Probabilidad

Probabilidad

Modelos deProbabilidad

El modelo Normal

Inferencia

Estimación

Intervalos

Contrastes

Contrastes deajuste

Inferencia Estadística

Identi�cación del comportamiento de una variable

I Con la información empírica de una muestra{x1, . . . , xn} de la variable.

I Se supondrá en general que la muestra ha sido obtenidapor m.a.s.:

I Todos los individuos de la población tienen la mismaprobabilidad de pertenecer a la muestra.

I Los elementos muestrales son independientes. (Suponereemplazamiento de los individuos muestrales enpoblaciones �nitas.)

34

Page 35: Introducción al análisis de datos. Fundamentos de inferencia · Introducción al análisis de datos. undamentosF de inferencia Loly Redondas Introducción Descriptiva Medidas Grá

Introducción alanálisis de datos.Fundamentos de

inferencia

Loly Redondas

Introducción

Descriptiva

Medidas

Grá�cos

Probabilidad

Probabilidad

Modelos deProbabilidad

El modelo Normal

Inferencia

Estimación

Intervalos

Contrastes

Contrastes deajuste

Inferencia Estadística

Identi�cación del comportamiento de una variableObtenida la muestra {x1, . . . , xn} de la variable aleatoria, X ,ajustar un modelo que explique su comportamiento supone:

1. Identi�car su forma: Normal, exponencial, binomial,. . .

2. Estimar los parámetros de la distribución, que dependendel modelo. (En el caso normal, µ y σ).

35

Page 36: Introducción al análisis de datos. Fundamentos de inferencia · Introducción al análisis de datos. undamentosF de inferencia Loly Redondas Introducción Descriptiva Medidas Grá

Introducción alanálisis de datos.Fundamentos de

inferencia

Loly Redondas

Introducción

Descriptiva

Medidas

Grá�cos

Probabilidad

Probabilidad

Modelos deProbabilidad

El modelo Normal

Inferencia

Estimación

Intervalos

Contrastes

Contrastes deajuste

Inferencia Estadística

Identi�cación del comportamiento de una variablePara conjeturar la forma del modelo que explica elcomportamiento de una variable aleatoria continua, secompara la forma de su histograma con la función dedensidad del modelo teórico.

I Obsérvese que estos dos objetos son comparables.

I Ejemplo: Empleando las utilidades del programaStatgraphics, discuta si el comportamiento del tamañode los élitros de los machos y de las hembras contenidosen el archivo Coleop, se puede atribuir a distribucionesnormales.

36

Page 37: Introducción al análisis de datos. Fundamentos de inferencia · Introducción al análisis de datos. undamentosF de inferencia Loly Redondas Introducción Descriptiva Medidas Grá

Introducción alanálisis de datos.Fundamentos de

inferencia

Loly Redondas

Introducción

Descriptiva

Medidas

Grá�cos

Probabilidad

Probabilidad

Modelos deProbabilidad

El modelo Normal

Inferencia

Estimación

Intervalos

Contrastes

Contrastes deajuste

Estimación de los parámetros

Estimación de los parámetros del modeloUna vez identi�cada la forma genérica de un modelo, queexplica el comportamiento de la variable en estudio, esnecesario concretar el valor de sus parámetros.

I Esta concreción (estimación) siempre será aproximadapuesto que:

1. Los elementos muestrales son variables aleatorias, con lamisma distribución que la variable base.

2. Conjuntamente, la muestra es una variable aleatoria dedimensión n.

3. Los estadísticos extraídos de una muestra son variablesaleatorias.

37

Page 38: Introducción al análisis de datos. Fundamentos de inferencia · Introducción al análisis de datos. undamentosF de inferencia Loly Redondas Introducción Descriptiva Medidas Grá

Introducción alanálisis de datos.Fundamentos de

inferencia

Loly Redondas

Introducción

Descriptiva

Medidas

Grá�cos

Probabilidad

Probabilidad

Modelos deProbabilidad

El modelo Normal

Inferencia

Estimación

Intervalos

Contrastes

Contrastes deajuste

Estimación de los parámetros

Método de los momentosExisten diversos métodos para la estimación de losparámetros del modelo, a partir de los datos muestrales.

I El método de los momentos consiste en igualar losmomentos de la muestra con los poblacionales:

x = µ, s2 = σ2, . . .

I Este método no emplea la información relativa a laforma de la distribución.

38

Page 39: Introducción al análisis de datos. Fundamentos de inferencia · Introducción al análisis de datos. undamentosF de inferencia Loly Redondas Introducción Descriptiva Medidas Grá

Introducción alanálisis de datos.Fundamentos de

inferencia

Loly Redondas

Introducción

Descriptiva

Medidas

Grá�cos

Probabilidad

Probabilidad

Modelos deProbabilidad

El modelo Normal

Inferencia

Estimación

Intervalos

Contrastes

Contrastes deajuste

Estimación de los parámetros

Máxima Verosimilitud

I El método de máxima verosimilitud otorga a losparámetros los valores que maximizan la función dedensidad conjunta:

f (x1, . . . , xn;λ),

siendo λ el vector de parámetros del modelo.

I Este método sí emplea la información relativa a laforma de la distribución.

I Observación: En el caso de normalidad los métodos delos momentos y de máxima verosimilitud arrojan losmismos resultados.

39

Page 40: Introducción al análisis de datos. Fundamentos de inferencia · Introducción al análisis de datos. undamentosF de inferencia Loly Redondas Introducción Descriptiva Medidas Grá

Introducción alanálisis de datos.Fundamentos de

inferencia

Loly Redondas

Introducción

Descriptiva

Medidas

Grá�cos

Probabilidad

Probabilidad

Modelos deProbabilidad

El modelo Normal

Inferencia

Estimación

Intervalos

Contrastes

Contrastes deajuste

Estimación de los parámetros

Estimación de los parámetros de una normalSi una muestra {x1, . . . , xn} permite conjeturar que unavariable aleatoria X se distribuye como una N(µ, σ), losmétodos de los momentos y de máxima verosimilitud tomancomo estimadores de µ y σ, respectivamente:

µ ∼= x y σ2 ∼= s2.

40

Page 41: Introducción al análisis de datos. Fundamentos de inferencia · Introducción al análisis de datos. undamentosF de inferencia Loly Redondas Introducción Descriptiva Medidas Grá

Introducción alanálisis de datos.Fundamentos de

inferencia

Loly Redondas

Introducción

Descriptiva

Medidas

Grá�cos

Probabilidad

Probabilidad

Modelos deProbabilidad

El modelo Normal

Inferencia

Estimación

Intervalos

Contrastes

Contrastes deajuste

Estimación de los parámetros

Observaciones:

I Tanto x como s2 son variables aleatorias.

I x ∼ N(µ, σ√n

). Consecuentemente:

I E (x) = µ

I La desviación típica de x disminuye con el tamañomuestral

I ns2

σ2−→ χ2

n−1

I E (s2) 6= σ2 lo que justi�ca que, con frecuencia, seutilice s2 como estimador de σ2.

41

Page 42: Introducción al análisis de datos. Fundamentos de inferencia · Introducción al análisis de datos. undamentosF de inferencia Loly Redondas Introducción Descriptiva Medidas Grá

Introducción alanálisis de datos.Fundamentos de

inferencia

Loly Redondas

Introducción

Descriptiva

Medidas

Grá�cos

Probabilidad

Probabilidad

Modelos deProbabilidad

El modelo Normal

Inferencia

Estimación

Intervalos

Contrastes

Contrastes deajuste

Intervalos de confianza

Intervalos de con�anza

I Una estimación de un parámetro es un valor aproximadodel mismo, por lo que es necesario acotar el error, paralo que se construyen los intervalos de con�anza.

I Un intervalo de con�anza para un parámetro es unintervalo numérico, en el que se encuentra el valorverdadero del parámetro con un nivel de seguridad(con�anza) conocido.

42

Page 43: Introducción al análisis de datos. Fundamentos de inferencia · Introducción al análisis de datos. undamentosF de inferencia Loly Redondas Introducción Descriptiva Medidas Grá

Introducción alanálisis de datos.Fundamentos de

inferencia

Loly Redondas

Introducción

Descriptiva

Medidas

Grá�cos

Probabilidad

Probabilidad

Modelos deProbabilidad

El modelo Normal

Inferencia

Estimación

Intervalos

Contrastes

Contrastes deajuste

Intervalos de confianza

Construcción de intervalos de con�anzaMedia de una normal con σ conocida

Sea X ∼ N(µ, σ), con σ conocida, y x la media muestral deuna muestra cualquiera de X de tamaño n.

Como

x ∼ N

(µ,

σ√n

),

resulta que

x − µσ/√n∼ N(0, 1).

43

Page 44: Introducción al análisis de datos. Fundamentos de inferencia · Introducción al análisis de datos. undamentosF de inferencia Loly Redondas Introducción Descriptiva Medidas Grá

Introducción alanálisis de datos.Fundamentos de

inferencia

Loly Redondas

Introducción

Descriptiva

Medidas

Grá�cos

Probabilidad

Probabilidad

Modelos deProbabilidad

El modelo Normal

Inferencia

Estimación

Intervalos

Contrastes

Contrastes deajuste

Intervalos de confianza

Construcción de intervalos de con�anzaMedia de una normal con σ conocida

Sea zα/2 el valor que en una N(0, 1), Z , veri�ca que:

P(−zα/2 ≤ Z ≤ zα/2) = 1− α.

Entonces,

P

(−zα/2 ≤

x − µσ/√n≤ zα/2

)= 1− α.

44

Page 45: Introducción al análisis de datos. Fundamentos de inferencia · Introducción al análisis de datos. undamentosF de inferencia Loly Redondas Introducción Descriptiva Medidas Grá

Introducción alanálisis de datos.Fundamentos de

inferencia

Loly Redondas

Introducción

Descriptiva

Medidas

Grá�cos

Probabilidad

Probabilidad

Modelos deProbabilidad

El modelo Normal

Inferencia

Estimación

Intervalos

Contrastes

Contrastes deajuste

Intervalos de confianza

Construcción de intervalos de con�anzaMedia de una normal con σ conocida

De donde:

P

(x − zα/2 ×

σ√n≤ µ ≤ x − zα/2 ×

σ√n

)= 1− α,

y el intervalo(x − zα/2 ×

σ√n, x − zα/2 ×

σ√n

)es un intervalo de con�anza al (1− α)× 100% para µ.

45

Page 46: Introducción al análisis de datos. Fundamentos de inferencia · Introducción al análisis de datos. undamentosF de inferencia Loly Redondas Introducción Descriptiva Medidas Grá

Introducción alanálisis de datos.Fundamentos de

inferencia

Loly Redondas

Introducción

Descriptiva

Medidas

Grá�cos

Probabilidad

Probabilidad

Modelos deProbabilidad

El modelo Normal

Inferencia

Estimación

Intervalos

Contrastes

Contrastes deajuste

Intervalos de confianza

Construcción de intervalos de con�anzaMedia de una normal con σ desconocida

Si σ no es conocida no se puede emplear el hecho de que

x − µσ/√n∼ N(0, 1).

Sin embargo, se puede demostrar que

x − µs/√n∼ tn−1.

46

Page 47: Introducción al análisis de datos. Fundamentos de inferencia · Introducción al análisis de datos. undamentosF de inferencia Loly Redondas Introducción Descriptiva Medidas Grá

Introducción alanálisis de datos.Fundamentos de

inferencia

Loly Redondas

Introducción

Descriptiva

Medidas

Grá�cos

Probabilidad

Probabilidad

Modelos deProbabilidad

El modelo Normal

Inferencia

Estimación

Intervalos

Contrastes

Contrastes deajuste

Intervalos de confianza

Construcción de intervalos de con�anzaMedia de una normal con σ desconocida

De donde, si tα/2 es el valor que en una tn−1:

P(−tα/2 ≤ tn−1 ≤ tα/2) = 1− α,

operando como en el caso anterior se tiene que:(x − tα/2 ×

s√n, x + tα/2 ×

s√n

)es un intervalo de con�anza al (1− α)× 100% para µ.

47

Page 48: Introducción al análisis de datos. Fundamentos de inferencia · Introducción al análisis de datos. undamentosF de inferencia Loly Redondas Introducción Descriptiva Medidas Grá

Introducción alanálisis de datos.Fundamentos de

inferencia

Loly Redondas

Introducción

Descriptiva

Medidas

Grá�cos

Probabilidad

Probabilidad

Modelos deProbabilidad

El modelo Normal

Inferencia

Estimación

Intervalos

Contrastes

Contrastes deajuste

Intervalos de confianza

Ejemplo VEmpleando las utilidades del programa Statgraphics genereuna muestra aleatoria de tamaño 100 procedente de unaN(5, 2).

I Emplee esta muestra para analizar el efecto del cambiodel nivel de con�anza sobre la longitud del intervalo.

I Discuta qué relación existe entre la precisión de laestimación y el nivel de con�anza.

Suponiendo normalidad, calcule intervalos de con�anza parala media y la varianza del tamaño de los élitros de los machosy las hembras contenidos en el archivo coleop.

48

Page 49: Introducción al análisis de datos. Fundamentos de inferencia · Introducción al análisis de datos. undamentosF de inferencia Loly Redondas Introducción Descriptiva Medidas Grá

Introducción alanálisis de datos.Fundamentos de

inferencia

Loly Redondas

Introducción

Descriptiva

Medidas

Grá�cos

Probabilidad

Probabilidad

Modelos deProbabilidad

El modelo Normal

Inferencia

Estimación

Intervalos

Contrastes

Contrastes deajuste

Contrastes de hipótesis

Contrastes de hipótesisEjemplo VI

El control de calidad de una empresa de golosinas estableceque para que la producción sea óptima el contenido en azucarde un producto determinado debe ser 4.8 mg con unadesviación típica de 2mg.Se toma una muestra de 100 productos.¾es razonable obtener un contenido medio de 4 mg.?¾y de 5 mg?

49

Page 50: Introducción al análisis de datos. Fundamentos de inferencia · Introducción al análisis de datos. undamentosF de inferencia Loly Redondas Introducción Descriptiva Medidas Grá

Introducción alanálisis de datos.Fundamentos de

inferencia

Loly Redondas

Introducción

Descriptiva

Medidas

Grá�cos

Probabilidad

Probabilidad

Modelos deProbabilidad

El modelo Normal

Inferencia

Estimación

Intervalos

Contrastes

Contrastes deajuste

Contrastes de hipótesis

Contrastes de hipótesisEjemplo VI

Six ∼ N (4,8, 2)

la media de 100 productos se distribuye

x ∼ N

(4,8,

2√100

)= N (4,8, 0,2)

Entonces (4,8− 1,96

2√100

, 4,8 + 1,962√100

)Un intervalo de con�anza del 95% es

(4,408, 5,192)

50

Page 51: Introducción al análisis de datos. Fundamentos de inferencia · Introducción al análisis de datos. undamentosF de inferencia Loly Redondas Introducción Descriptiva Medidas Grá

Introducción alanálisis de datos.Fundamentos de

inferencia

Loly Redondas

Introducción

Descriptiva

Medidas

Grá�cos

Probabilidad

Probabilidad

Modelos deProbabilidad

El modelo Normal

Inferencia

Estimación

Intervalos

Contrastes

Contrastes deajuste

Contrastes de hipótesis

Contrastes de hipótesisEjemplo VI

¿Es aceptable pensar que ?5=μ

¿Y que ?3=μ

4.4 5.2

54

51

Page 52: Introducción al análisis de datos. Fundamentos de inferencia · Introducción al análisis de datos. undamentosF de inferencia Loly Redondas Introducción Descriptiva Medidas Grá

Introducción alanálisis de datos.Fundamentos de

inferencia

Loly Redondas

Introducción

Descriptiva

Medidas

Grá�cos

Probabilidad

Probabilidad

Modelos deProbabilidad

El modelo Normal

Inferencia

Estimación

Intervalos

Contrastes

Contrastes deajuste

Contrastes de hipótesis

Contrastes de hipótesisEjemplo VI

4.4 5.2

54

AceptableNO

Aceptable

52

Page 53: Introducción al análisis de datos. Fundamentos de inferencia · Introducción al análisis de datos. undamentosF de inferencia Loly Redondas Introducción Descriptiva Medidas Grá

Introducción alanálisis de datos.Fundamentos de

inferencia

Loly Redondas

Introducción

Descriptiva

Medidas

Grá�cos

Probabilidad

Probabilidad

Modelos deProbabilidad

El modelo Normal

Inferencia

Estimación

Intervalos

Contrastes

Contrastes deajuste

Contrastes de hipótesis

Contrastes de hipótesis

I En general, la realización de un contraste requieredeterminar con precisión:

I Lo que se quiere contrastar, hipótesis nula, representadapor H0.

I Aquello que se aceptaría si se rechaza la hipótesis nula,hipótesis alternativa, representada por H1.

I Un estadístico de distribución conocida, que relacione elparámetro con los datos muestrales.

I Alguna medida de precisión del contraste.

53

Page 54: Introducción al análisis de datos. Fundamentos de inferencia · Introducción al análisis de datos. undamentosF de inferencia Loly Redondas Introducción Descriptiva Medidas Grá

Introducción alanálisis de datos.Fundamentos de

inferencia

Loly Redondas

Introducción

Descriptiva

Medidas

Grá�cos

Probabilidad

Probabilidad

Modelos deProbabilidad

El modelo Normal

Inferencia

Estimación

Intervalos

Contrastes

Contrastes deajuste

Contrastes de hipótesis

Contrastes de hipótesis

I Todo contraste se resuelve creando, a través de unestadístico apropiado, estadístico pivote, una zona deaceptación y otra de rechazo.

I Todo contraste lleva asociada una decisión, que puedeser errónea.

I Error de tipo I : Rechazar H0 cuando es cierta.

I Error de tipo II : Aceptar H0 cuando es falsa.

I Cuando minimizamos uno de los errores, el otroaumenta.

I La metodología habitual construye contrastes en los quese persigue �jar una pequeña problabilidad de cometererror de tipo I .

54

Page 55: Introducción al análisis de datos. Fundamentos de inferencia · Introducción al análisis de datos. undamentosF de inferencia Loly Redondas Introducción Descriptiva Medidas Grá

Introducción alanálisis de datos.Fundamentos de

inferencia

Loly Redondas

Introducción

Descriptiva

Medidas

Grá�cos

Probabilidad

Probabilidad

Modelos deProbabilidad

El modelo Normal

Inferencia

Estimación

Intervalos

Contrastes

Contrastes deajuste

Contrastes de hipótesis

Contrastes de hipótesis

I Además los contrastes pueden ser

I BilateralesH0 : µ = µ0

(la región de rechazo será para valores de µ demasiadograndes o demasiado pequeños)

I UnilateralesH0 : µ < µ0

(la región de rechazo será sólo para valores demasiadograndes de µ)o

H0 : µ > µ0

(la región de rechazo será sólo para valores demasiadopequeños de µ)

55

Page 56: Introducción al análisis de datos. Fundamentos de inferencia · Introducción al análisis de datos. undamentosF de inferencia Loly Redondas Introducción Descriptiva Medidas Grá

Introducción alanálisis de datos.Fundamentos de

inferencia

Loly Redondas

Introducción

Descriptiva

Medidas

Grá�cos

Probabilidad

Probabilidad

Modelos deProbabilidad

El modelo Normal

Inferencia

Estimación

Intervalos

Contrastes

Contrastes deajuste

Contrastes de hipótesis

El contraste de la t para la media de una normalSea X una variable aleatoria N(µ, σ), con σ desconocida.

I Supóngase que se desea realizar el contraste:

H0 : µ = µ0, frente a H1 : µ 6= µ0,

I Elegida una muestra {x1, . . . , xn} se sabe que:

x − µs/√n∼ tn−1

56

Page 57: Introducción al análisis de datos. Fundamentos de inferencia · Introducción al análisis de datos. undamentosF de inferencia Loly Redondas Introducción Descriptiva Medidas Grá

Introducción alanálisis de datos.Fundamentos de

inferencia

Loly Redondas

Introducción

Descriptiva

Medidas

Grá�cos

Probabilidad

Probabilidad

Modelos deProbabilidad

El modelo Normal

Inferencia

Estimación

Intervalos

Contrastes

Contrastes deajuste

Contrastes de hipótesis

El contraste de la t para la media de una normal

I De donde, si H0 es cierta:

x − µ0s/√n∼ tn−1.

I Por lo tanto, si tα/2 es el valor que en una tn−1:

P(−tα/2 ≤ tn−1 ≤ tα/2) = 1− α.Es decir:

P

(−tα/2 ≤

x − µ0s/√n≤ tα/2

)= 1− α

57

Page 58: Introducción al análisis de datos. Fundamentos de inferencia · Introducción al análisis de datos. undamentosF de inferencia Loly Redondas Introducción Descriptiva Medidas Grá

Introducción alanálisis de datos.Fundamentos de

inferencia

Loly Redondas

Introducción

Descriptiva

Medidas

Grá�cos

Probabilidad

Probabilidad

Modelos deProbabilidad

El modelo Normal

Inferencia

Estimación

Intervalos

Contrastes

Contrastes deajuste

Contrastes de hipótesis

El contraste de la t para la media de una normalUna vez realizado el cálculo del estadístico

t =x − µ0s/√n,

I Cuando ocurra que

−tα/2 ≤ t ≤ tα/2,

no hay evidencia de la falsedad de H0, por lo que no serechaza dicha hipótesis al (1− α)× 100% de con�anza.

58

Page 59: Introducción al análisis de datos. Fundamentos de inferencia · Introducción al análisis de datos. undamentosF de inferencia Loly Redondas Introducción Descriptiva Medidas Grá

Introducción alanálisis de datos.Fundamentos de

inferencia

Loly Redondas

Introducción

Descriptiva

Medidas

Grá�cos

Probabilidad

Probabilidad

Modelos deProbabilidad

El modelo Normal

Inferencia

Estimación

Intervalos

Contrastes

Contrastes deajuste

Contrastes de hipótesis

El contraste de la t para la media de una normal

I Si por el contrario

t /∈ (−tα/2, tα/2)

habrá evidencia de que la hipótesis nula es falsa y serechazará al (1− α)× 100% de con�anza.

I Al intervalo (−tα/2, tα/2) se le denomina región deaceptación del contraste, mientras que <− (−tα/2, tα/2)es la región de rechazo.

59

Page 60: Introducción al análisis de datos. Fundamentos de inferencia · Introducción al análisis de datos. undamentosF de inferencia Loly Redondas Introducción Descriptiva Medidas Grá

Introducción alanálisis de datos.Fundamentos de

inferencia

Loly Redondas

Introducción

Descriptiva

Medidas

Grá�cos

Probabilidad

Probabilidad

Modelos deProbabilidad

El modelo Normal

Inferencia

Estimación

Intervalos

Contrastes

Contrastes deajuste

Contrastes de hipótesis

El p-valor

I Todo contraste lleva asociado un p-valor, que es unamedida de la �abilidad de la decisión tomada.

I Si el estadístico pivote, d , es una medida dediscrepancia entre la hipótesis nula y la muestraobservada, se de�ne el p-valor del contraste como

P(d > d |H0),

siendo d el valor del estadístico pivote en la muestra.

60

Page 61: Introducción al análisis de datos. Fundamentos de inferencia · Introducción al análisis de datos. undamentosF de inferencia Loly Redondas Introducción Descriptiva Medidas Grá

Introducción alanálisis de datos.Fundamentos de

inferencia

Loly Redondas

Introducción

Descriptiva

Medidas

Grá�cos

Probabilidad

Probabilidad

Modelos deProbabilidad

El modelo Normal

Inferencia

Estimación

Intervalos

Contrastes

Contrastes deajuste

Contrastes de hipótesis

El p-valor

I Valores altos de p sugieren con�anza en la decisión deaceptación de la hipótesis.

I Valores bajos de p sugieren con�anza en la decisión derechazo de la hipótetsis.

I Cuando se realiza un contraste al (1− α)× 100%:

I p < α implica rechazar la hipótesis nula.

I p > α supone aceptar la hipótesis nula.

61

Page 62: Introducción al análisis de datos. Fundamentos de inferencia · Introducción al análisis de datos. undamentosF de inferencia Loly Redondas Introducción Descriptiva Medidas Grá

Introducción alanálisis de datos.Fundamentos de

inferencia

Loly Redondas

Introducción

Descriptiva

Medidas

Grá�cos

Probabilidad

Probabilidad

Modelos deProbabilidad

El modelo Normal

Inferencia

Estimación

Intervalos

Contrastes

Contrastes deajuste

Contrastes de hipótesis

Ejemplo VICon la muestra generada en el ejemplo V ,

I Analice el efecto del cambio del nivel de con�anza en larealización del contraste:

H0 : µ = 5, frente a H1 : µ 6= 5.

I Modi�que la hipótesis nula y discuta qué relación existeentre la discrepancia entre la hipótesis nula con lamuestra, y el p-valor obtenido en los distintos contrastes.

Suponiendo normalidad, realice contrastes de hipótesis parala media y la varianza del tamaño de los élitros de los machosy las hembras contenidos en el archivo coleop.

62

Page 63: Introducción al análisis de datos. Fundamentos de inferencia · Introducción al análisis de datos. undamentosF de inferencia Loly Redondas Introducción Descriptiva Medidas Grá

Introducción alanálisis de datos.Fundamentos de

inferencia

Loly Redondas

Introducción

Descriptiva

Medidas

Grá�cos

Probabilidad

Probabilidad

Modelos deProbabilidad

El modelo Normal

Inferencia

Estimación

Intervalos

Contrastes

Contrastes deajuste

Contrastes de ajuste

Contrastes de ajuste

I En ocasiones la hipótesis que se desea contrastar sere�ere a si una muestra con�rma el comportamiento deuna variable, según un modelo de probabilidaddeterminado:Normal, Poisson, exponencial, . . .

I De estos contrastes (de ajuste), el más común es el testde la Chi cuadrado, que analiza la concordancia entre elhistograma de los datos y la función de densidad (o deprobabilidad) del modelo.

63

Page 64: Introducción al análisis de datos. Fundamentos de inferencia · Introducción al análisis de datos. undamentosF de inferencia Loly Redondas Introducción Descriptiva Medidas Grá

Introducción alanálisis de datos.Fundamentos de

inferencia

Loly Redondas

Introducción

Descriptiva

Medidas

Grá�cos

Probabilidad

Probabilidad

Modelos deProbabilidad

El modelo Normal

Inferencia

Estimación

Intervalos

Contrastes

Contrastes deajuste

Contrastes de ajuste

El test de la Chi cuadradoEl test de la chi cuadrado contrasta la hipótesis de que lavariable sigue un modelo de probabilidad concreto.

El estadístico empleado es una medida de la discrepanciaentre los datos, el histograma, y el modelo, su función dedensidad.

-2 1 4 7 10 130

10

20

30

40

64

Page 65: Introducción al análisis de datos. Fundamentos de inferencia · Introducción al análisis de datos. undamentosF de inferencia Loly Redondas Introducción Descriptiva Medidas Grá

Introducción alanálisis de datos.Fundamentos de

inferencia

Loly Redondas

Introducción

Descriptiva

Medidas

Grá�cos

Probabilidad

Probabilidad

Modelos deProbabilidad

El modelo Normal

Inferencia

Estimación

Intervalos

Contrastes

Contrastes deajuste

Contrastes de ajuste

El test de la Chi cuadrado

I Cuando la hipótesis nula es cierta, la variable sigue elmodelo previsto, el estadístico:

d =k∑

i=1

(Oi − Ei )2

Ei

−→ χ2k−r−1,

donde:

I k es el número de clases en que se divide a los datos.

I Oi es la frecuencia observada en cada clase.

I Ei es la frecuencia esperada en cada clase.

I r es el número de parámetros estimados con la muestra.

I El análisis del valor de d permite discutir el contraste.

65

Page 66: Introducción al análisis de datos. Fundamentos de inferencia · Introducción al análisis de datos. undamentosF de inferencia Loly Redondas Introducción Descriptiva Medidas Grá

Introducción alanálisis de datos.Fundamentos de

inferencia

Loly Redondas

Introducción

Descriptiva

Medidas

Grá�cos

Probabilidad

Probabilidad

Modelos deProbabilidad

El modelo Normal

Inferencia

Estimación

Intervalos

Contrastes

Contrastes deajuste

Contrastes de ajuste

Otros contrastes

I Contraste Kolmogorov-Smirnov

Dn = |Fn (x)− F (x)|

Sólo es válido en distribuciones contínuas, pero funcionabien con pequeñas muestras.

I Contraste de Sa�ro-WilksDibuja los datos en papel probabilístico normal. Labondad de ajuste la da lo que se aproximan a la recta.Sólo vale para contrastar normalidad, pero funciona biencon muestras muy pequeñas.

66

Page 67: Introducción al análisis de datos. Fundamentos de inferencia · Introducción al análisis de datos. undamentosF de inferencia Loly Redondas Introducción Descriptiva Medidas Grá

Introducción alanálisis de datos.Fundamentos de

inferencia

Loly Redondas

Introducción

Descriptiva

Medidas

Grá�cos

Probabilidad

Probabilidad

Modelos deProbabilidad

El modelo Normal

Inferencia

Estimación

Intervalos

Contrastes

Contrastes deajuste

Contrastes de ajuste

Ejemplo VIICon la muestra generada en el ejemplo V ,

I Analice la normalidad de la población a la querepresenta la muestra.

I Estudie la normalidad del tamaño de los élitros de losmachos y las hembras contenidos en el archivo coleop.

I Discuta si la realización de transformaciones mejora losresultados obtenidos.

67