estadística avanzada y análisis de datos
Post on 27-Nov-2021
19 Views
Preview:
TRANSCRIPT
1. 1. Estadística clásicaEstadística clásica1-1
Estadística Avanzada y Estadística Avanzada y Análisis de DatosAnálisis de Datos
MásterMáster InteruniversitarioInteruniversitario de Astrofísicade Astrofísica
Javier Gorgas y Nicolás Javier Gorgas y Nicolás CardielCardiel
Curso 2006Curso 2006--20072007
1. 1. Estadística clásicaEstadística clásica1-2
IntroducciónIntroducciónEn ciencia tenemos que tomar decisiones (¿son los datos compatibles con la teoría?
¿cuáles son los parámetros que mejor ajustan? ¿son las dos muestras similares? ¿qué ha fallado, cómo podemos mejorar el experimento?)
Para cada medida o parámetro derivado necesitamos una estimación del error que nos diga, en términos de probabilidades, la confianza que tenemos en su valor.
La estadística es la herramienta, en la mayoría de los casos, inevitable para tomar las decisiones (el método científico).
If your experiment needs statistics, you ought to have done a better experiment(E. Rutherford)
En particular, en astrofísica:
Nuestras medidas están sujetas a (grandes) errores de medida.
Tenemos la manía de observar al límite de las capacidades instrumentales.
El método clásico de repetir los experimentos no es aplicable.
No podemos diseñar los experimentos (las muestras pueden ser muy pequeñas)
1. 1. Estadística clásicaEstadística clásica1-3
Introducción (II)Introducción (II)
No podemos evitar la estadística:
¿Cómo asignamos errores a nuestros datos? (o los de otros)
¿Cómo podemos extraer la información máxima de los datos? (¿o los tiramos?)
¿Cómo comparamos muestras? (de diferentes objetos o de diferentes autores)
¿Cómo hacer correlación, contrastar hipótesis, ajustar modelos…?
¿Qué hacer con las muestras incompletas? (¿límites superiores?)
NECESITAMOS DECIDIR
Nuestros colegas usan estadística. Tenemos que entender lo qué hacen y cómo lo hacen.
Curso con un enfoque práctico (recetas)
• Métodos paramétricos clásicos
• Métodos no paramétricos
• Estadística bayesiana
1. 1. Estadística clásicaEstadística clásica1-4
ProgramaPrograma
1.1. Estadística clásicaEstadística clásica
2.2. Introducción a la estadística Introducción a la estadística bayesianabayesiana
3.3. Cálculo de erroresCálculo de errores
4.4. Regresión linealRegresión lineal
5.5. CorrelaciónCorrelación
6.6. Regresión múltipleRegresión múltiple
7.7. Contrastes de hipótesis para una muestraContrastes de hipótesis para una muestra
8.8. Contrastes de hipótesis para varias muestrasContrastes de hipótesis para varias muestras
9.9. Análisis de componentes principalesAnálisis de componentes principales
10.10. Estimación de parámetrosEstimación de parámetros
11.11. Detección de la señal Detección de la señal –– SurveysSurveys
12.12. Análisis de datos astrofísicosAnálisis de datos astrofísicos
1. 1. Estadística clásicaEstadística clásica1-5
Tema 1Tema 1Estadística clásicaEstadística clásica
Introducción
Estadística descriptiva
Distribuciones de probabilidad
Distribuciones discretas de probabilidad
Distribución normal
Estimación de parámetros poblacionales
Distribuciones muestrales de los estadísticos
Estimación por intervalos de confianza
Contrastes de hipótesis
Métodos no paramétricos
1. 1. Estadística clásicaEstadística clásica1-6
Estadística descriptivaEstadística descriptiva
Media aritmética Media geométrica Media armónica Media cuadrática
cent
raliz
ació
n
MedianaMe: Valor central (con
los datos ordenados de mayor a menor)
Moda
Mo: Valor con mayor frecuencia
disp
ersi
ón
VarianzaDesviación media
Desviación típica
Coeficientes de variación
asim
etrí
a Momento de orden rrespecto a c
curt
osis
1. 1. Estadística clásicaEstadística clásica1-7
Distribuciones de probabilidadDistribuciones de probabilidad
Función de densidad para una variable continua:
covarianza
Función de distribución:
Función de probabilidad para una variable discreta:
Función de distribución:
media (esperanza matemática) varianza
1. 1. Estadística clásicaEstadística clásica1-8
Distribuciones discretas de probabilidadDistribuciones discretas de probabilidad
Distribución Binomial
Probabilidad de obtener x éxitos en n ensayos (p = probabilidad de éxito en un ensayo)
donde
Media: Desviación típica:
Distribución de Poisson
Probabilidad de que se den x sucesos (λ = número medio de sucesos)
Media: Desviación típica:
donde
1. 1. Estadística clásicaEstadística clásica1-9
Distribución normalDistribución normal
Media: µ Desviación típica: σ
Teorema del límite central: Si X1, X2, …, Xn son variables aleatorias independientes con medias µi, desviaciones típicas σi y distribuciones de probabilidad cualesquiera, y definimos la variables Y = X1 + X2 + …+ Xn, entonces la variable:
Ej. la distribución binomial tiende a la distribución normal:
cuando
Normal tipificada:
Ej. la distribución de Poisson tiende a la distribución normal:
1. 1. Estadística clásicaEstadística clásica1-10
Estimación de parámetros poblacionalesEstimación de parámetros poblacionales
Método de máxima verosimilitud: Método objetivo para encontrar buenos estimadores puntuales:
Función de máxima verosimilitud: probabilidad de obtener la muestra observada dado un valor del parámetro poblacional:
El estimador de máxima verosimilitud es el valor de α que hace máximo L
Ejemplo: para una distribución normal:
La estimación se hace a partir de estadísticos (variables aleatorias definidas sobre los valores de la muestra) con funciones de probabilidad conocidas
Estimación puntual Estimación por intervalos de confianza
1. 1. Estadística clásicaEstadística clásica1-11
Distribuciones Distribuciones muestralesmuestrales de los estadísticosde los estadísticos
Distribución muestral de la media: Si es la media de una muestra aleatoria de tamaño n que se toma de una población con distribución cualquiera, media µ y varianza σ2, entonces la variable tipificada:
tiende a una normal N(0,1) cuando n tiende a infinito
Dsitribución muestral de la diferencia de medias: Si y son las medias muestrales de dos distribuciones (µ1, σ1) y (µ2, σ2) entonces:
tiende a una normal N(0,1) cuando n1 y n2 tienden a infinito
sigue una distribución con n-1 grados de libertad
sigue una distribución t de Student con n-1 grados de libertad
sigue una distribución Fde Fisher con n1-1 y n2-1 grados de libertad
Distribución muestralde la varianza: El estadístico t:
Distribución muestral de la razón de varianzas:
1. 1. Estadística clásicaEstadística clásica1-12
Estimación por intervalos de confianzaEstimación por intervalos de confianza
Ejemplo: media de una población normal
Si la desviación típica es desconocida:
Muestras grandes (n > 30) Muestras pequeñas
(significado del intervalo de confianza)
nivel de confianza
1. 1. Estadística clásicaEstadística clásica1-13
Intervalos de confianzaIntervalos de confianza
1. 1. Estadística clásicaEstadística clásica1-14
Intervalos de confianzaIntervalos de confianza
1. 1. Estadística clásicaEstadística clásica1-15
Contrastes de hipótesisContrastes de hipótesis
Contraste bilateral
α: nivel de significación
región crítica región crítica región crítica
región de aceptación
región de aceptación
región de aceptación
Contrastes unilaterales
Formulación de las hipótesis:
Hipótesis nula ( H0) vs Hipótesis alternativa ( H1)
• Aceptación de la hipótesis nula los datos no están en contra
• Rechazo de la hipótesis nula los datos indican que es improbable que sea cierta
Se utiliza un estadístico de prueba con distribución conocida en el caso de que H_0 sea cierta
Ejemplo: media de una población normal
1. 1. Estadística clásicaEstadística clásica1-16
Contrastes de hipótesisContrastes de hipótesis
1. 1. Estadística clásicaEstadística clásica1-17
Contrastes de hipótesisContrastes de hipótesis
1. 1. Estadística clásicaEstadística clásica1-18
Contrastes de hipótesisContrastes de hipótesis
1. 1. Estadística clásicaEstadística clásica1-19
Métodos no Métodos no paramétricosparamétricosMétodos parámetricos: muestras aleatorias extraídas de poblaciones con distribución de probabilidad conocida (normal). El problema es determinar los parámetros de la población (ej. µ, σ)
Métodos de distribución libre o NO paramétricos: no se supone ninguna distribución de probabilidad. Muchas veces se basan en ordenar los datos en una escala asignando rangos (análisis de rangos).
VENTAJAS
• En general no se conoce la distribución de probabilidad (el teorema del límite central puede no aplicarse).
• Menos suposiciones sobre los datos.
• Válidos para muestras muy pequeñas.
• Sirven para datos no numéricos (variables cualitativas y de rango).
• Respuestas rápidas con menos cálculos.
• La conversión a rangos elimina incertidumbres con la escala.
• A veces no existe la población (no hay parámetros que estimar).
DESVENTAJAS
• No usan toda la información disponible.
• Al no haber parámetros, es difícil hacer estimaciones cuantitativas.
• Son algo menos eficientes: (para rechazar la hipótesis nula con el mismo nivel de confianza se necesitan muestras mayores)
Eficiencia relativa asintótica:
para tomar la decisión con el mismo α(típicamente: ARE entre 0.6 y 0.95)
(Ante la duda es más seguro usar métodos no paramétricos)
top related