estadística avanzada y análisis de datos

1. 1. Estadística clásicaEstadística clásica1-1

Estadística Avanzada y Estadística Avanzada y Análisis de DatosAnálisis de Datos

MásterMáster InteruniversitarioInteruniversitario de Astrofísicade Astrofísica

Javier Gorgas y Nicolás Javier Gorgas y Nicolás CardielCardiel

Curso 2006Curso 2006--20072007

IntroducciónIntroducciónEn ciencia tenemos que tomar decisiones (¿son los datos compatibles con la teoría?

¿cuáles son los parámetros que mejor ajustan? ¿son las dos muestras similares? ¿qué ha fallado, cómo podemos mejorar el experimento?)

Para cada medida o parámetro derivado necesitamos una estimación del error que nos diga, en términos de probabilidades, la confianza que tenemos en su valor.

La estadística es la herramienta, en la mayoría de los casos, inevitable para tomar las decisiones (el método científico).

If your experiment needs statistics, you ought to have done a better experiment(E. Rutherford)

En particular, en astrofísica:

Nuestras medidas están sujetas a (grandes) errores de medida.

Tenemos la manía de observar al límite de las capacidades instrumentales.

El método clásico de repetir los experimentos no es aplicable.

No podemos diseñar los experimentos (las muestras pueden ser muy pequeñas)

Introducción (II)Introducción (II)

No podemos evitar la estadística:

¿Cómo asignamos errores a nuestros datos? (o los de otros)

¿Cómo podemos extraer la información máxima de los datos? (¿o los tiramos?)

¿Cómo comparamos muestras? (de diferentes objetos o de diferentes autores)

¿Cómo hacer correlación, contrastar hipótesis, ajustar modelos…?

¿Qué hacer con las muestras incompletas? (¿límites superiores?)

NECESITAMOS DECIDIR

Nuestros colegas usan estadística. Tenemos que entender lo qué hacen y cómo lo hacen.

Curso con un enfoque práctico (recetas)

• Métodos paramétricos clásicos

• Métodos no paramétricos

• Estadística bayesiana

ProgramaPrograma

1.1. Estadística clásicaEstadística clásica

2.2. Introducción a la estadística Introducción a la estadística bayesianabayesiana

3.3. Cálculo de erroresCálculo de errores

4.4. Regresión linealRegresión lineal

5.5. CorrelaciónCorrelación

6.6. Regresión múltipleRegresión múltiple

7.7. Contrastes de hipótesis para una muestraContrastes de hipótesis para una muestra

8.8. Contrastes de hipótesis para varias muestrasContrastes de hipótesis para varias muestras

9.9. Análisis de componentes principalesAnálisis de componentes principales

10.10. Estimación de parámetrosEstimación de parámetros

11.11. Detección de la señal Detección de la señal –– SurveysSurveys

12.12. Análisis de datos astrofísicosAnálisis de datos astrofísicos

Tema 1Tema 1Estadística clásicaEstadística clásica

Introducción

Estadística descriptiva

Distribuciones de probabilidad

Distribuciones discretas de probabilidad

Distribución normal

Estimación de parámetros poblacionales

Distribuciones muestrales de los estadísticos

Estimación por intervalos de confianza

Contrastes de hipótesis

Métodos no paramétricos

Estadística descriptivaEstadística descriptiva

Media aritmética Media geométrica Media armónica Media cuadrática

MedianaMe: Valor central (con

los datos ordenados de mayor a menor)

Mo: Valor con mayor frecuencia

VarianzaDesviación media

Desviación típica

Coeficientes de variación

a Momento de orden rrespecto a c

Distribuciones de probabilidadDistribuciones de probabilidad

Función de densidad para una variable continua:

covarianza

Función de distribución:

Función de probabilidad para una variable discreta:

Función de distribución:

media (esperanza matemática) varianza

Distribuciones discretas de probabilidadDistribuciones discretas de probabilidad

Distribución Binomial

Probabilidad de obtener x éxitos en n ensayos (p = probabilidad de éxito en un ensayo)

Media: Desviación típica:

Distribución de Poisson

Probabilidad de que se den x sucesos (λ = número medio de sucesos)

Media: Desviación típica:

Distribución normalDistribución normal

Media: µ Desviación típica: σ

Teorema del límite central: Si X1, X2, …, Xn son variables aleatorias independientes con medias µi, desviaciones típicas σi y distribuciones de probabilidad cualesquiera, y definimos la variables Y = X1 + X2 + …+ Xn, entonces la variable:

Ej. la distribución binomial tiende a la distribución normal:

cuando

Normal tipificada:

Ej. la distribución de Poisson tiende a la distribución normal:

Estimación de parámetros poblacionalesEstimación de parámetros poblacionales

Método de máxima verosimilitud: Método objetivo para encontrar buenos estimadores puntuales:

Función de máxima verosimilitud: probabilidad de obtener la muestra observada dado un valor del parámetro poblacional:

El estimador de máxima verosimilitud es el valor de α que hace máximo L

Ejemplo: para una distribución normal:

La estimación se hace a partir de estadísticos (variables aleatorias definidas sobre los valores de la muestra) con funciones de probabilidad conocidas

Estimación puntual Estimación por intervalos de confianza

Distribuciones Distribuciones muestralesmuestrales de los estadísticosde los estadísticos

Distribución muestral de la media: Si es la media de una muestra aleatoria de tamaño n que se toma de una población con distribución cualquiera, media µ y varianza σ2, entonces la variable tipificada:

tiende a una normal N(0,1) cuando n tiende a infinito

Dsitribución muestral de la diferencia de medias: Si y son las medias muestrales de dos distribuciones (µ1, σ1) y (µ2, σ2) entonces:

tiende a una normal N(0,1) cuando n1 y n2 tienden a infinito

sigue una distribución con n-1 grados de libertad

sigue una distribución t de Student con n-1 grados de libertad

sigue una distribución Fde Fisher con n1-1 y n2-1 grados de libertad

Distribución muestralde la varianza: El estadístico t:

Distribución muestral de la razón de varianzas:

Estimación por intervalos de confianzaEstimación por intervalos de confianza

Ejemplo: media de una población normal

Si la desviación típica es desconocida:

Muestras grandes (n > 30) Muestras pequeñas

(significado del intervalo de confianza)

nivel de confianza

Intervalos de confianzaIntervalos de confianza

Contrastes de hipótesisContrastes de hipótesis

Contraste bilateral

α: nivel de significación

región crítica región crítica región crítica

región de aceptación

Contrastes unilaterales

Formulación de las hipótesis:

Hipótesis nula ( H0) vs Hipótesis alternativa ( H1)

• Aceptación de la hipótesis nula los datos no están en contra

• Rechazo de la hipótesis nula los datos indican que es improbable que sea cierta

Se utiliza un estadístico de prueba con distribución conocida en el caso de que H_0 sea cierta

Ejemplo: media de una población normal

Métodos no Métodos no paramétricosparamétricosMétodos parámetricos: muestras aleatorias extraídas de poblaciones con distribución de probabilidad conocida (normal). El problema es determinar los parámetros de la población (ej. µ, σ)

Métodos de distribución libre o NO paramétricos: no se supone ninguna distribución de probabilidad. Muchas veces se basan en ordenar los datos en una escala asignando rangos (análisis de rangos).

VENTAJAS

• En general no se conoce la distribución de probabilidad (el teorema del límite central puede no aplicarse).

• Menos suposiciones sobre los datos.

• Válidos para muestras muy pequeñas.

• Sirven para datos no numéricos (variables cualitativas y de rango).

• Respuestas rápidas con menos cálculos.

• La conversión a rangos elimina incertidumbres con la escala.

• A veces no existe la población (no hay parámetros que estimar).

DESVENTAJAS

• No usan toda la información disponible.

• Al no haber parámetros, es difícil hacer estimaciones cuantitativas.

• Son algo menos eficientes: (para rechazar la hipótesis nula con el mismo nivel de confianza se necesitan muestras mayores)

Eficiencia relativa asintótica:

para tomar la decisión con el mismo α(típicamente: ARE entre 0.6 y 0.95)

(Ante la duda es más seguro usar métodos no paramétricos)

estadística avanzada y análisis de datos

Documents

análisis de datos y estadística avanzada -...

estadística básica con r - oscarperpinan.github.io ·...

manipulación avanzada de datos con sql

estadística. datos estadísticos. frecuencias. gráfico de...

apuntes de análisis estadística de datos muestrales

resumen base de datos avanzada

análisis de datos y estadística avanzada -...

estadística avanzada - inferencia estadística

estadística avanzada, aplicada a la industria...

estadÍstica y probabilidades: datos y estadística

estadística "datos no agrupados "

estadística datos y variables

herramienta de planificación avanzada de datos adapta

bases de datos curso inferencia estadística bases de datos...

1. datos informativos: materia estadÍstica general …

estadística avanzada para actuarios introducción a rsi se...

aplicaciones de estadística avanzada para...

redalyc.graficación estadística y visualización de datos

estadística; datos no agrupados 3ser trabajo

123 guadalupe ruiz merino - curso de estadística avanzada...