análisis de datos en física de partículashipótesis compuesta: h contiene parámetro(s) no...

29
J. Solano Clases de Análisis de Datos en Física de Partículas Capítulo 5 página 1 Análisis de Datos en Física de Partículas Sección de Posgrado Facultad de Ciencias Universidad Nacional de Ingeniería C. Javier Solano [email protected] http://compinformatidf.wordpress.com/ Página del curso: http://compinformatidf.wordpress.com/2013/04/13/ curso-analisis-estadistico-de-datos-en-fisica-de-particulas-mf708/

Upload: others

Post on 21-Mar-2020

8 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Análisis de Datos en Física de PartículasHipótesis compuesta: H contiene parámetro(s) no especificado(s). La probabilidad de x dado H también se llama la probabilidad de la hipótesis,

J. Solano Clases de Análisis de Datos en Física de Partículas Capítulo 5 página 1

Análisis de Datos en Física de Partículas

Sección de PosgradoFacultad de CienciasUniversidad Nacional de Ingeniería

C. Javier [email protected]://compinformatidf.wordpress.com/

Página del curso:http://compinformatidf.wordpress.com/2013/04/13/curso-analisis-estadistico-de-datos-en-fisica-de-particulas-mf708/

Page 2: Análisis de Datos en Física de PartículasHipótesis compuesta: H contiene parámetro(s) no especificado(s). La probabilidad de x dado H también se llama la probabilidad de la hipótesis,

Análisis de Datos en Física de Partículas: Capítulo 5

1 Teorema de Probabilidad de Bayes, Variables aleatorias, y pdfs2 Funciones de r.v.s, Valores de expectación, propagación de errores3 Catálogo de pdfs4 El método de Monte Carlo5 Test estadísticos: conceptos generales6 Test statistics, métodos multivariantes7 Tests Bondad de ajuste (goodness-of-fit)8 Parámetros de estimación, maximum likelihood9 Mas de maximum likelihood10 Método de mínimos cuadrados (least squares)11 Intervalo de estimación, establecimiento de límites12 Parámetros molestos (nuisance), incertidumbres sistemáticas13 Ejemplos de aproximación Bayesiana

J. Solano Clases de Análisis de Datos en Física de Partículas Capítulo 5 página 2

Page 3: Análisis de Datos en Física de PartículasHipótesis compuesta: H contiene parámetro(s) no especificado(s). La probabilidad de x dado H también se llama la probabilidad de la hipótesis,

Hipótesis

J. Solano Clases de Análisis de Datos en Física de Partículas Capítulo 5 página 3

Una hipótesis H especifica la probabilidad de los datos, es decir, elresultado de la observación, aquí simbólicamente: x.

x puede ser uni-/multivariante, continua o discreta.

Por ejemplo escribir x ~ f(x|H).

x puede representar, por ej, observación de una sola partícula,un solo evento, o todo un "experimento".

Valores posibles de x forman el espacio muestral S ("espacio de datos")

Hipótesis simple (o "puntual"): f (x|H) completamente especificada.

Hipótesis compuesta: H contiene parámetro(s) no especificado(s).

La probabilidad de x dado H también se llama la probabilidad de lahipótesis, escrito L(x|H).

Page 4: Análisis de Datos en Física de PartículasHipótesis compuesta: H contiene parámetro(s) no especificado(s). La probabilidad de x dado H también se llama la probabilidad de la hipótesis,

Definición de un test de hipótesis (frecuentista)

J. Solano Clases de Análisis de Datos en Física de Partículas Capítulo 5 página 4

Considere, por ej, una hipótesis simple H0 y alternativa H1.

Un test de H0 es definido especificando una región crítica w delespacio de datos tal que no hay más que una (pequeña) probabilidadα, asumiendo H0 es correcta, de observar los datos allí, es decir,

P(x ∈ w | H0 ) ≤ α

Necesita desigualdad si los datosson discretos.

α es llamado el tamaño o nivel de significancia del test.

Si se observa x en la región crítica, rechazar H0.

espacio de datos Ω

región crítica w

Page 5: Análisis de Datos en Física de PartículasHipótesis compuesta: H contiene parámetro(s) no especificado(s). La probabilidad de x dado H también se llama la probabilidad de la hipótesis,

Definición de un test (2)

J. Solano Clases de Análisis de Datos en Física de Partículas Capítulo 5 página 5

Pero, en general, hay un número infinito de posibles regiones críticas que dan el mismo nivel de significancia α.

Así que la elección de la región crítica para un test de H0 necesita tener en cuenta la hipótesis alternativa H1.

En general, colocar la zona crítica donde hay baja probabilidad de encontrar si H0 es correcta, pero alta si H1 es verdadera:

Page 6: Análisis de Datos en Física de PartículasHipótesis compuesta: H contiene parámetro(s) no especificado(s). La probabilidad de x dado H también se llama la probabilidad de la hipótesis,

Rechazando una hipótesis

J. Solano Clases de Análisis de Datos en Física de Partículas Capítulo 5 página 6

Notar que el rechazo de H0 no equivale a afirmar que creamosque es falsa y H1 correcta. En estadística frecuentista sólo se asocia probabilidad con los resultados de observaciones repetibles (los datos).En la estadística bayesiana, la probabilidad de la hipótesis (grado de creencia) se encuentra usando el teorema de Bayes:

que depende de la probabilidad a priori π(H).

Lo que hace útil un test frecuentista es que podemos calcular laprobabilidad de aceptar/rechazar una hipótesis aumiendo que seacorrecta, o asumiendo que alguna alternativa es verdadera.

Page 7: Análisis de Datos en Física de PartículasHipótesis compuesta: H contiene parámetro(s) no especificado(s). La probabilidad de x dado H también se llama la probabilidad de la hipótesis,

Errores Tipo-I, Tipo-II

J. Solano Clases de Análisis de Datos en Física de Partículas Capítulo 5 página 7

Rechazar la hipótesis H0 cuando es verdadera es un error de Tipo-I.

La probabilidad máxima para esto es el tamaño del test:

P(x ∈ W | H0 ) ≤ α

Pero también podríamos aceptar H0 cuando es falsa, y una alternativaH1 es verdadera.Esto se llama un error Tipo-II, y ocurre con una probabilidad

P(x ∈ S − W | H1 ) = β

Uno menos esto se llama la potencia del test con respecto a laalternativa H1:

Power = 1 − β

Page 8: Análisis de Datos en Física de PartículasHipótesis compuesta: H contiene parámetro(s) no especificado(s). La probabilidad de x dado H también se llama la probabilidad de la hipótesis,

Ejemplo de ajuste para los tests estadísticos:el Large hadron Collider

J. Solano Clases de Análisis de Datos en Física de Partículas Capítulo 5 página 8

Haces de protones contra-rotantes en anillo de 27 kilometros circunferencia

energía de centro de masa pp 14 TeV

Detectores en 4 ptos. de colisión pp:ATLASCMSLHCb (Física b)ALICE (Física de iones pesados)

propósito general

Page 9: Análisis de Datos en Física de PartículasHipótesis compuesta: H contiene parámetro(s) no especificado(s). La probabilidad de x dado H también se llama la probabilidad de la hipótesis,

El detector ATLAS

J. Solano Clases de Análisis de Datos en Física de Partículas Capítulo 5 página 9

2100 físicos37 países 167 universidades/labs

25 m diámetro46 m longitud7000 toneladas~108 canales electrónicos

Page 10: Análisis de Datos en Física de PartículasHipótesis compuesta: H contiene parámetro(s) no especificado(s). La probabilidad de x dado H también se llama la probabilidad de la hipótesis,

Un evento SUSY simulado

J. Solano Clases de Análisis de Datos en Física de Partículas Capítulo 5 página 10

muonesc/alto p

T

jets dehadrones c/alto p

T

energía transversal perdida

p p

Page 11: Análisis de Datos en Física de PartículasHipótesis compuesta: H contiene parámetro(s) no especificado(s). La probabilidad de x dado H también se llama la probabilidad de la hipótesis,

Eventos de background

J. Solano Clases de Análisis de Datos en Física de Partículas Capítulo 5 página 11

Este evento del Modelo Estándar, producción de ttbar, también conjets y muones de alto p

T, y algo

de energía transversal perdida.→ puede confundirse fácilmente con un evento SUSY.

Page 12: Análisis de Datos en Física de PartículasHipótesis compuesta: H contiene parámetro(s) no especificado(s). La probabilidad de x dado H también se llama la probabilidad de la hipótesis,

Tests estadísticos (en un contexto de física de partículas)

J. Solano Clases de Análisis de Datos en Física de Partículas Capítulo 5 página 12

Para cada reacción consideramos que tendremos una hipótesis para lapdf de , por ejemplo,

Supongamos que el resultado de una medición para un evento individual es una colección de números

x1 = número de muons,

x2 = pT media de jets,

x3 = energía perdida, ...

sigue alguna pdf conjunta n-dimensional, que depende deltipo de evento producido, es decir, era

etc.

Por ejemplo llamar H0 la hipótesis del background (el tipo de evento quequeremos rechazar), H1 es la hipótesis de la señal (el tipo que queremos).

Page 13: Análisis de Datos en Física de PartículasHipótesis compuesta: H contiene parámetro(s) no especificado(s). La probabilidad de x dado H también se llama la probabilidad de la hipótesis,

Seleccionando eventos

J. Solano Clases de Análisis de Datos en Física de Partículas Capítulo 5 página 13

Supongamos que tenemos una muestra de datos con dos tipos de eventos, que corresponden a las hipótesis H0 y H1 y queremos seleccionar los de tipo H1.Cada evento es un punto en el espacio. ¿Qué 'límite de decisión' debemos usar para aceptar/rechazar eventos como perteneciendo a los tipos de eventos H0 o H1?

acceptarH1

H0

Talvez seleccionar eventoscon ‘cortes’:

Page 14: Análisis de Datos en Física de PartículasHipótesis compuesta: H contiene parámetro(s) no especificado(s). La probabilidad de x dado H también se llama la probabilidad de la hipótesis,

Otras formas de seleccionar

J. Solano Clases de Análisis de Datos en Física de Partículas Capítulo 5 página 14

O tal vez usar algún otro tipo de frontera de decisión:

acceptarH1

H0

acceptar

H1

H0

lineal o nolineal

¿Cómo podemos hacer esto de una manera "óptima"?

Page 15: Análisis de Datos en Física de PartículasHipótesis compuesta: H contiene parámetro(s) no especificado(s). La probabilidad de x dado H también se llama la probabilidad de la hipótesis,

Test estadístico

J. Solano Clases de Análisis de Datos en Física de Partículas Capítulo 5 página 15

La frontera de decisión puede ser definida por una ecuación de la forma

Podemos trabajar con los pdfs

La frontera de decisión es ahora un "corte" en t, que divide el espacio en la región crítica (rechazo) y la región de aceptación.

Esto define un test. Si los datos caen en la región crítica, rechazamos H0.

donde t(x1,…, xn) es un test estadístico escalar .

Page 16: Análisis de Datos en Física de PartículasHipótesis compuesta: H contiene parámetro(s) no especificado(s). La probabilidad de x dado H también se llama la probabilidad de la hipótesis,

Eficiencia Señal/Background

J. Solano Clases de Análisis de Datos en Física de Partículas Capítulo 5 página 16

Probabilidad de rechazar la hipótesis de background para el evento debackground (eficiencia de background):

Probabilidad de aceptar un evento deseñal como señal (eficiencia de señal):

g(t|s)g(t|b)

accept b reject b

Page 17: Análisis de Datos en Física de PartículasHipótesis compuesta: H contiene parámetro(s) no especificado(s). La probabilidad de x dado H también se llama la probabilidad de la hipótesis,

Pureza de la selección de eventos

J. Solano Clases de Análisis de Datos en Física de Partículas Capítulo 5 página 17

Supongamos sólo un tipo de background b; fracciones generales de eventos de señal y background son πs y πb (probabilidades a priori).

Supongamos que seleccionamos eventos de señal con t > tcut. Cual esla ‘pureza’ de la muestra seleccionada?

Aquí pureza significa la probabilidad de ser señal dado que el eventofue aceptado. Usando el teorema de Bayes encontramos:

Por lo tanto la pureza depende de las probabilidades a priori, así como en las eficiencias de la señal y de background.

Page 18: Análisis de Datos en Física de PartículasHipótesis compuesta: H contiene parámetro(s) no especificado(s). La probabilidad de x dado H también se llama la probabilidad de la hipótesis,

Construyendo un test estadístico

J. Solano Clases de Análisis de Datos en Física de Partículas Capítulo 5 página 18

¿Cómo elegir un test de la región crítica en una "forma óptima"?

El lema de Neyman-Pearson dice:

Para obtener la potencia máxima para un nivel de significancia dado, enun test de H0 (background), versus H1 (señal), la región crítica debe tener

dentro de la región, y ≤ c afuera, donde c es una constanteque determina la potencia

Equivalente, test estadístico escalar óptimo es

N.B. cualquier función monótona de esto lleva al mismo test.

Page 19: Análisis de Datos en Física de PartículasHipótesis compuesta: H contiene parámetro(s) no especificado(s). La probabilidad de x dado H también se llama la probabilidad de la hipótesis,

¿Porque Neyman-Pearson no siempre ayuda

J. Solano Clases de Análisis de Datos en Física de Partículas Capítulo 5 página 19

El problema es que por lo general no hay fórmulas explícitas paralos pdfs P(x|H0), P(x|H1).

En su lugar podemos tener modelos MC para procesos de señal y debackground, por lo que podemos producir datos simulados, y metercada evento en un histograma n-dimensional.Use, por ej, M bins para c/u de las n dimensiones, total Mn celdas.

Pero n es potencialmente grande, → número demasiado grande deceldas para llenar con datos Monte Carlo.

Compromiso: hacer Ansatz de forma de test estadístico con menos parámetros, determinarlos (por ej, utilizando MC) para darmejor discriminación entre la señal y el background.

Page 20: Análisis de Datos en Física de PartículasHipótesis compuesta: H contiene parámetro(s) no especificado(s). La probabilidad de x dado H también se llama la probabilidad de la hipótesis,

Métodos Multivariantes

J. Solano Clases de Análisis de Datos en Física de Partículas Capítulo 5 página 20

Muchos métodos nuevos (y algunos viejos):

Discriminante de Fisher

Neural networks

Métodos de densidad Kernel

Máquinas de soporte de Vectores

Los árboles de decisión

Boosting

Embolsado (Bagging)

Nuevo software para HEP, por ej,

TMVA , Höcker, Stelzer, Tegenfeldt, Voss, Voss, physics/0703039

StatPatternRecognition, I. Narsky, physics/0507143

Page 21: Análisis de Datos en Física de PartículasHipótesis compuesta: H contiene parámetro(s) no especificado(s). La probabilidad de x dado H también se llama la probabilidad de la hipótesis,

Test estadístico lineal

J. Solano Clases de Análisis de Datos en Física de Partículas Capítulo 5 página 21

Ansatz:

→ Fisher: maximizar

Elija los parámetros a1, ..., an de manera que los pdfs tengan máxima ‘separación’. Queremos:

Σs Σb

t

g (t) τb

gran distancia entre valoresmedios, pequeños anchos

τs

Page 22: Análisis de Datos en Física de PartículasHipótesis compuesta: H contiene parámetro(s) no especificado(s). La probabilidad de x dado H también se llama la probabilidad de la hipótesis,

Determinando coeficientes para máxima separación

J. Solano Clases de Análisis de Datos en Física de Partículas Capítulo 5 página 22

Tenemos

donde

En terminos de la media y la varianza de esto se convierte en

Page 23: Análisis de Datos en Física de PartículasHipótesis compuesta: H contiene parámetro(s) no especificado(s). La probabilidad de x dado H también se llama la probabilidad de la hipótesis,

Determinando coeficientes (2)

J. Solano Clases de Análisis de Datos en Física de Partículas Capítulo 5 página 23

El numerador de J(a) es

y el denominador es

‘entre(between)’ clases

‘dentro(within)’ clases

→ maximizar

Page 24: Análisis de Datos en Física de PartículasHipótesis compuesta: H contiene parámetro(s) no especificado(s). La probabilidad de x dado H también se llama la probabilidad de la hipótesis,

Discriminante de Fisher

J. Solano Clases de Análisis de Datos en Física de Partículas Capítulo 5 página 24

Ajustando

aceptarH0

H1

Corresponde a un límitede decisión lineal.

da función discriminante lineal de Fisher:

Page 25: Análisis de Datos en Física de PartículasHipótesis compuesta: H contiene parámetro(s) no especificado(s). La probabilidad de x dado H también se llama la probabilidad de la hipótesis,

Discriminante de Fisher: comentarios sobre los mínimos cuadrados

J. Solano Clases de Análisis de Datos en Física de Partículas Capítulo 5 página 25

Se obtiene una separación equivalente entre hipótesis, si multiplicamos ai por un factor de escala común y añadimos un desplazamiento arbitrario a0:

Así, podemos fijar los valores medios τ0 y τ1 , bajo las hipótesis nula y alternativa, a valores arbitrarios, por ejemplo, 0 y 1.

Entonces maximizares equivalente a minimizar

Maximizando J(a) de Fisher → ‘mínimos cuadrados’

En la práctica, valores esperados reemplazados por promedios a partir demuestras de datos de entrenadas, por ej, a partir de modelos de MC.

Page 26: Análisis de Datos en Física de PartículasHipótesis compuesta: H contiene parámetro(s) no especificado(s). La probabilidad de x dado H también se llama la probabilidad de la hipótesis,

Discriminante de Fisher para datos gausianos

J. Solano Clases de Análisis de Datos en Física de Partículas Capítulo 5 página 26

Supongamos

y matrices de covariancia V0 = V1 = V para ambos. Podemos escribir el discriminante Fisher (con un desplazamiento) como

es gaussiana multivariante con valores medios

Entonces la razón de verosimilitud (likelihood) se convierte en

Page 27: Análisis de Datos en Física de PartículasHipótesis compuesta: H contiene parámetro(s) no especificado(s). La probabilidad de x dado H también se llama la probabilidad de la hipótesis,

Discriminante de Fisher para datos gausianos (2)

J. Solano Clases de Análisis de Datos en Física de Partículas Capítulo 5 página 27

Esto es, (monótona) por lo que para este caso,

el discriminante Fisher es equivalente a usar la relación de likelihood,

y por lo tanto da la máxima pureza para una eficiencia dada.

Para los datos no gaussianos esta ya no sirve, pero la función discriminante lineal puede ser la solución práctica más simple.

A menudo, tratar de transformar los datos con el fin de aproximarlosmejor a una gausiana antes de construir discriminante de Fisher.

Page 28: Análisis de Datos en Física de PartículasHipótesis compuesta: H contiene parámetro(s) no especificado(s). La probabilidad de x dado H también se llama la probabilidad de la hipótesis,

Discriminante de Fisher para datos gausianos (3)

J. Solano Clases de Análisis de Datos en Física de Partículas Capítulo 5 página 28

Data gaussiana multivariante con matrices de covarianza iguales tambiénda una expresión simple para probabilidades a posteriori, por ej,

Para una elección particular del desplazamiento a0 esto puede escribirse:

que es la función sigmoidea logística:

(Muy usado en relacióncon Neural Networks.)

Page 29: Análisis de Datos en Física de PartículasHipótesis compuesta: H contiene parámetro(s) no especificado(s). La probabilidad de x dado H también se llama la probabilidad de la hipótesis,

Terminando Capítulo 5

J. Solano Clases de Análisis de Datos en Física de Partículas Capítulo 5 página 29

Nos fijamos en tests estadísticos y asuntos relacionados:discriminar entre tipos de eventos (hipótesis),determinar la eficacia de la selección, pureza de la muestra, etc

Hemos discutido un método para construir un test estadístico utilizando una función lineal de los datos:

discriminante de Fisher

A continuación vamos a hablar sobre variables de tests no lineales comoneural networks