tarea i - lillo

4
Magister en estadística Teorema de Glivenko–Cantelli Tarea I Trabajo para la asignatura de: “Machine Learning” Presentado por: Camilo Lillo Profesor: Rodrigo Salas Valparaíso, Chile, 25 de Septiembre de 2014

Upload: camilo-lillo

Post on 18-Jan-2016

14 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Tarea I - Lillo

Magister en estadística

Teorema de Glivenko–CantelliTarea I

Trabajo para la asignatura de:“Machine Learning”

Presentado por:Camilo Lillo

Profesor:Rodrigo Salas

Valparaíso, Chile, 25 de Septiembre de 2014

Page 2: Tarea I - Lillo

1. Introducción

El Teorema de Glivenko–Cantelli es uno de los resultados fundamentales de la estadística, ya querealiza una sustitución de parámetros desconocidos de la función de distribución de la población,F (x), por sus características análogas calculadas a partir de lamuestra. En otras palabras, el teore-ma demuestra la convergencia uniforme de la función de distribución empírica de una muestra a laverdadera función de distribución (poblacional) de la variable aleatoriaX.

El teorema lleva el nombre de sus autores y funciona para cualquier variable aleatoria (discreta ocontinua); ver Glivenko & Cantelli, 1933.

Existen diversas generalizaciones del teorema realizadospor diversos autores, por ejemplo Wol-fowitz (1954) generaliza el teorema para el caso donde no todas las variables aleatoriasXr tienen lamisma función de distribución y casos de vectores aleatorios. Otros autores como Fisz (1958 y 1963)y Mourier (1954) generalizan el teorema utilizando funciones de densidad de probabilidad,fx(Xr),especiales.

Este trabajo tiene como objetivo mostrar el teorema de Glivenko–Cantelli. El resto del trabajose divide de la siguiente forma: la sección 2 muestra el teorema, la sección 3 desarrolla una simu-lación utilizando el software Mathematica 10.0 (http://www.wolfram.com/mathematica),que aplica e ilustra el teorema. Finalmente la sección 4 corresponde a la conclusión.

2. Teorema

En esta sección se mostrará el teorema de Glivenko–Cantelli como una mezcla de dos referenciasutilizadas; ver Billingsley (1995) y Fisz (1963).

Se define la función de distribución empíricaSn(x). Si se escoge una muestra aleatoria de tamañon, entoncesSn(x) pueden tomar valores en el intervalo [0, 1]. Se establece queSn(x) es una funciónno decreciente, continua por la derecha. Por consiguienteSn(x), que es una función dex, tiene todaslas propiedades de una función de distribución; desde este punto de vista la distribución empírica sedistingue de la distribución de la poblaciónF (x), que es llamada distribución teórica. Entonces, sin

es lo suficientemente grande, el ajuste para todox está dado por:

P[ lımn→∞

Sn(x) = F (x)] = 1. (2.1)

Entonces, de una forma más formal se tiene el teorema de Glivenko-Cantelli, seaSn(x) la función dedistribución empírica de una muestra den elementos tomados desde una población que mide algunacaracterísticaX desde una función de distribución teóricaF (x). La probabilidad de que la secuenciaSn(x) converge aF (x), cuandon → ∞, uniformemente enx (−∞ < x < ∞) es igual a 1.Sea

Dn = sup−∞<x<∞

|Sn(x)− F (x)|. (2.2)

La expresiónDn es una variable aleatoria. Entonces, la afirmación del teorema de Glivenko–Cantelliestá dada por

P[ lımn→∞

Dn = 0] = 1. (2.3)

3. Simulación

En esta sección se realizará una simulación para la corroboración del teorema, por limitacionesmatemáticas del autor de este trabajo se prefiere mostrar la teoría a través de una aplicación, en vezde entrar a una demostración matemática.

1

Page 3: Tarea I - Lillo

Se realiza un estudio de simulación que examina el teorema deGlivenko–Cantelli para una distri-bución en particular y para distintos tamaños muestrales, con el fin de visualizar el comportamientode la función de distribución empírica y teórica.

Para este estudio se tomó la distribución de Fréchet, que tiene función de distribución dada por

F (x) = exp

{

(

x− µ

β

)

−α}

, x > µ, α > 0, β > 0, µ ∈ R, (3.1)

dondeα es el parámetro de forma,µ es un parámetro de localización yβ el parámetro de escala.Los parámetros fijados para la simulación sonα = 2, β = 3 y µ = 0,5. El tamaño de la muestrafue aumentando considerablemente, tomando los valoresn = (10, 25, 50, 100, 250, 500, 1000, 2500).Utilizando el código mostrado en el Anexo; ver Anexo, se obtuvieron los resultados gráfico mostradosen la figura 1

Figura 1: Visualización deSn y F (x) para distintos tamaños muestrales (n).

2

Page 4: Tarea I - Lillo

Para la figura 1, se puede apreciar con facilidad como la función de distribución empírica se va acer-cando cada vez más a la función de distribución teórica a medida quen aumenta, además se puedeapreciar que con tamañon = 500 la diferencia entreSn y F (x) parece ser adecuada para que lasecuaciones (2.1), (2.2) y (2.3) funcionen.

A través de esta simulación se ha podido mostrar el teorema y demostrar que efectívamente fun-ciona sin la necesidad de prescindir de una demostración matemática.

4. Conclusión

Muchos autores e investigadores han utilizado este teoremade convergencia, lo han generalizadoo modificado para mostrar resultados similares, por ejemplose utiliza una adaptación para encontrartamaños de muestra o utilizar técnicas de re-muestreo (ver Jarpa, 2000).

A través de este trabajo hemos mostrado uno de los teoremas más importantes de la estadística deforma matemática y se ha mostrado que funciona de forma aplicada a través del software Mathema-tica.

Referencias

Billingsley P (1995)Probability and Measure. John Wiley & Sons, third edition.

Fisz M (1958) A limit theorem for non-decreasing random functions,Bull. Pol. Acad. Sci., 6, 485.

Fisz M (1963) Probability Theory and Mathematical Statistics.John Wiley & Sons, Inc.

Glivenko & Cantelli (1933) Sulla determinazione empirica delle leggi di probabilita.Giorn. Ist. Ital.Attuari, 4, 221–424.

Jarpa R (2000) Extension of the Glivenko–Cantelli Theorem tothe resampling.IEAC, Universidadde los Andes, Venezuela.

Mourier E (1954) Eléments aléatoires dans un espace de Banach, Thése, París.

Wolfowitz J (1954) Generalization of a theorem of Glivenko–Cantelli,AMS, 25, 131.

Anexo

A continuación se presenta el código utilizado en mathematica 10.0,

data = RandomVariate[FrechetDistribution[2, 3, .5], 2500];lens = {10, 25, 50, 100, 250, 500, 1000, 2500};edists = Table[EmpiricalDistribution[Take[data, k]], {k, lens}];limitplot = Plot[CDF[FrechetDistribution[2, 3, .5], x], {x, 0, 20}];

GraphicsGrid[Partition[Table[Show[Plot[CDF[edists[[i]], x], {x, 0, 20},PlotStyle -> Directive[ColorData[1, 2], Thick], PlotRange -> {0, 1},PlotLabel -> Style[StringJoin["n = ", ToString[lens[[i]]]]]],

limitplot], {i, 8}], 2], ImageSize -> 500, Background -> White]

3