estimador de huber

41
Tema 3: Caracterización de grupos 1. Introducción. 2. Tendencia central. 2.1. Concepto. 2.2. Moda, mediana y media aritmética. Definición, cálculo y principales características. 2.3. Otras medias. 2.4. Criterios de uso. 3. Variabilidad. 3.1. Concepto. 3.2. Amplitud, Varianza y Desviación Típica (muestral y poblacional). 3.3. Otras medidas: Amplitud intercuartílica y Coeficiente de Variación. 3.4. Criterios de uso. 4. Asimetría: Introducción y principales medidas. 5. Curtosis: Introducción y medidas 6. Representación gráfica: diagramas de caja y barras de error.

Upload: guillermo-pena

Post on 26-Sep-2015

134 views

Category:

Documents


2 download

DESCRIPTION

Estadística

TRANSCRIPT

  • Tema 3: Caracterizacin de grupos1. Introduccin.2. Tendencia central.2.1. Concepto.2.2. Moda, mediana y media aritmtica. Definicin, clculo y principales caractersticas.2.3. Otras medias.2.4. Criterios de uso.3. Variabilidad.3.1. Concepto.3.2. Amplitud, Varianza y Desviacin Tpica (muestral y poblacional).3.3. Otras medidas: Amplitud intercuartlica y Coeficiente de Variacin.3.4. Criterios de uso.4. Asimetra: Introduccin y principales medidas.5. Curtosis: Introduccin y medidas6. Representacin grfica: diagramas de caja y barras de error.

  • 2. Tendencia centralNos indican un valor representativo del grueso de los datos, de la referencia de los mismos un valor central.

    Ejemplo: con las calificaciones 4,7,5,6,5,4,5,5,5,6,5,4,4,es claro que (a ojo) estn en torno a cinco, que podra ser tomado como ndice de tendencia central.Veremos primero los 3 ndices de tendencia central ms comunes (moda, media y mediana). Despus veremos otros ndices que han sido propuestos.

  • Media aritmticaSimplemente se trata de sumar todos los valores y dicha cantidad se divide por el nmero de valores que tengamos.Frmula:Si tenemos los datos: 4,6,5,3,7

    La media ser (4+6+5+3+7)/5=4Nota: se pueden emplear medias aritmticas ponderadas. Pensemos que hay 2 datos, uno (5) pesa 06 y el otro (6) pesa 04. Entonces, la media ser (5*06+6*04)/(06+04)=54

  • Propiedades de la Media aritmtica-La suma de diferencias (de todos los valores) respecto a la media es siempre 0

    -Si sumamos una constante a cada uno de los valores, la nueva media aritmtica resultante ser la original ms la constante.

    -Si multiplicamos cada uno de los valores por una constante, la nueva media aritmtica ser la original por la constante.

    Minimiza la suma de diferencias en trminos cuadrticos.

  • MedianaLa Mediana (Mdn o Md) se define como el valor que tiene la propiedad de que el nmero de observaciones menores que l es igual al nmero de observaciones mayores que l.

    Por ejemplo, en la secuencia (ordenada) 3,4,5,6,7,8,9la mediana ser 6

    En la secuencia (ordenada) 2,3,4,6,7,9la mediana ser 5 (la media aritmtica entre los dos valores centrales; observad que n es par; en el ejemplo de arriba era impar)

  • Propiedades de la mediana

    No utiliza todos los elementosSe puede calcular con datos ordinalesSe ve menos afectada por datos atpicos que la media aritmtica.Minimiza la suma de diferencias en valor absoluto (recordad que la media aritmtica minimizaba la suma de diferencias en trminos cuadrticos)

  • Ejemplo uso de la medianaLos 9 empleados de una nueva empresa viven al lado de la Nacional 340 en diferentes kilmetros: 32121Km 1 4 5 6 26Dado que todos viajan en coche, y sabiendo que quieres minimizar el coste en gasolina, en qu lugar pondras la empresa para minimizar tal coste?Nm. Emp.

  • La modaSe define como Moda (Mo) aquel valor de la variable al que corresponde mayor frecuencia.

    En el conjunto de datos: 4,5,6,6,3,6,4,5 la Mo=6

    Propiedades:-No es necesariamente nica (puede haber varias modas)-Se puede calcular con datos en escala nominal-En su clculo no intervienen todos los elementos

  • Cul elegir?ModaMedianaMedia

  • Estadsticos resistentes: Son aquellos que no se ven influidos (o solo ligeramente) por pequeos cambios en los datos.

    Evidentemente, la media es un estadstico muy poco resistente a cambios en los datos, dado que se ve influida por todos y cada uno de ellos.La mediana, en cambio, es un estadstico altamente resistente.Resistencia y robustez

  • Estadsticos (Estimadores) robustos (ESTADSTICA INFERENCIAL): Son aquellos estadsticos (estimadores) que funcionan bien para varios tipos distintos de distribuciones tericas, aunque pueden no ser el mejor estimador para ningn tipo concreto de distribucin. Es decir, son el mejor compromiso.La media no es un estimador robusto.La mediana es un estimador ms robusto que la media, si bien hay otros estimadores ms robustos que veremos en el punto siguiente del temario.

  • Medidas robustas de tendencia central1. Medias RecortadasConsiste en calcular la media aritmtica sobre un subconjunto central del conjunto de datos, no considerndose una determinada proporcin p por cada extremo. (p se expresa normalmente como porcentaje).

    Por ejemplo, una media recortada al 40% en una secuencia de 10 datos implica no tener en cuenta ni los 4 valores menores ni los 4 valores mayores.

    Observar que la media recortada al 0% es la media aritmtica.

    A la media recortada al 25% se la denomina centrimedia.

  • Medidas robustas de tendencia central1. Medias Recortadas (cont)Calcula la media recortada al 5% de los siguientes datos:3, 4, 4, 5, 5, 6, 7, 8, 9, 11

    El valor debe ser 6.11

    Calcula la media recortada al 10% de los datos anteriores (da 6)

    Calcula la centrimedia (da 5.8)

  • Medidas robustas de tendencia central2. Media WinsorizadaEs anlogo a las medias recortadas excepto en que las puntuaciones eliminadas, ya no lo son sino que se sustituyen por los valores menor y mayor que quedan para el cmputo de la media winsorizada.As, en la media recortada a nivel 2 implicara eliminar las dos puntuaciones mayores y las 2 menores:3, 4, 4, 5, 5, 6, 7, 8, 9, 11Y quedan los datos: 4, 5, 5, 6, 7, 8 y se calcula la media de los mismos

    En la media winsorizada, los datos 3 y 4 (los dos menores) y el 9 y 11 (los dos mayores) se sustituyen por 4 y 8 respectivamente. Es decir,4, 4, 4, 5, 5, 6, 7, 8, 8, 8 y se calcula la media de los mismos, que ser la media winsorizada a nivel 2 (debe de dar 5.9)

  • Medidas robustas de tendencia centralEn muchas ocasiones lo que se hace es emplear un valor mnimo y uno mximo ms all del cual se eliminan los datos que sobrepasen tales valores.

    Por ejemplo, en experimentos de tiempo de reaccin para discriminar palabras/pseudopalabras se pueden eliminar datos menores de 200 ms y mayores de 1500 ms. (Menos de 200 ms es demasiado rpido; ms de 1500 ms es demasiado lento.)

    De esta manera, si todos los datos estn en el rango 200-1500 ms no se elimina ningn dato3. Otros tipos de media en la que se recortan datos

  • Medidas robustas de tendencia central4. TrimediaEs un ndice de tendencia central que consiste en calcular una media aritmtica ponderada de tres medidas, la Mediana (con peso doble) y el primer y tercer cuartil.

    Pensemos que en un conjunto de datos, el primer cuartil es 51, la mediana es 55 y el tercer cuartil es 63. La trimedia es:

  • Medidas robustas de tendencia central5. Otras medidas robustas

    El estimador-M de Huber, el estimador biponderado de Tukey, el estimador M-redescendente de Hampel y el estimador en onda de Andrew. Estos estimadores se diferencian entre s por el tipo de ponderacin aplicada sobre los datos.

    Por ejemplo, en el Estimador-M de Huber (Estimador M de posicin): Las puntuaciones tpicas que sean menores que una constante, reciben un peso de 1. Los casos que tienen los mayores valores absolutos tienen pesos tanto ms pequeos cuanto mayor es su distancia respecto a cero. La constante es 1.339.

    Clculo: lo da el SPSS.

  • 3. Variabilidad

    En el punto anterior vimos las medidas de tendencia central (media, mediana, etc). Claramente, para saber cun representativo es el valor de tal medida de tendencia central es necesario tener una medida de variabilidad.

    Por ejemplo, alguien puede tener una media de 5 con los siguientes datos (5, 4, 6, 5, 5) y otro tener una media de 5 con los datos (10, 0, 5, 9, 1). Evidentemente el primer sujeto es mucho ms consistente, muestra menos variabilidad.

  • Cmo podemos medir la variabilidad?Una primera estrategia sera emplear la frmulaEl problema es que siempre vale cero....

    Una segunda estrategia es emplear valores absolutos

    Esta es la llamada Desviacin Media, cuyo problema es que lo problemtico del uso de valores absolutos.qu nos queda, pues? Emplear la suma de diferencias al cuadrado....Es el primer paso para la varianza

  • VarianzaFrmulaComo veremos en el segundo semestre (Estadstica inferencial), la varianza es un estimador sesgado de la varianza poblacional; por ello se prefiere el uso de la cuasivarianza que es igual que la varianza excepto en que se divide por n-1; la cuasivarianza es un estimador insesgado de la varianza poblacional:

  • Desviacin tpica y cuasidesviacin tpicaFrmulasUna ventaja obvia de la desviacin tpica sobre la varianza es que la desviacin tpica viene dada en las mismas unidades de medida que los datos originales (en la varianza las unidades estn al cuadrado).

    Por eso, en estadstica descriptiva se suele dar la media acompaada de la (cuasi)desv.tpica, ms que con la (cuasi)varianza.

    NOTA: El SPSS cuando indica varianzas o desviaciones tpicas, en realidad calcula cuasivarianzas y cuasidesviaciones tpicas

  • Algunas propiedades de la varianza y desviacin tpica

    La varianza y la desv. Tpica son valores esencialmente positivos.(Observad que las diferencias sobre la media estn al cuadrado)2. Ni la varianza ni la desv.tpica se alteran cuando a los datos se les aade una constante a.Entonces, sabemos que

  • Entonces, sabemos que Claro est que lo mismo se aplica a la desv.tpica (y a la cuasivarianza y la cuasidesv.tpica

  • 3. Si los datos se multiplican por una constante a cualquiera, la desv.tpica queda multiplicada por el valor absoluto de dicha constante, y la varianza por el cuadrado de dicha constante

  • Otras medidas de variabilidad

    2. Desviacin media (DM)El problema del empleo de la DM es la dificultad que tiene trabajar con valores absolutos. La DM es poco frecuente encontrarla en la prctica.1. Amplitud total (AT)Es la diferencia entre los valores extremosSu ventaja es la sencillez de clculo; el problema es que es nicamente sensible a los valores extremos (e insensible a los intermedios).

  • Otras medidas de variabilidad

    3. Amplitud semi-intercuartil (Q)Est basada en el primer y tercer cuartil, lo que la hace un estadstico resistenteSe emplea relativamente en alguna reas de la psicologa; se suele emplear cuando la mediana sea el ndice de tendencia central.4. Coeficiente de variacin (CV)Observa: Escala de raznIndica el nmero de veces que la desviacin ontiene a la media: cuanto mayor es el CV CV mayor es la variabilidad y menor la representatividad de la media. tpica cAl no tener unidades permite la comparacin entre variables diferentes.

  • Medidas robustas de variabilidad

    1. La MEDA (Mediana de las diferencias absolutas frente a la mediana)Ejemplo de clculo: 3,4,4,5,5,6,7,8,9,11 (Md=5.5)

    MEDA=1.5

    Es la Mediana de 05, 05, 05, 15, 15, 15, 25, 25, 35, 55

  • Medidas robustas de variabilidad

    2. La desviacin pseudotpicaEs un ndice de variabilidad que permite estimar la desviacin tpica (que como sabemos es muy susceptible a la influencia de puntuaciones atpicas, como tambin ocurre con la media aritmtica) que cabra esperar de la muestra si sta perteneciera a una poblacin en el que la distribucin subyacente sea la normal.

  • 4. AsimetraEn los dos puntos anteriores hemos visto las medidas de tendencia central y las medidas de variabilidad.Si bien la obtencin de tales medidas es clave para describir una muestra y efectuar inferencias sobre la poblacin de origen, es tambin fundamental saber la forma de una distribucin para obtener una caracterizacin adecuada de los datos.

  • AsimetraSi bien es fcil tener una idea de si la distribucin es simtrica o no tras ver la representacin grfica (p.e., un histograma o un diagrama de caja y bigotes), es importante cuantificar la posible asimetra de una distribucin.

    Recordemos que cuando la distribucin de los datos es simtrica, la media, la mediana y la moda coinciden. (Y la distribucin tiene la misma forma a la izquierda y la derecha del centro)

    Si bien muchas distribuciones psicolgicas se asume que tienden a ser simtricas y unimodales, en muchos casos la distribucin que encontramos es asimtrica (v.g., las distribuciones de los Tiempos de Reaccin en casi cualquier tarea es asimtrica positivo).

  • Asimetra positivaModaMedianaMediaAsimetra negativaMediaMedianaModaExamen difcilSalariosTiempos de ReaccinExamen fcil

  • ndices de asimetra1. ndice de asimetra de PearsonMuy sencillo de calcular. Est basado en la relacin entre la media y la moda en distribuciones simtricas y asimtricas (ver transparencia anterior):Si la distribucin es simtrica As ser 0Si la distribucin es asimtrica positiva, As ser mayor que 0Si la distribucin es asimtrica negativa, As ser menor que 0

  • ndices de asimetra2. ndice de asimetra de FisherEst basado en la diferencia de los datos sobre la media, como la varianza, si bien esta vez se elevan los coeficientes al cuboSi la distribucin es simtrica As ser 0Si la distribucin es asimtrica positiva, As ser mayor que 0Si la distribucin es asimtrica negativa, As ser menor que 0

    Desventaja: Muy influida por puntuaciones atpicas-

  • 5. Curtosis o apuntamientoHace referencia al apuntamiento de la distribucin en relacin a un estndar, que es la distribucin normal.

    Este estndar es la distribucin normal: distribucin mesocrtica.Si la distribucin es ms apuntada que la distribucin normal tenemos una distribucin leptocrtica.Si la distribucin es ms achatada que la distribucin normal tenemos una distribucin platicrtica.

  • Curtosis o apuntamientoIMPORTANTE: Curtosis es independiente de la variabilidad (en el sentido de varianza).

    Es decir, no es que una distribucin leptocrtica tenga menos varianza y por eso es ms apuntada.

    Una distribucin leptocrtica es muy apuntada en el centro (ms que la normal), decae muy rpidamente en un primer momento, pero en los extremos es algo ms alta que la distribucin normal.

    Eso quiere decir que una distribucin leptocrtica es ms probable que ofrezca ms valores extremos que la distribucin normal.

  • Ejemplo de curtosis (dist. Mesocrtica)

  • ndice de curtosis (veremos un solo ndice)Para una distribucin normal (mesocrtica) sabemos que

    Y esta va a ser la referencia para el ndice de curtosis que vamos a emplearSi la distribucin es normal (mesocrtica), el ndice vale 0Si la distribucin es leptocrtica, el ndice es superior a 0Si la distribucin es platicrtica, el ndice es inferior a 0

  • Ms ejemplos de curtosis

  • 6. Cmo ver la tendencia, variabilidad y asimetra en un grfico

    Si bien es posible emplear diferentes grficos para evaluar la variabilidad (y tendencia central, asimetra, etc), es interesante el uso de los diagramas de caja y bigotes.La caja viene definida por el primer cuartil y el tercer cuartil, con la mediana tambin indicada. Esto lo veremos en detalle en las prcticas.

    Pero mejor veamos un ejemplo (Ratcliff, Perea, Colangelo y Buchanan, 2004, Brain & Cognition), en el que se examinan ciertas caractersticas en una tarea de decisin lxica (decidir si un estmulo era palabra o no; se mide el Tiempo de Reaccin) con un grupo de controles y un grupo de personas con dao cerebral (afsicos).Lo que se meda eraun ndice de cun conservador eran las personas en la tarea (boundary separation)un ndice correspondiente a procesos no-decisionales (non-decision component).un ndice correspondiente a la calidad de informacin (drift rate)

  • Cmo ver la variabilidad en un grfico

    La Mediana es el trazo grueso dentro de las cajas (entre los cuartiles primero y tercero).Las puntuaciones atpicas estn presentadas individualmente (ver que hay dos tipos de datos atpicos).

    Observad que los controles son claramente diferentes a los pacientes en boundary separation y en el non-decision component, mientras que hay bastante ms solapamiento en la calidad de informacin.

  • Cmo ver la asimetra en un grfico

    En el caso del non-decision component (pacientes), la distancia entre el P75 y P50 es mucho menor que ente el P50 y el P25, lo que sugiere que hay asimetra negativa.P25 P50 P75En el caso del drift rate (pacientes), la distancia entre el P75 y P50 es mucho menor que ente el P50 y el P25, lo que sugiere que hay asimetra positiva.