medidas de dispersión

Post on 27-Jun-2015

230 Views

Category:

Documents

4 Downloads

Preview:

Click to see full reader

TRANSCRIPT

1. VARIANZA Esta medida nos permite identificar la diferencia promedio que hay entre cada uno de los valores respecto a su punto central (Media ). Este promedio es calculado, elevando cada una de las diferencias al cuadrado (Con el fin de eliminar los signos negativos), y calculando su promedio o media; es decir, sumado todos los cuadrados de las diferencias de cada valor respecto a la media y dividiendo este resultado por el número de observaciones que se tengan. Si la varianza es calculada a una población (Total de componentes de un conjunto), la ecuación sería: 

 

Donde ( ) representa la varianza, (Xi) representa cada uno de los valores, ( ) representa la media poblacional y (N) es el número de observaciones ó tamaño de la población. En el caso que estemos trabajando con una muestra la ecuación que se debe emplear es: 

 Donde (S2) representa la varianza, (Xi) representa cada uno de los valores, ( ) representa la media de la muestra y (n) es el número de observaciones ó tamaño de la muestra. Si nos fijamos en la ecuación, notaremos que se le resta uno al tamaño de la muestra; esto se hace con el objetivo de aplicar una pequeña medida de corrección a la varianza, intentando hacerla más representativa para la población. Es necesario resaltar que la varianza nos da como resultado el promedio de la desviación, pero este valor se encuentra elevado al cuadrado. 2. Desviación estándar o Típica Esta medida nos permite determinar el promedio aritmético de fluctuación de los datos respecto a su punto central o media. La desviación estándar nos da como resultado un valor numérico que representa el promedio de diferencia que hay entre los datos y la media. Para calcular la desviación estándar basta con hallar la raíz cuadrada de la varianza, por lo tanto su ecuación sería: 

Ecuación 5-8  Para comprender el concepto de las medidas de distribución vamos a suponer que el gerente de una empresa de alimentos desea saber que tanto varían los pesos de los empaques (en gramos), de uno de sus productos; por lo que opta por seleccionar al azar cinco unidades de ellos para pesarlos. Los productos tienen los siguientes pesos (490, 500, 510, 515 y 520) gramos respectivamente.  Por lo que su media es: 

 La varianza sería: 

 Por lo tanto la desviación estándar sería: 

 Con lo que concluiríamos que el peso promedio de los empaques es de 507 gramos, con una tendencia a variar por debajo o por encima de dicho peso en 12 gramos. Esta información le permite al gerente determinar cuanto es el promedio de perdidas causado por el exceso de peso en los empaques y le da las bases para tomar los correctivos necesarios en el proceso de empacado.

1. MEDIA

Es la medida de posición central más utilizada, la más conocida y la más sencilla de calcular, debido principalmente a que sus ecuaciones se prestan para el manejo algebraico, lo cual la hace de gran utilidad. Su principal desventaja radica en su sensibilidad al cambio de uno de sus valores o a los valores extremos demasiado grandes o pequeños. La media se define como la suma de todos los valores observados, dividido por el número total de observaciones.

 

Ecuación 5-1

 Cuando los valores representan una población la ecuación se define como:

Ecuación 5- 2

  Donde (m) representa la media, (N) representa el tamaño de la población y (Xi) representa cada uno de los valores de la población. Ya que en la mayoría de los casos se trabajan con muestras de la población todas las ecuaciones que se presenten a continuación serán representativas para las muestras. La media aritmética para una muestra esta determinada como

 

 Donde (X) representa la Media para la muestra, (n) el tamaño de la muestra y (Xi) representa cada uno de los valores observados. Esta fórmula únicamente es aplicable si los datos se encuentran desagrupados; en caso contrario debemos calcular la media mediante la multiplicación de los diferentes valores por la frecuencia con que se encuentren dentro de la información; es decir,

 

 Donde (Yi) representa el punto medio de cada observación, (ni) es la frecuencia o número de observaciones en cada clase y (n) es el tamaño de la muestra siendo igual a la suma de las frecuencias de cada clase.

Para entender mejor este concepto vamos a suponer que hemos tomado la edad de 5 personas al azar cuyos resultados fueron (22, 33, 35, 38 y 41). Para facilitar su interpretación se han generado tres rangos de edad los cuales se han establecido de 21 a 30 años, de 31 a 40 años y de 41 a 50 años. Si nos fijamos en estos rangos notaremos que los puntos medios son 25, 35 y 45 respectivamente. Los resultados de la organización de estos datos se representan en la tabla [5-1].

 

 Si aplicamos la fórmula para valores agrupados obtendríamos que la media es igual a

 Lo que nos indicaría que el promedio de edad de los encuestados es de 35 años. Si ha estos mismos resultados le aplicamos la ecuación para datos desagrupados (Ecuación 5-3), tomando como referencia cada uno de los valores individuales, obtendríamos que la media es igual a

 Lo que nos indicaría que el promedio de edad para los datos desagrupados es de 34 años aproximadamente. Esta diferencia se debe a que al agrupar los datos se pierde parcialmente la exactitud de los cálculos, principalmente al aumentar el número de datos. Para evitar estos inconvenientes, SPSS nos permite calcular las Medias, como si se trataran de valores desagrupados, aunque tiene algunos procedimientos para valores agrupados.

 Es importante resaltar que existe una gran variedad de medias como la Media geométrica, la Media ponderada, la Media cuadrática, etc. Por el momento sólo hacemos énfasis en la media aritmética ya que es la más utilizada, aunque se recomienda a los lectores profundizar en estos temas.

 2. MEDIANA

Con esta medida podemos identificar el valor que se encuentra en el centro de los datos, es decir, nos permite conocer el valor que se encuentra exactamente en la mitad del conjunto de datos después que las observaciones se han ubicado en serie ordenada. Esta medida nos indica que la mitad de los datos se encuentran por debajo de este valor y la otra mitad por encima del mismo. Para determinar la posición de la mediana se utiliza la fórmula

 

 Para comprender este concepto vamos a suponer que tenemos la serie ordenada de valores (2, 5, 8, 10 y 13), la posición de la mediana sería:

 

 Lo que nos indica que el valor de la mediana corresponde a la tercera posición de la serie, que equivale al número (8). Si por el contrario contamos con un conjunto de datos que contiene un número par de observaciones, es necesario promediar los dos valores medios de la serie. Si en el ejemplo anterior le anexamos el valor 15, tendríamos la serie ordenada (2, 5, 8, 10, 13 y 15) y la posición de la mediana sería,

 

 Es decir, la posición tres y medio. Dado que es imposible destacar la posición tres y medio, es necesario promediar los dos valores de la posiciones tercera y cuarta para producir una mediana equivalente, que para el caso corresponden a   (8 + 10)/2 =9. Lo que nos indicaría que la mitad de los valores se encuentra por debajo del valor 9 y la otra mitad se encuentra por encima de este valor. En conclusión la mediana nos indica el valor que separa los datos en dos fracciones iguales con el cincuenta porciento de los datos cada una. Para las muestras que cuentan con un número impar de observaciones o datos, la mediana dará como resultado una de las posiciones de la serie ordenada; mientras que para las muestras con un número par de observaciones se debe promediar los valores de las dos posiciones centrales.

 3. MODA

La medida modal nos indica el valor que más veces se repite dentro de los datos; es decir, si tenemos la serie ordenada (2, 2, 5 y 7), el valor que más veces se repite es el número 2 quien seria la moda de los datos. Es posible que en algunas ocasiones se presente dos valores con la mayor frecuencia, lo cual se denomina Bimodal o en otros casos más de dos

valores, lo que se conoce como multimodal. En conclusión las Medidas de tendencia central, nos permiten identificar los valores más representativos de los datos, de acuerdo a la manera como se tienden a concentrar. La Media nos indica el promedio de los datos; es decir, nos informa el valor que obtendría cada uno de los individuos si se distribuyeran los valores en partes iguales. La Mediana por el contrario nos informa el valor que separa los datos en dos partes iguales, cada una de las cuales cuenta con el cincuenta porciento de los datos. Por último la Moda nos indica el valor que más se repite dentro de los datos.

1. ASIMETRÍA

Esta medida nos permite identificar si los datos se distribuyen de forma uniforme alrededor del punto central (Media aritmética). La asimetría presenta tres estados diferentes [Fig.5-1], cada uno de los cuales define de forma concisa como están distribuidos los datos respecto al eje de asimetría. Se dice que la asimetría es positiva cuando la mayoría de los datos se encuentran por encima del valor de la media aritmética, la curva es Simétrica cuando se distribuyen aproximadamente la misma cantidad de valores en ambos lados de la media y se conoce como asimetría negativa cuando la mayor cantidad de datos se aglomeran en los valores menores que la media.

 

Figura 5-1

El Coeficiente de asimetría, se representa mediante la ecuación matemática,

 

Donde (g1) representa el coeficiente de asimetría de Fisher, (Xi) cada uno de los valores, ( ) la media de la muestra y (ni) la frecuencia de cada valor. Los resultados de esta ecuación se interpretan:

(g1 = 0): Se acepta que la distribución es Simétrica, es decir, existe aproximadamente la misma cantidad de valores a los dos lados de la media. Este valor es difícil de conseguir por lo que se tiende a tomar los valores que son cercanos ya sean positivos o negativos (± 0.5).

(g1 > 0): La curva es asimétricamente positiva por lo que los valores se tienden a reunir más en la parte izquierda que en la derecha de la media.

(g1 < 0): La curva es asimétricamente negativa por lo que los valores se tienden a reunir más en la parte derecha de la media. 

Desde luego entre mayor sea el número (Positivo o Negativo), mayor será la distancia que separa la aglomeración de los valores con respecto a la media.

 2. CURTOSIS Esta medida determina el grado de concentración que presentan los valores en la región central de la distribución. Por medio del Coeficiente de Curtosis, podemos identificar si existe una gran concentración de valores (Leptocúrtica), una concentración normal (Mesocúrtica) ó una baja concentración (Platicúrtica).

 

Figura 5-2

  Para calcular el coeficiente de Curtosis se utiliza la ecuación:

 

  Donde (g2) representa el coeficiente de Curtosis, (Xi) cada uno de los valores, ( ) la media de la muestra y (ni) la frecuencia de cada valor. Los resultados de esta fórmula se interpretan:

 (g2 = 0) la distribución es Mesocúrtica: Al igual que en la asimetría es bastante difícil  encontrar un coeficiente de Curtosis de cero (0), por lo que se suelen aceptar los valores cercanos (± 0.5 aprox.).

(g2 > 0) la distribución es Leptocúrtica (g2 < 0) la distribución es Platicúrtica

 Cuando la distribución de los datos cuenta con un coeficiente de asimetría (g1 = ±0.5) y un coeficiente de Curtosis de (g2 = ±0.5), se le denomina Curva Normal. Este criterio es de suma importancia ya que para la mayoría de los procedimientos de la estadística de inferencia se requiere que los datos se distribuyan normalmente. La principal ventaja de la distribución normal radica en el supuesto que el 95% de los valores se encuentra dentro de una distancia de dos desviaciones estándar de la media aritmética (Fig.5-3); es decir, si tomamos la media y le sumamos dos veces la desviación y después le restamos a la media dos desviaciones, el 95% de los casos se encontraría dentro del rango que compongan estos valores.

 

Figura 5-3

 Desde luego, los conceptos vistos hasta aquí, son sólo una pequeña introducción a las principales medidas de Estadística Descriptiva; es de gran importancia que los lectores profundicen en estos temas ya que la principal dificultad del paquete SPSS radica en el desconocimiento de los conceptos estadísticos.  Las definiciones plasmadas en este capítulo han sido extraídas de los libros Estadística para administradores escrito por Alan Wester de la editorial McGraw-Hill y el libro Estadística y Muestreo escrito por Ciro Martínez editorial Ecoe editores (Octava edición). No necesariamente tienes que guiarte por estos libros ya que en las librerías encontraras una gran variedad de textos que pueden ser de bastante utilidad en la introducción a esta ciencia.

A.1. Estimar una proporción:

Si deseamos estimar una proporción, debemos saber:

a. El nivel de confianza o seguridad (1-a ). El nivel de confianza prefijado da lugar a un coeficiente (Za ). Para una seguridad del 95% = 1.96, para una seguridad del 99% = 2.58.

b. La precisión que deseamos para nuestro estudio. c. Una idea del valor aproximado del parámetro que queremos medir (en este caso una proporción). Esta idea se

puede obtener revisando la literatura, por estudio pilotos previos. En caso de no tener dicha información utilizaremos el valor p = 0.5 (50%).

Ejemplo: ¿A cuantas personas tendríamos que estudiar para conocer la prevalencia de diabetes?

Seguridad = 95%; Precisión = 3%: Proporción esperada = asumamos que puede ser próxima al 5%; si no tuviésemos ninguna idea de dicha proporción utilizaríamos el valor p = 0,5 (50%) que maximiza el tamaño muestral:

donde:

Za 2 = 1.962 (ya que la seguridad es del 95%)

p = proporción esperada (en este caso 5% = 0.05) q = 1 – p (en este caso 1 – 0.05 = 0.95) d = precisión (en este caso deseamos un 3%)

Si la población es finita, es decir conocemos el total de la población y deseásemos saber cuántos del total tendremos que estudiar la respuesta seria:

donde:

N = Total de la población Za

2 = 1.962 (si la seguridad es del 95%) p = proporción esperada (en este caso 5% = 0.05) q = 1 – p (en este caso 1-0.05 = 0.95) d = precisión (en este caso deseamos un 3%).

¿A cuántas personas tendría que estudiar de una población de 15.000 habitantes para conocer la prevalencia de diabetes?

Seguridad = 95%; Precisión = 3%; proporción esperada = asumamos que puede ser próxima al 5% ; si no tuviese ninguna idea de dicha proporción utilizaríamos el valor p = 0.5 (50%) que maximiza el tamaño muestral.

Según diferentes seguridades el coeficiente de Za varía, así:

Si la seguridad Za fuese del 90% el coeficiente sería 1.645 Si la seguridad Za fuese del 95% el coeficiente sería 1.96 Si la seguridad Za fuese del 97.5% el coeficiente sería 2.24 Si la seguridad Za fuese del 99% el coeficiente sería 2.576

A.2. Estimar una media:

Si deseamos estimar una media: debemos saber:

El nivel de confianza o seguridad (1-a ). El nivel de confianza prefijado da lugar a un coeficiente (Za ). Para una seguridad del 95% = 1.96; para una seguridad del 99% = 2.58.

La precisión con que se desea estimar el parámetro (2 * d es la amplitud del intervalo de confianza). Una idea de la varianza S2 de la distribución de la variable cuantitativa que se supone existe en la población.

Ejemplo: Si deseamos conocer la media de la glucemia basal de una población, con una seguridad del 95 % y una precisión de ± 3 mg/dl y tenemos información por un estudio piloto o revisión bibliográfica que la varianza es de 250 mg/dl

Si la población es finita, como previamente se señaló, es decir conocemos el total de la población y desearíamos saber cuantos del total tendríamos que estudiar, la respuesta sería:

 B. Estudios para contraste de hipótesis:

Estos estudios pretenden comparar si las medias o las proporciones de las muestras son diferentes.  Habitualmente el investigador pretende comparar dos tratamientos.  Para el cálculo del tamaño muestral se precisa conocer:

a. Magnitud de la diferencia a detectar que tenga interés clínicamente relevante. Se pueden comparar dos proporciones o dos medias.

b. Tener una idea aproximada de los parámetros de la variable que se estudia (bibliografía, estudios previos). c. Seguridad del estudio (riesgo de cometer un error a) d. Poder estadístico (1 - b) (riesgo de cometer un error b) e. Definir si la hipótesis va a ser unilateral o bilateral.

o Bilateral: Cualquiera de los dos parámetros a comparar (medias o proporciones) puede ser mayor o menor que el otro. No se establece dirección.

o Unilateral: Cuando se considera que uno de los parámetros debe ser mayor que el otro, indicando por tanto una dirección de las diferencias.

La hipótesis bilateral es una hipótesis más conservadora y disminuye el riesgo de cometer un error de tipo I (rechazar la H0 cuando en realidad es verdadera).

B1. Comparación de dos proporciones:

Donde:

n = sujetos necesarios en cada una de las muestras Za = Valor Z correspondiente al riesgo deseado Zb = Valor Z correspondiente al riesgo deseado p1 = Valor de la proporción en el grupo de referencia, placebo, control o tratamiento habitual. p2 = Valor de la proporción en el grupo del nuevo tratamiento, intervención o técnica. p = Media de las dos proporciones p1 y p2 

Los valores Za según la seguridad y Zb según el poder se indican en la Tabla 2 (8).

B2. Comparación de dos medias:

Donde:

n = sujetos necesarios en cada una de las muestras Za = Valor Z correspondiente al riesgo deseado Zb = Valor Z correspondiente al riesgo deseado S2 = Varianza de la variable cuantitativa que tiene el grupo control o de referencia. d = Valor mínimo de la diferencia que se desea detectar (datos cuantitativos)

Los valores Za según la seguridad y Zb según el poder se indican en la Tabla 2 (8).

Tabla 2.  Valores de Za y Zb más frecuentemente utilizados

Za

a Test unilateral Test bilateral

0.2000.1500.1000.0500.0250.010

0.8421.0361.2821.6451.9602.326

1.2821.4401.6451.9602.2402.576

Potencia

b (1-b) Zb

0.010.050.100.150.200.250.300.350.400.450.50

0.990.950.900.850.800.750.700.650.600.550.50

2.3261.6451.2821.0360.8420.6740.5240.3850.2530.1260.000

Ejemplo de comparación de dos medias:

Deseamos utilizar un nuevo fármaco antidiabético y consideramos que seria clínicamente eficaz si lograse un descenso de 15 mg/dl respecto al tto. Habitual con el antidiabético estándar. Por estudios previos sabemos que la desviación típica de la glucemia en pacientes que reciben el tratamiento habitual es de 16 mg/dl. Aceptamos un riesgo de 0.05 y deseamos un poder estadístico de 90% para detectar diferencias si es que existen.

                       

precisamos 20 pacientes en cada grupo.

Ejemplo de comparación de dos proporciones:

Deseamos evaluar si el Tratamiento T2 es mejor que el tratamiento T1 para el alivio del dolor para lo que diseñamos un ensayo clínico. Sabemos por datos previos que la eficacia del fármaco habitual está alrededor del 70% y consideramos clínicamente relevante si el nuevo fármaco alivia el dolor en un 90%. Nuestro nivel de riesgo lo fijamos en 0.05 y deseamos un poder estadístico de un 80%.

n = 48 pacientes. En cada grupo precisamos 48 pacientes.

 El tamaño muestral ajustado a las pérdidas:

En todos los estudios es preciso estimar las posibles perdidas de pacientes por razones diversas (pérdida de información, abandono, no respuesta….) por lo que se debe incrementar el tamaño muestral respecto a dichas pérdidas.

El tamaño muestral ajustado a las pérdidas se puede calcular:

Muestra ajustada a las pérdidas = n (1 / 1–R)

n = número de sujetos sin pérdidas R = proporción esperada de pérdidas

Así por ejemplo si en el estudio anterior esperamos tener un 15% de pérdidas el tamaño muestral necesario seria:  48 (1 / 1-0.15) = 56 pacientes en cada grupo.

 Bibliografía

top related