u3. descripción de datos cuantitativos: ¿cuánto vale x?...modo de ejemplo, los datos de esperanza...

31
DISEÑO y ANÁLISIS de INVESTIGACIONES CLÍNICAS : MÓDULO I U3 – Descripción de datos cuantitativos: ¿Cuánto vale X? © Centro de Estudios Colegiales – Colegio Oficial de Médicos de Barcelona 1 U3. Descripción de datos cuantitativos: ¿Cuánto vale X? Albert Cobos: Doctor en Medicina. MSc Estadística Aplicada. Profesor de Bioestadística. Departamento de Salud Pública. Facultad de Medicina. Universidad de Barcelona. 1. INTRODUCCIÓN Un problema de investigación tan básico como frecuente es conseguir información acerca de los valores que adopta cierta variable cuantitativa (llamémosla X) en una serie de individuos, esto es, responder a la pregunta ¿Cuánto vale X? En la unidad didáctica 1 vimos cómo las simples operaciones de ordenar los datos y de construir una tabla de frecuencias, ya permiten extraer cierta información. En esta unidad didáctica se presentan algunas técnicas para describir distribuciones empíricas de variables cuantitativas o, si se quiere, para obtener información sobre ciertos aspectos relevantes de un conjunto de datos numéricos. Estas técnicas son de dos tipos: la elaboración de representaciones gráficas y el cálculo de ciertos índices numéricos o estadísticos. Las representaciones gráficas son herramientas muy útiles para la descripción de datos, especialmente las propuestas por John Tukey en su libro ‘Exploratory Data Analysis (EDA)’. Los estadísticos, permiten condensar más aún la información contenida en los datos y presentarla de forma más compacta.

Upload: others

Post on 05-Oct-2020

3 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: U3. Descripción de datos cuantitativos: ¿Cuánto vale X?...modo de ejemplo, los datos de esperanza de vida que se muestran en la figura 3.2. Veamos ahora cómo podemos representar

DISEÑO y ANÁLISIS de INVESTIGACIONES CLÍNICAS : MÓDULO I

U3 – Descripción de datos cuantitativos: ¿Cuánto vale X?

© Centro de Estudios Colegiales – Colegio Oficial de Médicos de Barcelona 1

U3. Descripción de datos cuantitativos: ¿Cuánto vale X?

Albert Cobos: Doctor en Medicina. MSc Estadística Aplicada. Profesor de Bioestadística. Departamento de Salud Pública. Facultad de Medicina. Universidad de Barcelona.

1. INTRODUCCIÓN

Un problema de investigación tan básico como frecuente es conseguir información acerca de los valores que adopta cierta variable cuantitativa (llamémosla X) en una serie de individuos, esto es, responder a la pregunta ¿Cuánto vale X?

En la unidad didáctica 1 vimos cómo las simples operaciones de ordenar los datos y de construir una tabla de frecuencias, ya permiten extraer cierta información. En esta unidad didáctica se presentan algunas técnicas para describir distribuciones empíricas de variables cuantitativas o, si se quiere, para obtener información sobre ciertos aspectos relevantes de un conjunto de datos numéricos.

Estas técnicas son de dos tipos: la elaboración de representaciones gráficas y el cálculo de ciertos índices numéricos o estadísticos. Las representaciones gráficas son herramientas muy útiles para la descripción de datos, especialmente las propuestas por John Tukey en su libro ‘Exploratory Data Analysis (EDA)’. Los estadísticos, permiten condensar más aún la información contenida en los datos y presentarla de forma más compacta.

Page 2: U3. Descripción de datos cuantitativos: ¿Cuánto vale X?...modo de ejemplo, los datos de esperanza de vida que se muestran en la figura 3.2. Veamos ahora cómo podemos representar

DISEÑO y ANÁLISIS de INVESTIGACIONES CLÍNICAS : MÓDULO I

U3 – Descripción de datos cuantitativos: ¿Cuánto vale X?

© Centro de Estudios Colegiales – Colegio Oficial de Médicos de Barcelona 2

2. ANTES DE EMPEZAR

Antes de comenzar las tareas de descripción de un conjunto de datos numéricos conviene conocer ciertos aspectos de los mismos y quizás tomar algunas decisiones que simplifiquen la tarea.

La fuente de los datos

Entre los aspectos que hay que conocer, destaca la fuente de los datos (lo que aclarará el ámbito de los mismos) y el mecanismo que los ha producido. Por ejemplo, puede tratarse de datos de una encuesta realizada en todo el territorio nacional, o bien de datos registrados en un servicio de un hospital determinado. Puede tratarse de una muestra seleccionada al azar o de una muestra de conveniencia.

Ciertos casos pueden haberse excluido a propósito del análisis y, en tal caso, será necesario tener presente estas exclusiones para interpretar correctamente la información. También es relevante conocer el número de casos en que no se ha podido registrar el dato de interés y, a ser posible, las causas.

Por último, habrá que conocer el procedimiento de medida o de observación que se ha utilizado para generar el dato (por ejemplo, el procedimiento utilizado para tomar la presión arterial, o el enunciado concreto de la pregunta de un cuestionario).

Precisión de los datos

En muchas ocasiones se dispone de datos evaluados con una precisión mucho mayor de la necesaria. Mantener esta precisión al abordar la descripción puede ser contraproducente.

El redondeo o el truncado pueden favorecer mucho la lectura de los resultados y la identificación de los aspectos relevantes en los datos. La conveniencia de redondear (o de truncar) los datos dependerá del grado de precisión con que se hayan obtenido los datos así como de la variabilidad de los mismos.

Por ejemplo, si deseamos describir la distribución del peso corporal de sujetos adultos expresada en Kg y el peso se ha determinado con aproximación de 100 gramos, los decimales son absolutamente prescindibles porque el peso varía mucho entre distintos individuos. Si se trata de verificar una colección de valores de peso de un mismo individuo en distintas ocasiones, quizá convendrá mantener la precisión de las medidas originales, porque la variabilidad será mucho más pequeña que en el caso anterior.

Mucha gente es reacia al truncado por el sesgo que se introduce al decidir que 78.8 se convierta en 78, cuando el valor original es claramente más próximo a 79. Sin embargo, cuando la variabilidad de los datos es muy alta, esta aversión

Page 3: U3. Descripción de datos cuantitativos: ¿Cuánto vale X?...modo de ejemplo, los datos de esperanza de vida que se muestran en la figura 3.2. Veamos ahora cómo podemos representar

DISEÑO y ANÁLISIS de INVESTIGACIONES CLÍNICAS : MÓDULO I

U3 – Descripción de datos cuantitativos: ¿Cuánto vale X?

© Centro de Estudios Colegiales – Colegio Oficial de Médicos de Barcelona 3

refleja cierta paranoia por ser ‘exactos’ que resulta fuera de lugar porque la pérdida de exactitud no impide (¡más bien facilita!) la visualización del patrón general que siguen los datos. A modo de ilustración, compárense las dos tablas de la figura 3.1 ¿Cuál revela mejor lo que ocurre con el peso medio de los pacientes en cada tratamiento ?

Page 4: U3. Descripción de datos cuantitativos: ¿Cuánto vale X?...modo de ejemplo, los datos de esperanza de vida que se muestran en la figura 3.2. Veamos ahora cómo podemos representar

DISEÑO y ANÁLISIS de INVESTIGACIONES CLÍNICAS : MÓDULO I

U3 – Descripción de datos cuantitativos: ¿Cuánto vale X?

© Centro de Estudios Colegiales – Colegio Oficial de Médicos de Barcelona 4

3. REPRESENTACIONES GRÁFICAS

Las representaciones gráficas son instrumentos muy valiosos para revelar patrones contenidos en los datos. Existen innumerables tipos de representaciones gráficas. En esta unidad nos limitaremos a presentar algunas de las que han sido más utilizadas o que creemos más aconsejables para representar la distribución de una variable cuantitativa.

Para introducir los distintos tipos de representaciones gráficas utilizaremos, a modo de ejemplo, los datos de esperanza de vida que se muestran en la figura 3.2. Veamos ahora cómo podemos representar gráficamente esta distribución.

3.1. Histogramas y polígonos de frecuencias (Histograms)

La forma más clásica de representar gráficamente la distribución de una variable cuantitativa contínua es mediante un histograma. Hasta no hace mucho tiempo, el histograma ha sido el gráfico más comúnmente utilizado para representar la distribución de una variable continua.

La figura 3.3a muestra un histograma para los datos de esperanza de vida obtenido mediante la opción Graphics>Histogram de StatCrunch. En el eje horizontal se muestra una escala de valores de la variable que se representa (años), dividida en intervalos de amplitud arbitraria. Usualmente, estos intervalos se definen con idéntica amplitud (p.ej., 10 años), aunque esto no es imprescindible.

En el eje vertical, las cantidades representadas son proporcionales a la frecuencia de observaciones que caen dentro de cada intervalo. De hecho, se representa la proporción de observaciones que caen en cada intervalo dividida por la amplitud del mismo (a esto, los estadísticos lo denominan densidad de probabilidad), de manera que el área de una barra es igual a la proporción de observaciones halladas dentro del intervalo.

Si los intervalos se definen de modo que todos tengan igual amplitud, puede representarse la frecuencia absoluta o relativa (proporción) en el eje vertical sin que cambie el aspecto del histograma. En la figura 3.3b, se ha representado la frecuencia absoluta en el eje vertical.

El histograma tiene algunos inconvenientes. En primer lugar, se trata de una representación que esconde los valores que la generaron. Dicho de otro modo, no es posible reproducir los datos a partir de la visualización de un histograma. De hecho, ni siquiera permite saber cuantos casos se han utilizado para generarlo (a menos que se utilice la frecuencia absoluta en la escala vertical, como en la figura 3.3b). Tampoco facilita el recuento de casos con

Page 5: U3. Descripción de datos cuantitativos: ¿Cuánto vale X?...modo de ejemplo, los datos de esperanza de vida que se muestran en la figura 3.2. Veamos ahora cómo podemos representar

DISEÑO y ANÁLISIS de INVESTIGACIONES CLÍNICAS : MÓDULO I

U3 – Descripción de datos cuantitativos: ¿Cuánto vale X?

© Centro de Estudios Colegiales – Colegio Oficial de Médicos de Barcelona 5

determinados valores (¿cuántos paises tienen una esperanza de vida mayor de 75 años?).

El histograma solo permite evaluar fácilmente la forma de una distribución de valores. Desgraciadamente, tampoco es una herramienta óptima para este propósito, porque su forma no solo depende de los datos. También depende de cómo se haya construido el histograma.

En las figuras 3.3c y 3.3d se ha variado la amplitud de los intervalos de edad (12 y 5 años, respectivamente), y la apariencia de la distribución es distinta a la de la figura 3.3a en que dicha amplitud es de 10 años.

La apariencia también puede cambiar en función del valor inicial a partir del que se definen los intervalos, como ocurre en la figura 3.3e, en la que se han definido a partir de los 25 años.

Debido a estas limitaciones, particularmente importantes si el número de observaciones no es muy elevado, el histograma ha sido progresivamente desplazado por otras representaciones, como el stem-&-leaf plot, el box-plot o el dot-plot.

3.2. Stem-&-leaf plot (Diagrama de tallo y hojas)

Esta representación es muy interesante porque permite visualizar ciertas características de la distribución, con el importante valor añadido de que retiene los datos originales. En la figura 3.4 se muestra un stem-&-leaf de los datos de esperanza de vida obtenido mediante la opción Graphics>Stem and Leaf plot de StatCrunch.

El stem-&-leaf se compone de dos partes: los tallos (stem) y las hojas (leaves). Los tallos se sitúan a la izquierda de un carácter separador (el símbolo ‘:’) y las hojas a la derecha. Para reproducir los datos originales, nos basta concatenar cada tallo con cada una de sus hojas: 26, 29, 29, 30, 32, 33, 33, ...,73, 75.

Al explicitar los valores y hacerlo de una manera ordenada, hace obvias algunas características de la distribución que pueden ser importantes, como el valor mínimo y el máximo. También permite conocer el número de observaciones. Basta contar las hojas. Hecho esto, es fácil derivar otras características de la distribución como la mediana o los cuartiles (estadísticos que veremos más adelante en esta misma unidad didáctica).

Por añadidura, la particular disposición de los valores permite visualizar la forma de la distribución, al igual que en un histograma. Por ejemplo, en la figura 3.4 se aprecia dos picos de frecuencia: uno entre los 35 y los 40 años, y otro entre los 60 y los 65 años. Este fenómeno se conoce como bimodalidad

Page 6: U3. Descripción de datos cuantitativos: ¿Cuánto vale X?...modo de ejemplo, los datos de esperanza de vida que se muestran en la figura 3.2. Veamos ahora cómo podemos representar

DISEÑO y ANÁLISIS de INVESTIGACIONES CLÍNICAS : MÓDULO I

U3 – Descripción de datos cuantitativos: ¿Cuánto vale X?

© Centro de Estudios Colegiales – Colegio Oficial de Médicos de Barcelona 6

(o en general, multimodalidad). Nótese que la forma de la figura 3.4 es muy similar a la de la figura 3.3d tumbada.

3.3. Box-and-whiskers plot (Diagrama de caja y bigotes)

Esta representación es la que permite evaluar con mayor facilidad dos aspectos muy importantes de una distribución: su tendencia central y su dispersión. En la figura 3.5a se muestra el box-plot de los datos de esperanza de vida realizado mediante la opción Graphics>Boxplot de StatCrunch.

En un único eje se muestra una escala de medida de la variable que se representa (años). El box-plot consiste en una caja (box) en la que se marca una división interna (linea vertical), y unos bigotes (whiskers) que se extienden a ambos lados de la caja. En realidad, no es más que la representación de cinco puntos de la escala:

Los límites de la caja (box)

La linea vertical que divide la caja en dos mitades.

Los extremos de los bigotes (whiskers)

Los valores exactos que se representan con cada uno de estos elementos dependen del programa que se utilice para construir el box-plot. En el caso de StatCrunch, los box-plots que se obtienen por defecto están construidos del siguiente modo. Los extremos de los bigotes indican los valores extremos (valor mínimo y valor máximo). La caja se extiende desde el primer cuartil (Q1) hasta el tercer cuartil (Q3), y la linea vertical que divide la caja indica la mediana (estadísticos que explicaremos un poco más adelante, en esta misma unidad).

A veces los boxplots se construyen respetando el método que recomendó J. Tukey, quien propuso por primera vez esta representación gráfica. No ofreceremos la descripción exacta de este método por considerarla fuera de los objetivos de este curso. Sin embargo, vale la pena tener presente dos diferencias, en el momento de interpretar un boxplot construido con este método:

Los bigotes no se extienden necesariamente hasta los valores extremos sino hasta el valor más apartado que está dentro ciertos límites.

Si existen valores por fuera de esos límites, se representan individualmente mediante símbolos especiales. A veces se utilizan dos símbolos distintos para representar valores con distinto grado de desviación (por ejemplo, la letra ‘O’ de Outlying value para los valores bastante alejados y la ‘E’ de Extreme value para los valores extremadamente alejados).

Page 7: U3. Descripción de datos cuantitativos: ¿Cuánto vale X?...modo de ejemplo, los datos de esperanza de vida que se muestran en la figura 3.2. Veamos ahora cómo podemos representar

DISEÑO y ANÁLISIS de INVESTIGACIONES CLÍNICAS : MÓDULO I

U3 – Descripción de datos cuantitativos: ¿Cuánto vale X?

© Centro de Estudios Colegiales – Colegio Oficial de Médicos de Barcelona 7

La figura 3.5b muestra un boxplot construido según las recomendaciones originales. Se ha añadido tres países con valores ficticios de esperanza de vida (99, 100 y 150 años). Estos valores son un tanto absurdos, pero sirven para ver cómo se representan las observaciones atípicas en los boxplots. La ‘O’ indica Outlier y el asterisco indica Extreme value.

Un inconveniente del box-plot es que no permite evaluar ciertas características de la forma de la distribución como la multimodalidad. Tampoco informa sobre el número de observaciones. Sin embargo, el boxplot permite valorar fácilmente ciertas características muy importantes de la distribución como su tendencia central (mediana) dispersión (amplitud de la caja y de los bigotes), simetría o asimetría (respecto de la mediana) y presencia de observaciones atípicas (alejadas).

Una ventaja adicional del box-plot es que pueden representarse varias distribuciones en un mismo gráfico, lo que resulta muy útil para compararlas. Por ejemplo, en la figura 3.6 se muestran las distribuciones de esperanza de vida para cada sexo y para el conjunto de la población.

3.4. Dot-plots (diagramas de puntos)

Esta representación consiste simplemente en representar todas las observaciones en una escala. Al igual que los box-plots, permite representar una o varias distribuciones en un mismo gráfico, lo que resulta muy útil para compararlas. La figura 3.7 muestra un dot-plot de las distribuciones de esperanza de vida para cada sexo y para el conjunto de la población. Esta figura se obtuvo mediante la opción Graphics>Dotplot de StatCrunch.

Una virtud muy importante del dot-plot es que, al representar todas las observaciones individuales, no se pierde información. En un box-plots, por ejemplo, sólo se representan 5 valores notables de la distribución (y quizás las observaciones atípicas): los tres cuartiles y los valores extremos. Evidentemente, esto representa una pérdida de información (¡la distribuciones de nuestro ejemplo contienen 191 valores!).

Esta virtud hace muy aconsejable visualizar un dot-plot como primera aproximación al análisis de una distribución. Podemos descubrir cosas que pasan desapercibidas en un box-plot como, por ejemplo, multimodalidades. Posteriormente, podremos optar por otras representaciones quizás más sencillas, o que ponen mejor de manifiesto ciertos aspectos muy relevantes de la distribución (como la tendencia central y la dispersión), y el box-plot puede ser una buena elección. Pero lo habremos hecho tras cerciorarnos que no se perderá información fundamental.

También se ha dicho que las representaciones que, como el dot-plot, muestran las observaciones individuales, constituyen la única forma de facilitarlas en una

Page 8: U3. Descripción de datos cuantitativos: ¿Cuánto vale X?...modo de ejemplo, los datos de esperanza de vida que se muestran en la figura 3.2. Veamos ahora cómo podemos representar

DISEÑO y ANÁLISIS de INVESTIGACIONES CLÍNICAS : MÓDULO I

U3 – Descripción de datos cuantitativos: ¿Cuánto vale X?

© Centro de Estudios Colegiales – Colegio Oficial de Médicos de Barcelona 8

publicación original, donde las limitaciones de espacio son siempre una restricción importante.

Page 9: U3. Descripción de datos cuantitativos: ¿Cuánto vale X?...modo de ejemplo, los datos de esperanza de vida que se muestran en la figura 3.2. Veamos ahora cómo podemos representar

DISEÑO y ANÁLISIS de INVESTIGACIONES CLÍNICAS : MÓDULO I

U3 – Descripción de datos cuantitativos: ¿Cuánto vale X?

© Centro de Estudios Colegiales – Colegio Oficial de Médicos de Barcelona 9

4. ESTADÍSTICOS RESUMEN

Una forma muy frecuente de resumir la distribución de una variable cuantitativa es mediante el cálculo de ciertos índices que miden aspectos relevantes de la distribución. Presentaremos los más habituales, clasificándolos en tres grupos, según el tipo de información que capturan.

4.1 Índices de tendencia central

Las medidas de tendencia central, son valores alrededor de los cuales se sitúan los valores observados.

Con diferencia, el más famoso índice de tendencia central es la media (mean, en inglés) o, más propiamente, la media aritmética simple (hay otros tipos de media, como la media ponderada, o la media geométrica, pero no las trataremos en este curso; en adelante utilizaremos el término media para referirnos a la media aritmética simple). La media se calcula dividiendo la suma de todas las observaciones por el número de casos.

Frecuentemente, la media se interpreta como valor más representativo de la distribución. A veces, esto puede resultar peligroso. La razón es que la media se ve muy afectada por la presencia de valores extremos o por asimetrías en la distribución.

Una medida alternativa que, posiblemente, se utiliza con menor frecuencia de la debida, es la mediana (median, en inglés). La mediana se define como el valor que ocupa la posición central en una distribución ordenada, tal como muestra la figura 3.8.

Otra medida de tendencia central de interés es la moda (mode, en inglés). Como sugiere su nombre, la moda es el valor que aparece con mayor frecuencia. Cuando se agrupan datos en intervalos (por ejemplo, al construir un histograma) se habla de intervalo modal. Por ejemplo, en el histograma de la figura 3.3a, el intervalo modal es el que se extiende desde los 60 hasta los 70 años.

Como veremos después, podemos calcular fácilmente la media y la mediana de una distribución mediante la opción Stats>Summary Stats de StatCrunch.

Page 10: U3. Descripción de datos cuantitativos: ¿Cuánto vale X?...modo de ejemplo, los datos de esperanza de vida que se muestran en la figura 3.2. Veamos ahora cómo podemos representar

DISEÑO y ANÁLISIS de INVESTIGACIONES CLÍNICAS : MÓDULO I

U3 – Descripción de datos cuantitativos: ¿Cuánto vale X?

© Centro de Estudios Colegiales – Colegio Oficial de Médicos de Barcelona 10

4.2 Índices de dispersión

Para algunos, la estadística es la ciencia que permite concluir que, si tu te comes un pollo y yo no me como ninguno, nos hemos comido medio pollo cada uno. Veamos. Este ejemplo considera la distribución del número de pollos ingeridos en un conjunto de dos personas. Se trata por tanto de una distribución muy escueta, con solo dos observaciones: 1 y 0. Efectivamente su media es 0,5.

Consideremos ahora el caso en que dos personas comen realmente medio pollo cada una. Ahora la distribución es: 0,5 y 0,5. Su media es también 0,5, coincidiendo con la de la distribución anterior. Por tanto estamos ante dos distribuciones claramente distintas (¡en el primer caso yo paso hambre pero en el segundo no!) con igual media. ¿Paradójico? En absoluto. Veamos porqué.

El cálculo de una media (o de cualquier otro índice), es una reducción brutal: a partir de una serie de valores observados, obtenemos un solo valor (por ejemplo, la media). Evidentemente se pierde información por el camino. El caso es, qué información se pierde y cuál se retiene.

Cuando calculamos una media, estamos interesados en la tendencia central. Pues bien, si entendemos la media como lo que es, una medida de tendencia central, no hay nada de paradójico en que dos distribuciones distintas tengan la misma tendencia central. El problema es que, a pesar de ser importante, la tendencia central no es la única característica importante de una distribución.

¿Qué distingue a las dos distribuciones anteriores? La heterogeneidad o variabilidad de sus valores. En un caso hay variabilidad (1 y 0) y en el otro no (0,5 y 0,5). Para evaluar este aspecto de una distribución (la variabilidad) se utilizan las llamadas medidas de variabilidad o de dispersión.

Una forma natural de medir el grado de dispersión podría ser la siguiente: tomamos la media como punto de referencia, determinamos la distancia desde cada valor observado a la media calculando la diferencia entre ambos, y promediamos estas diferencias. Esto se ha hecho en la tercera columna de las tablas 1 y 2 de la figura 3.9.

Lamentablemente, al calcular la diferencia entre cada valor observado y la media, los valores inferiores a la media producen diferencias negativas que compensan perfectamente las diferencias positivas generadas por los valores superiores a la media, de forma que la suma de todas las diferencias es cero. Esto ocurrirá con cualquier distribución.

Una forma de solucionar este problema es elevar las diferencias al cuadrado para que pierdan el signo. Esto se ha hecho en la cuarta columna de las tablas 1 y 2 de la figura 3.9. La media de estas diferencias elevadas al cuadrado se

Page 11: U3. Descripción de datos cuantitativos: ¿Cuánto vale X?...modo de ejemplo, los datos de esperanza de vida que se muestran en la figura 3.2. Veamos ahora cómo podemos representar

DISEÑO y ANÁLISIS de INVESTIGACIONES CLÍNICAS : MÓDULO I

U3 – Descripción de datos cuantitativos: ¿Cuánto vale X?

© Centro de Estudios Colegiales – Colegio Oficial de Médicos de Barcelona 11

denomina varianza (variance, en inglés) y es una importante medida de dispersión.

Nótese que en las tablas 1 y 2, las varianzas son 0,25 y 0, respectivamente. En efecto, la dispersión de los valores de x es mayor en 1 que en 2. De hecho, el cero de la tabla 2 indica que variabilidad es inexistente: todos (los dos) hemos comido lo mismo (medio pollo).

La varianza tiene el inconveniente de que, debido al cuadrado que interviene en su cálculo, sus unidades también están elevadas al cuadrado. Si estuviéramos evaluando el peso de una serie de pacientes, expresado en Kg, la varianza vendría expresada en Kg2, lo que dificulta un tanto su interpretación.

Para obviar este inconveniente, podemos tomar la raíz cuadrada de la varianza, con lo que el resultado vendrá expresado en las mismas unidades en que están expresadas las observaciones. El índice resultante se denomina desviación estándar (DE), desviación típica o desviación tipo (standard deviation en inglés, abreviado algunas veces como SD, y otras como St.Dev.). Para los datos de las tablas 1 y 2, la DE es 0,5 Kg y 0, respectivamente. La DE puede interpretarse como la desviación promedio de los valores observados respecto de su media.

Un problema de las medidas de dispersión que dependen de la media es que se afectan en situaciones en que se afecta la media (valores atípicos o asimetrías marcadas). En tales casos, es preferible utilizar alguna medida alternativa como la distancia intercuartílica que introduciremos a propósito de los índices de posición.

4.3 Índices de posición

Los índices de posición son valores de la variable que, en una distribución ordenada, ocupan determinadas posiciones.

Ya vimos que la mediana es el valor que ocupa el lugar central en una distribución ordenada, dividiéndola en dos partes con igual número de observaciones (figura 3.8). Cada una de estas dos partes podemos dividirla en otras dos, de forma que la distribución queda dividida en cuatro partes con igual número de observaciones, tal como se muestra en la figura 3.10.

Nótese que para dividir la distribución en cuatro partes con igual número de casos, es necesario definir tres límites, marcados con flechas en la figura 3.10. Estos tres límites se denominan cuartiles (quartile, en inglés) porque dividen la distribución ordenada en cuatro partes. Hay tres cuartiles: el primer cuartil (Q1), el segundo cuartil (Q2) y el tercer cuartil (Q3).

Page 12: U3. Descripción de datos cuantitativos: ¿Cuánto vale X?...modo de ejemplo, los datos de esperanza de vida que se muestran en la figura 3.2. Veamos ahora cómo podemos representar

DISEÑO y ANÁLISIS de INVESTIGACIONES CLÍNICAS : MÓDULO I

U3 – Descripción de datos cuantitativos: ¿Cuánto vale X?

© Centro de Estudios Colegiales – Colegio Oficial de Médicos de Barcelona 12

Si la distribución tiene un número de observaciones mayor, tendrá sentido definir, de manera análoga, los deciles, que dividen la distribución el diez partes con igual número de casos. Será necesario definir nueve deciles (D1, D2, ... , D9).

Si estamos ante distribuciones con muchos más casos, podremos, de forma análoga, dividirla en cien partes con igual número de observaciones. Para ello, necesitaremos 99 centiles o percentiles. (P1, P2, ... , P99).

Este tipo de medidas, en general denominadas cuantiles, nos informan sobre la cantidad de casos que tienen valores superiores (o inferiores) a uno dado. Por ejemplo, si en una distribución de edades P99=65 años, quiere decir que el 99% de los casos tenían una edad inferior o igual a 65 años.

Debería ser evidente cual es la relación entre la mediana y Q2. También debería serlo para Q1 y P25, o para Q3 y P75. ¿Se adivina?

Al hablar de medidas de dispersión nos dejamos una en el tintero, alegando que la introduciríamos en relación con las medidas de posición. Se trata de la distancia intercuartílica (DIC; interquartile range, en inglés, a veces abreviado como IQR), es decir Q3 - Q1. Es aconsejable utilizar esta medida de dispersión en combinación con la mediana (como medida de tendencia central) en aquellos casos en que debamos resumir distribuciones muy asimétricas o con valores atípicos muy extremos.

Page 13: U3. Descripción de datos cuantitativos: ¿Cuánto vale X?...modo de ejemplo, los datos de esperanza de vida que se muestran en la figura 3.2. Veamos ahora cómo podemos representar

DISEÑO y ANÁLISIS de INVESTIGACIONES CLÍNICAS : MÓDULO I

U3 – Descripción de datos cuantitativos: ¿Cuánto vale X?

© Centro de Estudios Colegiales – Colegio Oficial de Médicos de Barcelona 13

5. ALGUNOS CONSEJOS

Cuando se trata de describir una distribución de datos cuantitativos, podemos optar por hacer tablas de frecuencias, representaciones gráficas o calcular índices resumen.

Los índices resumen son muy prácticos, porque ocupan mucho menos espacio que las tablas de frecuencias o las representaciones gráficas, pero pierden mucha información. Se pueden calcular fácilmente con StatCrunch, mediante las opciones Stat>Summary Stats. La figura 3.11 muestra estos índices en relación con los datos de calidad de vida de 191 países.

La media (o la mediana) no informan acerca de la variabilidad de los datos. Las medidas de tendencia central deben acompañarse siempre de alguna medida de dispersión (la DE o la DIC).

No es prudente utilizar la media (como medida de tendencia central) ni la DE (como medida de dispersión), cuando la distribución es muy asimétrica o cuando hay valores muy extremos. En tales casos, es más aconsejable utilizar la mediana y la DIC.

Para describir datos cuantitativos, es extremadamente aconsejable comenzar siempre con un gráfico que conserve toda la información, es decir, que permita ver los valores individuales. El steam-&-leaf o el dot-plot son una buenas opciones. Entre otras cosas, permite detectar posibles asimetrías o valores extremos. Los box-plots pueden ser también útiles, aunque pierden información.

Las tablas de frecuencias son posiblemente el instrumento menos interesante para describir distribuciones de variables cuantitativas, a menos que se agrupen en intervalos, o que se trate de variables discretas que adoptan un número limitado de valores distintos (como el número de hijos de una familia).

Page 14: U3. Descripción de datos cuantitativos: ¿Cuánto vale X?...modo de ejemplo, los datos de esperanza de vida que se muestran en la figura 3.2. Veamos ahora cómo podemos representar

DISEÑO y ANÁLISIS de INVESTIGACIONES CLÍNICAS : MÓDULO I

U3 – Descripción de datos cuantitativos: ¿Cuánto vale X?

© Centro de Estudios Colegiales – Colegio Oficial de Médicos de Barcelona 14

6. LECTURAS Y LINKS

Damien Jolley. The glitter of the t table. The Lancet, 1993, 342: 27-29.

Artículo de divulgación, breve y de lectura fácil, que ofrece ejemplos de gráficos engañosos o mal construidos, así como recomendaciones para preparar gráficos científicos.

Leland Wilkinson. Graphical displays. Statistical methods in medical research, 1992, 1:3-25.

Artículo de revisión, bastante técnico, pero con una sección no muy extensa dedicada a representaciones gráficas de una sola variable. El artículo incluye muchos tipos de representaciones gráficas, algunas de ellas muy originales y útiles. Ofrece muchas referencias. Útil para quien quiera saber más de representaciones gráficas.

Tukey JW. Exploratory data analysis. Reading, MA: Addison-Wesley, 1977.

No exclusivamente dedicado a representaciones gráficas, pero contiene muchas. Trata en profundidad las que se han presentado en este curso, muchas de las más modernas y útiles son debidas al autor de este libro, que es uno de los realmente importantes de la estadística moderna. Bastante técnico. Para profesionales o aficionados obsesivos.

Tufte ER. The visual display of quantitative information. Cheshire, CT: Graphic Press, 1983.

La biblia de las representaciones gráficas. Para profesionales o aficionados obsesivos.

Para hacer box-plots muy rápido !

http://calculators.stat.ucla.edu/boxplot.php

Para hacer histogramas y ver que pasa si se altera la anchura de los intervalos. http://calculators.stat.ucla.edu/histogram.php

La página de la OMS de la que se han extraído los datos de esperanza de vida utilizados en los ejemplos de esta unidad didáctica:

http://www3.who.int/whosis/core/core1.cfm?path=whosis,core_indicators&language=english

y otra página de la OMS en la que se pueden encontrar muchos otros datos de interés: http://www3.who.int/whosis/menu.cfm

Page 15: U3. Descripción de datos cuantitativos: ¿Cuánto vale X?...modo de ejemplo, los datos de esperanza de vida que se muestran en la figura 3.2. Veamos ahora cómo podemos representar

DISEÑO y ANÁLISIS de INVESTIGACIONES CLÍNICAS : MÓDULO I

U3 – Descripción de datos cuantitativos: ¿Cuánto vale X?

© Centro de Estudios Colegiales – Colegio Oficial de Médicos de Barcelona 15

7. RESUMEN

En esta unidad hemos abordado el problema de la descripción de distribuciones de variables cuantitativas, mediante gráficos, estadísticos y tablas de frecuencias.

El histograma (o su equivalente, el polígono de frecuencias) ha sido sin duda el gráfico por antonomasia para representar distribuciones continuas. Sin embargo, presenta ciertas limitaciones y ha sido desplazado por otros tipos de gráfico como el diagrama de tallo y hojas (stem-&-leaf plot), el diagrama de puntos (dotplot), o el diagrama de caja (box-and-whiskers plot o boxplot).

Los estadísticos de tendencia central (media, mediana y moda), de dispersión (desviación estándar, varianza, rango intercuartílico) y de posición relativa (cuantiles) , son muy útiles para describir distribuciones de una manera escueta, y por ello se utilizan profusamente. Sin embargo, dado que representan una reducción drástica de la información disponible, es muy recomendable comenzar viendo alguna(s) representaciones gráficas como primer paso cuando tenemos que describir la distribución de una variable cuantitativa.

Las tablas de frecuencias son posiblemente el instrumento menos interesante para describir distribuciones de variables cuantitativas, a menos que se agrupen en intervalos, o que se trate de variables discretas que adoptan un número limitado de valores.

Page 16: U3. Descripción de datos cuantitativos: ¿Cuánto vale X?...modo de ejemplo, los datos de esperanza de vida que se muestran en la figura 3.2. Veamos ahora cómo podemos representar

DISEÑO y ANÁLISIS de INVESTIGACIONES CLÍNICAS : MÓDULO I

U3 – Descripción de datos cuantitativos: ¿Cuánto vale X?

© Centro de Estudios Colegiales – Colegio Oficial de Médicos de Barcelona 16

8. EJERCICIOS

8.1 Ejercicio 1

En una ocasión, el pediatra que llevaba a mi hijo me comentó, después de tallarlo, que estaba en el percentil 70 de altura para su edad. ¿Qué quiso decir?

1. que la talla de mi hijo era de 70 cm.

2. que mi hijo tenía la misma talla que el el 70% de los niños de su edad.

3. que el 70% de los niños de su edad tienen una talla superior o igual a la de mi hijo.

4. que el 30% de los niños de su edad tienen una talla superior o igual a la de mi hijo.

5. que el 30% de los niños de su edad tienen una talla inferior a la de mi hijo.

Nota: Para ver y contestar la pregunta de este caso, debe acceder a la versión on line del curso, que encontrará en el Campus del CEC.

8.2 Ejercicio 2

Los datos del fichero EJE32_LISO.txt corresponden a niveles de lisozima en el jugo gástrico de dos grupos de pacientes. Compare los dos grupos mediante un box-plot, y decida cual de las siguientes apreciaciones refleja mejor lo que se observa:

1. las dos distribuciones son muy similares

2. los pacientes ulcerosos tienden a presentar valores más bajos que los normales

3. los niveles de lisozima son menos variables en pacientes ulcerosos que en pacientes normales

4. la distribución es simétrica respecto a la mediana en pacientes normales pero asimétrica en pacientes ulcerosos

5. los dos grupos difieren tanto en tendencia central como en dispersión

Nota: Para ver y contestar la pregunta de este caso, debe acceder a la versión on line del curso, que encontrará en el Campus del CEC.

Page 17: U3. Descripción de datos cuantitativos: ¿Cuánto vale X?...modo de ejemplo, los datos de esperanza de vida que se muestran en la figura 3.2. Veamos ahora cómo podemos representar

DISEÑO y ANÁLISIS de INVESTIGACIONES CLÍNICAS : MÓDULO I

U3 – Descripción de datos cuantitativos: ¿Cuánto vale X?

© Centro de Estudios Colegiales – Colegio Oficial de Médicos de Barcelona 17

8.3 Ejercicio 3

En las figuras 3.6 y 3.7 se aprecia que las mujeres tienden a tener mayor esperanza de vida que los hombres.

Si, para cada país, calculamos la diferencia entre la esperanza de vida de las mujeres y la de los hombres, obtendremos una nueva distribución: la distribución de las diferencias de esperanza de vida entre mujeres y hombres.

En el fichero de datos EJE33_EV.txt encontrará esta variable. Haga un análisis descriptivo de esta variable y decida cuál de las siguientes apreciaciones es más correcta respecto de su distribución en los 191 países:

1. se observan multimodalidades muy marcadas pero la distribución es claramente simétrica alrededor de cero, con una media de 3.1 años y una desviación típica de 2.7 años.

2. los valores van desde -2 hasta 11 años, pero la mitad de los países presentan valores superiores o iguales a 5.4 años.

3. la distribución es muy uniforme,es decir, la frecuencia con que aparecen los distintos valores entre -2 y 11 años es constante, aunque no aparecen observaciones entre 2 y 3 años.

4. la distribución es ligeramente asimétrica, con una mediana de 2.9 años. La mitad central de las observaciones presenta valores entre 0.8 y 5.4 años.

5. todas las descripciones son correctas

Nota: Para ver y contestar la pregunta de este caso, debe acceder a la versión on line del curso, que encontrará en el Campus del CEC.

8.4 Ejercicio 4

Las distribuciones (ficticias) G1 y G2 del fichero EJE34_FIC.txt, corresponden a cierta variable evaluada en dos grupos de pacientes que sufren una misma enfermedad maligna, pero que han sido tratados con dos alternativas terapéuticas diferentes (T1 y T2, respectivamente). El objetivo del tratamiento es elevar los valores de la variable (p.ej., suponga que se trata de tiempos de supervivencia). Inspeccione las distribuciones mediante un dot-plot y obtenga los estadísticos descriptivos. ¿Cuál de las siguientes sentencias es más correcta?

1. la media de G2 es igual que la de G1

Page 18: U3. Descripción de datos cuantitativos: ¿Cuánto vale X?...modo de ejemplo, los datos de esperanza de vida que se muestran en la figura 3.2. Veamos ahora cómo podemos representar

DISEÑO y ANÁLISIS de INVESTIGACIONES CLÍNICAS : MÓDULO I

U3 – Descripción de datos cuantitativos: ¿Cuánto vale X?

© Centro de Estudios Colegiales – Colegio Oficial de Médicos de Barcelona 18

2. las medias no son útiles para comparar estas dos distribuciones

3. es más probable vivir más con T2 que con T1, y esto no lo refleja la media pero sí lo refleja la mediana

4. la desviación típica de G1 está muy distorsionada por los dos valores extremos

5. todas las descripciones anteriores son correctas

Nota: Para ver y contestar la pregunta de este caso, debe acceder a la versión on line del curso, que encontrará en el Campus del CEC.

8.5 Ejercicio 5

El fichero EJE35_EQUI.txt contiene resultados de un experimento realizado para investigar cómo afecta la concentración al equilibrio. En el experimento se sistuaba a 8 sujetos jóvenes (SJ) y a 9 de edad avanzada (SEA) en bipedestación, en una plataforma que permitía medir la desviación lateral y antero-posterior del cuerpo respecto a la vertical. Para obligarles a mantenerse concentrados, se les pedía que estuvieran atentos a un estímulo auditivo (administrado aleatoriamente) y que reaccionaran lo más rápidamente posible apretando el botón de un dispositivo que llevaban en la mano. Compare las distribuciones mediante dotplots, boxplots y calculando los estadísticos que crea conveniente. ¿Qué conclusión le parece más correcta respecto de las desviaciones observadas?

1. Los SEA presentan desviaciones mayores y más variables que los SJ.

2. Los SEA presentan desviaciones menores y menos variables que los SJ.

3. Los SEA presentan desviaciones menores pero más variables que los SJ.

4. Los SEA presentan desviaciones similares a las de los SJ, aunque con mayor variabilidad.

5. Los SEA y los SJ presentan desviaciones similares, tanto en tendencia central como en variabilidad.

Nota: Para ver y contestar la pregunta de este caso, debe acceder a la versión on line del curso, que encontrará en el Campus del CEC.

Page 19: U3. Descripción de datos cuantitativos: ¿Cuánto vale X?...modo de ejemplo, los datos de esperanza de vida que se muestran en la figura 3.2. Veamos ahora cómo podemos representar

DISEÑO y ANÁLISIS de INVESTIGACIONES CLÍNICAS : MÓDULO I

U3 – Descripción de datos cuantitativos: ¿Cuánto vale X?

© Centro de Estudios Colegiales – Colegio Oficial de Médicos de Barcelona 19

FIGURAS

F 3·1 EVOLUCION DEL PESO MEDIO (Kg) CON CUATRO TRATAMIENTOS

SEMANA TRATAMIENTO

0 2 4 6 8 10

A (n=10) B (n=10) C (n=10) D (n=10)

73.494 75.893 75.589 75.402

73.289 75.844 75.302 75.045

73.673 75.801 74.843 74.352

73.444 75.262 74.268 73.616

73.306 74.950 73.645 72.250

73.657 74.494 72.786 70.647

LOS MISMOS DATOS TRUNCANDO LOS DECIMALES

SEMANA TRATAMIENTO

0 2 4 6 8 10

A (n=10) B (n=10) C (n=10) D (n=10)

73 75 75 75

73 75 75 75

73 75 74 74

73 75 74 73

73 74 73 72

73 74 72 70

F 3·2 DATOS DE ESPERANZA DE VIDA EN DISTINTOS PAÍSES – OMS 2001

País Total Hombres Mujeres

Afghanistan 37,7 36,7 38,7

Albania 60,0 56,5 63,4

Algeria 61,6 62,5 60,7

Andorra 72,3 69,3 75,2

Angola 38,0 37,0 38,9

Antigua and Barbuda 65,8 63,4 68,3

Argentina 66,7 63,8 69,6

Armenia 66,7 65,0 68,3

Australia 73,2 70,8 75,5

Austria 71,6 68,8 74,4

Azerbaijan 63,7 60,6 66,7

Bahamas 59,1 56,7 61,6

Bahrain 64,4 63,9 64,9

Bangladesh 49,9 50,1 49,8

Barbados 65,0 62,4 67,6

Belarus 61,7 56,2 67,2

Page 20: U3. Descripción de datos cuantitativos: ¿Cuánto vale X?...modo de ejemplo, los datos de esperanza de vida que se muestran en la figura 3.2. Veamos ahora cómo podemos representar

DISEÑO y ANÁLISIS de INVESTIGACIONES CLÍNICAS : MÓDULO I

U3 – Descripción de datos cuantitativos: ¿Cuánto vale X?

© Centro de Estudios Colegiales – Colegio Oficial de Médicos de Barcelona 20

Belgium 71,6 68,7 74,6

Belize 60,9 58,5 63,3

Benin 42,2 41,9 42,6

Bhutan 51,8 51,4 52,2

Bolivia 53,3 52,5 54,1

Bosnia and Herzegovina 64,9 63,4 66,4

Botswana 32,3 32,3 32,2

Brazil 59,1 55,2 62,9

Brunei Darussalam 64,4 63,4 65,4

Bulgaria 64,4 61,2 67,7

Burkina Faso 35,5 35,3 35,7

Burundi 34,6 34,6 34,6

Cambodia 45,7 43,9 47,5

Cameroon 42,2 41,5 43,0

Canada 72,0 70,0 74,0

Cape Verde 57,6 54,6 60,6

Central African Republic 36,0 35,6 36,5

Chad 39,4 38,6 40,2

Chile 68,6 66,0 71,3

China 62,3 61,2 63,3

Colombia 62,9 60,3 65,5

Comoros 46,8 46,1 47,5

Congo 45,1 44,3 45,9

Cook Islands 63,4 62,2 64,5

Costa Rica 66,7 65,2 68,1

Côte d'Ivoire 42,8 42,2 43,3

Croatia 67,0 63,3 70,6

Cuba 68,4 67,4 69,4

Cyprus 69,8 68,7 70,9

Czech Republic 68,0 65,2 70,8

Democratic People's Republic of Korea 52,3 51,4 53,1

Democratic Republic of the Congo 36,3 36,4 36,2

Denmark 69,4 67,2 71,5

Djibouti 37,9 37,7 38,1

Dominica 69,8 67,2 72,3

Dominican Republic 62,5 62,1 62,9

Page 21: U3. Descripción de datos cuantitativos: ¿Cuánto vale X?...modo de ejemplo, los datos de esperanza de vida que se muestran en la figura 3.2. Veamos ahora cómo podemos representar

DISEÑO y ANÁLISIS de INVESTIGACIONES CLÍNICAS : MÓDULO I

U3 – Descripción de datos cuantitativos: ¿Cuánto vale X?

© Centro de Estudios Colegiales – Colegio Oficial de Médicos de Barcelona 21

Ecuador 61,0 59,9 62,1

Egypt 58,5 58,6 58,3

El Salvador 61,5 58,6 64,5

Equatorial Guinea 44,1 42,8 45,4

Eritrea 37,7 38,5 36,9

Estonia 63,1 58,1 68,1

Ethiopia 33,5 33,5 33,5

Fiji 59,4 57,7 61,1

Finland 70,5 67,2 73,7

France 73,1 69,3 76,9

Gabon 47,8 46,6 49,0

Gambia 48,3 47,2 49,4

Georgia 66,3 63,1 69,4

Germany 70,4 67,4 73,5

Ghana 45,5 45,0 46,0

Greece 72,5 70,5 74,6

Grenada 65,5 62,4 68,5

Guatemala 54,3 52,1 56,4

Guinea 37,8 37,0 38,5

Guinea-Bissau 37,2 36,8 37,5

Guyana 60,2 57,1 63,3

Haiti 43,8 42,4 45,2

Honduras 61,1 60,0 62,3

Hungary 64,1 60,4 67,9

Iceland 70,8 69,2 72,3

India 53,2 52,8 53,5

Indonesia 59,7 58,8 60,6

Iran, Islamic Republic of 60,5 61,3 59,8

Iraq 55,3 55,4 55,1

Ireland 69,6 67,5 71,7

Israel 70,4 69,2 71,6

Italy 72,7 70,0 75,4

Jamaica 67,3 66,8 67,9

Japan 74,5 71,9 77,2

Jordan 60,0 60,7 59,3

Kazakhstan 56,4 51,5 61,2

Page 22: U3. Descripción de datos cuantitativos: ¿Cuánto vale X?...modo de ejemplo, los datos de esperanza de vida que se muestran en la figura 3.2. Veamos ahora cómo podemos representar

DISEÑO y ANÁLISIS de INVESTIGACIONES CLÍNICAS : MÓDULO I

U3 – Descripción de datos cuantitativos: ¿Cuánto vale X?

© Centro de Estudios Colegiales – Colegio Oficial de Médicos de Barcelona 22

Kenya 39,3 39,0 39,6

Kiribati 55,3 53,9 56,6

Kuwait 63,2 63,0 63,4

Kyrgyzstan 56,3 53,4 59,1

Lao People's Democratic Republic 46,1 45,0 47,1

Latvia 62,2 57,1 67,2

Lebanon 60,6 61,2 60,1

Lesotho 36,9 36,6 37,2

Liberia 34,0 33,8 34,2

Libyan Arab Jamahiriya 59,3 59,7 58,9

Lithuania 64,1 60,6 67,5

Luxembourg 71,1 68,0 74,2

Madagascar 36,6 36,5 36,8

Malawi 29,4 29,3 29,4

Malaysia 61,4 61,3 61,6

Maldives 53,9 54,4 53,3

Mali 33,1 32,6 33,5

Malta 70,5 68,4 72,5

Marshall Islands 56,8 56,0 57,6

Mauritania 41,4 40,2 42,5

Mauritius 62,7 59,0 66,3

Mexico 65,0 62,4 67,6

Micronesia, Federated States of 59,6 58,7 60,6

Monaco 72,4 68,5 76,3

Mongolia 53,8 51,3 56,3

Morocco 59,1 58,7 59,4

Mozambique 34,4 33,7 35,1

Myanmar 51,6 51,4 51,9

Namibia 35,6 35,8 35,4

Nauru 52,5 49,8 55,1

Nepal 49,5 49,4 49,5

Netherlands 72,0 69,6 74,4

New Zealand 69,2 67,1 71,2

Nicaragua 58,1 56,4 59,9

Niger 29,1 28,1 30,1

Nigeria 38,3 38,1 38,4

Page 23: U3. Descripción de datos cuantitativos: ¿Cuánto vale X?...modo de ejemplo, los datos de esperanza de vida que se muestran en la figura 3.2. Veamos ahora cómo podemos representar

DISEÑO y ANÁLISIS de INVESTIGACIONES CLÍNICAS : MÓDULO I

U3 – Descripción de datos cuantitativos: ¿Cuánto vale X?

© Centro de Estudios Colegiales – Colegio Oficial de Médicos de Barcelona 23

Niue 61,6 61,0 62,2

Norway 71,7 68,8 74,6

Oman 63,0 61,8 64,1

Pakistan 55,9 55,0 56,8

Palau 59,0 57,4 60,7

Panama 66,0 64,9 67,2

Papua New Guinea 47,0 45,5 48,5

Paraguay 63,0 60,7 65,3

Peru 59,4 58,0 60,8

Philippines 58,9 57,1 60,7

Poland 66,2 62,3 70,1

Portugal 69,3 65,9 72,7

Qatar 63,5 64,2 62,8

Republic of Korea 65,0 62,3 67,7

Republic of Moldova 61,5 58,5 64,5

Romania 62,3 58,8 65,8

Russian Federation 61,3 56,1 66,4

Rwanda 32,8 32,9 32,7

Saint Kitts and Nevis 61,6 58,7 64,4

Saint Lucia 65,0 62,4 67,6

Saint Vincent and the Grenadines 66,4 65,0 67,8

Samoa 60,5 58,7 62,3

San Marino 72,3 69,5 75,0

Sao Tome and Principe 53,5 52,1 54,8

Saudi Arabia 64,5 65,1 64,0

Senegal 44,6 43,5 45,6

Seychelles 59,3 56,4 62,1

Sierra Leone 25,9 25,8 26,0

Singapore 69,3 67,4 71,2

Slovakia 66,6 63,5 69,7

Slovenia 68,4 64,9 71,9

Solomon Islands 54,9 54,5 55,3

Somalia 36,4 35,9 36,9

South Africa 39,8 38,6 41,0

Spain 72,8 69,8 75,7

Sri Lanka 62,8 59,3 66,3

Page 24: U3. Descripción de datos cuantitativos: ¿Cuánto vale X?...modo de ejemplo, los datos de esperanza de vida que se muestran en la figura 3.2. Veamos ahora cómo podemos representar

DISEÑO y ANÁLISIS de INVESTIGACIONES CLÍNICAS : MÓDULO I

U3 – Descripción de datos cuantitativos: ¿Cuánto vale X?

© Centro de Estudios Colegiales – Colegio Oficial de Médicos de Barcelona 24

Sudan 43,0 42,6 43,5

Suriname 62,7 60,2 65,2

Swaziland 38,1 37,8 38,4

Sweden 73,0 71,2 74,9

Switzerland 72,5 69,5 75,5

Syrian Arab Republic 58,8 58,8 58,9

Tajikistan 57,3 55,1 59,4

Thailand 60,2 58,4 62,1

The former Yugoslav Republic of Macedonia 63,7 61,8 65,6

Togo 40,7 40,0 41,4

Tonga 62,9 61,4 64,3

Trinidad and Tobago 64,6 62,8 66,4

Tunisia 61,4 62,0 60,7

Turkey 62,9 64,0 61,8

Turkmenistan 54,3 51,9 56,7

Tuvalu 57,4 57,1 57,6

Uganda 32,7 32,9 32,5

Ukraine 63,0 58,5 67,5

United Arab Emirates 65,4 65,0 65,8

United Kingdom 71,7 69,7 73,7

United Republic of Tanzania 36,0 35,9 36,1

United States of America 70,0 67,5 72,6

Uruguay 67,0 64,1 69,9

Uzbekistan 60,2 58,0 62,3

Vanuatu 52,8 51,3 54,4

Venezuela, Bolivarian Republic of 65,0 62,9 67,1

Viet Nam 58,2 56,7 59,6

Yemen 49,7 49,7 49,7

Yugoslavia 66,1 64,2 68,1

Zambia 30,3 30,0 30,7

Zimbabwe 32,9 33,4 32,4

Page 25: U3. Descripción de datos cuantitativos: ¿Cuánto vale X?...modo de ejemplo, los datos de esperanza de vida que se muestran en la figura 3.2. Veamos ahora cómo podemos representar

DISEÑO y ANÁLISIS de INVESTIGACIONES CLÍNICAS : MÓDULO I

U3 – Descripción de datos cuantitativos: ¿Cuánto vale X?

© Centro de Estudios Colegiales – Colegio Oficial de Médicos de Barcelona 25

F 3·3a Esperanza de Vida en 191 Países

F 3·3b Esperanza de Vida en 191 Países

Page 26: U3. Descripción de datos cuantitativos: ¿Cuánto vale X?...modo de ejemplo, los datos de esperanza de vida que se muestran en la figura 3.2. Veamos ahora cómo podemos representar

DISEÑO y ANÁLISIS de INVESTIGACIONES CLÍNICAS : MÓDULO I

U3 – Descripción de datos cuantitativos: ¿Cuánto vale X?

© Centro de Estudios Colegiales – Colegio Oficial de Médicos de Barcelona 26

F 3·3c Esperanza de Vida en 191 Países

F 3·3d Esperanza de Vida en 191 Países

Page 27: U3. Descripción de datos cuantitativos: ¿Cuánto vale X?...modo de ejemplo, los datos de esperanza de vida que se muestran en la figura 3.2. Veamos ahora cómo podemos representar

DISEÑO y ANÁLISIS de INVESTIGACIONES CLÍNICAS : MÓDULO I

U3 – Descripción de datos cuantitativos: ¿Cuánto vale X?

© Centro de Estudios Colegiales – Colegio Oficial de Médicos de Barcelona 27

F 3·3e Esperanza de Vida en 191 Paises

F 3·4 Esperanza de Vida en 191 Países (Stem-&-leaf Plot)

2 : 699

3 : 023333444

3 : 5666666777888888899

4 : 011223344

4 : 556667788

5 : 000222333344444

5 : 55566677788899999999999

6 : 0000000111111111222222222333333333333344444444

6 : 5555555556666666777777788899999

7 : 00000011112222222223333333

7 : 5

Page 28: U3. Descripción de datos cuantitativos: ¿Cuánto vale X?...modo de ejemplo, los datos de esperanza de vida que se muestran en la figura 3.2. Veamos ahora cómo podemos representar

DISEÑO y ANÁLISIS de INVESTIGACIONES CLÍNICAS : MÓDULO I

U3 – Descripción de datos cuantitativos: ¿Cuánto vale X?

© Centro de Estudios Colegiales – Colegio Oficial de Médicos de Barcelona 28

F 3·5a Esperanza de Vida en 191 Países

F 3·5b Esperanza de Vida en 191+3 Países

Page 29: U3. Descripción de datos cuantitativos: ¿Cuánto vale X?...modo de ejemplo, los datos de esperanza de vida que se muestran en la figura 3.2. Veamos ahora cómo podemos representar

DISEÑO y ANÁLISIS de INVESTIGACIONES CLÍNICAS : MÓDULO I

U3 – Descripción de datos cuantitativos: ¿Cuánto vale X?

© Centro de Estudios Colegiales – Colegio Oficial de Médicos de Barcelona 29

F 3·6 Esperanza de Vida en 191 Países

F 3·7 Esperanza de Vida en 191 Países

Page 30: U3. Descripción de datos cuantitativos: ¿Cuánto vale X?...modo de ejemplo, los datos de esperanza de vida que se muestran en la figura 3.2. Veamos ahora cómo podemos representar

DISEÑO y ANÁLISIS de INVESTIGACIONES CLÍNICAS : MÓDULO I

U3 – Descripción de datos cuantitativos: ¿Cuánto vale X?

© Centro de Estudios Colegiales – Colegio Oficial de Médicos de Barcelona 30

F 3·8 La MEDIANA .... ¡Está en el MEDIO!

Nº de caso 1 2 3 4 5 6 7 8 9 10 11

Tengo una distribución:

48 22 29 41 36 43 44 39 59 36 56

La ordeno... 22 29 36 36 39 41 43 44 48 56 59

mediana = 41

La MEDIANA .... ¡Está en el MEDIO!

F 3·9

La variable x es el número de pollos ingeridos

Tabla 1. Tú un pollo, yo ninguno

casos x d = x - media d2

tú 1 0,5 0,25

yo 0 - 0,5 0,25

medias 0,5 0 0,25

Tabla 2. Medio pollo cada uno

casos x d = x - media d2

tú 0,5 0 0

yo 0,5 0 0

medias 0,5 0 0

Page 31: U3. Descripción de datos cuantitativos: ¿Cuánto vale X?...modo de ejemplo, los datos de esperanza de vida que se muestran en la figura 3.2. Veamos ahora cómo podemos representar

DISEÑO y ANÁLISIS de INVESTIGACIONES CLÍNICAS : MÓDULO I

U3 – Descripción de datos cuantitativos: ¿Cuánto vale X?

© Centro de Estudios Colegiales – Colegio Oficial de Médicos de Barcelona 31

F 3·10

La ordeno... 22 29 36 36 39 41 43 44 48 56 59

Divido en dos partes...

Y cada parte en otras dos

Q1 = 36 Q2= 41 Q3 = 48

F 3·11

Results:

Summary Statistics:

Variable n Mean Variance Std. Dev. Median

Total 191 56.82618 151.42868 12.305636 60.5

Hombres 191 55.24817 134.37924 11.592206 58.6

Mujeres 191 58.392147 172.316 13.126919 62.1

Variable Range Min Max Q1 Q3

Total 48.6 25.9 74.5 47.8 65.8

Hombres 46.1 25.8 71.9 46.6 63.8

Mujeres 51.2 26 77.2 49 67.9