estadistica...una escala de medición es el conjunto (ordenado o no) de categorías (o estados o...

Prof. Dr. Alberto C Palladino 1

Universidad Nacional del Nordeste

Facultad de Medicina

ATENCIÓN PRIMARIA DE LA SALUD,

EPIDEMIOLOGÍA E INFORMÁTICA II

PROF. ALBERTO C PALLADINO

AÑO 2011

EST ADI STICA

INTRODUCCIÓN

La variabilidad de los fenómenos que estudia la medicina (tanto la clínica como la

salud pública) llevan a diferentes problemas al intentar el análisis de los mismos. Por

empezar, se presenta la dificultad de cómo expresarlos sin recurrir a la repetición del total de

los resultados obtenidos en la observación. Piénsese, por ejemplo, en el dilema que se le

presentaría a un cirujano que desee relatar su experiencia de veinte años en el tratamiento

quirúrgico del cáncer de mama. La acumulación de casos diversos en: las características de

las pacientes tratadas, la naturaleza misma de la neoplasia, la técnica empleada y los

resultados inmediatos y mediatos, harían sumamente complicado presentar en forma clara,

entendible y con posibilidades de análisis la información acumulada. El mismo problema se

le presentaría a un docente universitario que desee analizar los resultados de un turno de

examen (con alrededor de trescientos examinados) y su relación con las condiciones

personales del alumno y con las distintas metodologías de enseñanza utilizadas.

Una segunda dificultad en el manejo de información es el establecer cierto grado de

probabilidad en la ocurrencia de un fenómeno o en la evolución futura del mismo. El

tratamiento que se sugiere (o se indica a un paciente) es el que ha mostrado haber sido exitoso

en una proporción importante de casos en los que se ha utilizado; aunque en algunos de esos

casos la intervención haya sido ineficaz o, peor aún, haya tenido efectos indeseables. ¿Cómo

saber si el enfermo al que se le está indicando vacuna antirrábica no hará una reacción

alérgica y, si la hiciera, cuál sería su probabilidad de morir en la emergencia?. El médico se

maneja con el conocimiento de que este riesgo es menor (por la frecuencia con la que ocurre

el accidente alérgico) que el riesgo de dejar al paciente sin tratamiento (por la frecuencia con

la que la enfermedad se presenta sin el tratamiento). En otro ejemplo (pero que está

relacionado con el problema en cuestión) es el que se presenta cuando a partir de un estudio

especial (por ejemplo el control de la presión arterial a un grupo seleccionado de estudiantes)

se desea extraer conclusiones para toda la población de la que proviene el grupo estudiado (en

el ejemplo: todos los estudiantes del mismo curso).

El manejo de estos problemas lo permite el uso de la estadística. Siguiendo a Kendall

MG y Buckland WR (A Dictionary of Statistical Terms, 4th ed. London; Longman, 1982) se

puede definir la estadística como la : “Disciplina que tiene por objeto la recolección,

resumen y análisis de datos sujetos a variaciones por el azar”.


Las finalidades básicas de la estadística son:

1) Resumir una masa importante de mediciones.

2) Cuantificar la influencia del azar.

3) Controlar variables de confusión.

La primera de las finalidades es lo que comprende la estadística descriptiva y de las

dos restantes se ocupa la estadística inferencial (o inferencia estadística).

Las etapas del método, y de acuerdo a la definición dada de estadística, incluye:

1) la recolección de datos; 2) su elaboración o procesamiento y 3) su análisis.

VARIABLES - CATEGORÍAS - DATO ESTADISTICO

La obtención de datos estadísticos se hace por recolección directa del investigador o

por la utilización de fuentes de datos disponibles ( es decir datos obtenidos y elaborados por

otros investigadores). De acuerdo a una clasificación utilizada, en el primer caso la fuente es

primaria y, en el segundo, es secundaria. A su vez, esta últimas pueden ser directas (bases

de datos) o indirectas (información elaborada y presentada en tablas y gráficos). Cuando el

propio investigador es quién recoge los datos puede dar fe de la confiabilidad de los mismos;

asimismo, puede definir las variables, las categorías, los indicadores , los procedimientos, etc.

La desventaja, obviamente, son los recursos que debe destinar. Lo inverso ocurre con las

fuentes secundarias. De éstas, constituye una ventaja las fuentes directas por las extensas

posibilidades de análisis que brindan. Las fuentes de datos más utilizadas (tanto por la salud

publica como por la clínica) son los registros de hechos vitales (básicamente nacimientos y

defunciones), los registros hospitalarios (consultorio externo, internación) y los censos de

población que brindan el universo de referencia, necesario para la construcción de

indicadores y para contextualizar los fenómenos. De manera excepcional se utilizan encuestas

y censos especiales, registros de obras sociales, fuerzas armadas, estudios especiales, etc.

La recolección de datos (primera etapa del método estadístico) implica la

observación de la realidad (reglada de acuerdo a técnicas específicas) con la finalidad de

medir las características que los fenómenos de la misma presentan. (El término “medición”

es aplicable aunque el resultado sea una expresión numérica o literal). Esas características a

medir son las variables. Una variable puede definirse como “una cualidad, propiedad o

característica de las personas, cosas o hechos en estudio que puede ser enumerada o

medida y que puede variar de un sujeto a otro y, a veces, de un momento a otro en el

mismo sujeto”. Las variables son utilizadas para describir las particularidades que distinguen

al fenómeno en estudio y a las personas que lo presentan. Los diferentes modos en que puede

encontrarse una variable en el sujeto de estudio son sus estados, categorías o valores.

Aunque éstos términos son aplicables indistintamente, algunos autores utilizan categoría sólo

para los estados de las variables cualitativas (llamando a éstas: atributos) y valor numérico

para los de las variables cuantitativas. Aquí se utilizarán las tres primeras expresiones como

sinónimos, independientemente del tipo de variable de que se trate.

Según el nivel de medición que pueda alcanzarse, a las variables se las clasifica en

cualitativas y cuantitativas. Las variables cualitativas se refieren a propiedades de los

sujetos en estudio cuya medición sólo informa sobre la pertenencia a una categoría sin poder

precisar la “intensidad” de la característica de manera cuantificable. El sexo, la ocupación, el


color de cabello, la conducta frente a una adicción, etc., son variables cualitativas. En tanto,

las variables cuantitativas brindan información sobre diferentes tipos de intensidad con la que

se presenta en los sujetos; permitiendo establecer órdenes jerárquicos y comparaciones

numéricas entre los diferentes estados en que puede observarse la variable. Las medidas

antropométricas y muchas de las determinaciones bioquímicas son buenos ejemplos de ellas.

A su vez, las variables cuantitativas pueden ser de dos tipos: discretas o discontinuas o

continuas. Las primeras pueden expresar el estado de la variable sólo por algunos valores

(habitualmente valores enteros); no admitiendo valores intermedios (número de hijos por

mujer, consultas por paciente, etc.). Es posible expresar la paridez por “0, 1, 2, 3 hijos”; pero

no por “1y 1/2, 2 y 3/4 hijos” por mujer. Las continuas pueden expresar el estado de la

variable por un número infinito de valores (edad, peso, uremia, etc.) dentro de un rango

determinado por la naturaleza misma de la variable; siendo el límite de la capacidad de

discriminación la del instrumento de medición o la del observador. Una persona de 25 años,

por ejemplo, puede expresar su edad de esa manera o, también: 25 años y 3 meses, 25 años 3

meses y 2 días; 25 años 3 meses 2 días y 1 hora, etc.; y así hasta el infinito (con las

limitaciones expresadas).

El resultado de una observación es la obtención de un dato estadístico. Se puede

decir que dato estadístico es la expresión del resultado de la medición de una variable. Es

decir, es expresar el estado en que se encuentra una variable. Observación y medición son

utilizados aquí como sinónimos. Más adelante se verá que esta expresión puede incluir un

valor numérico o, simplemente, hacer referencia a un atributo.

La confiabilidad del dato está referida a la medida en la que el dato refleja el

hecho que se mide. Un dato será mas confiable cuanto más se acerque a la realidad a la que

se refiere. Por ejemplo, la lectura de una baciloscopía será más confiable si quien la realiza

tiene mayor experiencia en esa prueba. Es decir, cada vez que se expide sobre una

observación como “positiva” existe alta probabilidad de que realmente el material provenga

de un paciente bacilífero; y cada vez que informe un resultado “negativo” existe alta

probabilidad de que se trata de un paciente no bacilífero. Los problemas de confiabilidad

asociados a los datos mas comúnmente utilizados en clínica y en salud publica se refieren a

los provenientes de: 1) la definición de caso utilizada; 2) el sujeto en observación

(variabilidad de los fenómenos biológicos y sociales); 3) los instrumentos utilizados en la

medición (tanto formularios de recolección de datos como aparatos de medición); 4) los

procedimientos utilizados (tipo de encuesta, problemas de recuerdo y de declaración, etc.); 4)

el observador (capacitación, experiencia, fatiga al momento de la medición). Un dato será

confiable en la medida en que sea reproductible; es decir, repetidas observaciones deben

producir los mismos resultados (con las variaciones tolerables estadísticamente). La

confiabilidad se controla por la repetición de la observación por parte del mismo observador

(confiabilidad intraobservador) y por el control con otro /s observador /es (confiabilidad

interobservador). A fin de que las lecturas reiteradas informen sobre la reproductibilidad es

necesario que se cumpla: 1) las sucesivas mediciones deben realizarse bajo las mismas

condiciones de observación; 2) la técnicas deben estar lo suficientemente estandarizadas; 3)

el observador no debe conocer el resultado de la lectura anterior (propia o de otro

observador). La confiabilidad suele expresarse por índice de Kappa; el que varía entre –1 y

+1. El –1 indica el máximo desacuerdo y el +1 el mayor acuerdo. El “0” se interpreta como

un valor de acuerdo aleatorio. Entonces, esta medida indicará mayor confiabilidad (intra o

interobservador) cuanto más cerca esté de + 1.


MEDICIÓN – ESCALAS

Medición es la asignación de una categoría o valor de una característica o variable

dada a un sujeto de observación. Estas características (o variables) pueden presentarse de

distinta manera de un sujeto observado a otro. Por ejemplo, sexo: varón, mujer; estado civil:

soltero, casado, separado viudo; edad: 2 meses 3 años; talla: 55 cm 2 mm. Como se ve,

existen diferentes “estados” en los que se puede encontrar una variable en un sujeto de

observación. Estos son los estados, categorías o valores de la variable y lo que hace la

medición es verificar esa situación. Para esto se aplica una escala; o sea, un instrumento

referencial en el que están contemplados todos los posibles estados de esa variable. Es decir,

la medición es la aplicación de una escala en una observación con la finalidad de

verificar el estado de la variable en la unidad observada. También, medición es la

cuantificación de las diferentes categorías de la variable en la población estudiada. Una

escala de medición es el conjunto (ordenado o no) de categorías (o estados o valores) que

puede presentar una variable. No confundir la escala con el aparato que sirve de soporte a

la misma; por ejemplo, una regla lleva inscripta una escala que corresponde a medidas de

longitud del sistema métrico decimal. La escala no es la regla, es el conjunto de valores allí

grabados cuya existencia es independiente del aparato.

La medición puede ofrecer diferentes niveles de información, según la discriminación

(o precisión) que brinde respecto al estado en que se encuentra la variable. No es lo mismo,

por ejemplo, decir sobre una persona que es varón (variable: sexo, para la que no hay mas que

dos posibilidades) que decir que mide 1,82m (variable: estatura, para la que las posibilidades

de resultados diferentes son mayores). En función del tipo de escala que se aplique es que se

tendrá esa mayor o menor diferenciación en la información. Hay cuatro clases de escalas que

determinan distintos tipos de medición:

NOMINAL: Es la que da el nivel mas elemental de medición; la que alcanza al simple

conteo de las unidades sin que del resultado de la medición pueda establecerse un orden

jerárquico (del estilo de “mayor a menor” o “más intenso a menos intenso”). Se pueden

considerar dos tipos: dicotómicas y politómicas. Las primeras admiten sólo dos categorías

(dolor: si / no; sexo: masculino / femenino; condición al egreso: vivo / muerto); mientras que

las politómicas admiten mas de dos categorías, sin que esto implique un orden (nacionalidad:

argentino / paraguayo / brasileño / boliviano / uruguayo / peruano / español / etc.; estado

civil: soltero / casado / viudo / otros). Nótese que en todos los casos lo que se expresa es la

presencia o ausencia de la categoría. Esto se cumple, aún, en una escala politómica; en donde

sólo es posible determinar la presencia o ausencia de un estado o valor de la variable. Por

ejemplo: la categoría “argentino” (para nacionalidad) implica la ausencia de las restantes; es

decir, excluye cualquier otro tipo de nacionalidad. El estado (o valor) de esa característica se

define por el tipo SI / NO; no existiendo posibilidad de discriminación de intensidad en la

medición (siguiendo con nacionalidad: no es posible definir mayor o menor grado de

´argentino´).

ORDINAL: Con este tipo de escala el resultado de la medición se expresa por categorías que

indican un orden; aunque no es posible establecer relaciones cuantitativas entre ellas (bueno,

por ejemplo, no es el doble o el triple de regular). (Soplo: grado I / II / III / IV; temperatura:

afebril / subfebril / febril; resultado de una evaluación: excelente / bueno / regular / malo). O

sea, el uso de una escala ordinal permite establecer un “orden jerárquico” entre las categorías

de la variable; pero no es posible definir la “distancia” que separa una de otra. A su vez no es

posible distinguir entre diferentes intensidades dentro de una categoría. Si a la variable edad


se la mide con una escala ordinal se tendrán categorías del tipo: niño / adolescente / adulto /

viejo; en donde la categoría niño incluirá a un conjunto de observaciones con distintas edades,

no diferenciables con este tipo de medición.

DE INTERVALO: En esta escala las distancias entre categorías de las variables son

cuantificables y la separación entre unidades de la escala se hace por períodos iguales. Con

ella se miden variables cuantitativas. Una característica de este tipo de escala es que el “cero”

es arbitrario y convencional. Esto no permite la comparación entre dos escalas que no tengan

fijado en el mismo punto ese valor cero. Además, no es posible establecer razones o

proporciones entre diferentes valores (ver medidas de resumen). La temperatura es un

ejemplo: el cambio se marca por espacios iguales. Así, de 36° C a 37° C existe la misma

distancia que entre 38° C y 39° C y lo mismo se podría hacer para variaciones de décimas o

divisiones menores de la escala. Sin embargo no se puede afirmar que 40° C es el doble de

20° C. Sólo se dirá, en este caso, que 40° C son veinte grados más que 20° C. Por otra parte,

0° C no expresa ausencia de temperatura sino un estado más de la variable. Las escalas que

miden el cociente intelectual corresponde, también, a este tipo.

DE PROPORCIÓN O RAZÓN: Esta escala constituyen el nivel mas alto de medición para

variables cuantitativas. Además de las propiedades que posee la de intervalo, se destaca el

hecho de que posee el cero absoluto: este valor expresa la ausencia de la característica. Así es

posible obtener proporciones o razones entre valores. Un individuo de 40 años de edad ha

vivido el equivalente a dos de 20 años de edad. El peso, la talla, la capacidad inspiratoria y

muchas de las medidas utilizadas en medicina (antropométricas y cuantitativas de

laboratorio) utilizan este tipo de escala.

Por extensión, suele hacerse referencia a las dos primeras como escalas cualitativas y

a las dos restantes como escalas cuantitativas. En este trabajo se usa, alternativamente, esta

terminología para simplificar.

Un nivel más alto de medición (más alta discriminación) posibilita el uso de un mayor

número de técnicas estadísticas; lo que determina el alcance del análisis de los datos que se

efectuará. Por ello, es recomendable aplicar la escala de mayor nivel posible para la variable a

medir. Por ejemplo, edad acepta la medición por medio de una escala de proporción o razón.

Pero es posible, también, expresarla en categorías tales como: niño, adolescente, adulto,

viejo, utilizando una escala ordinal; y, aún, como: mayor y menor, utilizando una escala

nominal. (Siempre que hay sólo dos categorías se trata de una escala nominal). En realidad

cuando se utiliza una escala de intervalo o de proporción suele hacerse una “conversión” a

una escala de tipo nominal u ordinal, con fines de síntesis. Claro está que existen variable

que, por su naturaleza, no pueden ser medidas con escalas de intervalo o de proporción (sexo,

profesión, estado civil); por lo que, en estos casos, no cabe más que la categorización nominal

u ordinal, según corresponda. En el caso contrario, cuando se aplica una escala cuantitativa,

es posible efectuar la referida conversión. Por ejemplo, la presión arterial puede expresarse

por los valores de la medición (escala de razón) o por categorías cómo: normotensión,

hipertensión leve, hipertensión moderada, hipertensión grave (escala ordinal). Habitualmente,

en medicina se recurre a esta conversión de escalas para hacer referencia al diagnóstico, al

tratamiento o al pronóstico. Se puede decir que dicha conversión solo es posible de una escala

de mayor a menor poder de discriminación del estado de la variable: 1) de cuantitativa a

ordinal o nominal; o 2) de ordinal a nominal. Nunca en sentido inverso


Como se dijo anteriormente, el término medición no hace referencia, exclusivamente,

a la aplicación de una escala de intervalo o de proporción. Simplemente, es la aplicación de

una escala (de cualquier tipo) en la observación para el reconocimiento del estado de una

variable. El simple conteo (3 varones, 4 mujeres) es el resultado de haber utilizado una forma

(la mas simple) de medición estadística (presencia o ausencia de la categoría).

El resultado de una medición arroja un dato estadístico. Si la medición se efectuó

con una escala nominal u ordinal el dato se expresará por el nombre del estado o categoría de

la variable. Si se lo hizo con una escala de mayor nivel el dato será expresado por un valor

numérico y una unidad de medida. El valor numérico es la expresión en cifras con la que

se hace alusión al estado de la variable de acuerdo a la escala utilizada. La unidad de

medida es la base (dentro de esa escala) con la que se está expresando el resultado.

He aquí ejemplos de mediciones de variables cuantitativas de dos tipos en las que se

han utilizado una escala de proporción o razón:

Variables cuantitativas continua discreta

edad concentración de glóbulos rojos en sangre

Dato estadístico 28 años 5.000.000 de glóbulos rojos x mm3

Valor num. un. de medida / valor num. un. de medida

Una vez más se destaca: una variable puede presentar diferentes estados, o categorías

o valores (todos sinónimos). Cualquiera sea la variable observada, puede presentar distintos

valores en esta aceptación del término. En tanto, el valor numérico es una parte constitutiva

del dato estadístico proveniente de una medición con escala de intervalo o de proporción.

Otro término utilizado en Estadística es el de unidad de análisis. Está referido a:

cada elemento constitutivo del conjunto en el que se estudia un fenómeno (universo). La

definición de la unidad de análisis es de suma importancia a los efectos de que el fenómeno

que se investiga sea observado y medido, exclusivamente, en aquellos elementos que forman

parte del conjunto que es materia de estudio. La unidad de observación en tanto, es el

elemento definido para la observación efectiva del fenómeno. Si se quiere evaluar

cobertura de vacuna BCG en menores de un año de una localidad, por ejemplo, cada niño de

esa edad será la unidad de análisis; pero, a los efectos de localizar los niños en una muestra

habrán de definirse familias que serán las unidades de observación. En otros casos ambas

unidades coinciden. Algunos autores utilizan el término “unidad de análisis” para ambos

conceptos. En general, así se lo utilizará en este documento. Las unidades de análisis pueden

tener mayor o menor agregación. Pueden ser unidades de análisis de un estudio: niños

menores de un año de edad; las escuelas de una provincia; los barrios de una ciudad; las

provincias de un país; los países de un continente. Según cómo haya sido definida la unidad

de análisis, será la definición de las variables a estudiar. Algunas pueden ser utilizadas

solamente en determinados niveles de agregados. Por ejemplo: violencia familiar requerirá

una forma de medición que no es sustituible por la violencia de cada uno de sus miembros.

Otras veces, las variables de las unidades de análisis surgen de la combinación de variables

de unidades más desagregadas. Por ejemplo, la mortalidad infantil con la que se expresa el

fenómeno en una localidad o provincia es un resumen estadístico de la presencia o ausencia

del fenómeno (defunción antes del año de edad) en cada uno de los nacidos dentro de un

período.


DISTRIBUCIÓN DE FRECUENCIAS - CLASIFICACIÓN

Obtenidos todos los resultados de las mediciones de un estudio se cuenta con una

masa de datos estadísticos cuyo análisis requiere de un tratamiento previo que la haga más

comprensible. Esta es la primera de las finalidades de la estadística (citada al inicio): resumir

una masa importante de datos.

Lo primero es ordenar los datos conforme a la escala utilizada o a la naturaleza de la

variable medida. Si se aplicó una escala cualitativa la categorización es simple y se la hará

según la presencia o ausencia de la característica estudiada si es nominal (ictericia: presente /

ausente) o con arreglo a un determinado orden si es ordinal (dolor: ausente / leve / moderado

/ intenso). Si la escala es cuantitativa el orden estará en función de los valores referenciales de

la escala y los datos se “acomodarán” de forma que exista una progresión creciente o

decreciente. He aquí un ejemplo con número de hijos por mujer entrevistada en una encuesta,

tal como fue registrada la información:

0 2 3 3 0 7 0 1 1 2 1 5

3 1 3 1 4 4 1 2 7 4 3 3 2

El primer paso consiste, entonces, en ordenar los datos. Aquí se lo ha hecho en

sentido creciente. (Podría hacérselo decreciente).

0 0 0 1 1 1 1 1 1 2 2 2 2

3 3 3 3 3 3 4 4 4 5 7 7

Con esto se ha obtenido una serie. Una serie es un conjunto ordenado de datos. La

lectura y comprensión de los datos así presentados resulta, ahora, más fácil. Sin embargo,

poco puede decirse sobre que valores se repiten mas, cuáles menos o cuáles faltan en la serie;

es decir, la descripción de la misma, aún, es dificultosa. Como habitualmente se trabaja con

serie, todavía, más grandes, este problema es mayor si no se avanza en el proceso de

“resumir” la información. El paso siguiente es el agrupar los datos según la característica

referida; haciendo nucleamientos con los que arrojan iguales resultados o que reflejan un

mismo estado de la variable. Para ello se agrupan según esas similitudes, colocando el valor

de referencia y al lado las veces que ese valor se presenta en el conjunto de datos. Esto último

es la frecuencia ( f ): número de veces que un fenómeno se presenta con determinada

característica en una serie de datos. Lo que se obtiene es una distribución de frecuencias;

es decir, un ordenamiento de datos en función de los estados de la variable y de las

frecuencias que le corresponden a cada uno de esos estados.

En el ejemplo dado:

N° de hijos f

0 3

1 6

2 4

3 6

4 3

5 1

6 0

7 2 TOTAL: 25


Ahora se tienen ocho grupos de datos. Cada grupo representa un estado de la variable

(número de hijos) y “f” la frecuencia con la que se observa ese estado (mujeres que tiene ese

número de hijos). Podría sintetizarse más esta serie (haciendo mas fácil su descripción y

análisis) agrupando las observaciones que tiene un número “parecido” (aunque no

exactamente igual) de hijos.

N° de hijos f f.r.

0 a 1 9 36 %

2 a 3 10 40 %

4 a 5 4 16 %

6 a 7 2 8 %

TOTAL: 25 100 %

Se ha obtenido, ahora, una agrupación en clases. Clase es una subdivisión de una

escala que permite agrupar datos de características similares. En el último ejemplo se ha

incluido la frecuencia relativa ( f.r. ); la que resulta de expresar en forma proporcional (acá

como porcentaje) la relación de cada clase con el total. Su utilidad está dada por la mejor

comprensión que brinda la expresión en proporciones cuando lo que se desea es destacar el

peso que tiene una parte en el todo (véase “Proporciones”). Otra frecuencia que suele

calcularse es la acumulada; tanto para valores absolutos (frecuencia acumulada: f.a.) como

para valores relativos (frecuencia acumulada relativa: f.a.r) y que resultan de sumar desde

el inicio de la serie (desde el menor valor o desde al mayor valor, según como se haya hecho

el ordenamiento) las frecuencias de cada agrupamiento en forma acumulativa. Esto es útil

cuando se quiere expresar la cantidad de observaciones (en número absoluto o en proporción)

que existe desde el inicio de una serie hasta determinado valor. Continuando con el ejemplo:

N° de hijos f f.r. f.a f.a.r.

0 a 1 9 36 % 9 36%

2 a 3 10 40 % 19 76%

4 a 5 4 16 % 23 92%

6 a 7 2 8 % 25 100%

Se ha desarrollado un ejemplo de datos provenientes de una medición con escala

cuantitativa. Si los datos fueron obtenidos por aplicación de una escala cualitativa se tendrán

resultados que señalan el estado de la variable respecto a la característica buscada sin

discriminación de “intensidad”; la medición, aquí, se limita a cuantificar la presencia o

ausencia de cada una de las categorías. Supóngase los siguientes resultados para la variable

“estado civil”, correspondiente a las mujeres del ejemplo anterior, según el orden en el que

fueron registradas:

soltera casada casada soltera casada unión de hecho viuda casada soltera

soltera soltera casada casada separada casada unión de hecho soltera

casada casada casada soltera casada unión de hecho soltera casada

Aquí el ordenamiento se hace por la similitud del estado en la que se encontró cada

unidad relevada; no habiendo mayor posibilidad de discriminación en la medición por la

naturaleza misma de la escala (cualitativa):


soltera soltera soltera soltera soltera soltera soltera soltera casada casada

casada casada casada casada casada casada casada casada casada casada

unión de hecho unión de hecho unión de hecho viuda separada

La distribución de frecuencias se construiría con las siguientes clases:

N° de hijos f f.r.

soltera 8 32 %

casada 12 48 %

unión de hecho 3 12 %

viuda 1 4 %

separada 1 4 %

TOTAL: 25 100 %

El número de clases a definir dependerá del interés en diferenciar los distintos estados

de la variable. Lo que, en definitiva, se busca es obtener agrupamientos que sean

homogéneos hacia su interior (que reúnan observaciones de características parecidas) y

heterogéneos hacia afuera (diferenciables de las observaciones de otros agrupamientos).

Esta “homo” o “heterogeneidad” está referida a cómo se piensa que se comporta el fenómeno

en estudio respecto a esos agrupamientos. Las clases deben ser exclusivas y excluyentes.

Exclusivas significa que a cada observación le corresponde una clase; y excluyente que,

correspondiéndole a una observación una clase, no puede corresponderle otra.

La clasificación de datos no es más que este procedimiento por el que se ha llegado a una

distribución de frecuencias, se han obtenido clases y calculado las frecuencias de cada una.

El número de clases dependerá del interés del estudio; pero recordando el principio de

economía que debe regir en la estadística a fin de hacer más comprensible la información que

se procesa y que se analizará. Un número elevado de clases hace engorroso el análisis (casi

como si la información no estuviera agrupada); mientras que si se obtienen pocas clases la

clasificación podría no servir para mostrar diferencias de frecuencias entre grupos que,

naturalmente, son diferentes. Como quiera que se definan las clases debe tenerse presente

que una clasificación debe ser exhaustiva; esto es: todos los posibles estados de las variables

deben estar contemplados en ella. Al definir las clases en una escala cuantitativa se deben

fijar puntos de separación entre ellas (adonde termina una y comienza otra). Estos se

denominan puntos de corte y son de suma importancia para definir categorías distintas de la

variable. En medicina son útiles para diferenciar estados mórbidos, con fines de diagnóstico

y pronóstico. P.ej., si se toma 110 mg % como límite de normoglucemia; se está definiendo

que por encima se pasa a otro estado: hiperglucemia, con las implicancias de tratamiento y

de pronóstico que esta definición implica. Cuando se trata de resultados de tipo cualitativo,

cada clase corresponde a una categoría definida nominalmente (también llamada, en este

caso “atributo”).


PRESENTACIÓN DE DATOS ESTADÍSTICOS: TABLAS Y GRÁFICOS

En la presentación de un informe, al hacer referencia a un conjunto de datos

estadísticos, se puede recurrir a más de una manera de mostrar esos datos. Dependiendo del

detalle de información que se brinde y de la claridad que esto implique para la lectura y

análisis se tiene distintas formas de presentación. Entonces, la presentación de datos

estadísticos es la manera en la que se muestran los resultados de un estudio, experiencia

o investigación. Puede ser: textual, semitabular, tabular o gráfica. Desde la primera a la

última se gana en síntesis, comprensibilidad en la lectura e interpretación de los resultados;

pero, a su vez, se va perdiendo en la cantidad de información que es posible mostrar y en el

grado de precisión de los resultados presentados.

La presentación textual es la forma más simple y consiste en la inclusión de

datos estadísticos en el texto de un informe. Es decir, es una forma de brindar resultados

numéricos en el relato mismo del informe. Esto brinda la posibilidad de explicar cada grupo

de datos (o, aún, hacer referencia a un dato en particular) y discutir sobre el conjunto tan

detalladamente como al autor le interese. Claro que la lectura de esta información puede ser

abrumadora; lo que complicará su interpretación. Por ello, se suele recurrir a otras formas de

presentación complementarias de la textual; las que enriquecen el informe.

Otra manera de mostrar datos estadísticos es mediante la presentación tabular. Ésta

es una forma de presentación que utiliza una grilla en la que se incluyen las frecuencias

de las diferentes clases definidas. Una tabla estadística consta de tres partes: título, cuerpo

y notas aclaratorias. El título, que habitualmente encabeza la presentación, debe ser claro,

conciso y debe expresar cabalmente el fenómeno que se presenta. Numerado en forma

correlativa dentro del informe, el título no debe llevar abreviaturas (excepto las que son muy

conocidas y no se prestan a confusión) y suele escribirse con letras mayúsculas. Para obtener

un título completo, es decir que haga una buena referencia al fenómeno que se presenta, debe

responder a las siguientes preguntas: ¿Qué?, ¿Cómo?, ¿Dónde? y ¿Cuándo?. Estas preguntas

se refieren a: la naturaleza del hecho que se presenta (el “qué”), el criterio utilizado en la

clasificación -variables presentadas- (el “cómo”) y el lugar y tiempo en que ocurrieron los

hechos (el “dónde” y el “cuándo”). El cuerpo es la parte mas importante de la tabla; en él se

escriben las frecuencias. Es un entrecruzamiento de líneas horizontales y verticales que

forman filas y columnas y que determinan cuadriláteros a los que se les conoce como

casillas, celdas o celdillas. En la primera fila y en la primera columna se inscriben los títulos

de las columnas y de las filas, respectivamente, y corresponden a las categorías de las

variables utilizadas como criterio clasificatorio. La última fila y la última columna (a veces,

las segundas) se reservan para los totales. En las celdas se inscriben las frecuencias

correspondientes a cada clase; las que podrán expresarse en forma de valores absolutos o

relativos. Las inscripciones S/I y S/D se reservan para cuando no existe información. Nunca

una celda debe quedar vacía. En aquellas categorías en donde no hubo ninguna observación

la frecuencia será “ 0 ”. El cero, entonces, es un tipo de frecuencia. No es correcto en estos

casos, dejar la celda en blanco o colocar “ - ”. En realidad, no es correcto dejarla en blanco

en ningún caso. Si del cruzamiento de dos variables utilizadas resulta una categoría

“inexistente” se lo consignará: “ - ”. Por ejemplo, si se ha hecho una clasificación según

sexo y tipo de cáncer, en el entrecruzamiento de “femenino” y “cáncer de próstata” no habrá

una categoría posible; lo cual se lo consignará como “ – ” y no “ 0 ”. Las notas aclaratorias

van al pié del gráfico y sirven para especificar o referir algún elemento especial que deba ser

aclarado o que se desee explicar con mayor detalle. No debe abusarse de estas aclaraciones,

pues la inclusión de un texto extenso haría perder sentido a la presentación tabular.


Siempre debe incluirse la fuente de datos en esta sección. En el ejemplo dado en

distribución de frecuencias se ha trabajado con dos variables: número de hijos y estado civil

de la madre que corresponden al criterio de clasificación. La presentación tabular de los

datos trabajados quedaría como lo muestra la Tabla N° 1 (los datos son imaginarios):

TABLA N° 1: EMBARAZADAS CONTROLADAS EN EL CENTRO DE

SALUD “SAN BENITO” SEGÚN ESTADO CIVIL DE LA MADRE POR

NÚMERO DE HIJOS . GOYA (CORRIENTES). MARZO DE 2003

EST. CIVIL | N° HIJOS 0 - 1 2 - 3 4 - 5 6 - 7 TOTAL

S O L T E R A 3 3 1 1 8

C A S A D A 3 6 3 0 12

U N I O N D E H E C H O 1 1 0 1 3

V I U D A 1 0 0 0 1

S E P A R A D A 1 0 0 0 1

T O T A L 9 10 4 2 25

FUENTE: Sección Estadísticas del Centro de Salud “San Benito” (Goya, Corrientes)

NOTA: Todas las madres residen en el barrio “San Benito” de Goya, Corrientes.

Los errores mas frecuentes en la construcción de una tabla derivan de la

inobservancia de las recomendaciones generales dadas: títulos muy extensos, confusos o con

abreviaturas no usuales; clasificaciones que no son exhaustivas o no son excluyentes en sus

clases; celdas en blanco; falta de totales; notas aclaratorias demasiado extensas que

transforman la lectura de la tabla, casi, en una lectura textual, etc.

Una forma intermedia (entre la textual y la tabular) es la presentación semitabular.

Esta se caracteriza por ofrecer un ordenamiento de los datos en filas y columnas que no

reúnen todos los elementos de una tabla (título, fuentes, notas aclaratorias, trazado de

la grilla). Se la utiliza para facilitar la lectura de los datos dentro de una presentación

textual; no pudiéndosela interpretar fuera del texto que la contiene. Los agrupamientos dados

anteriormente en “Distribución de Frecuencias” son ejemplos de presentaciones

semitabulares.

Por último, se dispone de la presentación gráfica. Es una forma de presentación de

datos estadísticos mediante un dibujo que resume las principales características

cuantitativas del conjunto de observaciones medidas y sirve para comparar la

intensidad de las variables y de las categorías del estudio.

La presentación gráfica no pretende brindar precisión en los valores de las categorías

que se presentan; más bien, es un auxilio visual para facilitar la comprensión de información

numérica. La inclusión de cifras dentro del dibujo no es necesaria; siempre que no

complique la lectura e interpretación del gráfico. En este caso puede llegar a ser

contraproducente en el sentido de la finalidad misma de esta forma de presentación.

Un gráfico estadístico consta de cinco partes: título, dibujo, referencias, letreros y

notas aclaratorias. Para el título (que en los gráficos se acostumbra escribirlo abajo) y para

las notas aclaratorias se aplican las mismas recomendaciones que para la tabla estadística.

El dibujo es la parte mas importante; representándose en él las variables y categorías con sus


correspondientes frecuencias. Los letreros dan denominación a las escalas (son el nombre de

las variables presentadas). Las referencias hacen aclaraciones sobre aspectos de la técnica

del dibujo (color, textura, rayado, etc.); es decir, aclaran respecto a la manera en la que se

han representado las variables y sus categorías. A los gráficos se los clasifica según la base

utilizada para el dibujo en: gráficos de coordenadas cartesianas (de barras simples, dobles,

superpuestas, proporcionales; histogramas; lineal; semilogarítmico; de correlación); gráficos

circulares (sectorial) y gráficos mixtos (pictograma; cartograma, tridimensionales; etc.).

En el cuadro que sigue se resume la clasificación general de gráficos.

Es interesante señalar que a medida que se avanza en la clasificación (de 1. a 3. del

cuadro) los gráficos ganan en facilidad de lectura y en comprensibilidad de los fenómenos

presentados; a la vez que pierden precisión y detalles de cuantificación de las distintas

variables y categorías.

GRÁFICOS DE COORDENADAS CARTESIANAS: Utilizan este sistema para el

dibujo graficándose en el área que queda arriba y a la derecha del entrecruzamiento de una

línea horizontal (abcisa) y una vertical (ordenada). El entrecruzamiento de ambas

representa el valor cero para las escalas que se inician hacia la derecha (sobre la abcisa) y

hacia arriba (sobre la ordenada). (Algunos gráficos hacen excepción a esto último). La escala

de la ordenada indica las frecuencias de las categorías que se presentan. La escala de la

abcisa señala las categorías de clasificación. (Ver gráficos N° 1 al N° 6, inserto mas adelante,

para mayor comprensión del tema).

Los primeros de este grupo, los gráficos de barra, son de los mas utilizados para

presentaciones científicas. Sirven para datos medidos con escala cualitativa o cuantitativa

1.- GRÁFICOS DEL SISTEMA DE COORDENADAS CARTESIANAS

1.1.- DE BARRAS

1.1.1.- DE BARRAS SIMPLES

1.1.2.- DE BARRAS DOBLES, TRIPLES, MULTIPLES

1.1.3.- DE BARRAS SUPERPUESTAS

1.1.4.- DE BARRAS PROPORCIONALES

1.2.- HISTOGRAMA / POLÍGONO DE FRECUENCIA

1.3.- LINEAL

1.4.- SEMILOGARITMICO

1.5.- DE CORRELACIÓN

2.- GRÁFICOS CIRCULARES

2.1.- SECTORIAL

3.- GRÁFICOS DE TÉCNICA MIXTA

3.1.- PICTOGRAMA

3.2.- CARTOGRAMA

3.3.- TRIDIMENSIONAL

3.4.- GRÁFICO DE CAJA

ETC.


(variables discretas). Para su construcción se dibujan barras (figuras cuadriláteras de igual

ancho) que, partiendo de la línea de la abcisa, se alzan hasta la altura que referencialmente

marca la escala de las frecuencias (trazada sobre la ordenada, verticalmente). El ancho de las

barras, así como el espacio que las separa, será definido por quién construye el gráfico y

dependerá del efecto visual que se desee obtener. El gráfico de barras simple (Gráfico N°

1) sirve para la presentación de una sola variable y cada barra representa una categoría. Si la

variable, por ejemplo, es “sexo” habrá dos barras (una para “masculino” y otra para

“femenino”). Es posible presentar dos variables agrupando barras y se tienen, así, los

gráficos de barras dobles, triples o múltiples (Gráfico N° 2). En éstos cada grupo de

barras representan una categoría de una de las variables y cada tipo de barra individual

(dentro de cada grupo) representa una categoría de la otra variable utilizada como criterio de

clasificación. El gráfico de barras superpuestas o subdivididas (Gráfico N° 3) se utiliza,

también para representar clasificaciones de dos variables; pero en lugar de agrupar las barras

se las “apila”. El gráfico de barras proporcionales muestra la composición de cada

categoría de una variable según las categorías de una segunda variable (Gráfico N° 4). Es

parecido al anterior (de barras superpuestas) con la diferencia que, en el proporcional, todas

las barras tiene la misma altura. Cada una representa el cien por ciento de una categoría de la

primera variable utilizada en la clasificación y se la subdivide en función de la participación

proporcional (habitualmente., en porcentajes) que tienen las categorías de la segunda

variable. Los gráficos de barra suelen presentarse, también, en posición horizontal; es decir,

con el dibujo rotado 90° (en el sentido de las agujas del reloj); con lo que la abcisa queda

vertical y la ordenada horizontal. Esto no cambia la técnica de construcción ni la

interpretación del gráfico. Para datos cuantitativos continuos se utiliza el histograma, en

donde las categorías están representadas por “cuadriláteros” (como barras; aunque, acá,

pueden ser de ancho desiguales) que se dibujan adosados unos a otros. La intensidad del

fenómeno lo marca la superficie de esos cuadriláteros y no su altura (como en los anteriores).

En la abcisa de este gráfico se inscribe una escala de tipo cuantitativa continua y los

cuadriláteros que representarán a cada clase tendrán el ancho que sus intervalos determinen.

La altura estará dada por la frecuencia media para cada valor individual de la clase; de modo

que al multiplicar la base (el intervalo) por la altura (esa frecuencia media) dará la frecuencia

total de la clase. Por ejemplo, si se tiene que para una clase de 5 a 9 años de edad hay una

frecuencia de 80 casos, el ancho será el dado por los valores “5” y “9” de la escala de la

abcisa y la altura será de “16”; que es el promedio de casos por año de ese grupo. Un

ejemplo de histograma es la pirámide de población. Si se traza el perfil del histograma

uniendo los puntos medios de los lados superiores de cada cuadrilátero (y borrando el resto

del dibujo del histograma) se obtendrá una línea “quebrada” que indicará (con el área que

quede por debajo) la frecuencia del fenómeno; y los distintos niveles de la línea, las

variaciones por clase. A este gráfico se lo llama polígono de frecuencias y, su utilidad, se

hace más manifiesta cuando en un mismo gráfico se dibujan varios “perfiles de histograma”;

ya que, con esto, se puede comparar un fenómeno en diferentes poblaciones.

El gráfico lineal es útil para presentar series de datos obtenidas por mediciones a lo

largo del tiempo. Sirve para mostrar la tendencia de fenómenos (o variables); ya sea, a través

de los años o meses de un período de tiempo o de las diferentes edades de una población.

Para su construcción se marcan puntos en los lugares en que se entrecruza la referencia de la

escala de la abcisa (un año, un mes, una edad determinada) con la frecuencia que le

corresponde en la escala de la ordenada. Al unir estos puntos se traza una línea que es lo que

da el nombre a este tipo de presentación. (Gráfico N° 5). Pueden graficarse más de una

variable o más de una categoría de una variable. Cada una será representada por una línea. El

número de líneas a dibujar estará determinado por las que puedan leerse sin confusión.


Aunque clasificado por separado, el gráfico semilogarítmico es, en definitiva, un gráfico de

tipo lineal; con la salvedad que para las frecuencias (sobre la ordenada) se usa una escala

logarítmica. En ella la progresión de los valores se hace en forma geométrica y no aritmética.

Es decir, a igual tramo en la escala no corresponde un igual incremento en valores absolutos

(10, 20, 30); sino un igual incremento en términos relativos (10, 100, 1000). (Gráfico N° 6).

Esto permite comparar fenómenos (o variables) cuyas intensidades corresponden a tramos

muy distantes en la escala de referencia y en donde las tendencias no son bien reflejadas por

el gráfico lineal. Los gráficos 5 y 6 presentan las tasas de mortalidad infantil y de mortalidad

materna de un área (expresadas por mil nacidos vivo) en sendas series según los siguientes

valores:

1985 1987 1989 1991

Mortalidad Infantil 66,0 48,0 38,0 35,0

Mortalidad Materna 3,0 2,2 1,7 1,0

Como puede observarse las variaciones son mayores (en términos de diferencia

absoluta de los valores) para la mortalidad infantil que para la mortalidad materna; lo que

determina una caída más pronunciada en la curva que refleja el primer fenómeno. Sin

embargo, en términos relativos el descenso ha sido mayor para la mortalidad materna: en el

período referido descendió a un tercio desde su inicio; mientras que la mortalidad infantil

descendió menos de la mitad de su nivel inicial.

El gráfico de correlación se utiliza para representar dos variables cuantitativas que

han sido medidas simultáneamente en cada unidad de observación; por ejemplo: glucemia y

glucosuria. Poseen, en consecuencia dos escalas (una para cada variable) que se trazan sobre

la abcisa y la ordenada, respectivamente. En este caso, esas escalas no necesariamente deben

partir de “ 0 “. En realidad, debe marcarse el tramo de la escala que vaya del menor al mayor

valor para cada una de las dos variables. A su vez, y a fin de obtener el efecto visual que se

describirá, el largo de ambas escalas debe ser igual. Cada unidad de observación es

representada por un punto que se marca en la intersección de líneas imaginarias que pasan

por los valores correspondientes en cada una de las escalas. El conjunto de puntos

(correspondiente al conjunto de observaciones) forma un sombreado, un “puntillado”

(nombre, este último, con el que se conoce, también, a este gráfico) cuya dispersión en el

área indicará si existe alguna asociación estadística entre ambas variables. Si el puntillado

forma una franja que corre oblicuamente de izquierda a derecha, en forma ascendente o

descendente, indica que hay alguna asociación. Ésta será “directa” si es ascendente: ambas

variables se mueven en un mismo sentido en cada escala (como temperatura y pulso); e

“inversa” si es descendente: las variables se mueven en sentido opuesto en cada escala

(como ingreso familiar y desnutrición infantil). Cualquier otra distribución del puntillado

indicará que no existe “asociación estadística” entre las variables. Y esa asociación será más

fuerte cuanto menos ancha sea esa franja (más se acerque a una línea) y, a su vez, más se

aproxime a los 45º de inclinación. El coeficiente de correlación de Pearson indica la fuerza

de esa asociación. Este coeficiente varía entre -1 y +1. Ambos valores indican una

asociación perfecta: a igual incremento en la escala de una variable corresponde un aumento

o una disminución (asociación directa o inversa) siempre igual en la escala de la otra

variable. No existe un valor universalmente aceptado como “bueno” para este coeficiente;

aunque comienza a considerarse una asociación aceptable cuando es superior a 1 (con

cualquier signo).


GRAFICOS CIRCULARES: A este grupo corresponde un solo tipo: el gráfico

sectorial. Es, éste, un gráfico de fácil comprensión que no requiere demasiado

entrenamiento para su lectura. Por este motivo es útil, también, para difusión masiva de

datos estadísticos. Sirve para la presentación de datos provenientes de mediciones con

cualquier tipo de escala. Para su construcción se utiliza la escala radial, en donde los 360°

(toda la superficie del círculo) representan el total de observaciones. Cada categoría de la

variable que se presenta ocupará un sector del círculo, cuya superficie será proporcional al

peso que tiene esa categoría en el total de las observaciones. Por ejemplo, en un grupo cuya

composición por sexo sea: 80 varones y 40 mujeres, la determinación del sector que le

corresponde a cada categoría se obtiene por una la regla de tres simple:

VARONES

120 observaciones 360°

80 observaciones X

X = 80 x 360

= 240°

MUJERES

120 observaciones 360°

40 observaciones X

X = 40 x 360

= 120°

120 120

(Los varones serán representados por un sector de 240° y las mujeres por uno de 120°)

En la página de gráficos se presenta mediante un sectorial (el N° 7) a las mujeres de 0

a 1 hijo según estado civil correspondiente a la serie presentada en la Tabla N° 1 ( y en los

gráficos 1 a 4). Son limitaciones del gráfico sectorial: se debe conocer la totalidad de las

observaciones (trabaja con el 100%) y no es aconsejable representar más que una variable

como criterio de clasificación. (Una segunda variable obligaría a subdividir los sectores; lo

que lo haría muy confusa la lectura e interpretación).

GRÁFICOS DE TECNICAS MIXTAS: El pictograma es útil para difusión masiva por

ser muy comprensible; aunque carece, en absoluto, de precisión. (No es usado,

habitualmente, en presentaciones científicas). Lo que se busca con este gráfico es la rápida

interpretación; para lo que se usan dibujos (esquemáticos, artísticos o humorísticos) en los

que cada unidad dibujada representa un número de observaciones. Así, por ejemplo: si se

quiere representar “camas hospitalarias por provincia” y una provincia tiene dos mil camas,

se pueden dibujar veinte elementos (un dibujo simple que represente una cama) dándole el

valor de cien camas a cada elemento del dibujo. Como puede deducirse, es ésta una forma

de presentación donde la precisión es muy escasa. (Si se deseara graficar dos mil catorce

camas, por ejemplo, habría que recurrir a un elemento más para incluir las catorce unidades

excedentes de dos mil; el que sería incompleto y, obviamente, muy impreciso).

El cartograma es un gráfico que utiliza un mapa, un plano o un croquis para referir

frecuencias de fenómenos acaecidos por áreas geográficas. Las frecuencias se representan

por colores o diferentes tramados del dibujo; o adhiriéndole chinches, alfileres, imanes que

expresen determinado número de casos por elemento agregado; o, simplemente, inscribiendo

el número de casos en área. Tiene la particularidad de que, sobre el dibujo base, es posible la

actualización permanente de los datos; lo que lo convierte en un medio útil en vigilancia

epidemiológica. (Los gráficos lineales comparten esta utilidad).

Los gráficos tridimensionales tienen las características de los gráficos de barra; pero

le agregan una tercera dimensión (en profundidad). De esta manera es posible representar


hasta tres variables: una por cada grupo de barras, otra por cada barra dentro de cada grupo y

otra por cada plano en profundidad. Su lectura e interpretación es más compleja que los

anteriores.

Un gráfico de mucha utilidad para la comparación de diferentes series de datos

cuantitativos es el gráfico de caja (“box-plot”, en inglés). Para su construcción, SE traza una

escala (la de los valores de referencia) sobre una línea vertical que es creciente de abajo

hacia arriba; y a su derecha, la/s caja/s. Cada una de ellas representa una serie. La caja es un

cuadrilátero que tiene por altura la extensión que va del cuartil 1 al cuartil 3 de la serie (ver

Medidas de Resumen); es decir, comprende al 50 % de las observaciones. El ancho no tiene

más significado que el determinado por la estética del dibujo. Dentro de la caja, una línea

transversal marcará la ubicación de la mediana. Hacia arriba y hacia debajo de la caja salen

líneas verticales (llamadas “bigotes”) que tendrán, como máximo, una longitud igual al largo

de la caja; hasta abarcar el 95 % de las observaciones; es decir, corresponde a la amplitud

dada por dos desvíos estándar (ver Medidas de Resumen). Terminan en los llamados

“cercados interiores”. Si no hay observaciones que lleguen a esos extremos, el bigote podrá

ser más corto y, también, podrán ser diferentes el superior al inferior. Si la serie Con puntos

o estrellitas se marcan observaciones distantes; las que están por fuera de los bigotes. Como

puede verse, este gráfico permite tomar conocimiento de las características de una serie: su

simetría, su apuntamiento (curtosis), la ubicación de la mediana, del intervalo intercuartílico

y de eventuales valores extremos; así como, comparar varias series en un mismo gráfico. La

Figura 1 muestra una serie asimétrica, con su cola más larga hacia los valores más altos de la

serie y sin que se observen “periféricos” (observaciones que están más allá de los cercados

interiores. Aquí se ha dibujado una serie y de manera horizontal; pero, lo habitual (se reitera)

es graficar la caja verticalmente y, por otro lado, puede compararse varias series en la misma

presentación.

1 2 3 4 5 6 7 8 9

(años de edad)

Figura 1: Gráfico de caja en una distribución “muy sesgada” (sesgo positivo).

Existen otros tipos de gráficos que por su complejidad y su menor uso en medicina y

en ciencias sociales no son pertinentes desarrollar en este documento. El buen manejo de los

ya descriptos es suficiente para una buena presentación de datos en esas disciplinas.

Es importante considerar que, en la actualidad, los programas informáticos realizan

gráficos de todo tipo. Con solo introducir datos y seleccionar el tipo de dibujo el programa

efectuará una presentación que, por otra parte, supera estéticamente lo que pueda hacerse

manualmente. Sin embargo, esto no invalida el conocimiento básico de graficación que

debiera disponerse a la hora de “graficar” con la computadora; puesto que la indicación de

qué gráfico utilizar en cada caso, así como ciertos efectos del diseño, son posible sólo si el

operador conoce la necesidad de su introducción. Un programa es capaz de mostrar un


dibujo totalmente inadecuado al fenómeno estudiado o que no exprese lo que se desea si no

se han sabido dar lar órdenes pertinentes.

Para finalizar este punto es menester reiterar que las formas de presentación tabular y

gráfica persiguen la finalidad de mejorar la comprensión de los datos presentados y solo

debe recurrirse a ellas cuando la complejidad de la información lo haga recomendable.Un

informe pletórico de tablas y dibujos no aseguran la calidad de la presentación y, mucho

menos, la validez de la información que se está brindando.

MEDIDAS DE RESUMEN

Se ha visto que una de las finalidades de la estadística (la primera) es la de poder

resumir una masa importante de datos a efectos de mejor comprender las variaciones del

fenómeno (o fenómenos) en estudio. Algo de esto se logra al ordenar, clasificar y

presentar los datos. Sin embargo, aún así, no se expresa con suficiente síntesis la

distribución de frecuencias de los datos. Es mas cómodo (y más útil para el análisis) el

trabajar con unos pocos valores que representen al conjunto observado. Para el citado

objetivo se recurre a las medidas de resumen (MR): instrumentos estadísticos que

sintetizan en unos pocos valores los correspondientes a un conjunto numeroso de

observaciones. Es decir, son valores que representan a una serie. A estos valores que

“resumen” a otros se los llama, también, estadísticos.

Dependiendo de cómo han sido medidas las observaciones existen MR para escalas

cualitativas y MR para escalas cuantitativas. Las primeras corresponden a las cifras

relativas, (muy utilizadas en epidemiología) y conocidas como: proporciones, tasas y

razones. Dentro de las segundas se tiene a las: medidas de posición (de tendencia central

-MTC- o promedios y no centrales –los cuantiles-) y medidas de variabilidad o de

dispersión (MD). En la página siguiente se presenta un cuadro con una síntesis de la

principales MR utilizadas.

CIFRAS RELATIVAS: Es la que resulta de relacionar dos valores absolutos; en dónde

uno es tomado como base de comparación. Desde el punto de vista matemático es un

cociente.

Las proporciones son cifras relativas en las que el numerador está contenido en el

denominador (proporción de alumnos de sexo masculino de un curso, p. ej.). Las tasas son

proporciones especiales en las que se expresa el riesgo (= probabilidad) de ocurrencia de un

fenómeno. La característica especial por las que se las diferencia de las proporciones

comunes es la referida expresión de riesgo y la necesidad de un período de referencia

durante el cual hayan ocurrido los hechos. La tasa indica la “velocidad” de ocurrencia de un

fenómeno y el riesgo de la población expuesta de padecerlo. Por ello, se dice que siempre

está implícita la idea de un período de ocurrencia: el período en el que ocurrieron los hechos.

Una tasa de mortalidad es un ejemplo. En tanto que la proporción indica la participación de

una categoría dentro de una variable, sin que sea necesario un período para su referencia. El

porcentaje de alumnos varones (anteriormente mencionado) es una proporción. Ambas son

cocientes en los que el numerador está contenido en el denominador. En consecuencia, el

resultado variará entre “ 0 ” y “ 1 ”. Como los fenómenos de morbilidad y mortalidad son de

baja frecuencia, ese resultado suele ser un número con varios ceros después de la coma; lo


que lo torna difícil de expresar y de interpretar. Por eso, se lo multiplica por un factor de

amplificación que no es más que la unidad seguida de cero; utilizándose más habitualmente:

100, 1000, 10000, 100000, 1000000. El uso del factor de amplificación, además, permite

comparar cifras relativas correspondientes a poblaciones diferentes en tamaño; ya que ajusta

la expresión del fenómeno al número de casos por “XX” cantidad de habitantes. Así, al decir

que una tasa de mortalidad general es del 8.0 ‰ se está diciendo que cada mil habitantes

mueren 8 en el período de referencia. El factor de amplificación utilizado hace referencia a la

cantidad de población (denominador) tomado para la expresión del fenómeno.

ESCALA TIPO DE MEDIDA MEDIDA DE RESUMEN

CUALITATIVA

CIFRAS

RELATIVAS

- PROPORCIONES

- TASAS

- RAZONES

CUANTITATIVA

MEDIDAS DE

TENDENCIA

CENTRAL

- MEDIA ARITMETICA

- MEDIANA

- MODO

MEDIDAS DE POSICIÓN

NO CENTRALES

CUANTILES o FRACTILES:

- PERCENTILES

- DECILES

- QUINTILES

- CUARTILES

ETC.

MEDIDAS DE

VARIABILIDAD

O DE DISPERSIÓN

- AMPLITUD

- DESVIO MEDIO

- DESVIO ESTÁNDAR

- INTERVALO INTERCUARTÍLICO

Una razón, en tanto, es una cifra relativa que relaciona dos fenómenos diferentes

(p.ej.: densidad poblacional = habitantes / superficie) o dos categoría diferentes de un mismo

fenómeno o variable (p.ej.: índice de masculinidad = varones / mujeres). Pueden llevar o no

factor de amplificación. Si se coloca el valor mayor en el numerador el resultado se

expresará por “cada unidad del denominador”. (Densidad de habitantes: 12 hab/km2).

Sin embargo, y sólo por costumbre, algunas razones se utilizan con factor de amplificación.

(Índice de masculinidad al nacer: 106 varones c/100 mujeres).

Las cifras relativas son de uso frecuente en epidemiología y salud pública;

sugiriéndose la consulta de un texto de estas disciplinas para una explicación más detallada.


MEDIDAS DE TENDENCIA CENTRAL: Las MTC (o promedios) son MR que

tienden a ubicarse en el centro de una serie de observaciones y sirven como valores

representativos de la misma. Brindan información sobre el punto (o tramo) de la escala de

referencia donde se “posiciona” la distribución; por lo que se las llama, también,

constantes de posición.

La media aritmética (X) es una medida algebraica de esa posición media; para cuyo

cálculo se tienen en cuenta los valores de todas las observaciones de la serie. En el lenguaje

no técnico es el conocido como promedio; aunque, estadísticamente, promedio es sinónimo

de medida de tendencia central. Matemáticamente, se obtiene por la sumatoria de los valores

de cada una de las observaciones dividido el número de esas observaciones:

n

x

n

i

i

x 1

Donde: X = media aritmética

= sumatoria de los valores de las observaciones ( i )

n = número de observaciones

Si se trata de datos agrupados en clases el numerados será la sumatoria de los

productos de los puntos medios de clase por la frecuencia de clase. (Punto medio de clase:

promedio de los límites superior e inferior de una clase –mayor y menor valor

respectivamente- que se utiliza como valor representativa de la misma). El denominador

siempre se refiere al conjunto de observaciones. Pueden resumirse las ventajas de la media

aritmética así: es el más conocido de los promedios, es de cálculo fácil, toma en cuenta todas

las observaciones y tiene estabilidad en el muestreo (medias obtenidas de diferentes muestras

de un mismo universo tienden a ubicarse en un mismo punto de la escala). Respecto a sus

desventajas puede decirse: no es posible utilizarla cuando no se conocen los valores de

algunas de las observaciones y tiende a desplazarse del centro en series muy asimétricas (lo

cual puede ocurrir, por ejemplo, cuando existen valores extremos o aberrantes). Se entiende

por valores aberrantes a aquellos que se apartan del agrupamiento principal de la

distribución. Su presencia influye en la media aritmética haciendo que la misma se desplace

hacia el extremo donde se ubica el valor aberrante, dejando de ser una MTC ya que su valor

no tenderá a ubicarse en el centro de la serie.

Obsérvese el siguiente ejemplo de datos referidos a edades (en años):

2, 2, 3, 4, 4, 5, 5, 5, 6

Aplicando la fórmula: la sumatoria de los valores es 36. Al dividir esta sumatoria

por 9 observaciones, dará: 4. Por lo tanto la media aritmética es de 4 años de edad; valor

que, como puede verse, corresponde a una posición central en el tramo de la escala utilizada

para la medición de estas observaciones; es decir un valor que cae en el centro de la serie.


= 5,5 10 + 1

2

= 5,5 10 + 1

2

= 5,5 10 + 1

2

Supóngase, ahora que uno de esos valores fuera muy apartado del conjunto (un valor

aberrante):

2, 2, 3, 4, 4, 5, 5, 5, 24 (!!)

Ahora la suma será 54 y la media será de 6 años de edad. Este, obviamente, no es un

valor central y, por lo tanto, mal representará a esta serie. En estos casos resulta aconsejable

la utilización de otra medida: la mediana (Ma). Esta es una MTC que se ubica en el

centro espacial de la serie. Es el valor que corresponde a un lugar de la serie que deja

igual número de observaciones por delante y por detrás de la misma. Para su cálculo es

necesario seguir los siguiente pasos:

1) Ordenar los datos. (Es decir, hacer del conjunto de datos una serie).

2) Hallar el lugar donde cae la mediana.

3) Hallar el valor de la mediana.

Ordenada la serie se busca el lugar. Para ello se aplica la fórmula:

Siguiendo con el ejemplo anterior:

2, 2, 3, 4, 4, 5, 5, 5, 6

“5” es el lugar donde cae la mediana. Hallar el valor, en este caso en que hay un

número impar de observaciones, es fácil: es la quinta observación (contando de izquierda a

derecha o de derecha a izquierda). Esa observación tiene el valor 4. Por lo tanto, la mediana

de esta serie es de 4 años de edad.

Si el número de observaciones fuera par:

2, 2, 3, 4, 4, 5, 5, 5, 6, 8

“5,5” es el lugar donde cae la mediana; es decir en la mitad entre el 5º y el 6º lugar.

Para hallar el valor deberá sacarse la media de los valores de las observaciones que

corresponden a esos lugares; ya que 5,5 representa la mitad del espacio comprendido entre

ambas. El quinto y el sexto lugar lo ocupan observaciones que tiene valores 4 y 5,

respectivamente. Por lo tanto, la mediana será la media de 4 y 5; es decir: 4,5 años de edad.

Si existiera un valor aberrante:

2, 2, 3, 4, 4, 5, 5, 5, 24

Como puede verse el lugar de la mediana no cambia y su valor tampoco; es decir, no

se ve influido por un valor aberrante.

Podría ocurrir, también, que no se conociera el valor de una o más observaciones;

pero sabiendo que ellas existen. En este caso se distribuyen en el comienzo y en el final de la

serie como S/D (o, lo que es lo mismo, ignorándolas). Para el ejemplo dado con diez

observaciones, si se desconociera el 3 y el 6 se ordenaría así:

S/D, 2, 2, 4, 4, 5, 5, 5, 8, S/D

Nuevamente, acá se ve cómo la mediana no se ve afectada por esta circunstancia.

9 + 1

2

n + 1

2

= 5


Para datos agrupados en clases la mediana se calcula siguiendo los tres pasos

descriptos con anterioridad; sólo que, en este caso, el lugar donde cae la mediana estará

ubicado dentro de una clase. Para obtener el valor (que estará comprendido dentro de esa

clase) se aplica una fórmula especial por la que se establece la proporción del intervalo de

clase que representa la distancia entre el inicio de la misma y el lugar donde cae esta MTC.

(Intervalo de clase: distancia entre una clase y la siguiente, indica el tamaño de la clase o el

tramo de la escala de referencia que la define).

En resumen, las ventajas de la mediana son: es útil en series muy asimétricas (como

las que se obtienen cuando existen valores aberrantes) y es aplicable aún, cuando falta

información (como ocurre en series agrupadas con clases abiertas). Sus desventajas son: su

cálculo es algo más complejo que el de la media; es, matemáticamente, menos exacto como

promedio y su estabilidad en el muestreo es menor. Aunque aquí se ha clasificado a la

mediana como de uso para datos cuantitativos, es aplicable también en datos provenientes de

una medición con escala ordinal. Ordenados los datos de manera jerárquica, la mediana

corresponderá al valor de la observación ubicada en el centro; igual que con datos

cuantitativos, aunque no se exprese numéricamente.

Por último se dispone del modo (Mo) que es el valor que se repite con mayor

frecuencia en una serie. En el ejemplo que se viene desarrollando:

2, 2, 3, 4, 4, 5, 5, 5, 6, 8

El modo será 5 (5 años de edad) ya que se presenta con mayor frecuencia que los

otros valores. Son ventajas del modo: es fácilmente comprensible y de fácil obtención. Y son

sus desventajas: matemáticamente es el promedio menos exacto; no tiene estabilidad en el

muestreo; puede no ser una MTC y, aún más desventajoso, una serie puede tener más de un

modo (series bimodales, polimodales) e, incluso, no tener ninguno. Como promedio es el

menos útil como medida de tendencia central (usado aisladamente). También el modo es

aplicable en datos cualitativos: será, simplemente, la frecuencia del tipo de dato que más se

repite.

En realidad las tres medidas son útiles de alguna manera y su uso simultáneo brinda

información, no sólo de la posición que la distribución de frecuencias ocupa en la escala de

referencia, sino también de la mayor o menor simetría de la curva que la representa, como lo

muestra la Figura 2.

modo

modo media

mediana mediana media modo mediana media

asimetría negativa curva simétrica asimetría positiva

Figura 2: Diferentes curvas de distribución de frecuencias (según su simetría) y

ubicación de la medidas de tendencia central.


Cuanto más simétrica sea esa curva, más tenderán a confluir las tres medidas en el

centro de la misma. En las curvas asimétricas la media aritmética se desplaza en el sentido

del lado en donde se encuentra el mayor peso o la cola más larga; alejándola de la posición

central. En tanto, la mediana, habitualmente, se desplaza menos; lo que la ubica entre la

media aritmética y el modo. Este, siempre estará en el punto más alto de la curva ya que, por

definición, es el valor de mayor frecuencia en la serie. Cuanto más apartadas están estas

medidas entre si indican una mayor asimetría de la distribución. Representando gráficamente

estas distribuciones:

MEDIDAS DE POSICIÓN NO CENTRALES: Son medidas de posición que no se ubican

en el centro de la distribución. Surgen de divisiones de la serie en tramos iguales de

observaciones. Son los cuantiles o fractiles. El valor del cuantil será el que le corresponda

a la observación ubicada en la posición que esta medida señala. De aquellos, los más usados

son: los percentiles, los quintiles, los deciles y los cuartiles. Los percentiles (P), o

percentilos o centiles o centilos, resultan de dividir la serie de observaciones en cien. De

modo que hay cien percentiles, uno por cada división centesimal. Cada percentil tomará el

valor que corresponde a la observación ubicada en esa división centesimal. Se nominan del

“percentilo 1” (P1) al “percentilo 100” (P100).

Supónganse los siguientes valores y frecuencias acumuladas en una serie de

cuatrocientas observaciones de sujetos normales:

Glucemia (mg /100cc): 67 75 83 87 91 95 98 100 105 112

Observación N°: 4 40 120 160 200 280 320 360 380 400

Percentilo: 1 10 30 40 50 70 80 90 95 100

Hasta el valor 67 hay cuatro observaciones = 1% de observaciones de la serie

67 mg es el percentilo 1

Hasta el valor 83 hay 120 observaciones = 30% de observaciones de la serie

83 mg es el percentilo 30

Hasta el valor 112 hay 400 observaciones = 100% de observaciones de la serie

112mg es el percentilo 100

Entonces, el percentilo 40 será 87 mg /100 cc; el percentilo 50: 91 mg/100 cc; etc.

Obsérvese que la mediana constituye el percentilo 50.

Con la misma metodología puede dividirse la serie en cinco y se obtienen los

quintiles (Q); o en diez y se obtienen los deciles (D); o en cuatro y se obtienen los cuartiles

(C). El C1 = P25, el C2 = P50, el C3 = P75. Es decir, el decil 5 y el cuartil 2 corresponden

al percentilo 50; el que, a su vez es la mediana.


Aunque estas son medidas de posición dan idea, también, de la dispersión de los

valores al señalar el mayor o menor alejamiento del cuantil respecto al centro de la

distribución. Cuando está indicado el uso de la mediana como MTC se la suele acompañar

de los cuartiles, como MD. Se llama intervalo intercuartílico (o recorrido o rango

intercuartílico)a la diferencia entre el tercer cuartil (C3) y el primer cuartil (C1). Este

espacio abarca el 50% de las observaciones.

MEDIDAS DE VARIABILIDAD O DE DISPERSIÓN: Las MD son MR que sirven

para expresar como se distribuyen las observaciones en una serie. Son el complemento

necesario de las medidas de tendencia central para describir una distribución de frecuencias.

Las MTC indican en qué punto de la escala se ubica la distribución y las MD como se

dispersan sus observaciones. Se describirán, aquí, dos de las más utilizadas: amplitud o

rango y desvío estándar.

La amplitud o rango es la diferencia entre el mayor valor (extremo superior) y el

menor valor (extremo inferior) de una serie. (También existe una amplitud de clase que

es la diferencia entre el mayor valor, o límite superior y el menor valor, o límite inferior de

una clase). La amplitud da una idea acerca de la dispersión de las observaciones; pero es la

menos útil para ese fin.

El desvío estándar (s) es la medida de dispersión más utilizada y se calcula en

base a la media aritmética. Se halla con la fórmula que se muestra a continuación; en

donde puede advertirse que su valor dependerá del “distanciamiento” que tengan los valores

de las observaciones individuales respecto a la media.

2

2

1

-

n

xx

s

n

i

i

Donde: x = media aritmética x = valor de cada una de las observaciones

= sumatoria de los valores de las observaciones (i )

n = número de observaciones

Como puede observarse, se trata de promediar los desvíos de cada valor individual

respecto de la media aritmética. (El exponente tiene por finalidad anular la compensación

que resultaría al sumar desvíos de signos opuestos y la raíz cuadrada es para invertir aquella

operación). En la “curva normal” (correspondiente a una distribución de frecuencias

simétrica) el valor del desvío estándar sumado y restado a la media abarca el 68,3% de

las observaciones. Si se utilizan dos desvíos estándar se abarca el 95,4 % y con tres el

99,7 % de las observaciones. (Porcentajes aproximados). Esta es la importancia de esta


medida de resumen: poder expresar con un valor en cuánto se apartan de la media aquellos

porcentajes de observaciones; lo que indica su dispersión.

Siguiendo el ejemplo trabajado hasta aquí, se tenía la serie: 2, 2, 3, 4, 4, 5, 5, 5, 6

(edad en años). Aplicando la fórmula del desvío estándar se obtiene un valor de 1,33 años de

edad (redondeando en dos decimales). Ya se había calculado la media (4 años de edad). Por

lo tanto puede afirmarse que el 68,3 % de las observaciones tiene edades que están

comprendidas en el intervalo de 4 1,33 años de edad; es decir en el intervalo

comprendido entre 2,67 y 5,33 años de edad, que son los valores que resultan de sumar y

restar a la media aritmética una vez el valor del desvío estándar. Si se suma y resta el valor

correspondiente a dos desvíos estándar: 4 2,66 años de edad se tendrán los límites (1,34 y

6,66 años de edad) del intervalo entre los que estarán comprendidos el 95,4 % de las

observaciones. Por último sumando y restando el valor correspondiente a tres desvíos

estándar a la media se tendrá comprendido el 99,7% de las observaciones. ¿Por qué no se

cumplen con exactitud las proporciones en esta distribución?. Primero, porque el tipo y

número de observaciones no permite el cálculo de los porcentajes dados. Pero, por otra parte

y más importante que lo anterior, porque estas proporciones se darán si la distribución es del

tipo “normal” (ver curva normal). Sin embargo, aún en los casos en que el fenómeno se

presenta con una distribución “aproximada” a la normal (como son muchos de los

fenómenos que se observan en la realidad estudiada por la medicina y por la salud pública)

es aplicable el cálculo del desvío estándar; el que brindará intervalos en los que el número de

observaciones tendrán porcentajes aproximados a los dados. En la figura N° 3 (tomada de

“Introducción a la Bioestadística” de H. Bancroft) puede observarse como se distribuyen las

observaciones en la curva normal según el desvío estándar.


Una idea de la dispersión de una distribución, también, se obtiene a partir del

coeficiente de variación (CV). El CV es el cociente entre la distribución estándar y la media

aritmética, expresado en porcentaje. P. ej., si se tiene una media de estaturas de 170 cm y un

desvío estándar de 17 cm, el cv será del 10 %. Cuanto menor sea este porcentaje habrá una

mayor concentraión de las observaciones alrededor de la media respecto a sus valores.

Dos medidas mas, que describen la distribución de frecuencia, completan el conjunto

de estadísticas utilizadas para la descripción de un conjunto de observaciones. Son la

curtosis y la simetría. Sobre esta última ya se mostraron diferentes distribuciones. El valor

que refiere esta característica oscila entre – 1 y +1. Siendo “ 0 “ el valor correspondiente a

una distribución simétrica, un valor negativo indicará asimetría negativa (o sesgo negativo:

la cola más larga hacia los valores inferiores de la escala) y un valor positivo asimetría

positivo (o sesgo positivo: la cola más larga hacia los valores superiores de la escala}.

La curtosis, en tanto, señala el grado de dispersión de los datos en torno a la mediana. O sea,

cuán “picuda” o “aplanada” es la curva. También, aquí los valores oscilan entre – 1 y + 1.

Las curvas se denominan “leptocúrticas” cuando son apuntadas (“picudas”), “platicúrticas”

cuando son aplanadas y mesocúrticas a las de situación intermedia. A esta última le

corresponde el valor “ 0 “ en esta medida; el que será positivo cuando tienda a leptocúrtica y

negativo cuando tienda a platicúrtica.

La curva normal es la que representa a un tipo de distribución de frecuencias

simétrica a la que se adaptan (por aproximación) muchos de los hechos y fenómenos

biológicos y sociales. En ella las tres MTC coinciden en un lugar de la escala que

corresponde al acmé (punto más elevado) de la curva y dividen la distribución en dos

mitades iguales (imagen en espejo); comprendiendo, cada una, el cincuenta por ciento de las

observaciones y la distribución de esas observaciones se hace de acuerdo a los porcentajes

vistos en “desvío estándar”. La asimetría y la curtosis tienen valor “ 0 “ en este tipo de

distribución. En realidad, prácticamente no hay fenómeno en medicina y en ciencias sociales

cuya distribuye tenga estas características. Sin embargo, las estimaciones estadísticas que se

basan en medidas como el desvío estándar se utilizan, aún, en el caso que el fenómeno no

tenga un comportamiento “exactamente” como el de la distribución normal. Estos

estadísticos, ofrecen un razonable grado de aproximación para la valoración de las

distribución de las observaciones; excepto que la serie sea marcadamente asimétrica.. Si la

distribución es “muy asimétrica” el error puede ser importante y conviene, en ese caso,

utilizar otras medidas como la mediana y los cuantiles, según lo desarrollado en el párrafo

anterior

La importancia en medicina de comprender estos aspectos básicos de la curva normal

radica en que lo definido como normal para los fenómenos que aquélla estudia hace

referencia a la normalidad estadística. Al aplicar una prueba diagnóstica a sujetos normales

(definidos como tales por una prueba patrón: anatomía patológica, por ejemplo) se obtiene

una gama importante de resultados. Si con éstos se construye una curva se observará que la

mayor frecuencia se encuentra al centro; declinando las frecuencias hacia los extremos.

Existen valores apartados en la curva correspondientes a observaciones que, siendo normales

(según criterios patrón), son poco frecuentes y, en realidad, están en un sector de la escala en

donde es más común observar sujetos anormales (siempre de acuerdo al criterio patrón). Se

suele definir como “normal” a los resultados de una prueba que se encuentran en el intervalo


comprendido por la media aritmética ± 2 desvíos estándar. Esto representa el 95,44 % de las

observaciones; o sea, habrá un 2,28 % de sujetos normales que presentarán valores por

debajo y otro tanto por encima de aquel intervalo. Este casi 5 % de normales (según el

criterio patrón) serán catalogados como “anormales” por el resultado de la prueba.

Ha modo de síntesis, he aquí un cuadro con las medidas de resumen más

comúnmente utilizadas y posible de aplicar según el tipo de escala usada en la medición de

las variables:

Debe entenderse que las escalas de mayor poder de discriminación en la medición

suman a las medidas señaladas para ellas las que son posibles de aplicar en escalas de más

bajo poder de discriminación.

INFERENCIA ESTADÍSTICA

El término “inferencia”, en sentido general, se refiere al conocimiento que se

obtiene a partir de otros conocimientos disponibles. La expresión “inferencia estadística”

está vinculada a la aplicación de técnicas estadísticas dentro de ese significado.

Inferencia estadística es una de las funciones de la estadística que permite hacer

generalizaciones de resultados obtenido en muestras, seleccionadas de manera

aleatoria, al universo del cual aquéllas fueron extraídas; estimando la probabilidad de

error debido al azar.

Por esta definición, ya puede derivarse que este capítulo de la estadística viene a

cumplir la segunda finalidad de esta disciplina (“cuantificar la influencia del azar”) señaladas

al comienzo de este documento.

Los estudios sobre poblaciones humanas se realizan, generalmente, sobre una

muestra del universo investigado. Esto es así por la amplitud que suelen tener dichos

universos y por tratarse, muchas veces, de conjuntos permanente cambiantes. La técnica del

muestreo permite obtener resultados que, cuando aquélla se ha realizado con rigurosidad

metodológica, son generalizables a la población de la que fue extraída la muestra y, aún, a

otras poblaciones que posean características similares. Sin embargo, estas generalizaciones

tienen un margen de error derivado del hecho mismo de no trabajar con el total de las

observaciones sino con una parte que (en algunos casos) puede no ser representativa del


conjunto. Entiéndase por “error”, aquí, al obtener una muestra no representativa del universo

a pesar de haberse seguido una técnica de muestreo correcta. Si bien no es posible identificar

a la muestra no representativa, puede estimarse la probabilidad de que los resultados

obtenidos provengan de una de ellas. Se suele representar esa estimación por la letra “ p ”

seguida de una fracción de la unidad que indica la probabilidad de error. Por ejemplo:

“ p 0,01 ” significa que existe no más del uno por ciento de probabilidad de que el valor

de la muestra no se corresponda con el del universo. A este nivel de “p” se le llama nivel de

significación estadística. Suele tomarse como aceptable un nivel de significación estadística

no mayor al cinco por ciento ( p 0,05 ); aunque esto es una convención que sólo intenta

marcar un margen de seguridad y suele ser exigido para la aceptación de trabajos científicos.

Básicamente, las inferencias que se realizan a partir de muestran tienen dos

aplicaciones: 1) estimar un parámetro poblacional y 2) estimar diferencias entre grupos.

ESTIMACIÓN DE PARÁMETROS: Se denomina estimador a un valor correspondiente

a una medida estadística obtenido en una muestra. Son estimadores las medidas de resumen:

x = media aritmética, Ma = mediana, s = desvío estándar; y, también, medidas riesgo, de

correlación y diferencias encontradas en muestras. En tanto, parámetro es el valor de una de

esas medidas en el universo y que se desea estimar a partir de los valores muestrales. Los

parámetros de las medidas de resumen se simbolizan con letras griegas: μ = media

aritmética; σ = desvío estándar. Esta inferencia suele hacerse expresando un tramo de la

escala dentro del que se piensa está el parámetro. Este tramo, que se denomina “intervalo de

confianza se construye calculando, previamente, el error estándar de la muestra (EEM).

Este proviene de una fórmula en dónde entran en consideración: la variabilidad del fenómeno

(desvío estándar, p. ej.) y el tamaño de la muestra. El valor del EEM sumado y restado al del

estimador (valor de la muestra) definirá el intervalo de confianza. Puede construirse un

intervalo de confianza aplicando 1, 2, 3 ó más EEM. La cantidad de EEM con la que se

construya el intervalo definirá el nivel de confianza con el que se realiza la estimación. Ese

nivel tiene valores similares al del desvío estándar: 68 %, 95 %, 99 %, según se tomen 1, 2, 3

desvíos estándar. Si se expresa, por ejemplo, que la media de la colesterolemia encontrada

en un estudio fue de:

225 mg / 100 cc (I.C. 95 %: 200 mg, 250 mg / 100 cc)

se está diciendo que, habiéndose obtenido un valor medio en la muestra de 225 mg/100 cc, la

media poblacional se estima que está entre 200 y 250 mg/100 cc con un nivel de confianza

del 95 %. Ahora bien, si ese es el nivel de confianza, lo que resta (un 5 %) será la

probabilidad de que el valor del universo NO esté dentro de ese intervalo. Por ello, el

resultado anterior, también, puede verse expresado de la siguiente manera:

225 mg / 100 cc 25 mg / 100 cc con una p 0,05

que significa que, habiéndose obtenido un valor medio en la muestra de 225 mg/100 cc, la

media poblacional se estima que está entre 200 y 250 mg/100 cc, con una probabilidad de

error no mayor al cinco por ciento.

Los valores que marcan los extremos del rango de la estimación se denominan

límite superior y límite inferior del intervalo de confianza.


Adviértase, entonces, que el error estándar es utilizado, en definitiva, para valorar la

probabilidad de que la estimación no sea la adecuada en virtud de que la muestra utilizada no

sea representativa del universo, a pesar de habérsela obtenido por un procedimiento

probabilístico. El error proveniente vicios o errores metodológicos en la selección de la

muestra no son mesurables estadísticamente.

Por último, se advierte que “error estándar” no es lo mismo que “desvío estándar”;

aunque para sus respectivas finalidades utilicen porcentajes iguales según el número de

estadístico tomado. El desvío estándar se aplica para mesurar la dispersión de valores

individuales en la muestra; mientras el error estándar se utiliza para valorar la probabilidad

de que un parámetro se encuentre dentro de un determinado rango de valores (intervalo de

confianza).

ESTIMAR DIFERENCIAS ENTRE GRUPOS: Las diferencias encontradas entre dos

grupos muestrales pueden corresponderse con diferencias “reales” (es decir que ambos

grupos provengan de universos diferentes) o ser, simplemente, diferencias encontradas por

haberse tomado una o más muestras no representativas de un universo único. Se denomina

prueba de hipótesis al testeo de una hipótesis para aceptar a diferencias encontradas entre

grupos muestrales como diferencias reales; es decir, correspondientes a diferencias entre

universos distintos. Éste es el caso de, cuando en un trabajo experimental, a un grupo se le

suministra una droga nueva, por ejemplo, y al otro se le aplica el tratamiento habitual o un

placebo. También, cuando en un estudio observacional se desea evaluar la relación entre un

daño y un factor de riesgo determinado (comparando las diferencias cuantitativas del daño

entre el grupo de expuestos y el de no expuestos). En estos casos se utiliza la expresión

“las diferencias fueron (o no fueron) estadísticamente significativas” para referir la

mencionada probabilidad de error. Serán estadísticamente significas si el valor de “p” es

igual o menor al 5 % (p 0,05); aunque éste es un valor tomado convencionalmente, como

ha sido dicho ya. Pudiera ser que ese valor sea superior al 5 % (p. ej.: p 0,10); pero las

diferencias sean importantes como para tenerlas en cuenta desde el punto de vista de la

intervención a realizar. Por eso cuando se expresa que la diferencia no fue estadísticamente

significativa, conviene consignar tanto el valor de la diferencia como el de “p” para dejar que

el lector pueda hacer su propio análisis. Como se ve, “significación estadística” no “implica

importancia clínica”. Las diferencias entre los grupos pueden ser importantes para la

clínica; aunque estadísticamente no se haya obtenido significación. Y lo contrario:

diferencias significativas estadísticamente pueden ser de muy poca utilidad en la clínica.

Obsérvese que la aplicación del término ´significativo´ es utilizado con la finalidad

estadística de extrapolación al universo y no de importancia por su magnitud.

Para obtener el valor de “ p “ se utilizan pruebas de significación estadística;

dentro de las cuales están: el chi cuadrado ( x2 ) y la t de Student ( t ). Existe una

importante variedad de éstas y otras pruebas de significación según el diseño y tipo de

estudio. Los cálculos que permiten obtener los valores de estas pruebas exceden los

propósitos de este documento y, actualmente, están disponibles en los principales programas

informáticos de análisis estadísticos. De todos modos, siempre la interpretación es la misma:

el valor de “p” hace referencia a la probabilidad de error en la generalización de los

resultados.

También puede valorarse estadísticamente las diferencias aplicando el intervalo de

confianza. La técnica será la misma: al valor de la diferencia se le suman y restan errores

estándar de la diferencia para construir un intervalo que tendrá el nivel de confianza


correspondiente al número de errores tomados; y que se expresará de la misma manera que la

que se hace al estimar un parámetro..

Como se ha visto, entonces, las técnicas de significación estadística se la utiliza:

1) cuando se desea estimar un parámetro poblacional, mediante el uso de intervalos de

confianza; y

2) cuando se desea valorar la probabilidad de que una diferencia hallada en muestras pueda

generalizarse a la población, mediante el uso de pruebas de significación estadística o

del intervalo de confianza.

BIBLIOGRAFÍA

1. Bancroft H. Introducción a la Bioestadística. Buenos Aires: EUDEBA; 1965.

2. Camel F F. Estadística Médica y de Salud Pública. Venezuela: Unde los Andes; 1970.

3. Milton JS. Estadística para Biología y Ciencias de la Salud. 2ª ed. España: McGraw-

Hill Interamericana; 1994.

4. Norman G, Streiner D. Bioestadística. 2ª ed. Madrid: Mosby/Doyma Libros; 2001.

5. Pineda EB, de Alvarado EL, † de Canales FH. Metodología de la investigación.

Manual para el desarrollo de personal de salud. Serie PALTEX para ejecutores de

programas de salud Nº 35. 2a. ed. Washington: OPS; 1994.

6. Riegelman R K, Hirsch R P. Cómo estudiar un estudio y probar una prueba lectura

crítica de la literatura médica. OPS/OMS, Publ Cient 531; 1992.

7. Weintrub J, Douglas C, Gillings D. Bioestadística en Salud Bucodental. Washington:

OPS; 1989.

estadistica...una escala de medición es el conjunto (ordenado o no) de categorías (o estados o...

Documents