1 · web viewsiempre que se realizan observaciones en el campo de las ciencias sociales,...
TRANSCRIPT
Elementos básicos de la estadística Liliana Recchioni
ELEMENTOS BASICOS DE LA ESTADISTICA
ORIENTACION EN CIENCIAS de la SALUD
(Carrera Terapia Ocupacional)
2015
Liliana Recchioni1
Elementos básicos de la estadística Liliana Recchioni
Indice
1. CONCEPTOS BÁSICOS EN ESTADÍSTICA...................................................................41.1. Definición de estadística. Ramas..........................................................................1.2. Población y muestra. Parámetros y estadísticos....................................................1.3. La operacionalización de conceptos......................................................................1.4. Variables. Clasificación de variables. Escalas de medición...................................1.6. Recopilación de datos. Matriz de datos.................................................................1.7. Etapas de la investigación estadística...................................................................Resumen .....................................................................................................................Actividad 1...................................................................................................................
2. SISTEMAS DE INFORMACION DE SALUD...................................................................162.1. Fuentes de información. ........................................................................................2.2. Los sistemas de información en salud.....................................................................2.2.1. Sistema estadístico de salud .............................................................................2.2.2. Sistema nacional de vigilancia epidemiológica..................................................2.2.3. Sistema de vigilancia epidemiológica sobre SIDA..............................................2.3. Subsistemas de sistema estadístico de salud..........................................................2.4. Servicio estadístico de un hospital o de establecimiento sanitario...........................Resumen .....................................................................................................................Actividad 2...................................................................................................................ANEXO.........................................................................................................................3. MUESTREO...............................................................................................................173.1. Elementos de muestreo........................................................................................3.2. Muestra aleatoria simple.......................................................................................3.3. Muestra sistemática..............................................................................................3.4. Muestra estratificada proporcional........................................................................3.5. Muestreo por conglomerado.................................................................................Resumen .....................................................................................................................Actividad 3...................................................................................................................
4. RESUMEN DE LA INFORMACIÓN...................................................................................................................................................................................................................254.1. Distribución de frecuencia para variable cualitativa. ..............................................4.1.1. Cálculo de la tabla de frecuencia para una variable.................................................................................................................................................................................4.1.2. Tablas de frecuencias conjuntas para variable cuantitativa: tablas de contingencia.................................................................................................................4.2. Distribución de frecuencias de una variable cuantitativa discreta. Elaboración de tabla. Cálculo de las distintas frecuencias..............................................4.3. Distribución de frecuencias de una variable cuantitativa continua. Elaboración de la tabla de frecuencias. Histograma. Polígono de frecuencia. Curva de frecuencias acumuladas.................................................................................4.4. Presentación de la información. Texto. Cuadros estadísticos. Partes de un cuadro. Elaboración. Gráficos estadísticos: de sectores, de barras, lineales...................Resumen .....................................................................................................................Actividad 4...................................................................................................................ANEXO..........................................................................................................................
5. ESTADÍSTICA DESCRIPTIVA......................................................................................525.1. Análisis de una variable cualitativa. Proporción. Razón. .............................................................................................................................................................................5.2. Análisis de una variable cuantitativa. Medidas de tendencia central. Media, Mediana y Modo. Cálculo en distintas situaciones. Comparaciones e interpretación............................................................................................................... .....................................................................................................................................
2
Elementos básicos de la estadística Liliana Recchioni
5.3. Medidas de orden: Cuartiles y Percentiles. Usos e interpretación de resultados.....................................................................................................................5.4. Medidas de dispersión. Rango. Variancia. Desviación estándar. Coeficiente de variación. Cálculos e interpretación. ......................................................5.5. Diagrama de caja y bigotes....................................................................................Resumen .........................................................................................................................................................................................................................................................Actividad 5...................................................................................................................ANEXO I.......................................................................................................................ANEXO II.......................................................................................................................
6. LOS INDICADORES DE SALUD...............................................................................................766.1. Cifras absolutas y relativas.6.2. Razones. Proporciones. Tasas.6.3. Indicadores de salud6.4. Clasificación de indicadores de salud.6.5. Cálculo de indicadores de salud Actividad 6......................................................................................................................................
7. Análisis bivariado.....................................................................................................777.1. Correlación Lineal.................................................................................................7.2. Regresión lineal....................................................................................................7.2.1. Introducción.......................................................................................................7.2.2. Diagrama de dispersión.....................................................................................7.2.3. Modelo estadístico.............................................................................................7.3. Medidas de asociación..........................................................................................7.3.1. Coeficiente de contingencia de Pearson (C).........................................................7.3.2. Coeficiente de contingencia de Crámer (V)........................................................Resumen .....................................................................................................................Mapa conceptual..........................................................................................................Actividad 7...................................................................................................................
8. Probabilidad................................................................................................................................ 908.3 Función de densidad para variables continuas. Distribución Normal ......................................Resumen........................................................................................................................................Actividades.....................................................................................................................................
3
Elementos básicos de la estadística Liliana Recchioni
1.CONCEPTOS BASICOS EN ESTADISTICA
Presentación
La estadística no es ajena a ninguna disciplina. Con ella podemos interpretar y concluir sobre información que se posea de cualquier tema de interés. Esta unidad contiene las definiciones de conceptos básicos que se utilizarán durante todo el curso. Además permite entender la importancia de la estadística dentro del proceso de investigación científica de enfoque cuantitativo.
1.1. Definición de la estadística. Ramas de la estadística.
La mayor aplicación de la estadística en cualquier campo se basa en la posibilidad de dar
cuenta o brindar información sobre observaciones. Siempre que se realizan observaciones en
el campo de las ciencias sociales, biológicas, educacionales, etc., aun cuando se tomen las
mayores precauciones para unificar las condiciones, los resultados varían.
En algunos campos de la investigación como las ciencias físicas, varían menos, en otros como
en las ciencias sociales y de la conducta, aun cuando el investigador se esfuerce, las
diferencias serán importantes. Cuando las observaciones a pesar de hacerlas en condiciones
muy similares, dan resultados diferentes la estadística brinda herramientas para describir y
avanzar aún más en el análisis de la información. Este hecho conduce al objetivo central de la
estadística, que es, el estudio de la tendencia de los resultados y las sus variaciones, como así
también la manera de representarlos gráficamente.
Entonces, existen mediciones que son determinísticas, como es el caso de las observaciones
en general en las ciencias físicas, y otras que son aleatorias como en las ciencias sociales. La
aleatoriedad implica no poder predecir con exactitud el resultado, pero a través de la
descripción y el análisis de los resultados de ciertos fenómenos se podrá hablar de tendencia
de la información o de probabilidad de ocurrencia de un determinado hecho. Por lo tanto para
el segundo tipo de observaciones es necesario contar con recursos para obtener, resumir,
analizar y concluir sobre la información con la que se cuenta para estudiar una determinada
realidad o hecho que interese.
La Estadística es la ciencia que aporta los métodos científicos por medio de los cuales es
posible recolectar, organizar, resumir, presentar y analizar datos relativos a un conjunto de
individuos u observaciones y que nos permiten extraer conclusiones válidas y efectuar
decisiones lógicas basadas en dicho análisis.
Según Levine (2006):
“la estadística es la rama de las matemáticas que examina las formas de procesar
y analizar datos. La estadística ofrece los procedimientos para recolectar y
transformar los datos de manera que sean útiles a quienes toman decisiones.”
4
Elementos básicos de la estadística Liliana Recchioni
La estadística se utiliza para aquellos casos en los que existe una una gran cantidad de
observaciones y cuya aparición se rige por las leyes del azar o aleatorias.
Su aplicación tiene lugar porque los fenómenos de algunas ciencias no se dan siempre iguales
entre sí exactamente, sino que presentan variaciones, es decir, que la aplicación de la
Estadística es posible porque existen, entre los hechos o los fenómenos que deben estudiarse,
pequeñas diferencias debido a una serie de causas tan numerosas y complejas que no se
pueden determinar por separado y que se incluyen dentro del nombre común de azar.
Por lo tanto ante estas situaciones la estadística busca describir la información, y a partir de allí
realizar inferencias, es decir concluir a un conjunto mayor al observado. Es por eso que el
principal objeto de la ciencia estadística consiste en obtener inferencias válidas a partir de
datos observables. Es por ello que se generan constantemente nuevas técnicas para realizar
inferencias en las múltiples situaciones que se generan en las diversas áreas del conocimiento.
Si se desea comparar qué tipo de lectura interesa a los niños de la Provincia de La Rioja, de
ambos sexos, comprendidos entre los siete y doce años, y cuál a los niños de la Provincia de
Catamarca de iguales características, sería imposible preguntar uno a uno a todos los niños de
ambas provincias. No se puede recoger datos de esa la población infantil riojana y
catamarqueña. Lo único que es posible es tomar un grupo de niños y niñas riojanos, es decir
una muestra o una parte del conjunto de individuos que interesa, e investigar lo que ese grupo
dice, describir esa muestra y hacer lo mismo con la muestra catamarqueña. Pero lo que
interesa no es ese grupo que se observó o que se seleccionó en las muestras. Lo que se
pretende es hacer comparación respecto de toda la población riojana y catamarqueña de esa
edad, en base a la descripción o información que nos han proporcionado las muestras.
La estadística puede dividirse en dos grandes ramas, perfectamente diferenciadas no
solamente por los objetivos que se persiguen, sino también por los métodos que se utilizan,
estos son:
La Estadística Descriptiva o Deductiva.
La Inferencia Estadística o Inductiva.
La Estadística Descriptiva, describe las características de una población o describe una
muestra cuando no se puede obtener datos de todo el conjunto. Es decir que tiene por objeto
recoger, describir y analizar las características de una población o muestra, tratando de poner
de manifiesto la estructura y regularidades existentes en los elementos de la población o
muestra, no ocupándose de comportamientos individuales.
La Estadística Inductiva o Inferencia Estadística, cuyo objeto es investigar cómo deben ser
utilizados los datos de la muestra, para inferir determinados resultados o probar algunas
hipótesis sobre la población entera a la que pertenecen esos datos. Trata de generar métodos
para extraer conclusiones para un conjunto mayor al observado, basado en el cálculo de
5
Elementos básicos de la estadística Liliana Recchioni
probabilidades, es decir en los comportamientos probabilísticos de algunas variables o
características.
1.2. Población y muestra. Parámetros y estadísticos.
Se entiende por población, colectivo o universo, el conjunto de personas, animales o cosas
que son objeto de estudio de una investigación.
Peña y Romo (1997) definen:
“El universo de objetos al cual se refiere el estudio que se pretende realizar recibe
el nombre de población”
Es muy importante que la población esté perfectamente determinada sin ningún tipo de
ambigüedad o posible confusión, de tal forma que se sepa de manera inequívoca si una unidad
pertenece o no a la población. Por ejemplo, en un estudio sobre docentes de nivel primario,
debe aclararse si es de toda la provincia, de un departamento o de una escuela; si al hablar de
docentes se incluyen a titulares, interinos, suplentes, etc..
Cada una de las unidades que componen la población se denomina elemento o individuo de la población. Por ejemplo: una casa, un auto, una familia, un animal, una superficie, un
alumno, una escuela, etc..
Evidentemente el elemento es el objeto de observación estadística y debe estar definido con
absoluta precisión, evitando todo posible tipo de ambigüedad o confusión, tanto para los
investigadores que obtendrán los datos en el campo de la observación, como para los usuarios
de las estadísticas.
La muestra es un subconjunto de la población, una parte seleccionada de la población
extraída con objeto de obtener información sobre la totalidad de ésta. El requisito principal que
debe reunir una muestra es la representatividad, o sea que los resultados que se obtengan de
la misma deben concordar con los que se hubiesen obtenido de haber sometido a observación
toda la población.
Lo cierto es que no toda muestra es representativa, es decir no toda parte de la población,
representa a la población. Una muestra puede ser una parte de la población que no la
representa bien, por ejemplo si se quiere estudiar o investigar la trayectoria de los alumnos en
el nivel primario y sólo se seleccionan los 1ros. grados de las escuelas, es posible que esta
trayectoria no represente la de los alumnos de los demás grados. Por lo tanto para encontrar
una muestra representativa de la población se debe utilizar un método de forma tal que todos
los elementos de la población puedan estar incluidos en la muestra.
Una muestra es aleatoria cuando todos los elementos de la población de la cual se extrae,
tienen la misma posibilidad de ser seleccionados. La muestra aleatoria no asegura la
representatividad pero si es un procedimiento para lograrlo.
6
Elementos básicos de la estadística Liliana Recchioni
Las características de una población que se obtienen, considerando todos los elementos de la
misma se denominan parámetros. Por ejemplo el promedio de edad de todos los alumnos de
educación primaria de una determinada provincia es el parámetro de edad promedio. El
parámetro entonces, es una medida numérica que describe a la población.
Las características de una muestra, que se obtienen utilizando esos datos muestrales se
denominan estadísticos. Estos son valores que siempre apuntan a estimar o dar cuenta de un
valor poblacional, es por ello que cuanto mejor sea la muestra, cuanto más representativa de la
población los estadísticos mejor estimarán los valores poblacionales, es decir a los parámetros.
1.3. La operacionalización de conceptos.Sobre los individuos de las poblaciones o muestras deben hacerse observaciones que
representan la medición de un concepto teórico. Este paso del concepto teórico a la medición
se denomina operacionalización. Una observación podrá ser numérica como el peso, la edad,
el ingreso, o bien representar una cualidad como la nacionalidad, el género. Estas
características son más simples y familiares para medir, pero en un estudio podría interesar
medir el miedo, la tristeza o el aprendizaje. En ese caso es necesario definir conceptualmente
lo que se desea medir y luego operacionalizarlo, es decir definir con qué característica se
medirá ese concepto.
Entonces, para realizar una observación sobre un individuo debe definirse la característica a
medir, es decir lo que se denominará variable. En el caso de la altura ella se medirá en metros,
en el caso del ausentismo en un determinado año de estudio, se medirá con la cantidad de
ausentes sobre el total de alumnos. En estos ejemplos se han operacionalizado la altura y el
ausentismo.
1.4. Variables. Clasificación de variables. Escalas de medición.Los elementos o individuos de una población o muestra, poseen una serie de cualidades,
propiedades o rasgos comunes que se denominan caracteres o variables. Por ejemplo, en un
estudio sobre docentes universitarios todos los elementos (docentes) poseen, entre otras, una
serie de características:
1. Título que posee.
2. Edad.
3. Estado civil.
4. Número de hijos.
5. Postgrados realizados.
6. Antigüedad en el cargo.
Es evidente que una investigación estadística no puede referirse al análisis exhaustivo de todos
los caracteres de los elementos de la población, ya que el número de caracteres distintos de un
7
Elementos básicos de la estadística Liliana Recchioni
elemento pueden considerarse es excesivamente grande y además, porque, generalmente, la
investigación va orientada en una cierta dirección que ha sido marcada previamente por el
investigador; por ejemplo, al hacer un estudio de la población de Catamarca, habrá que señalar
desde qué punto de vista se pretende realizarlo, ya que se puede estar interesado en
objetivos, sociales, económico, cultural, político, demográfico, etc..
Figura 1: Clasificación de variables.
Variables cualitativos o atributos, son aquellos que por su propia naturaleza no se pueden
cuantificar y se describen mediante palabras. Por ejemplo: el sexo, nacionalidad, raza, color de
pelo, estado de ánimos, etc..
Pueden presentar distintas modalidades. Por ejemplo,
Sexo: varones, mujeres.
Nacionalidad: español, argentino, italiano, etc..
En muchos casos, y con el fin de simplificar el tratamiento de estas variables cualitativas o
atributos, se suelen codificar, es decir, se les asigna a cada modalidad un número, sin que
esto represente ninguna cuantificación, ni ordenación posible.
Por ejemplo, si el carácter es tipo de ocupación, las modalidades serán los distintos tipos de
ocupación posibles y se puede codificar de la siguiente manera:
1. Administración Pública Provincial
2. Administración Pública Nacional
3. Empleado de la industria
4. Empleado de comercio
5. Docente
6. Trabajador independiente
7. Otros
8
Elementos básicos de la estadística Liliana Recchioni
Una variable es cuantitativa cuando se puede describir mediante número, es decir, que son
susceptibles de cuantificación o de medida. Por ejemplo: puntajes de un test, edad, el peso, la
altura, etc..
Dicho de otra manera, un carácter es cuantitativo si sus diversas modalidades son medibles o
numerables, o sea, si a cada una de las modalidades se les asigna un número, que recibe el
nombre de valor de la variable estadística, resultando que las diferentes modalidades de un
carácter cuantitativo son los diferentes valores posibles o diferentes grupos de valores posible
de la variable estadística. Por ejemplo: la estatura de un alumno, el salario mensual, la edad
de una persona, puntajes de un test, cantidad de errores de ortografía en un dictado, cantidad
de alumnos matriculados por escuelas, etc..
Dentro de las cuantitativas pueden encontrarse dos tipos o clases de variables; variables discretas y variables continuas.Una variable es discreta si toma un número finito o infinito numerable de valores, o dicho de
otra forma, si entre dos valores consecutivos puede tomar a lo sumo un número finito de
valores.
Ejemplo:
Cantidad de hijos, cantidad de alumnos por grado, cantidad de obreros de una
fábrica, cantidad de errores de ortografía en un dictado, cantidad de niños en edad
escolar por hogares, cantidad de pacientes de un hospital, etc..
Una variable estadística es continua si toma un número infinito de valores en un intervalo, o
dicho de otra manera si entre dos valores consecutivos puede tomar cualquier otro.
Ejemplo:
Peso de pacientes, altura, porcentaje de respuestas correctas, producción de
fábrica, salarios de médicos de un hospital, montos de ventas de un comercio, etc..
Escalas de medición. Existen cuatro clases de escala que aparecen de manera común en las ciencias del
comportamiento: nominal, ordinal, de intervalo y razón o proporciones. Ellas difieren en el
número de atributos u operaciones matemáticas que poseen como válidas, además la
distinción entre los cuatro tipos de escalas de medición es importante por distintos motivos.
Una de ellas que queda en claro, es que las mediciones en que se piensa usualmente
constituyen solo una forma, de entre varias posibilidades de medición. No todo procedimiento
estadístico es utilizable con datos de cualquier escala de medición.
Escala nominal.
9
Elementos básicos de la estadística Liliana Recchioni
Es el nivel más simple y primitivo. Una escala nominal es un sistema de clasificación cuyas
categorías difieren entre si cualitativamente y no en grados o en orden. Las categorías deben
ser mutuamente excluyentes, es decir, deben ser tales que ningún sujeto pueda ser incluido en
dos de ellas. Cada sujeto u observación se incluyen en una y solo una categoría. Las
categorías deben ser también exhaustivas, esto quiere decir que para todos los sujetos en
observación, existe una categoría en que pueden ser incluidos.
Ejemplo:
Se mide sobre pacientes de un determinado hospital el barrio al cual pertenecen. La
variable Barrio, es cualitativa medida en escala nominal.
Escala ordinal.Puede suceder que los objetos o elementos de una categoría no solo sean distintos de los de
otras categorías, sino que estén en alguna relación con ellos, por ejemplo: más alto, más
enfermo, etc.. Tales relaciones se expresan por los símbolos < y > (menor que, mayor que).
Si estas relaciones se presentan entre los pares de categorías se tiene una escala ordinal.
Ejemplo:
Se miden la nota final de un trabajo práctico. La nota toma los siguientes valores:
Excelente, Muy Bueno, Bueno, Satisfactorio, etc.. En este caso hay un orden en los
resultados de la variable nota, por lo tanto la escala es ordinal.
Escala intervalar.La propiedad más importante que presenta es que está por encima de la escala ordinal y
nominal. Es decir es una escala superior y permite asignarle valores numéricos a los resultados
de una variable ya que las distancias numéricas iguales representan distancias iguales
empíricas en la variable que miden. Es decir, que los objetos a los que se ha asignado en la
escala los números 7 y 10 están igualmente separados que los otros a los que se les ha
asignado 15 y 18 en cuanto a la variable medida.
En las escalas de intervalos iguales, el punto 0 de origen y la unidad de medida son
arbitrarios. Ciertas variables físicas como la como la temperatura, la presión, el tiempo, etc..
Pueden medirse con esta escala pero en las ciencias del comportamiento rara vez se puede
presentar esta escala, aunque la nota en un examen que varía de 0 a 10, puede considerarse
una variable medida en escala de intervalo.
Escala de razón. Cuando una escala tiene todas las características de una escala de intervalos iguales y
además tiene un punto 0 verdadero en su origen, se tiene una escala de cocientes o razones.
Sin el cero absoluto, no se puede calcular proporciones con las mediciones realizadas, es decir
10
Elementos básicos de la estadística Liliana Recchioni
que en mediciones realizadas en esta escala pueden realizarse cocientes o razones. Con esta
escala se miden variables cuantitativas discretas y continuas tales como peso, altura, cantidad
de docentes, velocidad, volumen, presión atmosférica, etc..
En la escala de razones o proporciones, todas las operaciones aritméticas son permitidas, tanto
a los valores numéricos asignados a los puntos mismos, como a los intervalos, pues existe un
cero autentico y solo es arbitraria la unidad de medición. Esta escala admite todas las
pruebas estadísticas y constituye la escala de medición más compleja.
Muchas variables y atributos psicológicos y sociológicos se miden a través de indicadores o
indicadores operacionales. Se tratan de unidades de medidas indirectas, que son aquellas que
solo pueden ser expresadas en términos de otras medidas. Por ejemplo, cantidad de errores de
ortografía en un dictado (aprendizaje de la ortografía), número de caminos erróneos que se
intentan en la resolución de un problema de razonamiento (medida de habilidad), número de
ensayos requeridos para lograr un aprendizaje (facilidad de aprendizaje), etc.. Además estas
variables poseen un 0 absoluto, es decir es correcto decir que un alumno no acertó con la
ortografía correcta en ninguna de las palabras del dictado (0 aciertos) a sostener que su
aprendizaje de la ortografía es nula y entre ambas afirmaciones hay una distancia insalvable.
1.6. Recopilación de datos. Matriz de datos.Una vez obtenidos los datos primarios, recogidos mediante alguna de las estrategias de
observación transversal descripta anteriormente; el investigador debe encontrar el mejor
camino para convertirlos en información sobre los individuos observados; información que
deberá acercar respuestas a las preguntas que dieron inicio a la investigación. En
consecuencia, en la producción de esa información son los objetivos de la investigación los que
definirán el curso a seguir en el tratamiento y análisis de los datos.
Cualquiera sean los objetivos a alcanzar con el trabajo estadístico, el tratamiento inicial de los
datos registrados debe comenzar por organizarlos en forma tal que se facilite su tratamiento.
La manera de organización que se utiliza es la conocida como matriz de datos que ordena los
datos en una planilla rectangular, posibilitando su tratamiento en los programas informáticos.
Ejemplo:
En esta matriz se dispone la información de n individuos a los cuales se les miden k
variables. Donde la primera variable podría corresponder al nombre, la segunda a la
edad, la tercera al peso, la cuarta al año de estudio que asiste etc.
11
Elementos básicos de la estadística Liliana Recchioni
Tabla 1: Distribución de una matriz de datos.Individuo Variable 1 Variable 2 - - - - Variable k123
n
Algunos de los 80 números podrían ser: 001, 132,214, 089,455,……..367.
1.7. Etapas de la investigación cuantitativa-estadística.
En investigación científica se busca generar un conocimiento nuevo a través de un camino
ordenado y sistematizado. Se puede abordar la investigación desde dos enfoques o modelos
denominados paradigmas. Existen dos enfoques el cualitativo y el cuantitativo, pero en una
investigación científica pueden utilizarse técnicas de ambos paradigmas.
Dentro del paradigma cuantitativo la herramienta fundamental para abordar los objetivos
planteados desde el inicio, es la estadística.
En toda investigación se desarrolla un diseño o pasos sistemáticos a seguir, y en la cuantitativa
esos pasos se relacionan con los de un estudio estadístico. Existe un conjunto de etapas que
deben ser consideradas para que los resultados obtenidos sean coherentes, homogéneos y
fáciles de interpretar y generalizar.
Las etapas son:
a) Formulación o definición del problema.
b) Diseño del experimento.
c) Recopilación de datos.
d) Clasificación, tabulación y descripción de los resultados.
e) Generalización e inferencia final.
a) El análisis estadístico empieza con la materia prima, que aquí está representada por los
datos estadísticos y a través de un proceso de elaboración obtiene las conclusiones
provenientes de estos elementos básicos. El primer aspecto, es conocer exactamente que
debe investigarse con el objeto de formular el problema con la mayor precisión posible. Solo así
el investigador podrá determinar cuáles son los datos más importantes necesarios a los
efectos de su investigación.
Si se falla en este análisis previo, es posible que se requieran datos básicos totalmente
irrelevantes y se omitan otros de importancia básica. A ésta altura es importante recordar que
12
Elementos básicos de la estadística Liliana Recchioni
la calidad de las conclusiones estadísticas depende fundamentalmente de la propiedad y
naturaleza de los datos, los que a su vez dependen de la exactitud en la formulación del
problema. No importa cuán refinadas y precisas sean las técnicas estadísticas utilizadas, estas
nos proveerán resultados que nos inducirán a errores en las decisiones si son aplicadas a
datos inapropiados.
b) Una vez que el problema ha sido formulado con precisión el investigador debe decidir si
estudiará la totalidad de la población o una parte de la misma a partir de la cual obtendrá las
conclusiones para la totalidad de elementos componentes del universo. En el primer caso
tendremos un censo, en el segundo una muestra.
Esto implica las siguientes preguntas, Que tamaño tendrá la muestra?. Que tipo de datos
deben ser recopilados? Estos aspectos se engloban en lo que llamamos, diseño del
experimento. Debe tenerse especial cuidado en el planeamiento y diseño del experimento, ya
que de otra manera no estaremos en condición de arribar a conclusiones válidas.
c) La tercer etapa está referida a la recopilación de los datos estadístico de acuerdo al diseño
practicado. Desde todo punto de vista ésta etapa es rutinaria y es la que más tiempo y costo
insume. Cuando se obtengan los datos se deberá abstenerse de efectuar juicios personales
actuando con total objetividad en este aspecto.
d) Una vez recopilado los datos estos deben ser elaborados de forma que puedan ser
analizados. Es decir, se clasificarán de manera sistemática y se presentaran en forma de
tablas, gráficos y diagramas. Realizado esto se calcularan las medidas estadísticas que nos
analizan los datos.
e) Si se ha trabajado con la totalidad de los elementos de la población, la etapa anterior es la
última en realizarse, en cambio si se ha trabajado con una muestra de la población, es
necesario una etapa más y que es la más interesante dentro del estudio de las estadísticas.
En este caso, se deberá aplicar metodología y razonamientos necesarios para que con los
resultados de la muestra hagamos inferencia para la totalidad de la población.
Resumen
En este módulo hemos llegado a la conclusión de que la Estadística es una ciencia
fundamental para la investigación científica. Posee dos ramas la descriptiva y la inferencial y es
una herramienta importante para el método científico y está presente en sus diversas etapas.
Un concepto muy importante que debemos considerar, es el de población. Comprende un
conjunto de individuos de interés para la investigación, en ella se definen los parámetros. Por lo
general no se puede trabajar con la población y se extrae una muestra, parte de ella, y sobre
los elementos se realizan mediciones de variables. Es relevante que podamos distinguir que las
variables provienen de la operacionalización de conceptos más complejos, y que pueden
13
Elementos básicos de la estadística Liliana Recchioni
clasificarse como cualitativas o cuantitativas. Las escalas de medición poseen jerarquía y es
importante definirlas antes de tomar la información. Las escalas de medición se clasifican en
nominal, ordinal, de intervalo y razón.
Con estos elementos revisados en esta primera unidad estamos en condiciones de seguir la
tarea pensando en cómo podemos a partir de una población muy grande, sacar algunos
elementos para estudiarlos.
Actividad 11) Definir estadística y sus ramas.
2) Mencionar las etapas de la investigación y describirlas suscintamente.
3) Defina población, parámetro, estadístico y muestra aleatoria.
De ejemplos de población, parámetro, estadístico y cómo seleccionar una muestra
aleatoria.
4) Plantee un problema de investigación y defina:
a) la población y el elemento de la población sobre la cual se realizan observaciones.
b) plantee mediciones u observaciones de variables sobre el elemento de tipo cuali y
cuantitativas y las escalas de medición.
5) Suponga que Ud. tiene el listado de los elementos de la población.
a) Como podría realizar una muestra aleatoria?
b) Por qué es importante disponer de una muestra aleatoria?
6) Suponga el siguiente caso de investigación.
Defino como mi Población en estudio a los alumnos que cursan la carrera de Lic. de Terapia
Ocupacional de la UNLAR , cuyo tamaño es de 1.000 alumnos. Por lo tanto el Tamaño de la
población es N=1000
Defino como elemento de la Población o unidad de análisis a los alumnos.
Elemento = Alumno
Voy a trabajar con una muestra aleatoria de 20 alumnos. Por lo tanto n = 20
Las variables que voy a estudiar son: Género y Edad de los alumnos.
Conozco por trabajos previos que en la Población hay un 10 % de Varones y la Edad promedio
es de 20 años
Por lo tanto estos son los Parámetros de la población:
Porcentaje de Varones = 10 %
Edad Promedio = 20 años
14
Elementos básicos de la estadística Liliana Recchioni
Llevo a cabo mi estudio muestral y obtengo como estimación de estos parámetros obtengo a
los siguientes Estadísticos: Porcentaje de varones = 15 %
Edad Promedio = 19 años
Responder:
a) ¿Por qué hay diferencias entre los parámetros y los estadisticos?
b) ¿Cómo puedo hacer para que mis estadísticos se acerquen a mis parámetros?
c) ¿Por qué no trabajo con la Población?
d) ¿Con cuántos elementos calculo el parámetro?
e) ¿Con cuántos elementos calculo el estadístico?
7) Clasificar las siguientes variables según tipo y escala:
VARIABLE CUALITATIVAO
CUANTITATIVA
CONTINUAO
DISCRETA
Valores que asume
ESCALA
Peso Edad Altura Nivel de InstrucciónClasificación Con ConceptosClase SocialReligiónLugar De Nacim.Presión ArterialCondición de FumadorIngresosPosee Obra SocialEstado CivilTipo de patología
8) Mencione ejemplos de variable cualitativa y cuantitativa (discreta y continua)
9) Plantee una población, dos variables cuali y dos variables cuantitativas que podría medir en
cada elemento de la población.
10) Indique con qué escala mide cada variable.
11) Diseñe una matriz de datos con el ejemplo planteado en el punto 4).
15
Elementos básicos de la estadística Liliana Recchioni
2. SISTEMAS DE INFORMACIÓN DE SALUD
SOLO PARA ENFERMERÍA. NO ENTRA EN EL PROGRAMA DE TERAPIA
16
Elementos básicos de la estadística Liliana Recchioni
3. MUESTREO
PresentaciónUna vez que conocemos y estamos familiarizados con los conceptos básicos que se utilizarán en el curso, podemos pensar en generar nuestra propia información. Es necesario manejar criterios básicos para extraer una muestra de una población dado que por lo general será inaccesible para nuestros estudios.En esta unidad se presentarán los diferentes tipos de muestreo, que permiten seleccionar una parte de la población de interés.
3.1. Elementos del muestreo. La información que necesita el investigador proviene de los datos, los cuales pueden
concebirse como información necesaria para ayudar a tomar decisiones con mayores
elementos, en una situación particular.
Para que un análisis estadístico sea útil en el proceso de toma de decisiones, los datos de
entrada deben ser los apropiados. Esto hace que la etapa de recolección de datos sea
extremadamente importante. Si no sucede esto, de que los datos que se usan sean los
apropiados, los métodos estadísticos que se apliquen, conducirán invariablemente a
conclusiones erróneas.
Como la información proviene siempre de una población de interés que en la mayoría de las
ocasiones es imposible observarla en su totalidad, cobra sumo interés las técnicas de
muestreo. Los procedimientos de muestreo estadístico, es decir tomar parte de la población
total, se han convertido en la herramienta preferida y requerida en investigación, especialmente
por:
a) El tiempo.
b) El costo.
El tiempo de relevamiento se reduce si se trabaja con parte de la población, al igual que el
costo. Existen observaciones muy costosas de realizar por lo cual el muestreo conduce a
reducirlos y hacer factible la investigación. Lo mismo sucede con observaciones que, aunque
no sean costosas requerirían mucho tiempo de realizar.
Existen diferentes tipos de muestreo y ellos pueden ser probabilísticos o no probabilísticos.
Una muestra probabilística es aquella en la que los sujetos de la muestra se eligen sobre la
base de probabilidades conocidas. Los cuatro tipos de muestras probabilísticas son: aleatoria
simple, sistemática, estratificada y de conglomerado.
Un muestreo no probabilístico o accidental, implica seleccionar elementos de la población
arbitrariamente, por ejemplo seleccionar los 20 alumnos que entran primero a la escuela para
realizar un determinado estudio. No se dio en este caso, la posibilidad de integrar la muestra a
alumnos que pueden llegar más tarde.
17
Elementos básicos de la estadística Liliana Recchioni
Es necesario definir algunos elementos o conceptos básicos necesarios para desarrollar un
plan de muestreo.
Elemento.Un elemento o individuo es un objeto sobre el cual se realizan las mediciones. Los elementos
integran o conforman a la población.
Ejemplo:
Un paciente que asiste a un Centro Comunitario de salud pública durante el mes de
marzo de 2011.
Población.
Una población es una colección de elementos o individuos acerca de los cuales se desea hacer
alguna inferencia o extraer alguna conclusión.
Ejemplo:
El conjunto de todos los pacientes que asisten a un Centro Comunitario de salud
pública durante el mes de marzo de 2011.
Unidades de muestreo.
Las unidades de muestreo son colecciones no traslapadas de elementos de la población que
cubren la población completa.
En algunas ocasiones la unidad de muestreo coincide con el elemento, en otras no.
Ejemplo:
Se puede considerar a la unidad de muestreo al centro de salud para luego extraer
un paciente. Se seleccionan centros y de allí un paciente por centro. O bien la
unidad de muestreo podría ser el paciente si se posee un listado de pacientes.
Marco Muestral.
El marco es una lista de unidades de muestreo.
En ocasiones uno no posee un marco muestral que coincida con el listado de la población. O
bien es imposible lograr el listado de la población o actualizarlo, por lo tanto ese listado no será
el marco muestral.
18
Elementos básicos de la estadística Liliana Recchioni
Es imposible poseer listado de pacientes, que es una población de interés. Pero si se puede
obtener un listado de centros. Por lo tanto el marco muestral de centros puede utilizarse para
extraer una muestra de centros y de alli seleccionar pacientes.
Ejemplo:
Listado de pacientes que asisten a los centros comunitarios de salud pública o
listado de centros comunitarios de salud pública.
Muestra.
Una muestra probabilística es una parte de la población seleccionada de un marco o de varios
marcos. Es necesario recurrir a métodos que intenten lograr la máxima la representatividad en
la muestra de lo que acontece en la población con respecto a los elementos a observar. Una
muestra aleatoria puede seleccionarse a través de varios métodos.
3.2. Muestra aleatoria simple.
En una muestra aleatoria simple cada individuo o elemento tiene la misma oportunidad de
selección que cualquier otro y la selección de un individuo o elemento en particular no afecta la
probabilidad de que se elija cualquier otro. Aunque no necesariamente es el más económico o
eficiente de los métodos de selección de una muestra, proporciona la base a partir del cual han
evolucionado los otros métodos.
La clave de la selección de muestras apropiadas es obtener y mantener una lista actualizada
de todos los individuos o elementos de los cuales se extraerá la muestra. Esta lista se conoce
como “marco de la población o marco muestral”. Este marco corresponderá a la población
objetivo de tal manera que si se extrae una muestra probabilística de ese marco, será
representativa de la población y producirá estimaciones razonables de sus características.
Si el listado no es el adecuado, las estimaciones que se realicen serán inadecuadas, ya que
solo servirán para la población que se relaciona con el listado o marco muestral.
Una forma de extraer una muestra aleatoria simple es seleccionar números aleatorios de una
tabla o generarlos de un software, como por ejemplo el Excel.
Los números aleatorios son una serie de números aleatoriamente generados en un cierto rango
que indicarán cuáles de las unidades enumeradas en el marco muestral deben ser
seleccionadas para la muestra.
19
Elementos básicos de la estadística Liliana Recchioni
Ejemplo:
Si se poseen 88 Centros de salud y se desea extraer una muestra de 20 centros
debe disponerse del marco muestral, es decir del listado de centros numerados
desde el 1 al 88 y generar 20 números aleatorios (porque la muestra es de tamaño
20) entre 1 y 88. Los centros correspondientes a esos 20 números generados
entrarán en la muestra.
En este caso los centros identificados con el número 25, 48, etc,. o ubicados en ese
orden en el marco muestral son los que seleccionan para la muestra aleatoria.
Ejemplo con Excel para sacar números aleatorios
Escribir en una celda =aleatorio.entre(1,88) y estirar hasta obtener 20 datos:
En este caso se repite el valor 82, por lo tanto habrá que seleccionar un número
aleatorio más.
20
25 48 47 8 76 21 57 77 54 02
73 33 05 53 79 70 17 5 35 67
Elementos básicos de la estadística Liliana Recchioni
3.3. Muestra Sistemática.
En una muestra sistemática, se dividen N individuos o elementos del marco poblacional en k
grupos, dividiendo el tamaño de la población N entre el tamaño de la muestra deseado n. Es
decir, k = N / n donde k se redondea al entero más cercano.
Para obtener una muestra sistemática, el primer individuo o elemento se selecciona al azar
entre los k individuos o elementos del primer grupo del marco de población y, para el resto de
la muestra se elige un individuo o elemento cada k en la lista completa de la población.
Cuando el marco de población consiste en listados predeterminados es más rápido y fácil
obtener una muestra sistemática que una muestra aleatoria simple. En estas situaciones la
muestra sistemática es un mecanismo conveniente para obtener los datos deseados.
Aunque su aplicación es más sencilla, en general los métodos de muestreo aleatorio simple y
de muestreo sistemático son menos eficientes que otros métodos de muestreo probabilístico
más elaborado. Es decir, para cualquier muestra que se adquiere mediante muestras aleatorias
simple o muestreo sistemático, los datos obtenidos pueden o no ser buena representación de
las características fundamentales (parámetros) de la población.
Aunque la mayor parte de las muestras aleatorias simples son representativas de la población
correspondiente, no es posible saber si una muestra en particular es, de hecho representativa.
Se presentan posibilidades todavía mayores de un sesgo en la selección y una falta de
representatividad de las características de la población, en el muestreo sistemático. Si existiera
un padrón en el listado del marco de población, podría ocurrir errores de selección
importantes. Para evitar el problema potencial de la representatividad desproporcionada de
grupos específicos en una muestra, se pueden usar los métodos de muestreo estratificado o
muestreo conglomerado.
Ejemplo:
N=88 n=20 K=88/20=4,4 se toma un valor k=4.
Se parte del elemento aleatoriamente entre 1 y 4, supongamos 2 y a partir de alli se
extrae el elemento:
6, 10, 14, 18, 22, 26, 30, 34, 38, 42,
46, 50, 54, 58, 62, 66, 70, 74, 80, 84
Esos serán los centros seleccionados sistemáticamente.
3.4. Muestra estratificada proporcional.
En una muestra estratificada, primero se dividen los N individuos o elementos de la población
en sub poblaciones separadas, o estratos, de acuerdo con algunas características comunes e
manera tal que dentro de los estratos se logre la máxima homogeneidad y que exista
heterogeneidad entre estratos-
21
Elementos básicos de la estadística Liliana Recchioni
Una vez determinados los elementos a seleccionar de cada estrato, se realiza un muestreo
aleatorio simple dentro de éstos y luego se obtiene la muestra definitiva con los elementos
muestreados aleatoriamente de cada estrato.
Estos métodos de muestreo son más eficientes que el muestreo aleatorio simple o el
sistemático, porque garantizan la representación de individuos o elementos de toda la
población, lo que asegura una mayor precisión en las estimaciones de los parámetros
poblacionales fundamentales. Lo que proporciona la precisión, una vez combinados los
estratos, es la homogeneidad de individuos o elementos dentro de cada estrato.
Ejemplo:
Supongamos los centros divididos según la ubicación en: Urbanos y periféricos.
La proporción de estos centros en la población es:
Tabla 2: Población según estratosEstrato Tipo Población %
Estrato 1 Urbanos 60 75
Estrato 2 Periféricos 20 25
Total 80 100 Fuente: Datos Ficticios
Luego se selecciona la muestra manteniendo la proporción por estrato:
Tabla 3: Distribución de la muestra estratificada proporcional.Estrato Tipo Población % MuestraEstrato 1 Urbanos 60 75 20x0,75= 15
Estrato 2 Periféricos 20 25 20x0,25= 5
Total 80 100 20Fuente: Datos Ficticios.
3.5. Muestreo por conglomerado.
En una muestra conglomerada, se dividen los N individuos o elementos de la población en
varios conglomerados, de manera que cada conglomerado sea representativo de la población
completa.- Después, se obtiene una muestra aleatoria de los conglomerados y se estudian
todos los individuos o elementos dentro de cada conglomerado seleccionado.- Los
conglomerados pueden ser asignaciones naturales, como departamentos, ciudades,
manzanas, familias o edificio de departamento, etc..
22
Elementos básicos de la estadística Liliana Recchioni
Los métodos de muestreo conglomerados pueden ser más eficientes (con relación a su costo)
que los métodos de muestreo aleatorio simple, sobre todo si la población en cuestión se
encuentra esparcida en una vasta región geográfica.- Sin embargo, los métodos de muestreo
conglomerado tienden a ser menos eficientes que los métodos de muestreo aleatorio simple o
de muestreo estratificado, y necesitan una muestra total más grande para obtener resultados
tan precisos como los que se obtienen con los procedimientos más eficientes.
ResumenHemos podido concluir que la mayoría de las poblaciones, tienen un tamaño que es difícil de
analizar o medir en su totalidad. Por ese motivo debe tomarse una parte de ella para obtener
datos. Se puede tomar un subconjunto de elementos sin reparar en algún método que
garantice la representatividad de los elementos que se incluyen en la población como es el
caso de una muestra accidental. Existen métodos para muestrar una población de manera
probabilística, buscando la representatividad de los elementos de la población en la muestra.
Fue muy valioso considerar que para realizar un muestreo deben definirse: la población, la
unidad de muestreo, el marco muestral y el método de selección. Entre los más frecuentes se
mencionan: el muestreo aleatorio, sistemático, estratificado y por conglomerados.
Una vez que hemos seleccionado la muestra y medidas las variables que se deseen para
abordar los objetivos de una investigación, aprendimos a construir una matriz de datos.
Actividad 3
23
Elementos básicos de la estadística Liliana Recchioni
a) Realice un Glosario correspondiente a esta unidad conformado por los siguientes
conceptos:
a) Marco muestral.
b) Muestra aleatoria simple.
c) Muestra estratificada proporcional.
d) Muestra sistemática.
e) Muestreo por conglomerado.
b) Seleccione una muestra aleatoria de tamaño 10 de una población de 2000 profesionales de
la salud.
c) Si la población de profesionales posee un 70% de varones y 30% de mujeres. Cuántos
varones y mujeres debe contener la muestra de tamaño 10 si el muestreo es estratificado
proporcional.
d) Su Universidad quiere hacer una encuesta para determinar la proporción de estudiantes
que tienen un trabajo remunerado. Definir la población que se pretende estudiar y diseñar
un procedimiento de muestreo para estimar esta proporción.
e) Si se desea obtener una muestra de pacientes que acuden al servicio de traumatología del
Hospital Presidente Plaza con el fin de determinar si poseen alguna cobertura de Salud.
Suponga que cada paciente posee una Historia Clínica y que el total de pacientes a la
fecha es de 800.
a) Genere una muestra aleatoria simple de 40 pacientes.
b) indique qué pacientes se deben seleccionar si se utiliza el muestreo sistemático.
Realice Ud. ese muestreo.
f) Si el total de alumnos de una escuela es de 300 y se desea estimar la edad promedio de
los alumnos con una muestra de 15 alumnos
a) seleccione una muestra sistemática. Indique cuáles extraer.
b) Si utiliza un método de muestreo estratificado, defina cuales serían los estratos y
qué información necesito conocer para utilizar este método de muestreo.
24
Elementos básicos de la estadística Liliana Recchioni
4. RESUMEN DE LA INFORMACIÓN
Presentación.Pensemos que poseemos ya la muestra o los elementos que debemos medir. Definidas las variables a observar y una vez que se cuenta con la información, lo que interesa es resumirla.En esta unidad se analizarán las herramientas para resumir información de una variable cualitativa y cuantitativa como también de dos variables conjuntamente. Se conocerán algunas sugerencias para la presentación de la información.
4.1. Distribución de frecuencia para variable cualitativa. 4.1.1. Cálculo de la tabla de frecuencia para una variable.Existen muchas formas de organizar los datos numéricos. Se pueden recogerlos y mantenerlos
en orden, o hacer una lista de los datos de menor a mayor según su valor numérico. El objetivo
de organizar los datos es permitirnos ver rápidamente algunas de las características de los
datos que hemos recogido.
La información obtenida antes de ser organizada y analizada se conoce como datos sin
agrupar, datos originales o datos sin procesar.
El objeto de las tablas de frecuencias es mostrar de una manera muy simple y práctica, los
valores o categorías de una variable que se ha observado en el estudio realizado y registrar la
cantidad de veces que se ha repetido cada valor o categoría de la variable lo cual se denomina
frecuencia absoluta. Estas tablas se denominan series de frecuencias o distribuciones de
frecuencia, por lo tanto una distribución de frecuencia es el cuadro o tabla que presenta en
forma ordenada a los distintos valores de una variable y sus correspondientes frecuencias,
siendo estas el número de veces que se repite el valor de la variable.
Ejemplo:
Si se extrae información de una variable cualitativa de 200 pacientes por ejemplo el
género sólo es posible obtener frecuencias absolutas y relativas.
Las frecuencias absolutas fi es la cantidad de veces que se repite ese valor.
Las frecuencias relativas hi es la proporción de individuos que posee ese valor
calculada sobre el total de individuos muestrales, es igual a la frecuencia absoluta
dividida la totalidad de individuos en la muestra (164/200=0,82). Luego el
porcentaje es igual a la frecuencia relativa multiplicada por 100.
Tabla 4: Tabla de frecuencia de la variable Género.Género fi hi %
Femenino 164 0,82 82Masculino 36 0,18 18Total 200 1,00 100
Fuente. Datos Ficticios.
25
Elementos básicos de la estadística Liliana Recchioni
Se observaron 162 pacientes de género femenino y 36 de género masculino. El 82
% de los pacientes analizados o estudiados son de género femenino y el 18% de
género masculino.
La representación gráfica para esta información puede ser realizada a través de un
gráfico de sectores.
Figura 2: Género de pacientes. En porcentajes.
Fuente: Datos Ficticios.
4.1.2. Tablas de frecuencias conjuntas para variable cuantitativa: tablas de contingencia
Para ordenar la información proveniente de dos variables categóricas pueden organizarse en
cuadros o tablas que se denominan tablas de contingencia. También pueden utilizarse
variables cuantitativas categorizando sus valores, es decir trabajando con intervalos de valores
para una variable cuantitativa.
Estas tablas pueden contener las frecuencias absolutas conjuntas o bien porcentajes total, fila
o columna. Cada tabla dará luego, una información determinada y útil según lo que se quiera
leer de la información.
Ejemplo:
Un docente posee un listado de 32 alumnos que incluye el género y la carrera
universitaria a la cual se inscribieron.
26
Elementos básicos de la estadística Liliana Recchioni
Apellidos Género CarreraBustos M AbogacíaBisio M AbogacíaCallejas M AbogacíaCucos F AbogacíaFuster M AbogacíaFrutos M AbogacíaGomez M AbogacíaJozami F AbogacíaMistral F AbogacíaPerez M AbogacíaPetres M AbogacíaSuarez F AbogacíaYoma F AbogacíaZolca M AbogacíaAquines F MedicinaArce M MedicinaAlvarez F MedicinaBoca M MedicinaCasas M MedicinaColman F MedicinaDexter M MedicinaDolce M MedicinaDimo M MedicinaDuran F MedicinaDesio F MedicinaErcos M MedicinaFlores F MedicinaMarcos F MedicinaMillan M MedicinaOses M MedicinaSosa F MedicinaUrca M Medicina
Desea ordenar la información y en primera instancia realiza una tabla de
frecuencias absolutas conjuntas. La siguiente tabla se denomina tabla de
contingencia y establece la cantidad de alumnos que poseen conjuntamente ambas
características: 5 alumnos son de género femenino y se inscribieron en abogacía, 9
alumnos se inscribieron en abogacía y son de género masculino, etc..
Tabla 5: Cantidad de alumnos por género según carrera.Género
Carrera F M TotalAbogacía 5 9 14Medicina 8 10 18Total general 13 19 32
Fuente: Datos Ficticios.
En este caso lo apropiado para graficar sería utilizar un diseño de barras compuestas horizontales.
27
Elementos básicos de la estadística Liliana Recchioni
Figura 6: Cantidad de alumnos según carrera y género.
Fuente: Datos Ficticios.
Si se toman los porcentajes calculados sobre el total de alumnos de cada uno de
los géneros, es decir tomando como total de cada uno de los géneros, 13 y 19, se
obtiene una tabla de porcentajes columnas.
Tabla 6: Porcentaje de alumnos por género según carrera Género
Carrera F M TotalAbogacía 38 47 44Medicina 62 53 56Total general 100 100 100
Fuente: Datos Ficticios.
Figura 7: Porcentaje de alumnos por carrera según género.
Fuente: Datos Ficticios.
En esta tabla se puede leer que el 38% de los alumnos de género femenino se
inscribieron en la carrera de abogacía. En el género masculino el porcentaje es
mayor ya que alcanza el 47%.
28
Elementos básicos de la estadística Liliana Recchioni
Luego si se calculan los porcentajes fila, tomando como total a los valores 14 y 18
que surgen de las sumas de las columnas, se obtiene:
Tabla 7: Porcentaje de alumnos por género según carreraGénero
Carrera F M TotalAbogacía 36 64 100Medicina 44 56 100Total general 41 59 100
Fuente: Datos Ficticios.
Aquí la información provee datos relacionados al género dentro de cada una de las
carreras a las cuales se inscribieron los alumnos. Es decir del total de alumnos que
se inscribieron a abogacía, el 36% son de género femenino y del total de alumnos
que se inscribieron a medicina el 44% son de género femenino. En general puede
decirse que en abogacía hay una tendencia mayor a que los inscriptos sean de
género masculino.
Figura 8: Porcentaje de alumnos por género según carrera.
Fuente: Datos Ficticios.
4.2. Distribución de frecuencias de una variable cuantitativa discreta. Elaboración de tabla. Cálculo de las distintas frecuencias
Si lo que se desea resumir es por ejemplo, puntaje de un examen medido sobre un grupo de
alumnos de un curso de secundaria, los valores posibles serán de 0, 1, 2, 3,............, 10; es
decir que se pueden poseer hasta 11 valores distintos de puntajes. Los valores observados
serán las notas o puntaje que cada alumno obtuvo, 4, 7, 9, 3, 4, 6, 3, 8, 2,
7,..............................etc..
29
Elementos básicos de la estadística Liliana Recchioni
Las distintas observaciones o fenómenos pueden designarse por:
conforme al orden en que se presentan. Este conjunto de observaciones representa una
muestra de tamaño “n” de la población constituida por todas las observaciones posibles, que se
simboliza con N.
Luego el resumen de la información a través de la tabla o distribución de frecuencias, contará
con k valores distintos de la variable que se mide que serán menor n, las frecuencias absolutas,
las relativas y el porcentaje correspondiente, calculados de igual manera que para una variable
cualitativa.
Ejemplo:
En un barrio de la ciudad de La Rioja, se está realizando un estudio sobre la cantidad
de niños en edad escolar por hogar para determinar la demanda de ingreso en la
escuela barrial. Se observaron la cantidad de niños en edad escolar por hogar sobre
un total de 40 hogares.
1 5 3 4 2 3 2 3 4 2
2 0 1 2 5 3 4 1 3 3
4 3 2 1 3 0 2 5 3 2
3 6 3 4 2 3 4 3 1 3
Para resumir esta información proveniente de una variable aleatoria cuantitativa se
construye una tabla de frecuencias.
Tabla 8: Tabla de frecuencia de la variable Cantidad de hijos.Cantidad de hijosen edad escolar
xi
fi hi %
x1= 0 2 0,050 5x2= 1 5 0,125 12,5x3= 2 9 0,225 22,5x4= 3 14 0,350 35,0x5= 4 6 0,150 15,0x6= 5 3 0,075 7,5x7= 6 1 0,025 2,5Total 40 1,000 100,0
Fuente: Datos Ficticios.
La variable x observada es cantidad de hijos que si bien se poseen 40
observaciones la cantidad de valores distintos son 7 (k=7 desde el 0 hasta el 6), la
30
Elementos básicos de la estadística Liliana Recchioni
frecuencia absoluta indica la cantidad de hogares que tienen 0 hijos en edad
escolar, 1 hijo, etc.. La frecuencia relativa hi multiplicada por 100 da el porcentaje de
hogares que poseen una determinada cantidad de hijos en edad escolar.
El 35 % de los hogares poseen 3 hijos en edad escolar, el 57,5% poseen entre 2 y
3 hijos.
En general, la representación gráfica de una tabla de frecuencia permite percibir con mayor
claridad algunas características de la masa de datos que se investiga. Por ello, resulta bastante
más fácil transmitir conclusiones a personas no habituadas a la interpretación de distribuciones
de frecuencias cuando se utilizan gráficos estadísticos.
Para representar gráficamente se utiliza un par de ejes de coordenadas cartesianas, donde en
el eje de abscisa se representa la variable estudiada y en el eje de ordenada los valores de la
correspondiente frecuencia absoluta o relativa. En el caso de graficar datos provenientes de
una variable discreta, como la frecuencia corresponde a cada valor de la variable, se puede
representar por un bastón vertical, construyendo de esta forma el llamado “gráfico de bastones”
Figura 3: Cantidad de hijos en edad escolar. Frecuencia Absoluta.
Fuente: Datos Ficticios.
4.3. Distribución de frecuencias de una variable cuantitativa continua. Elaboración de la tabla de frecuencias. Histograma. Polígono de frecuencia. Curva de frecuencias acumuladas.
Para elaborar la tabla de frecuencia en estos casos se debe tener en cuenta que si se poseen
n datos muestrales se podrían obtener n valores distintos.
Es por ello que se debe agrupar a los valores en Intervalos de manera tal que cubran todo el
rango o recorrido de la variable.
31
Elementos básicos de la estadística Liliana Recchioni
Cada intervalo tendrá una un límite inferior (Li) y uno superior (Ls)
Para ello debe elegirse una amplitud de intervalo (A) que podría ser seleccionada calculando el
rango (Rx) y dividiéndolo por la cantidad de intervalos (Int.) que se desean.
.IntR
A
XmínXmáxR
x
x
La bibliografía aconseja entre 5 y 20 intervalos, dependiendo de los datos, de tal manera que
no se dispongan de un gran número ya que puede entorpecer el análisis de la tabla, ni tampoco
que exista un número reducido lo que genera que la amplitud de cada intervalo de clase sea
amplia y por lo tanto se pierde información.
Una vez determinada la amplitud se selecciona el límite inferior del primer intervalo, el cual
podrá ser igual o inferior al mínimo valor de la variable. Al límite inferior del primer intervalo se
le suma la amplitud para lograr el límite superior. Este será el límite inferior del siguiente
intervalo al que se le sumará la amplitud para encontrar el siguiente límite superior. Entonces el
límite inferior del segundo intervalo será igual al límite superior del primero más la amplitud y
asi sucesivamente. Aquel dato que sea igual al límite superior de cualquier intervalo se
considerará incluido en él. Es decir los intervalos incluirán los límites superiores pero no lo
inferiores.
Luego se calculan las frecuencias absolutas (o conteo), relativas (son la proporción o
frecuencias absolutas divido n que es la cantidad de elementos observados) y porcentajes tal
como se desarrolló para la variable cuantitativa discreta. Se incluye también la frecuencia
absoluta acumulada F y relativa acumulada H, que se calcula acumulando o sumando a la
frecuencia de un determinado intervalo, todas las frecuencias relativas de los intervalos
anteriores.
Ejemplo:
Los siguientes datos corresponden a la información relativa al puntaje sobre un test
de atención efectuado a 34 alumnos.
Para armar los intervalos se calculó el rango que es igual a 84-51= 33, dado que se
querían armar 6 intervalos la amplitud sería 5,5. Para no tomar amplitudes con
32
54 62 55 69 78 64 6966 61 66 58 69 78 6863 58 51 72 84 64 6653 70 65 60 70 80 5763 72 65 64 73 75 -
Elementos básicos de la estadística Liliana Recchioni
decimales se prefirió usar una amplitud de 5 tomando como límite inferior al valor
50.
Siempre el límite inferior del primer intervalo debe contener al menor valor del
conjunto de datos.
Tabla 9: Tabla de frecuencia de la variable cuantitativa Puntaje.
Fuente: Datos ficticios.
En esta tabla se incluye la frecuencia relativa acumulada H i. Esta frecuencia
multiplicada por 100, indica el porcentaje de individuos que poseen un valor inferior
al límite superior de ese intervalo. En el ejemplo anterior, en la tercera fila se podría
leer: “un total de 9 alumnos poseen un puntaje entre 60 y 65, es decir 26% de los
alumnos analizados. Luego el 50% posee un puntaje inferior a 65 puntos. El 0,50 de
la frecuencia relativa acumulada se calcula como 0,12+0,12+0,26 sumando a la
frecuencia relativa del intervalo, las anteriores.
Para representar gráficamente a la información que provee una variable cuantitativa se utiliza
un histograma. El histograma es un gráfico de frecuencias absolutas o relativas.
Sobre el eje de ordenada se presentan las frecuencias absolutas o relativas y sobre el eje de
abscisa se presentan las clases o intervalos. Es importante considerar que las barras no
poseen espacios entre si, dado que la variable es continua.
Figura 4: Histograma de la variable Puntaje.
Fuente: Datos Ficticios.
33
Puntaje fi hi % Fi Hi
50 55 4 0,12 12 0,1255 60 4 0,12 12 0,2460 65 9 0,26 26 0,5065 70 9 0,26 26 0,7670 75 4 0,12 12 0,8875 80 3 0,09 9 0,9780 85 1 0,03 3 1,00Total 34 1,00 100 -
Elementos básicos de la estadística Liliana Recchioni
Las alturas de las barras varían según sean los valores de frecuencia absoluta sobre los
intervalos, que todos tienen en este caso igual longitud de base.
El ascenso y el descenso de las líneas de contorno muestran el aumento o la disminución del
número de alumnos de intervalo en intervalo.
La representación gráfica de las frecuencias relativas acumuladas se realiza a través de un
gráfico lineal u ojiva. Si ese gráfico tiene forma de S estirada, implicaría que el histograma es
bastante simétrico, tal como ocurre en el ejemplo anterior.
Figura 5: Gráfico de frecuencias relativas acumuladas.
Fuente: Datos Ficticios.
4.4. Presentación de la información. Texto. Cuadros estadísticos. Partes de un cuadro. Elaboración. Gráficos estadísticos: de sectores, de barras, lineales.
La información puede ser presentada a través de:
Textos
Cuadros
Gráficos
En un texto puede presentarse información numérica, siempre controlando que la misma no
suministre demasiados valores. En ese caso lo más apropiado es un cuadro estadístico.
Los cuadros estadísticos se confeccionan para un fin específico y proporcionan información de
tal manera que el lector pueda entender rápidamente su contenido, observar que se trata, y de
34
Elementos básicos de la estadística Liliana Recchioni
esta forma hacer comparaciones para sacar algunas conclusiones. Otorgan información
específica y detallada de la situación que se describe.
Un cuadro debe contener:
Título: Es la descripción precisa y completa del contenido del cuadro Generalmente
se coloca en la parte superior del cuadro, y en forma de pirámide truncada.
Cuerpo: Contiene la información organizada por filas y columnas. La primer
columna, por lo general contiene la variable dependiente o variable más importante.
Fuente: La fuente deberá indicar de dónde provienen los datos que se presentan en
el mismo.
También en algunos cuadros puede ser necesario incorporar una nota al pie, para realizar
algunas aclaraciones.
Los cuadros también se denominan tablas y son presentadas generalmente numerándolos y
citándolos en el texto para hacer referencia a ellos.
El gráfico constituye otra manera de presentar la información, pero mucho más dinámica y de
más rápida lectura. Si bien no indica, en algunos casos, la exactitud de la información es
conveniente para poder extraer una inmediata interpretación de la situación representada.
Debe contener también un título, un diseño o diagrama y la fuente. El diseño o tipo de gráfico a
utilizar varía según la naturaleza de la información a graficar. El diagrama depende de la
información que se disponga y de la forma que se considere más representativa para
explicarla:
1. Lineales. Se utilizan principalmente para representar datos a través del tiempo. Por
ejemplo, para representar la inversión provincial en educación a través del tiempo.
2. De sectores: Se utilizan para variables categóricas o cualitativas con pocas categorías.
Ver punto 3.1.
3. Barras Horizontales: También son apropiados para representar para variables
categóricas o cualitativas, especialmente si se poseen muchas categorías.
4. Barras Verticales: Se utilizan para variables discretas o continuas, hay que tener en
consideración el espacio entre barras según sea el tipo de variable cuantitativa que se
está graficando. Ver punto 3.2. y 3.3.
5. Barras compuestas: Cuando se poseen dos o más variables, las barras compuestas
permiten la representación y comparación. Ver punto 3.4.
6. Barras subdivididas. Ver punto 3.4.
35
Elementos básicos de la estadística Liliana Recchioni
Resumen
Logramos armar la matriz de datos, ahora aprendimos a resumirlos para obtener de ellos
información que permita una lectura apropiada para el entendimiento del fenómeno.
Si la variable es cualitativa pueden calcularse frecuencias absolutas, relativas y porcentajes. Si
son cuantitativas discretas o continuas, frecuencias absolutas, relativas, porcentajes y
frecuencias acumuladas. En el caso de variables continuas deben resumirse calculando
intervalos que agrupen los diferentes valores que puede asumir la variable.
El resumen de estos datos, puede presentarse en textos, cuadros o gráficos, estos últimos se
seleccionan de acuerdo a la naturaleza de la información.
Si se resumen dos variables cualitativas o dos variables cuantitativas categorizadas a través de
intervalos, se utilizan tablas de contingencia. Estas tablas dan origen a porcentajes totales, filas
o columnas que se determinan de acuerdo a lo que el investigador quiere observación en la
información.
Se puede presentar la información que surge de la tabla de contingencia, mediante gráficos
cuyo estilo se selecciona según el diseño que mejor refleje para Ud. la situación a presentar.
Actividad 4
Variables cualitativas
1) Realice una tabla de frecuencias resumen correspondiente a 25 pacientes, para los
siguientes datos de la variable “Obra Social· que adopta dos valores SI o NO según tenga o
no obra social e indique qué gráfico podría utilizar para representar la información.
SI NO NO SI NO SI SI SI SI SI NO SI NO NO NO SI SI SI SI SI SI NO NO SI NO.
2) Complete la información del siguiente cuadro.
Nivel Educativo Fi hi %Primario 12Secundario 8Terciario/Universitario 10Total 30
a) ¿Qué tipo de gráfico utilizaría para representar esta información.
36
Elementos básicos de la estadística Liliana Recchioni
b) SI los datos provienen del Servicio de estadística del Centro de Salud del Barrio
San Vicente. Cómo utilizaría esta información de procedencia de la información.
3) Qué es una tabla de contingencia?
4) Dada la siguiente información.Frecuencias absolutas
SexoFuma Masc Fem Total No 0 20 20SI 8 4 12Total 8 24 32
Analice que información le suministra la primera fila.
5) De la tabla anterior se obtuvo la siguiente información: Sexo
Fuma Masc Fem Total No 0,00 100,00 100,00SI 66,67 33,33 100,00Total 25,00 75,00 100,00
Analice cada uno de los porcentajes.
6) De la tabla correspondiente al ejercicio 4 se obtuvo también esta información: SexoFuma Masc. Fem. Total No 0,00 83,33 62,50SI 100,00 16,67 37,50Total 100,00 100,00 100,00
Analice cada uno de los porcentajes.
7) Para la tabla del ejercicio 5, indique qué gráfico utilizaría para representar la información.
8) Mediante los datos que aparecen en la tabla posterior, responder a las siguientes preguntas:
a) De todos los estudiantes que se gradúan en cada área académica, ¿cuál es el porcentaje de mujeres?
b) Considerando únicamente el sexo masculino, ¿en que proporción está distribuido en cada área académica?
c) Considerando solo el sexo femenino, ¿en qué proporción está distribuido en cada área?
d) De todos los estudiantes que se gradúan en las cinco áreas, ¿qué porcentaje es masculino?, ¿qué porcentaje es femenino?.
37
Elementos básicos de la estadística Liliana Recchioni
Estudiantes graduados en cada una de lascinco áreas académica, según sexo. Año 2010.
Áreas Hombres MujeresAdministración de empresas 400 100Educación 50 150Humanidades 150 200Biológicas 250 100C. Sociales 200 200TOTAL
Fuente: Area de alumnos UNLaR.
9) Calcule en la siguiente tabla proveniente de la encuesta, porcentajes columnas e interprete:
: Cantidad de alumnos por género según práctica deportiva.Género
Práctica deporte F M TotalSI 60 40 100NO 150 20 170Total general 210 60 210
Fuente: Datos Ficticios.
Mencione 3 situaciones que le posibiliten presentar la información con gráficos diferentes y
especifique qué tipo de gráfico realizaría.
10) Si se realiza la siguiente tabla de contingencia que surge del cruce de las variables género
y nivel de aprendizajes. Qué género tiene mayor porcentaje de alumnos con nivel de
aprendizaje alto?
Cantidad de alumnos por género según nivel de aprendizajes.Género
Nivel F M TotalAlto 432 234 666Medio 657 564 1221Bajo 123 342 465Total general 1212 1140 2352
Fuente: Datos Ficticios.
Variables cuantitativas
11) En un centro de atención primaria de salud, interesa tener información acerca de la
cantidad de hijos de las mamás que asisten al mismo.
Sobre una muestra de 30 madres, se obtuvieron los siguientes resultados:
2 2 3 3 3 4 4 5 4 1 1 2 2 2 2 3 3 3 4 4 4 5 5 1 1 3 3 3 4 4
38
Elementos básicos de la estadística Liliana Recchioni
Realice una tabla de frecuencias que contenga frecuencia absoluta (FA), frecuencia
absoluta acumulada (FAA), frecuencia relativa(FR), frecuencia relativa acumulada (FRA)y
porcentaje.
Interprete la tercera fila de la tabla.
12) Sobre las mismas madres se mide la edad obteniéndose la siguiente información.
15 17 21 23 21 25 17 18 19 17
21 23 21 21 20 18 17 16 20 24
24 35 27 26 27 23 21 19 21 22
Realice una tabla de frecuencias tomando como límite inferior del primer intervalo a 14.
Calcule la amplitud apropiada para lograr 6 o 7 intervalos.
Calcule la tabla de frecuencias que contenga frecuencia absoluta, frecuencia relativa,
frecuencia relativa acumulada y porcentaje.
Interprete la tercera fila de la tabla.
13) Realice un histograma para la información del ejercicio anterior.
14) En una investigación odontológica, a 183 pacientes se le mide la variable número de
cepillados de dientes por día.
a) Complete la siguiente información, donde MC representa los distintos valores que
asume la variable NUM CEP número de cepillados por día. (La columna Clase
representa la cantidad de valores distintos que se posee de la variable, en este caso
esta columna podría obviarse)Tablas de frecuenciasVariable Clase MC FA FR FAA FRA NUM CEP 1 0 11 0,06 11 0,06NUM CEP 2 1 20 31 0,17NUM CEP 3 2 60 0,33 0,50NUM CEP 4 3 67 0,37 158 0,86NUM CEP 5 4 25 0,14 183 1,00
b) Calcule la cantidad total de pacientes sobre los cuales analiza la cantidad de cepillados
por día que se realizan.
c) Interprete la segunda fila.
15) Si los siguientes histogramas pertenecen a la distribución de la variable edad de alumnos
de 2do. Grado de dos instituciones diferentes.
Cuál de las dos instituciones posee mayor sobreedad en 2do. Grado? Justifique la
respuesta.
39
Elementos básicos de la estadística Liliana Recchioni
Calcule aproximadamente, qué cantidad de alumnos de la escuela B tienen más de 10 años
(el cálculo debe realizarse mediante el gráfico).
Figura 9: Histograma de la variable edad de alumnos de 2do. Grado de la escuela A.
Fuente: Datos Ficticios.
Figura 10: Histograma de la variable edad de alumnos de 2do. Grado de la escuela B.
Fuente: Datos Ficticios.
40
Elementos básicos de la estadística Liliana Recchioni
ANEXO IANALISIS DE TABLAS DE FRECUENCIA CON INFOSTAT
A. Ejemplo variable cualitativa
Contamos con información de 200 pacientes seleccionados aleatoriamente de la población de
pacientes que asistieron durante el verano en el centro de Salud SOLES, sobre la edad,
género, cantidad de integrantes en el hogar y barrio de donde provienen. ¿Cómo podríamos
dar el porcentaje de género femenino que existe en este grupo de pacientes.
Si se cuenta con la información de una variable cualitativa de 200 pacientes por ejemplo
el género sólo es posible obtener frecuencias absolutas y relativas y los porcentajes.
Poseemos la matriz de datos cargada en InfoStat.
La variable género debe estar definida como categórica. Ir a la columna donde está
género iluminarla y luego ir Datos-> Tipo de datos-> y hacer un tilde en categórica.Luego vamos a Estadística->Tabla de frecuencias.
41
Elementos básicos de la estadística Liliana Recchioni
Y cuando se abre el menú, elegimos la variable género, iluminándola (haciendo click con
el mouse) y pasándola a la ventana del lado derecho.
El resultado es el siguiente:
42
Elementos básicos de la estadística Liliana Recchioni
La FA es 164 y FR es 0,82 que multiplicado por 100 nos da un % de 82% de mujeres y
un 18% de varones.
Se observaron 162 pacientes de género femenino y 36 de género masculino. El 82 % de
los pacientes analizados o estudiados son de género femenino y el 18% de género
masculino.
Ejemplo 2: Análisis conjunto de dos variables.
Contamos con información de 200 pacientes seleccionados aleatoriamente de la población de
pacientes que asistieron durante el verano en el centro de Salud SOLES, sobre la edad,
género, cantidad de integrantes en el hogar y barrio de donde provienen. ¿Cómo podríamos
resumir la información de género y barrio de este grupo de pacientes?
Ambas variables deben ser asignadas como categóricas en Datos->Tipos de datos.
Luego ir a Estadística->Datos Categorizados -> Tabla de contingencia, allí seleccionar las
dos variables categóricas a resumir.
43
Elementos básicos de la estadística Liliana Recchioni
Las variables a resumir se ubican en criterios de clasificación.
Luego se indica qué variable se ubicará en la fila y cuál en la columna. En este caso se colocará el
barrio en las filas y el género en las columnas.
44
Elementos básicos de la estadística Liliana Recchioni
En la misma ventana en la pestaña Opciones, se puede indicar si se quieren porcentajes filas o
columnas. Hacer un tilde en la opción deseada y en la que indica frecuencias relativas como
porcentajes debido a que resulta mucho más fácil su interpretación.
El resultado es el siguiente: primero un cuadro de frecuencias absolutas, luego porcentajes filas y
por último porcentaje columnas.
45
Elementos básicos de la estadística Liliana Recchioni
Del primer cuadro de frecuencias absolutas puede leer el valor 37 como la cantidad de pacientes
de género femenino que provienen del barrio Güemes.
Del segundo cuadro el valor 71,15% se lee como, del total de pacientes del barrio Güemes el
71,15% son del género femenino.
Del tercer cuadro el valor 22,56% se lee como, del total de pacientes de género femenino el
22,56% son del barrio Güemes.
Poner atención en las diferentes interpretaciones.
B. Ejemplo variable cuantitativa discreta
Contamos con información de 200 pacientes seleccionados aleatoriamente de la población de
pacientes que asistieron durante el verano en el centro de Salud SOLES, sobre la edad,
género, cantidad de integrantes en el hogar y barrio de donde provienen. ¿Cómo podríamos
resumir la información de cantidad de integrantes del hogar de este grupo de pacientes.?
Primero tenemos que tener en la tabla de datos del InfoStat o matriz de datos, la variable
integrantes definida como variable discreta, para eso iluminamos la columna y en Datos->Tipo de datos ->Entero. Luego en Estadística->Tabla de Frecuencia se selecciona la variable integrantes. El
resultado es el siguiente:
46
Elementos básicos de la estadística Liliana Recchioni
En marca de clase (MC) se presentan los distintos valores que asume la variable. Luego se
brindan las FA y FR. La Clase indica la cantidad de valores distintos que asume la variable, en
este caso 6 valores distintos que van del 2 al 7.
Por lo tanto 20 pacientes viven en viviendas que contienen 2 integrantes, es decir un 10% de
pacientes viven en una vivienda compartida por 2 integrantes, 29 pacientes viven en viviendas
que contienen 3 integrantes, es decir un 15% de pacientes viven en una vivienda compartida
por 3 integrantes, 56 pacientes viven en viviendas que contienen 4 integrantes, es decir un
28% de pacientes viven en una vivienda compartida por 4 integrantes y así sucesivamente.
C) Ejemplo variable cuantitativa continua
Contamos con información de 200 pacientes seleccionados aleatoriamente de la población de
pacientes que asistieron durante el verano en el centro de Salud SOLES, sobre la edad,
género, cantidad de integrantes en el hogar y barrio de donde provienen. ¿Cómo podríamos
resumir la información de edad de los pacientes?
Primero debemos asignar a la variable edad el tipo de dato Real. Iluminando la columna de la
variable edad, vamos a Datos->Tipo de datos->Real.
Luego para saber cómo armar los intervalos debemos saber o conocer el valor mínimo y
máximo que asume la variable.
Para eso vamos a Estadística-> Medidas resumen y seleccionamos la variable edad.
47
Elementos básicos de la estadística Liliana Recchioni
En el menú siguiente debe estar tildado el valor mínimo y máximo para poder calcular el rango
de la variable. Este valor se lo necesita para calcular el rango y conocer el recorrido de la
variable.
El resultado es el siguiente: Rango =Xmáx-Xmín= 37-5=32
Si se desean armar 6 intervalos, la amplitud será:
48
Elementos básicos de la estadística Liliana Recchioni
Se puede tomar una amplitud de 6 para redondear el valor.
Si se considera al valor 5 como LI del primer intervalo (dado que es el menor valor
observado de edad) éste estaría conformado por valores de 5 a 11, el segundo 11-17, el
tercero 17-23. Luego 23-29, 29-36 y 35-41.
En InfoStat usar la opción Estadística->Tablas de frecuencias seleccionan la variable
edad y luego completan el número de clases en Personalizado, colocar 6 porque se
quieren 6 intervalos y colocar el valor mínimo del intervalo que este caso se seleccionó 5
y el valor máximo que en este caso será 41. Es el valor máximo del intervalo, no es el
valor máximo de la variable.
.
El resultado es el siguiente:
49
Elementos básicos de la estadística Liliana Recchioni
El primer intervalo de edad o la primera clase, va desde 5 a 11, su marca de clase (MC)
es el punto medio del intervalo, para este intervalo 8, la FA es 10 y la FR es 0,05. Indica
que 10 pacientes tienen entre 5 y 11 años es decir el 5% de los pacientes tienen entre 5 y
11 años.
En el segundo intervalo que va de 11 a 17, el valor 11 estará en el intervalo anterior eso
está indicado por el “(“ en el segundo intervalo.
La edad más frecuente está entre 17 y 23 ya que el 48% de mis pacientes registró una
edad entre esos valores. Es necesario aclarar que el valor 17 no está incluído en ese
intervalo porque posee al lado un paréntesis “(“ que indica que ese número no se incluye,
sin embargo el 23 sí es un valor que contiene el intervalo porque posee el “]” corchete
señalando que lo contiene.
En la siguiente tabla se incluye la frecuencia absoluta acumulada (FAA) y la relativa acumulada (FRA) que se obtiene tildando esas frecuencias en el menú de Tabla de
frecuencias. Esta frecuencia multiplicada por 100, indica el porcentaje de individuos que
poseen un valor inferior al límite superior de ese intervalo.
50
Elementos básicos de la estadística Liliana Recchioni
En la tabla anterior la 3ra. fila puede leerse:
“95 pacientes tienen entre 17 y 23 años, representan el 48% de los pacientes. Además
149 pacientes poseen entre 5 y 23 años, es decir el 75% de los pacientes es menor de
23años. Luego se deduce que el 25% de los pacientes supera los 23 años.
(La FAA 54=10+44, la FAA 149=10+44+95 y asi sucesivamente-)
Para representar gráficamente a la información que provee una variable cuantitativa se utiliza
un histograma. El histograma es un gráfico de frecuencias absolutas o relativas.
Sobre el eje de ordenada se presentan las frecuencias absolutas o relativas y sobre el eje de
abscisa se presentan las clases o intervalos. Es importante considerar que las barras no
poseen espacios entre si, dado que la variable es continua.
En InfoStat, Gráficos->Histograma y selecciono edad. SI deseo puedo mantener los intervalos
que se construyeron para la tabla de frecuencias.
.
Fuente: Datos Ficticios.
Las alturas de las barras varían según sean los valores de frecuencia absoluta sobre los
intervalos, que todos tienen en este caso igual longitud de base.
51
Elementos básicos de la estadística Liliana Recchioni
5. ESTADÍSTICA DESCRIPTIVA
Presentación:Sabemos que la información es clave para la toma de decisiones, pero con tener información no es suficiente. Es necesario resumirla y conocer qué indicadores o medidas nos permitirán obtener mejor aprovechamiento de los datos.Si bien hasta aquí, pudimos armar tablas resúmenes y representarlas gráficamente, es posible obtener otras medidas que describen la información sobre su tendencia central, su variación y sobre el orden.
5.1. Análisis de una variable cualitativa. Proporción. Razón.
Una variable cualitativa puede poseer en la matriz de datos, números proveniente de una
codificación pero no puede realizarse ninguna operación entre ellos. Para los resultados de
estas variables se pueden calcular proporciones, porcentajes o razones.
La proporción es la frecuencia relativa ya mencionada.
individuos de Totalmujeres de Totalmujeres de Proporción
Por lo general el resultado se encuentra multiplicado por 100 y se denomina porcentaje.
100individuos de Total
mujeres de Totalmujeres de Porcentaje
Ejemplo:
Se posee la población de 37.923 individuos clasificados según NBI:
Tabla 10: Población según NBI.Característica Total Proporción PorcentajeNBI 19.277 0,508 50,8No NBI 18.646 0,492 49,2Total 37.923 1,000 100,0
Nota: Datos Ficticios
Los porcentajes facilitan la comparación entre mediciones de distintas localidades o
de diferentes poblaciones, etc., en general cuando los totales de unidades
observadas varían considerablemente.
Se debe tener precaución en el uso de los porcentajes, en especial, y como ya se mencionó,
cuando los denominadores son pequeños un cambio en el mismo puede generar una distorsión
de gran magnitud en el porcentaje
52
Elementos básicos de la estadística Liliana Recchioni
Las razones son cocientes, divisiones entre un valor y otro valor que podrían provenir de
diferentes variables, tal es el caso de la densidad habitacional:
2Km de Cantidadhabitantes de Cantidad
Densidad
En este caso el numerador no es parte del denominador como en el caso de una proporción.
Una razón muy frecuente es la razón de masculinidad que compara varones con mujeres, es
decir:
mujeres de Cantidad varonesde Cantidad
linidadRazónMascu
En este caso si la razón es igual a 1 ambos valores son iguales, si es mayor que 1 existe mayor
cantidad de varones y si es menor que 1 mayor cantidad de mujeres.
5.2. Análisis de una variable cuantitativa. Medidas de tendencia central. Media, Mediana y Modo. Cálculo en distintas situaciones. Comparaciones e interpretación.
Cuando se describe una variable cuantitativa se pueden utilizar las medidas de tendencia
central, las medidas de variabilidad y las de orden.
Las distribuciones de frecuencias y sus derivados son muy útiles, pero en sí mismo no permite
realizar afirmaciones cuantitativas que caractericen a la distribución como un todo, como
tampoco permite hacer comparaciones cuantitativas entre dos o más distribuciones.
Generalmente se desea describir las características de las distribuciones en forma
cuantitativas, por ejemplo, supongamos que se desea conocer características de la edad de un
grupo de individuos, categorizados en varones y mujeres.
Si es necesario hacer comparaciones entre las distribuciones, hay que analizar sus
caracterizarlas o cuantificarlas para su análisis.
Para ello se cuenta con las Medidas de Tendencia Central, que permiten caracterizar a un
grupo de información para luego comparar.
Dentro de las medidas de tendencia central para describir la información que puede o no estar
analizada a través de una distribución de frecuencia, se encuentran: la media aritmética, la mediana y el modo.
Para elegir el criterio o tipo de tendencia central que se utilice, se tendrá en cuenta cuál de
entre ellas se adapta más convenientemente a la distribución en estudio, ya sea por su forma o
por su nivel de medición. Cuando se está en presencia de una variable medida en escala
53
Elementos básicos de la estadística Liliana Recchioni
nominal, la única de estas medidas que puede calcularse es el modo, en las otras escala de
medición pueden calcularse todas.
La media aritmética es el promedio de las observaciones, es simplemente la suma de todas
las observaciones medidas divididas sobre la cantidad de datos o individuos.
Se simboliza con cuando se hace referencia a una media aritmética calculada con los datos
muestrales. Si la media se calcula con los datos poblacionales será un parámetro y se
simbolizará con µ (letra griega que se pronuncia mu).
Luego en un conjunto de n datos, es decir provenientes de n individuos . Con x se
denota el nombre de la variable, es decir x puede ser la edad, el peso, el puntaje, etc..
Ejemplo:
Se posee la edad de 5 alumnos. Las observaciones son 7 9 11 13 10.
Luego , entonces
Esto indica que en promedio los alumnos tienen 10 años.
La mediana es el valor central de las observaciones, es decir si se ordena la información de
mayor a menor la mediana es el valor de la variable que toma el lugar central.
Si la cantidad de datos es par se tomará el promedio de las observaciones centrales.
La interpretación que se da es que el 50% de los individuos poseen un valor de hasta el valor
de la mediana, aunque en realidad es el valor central de las observaciones.
Puede consultarse http://www.demre.cl/text/doc_tecnicos/p2009/estadistica_descriptiva.pdf.
Ejemplo:
La mediana de la información del ejemplo anterior es 10 años. En este caso
coincide con la media. El valor central de la información es 10 años.
El modo es el valor que más frecuencia absoluta posee o el valor que más se repite en la serie
de información.
Ejemplo:
54
Elementos básicos de la estadística Liliana Recchioni
Sobre 5 alumnos se miden la edad y el género de cada uno de ellos. La matriz de
información es:
Tabla 11: Matriz de datos.Indiv Género Edad
1 F 62 F 73 F 74 M 75 M 8
Fuente. Datos ficticios.
En este caso el modo del género es F (Femenino) y el modo de edad 7.
5.3. Medidas de orden: Cuartiles y Percentiles. Usos e interpretación de resultados.
Otras medidas descriptivas importantes son las llamadas medidas de orden. Estas medidas
permiten determinar y expresar la posición relativa o posición de orden que un dato individual
ocupa en una serie de datos observados en un estudio.
Los cuartiles dividen a la información ordenada en 4 partes iguales. Son valores de la variable
observada que dividen en 4 partes iguales correspondientes a un 25% de información. Se
simbolizan con Q1, Q2 y Q3.
El Q1 deja a la izquierda un 25% de la información y a la derecha el 75%. El Q2 coincide con la
mediana y el Q3 deja a su izquierda el 75% de la información y a la derecha un 25%. Suponga
que posee la información graficada en un histograma suavizado que podría tener una forma de
campana, entonces los 3 cuartiles serán valores de la variable (peso, altura, puntaje) que
delimitarán esas zonas de información.
Figura 11: Posición de los cuartiles
55
Elementos básicos de la estadística Liliana Recchioni
.
2,93 6,46 10,00 13,54 17,07
Edad
0,00
0,07
0,14
0,21
0,28
Frec
uenc
ia
Q1 Q2 Q3
25% 25% 25% 25%
Ejemplo:
Si se calculan los cuartiles del puntaje de 40 niños, las conclusiones serían:
El cuartil 1 igual a 25 puntos significa que de los 40 niños el 25 % de ellos
obtuvieron puntajes inferiores a 25 puntos y un 75 % de ellos superiores a 25
puntos.
El cuartil 2 igual a 29 puntos significa que de los 40 niños el 50 % de ellos
obtuvieron puntajes inferiores a 29 puntos y el otro 50 % de ellos superiores a 29
puntos.
El cuartil 3 igual a 36 puntos significa que de los 40 niños el 75 % de ellos
obtuvieron puntajes inferiores a 36 puntos y el otro 25 % de ellos superiores a 36
puntos.
Los percentiles constituyen otra medida de orden y dividen a la información en 99 partes
iguales. Se poseen 99 percentiles y se simboliza con Pr, donde r indica el porcentaje de la
información acumulada.
Ejemplo:
SI el percentil del 70% de edad es 14 implica que el 70% de los alumnos tienen
hasta 14 años y el 30% supera ese valor.
5.4. Medidas de dispersión. Rango. Variancia. Desviación estándar. Coeficiente de variación. Cálculos e interpretación.
56
Elementos básicos de la estadística Liliana Recchioni
Dos distribuciones pueden tener iguales medidas de tendencia central y sin embargo mostrar
grados de dispersión diferentes. La dispersión indica cuán dispersos o concentrados se
encuentran los datos o la información, por lo tanto es necesario contar con indicadores que
puedan mostrar este tipo de características de una distribución.
Con la variabilidad de los datos de una distribución se mide cuán heterogéneo ese conjunto de
información. A mayor variabilidad o dispersión mayor heterogeneidad a menor dispersión
mayor homogeneidad.
Por ejemplo, sobre la edad de un grupo de individuos clasificados por género no sólo interesará
el valor promedio sino en lo variable que sea la edad dentro de cada grupo de género.
El rango o recorrido es la diferencia entre el máximo valor y mínimo valor de la variable. Es una
medida muy simple de variación. Luego:
La variancia o varianza es una medida de variabilidad de los datos alrededor de su media. Una vez caracterizada la distribución a través de medidas de tendencia central, interesa
tener alguna idea acerca de cómo se agrupan las observaciones alrededor de dichos valores
centrales. La variancia muestral o de la muestra se simboliza con S2 y la poblacional o
parámetro con 2.
Luego:
es el estadístico y el parámetro.
A mayor varianza, mayor heterogeneidad de datos; a menor variancia menor heterogeneidad lo
cual implica mayor homogenenidad en los datos.
Si bien la variancia es una medida de variación de la variable es más apropiado utilizar el
denominado desvío estándar ya que este último posee la unidad de medida de la variable
situación que no ocurre en la variancia.
El desvío se simboliza con S en la muestra y en la población y se lo define como:
al desvío estándar muestral y al poblacional.
Entonces una forma de interpretar al desvío estándar es que es la distancia promedio de los
datos a la media. A mayor distancia mayor variabilidad de la información.
57
Elementos básicos de la estadística Liliana Recchioni
Otra medida de variables es el coeficiente de variación, el cual se utiliza cuando se quiere
comparar variabilidades de variables medidas en diferentes unidades de medida. El coeficiente
de variación muestral se define en porcentaje:
Este coeficiente no tiene unidad de medida y eso permite las comparaciones entre variables
medidas en diferentes unidades de medida.
Ejemplo:
En una escuela se realiza un test a 7 alumnos y se mide su puntaje. Se desea calcular
medidas que describan la información para luego compararla con otro grupo de
alumnos.
En la planilla siguiente, se presenta la información del puntaje de los 7 alumnos
ubicada en la columna B desde la fila 2 hasta la fila 8. En la columna B desde la casilla
9 al 13, se muestran los resultados de las medidas calculadas con las fórmulas o
funciones que se presentan en las celdas grises. Estas funciones tal como están
escritas en la celda gris, se deberán escribir en la celda 9, 10, etc. para lograr el
resultado numérico.
Figura 12: Planilla Excel para el cálculo de estadísticas descriptivas.
5.5. Diagrama de caja y bigotes. (boxplot)
58
Elementos básicos de la estadística Liliana Recchioni
Para analizar la distribución de los datos o la información, una vez calculadas las medidas
descriptivas, es posible construir un gráfico resumen de cinco números denominado diagrama
de caja y bigotes.
Se emplean cinco cantidades para resumir los datos:
1.- Valor mínimo.
2.- Primer cuartil.
3.- Mediana.
4.- Tercer cuartil.
5.- Valor máximo.
La forma más fácil de elaborar un resumen de cinco números es poner los datos en orden
ascendente, así es fácil identificar los cincos datos.
Ejemplo
Supongamos tener los pacientes egresados de los últimos 12 años en cierto
hospital.- Ordenados en forma creciente son:
2710 2755 2850 2880 2880 2890 2920 2940 2950 3050 3130 3325
La mediana es Mna = 2905 y los cuartiles Q1 = 2880 y Q3 = 3050 los otros dos
datos es fácil verlos.
Un diagrama de caja es un resumen gráfico de los datos basado en un resumen de cinco datos
y nos da una idea de forma de la distribución de los datos, además de poder determinar si
tenemos valores atípicos.
Los pasos para trazar un diagrama de caja y bigote son:
1.- Se traza un rectángulo con los extremos en el primer cuartil y tercer cuartil. Este rectángulo
contiene el 50% de los datos.
2.- En la caja se traza una recta vertical en el lugar de la mediana, así, la línea de la mediana
divide los datos en dos partes iguales.
3.- Se ubican los límites mediante el rango intercuartil RIC = Q3 – Q1
Los límites en el diagrama estarán dados según la Regla de Tuckey en Q1 - 1,5 * RIC y Q3
+ 1,5 * RIC.
Todos los valores que nos queden fuera de esos límites son considerados valores atípicos.
4.- Las líneas punteadas a los costados de la caja se llaman bigotes de la caja y se trazan del
valor mínimo al cuartil 1 y del cuartil 3 al valor máximo.
59
Elementos básicos de la estadística Liliana Recchioni
5.- Por último se marca con asterisco si hay algún valor atípico.
Ejemplo:Suponga que tiene las edades de pacientes egresados durante tres años, en base
a muestras tomadas de cada año.
Decide comparar los tres años respecto a la variable edad de los pacientes
egresados, mediante diagramas de caja y bigote. Resulta lo siguiente::
Data
3obs2obs1obs
100
80
60
40
20
0
Boxplot of 1obs; 2obs; 3obs
60
1obs 2obs 3obs41 70 2278 53 6884 34 4860 36 2546 47 2964 16 5643 53 6437 43 3050 29 5757 83 3224 42 3978 48 3951 57 5041 29 3556 64 3646 41 1699 86 9871 54 3941 2 5341 39 3622 40 4662 70 4664 52 5744 38 6041 63 62
Elementos básicos de la estadística Liliana Recchioni
Ejemplo:
La tabla siguiente muestra las puntuaciones obtenidas en el examen final de
Bioestadística para quince estudiantes de primer año, quince de segundo año y
quince de tercer año.
1er.año 2do. Año 3er.año47 72 56 76 43 8052 72 59 80 48 8052 78 59 83 50 8357 81 61 83 55 8563 81 67 84 61 8964 86 69 90 67 9169 91 73 94 72 9771 76 78
La figura anterior contiene los diagramas de caja de las puntuaciones de cada uno
de estos tres grupos.- En este ejemplo concreto, puede apreciarse que no hay
observaciones excesivamente atípicas en ninguno de los tres grupos.- Por eso, los
bigotes de las cajas corresponden a la menor y mayor puntuación de cada grupo.-
En el diagrama se observa que los estudiantes del tercer curso consiguieron la
mejor mediana, pero sus puntuaciones tienen una variabilidad considerablemente
mayor que la de los otros grupos.- Otro hecho que llama la atención es la gran
cantidad de puntuaciones bajas obtenidas por los estudiantes del primer curso.
Ejemplo:
61
Elementos básicos de la estadística Liliana Recchioni
Un corredor entrena para una determinada carrera y se toman los tiempos que
necesita para recorrer los 200 m, durante 10 días consecutivos (cada día se toman
varios tiempos y se calculan mediana, cuartiles, valores mínimo y máximo)
Observamos que el desplazamiento de las gráficas de caja hacia la izquierda indica
que el entrenamiento ha dado resultado, ya que se tardan menos segundos en
recorrer la misma distancia, siendo la diferencia entre el máximo y el mínimo menor,
como así también la diferencia intercuartílica.
Además el día 1 presenta un histograma con asimetría a la derecha, el día 4 un
histograma simétrico y el día 10 un histograma con asimetría a la izquierda.
Estas cajas pueden presentarse en sentido vertical.
Ver en http://www.estadisticaparatodos.es/taller/graficas/cajas.html
ResumenEn esta unidad, luego de resumir la información con tablas de frecuencias se aportan
herramientas para el cálculo de estadísticas descriptivas.
Ellas aportan indicadores o estadísticos que permiten resumir y describir la información
aportando tanto valores de tendencia central como de variación.
62
Elementos básicos de la estadística Liliana Recchioni
De tendencia central las más importantes son la media aritmética o promedio y la
mediana. De variación el rango, variancia, desvío estándar y coeficiente de correlación.
Además se pueden calcular otras medidas de orden o de posición que son muy útiles en
diversas áreas de trabajo.
El gráfico de caja constituye un elemento fundamental para la exploración de datos,
pudiendo determinar la simetría de la distribución de información.
Actividad 5
1) Los siguientes datos representan las edades de las personas atendidas en el Hospital
Regional Enrique Vera Barros por congestión alcohólica en el mes de enero de 2011:
16, 21, 20, 40, 30, 19, 25, 28, 30, 28, 50, 12, 47, 35, 32, 45, 19, 22, 46, 32, 52, 42,. 22, 46, 30,
32.
Calcule y explique las siguientes medidas descriptivas para datos sin agrupar: La media
aritmética.-
a) La mediana.
b) El modo.
c) Los cuartiles.
d) El percentil 90%.
e) El rango o recorrido.
f) La desviación estándar.
g) El coeficiente de variación.
2) En un estudio para comparar la información de la edad de las personas atendidas en el
Hospital Regional Enrique Vera Barros por congestión alcohólica en el mes de enero de
2011 (Ejercicio 1) con el mes de enero de 2012, se obtuvieron los siguientes resultados:
Enero de 2012:
Media Aritmética = 23
Desvío Estándar = 8,5
63
Elementos básicos de la estadística Liliana Recchioni
Calcule y compare los coeficientes de variación (2011/2012) y brinde conclusiones.
3) Los siguientes datos representas las edades de los Lic. en enfermería de una determinada
clínica privada de la Ciudad de La Rioja:
24, 50, 27, 30, 25, 28, 30, 24, 40, 35, 25, 47, 30
Calcule y explique las siguientes medidas descriptivas para datos sin agrupar:
a) La media aritmética.
b) La mediana.
c) El modo.
d) Los cuartiles.
e) El percentil 80%.
f) El rango o recorrido.
g) La desviación estándar.
h) El coeficiente de variación.
4) Se le pregunto a los Lic. en Enfermería de una pequeña clínica de las Sierras de Córdoba,
el tiempo en minutos que tardan en llegar a su domicilio una vez finalizada su jornada
laboral. Los datos obtenidos fueron los siguientes:
Grupo 1: X (hombres) 15’, 9’, 12’, 30’, 21’, 12’, 22’, 17’
Grupo 2: Y(mujeres) 12’, 25’, 10’, 18’, 35’, 20’, 15’, 35’
Calcule y explique para cada uno de los grupos, las siguientes medidas descriptivas para
datos sin agrupar:
a) La media aritmética.
b) La mediana.
c) El modo.
d) Los cuartiles.
e) El percentil 80%.
f) El rango o recorrido.
g) La desviación estándar.
h) El coeficiente de variación.
i) Que interpretación puede extraer comparando los coeficientes de variación del
Grupo 1 y el Grupo 2?
64
Elementos básicos de la estadística Liliana Recchioni
5) A partir del nivel de glucosa (medido en miligramos por decilitro) obtenido en la sangre en
ayuna de una muestra de niños, se obtuvieron los siguientes resultados:
a) Muestra = 10
b) Media = 65,10 mg/dl
c) Mediana = 65 mg/dl
d) Desvío Estándar = 4,43 mg/dl
e) Mínimo = 56 mg/dl
f) Máximo = 72 mg/dl
g) Q1 = 63 mg/dl
h) Q3 = 68 mg/dl
i) P(10) = 56 mg/dl
Interprete cada una de las medidas.
6) En 2 consultorios particulares de la Provincia de La Rioja (A y B), interesa tener información
sobre la cantidad de pacientes que asistieron a cada uno de ellos de lunes a viernes,
durante una semana determinada, los datos fueron:
a) Cantidad de Pacientes del Consultorio A: (8, 8, 6, 7, 10)
b) Cantidad de Pacientes del Consultorio B: (8, 9, 8, 9, 9)
Calcule y explique para cada uno de los consultorios (A y B), las siguientes medidas
descriptivas para datos sin agrupar:
a) La media aritmética.
b) La mediana.
c) El modo.
d) La desviación estándar.
e) El coeficiente de variación.
7) Dado un curso de 70 alumnos de segundo año de la Carrera de Lic. en Enfermería que se
dicta en la Universidad Nacional de La Rioja, se tomó la cantidad de materias aprobadas
por cada uno de ellos, se obtuvieron los siguientes resultados:
Muestra Media Mínimo Q1 Mediana Q3 Máximo Rango Modo
70 10 2 8 9 12 15 13 12
Se pide: Interprete cada una de las medidas.
65
Elementos básicos de la estadística Liliana Recchioni
8) Seleccionamos una muestra de empleados de comercio de una importante juguetería de la
ciudad de Bs. As. y se les pregunto a cada uno cual es su ingreso mensual.
El análisis estadístico arrojo los siguientes resultados:
a) Explique cada medida calculada.
b) Realice el Diagrama de Caja y Bigotes.
9) Dados el registro de los minutos consumidos por una muestra de 110 abonados al plan más
barato de una compañía de telefonía móvil.
El análisis estadístico arrojo los siguientes resultados:
Medidas Descriptivas ValoresMedia 261,06Mediana 263,00Modo 252,00Cuartil 1 251,75Cuartil 3 271,25Valor máximo 299,00Valor mínimo 222,00CV 6,71%
Explique cada medida calculada.
10) Los siguientes datos representan el tiempo en minutos que demora una muestra de 8
personas del interior de la Provincia de Catamarca en llegar al centro de salud más cercano
a su domicilio:
48; 44; 50; 54; 51; 43; 56; 70
a) Calcule y explique la Media;
b) Calcule y explique la Mediana;
c) Calcule y explique los Cuartiles 1 y 3;
d) Realice el Diagrama de Caja y Bigotes.
11) Las calificaciones en el examen parcial de la materia BioEstadistica, en un curso de 27
alumnos fueron las siguientes:
66
Medidas Descriptivas ValoresMediana $3820Cuartil 1 $3308Cuartil 3 $4200Valor máximo $6200Valor mínimo $2500
Elementos básicos de la estadística Liliana Recchioni
2 10 4 5 5 7 5 9 104 6 8 10 3 7 8 7 38 6 7 9 10 6 7 6 8
a) Agrupe los datos en una distribución de frecuencia sin intervalo.
b) Explique la tercera fila.
c) Calcule Media; Mediana; Modo; Cuartiles; Percentil 90%; Varianza y Desvío
Estándar.
d) Realice el Diagrama de Caja y Bigotes.
12) Supongamos tener las edades de una muestra de 50 pacientes dados de alta de terapia
intensiva del Hospital Vera Barros, durante Enero 2012. Los datos agrupados en una tabla
de frecuencia con intervalo fueron:
Li Ls fi hi Fi Fi %36 44 2 0,04 2 444 52 12 0,24 14 2852 60 15 0,3 29 5860 68 18 0,36 47 9468 76 3 0,06 50 100Total 50 1 ----- ------
a) Explique la tercera fila.
b) Calcule la Media.
c) Calcule la Mediana.
d) Calcule el Modo.
e) Calcule los Cuartiles.
f) Calcule el Percentil 85%.
g) Calcule la Varianza.
h) Calcule el Desvío Estándar.
13) La altura en centímetros de los estudiantes de un curso de Estadística Aplicada, dictado por
la Universidad Nacional de Córdoba, viene dada por la siguiente tabla de frecuencia con
intervalo:
Altura Nº de Estudiantes
170 175 2175 180 12180 185 15185 190 18190 195 3195 200 3
Total 53
67
Elementos básicos de la estadística Liliana Recchioni
a) Media.
b) Mediana.
c) Modo.
d) Explique la quinta fila.
e) Cuartiles.
f) Percentil 62%.
g) Varianza.
h) Desvío Estándar.
14) A los fines de poder abonar el sueldo, se tomaron los días de trabajo de 50 enfermeros
contratados en una Clínica de la Ciudad de Villa María. Los datos fueron los siguientes:
27 23 22 38 43 24 35 26 18 2025 23 22 52 31 30 41 29 27 4329 28 27 25 29 28 24 28 29 1826 33 25 27 25 34 32 22 32 3321 23 24 18 48 23 36 26 21 23
a) Agrupe los datos en una distribución de frecuencia con intervalos.
b) Explique la cuarta fila.
c) Calcule la Media.
d) Calcule la Mediana.
e) Calcule el Modo.
f) Calcule los Cuartiles.
g) Calcule el Percentil 62%.
h) Calcule la Varianza.
i) Calcule el Desvío Estándar.
15) Se observó la superficie cubierta de 28 casas seleccionadas al azar de un barrio
residencial. Los resultados fueron los siguientes:
79 93 84 86 77 63 46 97 87 88 87 92 68 7286 98 81 70 66 98 59 76 68 91 94 85 88 79
a) Construya una tabla de frecuencia con intervalos.
b) Calcule la media, mediana y el modo.
c) Calcule y explique el Percentil 68%.
68
Elementos básicos de la estadística Liliana Recchioni
c) Elabore un diagrama de caja y bigote. Comente.
16) Dada la siguiente información sobre el nivel de glucosa diluida en la sangre, (medido en
miligramos por decilitro mg/dl), de 100 niños, se pide: 1) Indique cual es el tamaño de la
muestra; 2) Indique cual es la variable en estudio y de qué tipo es; 3) Elabore una
distribución de frecuencia para datos agrupados en intervalos y explique la segunda fila; 4)
Calcule la media; 5) Calcule el percentil 70%; 6) Calcule la Varianza y el Desvío Estándar.
56 61 57 77 62 75 63 55 64 6060 57 61 57 67 62 69 67 68 5965 72 65 61 68 73 65 62 75 8066 61 69 76 72 57 75 68 81 6469 64 66 65 65 76 65 58 65 6468 71 72 58 73 55 73 79 81 5665 60 65 80 66 80 68 55 66 7172 73 73 75 75 74 66 68 73 6572 74 68 59 69 55 67 65 67 6367 56 67 62 65 75 62 63 63 59
17) Para poder diseñar un plan integral de tratamiento en niños con desordenes de conducta, el
siquiatra puede utilizar la información del niño, la familia, los profesores y de otros
especialistas médicos para entender las causas del desorden. Para ello un siquiatra local
ha considerado una muestra aleatoria de 45 niños, anotando el tiempo necesario que
requiere en cada niño para lograr un plan integral del tratamiento, obteniéndose la siguiente
información (en horas):
7 10 12 4 8 7 3 8 512 11 3 8 1 1 13 10 44 5 5 8 7 7 3 2 38 13 1 7 17 3 4 5 53 1 17 10 4 7 7 11 8
a) Indique cual es la variable en estudio y de qué tipo es.
b) Agrupe los datos en una tabla de frecuencia con intervalos.
c) Calcule la Media Aritmética.
d) Calcule la Mediana.
e) Calcule el Modo. Calcule los Cuartiles.
f) Calcule el Percentil 90%.
18) Se decide tomar un test para medir la compresión lectora en 20 alumnos. Los datos se
presentan a continuación y es necesario hacer un análisis estadístico para tener
indicadores de los resultados.
69
Elementos básicos de la estadística Liliana Recchioni
61 81 61 63 82 56 58 80 83 9254 81 92 71 69 54 75 59 58 94
a) Realice un análisis con tabla de frecuencia para variable continua intervalos de amplitud
10: 50-60; 60-70; etc.
b) Realice una análisis con Infostat utilizando medidas de tendencia central, media y
mediana.
c) Realice un análisis utilizando rango, desvío estándar y coeficiente de variación.
d) Construya un diagrama de caja. Interprete.
19) Un grupo de investigación decide hacer un estudio de la talla de niños que concurren a
cierto establecimiento sanitario. Del listado correspondiente seleccionan una muestra
aleatoria de varones y de mujeres, a quienes midieron, resultando los siguientes datos en
centímetros:
Varones
111 160 148 140 136 147 144 143 140 161 150 138 133 136 149146 140 147 136 141 156 138 154 138 134 146 127 147 170 147121 120 135 158 153 151 134 136 145 150 153 160 130 128 170
Mujeres.
111 138 131 134 142 128 162 126 144 150 146 148 146 150 136126 158 143 150 142 170 145 140 160 136 141 112 160 132 148136 140 150 118 143 138 160 132 120 114 141 146 140 152 121
a) Cargue los datos para armar la matriz de datos y utilice el INFOSTAT para interpretar
y comparar los resultados.
b) Realice cálculo de estadísticos descriptivos y grafique el diagrama de caja. Interprete.
c) USE el Infostat y seleccione como criterio de clasificación al SEXO.
70
Elementos básicos de la estadística Liliana Recchioni
ANEXO I
FORMULAS PARA EL CALCULO DE ESTADISTICAS DESCRIPTIVAS CON TABLAS DE FRECUENCIA
Fórmulas de cálculo de Medidas descriptivas para utilizar mediante el uso de tablas de frecuencias. Se recuerda que para las variables cualitativas no se calculan medidas descriptivas de tendencia central, dispersión y posición.
1. Media Aritmética
1.1. Cálculo con Tabla de frecuencia para variables discretas
fi = Frecuencia absoluta para el valor xi de la variable.
k = cantidad valores distintos de la variable
1.2. Cálculo con Tabla de frecuencia para variables continuas
x´i = Punto medio del intervalo o marca de clase.
fi = Frecuencia absoluta para el intervalo con x´i de marca de clase.
k = cantidad de intervalos de la variable
2. Mediana
2.1. Cálculo con Tabla de frecuencia para variables discretas
Sólo se observa el valor de la variable que acumula el 50% de la información
2.2. Cálculo con Tabla de frecuencia para variables continuas
La mediana coincide con el percentil del 50% que es llamado también cuantil, por lo tanto:
71
Elementos básicos de la estadística Liliana Recchioni
LIi = Límite inferior del intervalo que contiene el 50% de la informaciónfi = Frecuencia absoluta para el intervalo
Fi-1 = Frecuencia absoluta Acumulada para el intervalo anteriorA = amplitud
n = tamaño de muestra
3. Variancia
3.1. Cálculo con Tabla de frecuencia para variables discretas
fi = Frecuencia absoluta para el valor xi de la variable.
3.2. Cálculo con Tabla de frecuencia para variables continuas
fi = Frecuencia absoluta del intervalo
4. Percentiles o cuantiles (cuartiles, deciles y percentiles)
Con la siguiente fórmula se incluye, la posibilidad de cálculo de cualquier medida de posición u
orden: cuartiles, deciles o percentiles. Utilizar el porcentaje que corresponda.
LIi = Límite inferior del intervalo que contiene el r% de la informaciónfi = Frecuencia absoluta para el intervalo
Fi-1 = Frecuencia absoluta Acumulada para el intervalo anterior
72
Elementos básicos de la estadística Liliana Recchioni
A = amplitudn = tamaño de muestra
73
Elementos básicos de la estadística Liliana Recchioni
ANEXO II
ANALISIS EN INFOSTAT
ANÁLISIS PARA VARIABLES CUANTITATIVAS (discretas o continuas)
Ir a Estadísticas-> Medidas resumen y allí seleccionar los estadísticos descriptivos que se
solicitan
74
Elementos básicos de la estadística Liliana Recchioni
Para el diagrama de caja.
Ir a Gráficos-> Diagrama de caja (Box-Plot)
75
Elementos básicos de la estadística Liliana Recchioni
6. LOS INDICADORES DE SALUD. (BORRA DOR)
SOLO PARA ENFERMERÍA. NO ENTRA EN EL PROGRAMA DE TERAPIA
76
Elementos básicos de la estadística Liliana Recchioni
7. ANALISIS BIVARIADO
7.1. Correlación Lineal.
Es posible medir la fuerza de asociación de dos variables cuantitativas: fuerza y horas de
entrenamiento; peso y altura, etc..
Para ello se utiliza el coeficiente de correlación de Pearson que mide la asociación lineal entre
las variables.
En la población existe una correlación que llamamos ρ (Rho), con una muestra de n pares de
datos (x,y) medimos la asociación en la muestra que denominamos r y estima al ρ .
El coeficiente r varía entre -1 y 1. Cuanto más cercano al 0 está menos asociación hay. Cuanto
más cercano al -1 la asociación es negativa y predice que a medida que aumenta una variable
disminuye la otra. Cuanto más cercano a 1 se encuentre la asociación será positiva e indica
que a medida que aumenta una variable aumenta la otra.
82 180 278 376 474
Columna2
1
2
4
6
7
Colu
mna
1
Título
134 256 378 500 622
Columna2
1
2
4
6
7
Colu
mna
1
Título
203 249 296 342 388
Columna2
1
2
4
6
7
Colu
mna
1
Título
Asociación positiva Asociación negativa Asociación casi nula
La fórmula de cálculo del r es:
Donde xi e yi son los valores de las variables en el par iésimo.
77
Elementos básicos de la estadística Liliana Recchioni
De acuerdo a los valores de r puede indicarse el grado de correlación, y la siguiente tabla es
solo una sugerencia para su clasificación:
Tabla 12: Sugerencias de interpretaciones del r.
De 0,0 a 0,20 Correlación casi nulaDe 0,20 a
0,40 Correlación Baja
De 0,40 a 0,70 Correlación marcada
De 0,70 a 1,0 Correlación alta.
Si se posee más de dos variables, por ejemplo x, y, w y z, es factible calcular una matriz de
correlación y de esa manera calcular y evaluar todas las correlaciones posibles.
x y w z x 1y 0,65 1 w -0,79 -0,15 1z -0,19 -0,15 0,07 1
Se observa una marcada correlación positiva entre x e y (0,65) , una alta correlación negativa
entre w y x (-0,79), y correlaciones casi nulas entre w e y (-0,15), z e y (-0,15) , como
también en w y z (0,07) .
El análisis de correlación solo indica la existencia de correlación pero no aduce ninguna
causalidad entre variables, por lo cual es el investigador a través del conocimiento del tema el
que puede indicar la causalidad o no de la correlación.
Esto implica que dos variables pueden estar altamente correlacionadas pero una no ser causa
de la otra. Si esto ocurriera, es decir una variable dependiera de otra y el coeficiente de
correlación fuera alto, es posible evaluar un modelo que describa el comportamiento de una en
función de la otra.
En ese caso se analizaría la relación con un estudio de regresión lineal, donde una variable es
dependiente de otra y se estima el modelo que las relaciona.
7.2. Regresión lineal. 7.2.1. Introducción.Hasta ahora, nos hemos centrado en el estudio de una sola variable de respuesta numérica,
por ejemplo, el ingreso de los empleados, las notas de un parcial, el peso de un grupo de
personas, las ventas de un comercio, etc., y donde hemos aprendido a calcular o describir la
variable en estudio mediante las medidas descriptivas, a calcular la probabilidad de que se den
ciertos eventos, sus distribuciones o modelos teóricos que los definen y hasta a estimar ciertos
valores de la media y la proporción poblacional.
78
Elementos básicos de la estadística Liliana Recchioni
En esta Unidad, se estudiarán situaciones en donde se involucran dos variables numéricas
como medio para observar la relación que existen entre ellas. Estas técnicas son los estudios
de Regresión y Correlación y para eso se debe contar con pares de variables cuantitativas
observadas en distintos individuos.
Muchas veces un Administrador u otro profesional confían en su intuición para juzgar como se
relacionan dos variables numéricas. Sin embargo, si se puede obtener datos, se puede emplear
un procedimiento estadístico llamado Análisis de Regresión, para plantear una ecuación que
muestre como dependen las variables entre si. Si bien generalmente hablamos de un estudio
de regresión y correlación conjuntamente, estas son técnicas que pueden usarse en formas
independientes. Es decir, que puede hacerse un estudio de correlación sin uno de regresión y
viceversa, dependiendo esto de lo que se desee estudiar.
El análisis de regresión se usa con propósito de predicción encontrando el modelo que describe el comportamiento de una variable en función de la otra. Las metas del análisis
de regresión es desarrollar un modelo estadístico que se pueden usar para predecir los valores
de una variable basado en los valores de al menos otra variable.
El análisis de correlación al contrario del análisis de regresión, se usa para medir la fuerza de
asociación entre las variables numéricas. Por ejemplo se desea estudiar, notas de un parcial
con respecto a horas de estudio, puede interesar estudiar el grado de asociación entre ambas
variables, sin necesidad de hacer alguna predicción.
El primero en desarrollar el análisis de regresión Sir Francis Galton (1822 1911), que estudio
los patrones hereditarios en la estatura de las personas adultas. Descubrió que los niños que
tienen padres altos o bajos tendían a regresar a la estatura promedio de los padres.
Si se tiene dos variables numéricas, muchos estudios se basan en la creencia de que se puede
identificar y cuantificar alguna relación funcional entre ambas. Se dice que una variable
depende de la otra. Si tenemos dos variables numéricas que llamamos X e Y, se puede decir
que Y depende de X y escribimos:
Y = f (X) (Y es función de X)
Como Y depende de X, es la variable dependiente, es la que se desea explicar o predecir,
también se la llama regresando o variable de respuesta, y X es la variable independiente,
también se la denomina variable explicativa o regresor.
Es importante identificar cual es la variable dependiente y cual es la independiente en el
modelo de regresión. Esto depende de la lógica y de lo que el profesional intente medir. En el
ejemplo que vimos antes, notas del parcial y horas de estudio, es lógico presumir que la nota
79
Elementos básicos de la estadística Liliana Recchioni
depende de la cantidad y calidad de horas que el estudiante dedique a estudiar. Por lo tanto
“nota” es la variable dependiente y “tiempo en estudiar” la variable independiente.
También hay que hacer una distinción entre la regresión lineal simple y la regresión curvilínea
(no lineal). En un modelo de regresión lineal, la relación entre X e Y puede representarse por
medio de una línea recta, sostiene que a medida que X cambia Y cambia en una cantidad
constante. La regresión curvilínea utiliza una curva para expresar la relación X e Y, sostiene
que a medida que X cambia, Y cambia en una cantidad diferente cada vez.
7.2.2. Diagrama de dispersión.
A este diagrama también se lo suele llamar “nube de puntos”. En el eje de abscisa colocamos
la variable independiente y en el eje de la ordenada la variable dependiente. En el diagrama de
dispersión tendremos una serie de puntos que representan las observaciones por pares para X
e Y.
Cuando se tiene dos variables numéricas y se hace un estudio de regresión, los pares de
valores de las variable (X, Y) se muestran en una gráfico que llamamos “diagrama de
dispersión”.
Podemos encontrarnos con diagramas de dispersión como se presenta a continuación:
2 3 5 7 8
x
6
8
11
13
15
y
Diagrama de dispersión
7.2.3. Modelo estadístico.
El modelo que ajusta a la variable dependiente y con la variable regreso o independiente x es:
Donde: 1= 1, 2,…..,n
80
Elementos básicos de la estadística Liliana Recchioni
β0 Es el valor promedio de y para x = 0
βi Es el incremento promedio de y para un incremento unitario de x
εi Es el error aleatorio o lo no explicado por la variable x.
Sobre estos errores se realizan supuestos de normalidad, independencia e igualdad de
varianzas a través de los distintos valores de x.
Luego es posible con los datos muestrales estimar los parámetros del modelos mediante un
método de estimación denominado Mínimos Cuadrados Ordinarios. Este método permite
obtener la mejor recta de ajuste.
Por lo tanto se estima el valor promedio de y para cada valor de x mediante esta ecuación.
Con y sombrero indicamos el valor promedio de y estimado para el valor de x=xi
Estima el incremento de y por cada incremento unitario de x.
Estima el valor promedio de y para un x=0.
Para medir cuán bueno es el modelo ajustado se observa el R2 denominado coeficiente de
determinación. Varía entre 0 y 1 y cuanto más cercano a 1 se encuentre mejor será el ajuste.
Ejemplo:
En un estudio de investigación se mide el puntaje promedio en exámenes en un
determinado año según las horas promedio de estudio diario. Para ese fin se
extraen 15 individuos y se toma la información de cada uno. Se poseen los
siguientes datos:
81
Elementos básicos de la estadística Liliana Recchioni
a) Diagrama de dispersión
1,80 2,90 4,00 5,10 6,20
horas
3,80
4,90
6,00
7,10
8,20
punt
aje
Puntaje vs. horas
b) Estimación del modelo
Análisis de regresión lineal
Variable N R² R² Aj ECMP AIC BIC puntaje 15 0,82 0,81 0,40 27,93 30,05
82
Elementos básicos de la estadística Liliana Recchioni
Coeficientes de regresión y estadísticos asociados
Coef Est. E.E. LI(95%) LS(95%) T p-valor CpMallows const 3,15 0,42 2,24 4,05 7,52 <0,0001 horas 0,76 0,10 0,55 0,97 7,71 <0,0001 56,27
Cuadro de Análisis de la Varianza (SC tipo III) F.V. SC gl CM F p-valor Modelo 17,33 1 17,33 59,45 <0,0001horas 17,33 1 17,33 59,45 <0,0001Error 3,79 13 0,29 Total 21,12 14
Modelo estimado
Indica que por cada hora de estudio puede incrementar en promedio 0,76 puntos en la nota de
sus exámenes anuales.
El R2 cercano al 80% es decir 0,82 indica un buen ajuste del modelo a los datos.
7.3. Medidas de asociación para variables cualitativas.
7.3.1. Coeficiente de contingencia de Pearson (C)Cuando se dispone de dos variables cualitativas es frecuente querer conocer si esas variables
están asociadas, es decir si la respuesta o el comportamiento de una es similar en todas las
categorías de la otra.
Ejemplo:
En la tabla de contingencia siguiente si ambas variables género y carrera, estuvieran
asociadas se diría que la carrera elegida es diferente según el género del estudiante.
Tabla 13: Cantidad de alumnos por género según carrera
. GéneroCarrera F M Total
Abogacía 38 47 85
Medicina 62 73 135
Total general 100 120 220
Fuente: Datos ficticios.
Para medir la asociación de estas dos variables se puede utilizar un coeficiente de contingencia C
de Pearson. Este coeficiente varía entre 0 y 1, cuanto más cercano a 1 se encuentre mayor
asociación existe entre las variables.
83
Elementos básicos de la estadística Liliana Recchioni
Si se cuenta con n individuos con información de 2 variables cualitativas, organizada en una tabla
de contingencia de c filas y k columnas, al coeficiente de asociación se lo define como:
Donde:
,
(el símbolo 2 se lee “chi cuadrado” c cantidad de columnas y k cantidad de filas) o ij es la
frecuencia conjunta observada en la tabla de contingencia y el valor e ij, que representa la
frecuencia esperada si ambas variables no estuvieran asociadas es igual a:
.
Es el producto del total de la fila y el total de la columna dividido por n la cantidad total de datos en
la tabla. Para realizar este cálculo del coeficiente C es necesario recurrir a algún software
estadístico como SPSS, Minitab, InfoStat, etc..
Si C está cercano a 0 no hay asociación entre variables, si es mayor que 0,30 y menor que 0,60
es una asociación moderada y mayor de 0,60 es más marcada.
Se puede consultar un ejemplo en:
http://wwwcapacitaciononline.blogspot.com/search/label/Chi%20Cuadrado , allí se presenta un
ejemplo del cálculo del chi cuadrado y del coeficiente C de contingencia.
Ejemplo:
Para la tabla de contingencia anterior se calcularán las frecuencias observadas y
esperadas. Entonces las observadas conjuntas y marginales serán:
Tabla 14: Cantidad de alumnos Observados por género según carrera
84
Elementos básicos de la estadística Liliana Recchioni
. GéneroCarrera F M Total
Abogacía 38O11
47O12
85n1.
Medicina 62O21
73O22
135n2.
Total general 100n.1
120n.2 220
Fuente: Datos ficticios.
El cálculo de las esperadas se realiza de la siguiente manera:
Entonces el e11 será igual a :
Y los restantes:
Tabla 15: Cantidad de alumnos Esperados por género según carrera cuando
las variables no están asociadas.
GéneroCarrera F M Total
Abogacía 38,64e11
46,36e12
85
Medicina 61,36e21
73,64e22
135
Total general 100 120 220 Fuente: Datos ficticios.
Luego
85
Elementos básicos de la estadística Liliana Recchioni
2 = 0,03 y C de Pearson= 0,01. Esto indica que la asociación es casi nula. Los
alumnos eligen sus carreras independientemente de su género.
En InfoStat:En columnas:sexColumna1 f m Total Abogacía 38 47 85Medicina 62 73 135Total 100 120 220
Frecuencias esperadas bajo independenciaEn columnas:sexColumna1 f m Total Abogacía 38,64 46,36 85,00Medicina 61,36 73,64 135,00Total 100,00 120,00 220,00
Estadístico Valor gl p Chi Cuadrado Pearson 0,03 1 0,8595Chi Cuadrado MV-G2 0,03 1 0,8595Coef.Conting.Cramer 0,01 Coef.Conting.Pearson 0,01 Coeficiente Phi -0,01
Ver en http://wwwcapacitaciononline.blogspot.com/search/label/Correlaci%C3%B3n más
ejemplos gráficos, en especial los gráficos de dispersión que presenta la nube de puntos que
se estable al graficar ambas variables.
Para el cálculo se puede utilizar la planilla Excel, buscando en insertar funciones la función de
correlación y seleccionando el rango de las variables observadas.
7.3.2. Coeficiente de contingencia de Crámer (V).Es uno de los coeficientes más apropiados para tablas de doble entrada con variables medidas
en escalas nominales.
86
Elementos básicos de la estadística Liliana Recchioni
Los límites varían entre 0 y 1.
En el ejemplo anterior el Coeficiente de contingencia de Crámer es:
El valor h corresponde a la cantidad de filas y c a las columnas.
Ejemplo:
La siguiente tabla presenta los resultados de dos variables nominales, Dominio
ocular y dominio manual en 413 alumnos.
Dominio manual
Dominio ocularOjo
Izquierdo Ambicular Ojo Derecho Total
Zurdo 34 62 23 119Ambidiestro 27 28 20 75Diestro 57 105 52 214Total 118 195 95 408
ResumenSi se desea analizar dos variables cuantitativas para conocer el grado de correlación o relación
que poseen, se utiliza el coeficiente de correlación lineal.
87
Elementos básicos de la estadística Liliana Recchioni
Si el objetivo es modelar o estimar una relación funcional entre ellas, reconociendo una
dependiente y otra independiente, se realiza un análisis de regresión lineal.
SI se poseen dos variables cualitativas, se puede estudiar la asociación entre ellas mediante
diferentes coeficientes: C de Pearson y V de Crámer.
Actividad 7
1) Un psicólogo clínico supone una correlación entre la personalidad y la depresión. Dos
cuestionarios son administrados. Uno mide la personalidad, con valores altos se califican a
los extrovertidos y con bajos a los introvertidos. El otro mide la depresión, altos valores
reflejan gran depresión. Calcule la asociación existente entre estas características.
Extrov/Introversión Depresión
16 2214 1815 206 93 105 310 102 413 15
2) Un psicólogo deportivo está interesado en la relación entre las semanas de ejercicios y las
“pulsaciones del corazón en reposo”. Que puede decir con respecto a esta relación.
Semanas Velocidad2 824 788 72
`14 6610 669 709 69
3) Un psicopedagogo supone una relación entre el coeficiente de inteligencia y el número de
hermanos.
a) Estime un modelo que permita calcular el coeficiente de inteligencia promedio dado la
cantidad de hermanos de un alumno.
b) Que le sugiere este modelo estimado?
c) Estime el CI promedio para 4 hermanos.
Hermanos Coef. Inteligencia8 1233 100
88
Elementos básicos de la estadística Liliana Recchioni
1 904 1112 1020 95
4) De un estudio en una facultad de Sociología obtenemos el número de estudiantes
clasificados por sexos que han repetido alguna asignatura.
Repiten No repitenMujeres 1224 270hombres 1319 252
Tienen los hombres más probabilidad de repetir que las mujeres en esta facultad?
5) La calificación final de los estudiantes de un curso de estadística se clasificó por carreras.
Se podrá concluir que existe una asociación entre la carrera y la calificación final?
Psicología Medicina FarmaciaSobresaliente 11 28 22Notable 20 34 30Aprobado 22 8 13
6) En una investigación para comprobar si la vitamina C es positiva para la prevención de
resfriados, se seleccionaron 279 esquiadores y durante 7 días se les dio un placebo o un
gramo de vitamina C. Pasado este período se observaron los siguientes resultados:
Vitamina Estado de saludResfriado No resfriado
Placebo 31 109Vitamina C 17 122
¿Existe asociación entre la vitamina y el estado de salud?
89
Elementos básicos de la estadística Liliana Recchioni
8. PROBABILIDAD.
8.1. Probabilidad
La probabilidad es un valor entre 0 y 1 que indica la chance de ocurrencia de un determinado
suceso.
Jacobo Bernoulli (1654-1705), Abrahan De Moivre (1667-1754), el reverendo Thomas Bayes
(1702-1761), Joseph Lagrange (1736-1813), desarrollaron fórmulas y técnicas para el cálculo
de las probabilidades. En el siglo XIX, Pierre Simón, marques de Laplace (1749- 1827) unificó
todas estas primeras ideas y compiló la primera teoría general de las probabilidades
Cuando se desconoce la población y solo se dispone de una muestra, se usa la probabilidad
para hacer afirmaciones sobre la composición de la población, es decir, para hacer inferencias
sobre variables o característica que presentan en esa población.
Para un investigador, la probabilidad de que ocurra un evento o suceso en el futuro presenta un
nivel de conocimiento.
En la mayoría de las situaciones, no se puede estar seguro de que ocurrirá un evento en el
futuro, pero si se conoce la probabilidad de que ocurra, tenemos mas probabilidad de tomar la
mejor decisión posible, en comparación con la situación en la que no conocemos la ocurrencia
probable del evento.
Un Experimento Aleatorio es aquel que proporciona resultados aleatorios, es decir no
predecibles con certeza.
Por ejemplo:
a) Tirar un dado al aire.
b) Tirar una moneda.
c) Medir si una persona está enferma.
d) Medir la altura.
e) Medir la cantidad de hijos. Etc..
Los eventos son resultados que surgen del experimento aleatorio. Por ejemplo si se tira una
moneda, un evento puede ser cara, otro evento puede ser cruz o también se podría definir otro
evento como “que salga una cara o una cruz”. Si se tirara un dado un evento podría ser que
salga una cara par , otro que salga una cara impar, etc..
La probabilidad se puede definir según el enfoque clásico, frecuencial o subjetivo.
90
Elementos básicos de la estadística Liliana Recchioni
Definición clásica
Es apropiado para asignar probabilidad cuando los resultados del experimento son igualmente
probables. Surgió con los juegos de azar.
Por ejemplo, si son posibles n resultados experimentales, una probabilidad de 1/n es la que
corresponde a cada evento.
La probabilidad de un evento A es igual, según la definición clásica a:
Ejemplo:
Se lanza un dado al aire, ¿cuál es la probabilidad de que salga un 5?
P (5) = 1/6 = 0,167 17 %
Se tiene un mazo de 52 cartas. Se decide sacar una carta al azar. ¿Cuál es la
probabilidad de que se salga un 3?.
P (3) = 4/52 = 0,077
Definición frecuencial
Es apropiado para asignar probabilidad a eventos, cuando se cuenta con datos para estimar a
proporción de veces que ocurrirá ese evento siempre que el experimento se repita un número
grande de veces.
Evidentemente se puede utilizar este enfoque siempre que tengamos frecuencias.
Ejemplo:
En un estudio de obreros de una fábrica se observa la cantidad de hijos que posee
cada uno de ellos.
91
Canti. de hijos
xi
Obrerosfi
0 201 452 573 394 285 146 9
Total 212
Elementos básicos de la estadística Liliana Recchioni
Se decide seleccionar una familia al azar. ¿Cuál es la probabilidad de que esta
tenga 3 hijos?
P (3) = 39/212 = 0,1840
Definición SubjetivaEs apropiado para asignar probabilidad cuando se da un experimento en donde no se puede
aplicar ninguno de los dos enfoques vistos, y se asigna probabilidad en base al conocimiento
del hecho que se tiene.
Ejemplo:
La probabilidad de que mañana llueva es del 70%.
8.2. Distribución de probabilidad para una variable aleatoria discreta.
Cuando una variable aleatoria x es discreta, se puede asignar una probabilidad a cada valor
que puede tomar x y obtener la distribución de probabilidad para x. La suma de todas las
probabilidades asociadas con los valores diferentes de x es 1.
Por ejemplo, si se mide la cantidad de hijos de mujeres que asisten al hospital:
Tabla 16: Distribución de probabilidad de la variable cantidad de hijos.xi fi P(xi)0 150 0,151 250 0,252 400 0,403 100 0,104 50 0,05
Más de 5 50 0,011000 1,00
92
Elementos básicos de la estadística Liliana Recchioni
Se obtiene así, a través de la definición frecuencial la función que asigna probabilidades a los distintos valores que asume la variable x. Gráficamente se puede representar como:
Figura 14: Distribución de probabilidad de la variable cantidad de hijos.
Sin embargo, no todos los experimentos producen variables aleatorias que son discretas.
8.3. Función de densidad para variables continuas. Distribución normal.
Las variables aleatorias continuas, como la altura, peso, sueldo de los empleados, tiempo de
realización de una tarea, puntaje de un test, porcentaje de respuestas correctas, etc., pueden
asumir la cantidad infinita de valores que correspondan a los puntos en un intervalo de la recta.
Si se realiza un histograma con un intervalo muy pequeño y se toman muchos datos para su
confección se estaría frente a una función que se aproxima a la denominada función de
densidad y a partir de allí, es posible analizar esa función y determinar a qué modelo o
distribución se aproxima.
Las probabilidades en las variables continuas se calculan para intervalos de los valores que puede asumir y no para valores individuales como ocurre en el caso de variables
discretas, y esas probabilidades se grafican con áreas bajo la curva de la función.
La función de densidad f(x) es la función que describe el modelo o la curva, y una forma de ver
cuál es la función de densidad de una variable de manera aproximada, es observando el
histograma que se obtiene de la muestra de información.
La función de densidad es el límite del histograma para n grande e intervalos infinitesimales.
Una de las funciones de densidad más utilizadas en aplicaciones para diversas disciplinas es la
función de densidad Normal.
93
Elementos básicos de la estadística Liliana Recchioni
Figura 19: Función de densidad normal.
-5,00 -2,50 0,00 2,50 5,00
Variable
0,00
0,10
0,20
0,30
0,40
Dens
idad
Función de densidad normal
Gráficamente es una curva acampanada y simétrica con respecto a la media. La distribución
normal posee dos parámetros: la media (mu) y la variancia σ2 (sigma cuadrado); y cuando
una variable x se distribuye normalmente se simboliza con x N(µ,2).
La Media: nos dice en dónde está centrada la distribución. Si lo modificamos,
podemos "mover" la curva sobre el eje horizontal.
Variancia: nos dice qué tan "ancha" o "angosta" es la distribución en su base. Indica
la dispersión de los datos con respecto a su valor medio.
Figura 20: Distribuciones normales con diferentes medias y variancia
-5,00 -2,50 0,00 2,50 5,00
Variable
0,00
0,15
0,30
0,45
0,60
Dens
idad
N(0;1)
N(2;0,5)
N(2;1)
Función de densidad normal
Entonces, existen muchas distribuciones Normales, una por cada combinación de valores de
media y varianza.
Propiedades.
Es simétrica con respecto a su media
El área bajo la curva vale 1.
94
Elementos básicos de la estadística Liliana Recchioni
Entre los valores µ ± se posee el 68% de la información.
Entre los valores µ ± 2 se posee el 95% de la información.
Entre los valores µ ± 3 se posee el 99% de la información
Las probabilidades en una distribución continua cualquiera sea, y en una normal, solo es
posible calcularla para un intervalo de la variable. Por ejemplo dada una variable x= edad,
puedo calcular la probabilidad que la edad esté entre 20 y 30 años.
Ejemplo:
Si x sigue una distribución normal con media 30 y desvío 10, la probabilidad de que
la edad sea menor que 35 es el siguiente área.
Figura 21: Probabilidad de que la edad sea menor que 35 años.
-10,00 10,00 30,00 50,00 70,00
Variable
0,000
0,010
0,020
0,030
0,040
Den
sida
d
Función de densidadNormal(30,100): p(evento)=0,6915
Luego esa probabilidad es igual a 0,6915, el cálculo se explicará más adelante.
Distribución Normal Estándar
Existe una distribución normal estándar que permite estandarizar o transformar todas las
variables normales para llevarlas a una misma escala o unidad de medida. Es aquella
95
Elementos básicos de la estadística Liliana Recchioni
distribución Normal con Media = 0 y Variancia = 1 y a esta nueva variable aleatoria que tiene
esta distribución se la simboliza con z.
Cualquier variable aleatoria x que se distribuye Normalmente con parámetros µ y σ2,
simbolizado por x N(µ,2), se puede transformar en una variable aleatoria z que sigue la
distribución Normal Estándar con parámetros 0 y 1.
Luego si x N(µ,2) ; la nueva variable z que se calcula como se distribuye con
parámetros 0 y 1, es decir z N(0,1). Lo que se hace aquí es pasar de una escala de x a otra
escala de z. Ambas tienen la misma distribución pero difieren en los parámetros..
Entonces cualquier z mayor que 3 o menor que -3 tendrá una probabilidad de ocurrencia del
1% dada las propiedades de la distribución normal.
Este resultado es muy importante cuando se calculan valores tipificados o estandarizados de
puntajes de pruebas de aprendizaje u otro tipo de test, ya que permite detectar a aquellos
alumnos con un valor z mayor que 2 lo que indica que poseen un valor de puntaje muy alto, tan
alto que comprenden aproximadamente el 2,5% (probabilidad 0,025) de los alumnos con mayor
puntaje. Y los que están por debajo de -2 poseen un puntaje muy bajo y comprenden
aproximadamente también el 2,5%.
Figura 22: Probabilidad de valores mayores de 2 y menores de -2.
-5,00 -2,50 0,00 2,50 5,00
Variable
0,00
0,10
0,20
0,30
0,40
Den
sida
d
Función de densidadNormal(0,1): p(evento)=0,0455
Los valores de z se buscan en la tabla conformando el número z con los valores enteros y
decimales. Luego el cuerpo de la tabla da un valor de probabilidad de que el z sea menor o
igual al número buscado, es decir otorga el valor de probabilidad que representa el área
sombreada.
96
Elementos básicos de la estadística Liliana Recchioni
Figura 23: Probabilidad que otorga la tabla de N(0,1)
-5,00 -2,50 0,00 2,50 5,00
Variable
0,00
0,10
0,20
0,30
0,40
Den
sida
d
Función de densidadNormal(0,1): p(evento)=0,8413
Ejemplo:
Si en una investigación sobre la edad de los docentes de una determinada
provincia, surge que la edad es una variable distribuida normalmente con
.
Cuál es la probabilidad de que los docentes tengan una edad menor de 35.
Luego debe estandarizarse el valor 35 es decir pasar de la normal con parámetros
(35, 100) a una normal con parámetros (0,1).
Luego se busca en la tabla que se anexa al final de la unidad el valor z=0,5 en la
primer columna y el valor .00 en la primera fila. Luego en el cuerpo de la tabla se
obtiene el valor 0.6915 que es la probabilidad que z sea menor de 0,50 lo cual
equivale a calcular la probabilidad de que la edad sea menor que 35 años.
Figura 25: Valor de probabilidad para z menor que 0,50.
97
Elementos básicos de la estadística Liliana Recchioni
La distribución normal tiene varios usos, entre ellos el de tipificar o estandarizar valores de
puntajes provenientes de distintos individuos o poblaciones. Las puntuaciones z o valores
tipificados o estandarizados, son transformaciones de los puntajes originales con el propósito
de medir la distancia del valor con respecto a la media. Como la estandarización tiene media 0
los valores z indicarán esa distancia.
Supóngase que de dos estudiantes candidatos a una beca A y B, debe seleccionarse uno en
función de su puntaje. El estudiante A tiene una calificación de 8 en un sistema donde la
calificación de los alumnos se comporta como N(6,1) y el estudiante B tiene una calificación de
80 en un sistema donde la calificación de los alumnos se comporta como N(70,100).
No se puede comparar directamente 8 puntos de A frente a los 80 de B, pero como ambas
poblaciones se comportan de modo normal, se pueden tipificarlos o estandarizarlos y observar
las puntuaciones sobre una distribución de referencia N(0,1).
Entonces:
98
Elementos básicos de la estadística Liliana Recchioni
Figura 26: Probabilidades mayores del puntaje del alumno A y del puntaje del alumno B.
-5 -4 -3 -2 -1 0 1 2 3 4 5
Variable
0,00
0,10
0,20
0,30
0,40
Den
sida
d
Como zA > zB, entonces la probabilidad de encontrar un alumno que supere al alumno A es
menor que la probabilidad de encontrar a un alumno que supere el puntaje del alumno B.
Entonces el porcentaje de compañeros del alumno A provenientes del mismo sistema de
estudios que ha superado en calificación al estudiante A, es menor que el que ha
superado al alumno B. Luego A es mejor candidato para la beca que B.
Ejemplo:
La estandarización permite comparar puntuaciones de dos distribuciones diferentes.
Supóngase que se mide el puntaje de una prueba antes de aplicar una estrategia
de estímulo. Luego se vuelve a medir el puntaje después de aplicar la mencionada
estrategia.
Por lo tanto se cuenta con dos distribuciones de puntajes pre y post estímulo.
En la preprueba un alumno obtuvo un valor de 130 y la distribución tuvo una media
de 122,5 y un desvío de 10.
En la postprueba obtuvo un valor de 135 donde la media del grupo fue de 140 y la
desviación estándar de 9.8.
Luego se estandarizan ambos valores y pueden compararse entre si.
99
zB zA
Elementos básicos de la estadística Liliana Recchioni
Por lo tanto el valor de la preprueba es mejor que el de la prostprueba. Si bien en
valores absolutos es mejor el valor 135, en términos relativos a los puntajes del
grupo no lo es.
En la preprueba el alumno estaba por encima de la media del grupo y a una
distancia de 0,75. En la postprueba se encontraba por debajo de la media y a una
distancia de 0,51.
ResumenTodo experimento aleatorio genera variables u observaciones aleatorias. Estas observaciones
son las llamadas en estadísticas variables.
Todas las variables aleatorias tienen una distribución de probabilidad, tanto las cualitativas
como las cuantitativas.
La distribución más importante es la normal, es una distribución para variable aleatoria continua
y muchas observaciones de la realidad se comportan asi.
Si una variable tiene un comportamiento en probabilidad normal, esa variable puede tipificarse
o estandarizarse para poder comparar o entender mejor su comportamiento.
Actividad 8
1) En una encuesta que se realiza en un barrio marginal, se indaga a 200 jefas de hogar y se
mide la variable cantidad de habitaciones destinadas solamente a dormitorios en la
vivienda.
Los resultados son los siguientes:
Cantidad de habitaciones
Cantidad de jefas
0 1501 302 153 5
Total 200
a) Grafique la frecuencia relativa.
b) Indique como puede estimarse la probabilidad es decir qué enfoque
aplicaría.
100
Elementos básicos de la estadística Liliana Recchioni
c) Calcule la probabilidad de poseer un dormitorio.
d) calcule la probabilidad de poseer 2 dormitorios.
e) calcule la probabilidad de poseer uno o más dormitorios.
2) En un estudio en la universidad a 220 estudiantes de enfermería se les pregunta la
cantidad de hermanos que poseen. Los resultados son los siguientes:
Cantidad de hermanos
Cantidad de alumnos
0 801 502 403 50
Total 220
a) Grafique la frecuencia relativa.
b) Indique como puede estimarse la probabilidad es decir qué enfoque
aplicaría.
c) Calcule la probabilidad de poseer 2 hermanos
d) calcule la probabilidad de poseer 3 hermanos.
e) calcule la probabilidad de no poseer hermanos.
3) A todos los alumnos de una escuela, se les tomo un test de Coeficiente Intelectual. Los
valores obtenidos de C.I. se distribuyen normalmente con una media igual a 58 puntos y
una desviación típica de 4 puntos. Qué proporción de alumnos tienen:
a) Menos de 48 puntos
b) Entre 53 y 62 puntos
c) Menos de 66 puntos
4) Se está realizando un estudio social sobre ingresos de los jefes de hogares de un
determinado barrio compuesto por 300 familias. Supongamos que los ingresos del jefe de
hogar se distribuyen normalmente con una media de 4500 $ y una variancia igual a 1200.
Cuántos Jefes de hogares ganan:
a) Más de $ 5500
b) Menos de $ 4000 o más de $ 5000
5) En los 5º años de un colegio secundario de la Pcia. de La Rioja, se ha tomado la altura a
un grupo de alumnos para seleccionarlos para una competencia de atletismo. Si las alturas
de los alumnos se distribuyen normalmente con una media igual a 172 cm y una desviación
típica de 4 cm. Se tomaron para esta prueba 120 alumnos. Calcular:
101
Elementos básicos de la estadística Liliana Recchioni
a) Cantidad de alumnos con alturas inferiores a 166 cm
b) Cantidad de alumnos con alturas entre 172 y 174 cm
c) Cantidad de alumnos con alturas superior a 177 cm
6) Para un grupo de hombres adultos con una edad particular, la distribución de lecturas del
colesterol en mg/dl se distribuye normalmente con una media igual a 210 y una desviación
estándar de 15.
a) Qué % de esta población tiene lecturas que exceden de 250?
b) Qué % tiene lecturas inferiores a 180?
7) Según un trabajo de investigación, los niños en la Argentina pasan entre 1200 y 1800 horas
al año viendo televisión. Suponga que el tiempo que los niños pasan frente el televisor se
distribuyen normalmente con una media igual a 1500 horas y una desviación estándar de
100 horas.
a) ¿Qué % vio televisión entre 1400 y 1600 horas?
b) ¿Qué % vio televisión más de 1600 horas ?
8) Supongamos que un profesor de un enorme grupo de alumnos dice que es necesario
obtener una nota ubicada en el 10 % superior de la distribución de la clase para sacar una
A en un examen. Por experiencia el puede estimar que la media y desviación estándar de
este examen será de 72 puntos y 13 puntos respectivamente. Cuál es la calificación mínima
necesaria para obtener una A?. Suponemos que las calificaciones se distribuyen
normalmente.
9) En un examen de Matemáticas la calificación promedio fue de 82 puntos y una desviación
estándar de 5 puntos. Todos los estudiantes con calificación de 88 a 94 puntos recibieron
una B. Si las calificaciones están distribuidas normalmente y 8 estudiantes recibieron una B.
Cuantos estudiantes se presentaron el examen?
10) La media de los pesos de 500 estudiantes de un colegio es 70 kg y la desviación estandar
3 kg. Suponiendo que los pesos se distribuyen normalmente, hallar cuántos estudiantes
pesan:
a) Entre 60 kg y 75 kg.
b) Más de 90 kg.
c) Menos de 64 kg.
102
Elementos básicos de la estadística Liliana Recchioni
11) Tras un test de cultura general se observa que las puntuaciones obtenidas siguen una
distribución una distribución N(65, 18). Se desea clasificar a los examinados en tres grupos
(de baja cultura general, de cultura general aceptable, de excelente cultura general) de
modo que hay en el primero un 20% la población, un 65% el segundo y un 15% en el
tercero. ¿Cuáles han de ser las puntuaciones que marcan el paso de un grupo al otro?
103