análisis de los datos y tabulación

Prof. N. Tomás Atauje Calderón

Metodología de la Investigación

Obstetricia UPSB – Ciclo II

Análisis de datos Consiste en determinar qué resultados de las variables

se presentaron y qué relación entre las variables se necesita para dar respuesta al problema planteado.

En la actualidad esto se realiza mediante programas de computadora. Por ello es más importante la interpretación de los métodos de análisis cuantitativos que aprender los procedimientos de cálculo.

El análisis que se proponga debe ser coherente con los objetivos e hipótesis de estudio. No solo se deben emplear las técnicas estadísticas sino también se debe justificar por qué se están usando.

Análisis de datos Hacer el plan de análisis significa exponer el plan que

se va seguir para el tratamiento o análisis estadístico de la información obtenida.

El análisis depende de: El nivel de medición de las variables; la manera cómo se formularon las hipótesis y el interés del investigador.

El investigador describe sus datos y efectúa análisis estadísticos para relacionar sus variables. Primero se realizan análisis de estadística descriptiva para cada una de las variables y luego se describe la relación entre éstas.

Principales análisis Estadística descriptiva para las variables (tomadas

individualmente).

Puntuaciones “Z”

Razones y tasas

Cálculos y razonamientos de estadística inferencial.

Pruebas paramétricas

Pruebas no paramétricas

Análisis multivariados

Estadística descriptiva para cada variable Lo primero es describir los datos, valores o

puntuaciones obtenidas para cada variable.

Los datos obtenidos van a ser descritos en una distribución de puntuaciones o frecuencias.

Distribución de frecuencias:

Conjunto de puntuaciones ordenadas en sus respectivas categorías.

A veces las categorías de las distribuciones de las frecuencias son tantas que necesitan ser resumidas.

Distribución de frecuencias Las distribuciones de frecuencias pueden completarse

agregando las frecuencias relativas y las frecuencias acumuladas.

Las frecuencias relativas son los porcentajes de casos en cada categoría. Las frecuencias acumuladas son lo que se va acumulando en cada categoría, desde la más baja hasta la mas alta.

Las frecuencias acumuladas constituyen lo que se acumula en cada categoría. En la última categoría siempre se acumula el total.

Las frecuencias acumuladas también pueden expresarse en porcentajes.

Distribución de frecuencias

Las frecuencias relativas y porcentajes se calculan así:

Frecuencia relativa = # casos Porcentaje= # casos x 100 # total # total

*Al presentar los resultados, una distribución solo presentará los elementos más

informativos para el lector, pudiendo llevar un comentario adjunto.

Categoría

Cód.

Frecuencia absoluta

(f)

Frec. relativa

(fr)

Porcentaje (%)

Frec. acum.

(∑f)

Frec. rel. ac. (∑fr)

Porc. ac.

(∑%)

De acuerdo 1 90 0,75 75% 90 0,75 75%

En desacuerdo 2 5 0,042 4.17% 95 0,792 79.17%

No sabe/ No opina 3 25 0,208 20.83% 120 1,00 100%

TOTAL 120 1,00 100%

Tabulación de los datos Es la presentación de los datos estadísticos en forma de tablas o

cuadros. Partes de una tabla:

Título, preciso y conciso. Contenido: Encabezamientos o títulos de las columnas; columna

matriz y columnas de parámetros. Notas explicativas (opcional)

Para tabular una variable cualitativa se debe obtener las frecuencias y

porcentajes. Recordar que en las variables ordinales siempre se debe respetar el orden lógico.

Para tabular variables cuantitativas, los datos se agruparán según la frecuencia de los valores. Si son pocos se realiza una tabla similar a las realizadas en variables cualitativas; si son muchos, se agrupan en clases o intervalos de valores sucesivos.

Todas las clases o intervalos deben tener la misma amplitud en sus valores.

Tabulación de datos Las distribuciones de frecuencias, especialmente cuando se

utilizan frecuencias relativas, pueden presentarse en forma de gráfica de diversos tipos.

75.00%

4.17% 20.83%

Porcentaje (%)

De acuerdo

En desacuerdo

No sabe/Noopina

90 95

120

0

20

40

60

80

100

120

140

De acuerdo Endesacuerdo

No sabe/Noopina

Frec. acum. (∑f)

Tabulación de datos Las distribuciones de frecuencias también pueden graficarse como

polígonos de frecuencias. Los polígonos de frecuencias relacionan las puntuaciones con sus

respectivas frecuencias. Es propio de un nivel de medición por intervalos.

Categorías/Intervalos Frecuencias absolutas

20 - 25 15

25 - 30 25

30 - 35 39

35 - 40 35

40 - 45 40

45 - 50 30

50 - 55 10

55 - 60 6

Total 200 0

5

10

15

20

25

30

35

40

45

20 - 25 25 - 30 30 - 35 35 - 40 40 - 45 45 - 50 50 - 55 55 - 60

Frecuencias absolutas

Medidas de tendencia central Son puntos en una distribución y nos ayudan a ubicarla dentro de una

escala de medición. Las principales medidas de tendencia central son: Moda, mediana y

media. Moda: Categoría o puntuación que ocurre con mayor frecuencia. Se utiliza con

cualquier nivel de medición. Mediana: Es el valor que divide a la distribución por la mitad. La mitad de los

casos caen por debajo de la mediana y la otra mitad está por encima de ella.

Es propia de los niveles de medición ordinal, por intervalos y de razón. No se usa con variables nominales ya que en ellas no hay jerarquías.

Se halla mediante la fórmula:

Mediana = N + 1 2

*Donde N es el número de casos.

Media o promedio Es la medida de tendencia central más utilizada. Puede definirse como el promedio aritmético de una distribución. Se

obtiene mediante la siguiente fórmula: b d

Media (X) = X1 + X2 + X3 + … + Xn n

Si los datos están agrupados en intervalos, primero se debe calcular el

punto medio de cada intervalo y luego se multiplica cada punto medio por las frecuencias que le corresponden. A estos resultados se les saca el promedio, la fórmula es:

D d X = ∑fx / N

*Siendo ∑fx, la sumatoria de los productos de cada punto medio y su

respectiva frecuencia.

Medidas de la variabilidad Indican la dispersión de los datos en la escala de medición. Son

intervalos, designan distancias o un número de unidades en la escala de medición.

Las medidas de la variabilidad más utilizadas son: Rango, desviación estándar y varianza.

Rango: También se conoce como Recorrido. Es la diferencia entre la puntuación mayor y la puntuación menor. Se

halla mediante la fórmula:

Rango = XM – Xm

*Cuanto mas grande sea el rango, mayor será la dispersión de los datos de

una distribución.

Desviación estándar Es el promedio de la desviación de las puntuaciones con

respecto a la media. Se halla mediante la siguiente fórmula:

X x.

Desviación estándar (s o σ) = √ (∑ (X - X)2 / N)

Cuando los datos están agrupados en una distribución de frecuencias, se hace lo siguiente: Obtener el punto medio de cada intervalo y determinar la

media de la distribución (para datos agrupados).

Elevar la media al cuadrado, se obtiene X2.

Multiplicar la columna fx por los puntos medios y obtener una columna nueva (fx2).

Obtener la sumatoria de la nueva columna.

Desviación estándar Aplicar la siguiente fórmula: x x

s = √ ( (∑ fx2 / N) – X2 )

*La desviación estándar solo se utiliza en variables medidas por intervalos o de razón.

Varianza: Es la desviación estándar elevada al cuadrado y se simboliza por s2. Es un concepto estadístico muy importante, ya que muchas de las

pruebas cuantitativas se fundamentan en ella. *Diversos métodos estadísticos parten de la descomposición de la

varianza. Sin embargo, con fines descriptivos se utiliza preferentemente la desviación estándar.

Puntuaciones “Z” Son transformaciones que se pueden hacer a los valores o

puntuaciones obtenidas, con el propósito de analizar su distancia respecto a la media.

Nos indica la dirección y el grado en que un valor individual obtenido se aleja de la media, en una escala de unidades de desviación estándar.

Es el método mas común para estandarizar la escala de una variable medida por un nivel de intervalos. Su fórmula es:

X x Z = X – X

s *Donde X es la puntuación o valor a transformar.

Estandarizar los valores permite comparar puntuaciones de dos

distribuciones diferentes. También nos sirven para comparar mediciones de distintas pruebas o escalas aplicadas a los mismos sujetos.

Puntuaciones “Z”

Razones y tasas Razón: Relación entre dos categorías. Su fórmula es:

Razón = Frecuencia 1 Frecuencia 2

Tasa: Relación entre el número de casos, frecuencias o eventos de una

categoría y el número total de observaciones, multiplicada por un múltiplo de 10 (generalmente 100 o 1000). Su fórmula es:

Tasa = # eventos durante un periodo x 100 (o 1000)

# total de eventos posibles

Estadística inferencial Se busca generalizar los resultados obtenidos en la

muestra hacia la población o universo.

Los datos recolectados de una muestra se conocen como “estadígrafos”, mientras que las estadísticas de la población se conocen como “parámetros”. Los parámetros van a ser inferidos de los estadígrafos.

La estadística inferencial va ser utilizada para probar hipótesis y estimar parámetros.

Prueba de hipótesis Lo que se busca es determinar si la hipótesis planteada es

congruente con los datos obtenidos en la muestra. Si lo es se acepta, sino se rechaza.

Distribución muestral:

Conjunto de valores sobre una estadística calculada de todas las muestras posibles de determinado tamaño.

Las distribuciones muestrales de medias son las más conocidas.

Muy rara vez se obtiene la distribución muestral. Es mas bien un concepto teórico definido por la estadística de los investigadores.

Lo que comúnmente se hace es extraer una sola muestra.

Prueba de hipótesis Nivel de significancia (α): Nivel de probabilidad de equivocarse; se fija antes de probar las

hipótesis inferenciales. Se toma como un área bajo la distribución muestral.

Se utilizan dos niveles de significancia: Nivel de significancia de 0.05 (95% de seguridad) y nivel de significancia de 0.01 (99% de seguridad).

Procedimiento: Establecer una hipótesis acerca del parámetro poblacional. Definir el nivel de significancia. Recolectar los datos de una muestra representativa. Estimar la desviación estándar de la distribución muestral de la media,

utilizando la siguiente fórmula: X x SX = s .

√n

Prueba de hipótesis Transformar la media de la muestra en una puntuación “Z”, en el

contexto de la distribución muestral. Vamos a aplicar una variante de la fórmula para obtener puntuaciones “Z”:

X x Z = X – X

SX

Buscar el valor de la puntuación “Z” que corresponda al nivel de significancia. Para un nivel de 0.05 se considera una puntuación de 1.96 mientras que para un nivel de 0.01 se considera 2.58 como puntuación.

Comparar la media de la muestra transformada a puntuación “Z” con el valor correspondiente. Si el valor es menor a la puntuación “Z” se acepta la hipótesis, pero si es mayor se rechaza.

Prueba de hipótesis Intervalo de confianza: Se trata de una probabilidad definida de que un parámetro

se va ubicar en un determinado intervalo. Aquí también se consideran los niveles de confianza de

0.05 y 0.01; además estos niveles de confianza se expresan en unidades de desviación estándar (acudiendo a los valores de las puntuaciones “Z”).

Se aplica la siguiente fórmula:

Intervalo de confianza = Estadígrafo + (Puntuación “Z” del)(Desv. Est. de la) nivel de confianza Dist. Muestral

.

Análisis paramétricos Para realizar un análisis paramétrico se debe considerar que:

La distribución poblacional de la variable dependiente es normal. El nivel de medición de la variable dependiente es por intervalos o

razón. Cuando dos o mas poblaciones son estudiadas, tienen una varianza

homogénea.

Las pruebas estadísticas paramétricas más utilizadas son:

Coeficiente de correlación de Pearson (r) Regresión lineal Prueba “t” (distribución “t” de Student) Prueba de contraste de la diferencia de proporciones Análisis de varianza unidireccional (ANOVA oneway) Análisis de varianza factorial (ANOVA) Análisis de covarianza (ANCOVA)

Análisis no paramétricos Para realizar análisis no paramétricos se debe considerar que:

La mayoría de estos análisis no requieren de presupuestos acerca de la forma de la distribución poblacional. Aceptan distribuciones no normales.

Las variables no necesariamente deben estar medidas en un nivel por intervalos o de razón, pueden analizar datos nominales u ordinales.

Las pruebas no paramétricas más utilizadas son: Ji cuadrado o X2

Coeficientes de correlación e independencia para tabulaciones cruzadas.

Coeficientes de correlación por rangos ordenados de Spearman y Kendall.

Análisis multivariado En estos métodos se analiza la relación entre varias

variables independientes y al menos una dependiente.

Son métodos más complejos que requieren del uso de computadoras para efectuar los cálculos necesarios y normalmente se enseñan a nivel de postgrado.

Los principales métodos de análisis multivariado son: Regresión múltiple

Análisis lineal de patrones (path analysis)

Análisis de factores

Análisis multivariado de varianza (MANOVA)

Análisis estadísticos Actualmente los análisis estadísticos se llevan acabo en

programas para computadora, utilizando paquetes estadísticos. Estos paquetes son sistemas integrados de programas diseñados para el análisis de datos.

Cada paquete tiene su propio formato, instrucciones, procedimientos y características. Para conocer un paquete es necesario consultar el manual respectivo.

El procedimiento para analizar los datos es crear o desarrollar un

programa basándonos en el manual. Este programa incluye la matriz de datos y las pruebas estadísticas seleccionadas; después se corre el programa y se obtienen los resultados, los cuales se interpretan.

Los principales paquetes estadísticos conocidos hoy en día son el

SPSS y el Minitab; ambos disponibles en diferentes versiones.

análisis de los datos y tabulación

Education