análisis de los datos y tabulación
Post on 26-Jul-2015
193 Views
Preview:
TRANSCRIPT
Prof. N. Tomás Atauje Calderón
Metodología de la Investigación
Obstetricia UPSB – Ciclo II
Análisis de datos Consiste en determinar qué resultados de las variables
se presentaron y qué relación entre las variables se necesita para dar respuesta al problema planteado.
En la actualidad esto se realiza mediante programas de computadora. Por ello es más importante la interpretación de los métodos de análisis cuantitativos que aprender los procedimientos de cálculo.
El análisis que se proponga debe ser coherente con los objetivos e hipótesis de estudio. No solo se deben emplear las técnicas estadísticas sino también se debe justificar por qué se están usando.
Análisis de datos Hacer el plan de análisis significa exponer el plan que
se va seguir para el tratamiento o análisis estadístico de la información obtenida.
El análisis depende de: El nivel de medición de las variables; la manera cómo se formularon las hipótesis y el interés del investigador.
El investigador describe sus datos y efectúa análisis estadísticos para relacionar sus variables. Primero se realizan análisis de estadística descriptiva para cada una de las variables y luego se describe la relación entre éstas.
Principales análisis Estadística descriptiva para las variables (tomadas
individualmente).
Puntuaciones “Z”
Razones y tasas
Cálculos y razonamientos de estadística inferencial.
Pruebas paramétricas
Pruebas no paramétricas
Análisis multivariados
Estadística descriptiva para cada variable Lo primero es describir los datos, valores o
puntuaciones obtenidas para cada variable.
Los datos obtenidos van a ser descritos en una distribución de puntuaciones o frecuencias.
Distribución de frecuencias:
Conjunto de puntuaciones ordenadas en sus respectivas categorías.
A veces las categorías de las distribuciones de las frecuencias son tantas que necesitan ser resumidas.
Distribución de frecuencias Las distribuciones de frecuencias pueden completarse
agregando las frecuencias relativas y las frecuencias acumuladas.
Las frecuencias relativas son los porcentajes de casos en cada categoría. Las frecuencias acumuladas son lo que se va acumulando en cada categoría, desde la más baja hasta la mas alta.
Las frecuencias acumuladas constituyen lo que se acumula en cada categoría. En la última categoría siempre se acumula el total.
Las frecuencias acumuladas también pueden expresarse en porcentajes.
Distribución de frecuencias
Las frecuencias relativas y porcentajes se calculan así:
Frecuencia relativa = # casos Porcentaje= # casos x 100 # total # total
*Al presentar los resultados, una distribución solo presentará los elementos más
informativos para el lector, pudiendo llevar un comentario adjunto.
Categoría
Cód.
Frecuencia absoluta
(f)
Frec. relativa
(fr)
Porcentaje (%)
Frec. acum.
(∑f)
Frec. rel. ac. (∑fr)
Porc. ac.
(∑%)
De acuerdo 1 90 0,75 75% 90 0,75 75%
En desacuerdo 2 5 0,042 4.17% 95 0,792 79.17%
No sabe/ No opina 3 25 0,208 20.83% 120 1,00 100%
TOTAL 120 1,00 100%
Tabulación de los datos Es la presentación de los datos estadísticos en forma de tablas o
cuadros. Partes de una tabla:
Título, preciso y conciso. Contenido: Encabezamientos o títulos de las columnas; columna
matriz y columnas de parámetros. Notas explicativas (opcional)
Para tabular una variable cualitativa se debe obtener las frecuencias y
porcentajes. Recordar que en las variables ordinales siempre se debe respetar el orden lógico.
Para tabular variables cuantitativas, los datos se agruparán según la frecuencia de los valores. Si son pocos se realiza una tabla similar a las realizadas en variables cualitativas; si son muchos, se agrupan en clases o intervalos de valores sucesivos.
Todas las clases o intervalos deben tener la misma amplitud en sus valores.
Tabulación de datos Las distribuciones de frecuencias, especialmente cuando se
utilizan frecuencias relativas, pueden presentarse en forma de gráfica de diversos tipos.
75.00%
4.17% 20.83%
Porcentaje (%)
De acuerdo
En desacuerdo
No sabe/Noopina
90 95
120
0
20
40
60
80
100
120
140
De acuerdo Endesacuerdo
No sabe/Noopina
Frec. acum. (∑f)
Tabulación de datos Las distribuciones de frecuencias también pueden graficarse como
polígonos de frecuencias. Los polígonos de frecuencias relacionan las puntuaciones con sus
respectivas frecuencias. Es propio de un nivel de medición por intervalos.
Categorías/Intervalos Frecuencias absolutas
20 - 25 15
25 - 30 25
30 - 35 39
35 - 40 35
40 - 45 40
45 - 50 30
50 - 55 10
55 - 60 6
Total 200 0
5
10
15
20
25
30
35
40
45
20 - 25 25 - 30 30 - 35 35 - 40 40 - 45 45 - 50 50 - 55 55 - 60
Frecuencias absolutas
Medidas de tendencia central Son puntos en una distribución y nos ayudan a ubicarla dentro de una
escala de medición. Las principales medidas de tendencia central son: Moda, mediana y
media. Moda: Categoría o puntuación que ocurre con mayor frecuencia. Se utiliza con
cualquier nivel de medición. Mediana: Es el valor que divide a la distribución por la mitad. La mitad de los
casos caen por debajo de la mediana y la otra mitad está por encima de ella.
Es propia de los niveles de medición ordinal, por intervalos y de razón. No se usa con variables nominales ya que en ellas no hay jerarquías.
Se halla mediante la fórmula:
Mediana = N + 1 2
*Donde N es el número de casos.
Media o promedio Es la medida de tendencia central más utilizada. Puede definirse como el promedio aritmético de una distribución. Se
obtiene mediante la siguiente fórmula: b d
Media (X) = X1 + X2 + X3 + … + Xn n
Si los datos están agrupados en intervalos, primero se debe calcular el
punto medio de cada intervalo y luego se multiplica cada punto medio por las frecuencias que le corresponden. A estos resultados se les saca el promedio, la fórmula es:
D d X = ∑fx / N
*Siendo ∑fx, la sumatoria de los productos de cada punto medio y su
respectiva frecuencia.
Medidas de la variabilidad Indican la dispersión de los datos en la escala de medición. Son
intervalos, designan distancias o un número de unidades en la escala de medición.
Las medidas de la variabilidad más utilizadas son: Rango, desviación estándar y varianza.
Rango: También se conoce como Recorrido. Es la diferencia entre la puntuación mayor y la puntuación menor. Se
halla mediante la fórmula:
Rango = XM – Xm
*Cuanto mas grande sea el rango, mayor será la dispersión de los datos de
una distribución.
Desviación estándar Es el promedio de la desviación de las puntuaciones con
respecto a la media. Se halla mediante la siguiente fórmula:
X x.
Desviación estándar (s o σ) = √ (∑ (X - X)2 / N)
Cuando los datos están agrupados en una distribución de frecuencias, se hace lo siguiente: Obtener el punto medio de cada intervalo y determinar la
media de la distribución (para datos agrupados).
Elevar la media al cuadrado, se obtiene X2.
Multiplicar la columna fx por los puntos medios y obtener una columna nueva (fx2).
Obtener la sumatoria de la nueva columna.
Desviación estándar Aplicar la siguiente fórmula: x x
s = √ ( (∑ fx2 / N) – X2 )
*La desviación estándar solo se utiliza en variables medidas por intervalos o de razón.
Varianza: Es la desviación estándar elevada al cuadrado y se simboliza por s2. Es un concepto estadístico muy importante, ya que muchas de las
pruebas cuantitativas se fundamentan en ella. *Diversos métodos estadísticos parten de la descomposición de la
varianza. Sin embargo, con fines descriptivos se utiliza preferentemente la desviación estándar.
Puntuaciones “Z” Son transformaciones que se pueden hacer a los valores o
puntuaciones obtenidas, con el propósito de analizar su distancia respecto a la media.
Nos indica la dirección y el grado en que un valor individual obtenido se aleja de la media, en una escala de unidades de desviación estándar.
Es el método mas común para estandarizar la escala de una variable medida por un nivel de intervalos. Su fórmula es:
X x Z = X – X
s *Donde X es la puntuación o valor a transformar.
Estandarizar los valores permite comparar puntuaciones de dos
distribuciones diferentes. También nos sirven para comparar mediciones de distintas pruebas o escalas aplicadas a los mismos sujetos.
Puntuaciones “Z”
Razones y tasas Razón: Relación entre dos categorías. Su fórmula es:
Razón = Frecuencia 1 Frecuencia 2
Tasa: Relación entre el número de casos, frecuencias o eventos de una
categoría y el número total de observaciones, multiplicada por un múltiplo de 10 (generalmente 100 o 1000). Su fórmula es:
Tasa = # eventos durante un periodo x 100 (o 1000)
# total de eventos posibles
Estadística inferencial Se busca generalizar los resultados obtenidos en la
muestra hacia la población o universo.
Los datos recolectados de una muestra se conocen como “estadígrafos”, mientras que las estadísticas de la población se conocen como “parámetros”. Los parámetros van a ser inferidos de los estadígrafos.
La estadística inferencial va ser utilizada para probar hipótesis y estimar parámetros.
Prueba de hipótesis Lo que se busca es determinar si la hipótesis planteada es
congruente con los datos obtenidos en la muestra. Si lo es se acepta, sino se rechaza.
Distribución muestral:
Conjunto de valores sobre una estadística calculada de todas las muestras posibles de determinado tamaño.
Las distribuciones muestrales de medias son las más conocidas.
Muy rara vez se obtiene la distribución muestral. Es mas bien un concepto teórico definido por la estadística de los investigadores.
Lo que comúnmente se hace es extraer una sola muestra.
Prueba de hipótesis Nivel de significancia (α): Nivel de probabilidad de equivocarse; se fija antes de probar las
hipótesis inferenciales. Se toma como un área bajo la distribución muestral.
Se utilizan dos niveles de significancia: Nivel de significancia de 0.05 (95% de seguridad) y nivel de significancia de 0.01 (99% de seguridad).
Procedimiento: Establecer una hipótesis acerca del parámetro poblacional. Definir el nivel de significancia. Recolectar los datos de una muestra representativa. Estimar la desviación estándar de la distribución muestral de la media,
utilizando la siguiente fórmula: X x SX = s .
√n
Prueba de hipótesis Transformar la media de la muestra en una puntuación “Z”, en el
contexto de la distribución muestral. Vamos a aplicar una variante de la fórmula para obtener puntuaciones “Z”:
X x Z = X – X
SX
Buscar el valor de la puntuación “Z” que corresponda al nivel de significancia. Para un nivel de 0.05 se considera una puntuación de 1.96 mientras que para un nivel de 0.01 se considera 2.58 como puntuación.
Comparar la media de la muestra transformada a puntuación “Z” con el valor correspondiente. Si el valor es menor a la puntuación “Z” se acepta la hipótesis, pero si es mayor se rechaza.
Prueba de hipótesis Intervalo de confianza: Se trata de una probabilidad definida de que un parámetro
se va ubicar en un determinado intervalo. Aquí también se consideran los niveles de confianza de
0.05 y 0.01; además estos niveles de confianza se expresan en unidades de desviación estándar (acudiendo a los valores de las puntuaciones “Z”).
Se aplica la siguiente fórmula:
Intervalo de confianza = Estadígrafo + (Puntuación “Z” del)(Desv. Est. de la) nivel de confianza Dist. Muestral
.
Análisis paramétricos Para realizar un análisis paramétrico se debe considerar que:
La distribución poblacional de la variable dependiente es normal. El nivel de medición de la variable dependiente es por intervalos o
razón. Cuando dos o mas poblaciones son estudiadas, tienen una varianza
homogénea.
Las pruebas estadísticas paramétricas más utilizadas son:
Coeficiente de correlación de Pearson (r) Regresión lineal Prueba “t” (distribución “t” de Student) Prueba de contraste de la diferencia de proporciones Análisis de varianza unidireccional (ANOVA oneway) Análisis de varianza factorial (ANOVA) Análisis de covarianza (ANCOVA)
Análisis no paramétricos Para realizar análisis no paramétricos se debe considerar que:
La mayoría de estos análisis no requieren de presupuestos acerca de la forma de la distribución poblacional. Aceptan distribuciones no normales.
Las variables no necesariamente deben estar medidas en un nivel por intervalos o de razón, pueden analizar datos nominales u ordinales.
Las pruebas no paramétricas más utilizadas son: Ji cuadrado o X2
Coeficientes de correlación e independencia para tabulaciones cruzadas.
Coeficientes de correlación por rangos ordenados de Spearman y Kendall.
Análisis multivariado En estos métodos se analiza la relación entre varias
variables independientes y al menos una dependiente.
Son métodos más complejos que requieren del uso de computadoras para efectuar los cálculos necesarios y normalmente se enseñan a nivel de postgrado.
Los principales métodos de análisis multivariado son: Regresión múltiple
Análisis lineal de patrones (path analysis)
Análisis de factores
Análisis multivariado de varianza (MANOVA)
Análisis estadísticos Actualmente los análisis estadísticos se llevan acabo en
programas para computadora, utilizando paquetes estadísticos. Estos paquetes son sistemas integrados de programas diseñados para el análisis de datos.
Cada paquete tiene su propio formato, instrucciones, procedimientos y características. Para conocer un paquete es necesario consultar el manual respectivo.
El procedimiento para analizar los datos es crear o desarrollar un
programa basándonos en el manual. Este programa incluye la matriz de datos y las pruebas estadísticas seleccionadas; después se corre el programa y se obtienen los resultados, los cuales se interpretan.
Los principales paquetes estadísticos conocidos hoy en día son el
SPSS y el Minitab; ambos disponibles en diferentes versiones.
top related