spss gestión de datos y prueba de hipótesis

Gestión de DatosMenú Datos y Transformar

* Abrir Editor de Sintaxis:

Archivo----Nuevo ----Sintaxis

Definir Variables:

*Nombre*Etiqueta *Etiqueta de Valores *Posibles Datos Perdidos: 1) hacer tabla de frecuencia y en el resumen revisar las variables que tienen valores

perdidos.

1.1) Transformar ----Recodificar en distintas variables: valores perdidos por el sistema o usuario (previo hay que definir que 9 es un valor perdido)

ó

1.2) Transformar --- Calcular variable: Variable de destino: (nombre ej: sexo perdidos) Grupo de Funciones: valores perdidos

Datos perdidos por el sistema: casilla en blanco; datos perdidos por el usuario: definido en vista de datos (9)

*Nivel de Medida: Nominal (Categórica): sexoOrdinal (Categórica): GSE, cantidad de hijosEscala (Intervalar o Razón): puntajes, horas.

Alineación : numérico a la derecha y alfabético (cadena) a la izquierda

Recodificar Variables: (Para convertirla en una nueva variable con grupos o dicotómica)Transformar ---recodificar en distintas variables (marcar perdidos por sistema o usuario)

Calcular Variable : (para convertirla en una nueva variable por ejemplo horas a minutos)Transformar --- calcular variable

Seleccionar Caso : (Para usar por ejemplo solo los adultos mayores de una base)Datos ----Seleccionar casos---ingresar condición (se puede poner & otra V y el criterio)

Segmentar Archivo: (Para comparar grupos, por ejemplo hombres y mujeres)Datos----dividir archivo---comparar grupos

Análisis de Datos

Variables categóricas: tablas de frecuenciasAnalizar ----Estadísticos Descriptivos ----FrecuenciasAl explorar: Buscar datos anómalos o irregulares. Revisar la homogeneidad (% válido)---lo que se busca es heterogeneidad, porque mientras más homogéneo, más difícil que se llenen las categorías (datos se reparten en pocas categorías).

Variables cuantitativas (DEPENDIENTES): diagramas de cajaAnalizar ----Estadísticos Descriptivos ---- Explorar ----- “Dependientes”: Variable Numérica: Robustos Centrales (Onda de Andrews)

Diagrama de caja: medida para explorar cuantos datos se alejan del 50% central (mediana)

InterpretaciónMediana = Q2 O=atípico *= atípico extremo

Distribución simétrica : datos se agrupan en el centro del diagrama

Elegir la medida de centro para representar al grupo: Revisar si existen casos atípicos

Si no hay = Media ----si la variable es escalar, la media aritmética siempre debe informarse junto a su correspondiente medida de dispersión (desviación estándar o típica).

Sí Hay: comparar media recortada con los M robustos. Si son similares = media recortada al 5%.Si no son similares= M robusta (Estimador M Onda de Andrews).

Explorar cómo se distribuye por sexo una variable:Analizar ----Estadísticos Descriptivos ---- Explorar ----- “Dependientes”: Variable Numérica----“Factores” Variable Categórica.

ENTONCES: para explorar, 1) ver si la V es categórica o Numérica--- Luego elegir Tabla de Frecuencia (con Histograma) o Diagrama de caja.

Descripción de DatosCentro: Moda, Media, Mediana

Dispersión: Desviación típica (se informa con la media), amplitud intercuartil (se informa con la mediana)

Forma: Coeficiente de asimetría, (Ej: -0,028 es casi 0, así que se considera casi simétrica).

Más: Gráficos de Frecuencia = Histograma

Más: Percentiles

Analizar ----Estadísticos Descriptivos----Frecuencias: Moda, Media, Mediana, desviación Típica, Asimetría, Gráficos (Histograma)

*Para complementar el análisis se pueden incluir medidas de orden (posición): Percentiles, cuartiles (mediana = Q2)

Distribución: Simétrica = media, mediana y moda coinciden

Asimetría Positiva= Carga a la izquierda. Concentran puntajes más bajos desde la mediana. Más cerca del Q1. Moda < Md < Media (Moda es más baja= Positiva). Da cuenta de bajos niveles en la variable y devela (por ej en educación: a los que tienen mejor rendimiento)

Asimetría Negativa= Carga a la derecha. Concentran puntajes más altos desde la mediana. Más cerca del Q3.Media < Md < Moda (Moda es más alta = Negativa). Da cuenta de altos niveles en la variable y devela (por ej en educación: a los que tienen peor rendimiento).

Para puntuaciones individuales= convertir a centiles (percentiles).

Prueba de Hipótesis

Variables Categóricas = Tablas de contingencia

Prueba de hipótesis: Variables Categóricas

CHI2: Prueba de Indepencia en Variables Categóricas

1) Analizar ---Estadísticos descriptivos----Tablas de ContingenciaFilas = variable con menos categoríasEstadísticos: CHI2Recuentos: observados y esperadosResiduos: tipificados corregidos (Residuo transformado a Z): si el residuo escapa al rango -1,96 /+1,96, entonces no es compatible con la Ho. Esto es importante porque el CHI2 no dice dónde ni cómo se dan las diferencias.

Valor gl Sig. asintótica (bilateral)

Chi-cuadrado de Pearson 79,277a 2 ,000

Significancia= indica la probabilidad de que se de el valor de Chi2 obtenido (en este caso la probabilidad es 0,0000 lo que es muy baja, por lo que se rechaza la Ho. Si la P o Significancia da 0,04 o menos, se rechaza Ho)

Nota: Interpretar Tabla de Contingencia: Tabla de contingencia (pedir % por columna)Si hay independencia, el total marginal debería repetirse en las casillas, si no, sospecho que las V no son independientes.Diferencia entre observado y esperado = Residuo. Residuos: pedir tipificados corregidos= Transformados a Z.

2) Luego que el Chi2 arroje que las variables no son independientes, se pasan los valores Chi2 a correlacionesTabla de contingencia----estadísticos---Si hay al menos una variable Nominal Phi y V de Cramer

Si son variables ordinales d de Somers

Entonces: V de Cramer 0,235 Sig 0,0000 = la significancia es tan baja que implica que no se puede obtener ese valor V de Cramer si las variables no están correlacionadas (osea, que sí hay correlación).

NOTA sobre Z= si quiero comparar dos variables con unidades de medida distinta (ingreso en miles de pesos con años de estudio hasta decenas) los transformo a unidad de medida común = Z

Analizar ----Descriptivos ---- (Ingresar variables y): Guardar valores tipificados.Se crean nuevas variables en puntaje Z que puedo comparar.

Z = Unidad en D.S. (+ sobre el promedio y – bajo el promedio).

Valor tipificado (pasado a Z): Promedio = 0 y D.S. = 1

Entonces : Z= -1.75 v/s Z= - 1,56; -1,56 está más cerca del promedio, porque está más cerca de 0.

OJO: en Variables categóricas se hace correlación desde tabla de contingencia. El menú correlación del spss es para variables cuantitativas.

Correlaciones: 0,2 -0,4 baja (pero hay)0,4 a 0,6 moderada0,6 a 0,8 alta o fuerte0,8 a 0,99 Muy alta o Muy fuerte

RESUMEN: Chi2 ver si es significativo V de Cramer o d de Somers para cuantificar qué tan fuerte es la relación Tabla de contingencia para ver dónde está la relación (ver residuos tipificados fuera del rango 1,96)

(Es más fácil interpretar los residuos positivos): Un residuo tipificado de 6,8 indicaría por ejemplo: ser hombre se asocia con trabajar como directivo ya que el residuo es mayor al que cabría esperar (0) bajo el supuesto de independencia.

Prueba de hipótesis: Variables Cuantitativas

Variables Cuantitativas: Correlaciones Bivariadas (directa o inversa): Correlaciones permiten predecir el comportamiento de una V a partir de otra V.Analizar---Correlaciones---Bivariadas

Para valorar el Coeficiente de Pearson se usa el Coeficiente de Determinación (R2).Pearson= 0,880: correlación alta y directa.R2 = 77,4: el 77,4% de los cambios en la variable Y se explican por cambios en la variable X

El R2 permite evaluar qué V tiene más peso para explicar la variabilidad de otra V.

Relaciones Inversas:

Pearson= -0,97: Menos variable X, más Variable YR2 Corregido= 1 (entonces es una mala variable predictora, porque explica solo el 1% de la varianza)

Gráfico

Gráficos….cuadro de diálogo antiguos…dispersión puntos…dispersión simple…definir:

Eje Y: Variable dependiente (la que me interesa predecir)Eje X: Variable predictora

Significación: Contraste de Hipótesis con CorrelacionesSi se quiere generalizar a población lo obtenido con pearson y R2, se debe hacer un Contraste de Hipótesis: lo da la significación de Pearson : menor a 0,05 la probabilidad de que ese valor ocurra en la población si la correlación es 0 es baja y se rechaza la Ho.

Regresión

Y = Bo + B1 x X1V a predecir = Constante + Pendiente x Valor en Variable Predictora

*Pendiente es el valor de un sujeto cuando la constante es 0

Regresión Lineal (modelo Predictivo)Analizar…Regresiones…Regresión Lineal:

Dependientes= Variable a predecirIndependientes= Variable predictora

OUTPUT: R= Pearson R2 Corregido= debe ser alto para explicar un porcentaje importante de la varianza Anova= Debe ser significativo (siempre lo es con R2 altos)

Tabla Coeficientes= Esta es la que importa:Entrega la constante y debajo de esta la pendiente

Para que el programa cree la nueva columna con los valores predichos:Analizar…regresión…Regresión Lineal…Guardar….Valores Pronosticados No TipificadosCrea una nueva Variable: PRE_1

Luego guardar residuos: Guardar….Residuos No TipificadosCrea una nueva Variable: RES_1

Residuos altos= mala variable predictora (en consecuencia un R2 bajo)

Interpretación de Regresión Lineal SimpleResumen del Modelo

R R2 R2Corregido 0,097 0,009 0,007(Correlación Muy Baja) Predice el 0,9% de la Varianza Predice el 0,7% de la Varianza

(Acá no vale la pena seguir= R2 Corregido muy bajo)

Importante para interpretar: R= positivo o negativo R2 C= Que explique un % importante de la Varianza

Regresión Lineal Múltiple

NOTA: Las Variables DEBEN ser Cuantitativas o Dicotómicas

Analizar…Regresión…Regresión Lineal:

Dependientes= Variable a predecirIndependientes= Variable predictoraMétodo= Pasos Sucesivos

SPSS= 1) Ubica en primer lugar la mejor Variable Predictora.2) Entrega otro modelo sumando a la mejor Variable otra variable que predice menos3) Si una Variable NO predice, la ubica en Variables eliminadas

OUTPUT:

Modelo R2C 1 0,435 2 0,439

No hay mucha diferencia, por lo que se recomendaría elegir el modelo con menos variables.

spss gestión de datos y prueba de hipótesis

Documents