diapositivas e.d

32
METODOLOGÍA DE INVESTIGACIÓN Titular: Agustín Salvia MÓDULO 2: MÉTODOS DE INVESTIGACIÓN BASADOS EN EL ANÁLISIS DE VARIABLES. BASES DE DATOS Y ESTADÍSTICA DESCRIPTIVA SEMINARIO DE POSGRADO

Upload: kata17

Post on 29-Jul-2015

46 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Diapositivas e.d

METODOLOGÍA DE INVESTIGACIÓN

Titular: Agustín Salvia

MÓDULO 2: MÉTODOS DE INVESTIGACIÓN BASADOS EN EL ANÁLISIS DE VARIABLES.

BASES DE DATOS Y ESTADÍSTICA DESCRIPTIVA

SEMINARIO DE POSGRADO

Page 2: Diapositivas e.d

TÉCNICAS DE ANÁLISIS ESTADÍSTICO

ESTADÍSTICA DESCRIPTIVA(Medidas de tendencia central y dispersión)

TABLA DE CONTINGENCIA Y ANÁLISIS PORCENTUALES (Diferencias porcentuales, perfiles y segmentos)

ANALISIS DE ASOCIACIÓN(Correlación y coeficientes de asociación)

TECNICAS DE ANALISIS MULTIVARIADO

(Modelos Lazarsfeld, regresiones, factoriales, clusters)

Page 3: Diapositivas e.d

• LA ESTADÍSTICA DESCRIPTIVA TIENE COMO FUNCIÓN BRINDAR UN CONJUNTO DE MEDIDAS QUE SINTETICEN LA INFORMACIÓN RELEVADA POR LOS DATOS. ESTUDIA CARACTERES O ASPECTOS REFERIDOS A UN COLECTIVO DE PERSONAS, OBJETO O ELEMENTOS DE NATURALEZA ESPECÍFICA.

• LA ESTADÍSTICA DESCRIPTIVA DISPONE DE UNA SERIE VARIADA DE HERRAMIENTAS PARA RESUMIR INFORMACIÓN QUE CONTIENE UNA MUESTRA O POBLACIÓN: TABLAS, GRÁFICOS, MEDIDAS DE TENDENCIA CENTRAL, DE DISPERSIÓN, ETC.

• LA EXTRAPOLACIÓN DE LOS RESULTADOS DE UNA MUESTRA A LA POBLACIÓN Y LA ESTIMACIÓN DE EFECTOS CAUSALES ES EL CONTENIDO DE LA ESTADÍSTICA INFERENCIAL, CUYA FUNCIÓN ES INFERIR CONCLUSIONES Y BRINDAR MEDIDAS QUE PERMITAN CUANTIFICAR LA CONFIANZA DE TALES CONCLUSIONES.

EL EMPLEO DE UN DETERMINADO TIPO Y/O HERRAMIENTA ESTADÍSTICA DEPENDE DEL TIPO DE PROBLEMA/OBJETO DE ESTUDIO Y DEL NIVEL DE

MEDIÓN DE LOS VALORES DE LA VARIABLE A CONSIDERAR.

MEDIDAS ESTADÍSTICAS

Page 4: Diapositivas e.d

LA BASE DE DATOS COMO PUNTO DE LLEGADA

DADO UN DISEÑO DE INVESTIGACIÓNBASADO EN ENCUESTAS

FORMULACIÓN DE HIPÓTESIS, ELABORACIÓN DE LA MUESTRA Y EL INSTRUMENTO

APLICACIÓN CONTROLADA DE CUESTIONARIO

CODIFICACIÓN, PROCESAMIENTO Y CARGA DE INFORMACIÓN

BASE DE DATOS

Page 5: Diapositivas e.d

LOS TRES COMPONENTES DE UNA BASE DE DATOS

N° V1 V2 V3 V4 V5 V.n

1 20

2

3

4

5

6

Registro (casos) Atributo (variables)

Valor (categorías)

¿A qué se denomina Unidad de Análisis?

Page 6: Diapositivas e.d

DE LOS CONCEPTOS A LOS INDICADORES

El proceso de operacionalización

Determinar las preguntas de investigación e hipótesis de trabajo (proposiciones conceptuales)

Establecer las relaciones esperables entre dimensiones y variables (proposiciones empíricas)

Creación / selección de indicadores e índices observables para cada dimensión / variables.

Page 7: Diapositivas e.d

UNIDAD DE ANÁLISIS / OBSERVACIÓN(los registros pueden ser de diversa naturaleza, dependiendo de los objetivos del

estudio)

Ej: personas, familias, empresas, huelgas, palabras, avisos, muertes, etc.

El número de registros está dado por el tamaño de la muestra de la población objeto de estudio. Según las leyes de la estadística, cuanto mayor sea el número de casos de una muestra probabilística, más confianza y generalizables podrán ser nuestras estimaciones ¿Por qué…? ¿Y si la muestra no es probabilística?

REGISTROS: UNIDADES DE OBSERVACIÓN

Page 8: Diapositivas e.d

VARIABLES: ATRIBUTOS DE LA POBLACIÓN

Propiedades o atributos observables de la población o dimensión objeto de estudio.

Ej: edad, nivel socio-económico, preferencias, hábitos de consumo, nivel educativo alcanzado, situación ocupacional, condición de pobreza, etc.

Las variables estadísticas pueden ser: causales o independientes, contextuales o intervinientes y descriptivas o dependientes. Los valores de una variable deben ser excluyentes y exhaustivos.

Page 9: Diapositivas e.d

VALORES DE LAS VARIABLES

Representación conceptual cualitativa o cuantitativa que una propiedad o atributo objeto de medición.

Ej: 54 años, joven, varón, ocupado, católico, 150$ per cápita, 12 años de instrucción, feliz, etc.

MEDIR implica poner en correspondencia una teoría o concepto explicativo y los atributos observables de un objeto a través de un lenguaje estándar cuyas reglas de sintaxis permiten realizar operaciones lógico-matemáticas entre sus valores o categorías. Ej. Masa-Peso / Nivel de Vida-Ingreso.

Page 10: Diapositivas e.d

LAS VARIABLES ESTADÍSTICAS

NIVEL DE MEDICIÓN DE LAS VARIABLES

VARIABLES CATEGÓRICAS VARIABLES MÉTRICAS

Operaciones básicas: moda, porcentajes, tasas, razones.

Discretas Continuas

Medidas de tendencia central y de posición, varianza, etc.

División en clases

Page 11: Diapositivas e.d

LAS VARIABLES ESTADÍSTICAS

Escalas de medida

NOMINAL O DE CLASIFICACIÓN

DE ORDEN JERÁRQUICO

INTERVALOS IGUALES RAZÓN

Nº de hijos, ingresos, antigüedad, edad, etc.

Fecha del calendario, factoriales, test, etc.

Clase social, nivel educativo, escalas de actitud, etc.

Sexo, ciudad, situación laboral, religión, etc.

Page 12: Diapositivas e.d

INFORMACIÓN RESUMEN DE VARIABLES ALEATORIAS

TENDENCIA CENTRAL

HETEROGENEIDAD O DESVÍO

FORMA DE LA DISTRIBUCIÓN

HERRAMIENTAS BÁSICAS EN LA ESTADÍSTICA DESCRIPTIVA

Page 13: Diapositivas e.d

HERRAMIENTAS BÁSICAS EN LA ESTADÍSTICA DESCRIPTIVA

VARIABLES DESCRIPCIÓN ESTADISTICOS Y GRÁFICOS

Cualitativas en escala nominal

Valores no métricos con ausencia de orden entre ellos

Distribución de frecuencias

Moda, %, tasas, razones.

Diagrama de barras

Cualitativas en escala ordinal

Valores no métricos con presencia de orden entre ellos.

Mínimo

Máximo

Mediana

Cuartiles

Percentiles

Rangos intercuartilicos

Gráficos de caja y bigotes

Page 14: Diapositivas e.d

Una de los primeros pasos que se realizan en cualquier estudio estadístico es la tabulación de resultados, es decir, recoger la información de la muestra resumida en una tabla, que denominaremos DISTRIBUCIÓN DE FRECUENCIAS, en la que cada valor de la variable o clase se le asocian el número de veces que ha aparecido, su proporción con respecto a otros valores de la variable, etc.

FRECUENCIAS: ABSOLUTAS O PORCENTUALES

En caso de que las variables estén al menos en escala ordinal aparecen opcionalmente las frecuencias acumuladas absolutas y acumuladas porcentuales.

Tabla de distribución de frecuencias

Estadística Descriptiva

Page 15: Diapositivas e.d

Definiremos como frecuencia de un dato el número de veces que este aparece en el colectivo. Siendo N la suma de las respectivas frecuencias de cada dato (N=ΣXi). Este N será denominado como frecuencia total. A efectos prácticos, asumiremos las siguientes definiciones de frecuencias:

a) frecuencias absolutas : es el número de veces que aparece dicho valor de la variable y se representa por fi.

b) frecuencias relativas: es el cociente entre la frecuencia absoluta y el tamaño de la muestra. La denotaremos por fri

c) frecuencias absoluta acumulada: es el número de veces que ha aparecido en la muestra un valor menor o igual que el de la variable, se puede acumular, en la tabla estadística) en orden ascendente (fa↑) o descendente (fa↓)

d) frecuencia relativa acumulada: al igual que en el caso anterior se calcula como el cociente entre la frecuencia absoluta acumulada dividido por el tamaño de la muestra (N).

Tabla de distribución de frecuencias

Page 16: Diapositivas e.d

GRÁFICOS ESTADÍSTICOS

Diagrama de barras: Se utilizan rectángulos separados, que tienen como base a cada uno de los datos y como altura la frecuencia de ese dato. Ejemplo: En la siguiente tabla se muestra el total de vacunas aplicadas durante el verano de l991 en un estado de la República Mexicana.

Page 17: Diapositivas e.d

GRÁFICOS ESTADÍSTICOS

Gráfica de Torta: Se forma al dividir un círculo en sectores circulares de manera que: a) cada sector circular equivale al porcentaje correspondiente al dato o grupo que representa; y b)  la unión de los sectores circulares forma el círculo y la suma de sus porcentajes es 100.  

Page 18: Diapositivas e.d

TEMPORARY .SELECT IF (h12>25 AND h12<45) .FREQUENCIES VARIABLES=cdea /STATISTICS=MODE /BARCHART FREQ /ORDER ANALYSIS .

Estadística Descriptiva

• Variable nominal

Statistics

PEA5907235

0

1,00

Valid

Missing

N

Mode

PEA

4699861 79,6 79,6 79,6

1207374 20,4 20,4 100,0

5907235 100,0 100,0

Activo

Inactivo

Total

ValidFrequency Percent

ValidPercent

Cumulative Percent

PEA

Cases weighted by PONDERA

PEA

InactivoActivo

Fre

quen

cy

5000000

4000000

3000000

2000000

1000000

0

Page 19: Diapositivas e.d

Ojiva de Frecuencias Acumuladas: Una gráfica de distribución de frecuencias absolutas o relativas acumuladas es llamada una ojiva. Se trazan los límites reales superiores contra las frecuencias acumuladas.

Se utiliza en datos cuantitativos en distribuciones de frecuencia. Son rectángulos verticales unidos entre sí, en donde sus lados son los límites reales inferior y superior de clase y cuya altura es igual ala frecuencia de clase. Con la distribución de frec. anterior se tiene:

GRÁFICOS ESTADÍSTICOS

Page 20: Diapositivas e.d

VARIABLE CUALITATIVA EN ESCALA ORDINAL

Grupos de edad

4077127 16,8 16,8 16,8

4506457 18,6 18,6 35,4

4023557 16,6 16,6 52,0

3053744 12,6 12,6 64,5

2917893 12,0 12,0 76,6

2326358 9,6 9,6 86,1

3361616 13,9 13,9 100,0

24266752 100,0 100,0

0.- 9 años y menos

1.- de 10 a 19 años

2.- de 20 a 29 años

3.- de 30 a 39 años

4.- de 40 a 49 años

5.- de 50 a 59 años

6.- 60 años y más

Total

ValidFrequency Percent

ValidPercent

Cumulative Percent

Grupos de edad

6,05,04,03,02,01,00,0

Grupos de edad

Cases weighted by PONDERA

Fre

quen

cy

5000000

4000000

3000000

2000000

1000000

0

Std. Dev = 2,02

Mean = 2,7

N = 24266752,0

FREQUENCIES VARIABLES=xgedad /NTILES= 4 /PERCENTILES= 20 80 /STATISTICS=RANGE MINIMUM MAXIMUM MEDIAN /BARCHART FREQ /ORDER ANALYSIS .

Statistics

Grupos de edad24266752

0

2,0000

6,00

,00

6,00

1,0000

1,0000

2,0000

4,0000

5,0000

Valid

Missing

N

Median

Range

Minimum

Maximum

20

25

50

75

80

Percentiles

ESTADÍSTICA DESCRIPTIVA

Page 21: Diapositivas e.d

VARIABLES DESCRIPCIÓN ESTADISTICOS Y GRÁFICOS

Cuantitativa en escala de intervalo o de razón

Cuantitativas:

Discretas

Continuas En escala de

intervalo

En escala de razón

Media

Rango

Varianza

Desviación típica

Coeficiente de variación

Coef. de asimetría

Coef. de curtosis

Histograma

HERRAMIENTAS BÁSICAS EN LA ESTADÍSTICA DESCRIPTIVA VARIABLES CUANTITATIVAS

Page 22: Diapositivas e.d

Histograma: Se utiliza en datos cuantitativos en distribuciones de frecuencia. Son rectángulos verticales unidos entre sí, en donde sus lados son los límites reales inferior y superior de clase y cuya altura es igual ala frecuencia de clase.

GRÁFICOS ESTADÍSTICOS

Page 23: Diapositivas e.d

• Variable cuantitativa

FREQUENCIES VARIABLES=xh12 /FORMAT=NOTABLE /NTILES= 4 /PERCENTILES= 10 90 /STATISTICS=STDDEV VARIANCE RANGE MINIMUM MAXIMUM SEMEAN MEAN MEDIAN MODE SUM SKEWNESS SESKEW KURTOSIS SEKURT /HISTOGRAM NORMAL /ORDER ANALYSIS .

Statistics

Edad24.266.752

0

32,15

,00

28

21

22,03

485,49

,53

,00

-,64

,00

99

0

99

780.121.228

6

14

28

48

65

Valid

Missing

N

Mean

Std. Error of Mean

Median

Mode

Std. Deviation

Variance

Skewness

Std. Error of Skewness

Kurtosis

Std. Error of Kurtosis

Range

Minimum

Maximum

Sum

10

25

50

75

90

Percentiles

Edad

100,090,0

80,070,0

60,050,0

40,030,0

20,010,0

0,0

Edad

Cases weighted by PONDERA

Fre

quen

cy

3000000

2000000

1000000

0

Std. Dev = 22,03

Mean = 32,1

N = 24266756,0

ESTADÍSTICA DESCRIPTIVA

Page 24: Diapositivas e.d

ESTADÍSTICA DESCRIPTIVA – MEDIA ARITMÉTICA

La MEDIA ARITMÉTICA O PROMEDIO es una medida estadística de tendencia central. De una cantidad finita de números, es igual a la suma de todos ellos dividida entre el número de sumandos.

También la media aritmética puede ser denominada como centro de gravedad de una distribución, el cual no es necesariamente la mitad.

Page 25: Diapositivas e.d

ESTADÍSTICA DESCRIPTIVA - DESVÍO ESTÁNDAR

La desviación estándar (o desviación típica) es una medida de dispersión para variables de razón (ratio o cociente) y de intervalo. Es una medida (cuadrática) que informa de la media de distancias que tienen los datos respecto de su media aritmética, expresada en las mismas unidades que la variable. Para tal fin nos valemos la varianza y la desviación estándar. Ambas medidas están estrechamente relacionadas ya que se define una a partir de la otra.

Expresión de la varianza: Expresión de la desviación estándar:

Page 26: Diapositivas e.d

UN TIPO PARTICULAR DE DISTRIBUCIÓN PARA VARIABLES

ALEATORIAS MÉTRICAS

LA CURVA NORMAL

SUS PROPIEDADES

SUS ESTADÍSTICOS

HERRAMIENTAS BÁSICAS EN LA ESTADÍSTICA DESCRIPTIVA

Page 27: Diapositivas e.d

ESTADÍSTICA DESCRIPTIVA – LA DISTRIBUCIÓN NORMAL

Muchas variables aleatorias presentan una función de densidad que es simétrica y cuya gráfica tiene forma de campana.

Esta distribución es utilizada en aplicaciones estadísticas como modelo o parámetro de comparación dada la frecuencia o normalidad con la que ciertos fenómenos tienden a parecerse a esta distribución.

La distribución normal queda definida por dos parámetros:

LA MEDIA Y EL DESVIACIÓN ESTÁNDAR

Page 28: Diapositivas e.d

ESTADÍSTICA DESCRIPTIVA - DISTRIBUCIÓN NORMALPara conocer con detalle un conjunto de datos, no basta con conocer las medidas de tendencia central, sino que necesitamos conocer también la desviación que representan los datos en su distribución respecto de la media aritmética de dicha distribución, con objeto de tener una visión de los mismos más acorde con la realidad a la hora de describirlos e interpretarlos para la toma de decisiones.

La media indica la posición de la campana, de modo que para diferentes valores de la gráfica es desplazada a lo largo del eje horizontal. La desviación estándar determina el grado de apuntamiento de la curva. Cuanto mayor sea su valor más se dispersarán los datos. Un valor pequeño indica una gran probabilidad de obtener datos cercanos al valor medio de la distribución.

Page 29: Diapositivas e.d

ESTADÍSTICA DESCRIPTIVA – LA CURVA NORMALLa curva de distribución normal presenta una única moda, que coincide con la media y la mediana. La curva normal es asintótica al eje de abscisas. El área total bajo la curva es igual a 1. El área bajo la curva comprendido entre los valores situados a dos desviaciones estándar de la media es aproximadamente igual a 0.95. Es decir, existe un 95% de posibilidades de observar un valor comprendido en el intervalo -1,96 desvío estándar y +1,96 desvío estándar de la media.

Page 30: Diapositivas e.d

ESTADÍSTICA DESCRIPTIVA - DISTRIBUCIÓN NORMAL

• El uso extendido de la distribución normal en las aplicaciones estadísticas puede explicarse, además, por otras razones.  Muchos de los procedimientos estadísticos habitualmente utilizados asumen la normalidad de los datos observados (p. e. el muestreo).

• Resulta recomendable contrastar siempre si se puede asumir o no una distribución normal.  Para ello, la simple exploración visual de los datos puede sugerir la forma de su distribución. 

• No obstante, existen medidas (simestría y kurtosis), gráficos de normalidad y contrastes de hipótesis que pueden ayudarnos a decidir, de un modo más riguroso, si la muestra de la que se dispone procede o no de una distribución normal. 

• Cuando los datos no sean normales, podremos o bien transformarlos o emplear otros métodos estadísticos que no exijan este tipo de restricciones (los llamados métodos no paramétricos).

Page 31: Diapositivas e.d

En los gráficos PROBABILIDAD NORMAL P-P se confrontan las proporciones acumuladas de una variable con las de una distribución normal. Los gráficos permiten conocer la causa de esa desviación. Una curva en forma de "U“ significa que la distribución es asimétrica, mientras que un gráfico en forma de "S" significará que la distribución tiene colas mayores o menores que la normal, esto es, que existen pocas o demasiadas observaciones en las colas.

GRÁFICOS ESTADÍSTICOS

Page 32: Diapositivas e.d

TRABAJO PRÁCTICO N° 1

• A partir de un tema propuesto formule un problema de investigación que requiera de datos estadísticos. Elabore una conjetura o hipótesis general y otra operativa.

• Identifique el dominio empírico al que remite el problema a investigar y elabore un diseño de investigación a partir del cual identificar la población, las variables y los atributos que deben ser estudiados.

• Sugiera el tipo de análisis estadístico descriptivo que deberá aplicar para explorar o testear su hipótesis con la información obtenida.