resumen 2do parcial.docx

20
1 RESUMEN 2DO. PARCIAL METODOLOGÍA III Cuaderno N° 1: Técnicas Multivariadas El análisis multivariado se enmarca en una estrategia de análisis cuantitativa que responde a objetivos explicativos de una investigación. La existencia de relación entre dos acontecimientos NO permite suponer que uno de ellos explique o de cuenta de por qué existe el otro. En todo caso, se vinculan, hasta puede haber relación de dependencia entre uno y otro, pero no necesariamente esto determina que el suceso dependiente es explicado por el independiente. El diseño experimental responde a la necesidad de poner a prueba una hipótesis original entre dos variables y con ello profundizar y enriquecer la explicación de los fenómenos que nos proponemos estudiar, Se parte de un supuesto en el cual esa relación aparente que observamos a partir de la convergencia entre dos variables puede deberse al efecto de otra u otras variables que están jugando algún tipo de influencia y se encuentran “ocultas” o ignoradas en ese primer análisis descriptivo de la relación. En su corriente clásica, el experimento necesita de por lo menos dos grupos, que pueden ser individuos, grupos sociales o comunidades. A uno de ellos se le aplica un estímulo (grupo experimental) y al otro un placebo (grupo de control). Este procedimiento cuenta como mínimo de los siguientes pasos: 1. La medición inicial de ambos grupos, 2. La incorporación del estímulo al grupo experimental, 3. La medición posterior de ambos grupos 4. La comparación de resultados. El grupo que brinda el parámetro de cambios es el grupo de control. Mientras que en el diseño experimental se interviene empíricamente en el momento en que ocurre el fenómeno (manipulando el objeto de estudio y realizando mediciones previas y posteriores a la aplicación del estímulo), en el estudio de los fenómenos sociales este tipo de intervención que implica aislar determinados fenómenos de su situación real, no es posible Sólo puede realizarse post facto, reproduciendo determinadas condiciones de experimentación a posteriori, en el momento del análisis.

Upload: baquica

Post on 03-Dec-2015

212 views

Category:

Documents


0 download

DESCRIPTION

RESUMEN 2DO PARCIAL.docx

TRANSCRIPT

Page 1: RESUMEN 2DO PARCIAL.docx

1

RESUMEN 2DO. PARCIAL METODOLOGÍA III

Cuaderno N° 1: Técnicas Multivariadas

El análisis multivariado se enmarca en una estrategia de análisis cuantitativa que responde a objetivos explicativos de una investigación.

La existencia de relación entre dos acontecimientos NO permite suponer que uno de ellos explique o de cuenta de por qué existe el otro. En todo caso, se vinculan, hasta puede haber relación de dependencia entre uno y otro, pero no necesariamente esto determina que el suceso dependiente es explicado por el independiente.

El diseño experimental responde a la necesidad de poner a prueba una hipótesis original entre dos variables y con ello profundizar y enriquecer la explicación de los fenómenos que nos proponemos estudiar,

Se parte de un supuesto en el cual esa relación aparente que observamos a partir de la convergencia entre dos variables puede deberse al efecto de otra u otras variables que están jugando algún tipo de influencia y se encuentran “ocultas” o ignoradas en ese primer análisis descriptivo de la relación.

En su corriente clásica, el experimento necesita de por lo menos dos grupos, que pueden ser individuos, grupos sociales o comunidades. A uno de ellos se le aplica un estímulo (grupo experimental) y al otro un placebo (grupo de control). Este procedimiento cuenta como mínimo de los siguientes pasos:

1. La medición inicial de ambos grupos, 2. La incorporación del estímulo al grupo experimental, 3. La medición posterior de ambos grupos 4. La comparación de resultados.

El grupo que brinda el parámetro de cambios es el grupo de control.

Mientras que en el diseño experimental se interviene empíricamente en el momento en que ocurre el fenómeno (manipulando el objeto de estudio y realizando mediciones previas y posteriores a la aplicación del estímulo), en el estudio de los fenómenos sociales este tipo de intervención que implica aislar determinados fenómenos de su situación real, no es posible

Sólo puede realizarse post facto, reproduciendo determinadas condiciones de experimentación a posteriori, en el momento del análisis.

En ciencias sociales más que hablar de experimentación en el sentido clásico, nos referimos al concepto de explicación. Hablar de análisis explicativo implica la presencia de tres condiciones necesarias:

1. Covariación entre variables . Describe la relación conjunta entre las variables. 2. Orden temporal de las variables . El orden temporal tiene un rol importante en esta

secuencia. El tiempo actúa así como una variable que interviene o afecta la explicación del fenómeno social.

3. Control de variables . Confronta con la idea de covariación a partir del supuesto de existencia de terceras variables ocultas - no controladas - que podrían modificar o estar afectando la relación entre las variables originales en donde se detectó dicha covariación.

Page 2: RESUMEN 2DO PARCIAL.docx

2

En el análisis multivariado se presenta una explicación de la relación entre dos variables, donde además de demostrar la covariación que existe entre ambas, debemos explicitar la secuencia temporal que establecen entre sí y garantizar que esa relación esté controlada, a la luz de otras variables que podrían estar afectando esa relación.

La decisión de controlar una relación surge de considerar aquellas variables que son relevantes teóricamente para el estudio de ese fenómeno social

¿Cómo controlamos las variables en ciencias sociales? El control de variables consiste en transformar las terceras variables en constantes (es decir, quitarles su variación) y luego analizar cuáles son sus efectos comparando qué ocurre ante su presencia y ante su ausencia.

El aporte de la lógica experimental a la comprensión de la explicación de la sociología permite dar cuenta de distintas situaciones en las cuales terceras variables pueden estar influyendo en una relación original entre lo que llamamos una variable dependiente e independiente:

1. La posible existencia de una relación espuria, es decir una relación que en principio parecía existir entre dos variables pero que sólo se manifiesta por la existencia de una tercera variable que produce la relación.

2. La explicación de la variable dependiente por la independiente, demostrando la no influencia de la variable de control en la relación.

3. La existencia de determinadas condiciones bajo las cuales una relación se manifiesta, esto es especificando las situaciones en las que dicha relación se presenta. Es decir, la relación es potenciada una vez introducida la variable de control.

El control de cada una de estas variables en el análisis de la relación entre hábito de lectura de diarios impresos y online nos permite reconstruir tres posibilidades que pueden surgir del análisis:

1. Que la variable sea ajena a la relación, como sucedió cuando controlamos la relación por la variable sexo.

2. Que la relación se especifique o se muestre fortalecida, para alguna o algunas de las categorías de la variable de control, como sucede cuando se introduce la variable Nivel Educativo

3. Que la relación original que observábamos sea espuria, como sucede cuando introducimos la variable de control Experiencia de lectura de diarios impresos en el hogar de origen. Es decir, que en aquella situación en donde observábamos una relación entre dos variables, éstas en realidad sólo covarían por la existencia de otra variable que es la que en realidad explica el comportamiento de nuestra variable dependiente: hábito de lectura de diarios impresos. Al intervenir la relación comprendemos que la relación original es una relación aparente y que estas variables sólo están vinculadas entre sí al estar ellas mismas asociadas con la variable de control.

Análisis multivariado para variables cuantitativas

Si nos viéramos en la necesidad de trabajar exclusivamente con variables cuantitativas o intervalares y establecer la relación entre ellas, esto nos llevará a trabajar con otros dos procedimientos: la correlación y la regresión lineal.

El análisis de correlación y regresión lineal, como cualquier medida estadística permite dimensionar el comportamiento empírico del fenómeno de estudio pero bajo las condiciones teóricas que el investigador determina.

Page 3: RESUMEN 2DO PARCIAL.docx

3

- El análisis de regresión lineal: técnica estadística adecuada que se utiliza para estudiar la relación entre variables. En investigación social dicho análisis de regresión se aplica para predecir una amplia gama de fenómenos.

Según sea la cantidad de variables independientes con las que nos manejamos estaremos haciendo una distinción entre el análisis de regresión lineal simple y el de regresión lineal múltiple.

Regresión Lineal Simple: Estima el comportamiento de una variable dependiente a partir de la variable independiente.

Regresión lineal Múltiple: Se trabaja con un conjunto de variables independientes en donde se determina cuáles son las que más influyen en la variable dependiente.

Plantearse este tipo de conocimiento implica tener la necesidad de acceder a información que no se posee, pero exige partir de una condición muy importante: suponer que la información que se carece se puede registrar en una variable y que ésta se encuentra relacionada (covaría) con otra, de manera tal que a partir de ésta última se podrá llegar a la información requerida en forma confiable y válida.

Esta estimación solo es posible bajo ciertas condiciones:

1. La relación de dependencia entre las variables debe ser suficientemente fuerte, de manera tal de minimizar la probabilidad de error en la estimación. La fuerza de la relación se expresa en la magnitud del resultado obtenido con el coeficiente “r” de Pearson (correlación). Cualquier relación entre variables, cuánto más fuerte, permite predecir más confiablemente el comportamiento de la variable dependiente, ya que a medida que aumenta dicha fuerza disminuye la libertad (independencia) de comportamiento de esta última variable.

2. La elección de la variable independiente es de carácter teórico. Se supone (se asume como hipótesis) que esta variable es la que mejor da cuenta de las variaciones de la variable dependiente: es la estimadora, teóricamente, más apropiada.

Entendamos el Análisis de regresión lineal a partir de un diagrama de dispersión:

La nube de puntos adquiere su forma según la intensidad de la covariación. Así, cuánto más intensa o sea la covariación, más densa y cercana a una recta será la “nube de puntos”, contrariamente cuanto menor sea la covariación más dispersa será la nube de puntos.

Cuando observamos diagramas muy dispersos sabremos que no podremos realizar estimaciones precisas, porque el comportamiento de la variable tiende a la independencia entre sí.

Page 4: RESUMEN 2DO PARCIAL.docx

4

El modelo de regresión lineal ha de cumplir una serie de supuestos que garanticen su correcta aplicación, a saber: a) linealidad; b) normalidad; c) homocedasticidad. Todos estos supuestos pueden ser estudiados mediante el recurso de las puntuaciones residuales que indican la diferencia entre las puntuaciones observadas y predichas por el modelo.

En las ciencias sociales donde la realidad con la que se trabaja presenta no sólo dos variables sino una multiplicidad de relaciones entre los fenómenos; nos llevará forzosamente a considerar dos modelos de correlación ateniéndonos a la mayor cantidad de variables independientes que explicarían la variable dependiente. Dichos modelos son los denominados correlación parcial y correlación múltiple.

La Correlación Parcial

La correlación parcial: mide el grado de relación existente entre dos variables pero en función del control que se ejerce sobre una o más variables. En otras palabras, es posible pensar que otras variables, por fuera del modelo bivariado presentado anteriormente, se encuentren influyendo en distinta medida en la relación original. Estas otras variables podrían incidir en la relación original siendo causantes de las variaciones presentadas en la correlación lineal.

El coeficiente de correlación parcial, debe ser considerado como la correlación que queda entre la variable independiente y la variable dependiente (ambas intervalares) una vez suprimidos los efectos de la variable de control. En definitiva, con la correlación parcial se procura explicar el comportamiento de la variable dependiente a partir de la variable independiente con una variable de control.

El “r” expresado en la fórmula representa el coeficiente de correlación de Pearson, ya visto en el modelo de correlación lineal. La diferencia que se contempla en este caso es que en vez de medir la covariación entre dos variables, el coeficiente expresa la presencia de 3 variables.

El coeficiente de correlación parcial varía entre 1 y –1 y su resultado se interpreta de forma similar al de la correlación simple.

Si bien se explican las variaciones de la variable dependiente a partir de la independiente, dicha relación refleja la fortaleza de la variable de control con cada una de las dos variables de la relación original. Es necesario hacer notar que en el denominador de la fórmula se manifiestan los coeficientes de independencia “k” que miden la independencia estadística entre la variable independiente y la variable de control, por un lado y de la variable de control con la variable dependiente por el otro. Cuánto más fuerte sea la independencia entre las variables, mayor magnitud reflejará el denominador y por ende menor será la correlación final entre las variables. Entretanto en el numerador se está midiendo la correlación simple existente en la relación original y el producto de la correlación de ambas con respecto a la variable de control. Por ende, a medida que aumenta el denominador, (o la independencia estadística) disminuye la correlación simple entre las variables, disminuyendo el resultado final del modelo presentado.

Si quisiéramos conocer la relación que existe entre “cantidad de horas que lee diarios impresos en un mes” (variable dependiente) con “edad” (variable independiente) controlando “ingresos” (variable de control), utilizaremos los siguientes datos hipotéticos:

Page 5: RESUMEN 2DO PARCIAL.docx

5

Correlación simple entre “edad” y “cantidad de horas que lee diarios impresos en un mes”: 0,70

Correlación simple entre “cantidad de horas que lee diarios impresos en un mes” e “ingresos” 0,63

Correlación simple entre “edad” y “ingresos” 0,49

Al aplicar la fórmula el resultado del coeficiente de correlación parcial es 0,58; ¿qué puede sostenerse con estos valores? Pues que estamos frente a una explicación de tipo parcial. En este caso, la correlación parcial reduce solamente una parte comparada con la correlación bivariada original, es decir, que la variable de control afecta parcialmente la relación original. Siguiendo la misma lógica y a título de ejemplo; supongamos que si el coeficiente de correlación parcial hubiese arrojado un valor bastante más cercano a 0 entonces podría decirse que la variable de control afecta totalmente la relación. Por último, un resultado del coeficiente de correlación parcial muy cercano (o igual) a 0,70 nos permitiría afirmar que la variable de control es ajena a la relación original planteada

La Correlación Múltiple

Pero ciertamente resulta difícil poder atribuir a una sola variable los resultados en otra; la realidad nos lleva a reconocer que para predecir con mayor precisión un determinado valor, es necesario observar e integrar en la predicción otras variables que también puedan estar relacionadas. Esto lleva a la necesidad de trabajar con más de dos variables (una independiente y otra dependiente) de manera simultánea.

El procedimiento analítico que nos permite establecer cuánto de la variación en la variable observada (o dependiente) está asociado con la variación del conjunto de variables independiente que pretenden explicarla y predecirla se denomina: correlación múltiple.

El objetivo de la aplicación de dicho modelo apunta a la construcción de la mejor combinación del peso que cada variable independiente aporta en la medición de la variable dependiente que procura explicarse. Y esta mejor combinación sin duda tendrá una mayor correlación con la variable dependiente que la correlación que pueda tener cualquiera de las variables independientes con respecto a la dependiente, tomadas de manera individual.

Esta técnica supone que existen más de dos variables correlacionadas y que es posible determinar la forma como se comportan las diversas correlaciones a nivel bivariable a fin de conformar una correlación combinada o total.

El coeficiente R², símbolo de este tipo de correlación, se presenta en el modelo de la siguiente forma:

R²123 = r²12 + r²13.2 (1- r²12)

1 = variable dependiente2 y 3 = variables independientes

r²12: Proporción explicada de la variable dependiente por la variable independiente principal

r²13.2: esto es r² de la correlación parcial, es la proporción explicada de la variable 3 controlada por la variable 2

(1- r²12): Esto es el k², es la proporción no explicada de la variable dependiente por la variable independiente principal

La presentación de la fórmula (que considera un modelo de dos variables independientes y una variable dependiente) nos lleva a pensar en un análisis de los componentes. Esta es una

Page 6: RESUMEN 2DO PARCIAL.docx

6

correlación en la que se permite descomponer la relación que hay entre las variables con un objetivo que difiere en cierto modo de lo presentado en la correlación parcial; en aquélla se apunta a la explicación de la variable dependiente a partir de una variable independiente con la presencia de una variable de control. En tanto en la correlación múltiple Lo que se procura es la captación de cómo explican a la variable dependiente un conjunto de variables independientes.

Para la aplicación del modelo de correlación múltiple es imprescindible saber desde qué hipótesis se está partiendo.

En el modelo más elemental (1 variable dependiente y 2 variables independientes) la primera hipótesis tiene que ver con elegir determinadas variables independientes para explicar a la variable dependiente. Pero el segundo nivel es el más importante, ya que debe suponerse y plantear de manera concreta cuál de las variables independientes se espera que tenga un mayor poder explicativo. Esto conlleva necesariamente a una jerarquización de las variables independientes.

1. El primer elemento de la fórmula (r²12) incluye la variable dependiente y una de las variables independientes; esto nos va a indicar cuál es la proporción explicada de la variable dependiente por la variable independiente Nro. 2. (o variable principal). En este modelo que presento supongo que la variable independiente Nro. 2 tenga el mayor poder explicativo y va a cumplir esa función en toda la fórmula. Es decir, cuánto de la variable dependiente o sus variaciones se explican por la variable independiente (o variable Nro. 2).

2. El segundo elemento de la fórmula (r²13.2) es el r² que mide la determinación que hay entre la variable dependiente (o variable Nro.1) y la otra variable independiente (o variable Nro. 3) controlando la variable independiente principal Esto indica cuál es la proporción de la variable dependiente por la otra variable independiente controlando la variable Nro. 2.

3. El tercer elemento de la fórmula (1- r²12) es el K cuadrado; es el coeficiente de indeterminación. Es la proporción no explicada de la variable dependiente por la variable independiente principal.

El coeficiente de correlación múltiple (R²) varía entre 0 y 1; no hay valores negativos ya que todos los componentes son elevados al cuadrado. La importancia del modelo radica en su desarrollo; esto es:

a) cuánto explica la principal variable independiente; b) cuánto explica la otra variable independiente controlando la variable independiente

principal y c) cuánto queda sin explicar.

En la correlación múltiple el R² indica:

1. Qué proporción de las variaciones de la variable dependiente es explicada por el conjunto de variables independientes propuestas por la hipótesis.

2. Permite conocer el desempeño de las variables independientes al interior de la proporción explicada. En otras palabras, el conjunto de las variables independientes es tratado en forma agregada y desagregada.

3. Permite conocer la proporción de las variaciones no explicadas.

La combinación de estas tres contribuciones del modelo a la comprensión del comportamiento de la variable dependiente, le ayuda al investigador no solamente a probar sus hipótesis sino también a especificar el alcance de las mismas. Puede discriminar el desempeño de cada variable independiente en su intento por explicar el comportamiento de la dependiente.

Page 7: RESUMEN 2DO PARCIAL.docx

7

Cuaderno N° 5: Análisis descriptivo de los datos

El análisis descriptivo requiere del estudio de las relaciones entre variables, dado que el análisis de cada variable por separado no es suficiente a tal fin. Complementariamente con ello, el análisis de las relaciones entre dos variables no implica alcanzar una explicación del fenómeno en estudio. Para tal fin se requiere emprender un análisis multivariado.

Análisis descriptivo de datos cuantitativos

Los objetivos, en tanto metas que orientan el avance de una investigación, permiten llevar a cabo la producción de los datos adecuados para intentar responder a los interrogantes que dieron origen al proceso.

Los datos, a pesar de su origen etimológico (del latín datum, lo dado), son construidos siempre desde una perspectiva teórica, para responder a una determinada problemática, mediante la aplicación de técnicas y procedimientos que también implican supuestos teóricos.

Una vez realizada la etapa de relevamiento, cuando se trabaja con un abordaje cuantitativo, se elabora una matriz que clasifica cada caso según el valor que asume en cada variable, constituyéndose una estructura tripartita de los datos.

Las variables de una matriz de datos, cabe destacar, no son sino aquellos conceptos que se ha decidido que debían ser considerados en el relevamiento a partir de los interrogantes, los objetivos, las hipótesis y el marco teórico de la investigación. La matriz vuelve visible la estructura tripartita de los datos -unidades de análisis, variables y categorías.

Con la matriz por sí sola no es posible avanzar en el análisis. Es necesario decidir cuáles son las variables de estudio cuyo comportamiento merece ser observado individualmente por presentar interés en sí mismo y cuáles variables interesan para ser observadas en su relación con otras. En este último caso, el hecho de que haya relaciones entre variables que se consideren relevantes para analizar obedece a la existencia de hipótesis, es decir, supuestos acerca de los posibles vínculos entre conceptos susceptibles de ser confrontados con los datos.

Es a partir del análisis bivariado que se vuelve posible describir las relaciones entre variables del fenómeno en estudio.

Cuando se decide qué es relevante observar de la relación entre dos o más variables es porque se ha propuesto una hipótesis de trabajo. En el proceso de construcción de las tablas que concentran nuestros datos es donde nuestras hipótesis comienzan a verse reflejadas. Si bien su contrastación permite avanzar en la producción de conocimiento, generalmente no agotan en sí mismas los objetivos de investigación, sino que es el conjunto de estas hipótesis de trabajo, contrastadas en las tablas que se producen, con la articulación teórica y la ilación lógica que le confieren quienes investigan, lo que puede dar respuesta a los interrogantes y cumplir los objetivos.

Las hipótesis, constituidas por relaciones entre conceptos del marco teórico, permiten vincular este universo conceptual con los datos. Los datos son producto de un proceso teórico de construcción y sólo desde la teoría pueden ser interpretados, siendo las hipótesis las mediaciones imprescindibles que expresan lo que desde la teoría se espera que ocurra con los datos producidos.

Se deben determinar las variables que deben ser relacionadas y, preferentemente, tener en claro de qué modo se espera que se vinculen las categorías de las variables entre sí. El tipo de hipótesis, el nivel de medición de las variables, los roles que cumplen las variables en la hipótesis,

Page 8: RESUMEN 2DO PARCIAL.docx

8

la cantidad de casos con que se trabaje y la cantidad de categorías de las variables -y su posible reagrupamiento en otros sistemas de categorías- son todos aspectos que entran en juego en las posibilidades y restricciones de tratamiento estadístico de los datos.

El plan de análisis implica una labor de previsión y reflexión sobre las estrategias de análisis y el detalle de procedimientos que deben llevarse a cabo para cumplir los objetivos.

Una vez que se ha procesado y tabulado los datos según el plan de análisis, se está en condiciones de avanzar en el análisis para cumplir los objetivos. Tanto la producción de datos como las decisiones relativas al análisis deben entenderse en el marco de lo que constituye una estrategia teórico-metodológica de contrastación del universo de conceptos con el fenómeno de estudio.

Cada espacio de propiedades clasifica un subconjunto de casos que presentan simultáneamente las dos o más propiedades cuya combinación genera el espacio. A partir de la distribución de los casos en los espacios de propiedades, con el auxilio del cálculo de porcentajes, es posible examinar las relaciones entre variables mediante una lectura comparativa de las frecuencias.

Tres recursos para el análisis de relaciones entre variables

Siguiendo a García Ferrando (1995: 218), se puede caracterizar la relación entre dos variables según la existencia de asociación, la fuerza, la dirección y la naturaleza de la misma.

1. La existencia de asociación: implica que la distribución de una variable difiere de algún modo entre las categorías de la segunda variable, alejándose de la independencia estadística, lo cual puede determinarse a partir del análisis de diferencias porcentuales y de la comparación de las frecuencias esperadas con las observadas, mediante la prueba de hipótesis de ji cuadrado, esta última para los casos en que se trabaje con muestras probabilísticas.

- Independencia estadística: inexistencia de relación entre las variables analizadas. Ello refiere a que cualquiera sea el valor que asuma una variable en estudio A, la variable B se mantendrá constante.

2. El grado o fuerza de la asociación: varía según cuánto se aleje la relación de la independencia estadística. Se han establecido algunos coeficientes estandarizados, que varían de forma fija entre un valor mínimo –cero- y un máximo –uno-, facilitando su interpretación. Estos coeficientes permiten conocer también, cuando las variables son como mínimo de nivel de medición ordinal, la dirección de la asociación, que puede ser positiva, cuando los valores altos de una variable se corresponden con los valores altos de la otra -y los valores bajos con los valores bajos-, o negativa, -cuando los valores altos de una variable se corresponden con los bajos de la segunda -y viceversa.

3. La naturaleza: es la forma general en que se distribuyen los datos en un cuadro, que puede ser lineal o diagonal, curvilineal o rinconal e irregular.

Siguiendo esta lógica, un PRIMER PASO en el análisis de los datos en función de una hipótesis puede darse mediante el test de significación estadística de ji cuadrado (χ2) que permite establecer si existe relación estadísticamente significativa entre las variables o si hay independencia estadística.

- El JI CUADRADO: permite testear si las relaciones entre las variables e hipótesis observadas en una muestra probabilística puede ser extrapolada al universo con un determinado nivel de confianza. Esta prueba de hipótesis define el escenario estadístico en que se trabaja, por eso constituye un buen primer paso en el análisis.

Page 9: RESUMEN 2DO PARCIAL.docx

9

Definido así el contexto respecto a la existencia o no de una relación estadísticamente significativa, e independientemente del resultado del test, es posible contar con un panorama de la fuerza y el sentido de la relación entre variables mediante coeficientes de asociación, los cuales son medidas resúmenes estandarizadas que permiten conocer grosso modo qué ocurre con una relación entre variables. En una única medida se sintetiza la intensidad de la relación y, en algunas de ellas, permite conocer también el sentido. Este sentido o dirección de la relación puede ser positivo -cuando ambas variables crecen o decrecen conjuntamente- o negativo -cuando una crece mientras la otra decrece- cuyo nivel de medición es ordinal o mayor.

Con la prueba de hipótesis y los coeficientes de asociación ya se cuenta con una primera aproximación global y sintética de la relación estudiada. Con la lectura analítica de porcentajes es posible conocer en detalle cómo se distribuyen las unidades de análisis en los espacios de propiedades generados por la tabulación cruzada de variables de cualquier nivel de medición. Dado que en la mayoría de los casos las variaciones no son perfectas ni lineales, la lectura de porcentajes permite analizar las particularidades de cada cuadro con respecto a la forma de distribución de unidades de análisis en los espacios de propiedad.

Tres herramientas de análisis descriptivo de relaciones bivariadas: ji cuadrado, coeficientes de asociación y lectura de porcentajes. Este conjunto de recursos usados en combinación permiten realizar un análisis exhaustivo de lo que ocurre en los datos para cada hipótesis de trabajo.

Ji cuadrado como prueba de significación estadística

Cuando dos variables están relacionadas varían conjuntamente en algún grado, existiendo covariación o varianza en común. Cuando la covariación o varianza en conjunto de ambas variables alcanza su nivel máximo -en que toda la varianza de una variable coincide con la varianza de otra- existe una asociación perfecta. Por la complejidad y multicausalidad del mundo social, no es habitual en ciencias sociales encontrar asociaciones perfectas entre variables.

La asociación perfecta es muy útil en tanto situación extrema con la cual confrontar los datos con que se dispone en una tabla bivariada. Cuando hay asociación perfecta cada categoría de una variable se encuentra asociada con una sola categoría de la otra. En una tabla, los casos se concentran en la diagonal y el resto de los espacios de propiedades tendrán cero casos, con lo cual las diferencias porcentuales serán del 100%. El caso opuesto a la asociación perfecta es el de independencia estadística, en que no hay ninguna covariación entre las variables, de modo tal que los casos se distribuyen en la tabla bivariada al igual que lo harían en una distribución univariable, con lo cual las diferencias porcentuales serán de 0%.

El test de ji cuadrado nos permite saber si la relación observada entre determinadas variables en nuestra muestra puede ser inferible, bajo determinados niveles de confianza, al universo de estudio. Para ello pone en relación la hipótesis nula con la hipótesis de trabajo.

1.1. HIPÓTESIS NULA: es una hipótesis que afirma la independencia estadística, es decir, la ausencia de asociación entre variables, lo contrario a lo que afirma la hipótesis de trabajo.

1.1.1.Ambas hipótesis se excluyen mutuamente: el rechazo de la hipótesis nula implica que puede aceptarse, con determinados niveles de confianza, la hipótesis de trabajo. En este caso, lo que rechazamos es la hipótesis de independencia estadística y por tanto, implica que la relación entre las variables observadas en la muestra es inferible al universo en estudio. El no rechazo de la hipótesis nula a cierto nivel de confianza, implica que no puede afirmarse que esa relación ocurra también en el universo, lo que no significa que no tenga relevancia teórica.

Si se rechaza la hipótesis nula, se está descartando, asumiendo determinado riesgo, que se trate de una situación de independencia estadística y se está aceptando que hay alguna asociación

Page 10: RESUMEN 2DO PARCIAL.docx

10

estadística entre las variables de la hipótesis de trabajo, con determinado nivel de confianza. No rechazar la hipótesis nula implica que la hipótesis de trabajo no es estadísticamente significativa para determinado nivel de confianza, mas no implica necesariamente que se acepte la hipótesis nula ni que deba darse por finalizado el análisis de la relación.

El ji cuadrado se utiliza para relaciones entre variables nominales u ordinales, puesto que existen otras pruebas para variables intervalares.

El ji cuadrado compara frecuencias absolutas, no porcentajes. Opera a partir de la comparación entre las frecuencias observadas y las frecuencias esperadas.

Las frecuencias observadas son simplemente los casos relevados distribuidos en los espacios de una tabla.

Las frecuencias esperadas son aquellas que cabría esperar si hubiese independencia estadística.

Ejemplo:

- Frecuencia observada es la que aparece registrada en tu tabla de doble entrada.- Frecuencia esperada (si los hechos son independientes): es la que se obtiene multiplicando los totales marginales del casillero y dividiendo por el total general.

Hombre Mujer TotalesFumadores 2 18 20No Fumadores 8 22 30Totales 10 40 50

1. La frecuencia observada en mujer no fumadora es 22 2. La frecuencia esperada si el sexo y el fumar(o no) son hechos independientes en este grupo de personas se

obtiene multiplicando los totales marginales de ese casillero (40 es el total marginal de las mujeres; 30 es el total marginal de los no fumadores) y dividiendo por el total general que es 50.

Es decir: Frecuencia Esperada= 40*30/50=24

Para cada espacio de propiedad de un cuadro, la frecuencia esperada se obtiene multiplicando las frecuencias marginales entre sí y dividiendo el producto por el total de casos. De este modo, se obtiene una distribución de los casos en el cuadro que mantiene las frecuencias marginales observadas de cada variable pero distribuye los casos en los espacios de propiedades, de modo tal que las frecuencias condicionales sean las que cabría esperar por meras desviaciones en la muestra en ausencia de asociación en la población.

Es posible elaborar una tabla de frecuencias esperadas o datos teóricos y compararla con la tabla de frecuencias observadas o datos reales. SI NO SE OBSERVA DIFERENCIA ENTRE LAS MISMAS SE PUEDE DECIR QUE HAY UNA AUSENCIA DE ASOCIACIÓN ENTRE LAS DOS VARIABLES O INDEPENDENCIA ESTADÍSTICA. Si hay diferencia entre las frecuencias observadas y esperadas, es necesario evaluar si los datos reales se alejan lo suficiente de la independencia estadística como para rechazar la hipótesis nula con un nivel de confianza razonable. Para ello, se realiza el cálculo del ji cuadrado.

La diferencia entre frecuencias observadas y esperadas de cada espacio se eleva al cuadrado, anulando los signos negativos. Para normalizar las diferencias elevadas al cuadrado de cada espacio de propiedad, se divide por la frecuencia esperada. Al sumar los resultados se obtiene el ji cuadrado empírico (X2

e), que puede adoptar valores desde cero hasta infinito. Cuanto más pequeño sea el valor de ji cuadrado, más fácil es no estar en condiciones de rechazar la hipótesis nula. Como el valor de ji cuadrado aumenta con el tamaño de la muestra, no habiendo un límite superior, para decidir el rechazo o no rechazo de la hipótesis nula, es necesario

Page 11: RESUMEN 2DO PARCIAL.docx

11

compararlo con el ji cuadrado teórico (X2t). El ji cuadrado teórico, crítico o de tabla proviene

de una distribución estadística que relaciona valores teóricos de ji cuadrado con sus posibilidades de ocurrencia por el sólo efecto del error muestral.

La distribución teórica de ji cuadrado permite conocer cuál es el valor con el que comparar el ji cuadrado empírico, según los grados de libertad de la tabla y el nivel de confianza con que se decida trabajar. Los grados de libertad de una tabla se determinan según la mínima cantidad de frecuencias condicionales que necesitan conocerse para poder calcular las restantes, para frecuencias marginales dadas. Se calcula multiplicando la cantidad de columnas menos uno por la cantidad de filas menos uno [GL= (c-1) x (f-1)]. Por ejemplo, una tabla de dos columnas por dos filas tiene un grado de libertad.

El nivel de confianza es el complemento del riesgo. Este último es la probabilidad de rechazar la hipótesis nula siendo esta verdadera, o lo que es lo mismo, la probabilidad de cometer error de tipo I.

- El error de tipo I consiste en aceptar la hipótesis de trabajo, cuando en realidad la relación no existe en el universo bajo estudio. - La situación inversa es el error de tipo II, o probabilidad de no rechazar la hipótesis nula siendo esta falsa. En el error de tipo II se rechaza la hipótesis de trabajo, cuando sí es estadísticamente significativa.

Son errores estadísticos, probabilidades que quienes investigan asumen como riesgos propios de los instrumentos estadísticos que se utilizan. Por convención, suele trabajarse con un 95% de confianza en Ciencias Sociales, lo cual equivale a decir que el riesgo o significación más habitual es de 0.05.

Si al comparar los valores obtenidos: el ji cuadrado teórico es mayor al ji cuadrado empírico (Xt2 > Xe2) la hipótesis nula no puede ser rechazada, por lo que la hipótesis de trabajo no es aceptada. Por el contrario, si el ji cuadrado teórico es menor o igual al ji cuadrado empírico (Xt2 ≤ Xe2) la hipótesis nula se rechaza y se acepta la hipótesis de trabajo, considerando que existe una relación estadísticamente significativa entre las variables.

- P-valor: indica la probabilidad de que sea cierta la hipótesis nula en la población para determinado ji cuadrado empírico. Ejemplo: si el p-valor fuera de 0.007, se determina que la hipótesis nula puede rechazarse con 99.3% de confianza.

El nivel de significación teórico con el que se compara habitualmente es 0.05 -eventualmente 0.01-, de modo tal que los niveles de significación empírica menores indicarán que se está en condiciones de rechazar la hipótesis nula.

Cuando se analiza el valor que asume ji cuadrado, éste está indicando simplemente si la relación supuesta entre las variables en la hipótesis de trabajo es estadísticamente significativa o no. Con esto, se define estadísticamente el contexto en que se trabaja con la hipótesis, de modo tal que SI LA ASOCIACIÓN ENTRE VARIABLES ES ESTADÍSTICAMENTE SIGNIFICATIVA SE PUEDE REALIZAR UNA INFERENCIA ESTADÍSTICA DE LA MUESTRA AL UNIVERSO DE ESTUDIO. Ello quiere decir que se puede rechazar con determinado nivel de confianza que la hipótesis nula sea cierta en el universo y que la asociación en los casos analizados se deba solamente a errores muestrales.

La ausencia de significación estadística puede deberse a diversos motivos, tales como el modo de construir las variables, una insuficiente cantidad de casos, las características de la estrategia de medición, etc. El hecho de que no haya significación estadística en la relación entre las variables analizadas, no impide avanzar en la producción de conocimiento.

Page 12: RESUMEN 2DO PARCIAL.docx

12

Cabe destacar que este Test de Hipótesis no es útil para el análisis si es tomado aisladamente de los otros recursos con los que contamos como lo son los Coeficientes de Asociación y la Lectura Porcentual que veremos a continuación.

Asociación y medidas de asociación

La asociación: es una forma de covariación entre variables, medida a partir de cómo se distribuyen las unidades de análisis en los espacios de propiedades. Las medidas de asociación, pueden ser utilizadas con variables de cualquier nivel de medición, a diferencia del coeficiente de correlación que requiere variables cuantitativas. Los coeficientes de asociación no permiten realizar inferencias al universo, sino que indican la fuerza de la relación en la muestra que se analiza.

Los coeficientes de asociación: medidas resumen de la fuerza de la asociación entre variables y, algunos de ellos, permiten también conocer la dirección. Los coeficientes de asociación son estandarizados, variando entre cero, que indica independencia estadística y uno, que indica asociación perfecta.

Phi (ϕ) y V de Cramer (V) son coeficientes derivados de ji cuadrado, con lo cual operan a partir de las diferencias entre frecuencias observadas y esperadas. Como en tablas de más de dos por dos el valor de Phi puede superar la unidad, V de Cramer incorpora un factor de corrección en su fórmula para poder ser utilizado en cuadros de cualquier cantidad de categorías.

Algunos coeficientes, como Tau-b (Τb), Q de Yule (Q) y Gamma (γ) operan en base a la reducción proporcional del error. La relación entre las variables puede entonces también ser interpretada como la proporción en que se reduce el error de predicción de las categorías de la variable dependiente cuando se conoce su distribución en las categorías de la independiente, contra el error de predicción cuando sólo se conoce la distribución univariada de la variable dependiente.

Algunos coeficientes pueden llevar signo positivo o negativo, de modo que varían entre -1 y 1, pasando por 0, siendo -1 asociación perfecta negativa y 1 asociación perfecta positiva. El signo indica el sentido de la relación.

La elección del coeficiente adecuado depende del nivel de medición de las variables, del tipo de hipótesis y, en algunas situaciones, del tamaño del cuadro:

1. Nivel de medición de las variables : - Si son nominales con cuadros de más de dos por dos se utiliza V de Cramer.- Si son nominales u ordinales en cuadros de dos por dos se utiliza Phi y Q de Yule.- Si son ordinales en cuadros de más de dos por dos se utiliza Tau b y Gamma. La elección de Tau-b es recomendable cuando las tablas son cuadradas, es decir, poseen el mismo número de filas que de columnas.

2. Tipo de hipótesis . - Las hipótesis rinconales: son aquellas que tienen una sola condición acerca del modo en que se vinculan las variables, es decir, relacionan una categoría de la variable dependiente con una categoría de la variable independiente. Son hipótesis menos exigentes, puesto que para que haya asociación perfecta en una tabla de dos por dos alcanza con que una sola frecuencia sea cero. Si la hipótesis es rinconal se utiliza Q o Gamma, que son coeficientes curvilineales.- Las hipótesis diagonales: son más exigentes puesto que para corroborarse, los casos deben concentrarse en la diagonal de una tabla, y para que exista asociación perfecta no puede haber ningún caso en los espacios fuera de la diagonal. Por ejemplo, si la hipótesis es

Page 13: RESUMEN 2DO PARCIAL.docx

13

diagonal se utiliza Phi, coeficiente lineal, que pone dos condiciones para que haya asociación perfecta en tablas de dos por dos, por lo cual se necesitarían dos espacios de propiedad con cero casos. Para hipótesis diagonales de cuadros de más de 2x2, utilizaremos Tau b, coeficiente lineal.

3. Tamaño del cuadro. Q y Phi se utilizan para cuadros de dos por dos. Si los cuadros tienen más categorías, se utiliza Gamma en lugar de Q y Tau-b en lugar de Phi.

COEFICIENTES DE ASOCIACIÓNHipótesis

Lineal C

Tipo deVariable

Nominal - Más de

2x2V de Cramer (V)

Nominal/Ordinal

- 2x2Phi (ϕ)

Q de Yule

Ordinal - Más de

2x2Tau b (Τb) Gamma (γ)

El valor que arroje un coeficiente de asociación ha de ser interpretado según cuánto se aproxime al 0 y al 1 (o menos 1), independencia estadística y asociación perfecta positiva o negativa, respectivamente. A medida que los coeficientes comienzan a alejarse de 0 están expresando algún tipo de relación entre las variables.

Ahora bien, el valor de un coeficiente de asociación en un análisis determinado no puede ser interpretado aisladamente, sino en función de las comparaciones que establezca. Dichas comparaciones intentarán mostrar las maneras en que nuestra variable dependiente se encuentra afectada por diferentes variables independientes. En este sentido, no existen valores altos, medios o bajos en los análisis de los coeficientes, sino que el valor que la covariación entre las variables adopte será interpretado a la luz del valor que adquiera otra covariación.

- Para que las comparaciones respecto a la fuerza de incidencia de distintas variables independientes sean correctas, es necesario realizarlas con el mismo coeficiente, preferentemente para variables nominales si hay por lo menos una de dicho nivel de medición.

En consecuencia, el proceso de conocimiento que implica acercarnos a nuestro fenómeno de estudio compromete el análisis y la comparación de un número significativo de variables dadas por nuestro marco teórico de análisis. De esta manera, la comparación se vuelve una instancia nodal de nuestro proceso de construcción del conocimiento y la selección de variables y su interpretación posibilita subordinar los recursos técnicos a las decisiones teórico-metodológicas.

Lectura analítica de porcentajes

La lectura de tablas de contingencia permite un análisis cuantitativo refinado, analítico y artesanal. Una vez que se tiene una tabla con las frecuencias absolutas distribuidas en los espacios de propiedades, es necesario calcular porcentajes para poder realizar comparaciones válidas con mayor facilidad. Porcentualizar es una manera de estandarizar las frecuencias condicionales para liberarlas de los efectos de las diferencias de los marginales y hacer comparable una parte respecto al todo.

Los porcentajes pueden ser calculados sobre el total (n) de una tabla, sobre los subtotales de fila -asumiendo que se dispuso allí variable dependiente- o sobre los subtotales de columna -asumiendo que se trata de la variable independiente-.

Page 14: RESUMEN 2DO PARCIAL.docx

14

Si se procura conocer qué porcentaje de la población puede ser clasificado en dos o más atributos simultáneamente -por ejemplo, varón y de nivel educativo alto- es necesario calcular los porcentajes sobre el total de la tabla.

Para realizar una lectura en función de las hipótesis es necesario calcular los porcentajes en el sentido de la variable independiente y leerlos comparando en el sentido de la variable dependiente. De este modo, podemos analizar la influencia de la variable independiente sobre la dependiente. Por ejemplo, saber qué porcentaje de los varones tiene nivel educativo alto, al comparar con el porcentaje que tienen las mujeres en dicho nivel educativo, permite a partir de las diferencias porcentuales aproximarse a la incidencia de la variable sexo en el nivel educativo alcanzado.

La lectura de un cuadro puede comenzarse por las frecuencias marginales de la variable dependiente, que no son más que la distribución univariada de esa variable, es decir, su distribución sin tomar en cuenta las categorías de la variable independiente. Lo central de la lectura de cuadros bivariados es la lectura de las frecuencias condicionales, comparando en el sentido de la variable dependiente.

Cuando se trata de un cuadro de dos por dos, bastará con comparar dos porcentajes para leer el cuadro por completo, puesto que habiendo leído los dos porcentajes de una categoría de la variable dependiente, los de la otra categoría de la variable dependiente son complementarios. La diferencia entre los dos porcentajes comparados será la diferencia porcentual o épsilon (ε) que sintetiza todo el cuadro, indicando la fuerza de la relación.

Probablemente no sea necesario leer todos los porcentajes cuando haya muchas categorías de las variables, siendo siempre la hipótesis lo que orientará la lectura, indicando qué espacios de propiedad son los más relevantes según las expectativas teóricas.

La lectura de un cuadro no debe ser entendida como un fin en sí mismo sino como un medio para el análisis e interpretación de los resultados “enmarcado en un proceso teórico metodológico, evitando así miradas fragmentadas del proceso de investigación”.

Reflexiones Finales

El análisis de relaciones entre dos variables se sirve de la prueba de hipótesis de ji cuadrado, de los coeficientes de asociación y de la lectura analítica de los cuadros, en tanto herramientas que en conjunto permiten analizar y comenzar a dar respuesta a objetivos descriptivos. La prueba de ji cuadrado, permite establecer si existe relación estadísticamente significativa entre las variables y complementada por los coeficientes de asociación, permite examinar la fuerza de la relación y su sentido. La naturaleza de la relación entre variables, es decir, si se aproxima a una forma lineal, curvilineal o irregular, sólo puede ser examinada mediante la lectura porcentual analítica al interior del cuadro.