analisis de datos nominales

Upload: francisco-aguilar

Post on 13-Feb-2018

222 views

Category:

Documents


0 download

TRANSCRIPT

  • 7/23/2019 Analisis de Datos Nominales

    1/20

    Tcnicas

    de analisls de datos nomin les

    Juan

    Javier Sncliez Carrin

    Universidad Complutense

    e

    Madrid

    EL ANALISIS

    DE

    DATOS NOMINALES

    El objetivo de este trabajo es mostrar diferentes tcnicas que permiten el

    anlisis de datos nominales. Cada una de las tcnicas se explica en otros libros y

    artculos, a los que haremos referencia cuando proceda. Aqu juntamos todas las

    tcnicas para ilustrar su aplicacin, y remitirnos a libros y artculos para aprender

    su funcionamiento.

    Las aqu llamadas variables nominales, otros autores las denominan cuali-

    tativas o categricas. En todos los casos tenemos una variable, cuyas respuestas

    vienen expresadas en nombres y no en ntmeros. Ejemplos caractersticos de va-

    riables nominales seran el Sexo, con las categoras hombre

    y

    mujer ; la Reli-

    gin, etc. (Snchez Carrin,

    1989 .

    Dado que las tecnicas de anlisis dc datos intervales ofrecen ms informa-

    cin que las tcnicas de anlisis de datos nominales y, tambin, debido a un mayor

    desarrollo de las primeras, hay una tendencia generalizada a elevar de categora a

    las variables nominales hasta convertirlas en intervales. ensamos que no siempre

    est justificado el cambio y aqu vamos a mostrar tcnicas de anQisis que permiten

    trabajar con las variables nominales sin necesidad de transformarlas.

    Digamos directamente que todas las tcnicas de anhlisis

    de

    datos nominales

    pasan por la construccin de

    tablas

    de doble, triple, etc., entrada, a partir de las

    cuales se realizan ciertas manipulaciones. Estas son las manipulaciones que vamos

    a mostrar:

    Clculo d proporciones (porcentajes) y construccin de un Sistema de

    Proporciones (Sistemas de la

    D .

    Construccin de un fichero de datos agregados

    a

    partir de las categoras de

    una de las variables nominales (Ficheros de Datos Agregados).

    Clculo de razones y ajuste d un modelo Log-linear (Modelos

    Log-

    linear).

    Representacin grfica en forma de Postes .

    Representacin grfica mediante el An6lisis de Carrespondcncias.

    Anlisis de Tablas con o ms dimensiones.

  • 7/23/2019 Analisis de Datos Nominales

    2/20

    134 Snchez Carrin.

    J.J.

    1.- El

    us

    d e

    los

    porcentajes

    y

    el anlisis de variables no

    m i n a l e s

    La tabla

    1

    utiliza unos datos invcntados para mostrar la relacin entre las

    variables Estado Civil

    y

    Prctica Religiosa -datos tomados de Snchez Carrin,

    1989. Con el fin de poder establecer comparaciones entre los distintos estados

    civiles hemos puesto los datos en porcentajes.

    Estado civil

    Pra. religiosa soltero casado viudo separado/div.

    Nunca 60 10 33 60

    Alguna vez 3 0 3 0 33 3 0

    Siempre 10 60 33 10

    Total 100 100 100 100.-

    Tabla 1

    Rclaci6n entre Estado Civil

    y

    Prctica Religiosa,(%)

    Si queremos ver la relacin entre ambas variablcs de nada serviran los

    estadsticos al uso en la investigacin social (Gi-cuadrado, Lambda,

    5

    dc Cramcr,

    etc.). Supongamos que un investigador calcula un estadstico para resumir la rela-

    cin y se presenta ante la persona que encarg la investigacin dicicndo que la re-

    laci6n entxe ambas variables es de

    0.6.

    Si el estadstico va de 0.0 a

    1.0

    el valor de 0.6 significa una alta rclacin

    entre las variables. Supongamos tambin que el patrocinador quicrc aumentar la

    prctica religiosa de los entrevistados, le informa este 0.6 sobre qu colcctivo ha

    de

    actuar? No, tan slo le dice que hay relacin entre ambas variables. Si quiere

    conocer la naturaleza de esta relacin necesariamente ha de acudir a mirar los por-

    centajes, comparando parejas de categoras.

    Por ejemplo, mirando en l a Tabla

    1

    las columnas de soltero y scpara-

    do/dvdo. vemos que ambos grupos se comportan de igual manera: el 60% nunca

    va a misa. Por el contrario, solteros

    y

    casados tienen comportamientos dife-

    rentes: agrupando las categoras alguna vez y siemprc y utilizando las difcrcn-

    cias de porcentajes como medida de asociacin, comprobamos que entre los ca-

    sados hay un

    50.0

    ms de individuos que van

    a

    misa ( alguna vcz o sicinprc )

    que

    entre los solteros .

    Si quisiramos ver la diferencia entre casados y viucios tendramos quc

    calcular un nmcro

    diferente; y

    lo mismo ocurrira para comparar solteros con

    viudos , etc., Con este estadstico (diferencia dc porcentajes o de proporciones)

  • 7/23/2019 Analisis de Datos Nominales

    3/20

    Tcnicas de An6lisis de datos nominales

    3

    construimos un sistema de anlisis, llamado Sistema de la D Davis, 976; Sn-

    chez Carrin, 1989). En los Apartados 2

    y

    6 veremos algo ms sobre la utiliza-

    cin de las diferencias de proporciones.

    MORALEJA

    Tratndose de variables nominales no hay ningin nico estadstico que

    resuma su rclacin. Para estudiar cstc tipo de variables hay que olvidarse de las

    variables y mirar las categoras, comparndolas entre s. El 0.6 es un estadstico

    que de tanto quercr resumir la relacin cntre Estado

    y

    Prctica termina por ofrecer

    una informacin irrelevante.

    2. Anlisis de los datos agregados

    En la Tabla 2 ofrecemos unos datos invcntados con el resultado dc

    entrevistar a

    7

    trabajadores, a los que se les pregunta -entre parntesis incluimos

    los cdigos con los que se habran grabado los datos en el ordenador

    Tipo de Empresa en la que trabajan: Metal

    1)

    o Textil

    2 ) .

    Su Voto cn las ltimas elecciones legislativas: partidos de Izquierda

    1)

    o

    Derecha 2).

    Su Ocupacin Manual 1) o No Manual 2)

    Su Voto en las elecciones sindicales: Sindicatos de

    Clase 1) o

    No- clase

    21, Y

    La Edad en aos).

    Voto Voto

    Id Empresa Legisl. Ocupacin Sindical Edad

    1 metal izda. manual clase 4 0

    2 metal izda. no-manual

    clase

    3

    metal dcha.

    no-manual clase 4 5

    4 textil dcha.

    no-manual no-clase

    6

    0

    5 tcxtil dcha. manual no-clase 5 5

    6

    textil

    dcha. manual

    no-clase 64

    7

    tcxtil izda. manual clase 60

    Tabla

    Matriz dc Datos Individuales

    A

    partir

    de

    esta matriz dc datos podemos ver las caractersticas de los traba-

    jadores, segn sean dcl mctal o del textil. Para ello podcmos construir mltiples

    tablas de contingencia, que rclacioncn la variable Empresa con las restantes, o

    podemos crcar un nuevo fichcro de datos agregados, en el que los casos las uni-

    dades) sean cada uno de los tipos de Empresa, y las variablcs sean derivaciones dc

    las variablcs individuales.

  • 7/23/2019 Analisis de Datos Nominales

    4/20

    36 Srnchez Carrin,

    J.J.

    Utilizando las siguientes instrucciones SPSS/PC+ (Norusis,

    1985;

    Snchez

    Carrin, 1988a) construimos la Tabla 3 en la que se incluyen 2 casos (metal y

    textil) y 4 variables.

    Edadmedi: edad media de los entrevistadores en cada empresa.

    Votoizda: tanto por ciento de trabajadores que votan a la izquicrda cn cada

    una de las empresas.

    Manuales: tanto por ciento de trabajadores con ocupacin manual en cada

    una de las empresas.

    Votoclas: tanto por ciento de trabajadores que votan sindicatos de clase

    en cada una de las empresas.

    AGGREGATE OIJTFILE = Votoagre.sysl

    /BREAK = Empresa

    /Edadmedi

    =

    MEAN (Edad)

    /Votoizda = PLT (Votolegi, 2)

    /Manuales = PLT (Ocupacio,2)

    JVotoclas = PLT (Votosind,2)

    Empresa Edadmedi Votoizda Manuales Vo toclas

    _

    metal

    38.3 66.7

    33.3

    100.0

    textil

    59.7

    25 0

    75 O 25 .O

    Tabla

    3

    Fichero d e datos agregados

    Mirando

    la

    Tabla 3 se ve

    el

    perfil de

    los

    trabajadores de las cmprcsas del

    metal y del tex til -reco rdar que los datos son ficticios-: los d el metal son jvenes,

    votan mayoritariamente a la izquierda, tienen ocupaciones No-manuales y todos,

    sin excepcin, votan sindicatos dc Clase; todo lo contrario se podra decir de los

    trabajadores del textil.

    Una vez que tenemos los datos agregados podemos juntarlos con los indi-

    viduales para estudiar la influencia del contexto en el comportamiento de los indi-

    viduo s -para ver s i la gente se atiene al refrn que dice donde fueres haz lo que

    vieres . Realizamos esta operacion utilizando de nuevo SPSS/PC+ (Snchez Ca-

    rrin, 1988a):

    JOIN MATCH R L E = 'Voto. sysf/TABLE= 'Votoagre.sysq

    BY Empresa.

    Nota: 'Voto.sys' contiene los datos individuales.

  • 7/23/2019 Analisis de Datos Nominales

    5/20

    Tcnicas de Aniilisis de datos nominales

    1 3 7

    El resultado sera un fichero como el que incluimos en la Tabla 5

    Voto Voto

    Id. Ernr~resa Legis. Ocupaci6n Sindical Edad Med. izda. ales clase

    metal izda manual clase 40 38.3 66.7 33.3 100.0

    mctal izda no-man clase 30

    VI

    metal dcha no-man clase 45

    4 textil dcha no-man no-clase 60 59.7 25.0 75.0 25.0

    5 textil dcha manual no-clase 55

    l

    6

    textil dcha manual no-clase 64

    I I

    7

    textil izda manual clasc 60

    Tabla 5

    Unin de los fichcros de datos agregados e inventados

    La forma dc vcr la validez del rcfrh pasa por hacer lo que en la invcsti-

    gacin social se llama un Anlisis Contextual. Para ello miramos la relaciGn entre

    2 variables, rcpiticndo el anlisis con el aadido de una tercera (el contexto ).

    Por ejemplo, podemos ver si el contcxto poltico de la empresa

    (

    de trabajadores

    que votan a la izda: Votoizda) afecta al voto de los trabajadores manuales.

    La tabla 6.a mucstra la relacin cntre Ocupacin y Voto Sindical.

    A

    partir

    de esta tabla se observa que el 50% de los trabajadores manuales votan a sindica-

    tos de clase. Mirando la Tabla

    6 b

    vemos que cuando estos mismos trabajadores

    manualos se encuentran en un contcxto de izquierdas (ms del 50% de los traba-

    jadores votan a la izquierda: Votoizda) el porcentaje dc los quc votan a sindicatos

    dc clase sc clcva al 100.0%. En un contcxto de dereclias, este mismo tanto por

    cicnto queda reducido al 33.3%.

    ( 4

    Ocupacidn

    Voto sindical rnanu al no-manual

    - -------------------------------------------------------------------

    clusc 50.0

    66 7

    no-clase 50.0 33.3

    Total 100.- 100.-

    (4)

    (3

    izquierda

    + 50%)

    Vo toizda

    dcrechn

    - 50%)

  • 7/23/2019 Analisis de Datos Nominales

    6/20

    138

    Snchez Carrin.

    J

    J

    Ocupacin Ocupacin

    Voto Sind. manual no-manual manual no manual

    -------------_----------------------------------------------------------------------------------

    clase

    100.0 100.0

    33.3

    O

    O

    no-clase

    0.0

    0.0

    66.7 100.0

    Total

    100.0 100.0

    (1)

    (2)

    Tabla 6

    Relaciones entre Ocupacin

    y

    Voto sindical (a) y entre Ocupacin, Voto sindical y

    Voto legislativas (b)

    3.

    M od el os l i n ea l e s l ogar t m i cos

    Los modelos lineales logartmicos (en ingls, log-linear) tambin tienen

    por finalidad estudiar la relacin entre variables. Mientras que los sistemas de las

    diferencias de proporciones estn basadas en diferencias de proporciones, valga la

    redundancia, los modelos log-linear tienen su fundamento en las razones.

    Para mostrar la aplicacin de las razones como medida de asociacin a

    partir de la Tabla

    1

    construimos una nueva tabla en la que agrupamos las cate-

    goras alguna vez y siempre y consideramos slo a solteros y casados . En

    la Tabla

    7

    se recogen los resultados.

    Estado civil

    Pra. religiosa soltero casado total

    ......................................................................

    nunca 120 50 170

    alguna siempre 80 450 530

    Total 200 500 700

    Tabla

    7

    Cruce de Estado civily Prctica religiosa

    Podemos ver la razn de nunca a alguna

    ...

    para los solteros y para

    los casados . En el primer caso hay 1 5 individuos que nunca van a misa por cada

    uno que s

    va

    (es decir,

    120

    entre

    80).

    Entre los casados esta razn es de

    0.11

    a

    1.00 (es

    decir

    SO dividido entre 450). Puesto que segn se trate de solteros o de

    casados las razones son diferentes, podemos decir que estamos en presencia de una

    asociaci6n entre ambas variables.

    Cul

    es la intensidad de esta asociacin? Muy

    sencillo, basta dividir ambas razones para encontrar el estadstico medida de la

    relacin:

    (1.50/0.11)

    =

    13.5

  • 7/23/2019 Analisis de Datos Nominales

    7/20

    A

    este nm ero le llamam os razn de razones (en ingls, odds ratio), y es

    igual al producto cruzad o d e las frecuencias de la Tabla 7:

    Una vez visto este estadstico digamos que en los modelos log-linear lo que

    vamos

    a hacer es tratar de ajustar modelos que expliquen la frecuencia de cada una

    de las casillas de las tablas. Por ejcrnplo, si comparamos la tabla 8 (versibn d e la

    Tabla

    7

    e n l a

    que

    los datos aparecen en tantos por uno) con otra donde las

    frecuencias en cada casilla fueran iguales (Tabla 9) podramos preguntarnos a qu

    es debida la diferen cia en tre ambas, qu factores (efectos) estn a ctuando para qu e

    los nmeros sean todos diferentes?

    Estado civil

    Pra. religiosa soltero casado total

    ---------------------- -----------------------------------------------

    nunca

    .60

    l o

    .24

    alguna + siempre

    .40 .90

    .7

    6

    Tota l

    .29 .7 1 1 O0

    Tabla 8

    Cruce de Estado civil y Prc tica religiosa,

    expresado en tantos por

    1.0

    Estado civil

    Pra. religiosa soltero casado Tota l

    .....................................................................

    nunca

    25 .25

    50

    alguna + siempre

    .25 .25 .25

    Tota l

    .50 .50

    50

    Tabla

    9

    Cruce d e Estado civil

    y

    Prctica religiosa en el supuesto de equi-

    probabilidad de todas las casillas

    ( ).

    Hay

    4

    efecto s qu e estn determinando el tamao desigual d e las casillas de

    la Tabla 8:

    Por

    un

    lado est la influencia que tiene en las casillas el hecho de que no

    haya igual nm ero d e solteros que de casados . Este es el efecto de la variable

    columna .

    Igualmente influye en el tamao desigual el hecho de

    que

    tampoco haya

    igual nmero de personas que van o que no van a misa (efecto de la variable co-

    lumna).

  • 7/23/2019 Analisis de Datos Nominales

    8/20

    14

    Snchez C arrin. J J.

    Una tercera infuencia tiene que ver con la mayor probabilidad de no ir a

    misa cuando se es soltero que cuando se es casado efecto atribuible a la relacin

    entre ambas variables).

    Un iltimo efecto es atribuible al tamao medio de las casilla.

    Cada uno de estos efectos se puede calcular y todos juntos explicarn la

    frecuencia de cada una de las casillas de la Tabla 8 Por ejemplo, el efecto atribui-

    ble al tamao medio de las casillas es igual a la media geomtrica de la frecuencia

    de las casillas, y se identifica con la letra griega Mu p):

    El efecto debido a la asociacin es igual a la raz cuarta del producto cruza-

    do

    y

    se identifica como h B

    EI efecto de las filas y de las columnas es igual a la media geomtrica de

    las frecuencias en una categora respecto de las frecuencias en la otra categora.

    Por ejemplo, el efecto de las columnas,

    L

    es igual a:

    Calculando el efecto de la variable columna -0.213) y poniendo todos los

    resultados juntos tenemos que:

    Comprobamos de esta manera que el modelo que hemos ajustado,

    y

    que

    incluye todos los efectos que estn influyendo en la tabla, explica la frecuencia de

    las casillas.

    En el supuesto de que la tabla tuviera ms de 2 dimensiones variables)

    habra ms efectos a considerar. En ambos casos, el problema no concluye con el

    clculo de todos los efectos, sino que se hace necesario ver si no sera posible

    ajustar algn otro modelo con menor nmero de efectos, y que siguiera explicando

    nuestros datos. Entramos as en

    un

    problema que implica realizar sucesivos con-

    trastes hasta encontrar el modelo con menor nmero de efectos y que ajusta los

    datos ver Fienberg y Holland, 1975).

  • 7/23/2019 Analisis de Datos Nominales

    9/20

    Tcnicas de Anlisis de d atos nom inales

    141

    4.-

    Representacin

    grfic

    e las tablas los pos tes t e l e g r

    f i o s

    Tomando datos de los Estados Unidos (Davis,

    1987)

    la Tabla

    10

    muestra la

    relacin entre las variables Estatus y Hbito de fumar. La primera variable tiene

    las categoras alto , medio

    y

    bajo . La variable Fumar admite las categoras

    nunca nunca fum

    -

    dej fumaba, pero lo dej - empez no fumaba, pe-

    ro ahora fuma

    -

    y siempre fumaba

    y

    sigue fumando.

    Fumar

    Estatus nunca dej empez siempre To tal

    bajo

    34.6 18.0 33.1 14.3 100.- 1111)

    medio 40.3 20.4 28.2 11.2 100.- 2710)

    alto 45.1 22.9 24.4

    7.6

    100.- 1154)

    ---- --------------------------------------------------------------------- ---------------- ----

    total 40.1 20.4 28.4 11.1 100.-

    (4975)

    Tabla 10

    Relacin entre Estatus

    y

    Hbito de fumar ( )

    La tabla s e pue de representar en un grfico, tal com o hacemos en la

    Figura

    1.

    En este grfico hacemos tantos postes como categoras tenga la variable

    dependiente,

    y

    colocamos en cada poste el tanto por ciento de individuos en cada

    una de las categoras de la variable independiente.

    nunca

    dei

    emaez siemare

    70

    50

    al to

    40 medio

    bajo bajo

    30 medio

    alto alto

    20 medio

    bajo bajo

    10 medio

    al to

    0

    .................................................... ---------------

    Figura

    Representacin grfica de la relacin entre Estatus

    y

    Hbito de fumar

  • 7/23/2019 Analisis de Datos Nominales

    10/20

    142

    Snchez Carrin.

    J

    J

    Tanto

    a

    partir de la Tabla 10 como de la Figura 1 pensamos que mejor a

    partir de la Figura se puede ver que lo que domina son las personas que nunca

    fumaron y lo que menos hay son fumadores de siempre . Entre los que nunca fu-

    maron son dominantes los individuos de estatus alto, justo lo contrario

    de

    lo que

    ocurre entre los fumadores -categora siemprew-,donde son mayoritarias las per-

    sonas de estatus bajo.

    5 . -Representac in grf ica de las tablas: e l Anlisis de Co-

    r r e s p o n d e n c i a

    Tornando datos de Garca Santesrnases

    A.C.,

    1985 vamos a ilustrar la

    tcnica del Anlisis de Correspondencias -s6l0 haremos referencia a las correspon-

    dencias simples. El

    A.

    de

    C

    es un mtodo descriptivo que pretende representar en

    un espacio de la menor dimensin posible la relacin entre las categoras de dos o

    ms variables nominales. Supongamos que tenemos la distribucin del Producto

    Nacional Bmto entre los sectores Agrcola, Industrial y de Servicios para un con-

    junto de pases, tal como se muestra en la Tabla 11.

    Pas Agrcola Industria Servicio Total

    Argentina

    Bolivia

    Brasil

    Chile

    Colombia

    C Rica

    Ecuador

    Salv ador

    Guatemala

    Honduras

    Mjico

    Nicaragua

    Panam

    Paraguay

    Per

    R Domin.

    Uruguay

    Venezuela

    U.S.A.

    Canad

    Alemania

    Blgica

    Dinamarca

    Espaa

    Francia

  • 7/23/2019 Analisis de Datos Nominales

    11/20

    Tdcnicas de Anlisis de datos nominales

    143

    Italia

    7 43 50 100

    P. Bajos 4 37

    59 100

    Portugal

    13 47 40 100

    G Bretaa

    2 36

    62 100

    Japn 5 42 53 100

    Total 400 1055 1545 3000

    Tabla 11

    Distribucin Producto Nacional Bruto por Pases

    A partir de la Tabla 11 se puede ver qu pases tienen una mayor o menor

    participacin en cada uno de los sectores productivos y, en funcin de esta infor-

    macin, cules son las semejanzas o diferencias entre los pases. Por ejemplo, Ita-

    lia y Japn son bastante parecidos entre s, y diferentes a Colombia o Nicaragua.

    Si quisiramos representar grficamente la Tabla

    11

    podramos construir

    nubes de puntos: una en la que los puntos fueran los pases 30), siendo sus coor-

    denadas los valores de sus PN respectivos en cada uno de los sectores 3); otra,

    con los scctores como puntos 3) y sus valores para cada pas como coordenadas

    30). La segunda nube de puntos, en un espacio de 30 dimensiones, no puede ser

    representada grficamente. S podemos representar los 30 puntos pases) en un

    espacio de

    3

    dimensiones sectores), tal como hacemos en la Figura

    2

    Tomando Argentina como ejemplo vemos que sus coordenadas son igual a:

    Argentina 13/100 461100 41/100)

    ver figura 2 en el apndice final)

    El Anlisis de Correspondencias trata de representar en un nico subespacio

    las 2 nubes de puntos. Este espacio ha de formarse siguiendo un par de criterios:

    - Que sea del menor nmero de

    dimensiones

    posibles, y

    -

    Que respcte las distancias originales entre los puntos: parejas de puntos

    distantes en los datos las nubes de puntos), tambin han de estar distantes en el

    subespacio difinido por el

    A

    de C

    Con el fin de calcular la distancia entre los puntos se va a utilizar una m-

    trica espacial, la Distancia de Benzecri. Esta distancia se caracteriza por el hecho

    de que pondera las distancias entre los puntos de manera inversarnente proporcio-

    nal a sus frecuencias.

    A

    continuacin ofrecemos un ejemplo de utilizacin de esta

    distancia, calculando la distancia entre Argentina y Bolivia nube de puntos de los

    pases).

  • 7/23/2019 Analisis de Datos Nominales

    12/20

    144

    Snchez Carridn,

    J J

    Estas distancias, calculadas para todas las parejas de puntos en ambas nu-

    bes, son las que hay que respetar en la solucin que proporcione el

    A

    de

    C.

    E l

    procedimiento que se sigue para encontrar la solucin final no 10 vamos a explicar

    aqui; digamos simplemente que como resultado del anlisis se obtiene la rcprcsen-

    tacin grfica de los puntos en varias dimensiones, junto con una serie dc infor-

    maciones que nos permiten ver la bondad de la representacin y haccr su interpre-

    tacin.

    Para deducir el nmero de dimensiones miramos el valor de los autovalo-

    res . Cada uno de ellos indica el tanto por ciento de variabilidad (en

    la

    terrninolo-

    ga del

    A

    de

    C.

    se suele hablar de inercia ) explicada por el auto valor o eje fac-

    torial. El primer autovalor explica el 81.0% de la inercia y el segundo el 19'0%.

    En conjunto, ambos autovalores explican el 100% de la inercia. Por lo tanto, en

    nuestro ejemplo podemos representar los puntos en un espacio dc

    2

    dimensiones,

    tal como se muestra en la Figura

    3

    En la Figura

    3

    la proximidad entre 2 puntos significa que entre ambos exis-

    te una relacin positiva. Mirando la Figura

    3

    vemos que Honduras, Paraguay, etc.

    son pases muy prximos a Agricultura, como corresponde a la importancia que

    tiene este sector en los pases en cuesti6n ver Tabla 11 En el caso contrario se

    encuentran Alemania o Espaa, en los que predominan la industria (Alemania) o

    los Servicios (Espaa).

    Cuando una de las variables tiene

    3

    categoras siempre es p osible encontrar

    un espacio bi-dimensional que represente adecuadamente los puntos. En el supuesto

    de tener ms categoras y

    legir slo los primeros autovalores que expliquen, por

    ejemplo, un 40% de la inercia, el problema que se plantea es que los puntos apare-

    cern deformados: las distancias en la representacin no coincidir& co n la s dis-

    tancias en los datos originales.

    Con el fin de matizar la representacin grfica, ademhs de est a rcprcscn-

    tacin y de los autovalores, el A de C. ofrece informacin sobre la importancia

    que tiene cada punto en la definicin de los ejes y sobre la calidad de la represcn-

    tacin de los puntos situados en un eje. La primera informacin recibe el nombre

  • 7/23/2019 Analisis de Datos Nominales

    13/20

    Tcnicas de Anlisis de datos nominales 45

    de contribucin absoluta y la segunda contribucin relativa . Las Tablas 12 y

    13 muestran las contribuciones absolutas

    de

    los puntos fila

    y

    columna a los

    2

    ejes, as como las contribuciones relativas de los ejes a los puntos fila y columna.

    (a)

    Factores

    2

    Argentina 8 6

    Bolivia 7 9

    Brasil 2

    Chile 9 4

    P.

    Bajos

    6

    21

    Portugal 2 10 3

    G. Bretaa 37 46

    Japn

    6

    (b)

    Factores

    1

    Agricultura 812 54

    Industria

    75

    473

    Servicios 13 47 2

    Tabla

    2

    Contribuciones absolutas de los puntos

    fila

    (a)

    y columna b)

    a

    los ejes

    (a)

    Factores

    1

    Argentina

    85

    9 15

    Bolivia 765 235

    Brasil

    9

    19

    8

    Chile 913 87

    P. Bajos

    843

    157

    Portugal 83 917

    G. Bretaa 774 8

    Japn

    998

    2

  • 7/23/2019 Analisis de Datos Nominales

    14/20

    1 4 6 Snchez Carrin.

    J.J.

    b)

    Factores

    Agricultura 9 8

    5

    5

    Industria 613 3 8 7

    Servicios 103 8 9 7

    Tabla 13

    Contribuciones relativas d e los dos ejes a los puntos fila a)

    y

    columna b)

    El que un punto tenga un contribucin absoluta muy alta en un eje puede

    sugerir una posible interpretacin de ese eje.

    As

    mirando la Tabla 12.b vemos

    que el primer eje est muy bien definido por Agricultura, con una contribucin ab-

    soluta de 812 sobre 1000, mientras que el segundo queda definido por Industria

    y

    Servicio, con una oposicin entre ambos sectores dadas las coordenadas opuestas

    de ambos puntos.

    En el caso que nos ocupa las contribuciones relativas no vienen sino a

    confirmar algo que ya sabamos a partir de 10s autovalores: que los puntos no apa-

    recen deformados. En otro s casos, e n los que el tanto po r ciento de inercia expli-

    cada por los ejes sea pequeito, las contribuciones relativas permitirn ver la bon-

    dad de la representacin de los puntos en cada uno de los ejes que consideremos.

    6. Anlisis

    de

    t a b l a s

    on o mi s

    variables

    Una vez que hemos visto en el Apartado el uso de los porcentajes en

    situaciones en las que tenemos 2 variabIes veamos ahora su extensin a problemas

    con

    3

    o ms variables. En otro lugar Snchez Ca ni n, 1989

    y

    1988b) explica-

    mos detenidamente este problema: aqu slo vamos a hacer una introduccin que

    permita comprender el posible inters del tema.

    Lo primero que tenemos que explicar es la pertinencia de aadir nuevas

    variables

    a

    la situacin bivariada. L os beneficios son mltiples ver Snche z Ca-

    rrin, 1989); aqu slo vamos a elegir aqul que tiene que ver con el hecho de que

    al introducir una nueva variable podemos conocer mejor la relacin existente entre

    otras dos.

    Supongamos que tenemos informacin sobre los Estudios, los Ingresos y el

    Voto e una m uestra de cabezas d e familia. La Tabla 14 muestra la relacin entre

    estas

    3

    variables.

  • 7/23/2019 Analisis de Datos Nominales

    15/20

    Tcnicas de Anlisis de datos nominales

    1 4 7

    Voto

    Es tudio s Ingresos

    PSOE

    Otros Total

    infcr iores alto s

    3

    5

    medios 43 25 68

    bajos

    184

    80 264

    medios

    altos 7 3 10

    medioS 42 30 72

    bajos 37 27 64

    superiores al tos 12 1 4 26

    medios 30 3 1 61

    bajos 12 1 22

    -------------------------------------------------------------------------------------------------- --

    Total 369 223 59 2

    Tabla 14

    Cruce de las v ried des Estudios, Ingresos y Voto

    partir de estos datos, en la Tabla 15 podemos ver que hay un mayor por-

    centaje de votantes dcl PSOE entre los individuos con estudios inferiores que entre

    aqudllos que tienen estudios superiores: un 13.0 ms (es decir, 67.9-54.9 .

    Voto

    Estudios PSOE Otros Total

    inferiores ,679 ,321

    1.000 (337)

    med-superio.549 .451

    1.000 (255)

    ...................................................................

    Total .623 .377 1.000 (592)

    *El valor 337 se obtiene como resultado de sumar 5,68 y 264 en la Tabla

    14

    Tabla 15

    Cruce de estudios y voto

    Parece que una pregunta lgica es preguntarse cul es la razn de esta rela-

    cin entre los Estudios y el Voto. Una explicacin plausible consiste: en atribuir

    el menor voto al PSOE de los individuos con estudios superiores a sus mayores in-

    gresos, y no a los estudios en s mismos. Es decir, si los entrevistados con estu-

    dios superiores votan al PSOE, ello no es debido a razones de tipo cultural-acad-

    mico, sino a motivos econmicos.

    Con el fin de comprobar nuestra suposicin podemos recurrir a los dife-

    rentes mtodos que se utilizan en la investigacin social. El mejor de todos, sicm-

    pre

    y

    cuando sea factible, es realizar un experimento. Bastara dar los mismos in-

    gresos a todos los trabajadores, independientemente de sus estudios, para

    observar

    despus qu ocurre con su voto.

  • 7/23/2019 Analisis de Datos Nominales

    16/20

    148

    Snchez arrin.

    J.J.

    Si este mtodo no es viable podemos recurrir a hacer un pseudo-experiento

    en el que estadsticamente se ajusten los datos con el fin de hacer que todos los

    trabajadores tengan los mismos ingresos, para comprobar posteriormente qu le

    ocurre a la relacin entre Estudios

    y

    Voto.

    n

    par de instrucciones en el programa

    HIP

    (Bogart y Comer, 1986) nos p e ~ i t cealizar este ajuste y obtener la Tabla

    16,

    en la que se muestra la relacin entre Estudios

    y

    Voto cn el supuesto de que no

    hubiera relacin entre Estudios e Ingresos dicho de otra manera, en el supuesto de

    que tanto los trabajadores con estudios inferiores como los que tienen estudios su-

    periores ganasen lo mismo.

    voto

    Estudios

    PSOE

    OUOS Total

    ------- ----------------------------------------------------- ------

    inferiores .664

    . 3 3 6

    1.000 (337)

    med-superio

    5 5

    7

    443

    1.000 (255)

    Total .623

    377

    1.000 (592)

    Tabla 16

    Cruce de las variables Estudios y

    Voto (datos estandarizados)

    Vamos

    a

    comprobar los datos de las Tablas 15 y 16: en los datos estanda-

    rizados el porcentaje

    de

    votantes al PSOE entre los individuos con estudios infe-

    riorcs es inferior (66.4 frente a

    67.9 ).

    Es decir, si las personas con estudios

    inferiores tuvieran los mismos ingresos qu el resto, su voto al

    PSOE

    disminuira.

    En el caso dc aqullos que tienen estudios superiores, el efecto de igualar sus

    ingresos con el de las restantes personas aumentara su voto al

    PSOE

    (55.7 fren-

    te a 54.9 ).

    Puesto que mirar los nmeros de ambas tablas puede ser confuso vamos a

    presentar los mismos resultados en forma grfica. En la Figura 4, que se expone en

    la pgina siguiente, ofrecemos los resultados conjuntos de las Tablas 15 y 16. En

    vertical construimos unos postes en los que se refleja el tanto por ciento de vo-

    tantes al PSOE para cada categora de Estudios, y ello con los datos originales y

    con los estandarizados.

    Tal como muestra esta figura, si todos los individuos tuvieran los mismos

    ingresos

    l

    diferencia de voto al PSOE entre los que tienen estudios inferiores y

    los que tienen estudios superiores se reducira algo (pasara de 13.1 a 10.7 ).

    Pero an con los mismos ingresos, el comportamiento poltico de ambos colecti-

    vos seguira siendo diferente.

    La conclusin

    sociolgica

    que se saca

    de

    estos datos es que

    los

    menores

    Ingresos

    de

    los individuos

    con

    estudios inferiores explican un poquito (la difercn-

    cia entre 13.1 y 10.7) su mayor preferencia por el PSOE. Sin embargo hay algo

    en

    los Estudios, independientemente de que faciliten ganar

    ms

    dinero, que es lo que

    en mayor medida explica esta preferencia poltica.

  • 7/23/2019 Analisis de Datos Nominales

    17/20

    Tcnicas de Anlisis de datos nominales 149

    PSO Estudios

    bruto Std

    8

    7

    68 0

    inferiores

    6

    6 4

    d=13.1% d=10.7%

    6

    54 9 55 7

    50

    mcd-super

    Figura4

    Influencia de los Estudios sobre el Voto.

    (Datos brutos

    y

    estandarizados)

    7. o n c l u s i o n e s

    En las pginas prccedentes hemos mostrado la aplicacin de una scrie dc

    tdcnicas al anlisis de datos nominales. Todas ellas parten de la tabla de contin-

    gencias, a partir de la cual realizan diferentes manipulaciones. En unos casos

    resumen las frecuencias de las tablas utilizando algn estadstico (diferencias de

    porcentajes o razones)

    y

    en otros representan grficamente la informacin conte-

    nida en la tabla ( postes

    y

    anlisis de correspondencias). Tambidn hemos mostra-

    do un procedimiento dc anlisis que sustituye las tablas por la creaci6n de un fi-

    chero de datos agregados.

    Una caracterstica comn de todas las tcnicas que hemos introducido es su

    interds por mostrar las relaciones entre las categoras antes

    que

    las relaciones

    entre

    las

    variables,

    a

    las

    que

    pertenccen esas mismas catcgoras. Tal como hcmos

    intentado explicar, a la hora de analizar variables nominales lo importante son

    las categoras

    y

    no las variables.

  • 7/23/2019 Analisis de Datos Nominales

    18/20

    150

    Snchez

    Carrin.

    3.3.

    BENZECRT, J.P. 1979): Ltanalyse des donns. Dunod. Pars

    BISHOP Y.M.; FIENBERG S.E. HOLLAND, P.W. 1975): Discrete Multiva-

    riate Analysis.

    Mass: MIT Press. Cambridge.

    BOGART R.

    y

    C.

    CONNER C.

    1986):

    CHIP N H :

    TrueBASIC Inc. Hannover.

    DAVIS,

    S.A.

    1976):

    Analyzyng contingency tables

    wit

    linear

    low

    graphs: D .

    Systems. En D.R. Heise ed), Socoiogical MefIiodoIogy. Joseey Bass.

    San

    Francisco.

    DAVIS

    J.A.

    1987):

    Social differences

    in

    cantemporary

    America

    Harcourt Brace Javanovich, Inc. Nueva York.

    GARCIA

    SANTESMASES

    J. 1984): Anlisis f ctori l de correspo nden cias. En

    J.J.

    Snchez

    Carri6n ed), Introduccin a las tcnicas de anlisis

    mul tivariable. Centro

    de

    Investigaciones Sociolgicas CIS). Madrid.

    NORUSIS

    M.J.

    1986): SPSS/PC+. Chicago

    m.: SPSS

    Inc

    SANCHEZ

    CARRION

    J.J.

    ed) 1984):

    Introduccin a las tcnicas de AnB-

    lisis Multivariable aplicadas a las Ciencias Sociales.

    Centro de

    Investigaciones

    S

    ociolgicas CIS). Madrid.

    SANCHEZ

    CARRION

    J.J. 1988a): AnLilisis de datos con SPSS/PC+.

    Alianza Universidad

    Textos

    Madrid.

    SANCHEZ CARRION, J.J. 1988): Extending Rosenberg's ide about conjoint

    efj ects

    Quantity 22: 49-64.

    SANCHEZ CARRION J.J. 1989): Analisis de tablas

    de

    contingencia: el

    uso de los porcaentajes en las Ciencias Sociales. Centro de In-

    ves

    ig

    aciones Socioldgicas en prensa), Madrid.

  • 7/23/2019 Analisis de Datos Nominales

    19/20

    Tdcnicas de Anlisis de datos nominales

    5

    PROGRAMAS INFORMA ZTCOS

    -CHIP (Anlisis de Tablas de Contingencia: sistemas de las Diferencias de Propor-

    ciones).

    Ruth Bogart y Chip Conner

    True BASIC Inc.

    39 S. Main Steet.

    EE.UU.

    -ECTA (Anlisis de Tablas de Contingencia: modelos Log-linear).

    Leo A. Goodman

    Dpt. of Sociology

    University of Chicago

    1126 East 59th Street

    Chicaggo III., 60637

    EE.UU.

    -TRI-DEUX (Anlisis de Correspondencias)

    Ph

    Cibois

    USH

    54 Bd. Raspail

    755006 Paris

    Francia

  • 7/23/2019 Analisis de Datos Nominales

    20/20

    52 Snchez Carrin J.J.

    ~ di..ibr

    ile

    p i , \ i 8 i t ~ .

    dil

    1 ~ 1

    p ises