introducción a la metodología cuantitativa con spss - dr. josé manuel tomás

Upload: iesppcrea

Post on 10-Jul-2015

2.592 views

Category:

Documents


5 download

DESCRIPTION

Introducción a la metodología cuantitativa con SPSS - Dr. José Manuel Tomás

TRANSCRIPT

INTRODUCCIN A LA METODOLOGA CUANTITATIVA CON SPSSDr. Jos Manuel Toms

1

Tema 1.Conceptos previos1.1. La estadstica en el mtodo cientfico La estadstica aplicada encuentra su lugar dentro de la fisioterapia en el momento en que se deban analizar datos empricos para extraer conclusiones vlidas y fiables. En tanto en cuanto estos datos vengan del uso de un mtodo cientfico, y tengan por tanto una calidad que permita incorporarlos a la base de conocimiento. Por tanto, partiremos de que los datos que aprenderemos a analizar de forma aplicada son datos que proceden de una correcta aplicacin del mtodo cientfico, mtodo hipottico-deductivo, por cualquiera de los diseos de investigacin habituales. Repasaremos algunos de los diseos de investigacin ms relevantes, pero antes plantearemos de forma grfica el lugar de la estadstica dentro de la solucin de problemas cientficos (ver figura 1). Figura 1 Lugar de la estadstica en la resolucin de problemas cientficos

Planteamiento del problema

Formulacin de hiptesis

Contrastacin emprica de hiptesis

Sirve para analizar los datos que son siempre necesarios para poner a prueba las hiptesis

Estadstica

Lo que la grfica 1 nos muestra es el momento en que la estadstica, como ciencia que trata de extraer conclusiones de los datos, y por bsico que sea su uso, resulta necesaria para resolver un problema cientfico. Supongamos un ejemplo prctico de la grfica antes planteada. Planteamiento del problema: Un investigador en fisioterapia cree el distinto agrupamiento de grasa corporal en el cuerpo humano puede dar lugar a diferencias en la vejez en desgastes de cadera. Formulacin de hiptesis. Dado el anterior problema la hiptesis que se plantea es que hombres y mujeres (cuya distribucin de grasa corporal es

2

inherentemente diferente), tendrn problemas de desgaste de cadera con distinta probabilidad. Contrastacin (puesta a prueba) emprica de hiptesis. Para ponerlo a prueba es necesario escoger una cierto nmero de hombres y mujeres mayores, suficientemente elevado y representativo de todos los sujetos para los que se quiere conocer la respuesta al problema, y comparar si efectivamente presentan problemas de desgaste de cadera con mayor probabilidad Como efectivamente se trata de contraste emprico, ser necesario medir (obtener datos empricos) de cada persona escogida, hombre o mujer, sobre el desgaste de sus caderas. Es a partir de aqu, en esta fase de contraste, donde la estadstica juega su papel. Primero, si se quiere una muestra suficientemente grande y representativa, es necesario acudir a la estadstica para obtener muestras mediante los mtodos de muestreo apropiados. Se obtendr as una muestra de personas mayores mujeres y otra de varones. Segundo, se tratar de ver si, efectivamente hay diferencias en el desgaste de caderas de ambos grupos (hombres y mujeres). Pero la comparacin no puede ser persona a persona, sino de forma general. Se requiere por tanto resumir cada grupo de alguna manera. Por ejemplo, se puede calcular la proporcin de varones mayores con problemas de cadera y la proporcin de mujeres, lo que implica clculos estadsticos de ordenacin y resumen de datos. O puede calcularse la media de desgaste de cadera en los hombres mayores y la media de desgaste de cadera en mujeres mayores. Tambin es otra forma estadstica de resumir datos. Tercero, dado que las muestras, an siendo representativas, difcilmente pueden ser idnticas a todos los sujetos de inters de donde se han extrado, es necesario considerar que puede haber cierta cantidad de error. Por tanto, parece razonable evaluar la cuanta de ese error antes de asegurar que las diferencias encontradas, si las hay, son relevantes. La estadstica permite cuantificar ese error.

1.2. Tipos de diseos de investigacin Los distintos tipos de diseos de investigacin son los que establecen lmites a la capacidad de generalizacin de las conclusiones y al grado de seguridad que se tiene sobre cmo son las relaciones entre variables, por ejemplo, si las relaciones son de tipo causal o no.

3

Figura 2 Principales tipos de diseos de investigacin

Experimental

No Experimental

Caracterstica: Manipulacin

Caractersticas: Ni manipulacin Ni aleatorizacin

Experimental Aleatorizacin

CuasiExperimental Sin aleatorizacin

Encuesta Observaciona l Cualitativo

Aunque hay diversas clasificaciones de los diseos de investigacin, una de las ms habituales es la que se presenta en la figura 2. La primera divisin se produce entre los diseos experimentales y los no experimentales. La forma de distinguir a ambos es, fundamentalmente, que en los diseos experimentales se produce la manipulacin de una o ms variables para ver cul es su efecto sobre una o varias variables dependientes. La manipulacin implica que es el investigador el que decide la presencia y el grado de la variable manipulada. Veamos ejemplos de diseo experimentales en sentido amplio. Supongamos que un investigador est interesado en saber si determinadas dosis de frmaco a tomar durante un mes a diario puede mejorar las articulaciones de corredores de fondo veteranos (mayores de 40 aos). Para ponerlo a prueba recluta a 200 corredores veteranos voluntarios y los divide al azar en cuatro grupos de 50. A un grupo simplemente no le da frmaco, a otro le da una dosis de 1mg/da de frmaco, a otro 2mg/da, y a otro 3mg/da. Ha manipulado la dosis de frmaco porque ha decidido sobre su presencia o no (en el grupo 1 no hay frmaco, es un grupo control) y el grado de 1 a 3 mg/da. Tras esto mide sus articulaciones en una serie de medidas al mes, para evaluar si el frmaco mejora. Este es un diseo experimental y, dentro de experimental es experimental propiamente dicho, porque se ha manipulado, pero tambin el investigador ha elegido al azar qu sujetos van a qu grupo, lo que aade la aleatorizacin. Supongamos que el mismo investigador tiene el mismo problema, y elige las mismas dosis, pero en lugar de tener la posibilidad de elegir quin forma parte de los cuatro grupos al azar. Solamente tiene la posibilidad de ir a cuatro clubes de atletismo amateur y: en uno medir sin dar dosis de frmaco; a otro club dar la dosis de 1mg/da; etc. As que no coloca a los sujetos al azar (aleatorizacin), sino que los cuatro grupos son naturales. Por tanto se ha producido manipulacin, pero no aleatorizacin, por lo que estamos ante un diseo cuasi-experimental o de grupos naturales.

4

Ahora supongamos que simplemente el investigador tiene la duda de si los atletas veteranos hombres presentan peores articulaciones que las atletas veteranas mujeres. En otras palabras lo que cree el investigador es que el sexo puede afectar a las articulaciones a esas edades. As que el sexo es la variable que afecta (independiente) y la variable afectada las articulaciones (en cualquier medida que se quiera tomar de ellas). Evidentemente no se manipula ni se aleatoriza, ya que el investigador no decide en qu grado se posee la caracterstica sexo, ni quin va a ir (al azar) a un sexo u otro porque no es posible. Ene se caso el estudio es no experimental. La divisin de los no experimentales en de encuesta, observacionales y cualitativos es un poco ms dudosa, pero en general puede decirse que se trata de encuesta cuando se miden muchas variables y tpicamente las contesta el propio sujeto (bien entrevistado, bien dejndole una encuesta para que la rellene). Se habla de observacional cuando se trata de medir a unos pocos sujetos en una serie de conductas por parte de uno o varios observadores externos. Generalmente se calculan frecuencias de las conductas en ciertos periodos de tiempo. Se registran conductas. Y finalmente el cualitativo es el estudio en profundidad de unos pocos sujetos, normalmente considerados prototpicos. 1.3. Conceptos estadsticos bsicos y definicin A partir de una definicin de estadstica iremos desgranando algunos conceptos muy bsicos de esta ciencia. Bsicos, pero totalmente necesarios para entender la forma de aplicarla razonadamente. La estadstica puede definirse de la siguiente forma (Amn, 1986): Ciencia que recoge, ordena y analiza los datos de una muestra de cierta poblacin, y que, a partir de esa muestra valindose del clculo de probabilidades, se encarga de hacer inferencias acerca de la poblacin Esta definicin presenta dos conceptos claves, que son los de poblacin y muestra. Adems presenta otros aspectos importantes, como la descripcin de las funciones de la estadstica o anlisis de datos y la nocin de inferencia. Vayamos primero a los dos conceptos clave: poblacin y muestra. Poblacin sera todo el conjunto de objetos de inters y stos pueden ser finitos o infinitos. Se dice objetos de inters porque, aunque habitualmente la estadstica trabaja con individuos, en ocasiones puede no ser ste el caso. Por ejemplo, la totalidad de objetos a medir pueden ser todas las fbricas de un pas, o las piedras de una determinada cantera. Ejemplos ms comunes son los de querer conocer el nivel socioeducativo de una provincia, y entonces que la poblacin sea todas las personas que viven en un momento dado en esa provincia. Evidentemente la poblacin puede ser finita o infinita, porque la totalidad de objetos de inertes pueden ser los alumnos de una clase (30 personas), lo que es finito, pero tambin pueden ser todos los hombres y esto es infinito (o casi infinito) porque en principio incluye todos los hombres nacidos y los nacidos. A efectos prcticos las poblaciones infinitas y prcticamente infinitas o extremadamente grandes no suponen una diferencia prctica relevante. La muestra, por su parte, supone cualquier subconjunto extrado de la poblacin, por cualquier mtodo. Por ejemplo es cuando el profesor que delante de sus treinta alumnos decide escoger solamente a 10 para realizar 5

una prueba y as conocer el nivel intelectual de sus alumnos. Sea cual sea la forma de escoger a esos 10 alumnos, lo que consigue es siempre una muestra. Puede decidir, por ejemplo, poner 30 nmeros en un bombo y extraer 10 bolas de l, lo que constituye un procedimiento aleatorio. O puede escoger a los 10 que se sientan en las primeras filas, lo que difcilmente nos ofrece una muestra azarosa de individuos. Sea cual sea la forma de obtener a los 10 sujetos el resultado es una muestra de tamao diez, procedente de una poblacin de tamao treinta. As que la estadstica trabaja o bien con la totalidad o con un subconjunto de los datos que se quiere estudiar, o sea, con una poblacin o con una muestra. Lo que hace con ellas es recogerlas (escoger el mejor mtodo para recogerlas), ordenarlas (plantear alguna forma lgica de ordenacin, como menor a mayor) y analizarlas (extraer de ellas el mximo de informacin posible, entenderlas). Por tanto la recogida, ordenacin y anlisis puede hacerse con la poblacin o con la muestra. Estas tres funciones pueden sintetizarse en estudiar la muestra y/o la poblacin. Si stas se estudian por separado, entonces estamos ante un anlisis de datos o una estadstica descriptiva. Tenemos un conjunto de individuos que presentan cierta informacin en algunos aspectos que nosotros queremos estudiar racionalmente. Los recogemos, los ordenamos y los analizamos. Pero si entendemos algo de las leyes de la probabilidad, y su lgica, entonces rpidamente nos daremos cuenta de que una muestra se diferencia de la poblacin en un aspecto fundamental: no incluye todos los objetos de inters. Por lo tanto, no tiene toda la informacin. Es una informacin restringida, no plena. Pongamos un ejemplo: queremos saber la altura y peso que tiene en la actualidad la poblacin espaola nacida entre 1980 y 2000. Queremos informacin sobre una poblacin, todos los nacidos entre 1980 y 2000, en una serie de caractersticas. En este caso, la altura y el peso. Las opciones que tenemos son medir a todos los nacidos entre esos aos en altura y en peso. Evidentemente esto presenta dificultades: primero es muy costoso medir a todos estos individuos, es difcil recogerlos. En algunos casos puede incluso ser muy difcil o imposible. Algunos de los nacidos entre 1980 y 2000 de nacionalidad espaola han muerto. Decidimos, por tanto, escoger solamente una muestra (un subconjunto de toda la poblacin). Esta es una decisin sobre cmo recogerlos. Podemos decidir escoger varias ciudades de la geografa espaola, al azar, y medir la altura y peso de un cierto nmero de ciudadanos de ella, de nacionalidad espaola, y que cumplan con la restriccin de nacimiento entre 1980 y 2000. Finalmente escogemos un total de 1000 personas en un total de 20 ciudades espaolas. Evidentemente, a nadie se le escapa que esos 1000 individuos no tienen porqu ser idnticos al milmetro en altura a la poblacin, o idnticos al miligramo en peso al total de la poblacin. Es decir, representan a la poblacin, pero solo tienen cierta probabilidad de ser iguales que ellos. O incluso, mejor dicho, se parecen a la poblacin, pero solamente con ciertos mrgenes de error. La muestra, por tanto, y este es el fondo del asunto, sirve no para medir a la poblacin, sino para inferir lo que ocurre en la poblacin. Por tanto, cuando la muestra se usa no como un fin en s mismo, sino como un medio para conocer la poblacin, entonces estamos ante anlisis de datos inferencial. Concluyendo, la estadstica, es la ciencia que recoge, ordena y analiza datos. En tanto que los datos vienen de una poblacin o de una muestra, pero se tratan en s mismos, estamos ante la estadstica descriptiva, mientras que si se relaciona lo obtenido 6

en la muestra con lo que se cree que ocurre en la poblacin, estamos ante estadstica inferencial. As si disponemos de una poblacin completa, podemos estar interesados en medir alguna de sus caractersticas. Por ejemplo, si somos profesores en un colegio nuestra poblacin de inters puede ser los alumnos de una clase de segundo de la ESO. Si estamos interesados en conocer su rendimiento en matemticas tendremos que hacerles, como mnimo un examen de matemticas a cada uno de ellos, medirlos. Si queremos resumir el nivel de matemticas de toda la poblacin calcularemos sobre estos datos algn valor resumen. Por ejemplo la proporcin de aprobados o la media de todos los exmenes. Si los alumnos de la clase no son la poblacin de inters, sino una muestra de todos los alumnos de segundo de ESO del colegio (que s son, en este caso la poblacin de inters), la operacin puede repetirse. Se hacen los exmenes de matemticas correspondientes y se obtienen las notas de los alumnos de la clase. Si se quieren resumir, se puede hacer lo mismo que en el caso anterior: por ejemplo la proporcin de aprobados o la media de todos los exmenes. Ahora bien, ambas situaciones, an siendo muy similares no son idnticas desde el punto de vista estadstico: Los valores obtenidos en la poblacin (la media de matemticas y la proporcin de aprobados del primer caso) se llaman parmetros y se representan por letras griegas. En concreto la media es y la proporcin . Los valores obtenidos en la muestra (media y proporcin del segundo caso en que los alumnos son solamente una muestra) se llaman estadsticos y se representan por letras latinas. En concreto la media es y la proporcin p. Los parmetros y los estadsticos tienen caractersticas muy diferentes. La media de rendimiento en matemticas del primer caso, en que los alumnos son todos los de inters (poblacin), y asumiendo que el examen representa de forma fiable y vlida el conocimiento requerido en matemticas, los valores obtenidos representan perfectamente a los alumnos de inters, sin error. Por contra, los estadsticos son valores calculados en una muestra de la poblacin de inters, por lo que no puede considerarse que representen perfectamente a todos los alumnos de inters. Slo lo representarn perfectamente si la muestra coincide exactamente con la poblacin, lo que es altamente improbable. Presentar, por tanto en general un error muestral, en general, tanto mayor cuanto ms distinta sea la muestra de la poblacin (cuanto ms pequea sea la muestra, por ejemplo. En resumen los parmetros no presentan error estadstico, los estadsticos s, y ste es conocido por error muestral. Lo que s comparten es que ambos son valores obtenidos sobre objetos de inters en caractersticas de inters, y para obtener valores hay que medir las caractersticas de inters y a la medicin dedicaremos el siguiente punto. 1.4. Medicin, variables y escalas de medida Medir consiste en atribuir nmeros a las caractersticas que presentan los elementos de una poblacin y/o una muestra. Por su parte las caractersticas a medir se llaman

7

variables, mientras que las distintas modalidades de cada variable dan lugar al rango de valores. Pongamos ejemplos de estos conceptos. Podemos estar interesados en conocer algunas caractersticas de los alumnos de fisioterapia. Veamos algunas de esas diversas caractersticas: [a] Entre las caractersticas a conocer tenemos el sexo de los alumnos. A partir de aqu el sexo es una variable, ya que presenta diversas opciones o modalidades en que los alumnos pueden variar (de ah variable). Esta variable puede presentar dos modalidades: hombre y mujer. Salvo que todos los alumnos sean hombres o mujeres, lo que convertira la variable en una constante (una sola modalidad), medir consistir en este caso en numerar a hombres y mujeres. Por ejemplo: mujer= 1 y hombre= 2. La nica regla seguida en este caso es dar un nmero distinto a cada modalidad, pero salvo eso, se podra haber dado cualquier valor. [b] Otra de las caractersticas que se quieren medir es el grado de motivacin hacia la carrera que presentan. Para ello se les hace la pregunta, desde nada hasta mucho, cul es el grado de motivacin que tienes por cursar esta licenciatura? Y se sita una escala graduada con extremos Nada y Mucho y cinco puntos. Se decide que el que conteste nada ser un 1, y cada anclaje superior a nada ir sumando 1 punto nuevo. As hasta hacer mucho igual a un cinco. Aqu las reglas seguidas son dar a cada anclaje un nmero, pero no se dan de cualquier forma, sino dando un orden de menor (nada) a mayor (hasta mucho). [c] Se quiere saber tambin los conocimientos previos de matemticas. Para ello se realiza un examen con 20 preguntas de matemticas con tres alternativas de respuesta, de las que solamente una es correcta. Se decide dar notas desde 0 (ningn acierto) hasta 10 (todos correctos). Adems hay que realizar alguna frmula para corregir la posibilidad de acertar por simple azar de entre las tres respuestas posibles. Todo esto son ejemplo de caractersticas para medir, que dan lugar en este caso a tres variables, sexo, motivacin y conocimiento de matemticas, con su rango de valores posibles (1-2; 1-5 y 1-20, respectivamente). Las variables pueden clasificarse de acuerdo a diversos criterios, algunos de los cuales son relevantes para poder tratar correctamente los datos posteriormente (ver figura 3).

8

Figura 3 Tipos de variables en funcin de criterios clasificatorios

Stevens (1951, 1957) plante que las variables podan tener distinto estatus mtrico, diferente escala de medida. Y planteo cuatro posibles escalas de medida, que desde entonces se han empleado como una clasificacin de variables que se arrastra incluso en paquetes estadsticos. Las cuatro escalas de medida de Stevens eran: Nominal: Aquellas variables que en verdad no tienen nmero natural, sino que responden a cualidades distintas. Por ejemplo el sexo, no hay siquiera orden. La religin que se confesa, que no puede siquiera ordenarse. El club de ftbol del que se es socio. El tipo de gnero de cine que gusta, etc. Ordinal. Se pueden ordenar las distintas modalidades, pero no es seguro que entre una modalidad y otra haya exactamente la misma distancia real. Por ejemplo si se pregunta cunto te gusta el gobierno? Y las opciones son nada, algo y mucho. No es seguro que para pasar de nada a algo haya la misma distancia que de algo a mucho. Intervalo. Cuando no solo hay ordenamiento sino que los nmero que tienen misma distancia entre ellos mantienen esa distancia en la realidad tambin. Si, por ejemplo medimos altura en centmetros y un sujeto tiene 170cm y otro 190cm, es evidente que se diferencian 20cm entre s. Otros dos sujetos de 140cm y 160cm estn en otro punto d la escala, pero siguen teniendo la misma distancia entre ellos que los dos primeros.

9

Razn. Cuando se cumple las condiciones de la escala de intervalo, pero adems el cero es absoluto (existe en realidad, al menos potencialmente). Por ejemplo el nmero de hijos. Por otro lado, desde un punto de vista ms estadstico, las mayores diferencias entre variables se hacen entre las categricas o cualitativas, que se corresponderan con las nominales y el resto, en que el uso de nmeros es algo ms que una mera etiqueta. An as se divide tambin en semi-cuantitativas, en que solamente cuenta el orden, como por ejemplo las posiciones de llegada de una carrera, y las cuantitativas, en que el nmero tiene significado en s mismo representa relaciones cuantitativas razonablemente claras. Por otra parte, las variables se pueden distinguir por el estatus que tienen en la investigacin, por el papel que juegan. Aunque no son los nicos papeles, ya que otros son posibles, los ms importantes son los de variables independientes y dependientes. Veamos estos tipos con algunos ejemplos. Variable independiente o predictora es la que en una investigacin dada se asume que produce un efecto o es capaz de predecir a otra. Como ejemplo, se puede pensar que la variable peso levantado en un banco de pesas tienen un efecto sobre el desarrollo muscular. En este caso la variable independiente ser el peso levantado. O se puede pensar que el rendimiento en una asignatura puede depender de la motivacin que se tenga a esa asignatura. En este ejemplo la motivacin se asume que tiene un efecto sobre la nota. Las variables dependientes o criterios son las que se ven afectadas en una investigacin dada. Por ejemplo si queremos explicar el peso de una muestra de personas, entonces la variable dependiente es precisamente el peso, y habr que buscar en la investigacin qu variables independientes pueden explicarlo, como la ingesta de caloras o el ejercicio fsico realizado. Evidentemente lo que en una investigacin puede ser variable independiente, en otra puede ser dependiente y viceversa. Por ejemplo, la ingesta de caloras por da puede ser una variable independiente que explique el peso, pero en otros casos podemos querer explicar precisamente esa ingesta de caloras (se transforma en dependiente), en funcin de, por ejemplo el poder adquisitivo. Una vez se han medido a uno o varios individuos en una o varias variables, entonces se obtienen observaciones. Cada observacin siempre ha de quedar representada por un nico nmero, es por tanto una medicin. Las observaciones puede, a su vez, dividirse en dependientes e independientes. Las observaciones son independientes cuando la probabilidad de extraer cualquiera de ellas no altera la probabilidad de extraer otra cualquiera. Mientras, las observaciones dependientes o relacionadas son las que cualquiera de ellas altera la probabilidad de obtener otra observacin cualquiera. Aunque esta es una simplificacin enorme, grosso modo las observaciones independientes se suelen obtener al escoger medidas de una serie de sujetos al azar, sujetos diferentes. Las observaciones dependientes suelen coincidir con medidas repetidas de unos mismos sujetos. Por ejemplo, si se escoge al azar una muestra de 10 estudiantes de la Universitat de Valncia y se les mide su cociente intelectual, porque Alberto haya sacado 101, esto no nos dice nada de qu observacin de CI tendremos de Juan, de aqu la independencia o falta de

10

relacin. Por el contrario si queremos observar a lo largo de su carrera los CI de estos 10 sujetos (medidas repetidas), el CI del primer ao de Alberto s nos dice algo (se relaciona con) el CI del propio Alberto, medida repetida, en el segundo curso, luego a priori ya sabemos algo del CI de ste y la segunda observacin se relaciona, no es independiente de la primera. No obstante dejaremos esta distincin sobre observaciones independientes y dependientes para detallarla ms adelante cuando se trate de cmo situar unas y otras en los paquetes estadsticos y cmo analizarlas diferencialmente. Si las observaciones vienen de muestreos aleatorios, se puede decir que a largo plazo son representativas de la poblacin. Por el contrario si el muestreo no es aleatorio, esto no puede asegurarse. Ahora veremos una introduccin a los diferentes tipos de muestreo. 1.5. Muestreo Las tcnicas de muestreo son algo ms que simples frmulas estadsticas que nos dicen cuntas personas hay que seleccionar de una poblacin dada, si queremos cometer un cierto error mximo al emplear tal o cul estadstico. El empleo de una herramienta de muestreo adecuada es la que nos da confianza para la generalizacin de los resultados, caso de que una muestra sea necesaria para analizar una poblacin, lo que es habitual cuando la totalidad de la poblacin no est disponible. O no resulta razonable en trminos de costes-beneficios medirlos a todos. Efectivamente, el muestreo debe permitirnos analizar crticamente qu tipo de muestra necesitamos, en base a los objetivos de la investigacin y los recursos disponibles. Nos debe responder a tres preguntas: [1] Necesitamos una muestra? [2] Qu tipo de muestreo vamos a realizar? [3] Qu tamao de muestra es necesario para cierto margen de error? (esta ltima pregunta, por su complejidad no la abordaremos, pero se puede encontrar informacin en cualquier manual estndar de muestreo) La poblacin objetivo es el grupo ideal de objetos que sern sometidos al diseo de encuesta. Hablamos de objetos, cuando casi siempre son sujetos, porque en ocasiones podemos estar interesados no en que conteste la encuesta personas individuales, sino casas, grupos de trabajo, compaas, etctera, por lo que no siempre la poblacin sobre la que se desea realizar la investigacin est compuesta de personas. Menos tcnicamente, la poblacin objetivo es el total de personas o cosas que desearamos sobre la que queremos, en principio, analizar sus puntuaciones en una serie de variables. En muchas ocasiones definir la poblacin objetivo parece muy sencillo. Por ejemplo, un psiclogo deportivo puede estar interesado en la relacin entre motivacin y rendimiento en pruebas de atletismo en la actualidad. Tal inters, en principio, parece demandar una poblacin objetivo de todos los estudiantes de matemticas. Pero claro, esto nos lleva a importantes cuestiones: de todas las edades? de todo el mundo? Etctera, lo que puede hacer que la poblacin objetivo definida como ideal sea muy grande, infinita o prcticamente infinita. Otro ejemplo puede aclarar ofrecer otra visin,. Supongamos que los encuestadores han sido contratados por una empresa de 10.000 empleados con el objetivo de saber la satisfaccin laboral de stos, y sus relaciones con ciertas variables organizacionales,

11

entonces la poblacin objetivo es claramente el nmero total de empleados. Sin embargo, si esa misma empresa desea saber la satisfaccin de las empleadas con nios menores de tres aos con la carga de trabajo, entonces solamente las que estn en esa situacin, del total de diez mil empleados, es la poblacin objetivo. En general hay tres situaciones, por tanto, en las que resulta conveniente recoger muestras, frente a medir la poblacin: [1] Cuando la poblacin es tan grande que no es posible, para las posibilidades de la investigacin, medir a todos. [2] Cuando la poblacin es suficientemente uniforme como para que cualquier muestra bien extrada sea una buena representacin de sta. [3] Cuando el proceso de encuesta (la medicin) de los elementos es destructivo. En estos casos se tienen que conseguir muestras, y stas deben escogerse mediante alguno de los tipos de muestreo disponibles, que resulte adecuado para los fines de la investigacin. Los principales tipos de muestreo pueden dividirse, con matizaciones, en dos, probabilstico y no probabilstico. El muestreo probabilstico presenta ciertas caractersticas, que son las que le permiten ser el nico cientficamente vlido. En primer lugar, la probabilidad de seleccin de cada miembro es conocida. Adems, la seleccin de un individuo cualquiera del marco es independiente de la seleccin de cualquier otro individuo. El supuesto bsico de este tipo de muestreo es que la gente que se selecciona como muestra son, a la larga, como cualquier otra muestra extrada por el mismo procedimiento. Los tipos de muestreos probabilsticos ms utilizados son: a) muestreo aleatorio simple; b) muestreo estratificado; y c) muestreo por conglomerados o reas. Por su parte el muestreo no probabilstico sera aquel en que la probabilidad de seleccin de cada elemento del marco no es conocida, ni calculable. Son, en otras palabras, aquellos tipos de muestreo en que la seleccin para la muestra se basa en algo ms que el azar. Existen diversos tipos de muestreo no probabilstico, ya que pueden realizarse recogidas de muestra en base a diferentes consideraciones no aleatorias. Normalmente se distingue entre (Azorn y Snchez-Crespo, 1986): a) muestreo intencional u opintico; b) muestreo sin norma. Finalmente, puede hacerse una ltima distincin que incluira a aquellos tipos de muestreo que s presentan caractersticas probabilsticas, pero no son totalmente probabilsticos. En este sentido, Mosteller y Tukey (1954) hablan de muestreos semiprobabilsticos superior e inferior, o tambin podemos encontrar el muestreo por cuotas. En cualquier caso, todos estos tipos de muestreo, hay que tenerlo claro, no son probabilsticos, y por lo tanto no garantizan, a la larga, la adecuacin de las muestras para representar a la poblacin.

12

Figura 5. Tipos de muestreoMuestreo aleatorio simple PROBABILSTICO Muestreo estratificado Muestreo por conglomerados o reas

Muestreo sistemtico SEMIPROBABILSTICO Semiprobabilstico inferior Semiprobabilstico superior Muestreo intencional u opintico Muestreo sin norma

NO PROBABILSTICO

Pasaremos ahora al detalle de todos estos tipos de muestreo, as como a algunas de sus implicaciones. Muestreo aleatorio simple. Desde un punto de vista general, se considera muestreo aleatorio simple a aquel en que a priori todos los elementos de la poblacin tienen la misma probabilidad de aparicin, sea sta finita o infinita. Una vez se sabe o se estima un determinado tamao muestral, hay que pasar a seleccionar, aleatoriamente, los casos que entrarn a formar parte de la muestra. Para ello es necesario tener un listado de todos los sujetos de la poblacin, para, a partir de stos, obtener la muestra. Muestreo estratificado. En el muestreo estratificado, los investigadores dividen o clasifican a los distintos sujetos a distintas subpoblaciones o estratos, y despus realizan un muestreo aleatorio simple dentro de cada estrato. Cada individuo ha de pertenecer a un estrato, y cada individuo de ese estrato tendr la misma probabilidad de ser escogido para formar parte de la muestra. Para formar los estratos, se utiliza una o varias variables que sean de inters para el investigador, y/o que estn relacionadas con el objetivo del estudio. As, por ejemplo, los investigadores pueden estar interesados en el sexo de los sujetos y, en consecuencia, decidir que hay que extraer la muestra al azar dentro de dos estratos, hombres y mujeres. Otra variable importante para la encuesta puede ser la filiacin poltica, de forma que se decida extraer la muestra al azar de varios estratos, cada uno de ellos siendo un determinado partido u opcin poltica.

13

La estratificacin es el proceso por el que se asigna a cada una de las unidades de la poblacin al subgrupo o estrato que le corresponde. Cada unidad de la poblacin, cada sujeto, solamente puede aparecer en un estrato, por lo que los grupos definidos han de ser mutuamente excluyentes y exhaustivos. Los motivos principales para realizar un muestreo estratificado son: Se necesita obtener estimaciones para subpoblaciones, de forma que no puede dejarse al azar el que alguna de las subpoblaciones quede sin representar o pobremente representada. Dado que el muestreo estratificado siempre baja o mantiene como mnimo igual la variabilidad muestral, se mejora la precisin de los estimadores. Hay que tener en cuenta, no obstante, que la estratificacin solamente aumenta la precisin de los estimadores aplicados a variables que se encuentran relacionados con las variables que sirven para estratificar. En resumen, se estratifica para conseguir mejorar la representatividad de la muestra y la precisin de la estimacin. No obstante, las variables que se utilicen para la estratificacin debieran estar relacionadas con alguna o algunas de las variables objetivo del estudio, pues de lo contrario se pagara el precio de una mayor complejidad sin la consiguiente ganancia en precisin. Una vez se ha estratificado, y por tanto se conoce el nmero de estratos relevantes, queda todava por determinar el nmero de sujetos que se muestrearn en cada uno de los estratos. Este proceso, el de determinar cuntos individuos de cada estrato van a ser seleccionados para formar parte de la muestra (muestra total, que incluye todos los estratos), se conoce como afijacin. Existen diversos tipos de afijacin, en funcin de los intereses del estudio y de la estructura de la muestra. Los tipos de afijacin ms importantes son (Azorn y Snchez-Crespo, 1986): Afijacin uniforme Se toman en todos los estratos el mismo nmero de sujetos, con lo que los estratos quedan igualados. Por supuesto, si este no es el caso en la poblacin, hay que corregir en los estadsticos este cambio de las proporciones por estrato antes de calcular estadsticos para representar a la poblacin. Este tipo de afijacin da la misma importancia a todos los estratos, favoreciendo la precisin de los de menor tamao y perjudicando a los de mayor tamao. Afijacin proporcional. Las n unidades de la muestra se distribuyen proporcionalmente a los tamaos de los estratos en la poblacin. Esto es, si se decide, por ejemplo, que el sexo va a ser la nica variable para estratificar, y en la poblacin objetivo hay un 75% de mujeres y un 25% de hombres, la muestra total que se escoja ha de tener los mismos porcentajes que la poblacin de hombres y mujeres. Afijacin de varianza mnima. La afijacin de varianza mnima o afijacin de Neyman consiste en determinar los valores del tamao de muestra de cada estrato para que la varianza sea mnima. La utilidad de este tipo de afijacin aumenta si hay muchas diferencias en variabilidad entre los diferentes estratos en las variables de inters. En cualquier otro caso, la afijacin proporcional suele dar buenos resultados para su nivel de dificultad. Adems es un tipo de afijacin difcil porque exige el conocimiento de la variabilidad poblacional, o una estimacin de sta, de las variables de inters para cada estrato. 14

Muestreo por conglomerados. En el muestreo estratificado los estratos a tener en cuenta los fijaba el o los investigadores para, posteriormente y dentro de cada estrato, seleccionar al azar las unidades elementales de la muestra que son el objetivo ltimo de la encuesta. Por el contrario, en el muestreo por conglomerados, se definen conglomerados (conjuntos) tales que incluyen a dos o ms (generalmente bastantes ms) unidades muestrales ltimas a seleccionar (personas, por ejemplo), y lo que se escoge al azar es una muestra aleatoria de conglomerados, y dentro de cada conglomerado escogido no se hace muestreo, sino que se seleccionan todas las unidades muestrales objetivo (personas). Por lo tanto, lo que se escoge al azar son los conglomerados, que suelen ser conjuntos formados naturalmente, y no las unidades elementales a estudiar finalmente. Un ejemplo ayuda, sin duda, a entender el muestreo por conglomerados de forma cabal. Supongamos que se quiere estudiar las relaciones entre motivacin, inteligencia y rendimiento acadmico en alumnos de ESO de la provincia de Valencia. Podra pedirse un listado de todos los alumnos de ESO (la poblacin) en este ao y escoger al azar la muestra necesaria, por ejemplo n=1000, lo que sera muestreo aleatorio simple. Se podra decidir que se quiere la misma proporcin de nios que de nias, con lo que se estratificara por sexo, y tras la estratificacin se escogera al azar n1=500 nios y n2=500 nias. Este sera un caso de muestreo estratificado. En los dos casos anteriores se escogen al azar las personas que son, finalmente, objetivo de anlisis de la encuesta. Otra alternativa es obtener un listado de todos los colegios o escuelas que imparten ESO en la provincia de Valencia, y definir cada uno de esos colegios como un conglomerado (de alumnos de ESO, para nuestros intereses), y escoger aleatoriamente de entre todos los conglomerados un cierto nmero, tal que la suma de todos los alumnos de ESO en esos colegios nos ofrezca aproximadamente el tamao de muestra deseado. En la figura 6 aparece un esquema de cmo se producira un muestreo por conglomerados para este ejemplo. El proceso aleatorio es con los conglomerados, mientras que las personas (alumnos de ESO) se escogen todas las disponibles de cada escuela o colegio seleccionado. Ntese, por tanto, que una vez escogidos los colegios al azar, los alumnos de cada uno de ellos se incluyen en la muestra necesariamente. El muestreo es, no obstante probabilstico, porque los conglomerados s se escogieron al azar.

15

Figura 6. Esquema de un muestreo por conglomerados, donde los conglomerados son escuelas o colegios.

SE SELECCIONAN ESCUELAS (LOS CONGLOMERADOS)

Azar

Azar

Azar

Azar

Azar

...Todos Todos Todos Todos Todos

...Otros ejemplos de muestreos por conglomerados, pueden ser escoger al azar: a) Familias, de las que se escogen todos los miembros para obtener una muestra final de padres, madres, hijos, hijas, abuelos y abuelas, etc; b) Casas, en las que miden a todos los que viven en la casa; c) Municipios de un Estado; d) Mesas electorales, de las que se recuentan todas las papeletas, y un largo etctera. En algunos casos, especialmente en estudios geogrficos y sociolgicos es comn que los conglomerados se definan como reas o zonas fsicamente delimitadas de terreno, de forma que muy a menudo se conoce este muestreo como muestreo por reas. El muestreo por conglomerados presenta ventajas e inconvenientes. De entre los primeros se puede destacar: i. ii. Es el indicado cuando no se dispone de un listado exhaustivo de las unidades muestrales, pero s de los conglomerados. Se ahorra por comparacin a los anteriores tipos de muestreo, ya que al concentrarse las unidades fsicamente disminuye las necesidades de desplazamiento, y por ello los costes de tiempo y dinero. En algunos casos puede eliminar sesgos, ya que la supervisin de la encuesta es ms fcil de realizar, y se hacen mnimos la necesidad de equipo de apoyo. 16

iii.

Estas ventajas, por descontado vienen a costa de inconvenientes. De otra forma sera el adecuado siempre. De entre los inconvenientes ms relevantes: i. Falta de independencia de las puntuaciones. Dado que los sujetos se encuentran en unidades formadas naturalmente, como clases, o familias, entra dentro de lo posible que sus puntuaciones no sean estadsticamente independientes, sino que guarden una cierta relacin. Por tanto, cuando se realizan muestreos por conglomerados no hay que asumir la independencia de las puntuaciones, sino que ms bien hay que comprobarla. As, una forma til es contrastar si existe una correlacin intraclase importante, y si esto es as, habra que utilizar tcnicas estadsticas multinivel para analizar los datos de la encuesta. Sesgos debidos a baja representatividad de los conglomerados. Si se escogen pocos conglomerados, estos pueden estar sesgados con respecto a las caractersticas de la poblacin. La solucin pasa por escoger un mayor nmero de conglomerados. Caso de que al escoger un gran nmero de conglomerados se obtuviera una tamao de la muestra excesiva, la solucin entonces es el siguiente tipo de muestreo probabilstico, el muestreo por etapas.

ii.

Evidentemente los muestreos que hemos visto a continuacin (aleatorio simple, estratificado y conglomerados) son los bsicos, pero pueden hacerse ms complejos al combinarlos. A este tipo de muestreos ms complejos, combinacin de varios los llamaremos genricamente polietpicos o por etapas. Por ejemplo, combinando el muestreo aleatorio simple y el de conglomerados, tenemos un polietpico. Primero se realiza un muestreo por conglomerados, en el que de los conglomerados definidos, en este caso colegios o escuelas de la provincia de Valencia, se escogen unos cuantos, al azar, por tanto aleatoriamente. De entre los conglomerados seleccionados, se escogen no todos los alumnos de ESO, sino una muestra aleatoria (simple o de otro tipo, por ejemplo puede complicarse estratificando) del total de alumnos de cada centro. Por lo tanto se produce otra etapa de muestreo aleatorio, otra vez interviene el azar. En este caso el muestreo ha tenido dos etapas, la primera seleccionar al azar conglomerados, la segunda seleccionar al azar alumnos (unidades muestrales elementales). En este caso, por tanto, estamos ante un muestreo bietpico o en dos etapas. Muestreos de ms de dos etapas son posibles. El muestreo por etapas presenta las caractersticas, propiedades, ventajas y desventajas de la combinacin de mtodos de muestreo que supone. Hasta aqu los muestreos probabilsticas. Ahora dedicaremos algo de espacio a los no probabilsticas, pero teniendo en cuenta siempre que estos tipos de muestreo, si bien pueden aportar informacin valiosa en funcin de los intereses del investigador, no garantizan, desde un punto de vista cientfico, la representatividad de la muestra. Esto ltimo solamente se puede garantizar desde cualquiera de los muestreos probabilsticos anteriores. Muestreo sin norma. El muestreo sin norma, tambin en ocasiones llamado muestra de conveniencia es simplemente eso. Se extrae una muestra de la poblacin objetivo simplemente porque es conveniente, fcil, econmica, pero no en base a la aleatoriedad. Ejemplos de este tipo de muestreo es cuando un profesor extrae conclusiones al respecto de los alumnos de educacin infantil, basndose en las pruebas que pasa a sus alumnos

17

de ese ao de educacin infantil. Otro ejemplo es cuando los medios de comunicacin hacen una pregunta en un telediario y recogen una muestra de respuestas, asumiendo que eso es lo que piensan los espaoles, sin caer en la cuenta de qu tipo de espaoles ven esa cadena a esa hora... y un largo etctera. Muestreo intencional u opintico. En el muestreo intencional u opintico los investigadores escogen la muestra de forma no aleatoria, pero no por conveniencia, sino intentando garantizar la representatividad de la muestra. Aunque tampoco es probabilstico, resulta evidente que es ligeramente superior al anterior, al sin norma, ya que el investigador intenta, al menos, hacer la muestra representativa. No obstante, al realizar ese intento sin valerse del azar, sino ms bien de su intencin, traslada con mucha probabilidad todos sus posibles sesgos, conocidos o no, a la muestra obtenida. Muestreo por cuotas (semiprobabilstico inferior). El muestreo por cuotas fue desarrollado por Cressley, Cherington, Roger y Gallup en los aos treinta. Muchos organismos oficiales lo utilizan habitualmente, especialmente en investigacin de mercados y opinin pblica. Lo que caracteriza al muestreo por cuotas es el paso final del muestreo. Se supone que se ha seguido en todo momento un muestreo de tipo probabilsitico, por ejemplo por conglomerados. En la etapa final, y dentro de cada conglomerado, o rea, o zona determinada por los investigadores acta un encuestador. Este encuestador puede tener un nmero fijo de encuestas a hacer, sin importar a qu tipo de personas encuesta, o puede tener un nmero fijo y, adems, estratificado, como por ejemplo coger el mismo nmero de menores de 15 aos que de mayores de 15 aos. Esto es, el encuestador tiene una cierta cuota de encuestas por realizar. Hasta aqu tenemos un muestreo probabilstico, pero en este punto se deja libertad al encuestador para que escoja como desee a las personas que necesita para cumplir su cuota. Muestreo sistemtico. El muestreo sistemtico lo hemos dejado para el final, porque si bien no es ciento por ciento un muestreo probabilstico, s puede serlo en un gran nmero de ocasiones. Si se dan las circunstancias adecuadas, el resultado de un muestreo sistemtico es una muestra probabilsitica, de tanta calidad como el muestreo aleatorio simple y, por tanto, con las garantas cientficas necesarias. El muestreo sistemtico consiste en escoger un inicio aleatorio y despus coger uno de cada equis sujetos de la lista. Por ejemplo, empezar en el sujeto 12 y luego escogerlos de 10 en 10, el 22, 32, 42,.... hasta alcanzar el tamao muestral deseado. Un ejemplo ayudar a entender la mecnica del muestreo sistemtico. Se tiene un listado de N=15000 trabajadores de una gran compaa. Se desea escoger una muestra probabilstica de n=200. Al dividir el tamao de la poblacin entre el tamao de muestra deseado se obtiene una fraccin. En este caso:

En este caso, el resultado de la fraccin indica que para obtener una muestra de n=200 de entre una poblacin de N=15000, resulta necesario coger un trabajador de entre cada 75, por lo que en el muestreo sistemtico escogeremos de 75 en 75 hasta conseguir el total de la muestra. Ahora solamente quedar escoger un inicio aleatorio de entre los sujetos numerados entre 1 y 75. Por ejemplo se puede escoger como punto 18

inicial aleatorio el valor sujeto 23. De esta forma, la muestra sistemtica quedar compuesta por la siguiente secuencia de sujetos, el primero el sujeto que es el nmero 23 en el listado de la poblacin, y luego de 75 en 75 a partir de l, de forma que el siguiente sujeto ser el 23+75= 98, y el tercero el 98+75= 173, y as sucesivamente.. Existe la posibilidad de escoger el muestreo sistemtico an cuando no se conozca el listado de la poblacin o incluso el tamao de sta. Pongamos un ejemplo. Supongamos que un hospital est interesado en realizar una encuesta a los pacientes de sus distintos servicios, para conocer la satisfaccin de stos con el servicio ofrecido, el trato, etctera. No saben en este ao, en el que quieren hacer la encuesta, cul ser la poblacin total, ni sus nombres, pero saben, por ejemplo que el ao anterior dieron servicio a 10000 pacientes. Desean obtener una muestra de tamao n=500. Aunque verdaderamente no saben si tendrn 10000 pacientes, o ms, o menos, ni tampoco pueden hacer un listado de ellos a priori, pueden, no obstante, realizar un muestreo sistemtico. Escogern, en principio, a:

1 de cada 20 pacientes que pasen por el hospital para tratarse, y lo nico que tienen que hacer es ir a unas tablas de nmeros aleatorios para tomar un nmero al azar de entre 1 y 20, pera empezar el proceso. Supongamos que el primer nmero que aparece es el 3, en ese caso el paciente 3 que entre en el hospital ser el primer sujeto de la muestra, y se seguir la siguiente secuencia hasta satisfacer el tamao muestral necesario.

19

Tema 2. Introduccin de datos y manejo bsico del SPSS

2.1. Introduccin de datos Existen dos grandes opciones: a) Importar datos ya introducidos, desde cualquier otro programa; b) Introducir los datos desde el propio programa SPSS, en cualquiera de sus versiones. En la primera, aunque los formatos y los programas desde donde pueden venir los datos son mltiples, es normalmente el caso que el programa externo es una hoja de clculo, habitualmente EXCEL. La segunda de las opciones es la ms habitual, y probablemente la ms recomendable, ya que a partir del propio SPSS es sencilla la importacin a otros programas, si fuera necesario. A) Datos desde EXCEL. Simplemente considerar que antes de importar los datos a SPSS es conveniente guardarlos en formato SYLK, en las opciones de GUARDAR COMO. Despus en SPSS se pide ABRIR con formato SYLK. B) Desde el propio SPSS. Cuando se introducen los datos desde SPPS hay que considerar varias cuestiones. Primero hay que definir las variables. La forma de definirlas, as como la colocacin de etiquetas, longitud de la variable y nmero de decimales son autoexplicativas. No obstante a tener en cuenta que al abrir SPSS hay que definir todas las variables que se vayan a introducir, y esto se hace en la pestaa VISTA DE VARIABLES, donde hay diversos apartados a rellenar, aunque no todos son verdaderamente importantes, y que pasamos a detallar: Nombre: El nombre de la variable es mejor que sea simple y corto, y muy importante, no admite ni espacios ni empezar con nmeros. Tipo: se define si es numrica o alfanumrica. Aunque hay diversas opciones, para simplificar decir que si se quieren utilizar nmeros la opcin es numrica y cadena si se quiere poner valores alfanumricos. Por ejemplo, si a la variable sexo le queremos dar valores 1 y 2 a sus dos categoras, entonces diramos tipo numrico, pero si se quiere escribir hombre y mujer, entonces diramos alfanumrico. En general lo mejor es numrico. Anchura: Determina el nmero de cifras en variables numricas o el nmero de caracteres en alfanumricas. Decimales: Determina el nmero de decimales que aparecern en los valores numricos. Etiquetas: para nombrar la variable con un nombre largo en lugar del acrnimo corto que hemos elegido antes. Adems de esas etiquetas, se puede colocar etiquetas para cada uno de los valores. Valores: Si, por ejemplo hemos decidido que 1 sea hombre y 2 sea mujer, aqu se puede decir 1 es igual a hombre y 2 igual a mujer y

20

tecleando 1 y 2 luego siempre que se realicen anlisis aparecern los nombres, no los nmeros. Perdidos: Caso de que se quiera poner un valor o rango de valores para los valores que se desconocen. Por ejemplo, un alumno contestando a una escala de autoestima se deja una pregunta. Las opciones que tenemos es dejar un hueco en la base de datos, lo que es una buena opcin, o dar un valor que signifique perdido o no contestado. Por ejemplo, se puede poner el valor 999, o cualquier otro. La nica lgica es poner un valor que no sea posible para esa variable. Si la anterior pregunta de autoestima es una variable que va de 1 a 5, no tienen lgica decir que 5 es perdido, pues todos los sujetos que hayan contestado 5 sern de aqu en adelante perdidos. Columnas: es irrelevante para nuestros intereses. Alineacin: es la posicin dentro de la columna. Bien se colocarn los nmeros o etiquetas de valor a la izquierda, a la derecha o centrados. Medida: Sirve para declarar la escala de medida que presenta la variable. Como opciones tienen escala (lo que engloba las escalas de intervalo y razn de Stevens), ordinal y nominal.

Finalmente, aqu como recomendacin es importante considerar que puede, a la larga, resultar recomendable nombrar todas las variables como cuantitativas, an cuando su escala de medida simplemente alcance las escalas nominal u ordinal. Aunque ello implica que el investigador ha de ser cuidadoso en la eleccin de tcnica estadstica, le deja libre para un mayor nmero de anlisis, cuando lo considere necesario. Existen otras razones para esta eleccin, como por ejemplo que aunque se distinga entre nominales y ordinales, el programa, en segn qu opciones (por ejemplo en grficas) no las distingue, y te impide realizar algunas grficas de inters. Por tanto la recomendacin es catalogar todas las variables como de escala, aunque manteniendo nuestro conocimiento sobre su verdadera escala de medida. 2.2. Datos omitidos En la misma introduccin de datos merece la pena colocar los valores que representarn a los datos omitidos, a los datos perdidos (missing data). Una primera opcin de carcter general es no definir ningn valor perdido, simplemente dejar un hueco en la matriz de datos. Implcitamente esto significa definir el valor perdido como perdido del sistema (SYSMISSING), denominacin que usar internamente desde entonces el programa. Esta es una buena solucin por defecto para las variables numricas, pero si la variable se ha definido como cadena no es vlido porque entonces las plantea como una categora ms. Entonces hay que informar al programa explcitamente (mediante la opcin de valores discretos que veremos luego) de que el faltante es un espacio en blanco. La segunda opcin es definir los valores que queremos para los faltantes, que debe ser un valor (o rango de valores, o varios valores) que no sean valores potenciales de la variable (por ejemplo, se puede definir como faltante el 999 para la edad, pero no el 9, porque es posible que tengamos nios de 9 aos ahora o en el futuro en la muestra). La posibilidad de dar distintos valores perdidos puede ser de utilidad caso de que se quiera

21

distinguir entre tipos de perdidos, por ejemplo perdidos que vienen de una persona que apenas contesta nada de la encuesta, y perdidos ocasionales, que pueden ser despistes. 2.3. Fundir archivos Existe la posibilidad de que el investigador tenga ms de un archivo de datos que se corresponda con las mismas variables o con los mismos sujetos de otra muestra, de forma que quiera juntar dos o ms archivos. La unin de dos o ms archivos es un fundido de archivos. Esta operacin de fundir archivos se realiza dentro del men de DATOS As pues al desplegar el men DATOS de SPSS se buscar la opcin de FUNDIR ARCHIVOS. Es aqu donde se pueden agregar bases de datos para conseguir una base nueva de mayores dimensiones. Existen dos formas de hacerlo: aadir variables, que puede realizarse siempre que las dos bases de datos tengan los mismos sujetos (las mismas filas), en el mismo orden; y aadir casos, que sirve para fundir dos archivos con las mismas variables (mismas columnas) y en el mismo orden. Pongamos un ejemplo del primer caso, de fundir archivos para aadir casos (sujetos). Supongamos que tenemos recogidas cuatro variables de una muestra de pacientes. Llamemos a estas variables v1 a v4. Otro colega tiene otra muestra de pacientes en los que ha medido esas mismas cuatro variables v1 a v4, pero en otros pacientes. Si queremos trabajar con los pacientes de ambos para que la muestra tenga mayor fiabilidad (menos error, ms amplitud), deberamos agregar los casos de un investigador a los del otro. Se trata, pues de aadir casos, ya que las variables son las mismas. Supongamos que el archivo nuestro se llama archivo1.sav y el del otro investigador archivo2.sav. Se procede a abrir archivo1.sav, porque es donde se quiere aadir los casos del otro colega. Tras abrirlo se procede a ir al men DATOS y all a FUNDIR ARCHIVOS, para desplegarlo y escoger aadir casos. Se abre una pantalla donde simplemente hay que abrir el archivo2.sav. Inmediatamente reconocer que las variables son las mismas y al aceptar juntar los casos del segundo archivo en el archivo dos concatenndolos al final. An en el caso de que haya algunas variables desemparejadas, el programa lo detecta las coloca en una ventana que se llama variables desemparejadas y solamente une las variables que s estn emparejadas. Ahora vemos un ejemplo de fundir archivos para agregar variables. Supongamos ahora que nuestro archivo1.sav tiene los datos de 10 de nuestros pacientes medidos en las cuatro variables de antes v1 a v4. Supongamos que les han hecho a esos mismos pacientes (en el mismo orden) otra medicin en otras cuatro variables (v5 a v8). Quisiramos tener todas las variables de esos sujetos en el mismo archivo de datos y no en dos archivos separados. El proceso es muy similar al anterior. Se procede a abrir archivo1.sav, porque es donde se quiere aadir las variables del segundo archivo. Tras abrirlo se procede a ir al men DATOS y all a FUNDIR ARCHIVOS, para desplegarlo y escoger aadir variables. Se abre una pantalla donde simplemente hay que abrir el archivo2.sav. Tras esto el programa abre una ventana donde seala las variables que va a poner en el archivo 1, que sern todas las del archivo 1, esto es de v1 a v4, alas que seala con una asterisco (*) y las del archivo 2, v5 a v8, que las seala con el signo de suma (+). Si en este momento quisiramos no aadir (o eliminar) alguna de las variables podramos simplemente colocarlas en variables excluidas. Tras 22

aceptar se estar en el archivo 1, pero con todas las variables, desde la v1 a la v8. Aunque lo recomendable es tener el mismo nmero de sujetos en ambos archivos, puede ser que tengamos solamente 9 de los 10 en el segundo archivo. En ese caso el sujeto que falta debe ser el ltimo y el resto estar ordenado de la misma forma en los dos archivos, tal y como se ha dicho antes. Al fundir los archivos el sujeto 10, al que le faltan las variables v5 a v8 del segundo archivo, se aadir pero con valores faltantes de sistema en esas variables. 2.4. Seleccin de datos Por otro lado dentro del men datos esta la opcin SELECCIONAR CASOS de tremenda utilidad. Este es un proceso para filtrar los datos, esto es, para analizar solamente una parte de los datos, en funcin de diversos criterios. Los criterios ms importantes son: Satisfacer una condicin, como por ejemplo, seleccionar solamente los casos con gnero = 1 (mujeres u hombres). Muestra aleatoria de casos, que puede usarse como una opcin previa a realizar validaciones cruzadas (replicacin de los resultados), y puede realizarse de forma exacta o aproximada. Rango de los casos, como seleccionar los casos 50 a 100 de una muestra, por ejemplo. Los datos no seleccionados de cualquiera de estas formas, pueden filtrarse, con lo que quedan disponibles en la misma base de datos, y pueden volverse a utilizar cuando se elimine la seleccin, o pueden eliminarse, con lo que la base de datos original quedar reducida solamente a los datos s seleccionados. Veamos algunos ejemplos de ejecucin de estos tres tipos de seleccin. Para realizar estos templos utilizaremos la base de datos ejemplo1.sav. En esta base de datos se han recogido los datos de una muestra de 317 adolescentes. Se han medido una serie de variables que tienen que ver bsicamente con la autoestima que tienen. En concreto se han medido la autoestima mediante 10 preguntas directas que ide Rosenberg para medir la autoestima global, y que se supone que son indicadores de esta alta o baja autoestima. Si se punta bajo en estas preguntas es que se tiene una autoestima baja, si se punta alto que se tiene alta. Estas 10 preguntas (variables) se llaman ros1 a ros10 en la base de datos. Es importante entender que estas 10 preguntas no sirven ms que para, evaluadas conjuntamente, medir mediante un valor para cada sujeto la autoestima global. Esta variable de autoestima global se llama en la base autoestima escala de Rosenberg. Adems la base de datos presenta otra medida de la autoestima, esta vez la propuesta por Marsh. Es otra variable en la base de datos, con ese nombre, autoestima Marsh. Y finalmente la ltima variable es l sexo de lo adolescentes, pudiendo ser hombres (valor 1) o mujeres (valor 2). Los primero que ejemplificaremos ser una seleccin en funcin de una condicin. Por ejemplo, se puede estar interesado en seleccionar solamente a los varones, para estudiar su autoestima por separado. Para ello se acude a DATOS, dentro de este menLa autoestima es la percepcin, positiva o negativa, que tiene un sujeto de s mismo. Se puede medir en global (si se tiene autoestima positiva o negativa en general), pero tambin se puede medir en facetas: autoestima de apariencia fsica (percepcin positiva o negativa que se tiene sobre el propio cuerpo y aspecto fsico); la autoestima social (percepcin positiva o negativa que se tiene sobre la capacidad de relacionarse socialmente con otros), etc.

23

en seleccionar casos. Hacer clic en si se satisface la condicin, y esto abre una ventana donde se pondr sexo=1. La secuencia en forma fotogrfica puede verse en la figura 7 a continuacin. Esto generar una seleccin en los datos, de forma que solamente los hombres (sexo=1) estarn activos, y sern los nicos que se analicen, hasta que se elimine la seleccin. Hay que fijarse en que est seleccionada la opcin filtrar. Si se hubiera elegido la opcin eliminar todas las mujeres desapareceran para siempre de la base de datos.Figura 7. Procedimiento de seleccin de casos si se cumple una condicin.

Evidentemente en la misma figura 7 se puede ver que las opciones que da son mltiples. Por ejemplo se pueden seleccionar solamente los que tengan menos de 10 en autoestima de la escala de Rosenberg, para lo que simplemente hay que poner en la

24

ltima ventana la orden que la variable autoestima de Rosenberg sea = 3 como puede verse en la figura 8. O si fuera seleccionar a cualquiera que sea mujer o bien tenga en la pregunta 10, 3 o ms, se har mediante un o (or). Con esta orden sexo = 2 or ros10 >= 3.Figura 8. Procedimiento de seleccin de casos si se cumple una condicin.

El segundo ejemplo es el de seleccin aleatoria de casos. En ocasiones se puede estar interesado en sacar una submuestra del total de sujetos, por los motivos que sean, por ejemplo porque se desea explorar las relaciones entre variables en esa submuestra, para ver por donde van las tendencias, y despus poner a prueba las conclusiones del primer estudio en el resto de sujetos. O cualesquiera otras razones. Nosotros haremos un ejemplo en el que vamos a seleccionar 100 adolescentes del total de 317 de la base de datos y lo haremos aleatoriamente, al azar. Se va a DATOS y en ese men a seleccionar

25

casos. En la ventana que se abre se hace clic (se selecciona) muestra aleatoria de casos, y se abre el botn muestra, justo debajo. All se dir que se quiere exactamente 100 casos de los primeros 317 (el total). Esto seleccionar solamente a 100 sujetos. Como siempre los sujetos no seleccionados se pueden filtrar (no estn disponibles solamente mientras dure la seleccin) o eliminar (desaparecern de la base). Todo este proceso puede verse en imagen en la figura 9.Figura 9. Procedimiento de seleccin de casos: muestra aleatoria de casos.

Puede verse tambin, en la figura 9 que otra opcin es escoger un determinado porcentaje de los casos. De esta manera se puede obtener, por ejemplo una muestra que sea el 25% del total, o cualquier otro porcentaje. De la misma manera se puede seleccionar una banda de casos, por ejemplo los adolescentes en la lista desde el 50 hasta el 99, lo que nos dar una muestra (no aleatoria) de 50 sujetos. Para ello, como siempre se va a DATOS y en ese men a seleccionar casos. En la ventana que se abre se hace clic (se selecciona) basndose en el rango de tiempo o de los casos, y se abre el botn rango, justo debajo. All se dir que se quiere de la observacin 50 a la 99.

26

Un ltimo apunte sobre seleccionar. Puede verse en las figura 7 a 9 que hay una opcin para volver la seleccin hacia atrs, esto es para deseleccionar. Solamente hay que hacer clic en seleccionar todos los casos. Evidentemente esto solamente funciona si no se han eliminado previamente los casos de la base de datos. 2.5. Transformaciones de variables La mayor parte de las transformaciones de variables que vamos a ver se realizan en el men TRANSFORMAR, y dentro de ste en la opcin CALCULAR. Las posibilidades de transformaciones de variables mediante el comando calcular son enormes, por lo que simplemente veremos algunos de los ms utilizados. TRANSFORMACIN POR AGREGACIN A menudo, una de las transformaciones habituales en una masa de datos es el agregar de alguna forma los valores de distintas variables, para obtener un compuesto de ciertas caractersticas. Un ejemplo concreto de este agregado es cuando se generan las puntuaciones en una escala (o en una dimensin de una escala) mediante suma de los items que la componen. Este agregado puede hacerse mediante dos formas similares, pero con importantes diferencias: la suma y el promedio. Suma: para sumar hay que ir al men TRANSFORMAR, dentro de l Hay que utilizar la funcin SUM. Evidentemente suma las puntuaciones de los items (o variables) definidas en la funcin. Hay que considerar que si para un caso cualquiera alguna de las variables integradas en la funcin suma tuviera un dato faltante (omitido), el resultado global para ese caso de la suma es faltante. Por lo tanto, es un comando que arrastra los faltantes. Si, por ejemplo, un sujeto ha dejado solamente por contestar un tem de los 20 que forman la escala, su puntuacin suma es un faltante. Esto no ocurre para la funcin promedio (media) que detallamos a continuacin.CALCULAR.

Promedio: para promediar hay que ir al men TRANSFORMAR, dentro de l CALCULAR. Hay que utilizar la funcin MEAN. Evidentemente promedia las puntuaciones de los items (o variables) definidas en la funcin. No se arrastran los faltantes, con que una de las variables tenga dato vlido ya se obtiene puntuacin para el caso. Por lo tanto, ofrece mayor tamao muestral (da menos faltantes), pero hay que tener cuidado porque puede dar una puntuacin global muy inestable, basada solamente en unos pocos items, incluso un solo tem. Por lo dems ambas funciones, suma y promedio, son transformacin lineal una de la otra, por lo que la mayora de estadsticos (por ejemplo, la correlacin y cualquier tcnica basada en ella) no se ve afectado. Estos procedimientos pueden usarse de forma combinada para crear indicadores complejos donde se recoja informacin compacta p.e. de la manifestacin de una conducta, de su intensidad y duracin, etc.. as como indicadores de salud. La figura 10 muestra un caso de suma de las preguntas 1 a 3 de la escala de autoestima de Rosenberg. La variable, as generada, que se acumular en la base de datos en la ltima columna es AU, el nombre que le hemos dado. A esta variable se le pueden poner los nombres y etiquetas que se quiera, as como sus propiedades, tal y como aprendimos con anterioridad. Destacar que en vez de usar las funcin SUM (de

27

entre las funciones), simplemente se ha sustituido por el signo de suma colocado entre los sumandos (las variables a sumar, ros1, ros2 y ros3).

28

Figura 10. Transformacin de variables: agregacin por suma.

INVERSIN DE ESCALA Cuando se suman o promedian variables es importante concentrarse muy bien en qu se suma. Un error comn es sumar items que van en distintas direcciones, por ejemplo un tem positivo y uno negativo (invertido) de autoestima. El resultado es un desastre. Por lo tanto hay que darle la vuelta a los items invertidos previo a la suma o el promedio. Esto es posible hacerlo tambin en el men transformar. Vamos a ver dos de los ejemplos ms comunes: un tem en formato tipo Likert con valor mnimo cero; el mismo formato tipo Likert, pero empezando en uno. Valor mnimo es 0: En ese caso para realizar una inversin de escala hay que realizar el siguiente clculo en TRANSFORMAR y calcular: La variable nueva (la invertida) es igual al valor mximo de la variable menos la propia variable. Valor mnimo es 1: En ese caso para realizar una inversin de escala hay que realizar el siguiente clculo en TRANSFORMAR y calcular: La variable nueva (la invertida) es igual al valor mximo ms uno de la variable menos la propia variable. No obstante, otro procedimiento ms laborioso, pero ms simple de entender, para realizar esto mismo es la recodificacin de variables, que veremos posteriormente.Los items o preguntas tipo Likert son las ms comunes en ciencias sociales y consisten en diversos anclajes ordenados de respuesta, como por ejempllo: Totalmente en desacuerdo Desacuerdo Deacuerdo Totalmente deacuerdo.

29

TRANSFORMACIONES DE POTENCIA Al margen de los dos tipos de transformaciones vistos anteriormente, por agregacin e inversin de escala, existen un cierto grupo de transformaciones habituales en anlisis de datos. Una muy habitual es transformar en rangos, transformacin usada en muchas pruebas de estadstica no paramtrica, y que veremos entonces. Siempre es posible realizar transformaciones basadas en la teora, como al agregar las notas de lengua y de matemticas dar el doble de valor a una de ellas, por motivos tericos, pero son tan numerosas, y cambiantes, que se resuelven segn el caso. Finalmente una categora de transformaciones bastante estandarizada, y empleada a menudo, es la transformacin de potencia, presentada claramente, entre otros por Tukey (1977), y cuyo procedimiento, simple e intuitivo se conoce como la escalera de potencias de Tukey. El objetivo de estas transformaciones consiste bsicamente en corregir asimetras en las variables, aunque normalmente tambin pueden mejorar problemas de heterogeneidad de varianza (varianzas muy desproporcionadas entre grupos), etc. La idea es sencilla: se pueden transformar las variables elevando a una potencia, positiva o negativa, cuanto mayor sea la potencia a la que se elevan las puntuaciones originales, mayor el efecto sobre la escala original. Las potencias positivas corrigen la asimetra negativa, las potencias negativas corrigen la asimetra positiva. En el cuadro: Potencia Transformacin RC= raz cuadrada Para ver qu transformacin aplicar, y tambin para evaluar el efecto que sobre la variable ha tenido la transformacin es adecuado estudiar descriptivamente la variable en todo momento: calcular estadsticos descriptivos, realizar histogramas, y muy especialmente en este caso realizar Q-Q plots (grfico de cuantil-cuantil). Todo esto se ver posteriormente. Ejemplo prctico: la variable autoestima que es asimtrica negativa puede funcionar mejor realizando una transformacin de potencia positiva (cuadrado, cubo..), para corregir esta asimetra. Para ello lo nico que hay que hacer es entrar en TRANSFORMAR y de ah en calcular. Como realizar el cuadrado simplemente es multiplicar los valores por ellos mismos pondremos el nombre de la nueva variable que queremos generar, en nuestro caso AUcuadrado, en variable de destino y al otro lado del igual en expresin numrica autoesti*autoesti. El asterisco es el signo de producto en SPSS y puede verse en la figura 10b entre los botones de la calculadora que SPSS proporciona. 3 X3 2 X2 1 X .5 RCX 0 -.5 ... -2 1/X2

logX 1/RCX

30

Figura 10b. Transformacin de variables: cuadrado de una variable.

De la misma forma expuesta se pueden realizar tantas transformaciones matemticas permiten los smbolos de la calculadora y las funciones matemticas listadas al lado derecho de ella. 2.6. Segmentado de archivos La segmentacin divide el archivo de datos en distintos grupos para el anlisis, basndose en los valores de una o ms variables de agrupacin (hasta un mximo de ocho variables de agrupacin). Para realizar la segmentacin hay que ir a DATOS y dar a SEGMENTAR ARCHIVOS. All hay dos opciones: comparar los grupos que definamos por la variable (o variables agrupadoras) y organizar los resultados por grupos. Ambas dan los resultados para los grupos definidos, solamente cambia el formato. En el primer caso todos los resultados por grupos en una misma tabla, en el otro separados en tantas tablas como grupos se definan. Como ejemplo sencillo supongamos que en la base de autoestima de los adolescentes que venimos utilizando (ejemplo 1.sav) queremos que nos de los resultados de todos los anlisis que queramos hacer, pero no para el total de adolescentes, sino para los hombres y las mujeres por separado. Si segmentamos el archivo en funcin de la variable sexo, nos dar los resultados siempre para hombres y mujeres por separado. La imagen de las opciones a utilizar se puede ver en la figura 11. Se trata de entrar en DATOS, y de all seleccionar segmentar archivo. Se abrir la ventana de la figura, y se seleccionar organizar los resultados por grupos, y se pondr sexo en grupos basados en. A destacar, finalmente dos cosas. La primera es que, por defecto del programa (lo que el programa selecciona como programado) es ordenar el archivo en funcin de la variable de agrupacin (sexo). Si no se quiere esta agrupacin, entonces hay que decirle al programa que el archivo ya est ordenado. Adems, hay que darse cuenta que para eliminar el segmentado de archivos, y volver a 31

operar con el archivo total hay que entrar otra vez en la ventana de la figura 11 y dar clic a analizar todos los casos.Figura 11. Segmentado de archivos.

2.7. Recodificacin de variables Se puede recodificar en las mismas variables o en variables diferentes. El consejo conservador es recodificar en distintas variables siempre, con lo que la variable original queda intacta, y previene fallos. Ms tarde siempre se puede eliminar la variable original (no transformada), si es que la remodificacin ha resultado satisfactoria. As pues veremos algn ejemplo de estas recodificaciones. RECODIFICACIN EN LAS MISMAS VARIABLES Reasigna los valores existentes en la variable, puede ser cambiando valor a valor (valor antiguo cambia a valor nuevo) o por agrupacin en un valor de un rango de valores previos (desde tal a tal valor antiguo ser el valor x nuevo). Se realiza en el men TRANSFORMAR, y dentro de l en Recodificar... en las mismas variables. Veamos un ejemplo. La escala de autoestima de Rosenberg puede oscilar entre un mnimo de 10 puntos y un mximo de 40. El 10 sera una persona con la ms baja autoestima y el 40 una persona con la ms alta autoestima. Supongamos tambin que se sabe que los valores entre 10 y 20 representan baja autoestima, que los valores entre 21 y 29 representan autoestima media y que los valores 30 a 40 representan autoestima alta. Entonces la remodificacin que quisiramos hacer para poder emplear solamente las categoras alta, media y baja, en lugar de todos los valores numricos consistira en recodificar la variable autoestima de Rosenberg, autoesti en la base, en una nueva variable (por ejemplo AUrecodificada) con los siguientes parmetros:

32

Variable original: Autoestima 10-20 12-29 30-40

Variable recodificada: AUrecodificada 1= autoestima baja 2= autoestima media 3= autoestima alta

Para poder realizar esta rectificacin hay que ir a TRANSFORMAR, y luego a recodificar en las mismas variables. Se abre la ventana primera que aparece en la figura 12, que perite decir cul es la variable original, en nuestro caso autoesti. Al ponerla en la ventana central permite poner nombre a la variable de resultado (nuestra nueva variable, AUrecodificada), as como aadir una etiqueta, lo que nosotros no hemos hecho. Tras esto se hace clic en cambiar y pasa a la ventana central. En esta situacin se hace clic a valores antiguos y nuevos, y aparece la ventana de debajo de la figura 12. All ya solamente se trata de en rango poner que de 10 a 20 es un 1, y dar al botn cambiar, que 21 a 29 es un 2 en valor nuevo y dar a cambiar, y finalmente decir que el rango 30 a 40 es el valor nuevo 3, y dar a cambiar. Toda esta secuencia puede verse en la figura 12 a continuacin.Figura 12. Recodificacin en distinta variable.

Puede verse tambin en esta figura 12 que hay otras opciones, no solo el rango para cambiar valores, por ejemplo la opcin valor, que permite cambios de valor individual 33

en valor individual, o un rango hasta el mayor valor. O dar un valor a todos los dems valores que no se hayan recodificado ya en las ordenes anteriores. En fin, todas las opciones resultan autoexplicativas. RECODIFICACIN EN DISTINTAS VARIABLES Todo igual que la opcin anterior pero guarda los valores nuevos en una nueva variable que generamos al efecto. No obstante, y como ltimo ejemplo, haremos una remodificacin por inversin de escala. Supongamos que la primera pregunta de la escala de Rosenberg (ros1 en la base) es sta a continuacin: Me siento una persona con pocos mritos Resulta evidente que esta pregunta es un indicador de autoestima, pero es un indicador invertido, ya que cuanto ms de acuerdo est con la afirmacin, menos (y no ms) autoestima tengo. As que si las puntuaciones normalmente son: Totalmente en desacuerdo= valor 1 Desacuerdo= valor 2 De acuerdo= valor 3 Totalmente de acuerdo= valor 4 En realidad, para medir autoestima en positivo (no en negativo) querramos que los valores fueran: Totalmente en desacuerdo= valor 4 Desacuerdo= valor 3 De acuerdo= valor 2 Totalmente de acuerdo= valor 1 Es decir, que los valores de ros1 cambiaran as: el 4 se debe hacer 1, el 3 un 2, el 2 un tres y el 1 un 4. Invertir la escala, darle la vuelta. Vamos a ejemplificar cmo hacer esto en la misma variable mediante la recodificacin oportuna. Se entra en TRANSFORMAR, y luego en recodificar en las mismas variables. All se abre la ventana correspondiente, y que puede verse en la parte superior de la figura 13, donde ponemos la variable a recodificar en la ventana de variables numricas y entonces damos al botn valores antiguos y nuevos, con lo que se abre la ventana que se ve debajo. All simplemente es ir poniendo los valores antiguos en qu valor nuevo queremos que se transforme y hacerlo para los cuatro valores, siempre acordndonos de dar a aadir tras cada cambio de valor. Tras esto aceptar y tendremos en la base datos la variable ros1, pero midiendo en el sentido bsico de la autoestima.

34

Figura 13. Recodificacin en misma variable.

35

Tema 3. Tcnicas estadsticas descriptivas bsicas: representaciones grficas y estadsticos descriptivosYa hemos visto en el primer tema de conceptos previos, la diferencia entre estadstica descriptiva e inferencial. Lo pasos ms bsicos para describir una masa de datos, con sus variables en formato numrico, y su conjunto de sujetos, consiste en estudiar el comportamiento estadstico de cada variable. Este comportamiento estadstico de cada variable nos sirve para resumir ordenadamente lo que sucede para todos los sujetos seleccionados en cada una de las variables, de forma separada. Nos servira, por ejemplo, para poder contestar a estas preguntas en una muestra cualquiera de la poblacin, en que se hayan recogido las variables a las que se hace referencia, evidentemente: Cuntos casados hay en mi muestra? Cul es la media de hijos que tienen los casados? Y la media de hijos que tienen los que no estn casados? Cunto dinero gastan, como mximo, los solteros en un fin de semana? Al tener un hijo los cambios que declaran tener los padres varones son evaluados ms positiva o ms negativa?

En otras palabras, la estadstica descriptiva nos permitir contestar de diversas maneras sintticas a qu pasa con un cierto nmero de variables en una cierta muestra de sujetos u objetos. Generalmente la descripcin de esos sujetos u objetos que son una muestra o una poblacin de inters se basa en una de estas dos posibilidades: la representacin grfica o el clculo numrico de estadsticos. Estos dos tipos son los que vamos a ver a continuacin. Pero antes de pasar a realizar mediante el programa SPSS todos los anlisis estadsticos pertinentes, hay que repasar, siquiera brevemente, cules son las caractersticas estadsticas que queremos describir. 3.1. Caractersticas estadsticas descriptivas a estudiar Aunque resulte obvio, la primera de las caractersticas estadsticas es conocer para cada variable cuntos casos hay. Saber cuntos sujetos estn en cada modalidad de la variable. Por lo tanto la primera caracterstica relevante de una variable es estudiar sus frecuencias. Por ejemplo, supongamos que se tiene medida la variable sexo en una muestra de 300 trabajadores textiles. Calcular la frecuencia consiste en decir cuntos son varones y cuntos mujeres. Si, por ejemplo, hay 100 varones, entonces la frecuencia de la modalidad varn es 100. Si en otra muestra de 300 trabajadores de una mina hay 295 varones, entonces se puede decir que en la muestra de trabajadores textiles hay menos varones que en la de mineros. Existe las frecuencias absolutas, que no es ms que el conteo en cada modalidad, y las frecuencias relativas, que no es ms que el conteo pero en tantos por uno. En el ejemplo anterior tenemos 100 varones (frecuencia 36

absoluta) que son una frecuencia relativa de 100 de 300 (100/300= 0,333) en frecuencia relativa o 3 de cada 10 o en porcentajes, que todos entendemos ms claramente 30%. Evidentemente cuando las muestras son de tamaos desiguales es de mucho ms inters la frecuencia relativa porque es mucho ms fcilmente entendible y comparable. Evidentemente cualquier variable, sea cualitativa o cuantitativa permite el clculo de las frecuencias relativas y de las absolutas. Por ejemplo, si hubisemos recogido el nmero de hijos de 2000 parejas de la Comunitat Valenciana casadas 10 o ms aos, podramos contar y decir que 400 de ellas no tienen hijos, que 615 tienen 1 hijo, y as sucesivamente. Evidentemente podramos pasarlo a proporciones (frecuencias relativas) y si a partir de estas ltimas multiplicramos por 100 tendramos las proporciones pasadas a porcentajes. Adems de las frecuencias, que son la forma estadstica ms simple e inmediata, existen una cierta cantidad de estadsticos que responden a un conjunto de caractersticas estadsticas de inters. Los tipos de estadsticos que intentan contestar a estas preguntas son estadsticos que tratan de atrapar los siguientes conceptos estadsticos: 1. Posicin 2. Tendencia central 3. Variabilidad 4. Asimetra 5. Curtosis No podemos repasar estos conceptos en profundidad, para lo que existe abundancia de manuales de estadstica. De hecho cualquiera de ellos, por introductorio que sea, los recoge en mayor o menor profundidad. Lo que si podemos es enumerar los principales, las lgicas que tienen y despus pasar a calcularlos en SPSS e interpretarlos de manera aplicada con datos concretos. MEDIDAS DE POSICIN Aquellas que nos revelan el lugar que ocupa una puntuacin con respecto a un grupo tomado como marco de referencia. Son por tanto estadsticos que nos indican posicin relativa. Relativa a un grupo. En genrico se los llama CUANTILES Los cuantiles ms relevantes son los CENTILES o PERCENTILES (Ck). Son los 99 valores de la variable que dividen la distribucin en 100 secciones, cada una conteniendo la centsima parte de las observaciones. Calculables en variables como mnimo semi-cuantitativas. Por ejemplo: C20= puntuacin que deja por debajo suyo al 20% C98= puntuacin que deja por debajo suyo al 98% Evidentemente son relativos, lo que resulta fcil de entender con un ejemplo. Supongamos que somos profesores universitarios y en una muestra de 180 estudiantes (todos los de nuestros grupos) medimos las notas que sacan a final de curso en la asignatura (supongamos estadstica), y que las notas van de 0 a 10. Lo primero que haremos ser sacar la frecuencia de cada una de las notas, podemos sacar luego esta 37

frecuencia en relativo, mediante las frecuencias relativas. Supongamos que para la nota cinco obtenemos estos resultados: Frecuencia absoluta= 10 Frecuencia relativa= 0,055 o en porcentajes 5,5%.

Con esos datos lo nico que resulta evidente es que pocos alumnos han obtenido la nota cinco. Pero sin saber ms informacin, sabemos poco de lo que quiere decir 5 en esa muestra. Sin embargo, si calculamos qu centil es el valor 5 y resulta ser el centil 20 (C20= 5), entonces sabemos que el 20% tiene notas inferiores a 5, y por tanto que el porcentaje de suspensos es del 20% en esos grupos de ese ao. Por relativo en los centiles se entiende que esa nota de cinco puede ser, y de hecho a menudo lo es, otro centil en otra muestra. Si la nota cinco en los grupos del ao anterior era el centil 60 (C60= 5), era que los grupos del ao anterior eran mucho peores en la asignatura, ya que por debajo del cinco, del aprobado, estaban el 60%. MEDIDAS DE TENDENCIA CENTRAL Tipo especial de medidas de posicin, que pretenden representar a, o informar sobre: Cul es aproximadamente la puntuacin (valor de la variable) que ocupa posiciones centrales Cul es la puntuacin tpica, el valor tpico Qu magnitud es la ms genrica Cul es la magnitud que representa mejor a TODO el conjunto de datos

Las medidas de tendencia central sirven, especialmente, para: a) Situar a un grupo mediante un valor genrico, que lo represente. As, por ejemplo si en una asignatura valorada de 0 a 10 decimos que tenemos un grupo cuya nota media ha sido 7.9, sabemos que se trata de un buen grupo, aunque evidentemente algunos sujetos tendrn puntuaciones suspensas. b) Valorar la posicin de un sujeto particular frente al grupo. Por ejemplo si de un sujeto del grupo anterior decimos que tiene un 4, sabemos que est suspendido, pero tambin que esta lejos del grupo entendido como un genrico, esta lejos de lo que un sujeto cualquiera del grupo puede alcanzar. Sin embargo otro sujeto con un 4 de nota en un grupo de nota media 5, est igualmente suspenso, pero ms cercano a su grupo. c) Comparar grupos entre s. Si queremos comparar los grupos de alumnos anteriores y suponiendo que uno tiene 180 sujetos, y el otro 220, mejor que comparar todas las puntuaciones, se calculan las dos medias que hemos visto antes, 7.5 y 5 y es fcil resumir diciendo que el primer grupo est sustancialmente por encima en esa asignatura que el segundo. Que el primer grupo es mejor que el segundo. Las ms clsicas son: Media aritmtica. La suma de todas las puntuaciones partida por el nmero de puntuaciones. La ms utilizada, sin lugar a duda, y en la

38

que se basan la mayor parte de tcnicas estadsticas. Solamente es utilizable en medidas que sean, al menos semi-cuantitativas1. Mediana. Es la puntuacin que deja por debajo de s el 50% de las observaciones. La puntuacin que est en el medio de la ordenacin de las puntuaciones. Divide a la distribucin en 50% y 50%. Solamente tiene sentido si las variables pueden, al menos, ordenarse de menor a mayor. Por tanto, exige medida, al menos, semicuantitativa. Moda. La puntuacin ms frecuente. Puede ser til en el caso de variables cualitativas (nominales).

En general la media es la medida de tendencia central de preferencia. Solamente en pocos casos no es recomendable. En concreto uno es del mximo inters, cuando se presentan datos atpicos. Estos datos afectan fuertemente a la media ya que se basa en todas las observaciones. Supongamos como ejemplo sencillo que tenemos una clase de 10 alumnos de estadstica bsica. Las notas que sacan son las siguientes una vez ordenadas: Notas: 0, 5, 6, 7, 7, 7, 8, 8, 8, 8 Como puede verse fcilmente en este caso, al ser pocas las puntuaciones, el grupo se caracteriza por notas notables, ya que hay 4 valores 8 y tres valores 7 (7 de 10 sujetos, el 70% son notables). Luego hay dos valores cercanos al notable, se van solamente uno y dos puntos respectivamente, mientras que solamente un alumno presenta una nota claramente mala, un cero. La tendencia central podramos concluir al observar estos datos que es de alumnos notables. Sin embargo al calcular la media obtenemos 6.4, ligeramente por debajo del notable, no representando adecuadamente al total de los datos. Esto en estadstica se conoce como falta de resistencia de la media. La media no es un estadstico resistente a los datos extremos. En estos casos particulares de datos atpicos y/o extremos, suele ser aconsejable obtener una medida de tendencia central que sea resistente, como la mediana, o incluso mejor, robusta, como la media recortada, que se obtiene, como veremos fcilmente ms adelante en SPSS. Definir bien el concepto de robustez queda fuera del propsito del texto. Baste decir que un estadstico es robusto si es resistente y adems funciona bien para un rango amplio de distribuciones (de masas de datos). Bien, en este caso la mediana de los datos es 7 (puede verse que ocupa el valor central, dejando 50% por debajo y 50% por encima. Y la media recortada consiste, en breve, en eliminar un cierto porcentaje de las observaciones de los extremos y recalcular la media en los datos que quedan. Por ejemplo, en nuestro caso podramos quitar al 10% de los sujetos superiores y al 10% de los inferiores. El 10% de 10 sujetos es 1 sujeto. Grficamente puede verse en las puntuaciones, sera quitar el cero (mnimo) y el ltimo 8 (mximo): Notas: 0 /, 5, 6, 7, 7, 7, 8, 8, 8, / 8 La media recortada al 10% sera 7, el resultado de calcular la media de los 8 alumnos centrales. En este caso tanto la mediana como la media recortada al 10% nos ofrecen una mejor representacin del grupo, de su tendencia central.

1

Si se es estricto solo en las cuantitativas

39

MEDIDAS DE VARIABILIDAD Resulta evidente que para representar de forma adecuada a un grupo no solamente basta con la tendencia central. Los sujetos dentro de un grupo pueden ser muy diferentes entre s, o muy parecidos. Esto es, un grupo puede tener mucha o poca variabilidad dentro de sus sujetos. Consideremos los alumnos de tres grupos, a los que se mide en nota de una asignatura tras un examen de 0 a 10. Los tres grupos tienen 10 sujetos. Sus notas a continuacin: Notas: 0, 0, 0, 0, 0, 10, 10, 10, 10, 10 Notas: 0, 0, 0, 5, 5, 5, 5, 10, 10, 10 Notas: 5, 5, 5, 5, 5, 5, 5, 5, 5, 5 Pues bien, los tres grupos presentan la misma media (y mediana y media recortada al 5%). Sin embargo es evidente que los tres grupos son muy diferentes entre s. En lo que difieren es en la variabilidad. Mayor en el primero, luego en el segundo y ninguna variabilidad en el tercero. De hecho la variabilidad del tercer grupo es nula, convirtiendo a la variable nota en ese grupo en una constante. Ni tan siquiera es una variable. As pues la variabilidad: Mide el grado de similitud (homogeneidad) entre un conjunto de puntuaciones Es independiente de la tendencia central El estadstico de variabilidad ms utilizado es la varianza y su raz cuadrada, la desviacin. Esta ultima transformacin tiene mucho uso por ser interpretable en las mismas unidades, en la misma escala de la variable. Oscilan de cero a infinito. Valores mayores indican mayores variabilidades. El clculo en SPSS es sencillo.

MEDIDAS DE ASIMETRA Y CURTOSIS Ligeramente menos importantes para un curso introductorio, pero no por ello irrelevantes son los conceptos de asimetra y el de curtosis que veremos posteriormente. La asimetra sera el grado en que los datos se reparten equilibradamente en torno a la tendencia central. Existe: asimetra positiva