estadística (resumen 1º parcial)

21
Botella Capítulo 1: Conceptos generales La estadística actual no sólo es un conjunto de técnicas para resumir y transmitir información cuantitativa, sino que sirve también, y fundamentalmente, para hacer inferencias, generalizaciones y extrapolaciones de un conjunto relativamente pequeño de datos a un conjunto mayor. Estas dos grandes funciones de la estadística (descripción y realización de inferencias) reflejan la propia historia del desarrollo de esta ciencia. La estadística actual es el producto del encuentro de dos ramas distintas del saber, la antigua estadística y el cálculo de probabilidades. Lo que posibilitó el cálculo de probabilidades fue el desarrollo de métodos para extrapolar las conclusiones a entidades no observadas. Es decir, proporcionó el instrumento adecuado para poder hacer inferencias acerca de grandes cantidades de observaciones potenciales a partir de unas pocas observaciones reales. Clásicamente la estadística se ha dividido en dos partes, la estadística descriptiva y la estadística inferencial. Para hacer un estudio inferencial primero hay que hacer un estudio descriptivo de los datos. Es decir, un estudio descriptivo se agota en la descripción, mientras que uno inferencial comienza por la descripción y luego aborda la inferencia. Mientras que la estadística descriptiva puede abordarse sin conocimientos técnicos previos, aparte del álgebra elemental, para el estudio de la estadística inferencial hay que adquirir nociones básicas de probabilidad. Estadística : Ciencia que se ocupa de la ordenación y análisis de datos procedentes de muestras, y de la realización de inferencias acerca de las poblaciones de las que éstas proceden. Distinción entre estadística teórica y estadística aplicada: La primera se dedica al estudio de los métodos formalmente válidos para la realización de inferencias. La segunda se dedica a la aplicación de esos métodos y modelos de actuación a campos reales. Cualquier trabajo en el que se aplica la estadística se refiere a un conjunto de entidades, conocido con el nombre de población. Se llama población estadística al conjunto de todos los elementos que cumplen una o varias características o propiedades. A los elementos que componen una población se les denomina entidades estadísticas o individuos (pueden ser personas, animales, objetos o números). Dependiendo del número de elementos que la compongan, la población puede ser finita o infinita. La mayor parte de las poblaciones con las que solemos trabajar son finitas, pero tan numerosas que a la hora de hacer inferencias acerca de ellas se pueden considerar infinitas a efectos prácticos. Cuando un investigador aborda un trabajo empírico debe definir claramente la población sobre la cual se interesa. La población ha de ser el marco o conjunto de referencia sobre el cual van a recaer las conclusiones e interpretaciones, y éstas no pueden exceder ese marco. El hecho de que las poblaciones sean muy numerosas, suele hacer inaccesible la descripción de propiedades. De ahí que se trabaje fundamentalmente con muestras. Una muestra es un subconjunto de los elementos de una población.

Upload: chopito

Post on 08-Nov-2015

11 views

Category:

Documents


2 download

DESCRIPTION

Estadística

TRANSCRIPT

Botella

Captulo 1: Conceptos generales

La estadstica actual no slo es un conjunto de tcnicas para resumir y transmitir informacin cuantitativa, sino que sirve tambin, y fundamentalmente, para hacer inferencias, generalizaciones y extrapolaciones de un conjunto relativamente pequeo de datos a un conjunto mayor. Estas dos grandes funciones de la estadstica (descripcin y realizacin de inferencias) reflejan la propia historia del desarrollo de esta ciencia. La estadstica actual es el producto del encuentro de dos ramas distintas del saber, la antigua estadstica y el clculo de probabilidades. Lo que posibilit el clculo de probabilidades fue el desarrollo de mtodos para extrapolar las conclusiones a entidades no observadas. Es decir, proporcion el instrumento adecuado para poder hacer inferencias acerca de grandes cantidades de observaciones potenciales a partir de unas pocas observaciones reales.

Clsicamente la estadstica se ha dividido en dos partes, la estadstica descriptiva y la estadstica inferencial. Para hacer un estudio inferencial primero hay que hacer un estudio descriptivo de los datos. Es decir, un estudio descriptivo se agota en la descripcin, mientras que uno inferencial comienza por la descripcin y luego aborda la inferencia. Mientras que la estadstica descriptiva puede abordarse sin conocimientos tcnicos previos, aparte del lgebra elemental, para el estudio de la estadstica inferencial hay que adquirir nociones bsicas de probabilidad.

Estadstica: Ciencia que se ocupa de la ordenacin y anlisis de datos procedentes de muestras, y de la realizacin de inferencias acerca de las poblaciones de las que stas proceden.

Distincin entre estadstica terica y estadstica aplicada: La primera se dedica al estudio de los mtodos formalmente vlidos para la realizacin de inferencias. La segunda se dedica a la aplicacin de esos mtodos y modelos de actuacin a campos reales. Cualquier trabajo en el que se aplica la estadstica se refiere a un conjunto de entidades, conocido con el nombre de poblacin.

Se llama poblacin estadstica al conjunto de todos los elementos que cumplen una o varias caractersticas o propiedades.A los elementos que componen una poblacin se les denomina entidades estadsticas o individuos (pueden ser personas, animales, objetos o nmeros). Dependiendo del nmero de elementos que la compongan, la poblacin puede ser finita o infinita. La mayor parte de las poblaciones con las que solemos trabajar son finitas, pero tan numerosas que a la hora de hacer inferencias acerca de ellas se pueden considerar infinitas a efectos prcticos. Cuando un investigador aborda un trabajo emprico debe definir claramente la poblacin sobre la cual se interesa. La poblacin ha de ser el marco o conjunto de referencia sobre el cual van a recaer las conclusiones e interpretaciones, y stas no pueden exceder ese marco. El hecho de que las poblaciones sean muy numerosas, suele hacer inaccesible la descripcin de propiedades. De ah que se trabaje fundamentalmente con muestras.

Una muestra es un subconjunto de los elementos de una poblacin.La muestra nos va a ofrecer una serie de datos que podemos ordenar, simplificar y describir. Pero el objetivo fundamental es el poder describir la poblacin de partida mediante lo que podamos encontrar en la muestra. Y para poder extraer esas conclusiones lo ms importante es que las muestras de observaciones sean representativas. Existe todo un campo de la estadstica, llamado muestreo, dedicado a estudiar los procedimientos de extraccin de muestras encaminados a maximizar la representatividad de las mismas. Por ello un primer objetivo de la estadstica descriptiva consiste en conseguir resmenes de los datos en ndices compactos y de gran calidad informativa. Las poblaciones pueden caracterizarse a partir de unas constantes denominadas parmetros. Como normalmente los parmetros son desconocidos, una de las tareas de la estadstica es la de hacer conjeturas lo ms acertada posibles acerca de esas cantidades. Para ello se utilizan cantidades anlogas obtenidas en las muestras, que se denominan estadsticos.Un parmetro es una propiedad descriptiva de una poblacin.Un estadstico es una propiedad descriptiva de una muestra.Los parmetros y estadsticos no slo son medias, sino que pueden ser otros tipos de cantidades, como porcentajes. En la prctica no ser preciso estar repitiendo el experimento; bastar con obtener una nica muestra y, por lo tanto, a partir de ella tratar de estimar el parmetro. Para ello es fundamental que la muestra sea representativa de la poblacin y que el estadstico calculado rena la informacin necesaria y suficiente para que a partir de l podamos decir algo acerca de la verdadera eficacia del tratamiento. Desde un punto de vista simblico, conviene indicar, para distinguirlos, que los parmetros se suelen representar por letras griegas mientras que los estadsticos se suelen simbolizar por letras latinas. En la primera fase de una investigacin se obtienen los estadsticos, y en la segunda se utilizan los valores obtenidos para hacer inferencias acerca de los parmetros.

Cuando estudiamos las entidades que conforman una poblacin nos interesamos por algunas de las propiedades de sus elementos, y esas propiedades adoptan distintas variedades.Una caracterstica es una propiedad o cualidad de un individuo.

Una modalidad es cada una de las maneras como se presenta una caracterstica.

MEDICINLa estadstica no realiza sus funciones directamente sobre las modalidades observadas, sino que stas se representan por nmeros, y la estadstica realiza sus funciones sobre esos nmeros.Se llama medicin al proceso de atribuir nmeros a las caractersticas.La asignacin de nmeros a las caractersticas se hace siguiendo unas reglas; del estudio de los modelos mediante los cuales conocemos las reglas para una correcta atribucin de los nmeros se ocupa la Teora de la medida. El objetivo de la medicin de una caracterstica es conectar un sistema relacional emprico y un sistema relacional numrico, de tal forma que las relaciones entre las entidades se reflejen en las relaciones entre los nmeros que los simbolizan. Slo si se consigue este objetivo ocurrir que de las relaciones entre los nmeros podrn hacerse inferencias vlidas acerca de las relaciones entre las entidades. La medicin estudia las condiciones de construccin de representaciones numricas, y los modelos desarrollados para la medicin se llaman escalas.

Se utiliza una clase por cada una de las modalidades que adopta la caracterstica que se est estudiando. Las clases son mutuamente exclusivas y exhaustivas, es decir, cada observacin es incluida en una y slo una clase. Se tiene un conjunto de objetos cuya caracterstica nos interesa para su estudio. sta adopta un nmero k de modalidades distintas; representamos por m a la modalidad del objeto. CUALITATIVAS O NOMINALES: Asignamos nmeros a los objetos en funcin de la modalidad que presentan en esa caracterstica; representamos por n al nmero asignado al objeto. Al tipo de medicin que cumple con estas condiciones se la llama escalamiento cualitativo o nominal, y al conjunto de clases que las integran se le llama escala nominal. Podran tambin utilizarse otros smbolos, como letras, palabras, etc, puesto que los nmeros asignados no se van a utilizar como tales, sino como simples cdigos de identificacin. La clave de estas escalas de medida es que slo informan de la igualdad o desigualdad de los individuos en una caracterstica, pero no de posibles ordenaciones de las mismas (no puede decirse que las mujeres tengan mas sexo que los hombres). Un concepto ntimamente ligado al concepto de escala, y que de hecho las caracteriza, es el de transformacin admisible, que hace referencia al problema de la unidad de medida. De un conjunto de valores correctamente atribuidos se puede pasar a otro tambin correctamente atribuido mediante una transformacin admisible.ORDINALES: Supongamos que contamos de nuevo con un conjunto de objetos que difieren en una caracterstica que cada uno posee en una cierta cantidad. De nuevo el proceso de medicin debe consistir en la aplicacin de una regla de asignacin de nmeros a las diferentes cantidades, pero ahora de tal forma que los nmeros asignados a los objetos reflejen esos distintos grados en los que se presenta la caracterstica. A aquellas escalas de medida que cumplen estas caractersticas se les llama escalas ordinales. Dos objetos con el mismo nmero asignado podemos concluir que presentan la misma modalidad (en este caso tienen la misma cantidad de esa propiedad), pero de dos objetos a los que se han asignado nmeros diferentes no slo puede decirse que son diferentes en esa caracterstica, sino que pueden establecerse relaciones del tipo mayor que o menor que; puede decirse cul de esos objetos presenta una mayor magnitud de esa caracterstica. Dicho de otro modo, los objetos pueden ordenarse, y de ah es que proviene el nombre de la escala. Tambin este tipo de escala permite hacer transformaciones admisibles (que cumplan la condicin de ser transformaciones crecientes). El problema de este tipo de escala es que, aunque nos informa de que un objeto presenta la caracterstica en cuestin en una mayor magnitud que otro objeto, no nos dice en cuanto ms.INTERVALARES: Para poder extraer conclusiones ms precisas, como la de en cunto ms presenta la caracterstica un objeto sobre otro, hay que contar con una unidad de medida, y para ello hay que pasar al siguiente tipo de escala, escala de intervalo. Esta unidad de medida y su origen son arbitrarios. La principal limitacin de este tipo de escalas es que, aunque cuenta con una unidad de medida, no tiene un cero absoluto. Es decir, el nmero cero no representa realmente la ausencia de esa caracterstica (ejemplo: la temperatura).DE RAZN: En la siguiente escala, escala de razn, cumple la funcin de preservar el significado del valor cero, de forma que siempre represente la ausencia de esa caracterstica. La consecuencia fundamental de la presencia de un origen absoluto, y no arbitrario, es que a dems de poder extraer conclusiones acerca de la igualdad o desigualdad de diferencias, tambin puede hablarse de desigualdad o igualdad de razones.

TipoInformacin deducibleTransformacin admisibleEjemplos

NominalRelaciones igual que o distinto queAplicaciones inyectivasSexo, estado civil, diagnstico clnico

OrdinalRelaciones mayor que o igual queFunciones crecientesDureza, nivel socioeconmico

IntervaloIgualdad o desigualdad de diferenciasA + b x (b > 0)Temp., calendario, inteligencia

RaznIgualdad o desigualdad de razonesB x (b > 0)Longitud, peso

VARIABLES: CLASIFICACIN Y NOTACINEn el proceso de medicin se asignan nmeros a los objetos segn unas reglas, y el conjunto de valores numricos atribuidos a las modalidades de una caracterstica constituyen lo que llamamos variable estadstica.Una variable es una representacin numrica de una caracterstica.Hay veces que una caracterstica tiene una nica modalidad, en ese caso todas las entidades estudiadas adoptaran el mismo valor numrico, y decimos que se trata de una constante.Las variables pueden clasificarse de varias formas. Las variables cuantitativas (sean de intervalo o razn) pueden a su vez clasificarse en variables discretas y variables continuas, en funcin del nmero de valores asumibles por ellas. Una variable discreta es aquella que adopta valores aislados. Por tanto, fijados dos consecutivos, no puede tomar ninguno intermedio (no hay que confundirlos con los valores enteros, ya que nada tiene que ver una cosa con la otra). En las variables continuas entre dos valores cualesquiera, por prximos que sean, siempre pueden encontrarse valores intermedios. Las variables estadsticas se simbolizan por letras maysculas latinas, y generalmente con un subndice, para distinguirlas de las constantes. El subndice sirve para indicar, adems, la posicin que ocupa un determinado valor en el conjunto de valores de la variable (nada tiene que ver con la magnitud del valor al que se est refiriendo, sino simplemente al lugar que dicho valor ocupa dentro de una serie de valores). El smbolo Xi se dice que es el trmino general y representa a cualquier valor de la serie.--------------------------------------------------------------------------------------------------------------------------------------------

Captulo 2: Organizacin y representacin de datosLuego de obtener un conjunto de valores tomados en una o varias variables hay que empezar por inspeccionar los datos. Cuando la cantidad de nmeros recolectados es demasiado grande, se hace difcil hacer una inspeccin directa que sea realmente comprensiva. Por eso el primer paso suele consistir en reorganizar los datos. Un instrumento para conseguir esa ordenacin es la denominada distribucin de frecuencias, y a partir de ella es frecuente tambin construir representaciones grficas.

DISTRIBUCIN DE FRECUENCIASLa distribucin de frecuencias es un instrumento diseado para cumplir tres funciones: a) proporcionar una reorganizacin y ordenacin racional de los datos recogidos, b) ofrecer la informacin necesaria para hacer representaciones grficas y c) facilitar los clculos necesarios para obtener los estadsticos muestrales. Representaremos por X a la variable con la que trabajamos, y que puede adoptar distintos valores (X1, X2, X3) pero cada uno de ellos puede aparecer repetido ms de una vez en los n elementos que componen la muestra.Se llama frecuencia absoluta de un valor Xp, y se simboliza por np, al nmero de veces que se repite el valor Xi en la muestra.Se llama frecuencia relativa de un valor xp y se simboliza por pp al cociente entre la frecuencia absoluta de ese valor y el tamao de la muestra.Se llama frecuencia absoluta acumulada de un valor xp y se simboliza por px al cociente entre su frecuencia absoluta acumulada y el tamao de la muestra.A veces las frecuencias relativas, ya sean simples o acumuladas, se expresan en trminos porcentuales. En esos casos suelen representarse con maysculas; par obtenerlas basta con multiplicar por 100 las frecuencias relativas. Construimos la distribucin de frecuencias siguiendo los pasos descritos:a) Se ponen los valores que toma la variable en la primera columna de abajo hacia arriba.

b) Para la columna de frecuencias absolutas contamos el nmero de veces que se repite cada valor. La suma de ellos es igual al tamao de la muestra. c) Para la columna de frecuencias relativas dividimos cada frecuencia absoluta por n. Las suma de ellas debe dar 1 (o en algunos casos dar por ejemplo 0,98 o 1,02, que tambin se acepta como correcto).d) Para obtener las frecuencias absolutas acumuladas sumamos para cada valor su frecuencia absoluta ms la absoluta acumulada del valor anterior. Su suma debe dar tambin n.

e) Para las frecuencias relativas acumuladas dividimos cada frecuencia absoluta acumulada por n. La frecuencia relativa de valor mayor debe ser igual a 1.

En muestras en donde se tienen muchsimos valores que toma la variable, suele aplicarse lo que se denomina una agrupacin en intervalos, y que consiste en formar grupos de valores consecutivos, llamados intervalos, y poner uno de estos grupos en cada fila, en lugar de poner cada valor individual por separado. A continuacin se calculan las frecuencias absolutas conjuntas de los valores incluidos en el intervalo haciendo lo mismo despus con las frecuencias relativas, las absolutas acumuladas y las relativas acumuladas. En las distribuciones de frecuencias con valores agrupados en intervalos aparecen algunos elementos nuevos:Se llama intervalo a cada uno de los grupos de valores que ocupan una fila en una determinada distribucin de frecuencias.Se llaman lmites aparentes o informados de un intervalo a los valores mayor y menor que puede adoptar la variable dentro de ese intervalo mencionado.Se llaman lmites exactos de un intervalo a los valores mximo y mnimo que estn incluidos en dicho intervalo.Se llama punto medio de un intervalo a la suma de sus lmites exactos partido por dos.Se llama amplitud de un intervalo a la diferencia entre su lmite exacto superior y su lmite exacto inferior. Se representa por la letra I. Hay tres reglas y algunas directrices para hacer una distribucin de frecuencias: a) El intervalo superior debe incluir al mayor valor observado.

b) El intervalo inferior debe incluir al menor valor observado.

c) Cada intervalo debe incluir el mismo nmero de valores. Pero al ser muchas las agrupaciones diferentes que se pueden realizar, para decidir entre ellas hay que tener presentes algunas directrices basadas en dos guas principales: a) dado que el objetivo de una distribucin es conseguir una ordenacin manejable que ayude a comprender el significado de los datos, no es conveniente que el nmero de intervalos sea demasiado grande, b) el nmero apropiado de intervalos debe ser tal que, simultneamente, con ella se consiga una agrupacin operativa y que cumpla los objetivos para los que ha sido diseada la distribucin, pero sin distorsionar los valores con el error de agrupamiento.Hay casos en los que hacer un nmero de intervalos siguiente las directrices que acabamos de plantear distorsionarn demasiado los datos. Para evitar eso se utilizan lo que se denomina intervalos abiertos, en los cuales no se pone lmite inferior del intervalo que incluye los valores menores, el lmite superior del intervalo que incluye los valores mayores, o no se pone ninguno de estos dos. Y otro de los problemas que aparecen es el llamado problema de los bordes (se soluciona incluyendo en la distribucin de frecuencias ciertos valores).REPRESENTACIONES GRFICASA partir de las distribuciones de frecuencias se pueden construir representaciones grficas. La funcin de stas es dar informaciones globales mediante un solo golpe de vista.a) Diagrama de rectngulos: Se utiliza para variables nominales u ordinales. Para hacer un diagrama de rectngulos se colocan en el eje de abscisas las modalidades (o los nmeros que las representan), y en el eje de ordenadas las frecuencias (puede ser absolutas o relativas simples o acumuladas). Sobre cada modalidad se levanta un rectngulo cuya altura es la frecuencia correspondiente.

b) Perfil octogonal: Se utiliza mucho en informes psicopedaggicos o de rendimiento. Se colocan puntos en cada posicin y se unen mediante lneas rectas.

c) Pictograma: Son representaciones en forma de crculos en los que stos son divididos en secciones cuya superficie es proporcional a la frecuencia de la modalidad correspondiente.

d) Diagrama de barras: Se utiliza en variables cuantitativas discretas. En el eje de abscisas se colocan los distintos valores de la variable y en el eje de ordenadas las frecuencias. Sobre cada valor de la variable se traza una lnea o barra perpendicular cuya altura debe ser igual a la frecuencia.

e) Histograma: Se utiliza para variables cuantitativas continuas con datos agrupados en intervalos. En el eje de abscisas se colocan los lmites exactos de los intervalos, y en el eje de ordenadas las frecuencias. Sobre cada intervalo se levanta un rectngulo cuya altura sea igual a la frecuencia correspondiente.

f) Polgono de frecuencias: Para variables discretas, el polgono es la figura que resulta de unir los extremos superiores de las que hubieran sido las barras.

g) Diagrama de barras acumuladas: Se utiliza en variables discretas. En el eje de abscisas se colocan los valores de la variable y en el de ordenadas las frecuencias acumuladas, absolutas o relativas. Sobre cada valor se traza una perpendicular cuya longitud sea igual a la frecuencia acumulada. Desde el extremo superior de cada una de estas barras se traza una lnea horizontal que se une con la barra situada a su derecha.

h) Polgono de frecuencias acumuladas: Se utiliza en variables continuas. El eje de abscisas se construye igual que en los histogramas, pero en el de ordenadas se incluyen las frecuencias acumuladas, ya sean absolutas o relativas. Sobre cada lmite se levanta una perpendicular cuya longitud sea idntica a la frecuencia acumulada y se une con los extremos superiores de dichas perpendiculares.

i) Otros dibujos: Muchas veces se utilizan otras representaciones, en las que se incluyen los objetos de los que se estn haciendo recuentos de frecuencias, a algn smbolo que los identifique de forma muy expresiva.

Convenciones sobre las representaciones grficas: Aunque las representaciones grficas de los datos incluidos de una distribucin de frecuencias pueden realizarse de muy distintas formas, vamos a establecer algunas convenciones para unificar criterios, as como a sugerir algunas directrices:

a) En el eje de abscisas colocamos los valores de la variable, y en el de ordenadas las frecuencias (cualquiera)

b) La interseccin de los dos ejes es el origen (de izquierda a derecha y de arriba abajo, in crescendo)

c) Si el valor mnimo del deje de abscisas fuera excesivamente grande, se debe cortar la lnea

d) Conviene incluir en cada grfico toda la informacin posible para evitar ambigedades y facilitar su interpretacin a otras personas o a nosotros mismos al cabo de un tiempo

e) Cuando en un mismo grfico se representan dos o ms grupos simultneamente, y stos son de tamaos considerablemente distintos, se deben utilizar frecuencias relativasTendenciosidad en las representaciones grficas: Las representaciones grficas pueden utlizarse de manera tendenciosa para inducir impresiones engaosas e interesadas. Un primer mtodo consiste en recortar el eje de ordenadas, eliminando los menores valores de frecuencias con la excusa de que no hay ninguna observacin que los adopte. Esto tiene como consecuencia que pequeas diferencias parezcan mayores. Un segundo tipo de distorsin se produce cuando se utilizan figuras representativas de aquello que se est midiendo. Estas figuras suelen hacerse proporcionando sus alturas a las frecuencias correspondientes. Sin embargo, el incremento de la altura conlleva tambin un incremento en la anchura. Como consecuencia de ello, la superficie de las figuras no guarda relacin con las frecuencias observadas, dando la impresin de que la diferencia es mayor que la real.PROPIEDADESLos conjuntos de datos de variables cuantitativas obtenidos en muestras, y que hemos organizado mediante distribuciones de frecuencias, tienen algunas caractersticas. Son cuatro:a) Tendencia central: Se refiere a la magnitud general de las observaciones hechas. Esta magnitud general puede cuantificarse mediante unos ndices conocidos como ndices de tendencia central o promedios y que reciben ese nombre porque pretenden ser sntesis de los valores de la variable.

b) Variabilidad: Esta propiedad se refiere al grado de concentracin de las observaciones en torno al promedio. Una distribucin ser homognea o poco variable si los datos difieren poco entre si, y por tanto, se agolpan en trono a su promedio. Ser heterognea o muy variable si los datos se dispersan mucho con respecto al promedio. Esta propiedad es independiente de la anterior, es decir, dos grupos que tengan distinta variabilidad pueden tener tendencias centrales muy distintas o similares.

c) Asimetra o sesgo: Esta propiedad se refiere, por tanto, al grado en que los datos tienden a concentrarse en los valores centrales, en los valores inferiores al promedio, o en los valores superiores a ste. Existe simetra perfecta cuando en caso de doblar la representacin grfica por una vertical trazada sobre la media, las dos mitades se superponen perfectamente.

d) Curtosis: Se refiere al grado de apuntamiento de la distribucin. Si es muy apuntada, se llama leptocrtica, y si es muy aplastada, se llama platicrtica. Generalmente el grado de curtosis de una distribucin se compara con un modelo de distribucin llamado distribucin normal, y que respecto a la curtosis se llama distribucin mesocrtica, pues est entre los dos tipos de curtosis existentes.--------------------------------------------------------------------------------------------------------------------------------------------

Captulo 3: Medidas de posicin

Que una persona saque 35 en un test de inteligencia no nos da ningn parmetro de si es bueno o malo. Normalmente lo que nos interesa es poder hacer una valoracin de las puntuaciones, y esto slo puede hacerse en trminos relativos, y con respecto a un grupo de referencia. Para hacer estas valoraciones relativas se pueden utilizar las llamadas medidas de tendencia central, que son ndices diseados especialmente para revelar la situacin de una puntuacin con respecto a un grupo, utilizando a ste como marco de referencia. Un tipo concreto de medida de posicin son las llamadas medidas de tendencia central.Centiles o percentiles: Son 99 valores de la variable que dividen a la distribucin en 100 secciones, cada una conteniendo a la centsima parte de las observaciones. Se simboliza por C28 a aquella puntuacin que deja por debajo de si al 28 por 100 de las observaciones y que es superada por el 72 por 100. Los centiles no suelen calcularse con cantidades de pequeos datos, y cuando es necesario hacerlo se obtienen sencillamente ordenando las puntuaciones y calculando la proporcin de stas que superan al valor que se quiere comparar. Por ejemplo, si un individuo obtiene la puntuacin 35 y sabemos que C90=35, quiere decir que la puntuacin de ese sujeto coincide con el centil 90 y, por lo tanto, supera a las del 90 por 100 de las observaciones del grupo de referencia, mientras que es superada por solamente el 10 por 100.

Normalmente las distancias entre centiles, en trminos de puntuacin, no sern constantes. Generalmente las distancias entre los centiles intermedios sern menores que las distancias entre centiles extremos. Normalmente los centiles se obtienen sobre datos agrupados en intervalos, y en su clculo se asume el supuesto de distribucin homognea intraintervalo. Frmula:

El intervalo crtico es aquel que contiene la puntuacin que buscamos.Deciles: Son 9 puntuaciones que dividen a la distribucin en 10 partes, cada una conteniendo al 10 por 100 de las observaciones. Se representa por Dk, donde k indica el nmero del decil al que se refiere. As, D4 es la puntuacin que deja por debajo de si al 40 por 100 de las observaciones y por encima de si al 60 por 100. Por supuesto, existe una equivalencia directa entre los deciles y los centiles, de forma que el decil primero es igual al C10. La frmula para calcular los deciles es la misma que la de los centiles correspondientes a cada decil.

Quartiles: Son 3 puntuaciones que dividen a la distribucin en 4 partes, cada una conteniendo al 25 por 100 de las observaciones. Se representan por Qk donde k indica el nmero del cuartil al que se refiere. Existe una equivalencia directa entre los distintos cuantiles. Gracias a esta equivalencia, las frmulas de clculo de los cuantiles se resumen en la de los centiles correspondientes al cuantil que se quiera. --------------------------------------------------------------------------------------------------------------------------------------------Captulo 4: Medidas de tendencia centralDe todas las posiciones que hay en un grupo de referencia, hay una (la que representa la posicin central), suele suscitar una mayor inters que las dems. Se trata de las medidas de tendencia central. Son ndices que actan como resmenes numricos de las observaciones hechas. Representan la magnitud general observada en los valores. Tambin sirven para comparar conjuntos de valores. Dado que no se pueden comparar distribuciones completas, lo que se comparan son ciertas caractersticas resumen de stas. MEDIA ARITMTICAEl ndice de tendencia central ms utilizado. Se define como la suma de los valores observados, dividida por el nmero de ellas. Por tanto, si recogemos n observaciones de la variable X, entonces la media de los valores observados es determinada por la siguiente frmula: X=Se dice que la media es un valor tal que, si apoyamos ese eje en un poste situado a la altura del valor correspondiente a la media, el conjunto quedar en equilibrio. Es decir, la media se comporta como si fuera una especie de centro de gravedad de la distribucin.

El procedimiento para hacer los clculos de la media con datos agrupados en una distribucin de frecuencias: Propiedades de la media aritmticaA las puntuaciones que hemos venido tratando hasta aqu, y que no son ms que los valores brutos, las denominaremos a partir de ahora puntuaciones directas y las representaremos por la letra de la variable en mayscula. Por el contrario, a las diferencias de cada sujeto con respecto a la media grupal las denominaremos puntuaciones diferenciales y las representaremos por la letra minscula. Por lo tanto:Con las puntuaciones diferenciales podemos dar una informacin ms precisa que con las directas. Las propiedades de la media aritmtica se describen a continuacin:

1) La suma de las diferencias de n puntuaciones con respecto a su media o puntuaciones diferenciales es igual a cero. Frmula:La razn por la que la suma de las diferenciales es igual a cero es que unas son positivas y otras negativas (las que superan la media y las que quedan por debajo de ella) y se compensan con otras. 2) La suma de los cuadrados de las desviaciones de unas puntuaciones con respecto a su media es menor que con respecto a cualquier otro valor. Es decir:A veces nos interesar sumar a las puntuaciones observadas una cantidad constante, y en esos casos tambin nos interesar conocer la media de las nuevas puntuaciones.3) Si sumamos una constante a un conjunto de puntuaciones, la media aritmtica quedar aumentada en esa misma constante. Es decir: 4) Si multiplicamos por una constante a un conjunto de puntuaciones, la media aritmtica quedar multiplicada por esa misma constante. Es decir: En algunos casos contamos con la media de varios grupos en una variable y nos interesa conocer la media de todas las observaciones juntas. Su frmula suele denominarse media ponderada.5) La media total de un grupo de puntuaciones, cuando se conocen los tamaos y medias de varios subgrupos hechos a partir de un grupo total, mutuamente exclusivos y exhaustivos, puede obtenerse ponderando las medias parciales a partir de los tamaos de los subgrupos en que han sido calculadas:Otra situacin relativamente frecuente es aquella en la que se forma una variable a partir de una combinacin lineal de dos o ms variables, e interesa conocer la media de la variable resultante.

6) Una variable definida como la combinacin lineal de otras variables tiene como media la misma combinacin lineal de las medias de las variables intervinientes en su definicin. Es decir:MEDIANAEs el ndice, la puntuacin que es superada por la mitad de las observaciones pero no por la otra mitad. Para su clculo podemos encontrarnos en dos casos generales, aquel en el que contamos con un nmero impar de observaciones y aquel en que nos encontramos con un nmero par de ellas. En el primero se toma como mediana el valor central, en el segundo se da la circunstancia de que cualquier valor comprendido entre los dos centrales cumple con la definicin de la mediana. La mediana corresponde al C50, al D5 y al Q2. Por tanto, la mediana se obtiene como el C50. Segn el caso, se obtiene el valor central o el par de valores.MODA

Una tercera va para representar la tendencia central de un conjunto de valores consiste en informar del valor ms frecuentemente observado. En esta idea se basa nuestro tercer ndice de tendencia central, la moda, que se representa por Mo, y se define sencillamente como el valor de la variable con mayor frecuencia absoluta. En algunos casos puede llegar a haber dos modas (se dice que es una distribucin bimodal).COMPARACIN ENTRE MEDIDAS DE TENDENCIA CENTRAL. Con qu criterios elegimos uno sobre los dems para representar la magnitud general observada en unos valores o para comparar la de dos o ms grupos de valores? Si no hay ningn argumento de peso en contra, se preferir siempre la media. Hay dos razones para apoyar esta normal general. La primera es que en ella se basan otros estadsticos y la segunda es que es mejor estimador de su parmetro que la mediana y la moda. Este segundo argumento significa que, en trminos generales, las medias halladas sobre muestras representativas se parecen ms a la media poblacional que lo que se parecen las medianas y modas muestrales a la mediana y la moda poblacional. Hay al menos tres situaciones en las que se preferir la mediana a la media: a) cuando la variable est medida en una escala ordinal; b) cuando haya valores extremos que distorsionen la interpretacin de la media y c) cuando haya intervalos abiertos. Este tercer y ltimo caso se refiere a situaciones en las que el intervalo superior carece de lmite superior, el intervalo inferior carece de lmite inferior, o ambas cosas a la vez. La mediana ser la segunda candidata para representar la tendencia central y por tanto, si no hay argumentos de peso en contra, se preferir la mediana a la moda. Pero hay al menos dos situaciones en las que se dar esa preferencia: a) cuando se trate de una variable medida en una escala nominal, b) cuando haya intervalos abiertos y la mediana pertenezca a uno de ellos. En algunos casos los tres ndices de tendencia central dan valores parecidos, o incluso pueden coincidir exactamente.--------------------------------------------------------------------------------------------------------------------------------------------Captulo 5: Medidas de variacin

Tal como se vio en captulos anteriores, los conjuntos de datos no deben describirse slo mediante medidas de tendencia central, puesto que dos conjuntos de puntuaciones pueden tener la misma media y ser, sin embargo, muy distintos. Para conseguir una visin completa y comprensiva de los datos hay que complementar las medidas de tendencia central con las de otras propiedades de los mismos. Una de las propiedades ms importantes de los conjuntos de datos es el grado en que stos se parecen o se diferencian entre si. Esta propiedad se denomina variabilidad, dispersin u homogeneidad, y es diferente de la tendencia central (ej: hermano divide tierras). Puede haber grupos con la misma tendencia central y variabilidad diferente, y viceversa.Aunque hay muchos procedimientos para cuantificar la variabilidad, los ms importantes son la VARIANZA y la DESVIACIN TPICA, mientras que otros ndices tienen una importancia menor. A continuacin, se describen:

VARIANZA Y DESVIACIN TPICAUna idea que se ha demostrado til a las hora de cuantificar la variabilidad es la de trabajar con las distancias desde los valores hasta algn poste central, que podra ser la media aritmtica, y basar la medicin de la dispersin en algn tipo de separacin promedio hasta ese poste. Sin embargo tambin vimos en el tema anterior que la suma de las diferenciales es necesariamente igual a cero. Una solucin al problema de que las distancias con respecto a la media sumen cero consiste en elevar al cuadrado esas distancias antes de hallar su promedio, dado que los cuadrados son siempre positivos. El ndice basado en esta idea se llama varianza, y se representa por la expresin S2x, donde el subndice recoge la letra con la que se representa la variable. Cuando se quiere describir el grado de variabilidad de un grupo de valores basta con obtener este ndice. La frmula es la siguiente:

La cuestin que puede surgir es la de cmo valorar el grado de dispersin cuantificando mediante este ndice. Dado que valores de varianzas que pueden ser normales en ciertas variables y poblaciones podran parecer exagerados en otros casos, no tiene sentido comparar varianzas halladas sobre variables distintas. La varianza sirve sobre todo para comparar el grado de dispersin de dos o ms conjuntos de valores en una misma variable, llegando a conclusiones como la siguiente: la poblacin de hombres presenta una mayor variabilidad en su estatura que la poblacin de mujeres, que son ms homogneas en esa caracterstica. La razn de esta discrepancia es que las distancias no se han tratado como tales, sino que para evitar el problema de que las diferenciales sumen cero se han elevado stas al cuadrado. Por ello es frecuente, con objeto de retomar las unidades originales de esas distancias, se calcule la raz cuadrada de la cantidad obtenida. Al ndice as hallado se lo llama desviacin tpica, se representa por Sx y se define sencillamente como la raz cuadrada de la varianza. La frmula:

La desviacin tpica es un mejor descriptor de la variabilidad, aunque la varianza tenga algunas notables propiedades matemticas que la hacen idnea para basar en ella los anlisis estadsticos complejos. Las variaciones entre los datos estn reflejando variaciones en las caractersticas que estn estudiando, y que en psicologa suelen ser indicadores de variables psicolgicas o mediciones del comportamiento. La variabilidad de los datos reflejando el hecho incuestionable de las diferencias individuales. Uno de los objetivos de la psicologa es precisamente la explicacin sistemtica de esas diferencias, en tanto en cuanto presentan regularidades asociadas a segundas o terceras variables. No siempre son la varianza y la desviacin tpica los ndices ms apropiados para representar la variabilidad de un grupo de datos. Hay veces en que algn dato extremo distorsionara su interpretacin, en otras ocasiones la variable est medida en una escala ordinal y en otras no se puede calcular.CLCULOEl clculo de la varianza puede siempre hacerse por medio de la frmula que la define, pero en muchas ocasiones resulta ms prctico utilizar otras frmulas derivadas de aqulla, y en cualquier caso es necesario adaptar la frmula a aquellas situaciones en las que los valores estn agrupados en intervalos. La varianza es tambin igual a la media de las puntuaciones directas elevadas al cuadrado menos el cuadrado de la media. Esta frmula resultar til en ciertos casos:

PROPIEDADESEn primer lugar, hay que destacar que un conjunto de valores puede mostrar un mayor o menor grado de homogeneidad, pero el grado ms pequeo posible de homogeneidad se produce cuando todos los valores son idnticos. En ese caso las desviaciones de los valores con respecto a su media son todas cero y en consecuencia tambin es igual a cero la media de sus cuadrados, por tanto, se es el mismo valor que puede adoptar la varianza. Igualmente, como desviacin tpica se toma la raz positiva de la varianza.

1) La varianza y la desviacin tpica, como medidas de la dispersin, son valores esencialmente positivos. A veces interesa transformar las puntuaciones observadas sumando una constante y/o multiplicando por otra constante, tal y como vimos al exponer las propiedades de la media. En esos casos no har falta calcular la varianza de las puntuaciones transformadas, sino que podr deducirse conociendo la varianza de las puntuaciones originales.

2) Si sumamos una constante a un conjunto de puntuaciones, su varianza no se altera. Si la transformacin consiste en multiplicar por una constante, la varianza si se ve alterada. Conociendo la varianza de las puntuaciones originales y la constante multiplicada se puede obtener fcilmente la varianza de las puntuaciones obtenidas mediante la multiplicacin de la constante.

3) Si multiplicamos por una constante a un conjunto de puntuaciones, la varianza quedar multiplicada por el cuadrado de la constante, y la desviacin tpica por el valor absoluto de esa constante. En ciertas ocasiones conocemos las varianzas de varios subgrupos y se quiere obtener la varianza del grupo total. Esto se puede conseguir aplicando una propiedad que relaciona la varianza de todas las puntuaciones juntas con las varianzas, medias, y tamaos de los subgrupos.

4) La varianza total de un grupo de puntuaciones, cuando se conocen los tamaos, las medias, las varianzas de varios subgrupos hechos a partir del grupo total, mutuamente exclusivos y exhaustivos, puede obtenerse sumando la media (ponderada) de las varianzas y la varianza (ponderada) de las medias.El hecho de que la desviacin tpica sea un ndice de la dispersin de los datos, y por tanto pueda tomarse como medida interna de las distancias entre las puntuaciones y la media, hace que exista una relacin muy estrecha entre esas distancias y las observaciones que abarcan las puntuaciones en funcin de su distancias hasta la media. Esta relacin qued demostrada en la desigualdad de Tchebychev que se puede describir as:

La desiguadad de Tchebychev recoge el hecho de que las distancias menores hasta la media son ms frecuentes que las distancias mayores. As, entre las puntuaciones correspondientes a la media +- una desviacin tpica se encontrarn menos observaciones que entre las puntuaciones correspondientes a la media +- una desviacin tpica y media, y a su vez entre stas habr menos que entre las correspondientes a la media +- dos desviaciones tpicas. Segn la desigualdad de Tchebychev, el porcentaje de puntuaciones que quedan entre las correspondientes a la media +- k desviaciones tpicas es, como mnimo el (1- 1/k2) por 100 de las observaciones.

OTRAS MEDIDAS DE VARIACINNo siempre se puede calcular la varianza, ni tampoco es siempre lo ms apropiado. Una forma muy sencilla de indicar el grado de dispersin consiste en calcular la distancia entre el mayor y el menor de los valores observados. Este ndice se llama amplitud total, rango o recorrido y se obtiene sencillamente hallando la diferencia entre los valores extremos. Distincin entre ambos tipos de amplitud, que se denominan rango excluyente y rango incluyente, usadas en variables discretas y continuas. Esto es muy sensible a los valores extremos y nada sensibles a los intermedios, pudiendo carecer de toda representatividad. Otro inconveniente de este ndice es que est ligado al tamao de la muestra utilizada. Si se quiere comprara la variabilidad de las dispersin de dos conjuntos de datos de tamao marcadamente distinto, es probable que la muestra de mayor tamao presente una mayor amplitud aunque las poblaciones de referencia tengan la misma variabilidad. Desviacin media: Tomar las desviaciones c respecto a la media, o puntuaciones diferenc, en valores absoluto. Amplitud semi-intercuartil: Basada en las puntuaciones correspondientes a los cuartiles primero y tercero.

Coeficiente de variacin: A veces se desea comparar la variabilidad de grupos cuya media es distinta. Este ndice es expresado como un porcentaje. Este ndice puede construirse como un ndice de la representatividad de la media. Cuanto mayor es el coeficiente de variacin, menos representativa es la media. --------------------------------------------------------------------------------------------------------------------------------------------Captulo 6: Puntuaciones tpicas y escalas derivadasDado que el valor observado en un individuo, sujeto o unidad de investigacin, representa la magnitud que esa unidad manifiesta en la variable, una prctica comn consistir en comparar las magnitudes mediante la comparacin de los valores asociales a ellas. Otras soluciones, que se basan en la transformacin de las puntuaciones observadas en otras que, sin perder o distorsionar la informacin contenida en las puntuaciones originales, permitan una comparacin directa de las mismas. Los instrumentos desarrollados para ello son las puntuaciones tpicas y las escalas derivadas.PUNTUACIN TPICA

Las puntuaciones diferenciales son informaciones insuficientes para comparar puntuaciones de sujetos pertenecientes a distintos grupos o a dist variables. Las puntuaciones tpicas, se representa por letra z. Frmula: Al proceso de obtencin de las puntuaciones tpicas se llama tipificacin.

La puntuacin tpica de una observacin indica el nmero de desviaciones tpicas que esa observacin se separa de la media del grupo de observaciones.Las puntuaciones tpicas permiten, por tanto, hacer comparaciones entre unidades de distintos grupos, entre variables medidas de distintas formas, o incluso entre variables diferentes. En cualquier caso, las puntuaciones tpicas siempre nos indicarn el nmero de desviaciones tpicas (de las de ese grupo y variable) que se separan de la media (de ese grupo y variable) y si esa desviacin es por encima o po debajo de la media (segn el signo de la puntuacin tpica). Esta simplificacin es de suma utilidad, y se traduce en que las puntuaciones tpicas tienen unas caractersticas de tendencia central y variabilidad constantes. Las tpicas no son ms que una transformacin lineal que consiste en multiplicar las directas por una constante (el inverso de la desviacin tpica) y luego sumar a esos productos otra constante (el cociente entre la media y la desviacin tpica, con signo negativo). Frmula:

Las caractersticas de las puntuaciones tpicas son universales, no dependen del tipo de puntuaciones ni de su dispersin, ni de su nmero. La media de las puntuaciones tpicas es cero, mientras que su varianza y desviacin tpica son iguales a uno. Las puntuaciones tpicas reflejan las relaciones esenciales entre las puntuaciones, con independencia de la unidad de medida que se haya utilizado en la medicin. Cuando en dos conjuntos de puntuaciones, emparejadas con algn criterio, a los elementos de cada para les corresponde la misma puntuacin tpica dentro de su conjunto, puede decirse que mantienen la misma estructura interna, y se dice entonces que son puntuaciones equivalentes.ESCALAS DERIVADASA pesar de que las puntuaciones tpicas tienen las indudables ventajas que hemos descrito anteriormente, tambin tienen algunos inconvenientes. Inconvenientes que surgen de las desviaciones tpicas. En concreto y dado que la media de las tpicas es cero y su desviacin tpica uno, buena parte de las puntuaciones suelen ser negativas, y casi todas decimales. Esto hace que resulte incmodo su tratamiento y que muchas veces se busquen procedimientos que permitan superar esta dificultad. Un procedimiento consiste en transformar las puntuaciones tpicas en otras que retengan todas las relaciones que manifiestan las puntuaciones originales, por tanto que sean puntuaciones equivalentes, pero evitando la dificultad operativa, y que constituyen lo que se denomina una escala derivada. Estas transformaciones se basan en una propiedad de las puntuaciones tpicas.Si transformamos linealmente las puntaciones tpicas, multiplicndolas por una constante a, y sumando una constante b, entonces las puntuaciones transformadas tendrn como media la constante sumada b, como desviacin tpica el valor de la constante multiplicada, |a| y como varianza el cuadrado de esta constante, a2.En resumen la construccin de una escala derivada parte de unas puntuaciones directas, stas se tipifican, y despus se transforman linealmente en otras puntuaciones. La cuestin fundamental de las escalas derivadas consiste en transformar las puntuaciones originales, Xi, en otras puntuaciones transformadas, Ti, tales que sean ms cmodas de tratar e interpretar, pero que a la vez retengan las relaciones comerciales entre los valores, es decir, que sean puntuaciones equivalentes. --------------------------------------------------------------------------------------------------------------------------------------------Captulo 7: Medidas de asimetra y curtosis

Adems de la tendencia central y la variabilidad hay otras dos caractersticas con las que se pueden describir y comparar las distribuciones de frecuencias. Estas dos caractersticas, aunque de menor importancia con respecto a las anteriores, ayudan a entender mejor las diferencias entre los grupos; se trata de la asimetra y la curtosis.

NDICES DE ASIMETRA

El grado de asimetra de una distribucin hace referencia al grado en que los datos se reparten equilibradamente por encima y por debajo de la tendencia central. Una distribucin equilibrada sera aquella en la que las frecuencias se repartiesen imparcialmente en torno de la media. Se han propuesto diferentes ndices con los que cuantificar esta propiedad, de los que aqu vamos a exponer tres. Relacin entre la media y la moda: Se define como la distancia entre la media y la moda, medida en desviaciones tpicas, es decir: la media es inferior a la moda, y por tanto este ndice dar un valor negativo; la media es superior y el ndice dar positivo; coinciden los dos ndices de tendencia central y por tanto el ndice de asimetra dar cero. Las distribuciones como las primeras tienen asimetra negativa y el ndice da valores menores que cero; las del segundo tipo asimetra positiva, y este ndice da valores mayores que cero. En las ltimas se dice que son distribuciones simtricas, puesto que no estn inclinadas hacia ningn lado; este ndice da en ellas valores en torno a cero y si la simetra es perfecta entonces da exactamente cero. Este ndice tiene la dificultad de que slo se puede calcular en distribuciones unimodales. ndice de asimetra de Pearson: Es igual al promedio de las puntuaciones tpicas elevadas al cubo. Los valores menores que cero indican asimetra negativa, los mayores que cero asimetra positiva y los valores en torno a cero indican distribuciones aproximadamente simtricas. Es el ndice ms utilizado. ndice de asimetra intercuartlico: Se basa, en los cuartiles. Su frmula:

La interpretacin es similar a la de los ndices anteriores. Los valores mayores de cero indican asimetra positiva, los menores indican asimetra negativa y los valores en torno a cero reflejan distribuciones simtricas. Tienen una ventaja sobre los ndices anteriores, y es que tiene un valor mximo y mnimo con lo que se facilita su interpretacin en trminos relativos.NDICES DE CURTOSISSolo vamos a estudiar el que se basa en el promedio de las tpicas elevadas a la cuarta potencia. Su frmula es:

Quizs lo que ms sorprenda sea el hecho de que al promedio de las tpicas elevadas a la cuarta potencia se le reste un tres. La razn es que existe un modelo de distribucin, del que hablaremos en temas posteriores, en el que ese promedio da exactamente igual a tres. Al restar un tres al ndice, lo que se consigue es utilizar ese modelo como patrn de comparacin. Una distribucin en la que el ndice sea igual a cero tienen un grado de curtosis similar al de la distribucin normal, y se dice que es mesocrtica, mientras que si es positivo su grado de apuntamiento es mayor que el de la distribucin normal, y se dice que es una distribucin leptocrtica y si es negativo su apuntamiento es menor que el de la distribucin normal y se dice que es platicrtica.--------------------------------------------------------------------------------------------------------------------------------------------Captulo 8: Correlacin lineal

Uno de los objetivos principales de la ciencia consiste en descubrir las relaciones entre variables, y la estadstica ha desarrollado instrumentos apropiados para esta tarea. La observacin de relaciones claras y estables entre las variables ayuda a comprender los fenmenos y a encontrar explicaciones de los mismos, e indica las vas probablemente ms eficaces para intervenir sobre las situaciones. El estudio de las relaciones lineales, es aplicable exclusivamente a las variables de intervalo.

REPRESENTACIN GRFICA DE UNA RELACINSe dice que dos variables X e Y mantienen una relacin lineal directa cuando los valores altos en Y tienden a emparejarse con valores altos en X, los valores intermedios en Y tienden a emparejarse con valores intermedios en X, y los valores bajos en Y tienden a emparejarse con valores bajos de X.Se dice que dos variables X e Y mantienen una relacin lineal inversa cuando los valores altos en Y tienden a emparejarse con valores bajos en X, los valores intermedios en Y tienden a emparejarse con valores intermedios en X, y los valores bajos en Y tienden a emparejarse con valores altos en X.Se dice que hay relacin lineal nula entre dos variables cuando no hay un emparejamiento sistemtico entre ellas en funcin de sus valores.Al hacer una representacin grfica conjunta de dos variables pueden apreciarse visualmente estos tres tipos de relacin. Para ello se identifican los pares de valores y se sealan los correspondientes puntos en unos ejes de coordenadas. Estas nubes de puntos reciben el nombre de diagramas de dispersin.CUANTIFICACIN DE UNA RELACIN LINEALUn primer procedimiento consistira en hallar el promedio de los productos cruzados de las puntuaciones diferenciales. Al hablar de productos cruzados nos referimos al producto, para cada sujeto o caso, de sus valores en las dos variables, es decir Xi Y. Estos productos pueden obtenerse con puntuaciones directas, diferenciales o tpicas. Cada figura est separa en cuatro cuadrantes, y los puntos estarn en uno u otro dependiendo de que la observacin supere o no la media de X y/o la media de Y. En concreto, si supera ambas medias, el punto aparecer en el cuadrante superior derecho (NE), si supera la media de X pero no la de Y, como el par aparecer en el cuadrante inferior derecho (SE); si supera la de Y pero no la de X, aparecer el cuadrante superior izquierdo (NO); sino supera ninguna de las medias, aparecer en el cuadrante inferior izquierdo (SO). Al tratar con puntuaciones diferenciales, stas sern positivas si superan la media y negativas en caso contrario. Por tanto, aquellas observaciones que aparezcan en los cuadrantes NE o SO tendrn productos cruzados positivos, mientras que las que aparezcan en los cuadrantes NO o SE tendrn productos cruzados negativos. El promedio de productos cruzados de diferenciales tender a dar positivo si la relacin es directa, negativo si es inversa, y en torno a cero si es nula, y a dems su valor absoluto ser mayor cuanto ms acusada sea la tendencia a la linealidad en el diagrama de dispersin.PROPIEDADES

La razn principal por la que la covarianza no llegaba a satisfacer completamente la necesidad de un ndice de la asociacin lineal era la dificultad de su valoracin, dado que careca de un mximo y un mnimo estables. Puesto que hemos destacado su alternativa principal, el coeficiente de correlacin de Pearson, precisamente porque no tiene esa dificultad. El coeficiente de correlacin de Pearson no puede valer ms de +1 ni menos de -1

Si hacemos transformaciones lineales de una o las dos variables, en las que las constantes multiplicadoras son positivas, la correlacin de Pearson no se altera.VALORACIN E INTERPRETACIN

En la interpretacin de una correlacin de Pearson hay que separar dos aspectos distintos: su cuanta y su sentido. La cuanta se refiere al grado en el que la relacin entre dos variables queda bien descrita con un ndice de asociacin lineal como r, mientras que el sentido se refiere al tipo de relacin. Una correlacin en torno a cero indica una relacin lineal baja o nula; una correlacin positiva indica una relacin lineal directa, mientras que una correlacin negativa indica una relacin lineal inversa. Cuanto ms cercano quede un coeficiente del valor cero, menos apto es el modelo lineal como descripcin de la relacin entre las variables. Por el contrario, cuanto ms se acerque a los extremos, mejor describe esa relacin. Reuchlin

Captulo 1: carcter variable de las conductasVariaciones previsibles y variaciones imprevisibles: las variaciones de las conductas son previsibles cuando se conoce la situacin, el momento o la persona. Por otra parte, estas variaciones de las conductas son imprevisibles a partir de las informaciones de las que dispone el observador. El psiclogo utiliza a menudo el mtodo estadstico precisamente porque este mtodo permite tratar con ms eficacia las observaciones que presentan a la vez variaciones previsibles y variaciones imprevisibles.

Las fuentes de variacin y anlisis estadstico: las variaciones que son imprevisibles porque no estn asociadas a ninguna fuente de variacin sistemtica. Las variaciones imprevisibles se atribuyen as a un conjunto de fuentes fortuitas de variacin para el experimentador o encuestador. Las variaciones que son previsibles porque estn asociadas a fuentes sistemticas de variacin. Si las variaciones as previstas no son mayores que las variaciones imprevisibles, el psiclogo comprobar que no se verifica su hiptesis sobre el efecto de las fuentes sistemticas de variacin que haba credo introducir en la experiencia o en la encuesta. La comparacin entre la amplitud de las variaciones previsibles y la amplitud de las variaciones imprevisibles permite interpretar los resultados de la experiencia o de la encuesta e identificar, a la vez, algunas fuentes sistemticas de variacin.

Ponderacin de una fuente sistemtica de variacin: cuando el experimentador o el encuestador hace la hiptesis de que varias fuentes sistemticas de variacin producen efectos sobre sus observaciones, comienza en general por verificar si cada una de ellas tiene efectivamente un efecto no nulo y significativo. El experimentador podr intentar averiguar cules son las fuentes de variacin ms importantes, es decir, las que contribuyen ms a las variaciones de las observaciones.

Ponderacin de las fuentes fortuitas de variacin: debe evaluar el peso que toman en sus observaciones las fuentes fortuitas de variacin. Si este peso es grande, con relacin al de las fuentes sistemticas de variacin, ser difcil poner en evidencia estas ltimas, reconocer su significado.

Captulo 2: Resmenes estadsticos en el nivel de las escalas nominalesEl empleo de la estadstica en psicologa: distinguir dentro de las observaciones las variaciones fortuitas de las variaciones sistemticas. Para asumir esta funcin del mtodo estadstico procede a hacer resmenes de series de observaciones. Por qu tiene necesidad el psiclogo de efectuar resmenes estadsticos de este tipo? Para poder razonar sobre conjuntos de observaciones: pueden compararse dos medias o dos grficos. El resumen de una serie de observaciones puede hacerse de manera que se ponga en evidencia un aspecto particular de la informacin contenida en estas observaciones y llegar as a poseer un instrumento de anlisis de esta informacin. Hay que examinar algunos mtodos que permiten describir una serie de observaciones en forma resumida y que pueden tener significaciones diferentes. La eleccin de uno u otro mtodo depender del problema q plantee el psiclogo. Niveles de medida: tres niveles, estando definido cada nivel por las propiedades del conjunto de los valores que pueden obtener mediante las operaciones de medida. Hay una jerarqua entre estos tres niveles: en cada uno de ellos los nmeros gozan de todas las propiedades del nivel inferior y de otras propiedades.

Construccin de la escala nominal: para construir una escala nominal basta que el psiclogo sea capaz de repartir sus observaciones en un cierto nmero de clases, el conjunto de las cuales constituye la escala, y que deben poseer las dos propiedades siguientes: cada observacin debe entrar en una clase y solamente en una. El que dos observaciones entren o no en la misma clase de equivalencia no se sigue de un criterio estadstico, sino de un criterio emprico. Se producen dificultades, ya que hay que definir el conjunto de clases de manera tal que toda observacin entre dentro de una clase, luego hay que conseguir que cada observacin no pueda entrar ms que en una nica clase. Se necesitar adoptar una definicin precisa de cada clase y verificar que los criterios as propuestos los comprenden de la misma manera utilizadores diferentes.

Propiedades de los nmeros en una escala nominal: una vez realizada esta particin de una serie de observaciones se van a poder utilizar nmeros para describir y resumir esta serie. Pero cada uno de estos nmeros designar aqu una clase de observaciones. Estas operaciones slo permiten decir que una observacin que pertenece a una clase es diferente de una observacin que pertenece a otra clase; no permiten decir que la primera es mayor o menor que la segunda. El nmero de observaciones que pertenecen a una clase es el efectivo de esta clase.

Entropa: la informacin de la distribucin no permite saber si las posibilidades de pertenecer a otra clase son muy diferentes o solamente poco diferentes, dicho de otro modo, si las observaciones son muy diferentes o poco diferentes, si su distribucin est muy dispersada o poco dispersada. Se admitir que la dispersin podr ser tanto mayor cuanto mayor sea el nmero de clases. Para un nmero fijo de clases, ser mayor si las observaciones se reparten igualmente sobre todas las clases en vez de concentrarse solamente sobre algunas clases. Se puede explicitar y cuantificar esta nocin definiendo y calculando la entropa de la distribucin.