analisis de datos ii

29
TEMA 1 CONCEPTOS BÁSICOS DE LA INFERENCIA ESTADÍSTICA

Upload: helena-parrado

Post on 11-Nov-2015

12 views

Category:

Documents


2 download

DESCRIPTION

Analisis de datos II

TRANSCRIPT

  • TEMA 1CONCEPTOS BSICOS DE LA INFERENCIA ESTADSTICA

  • INDICEMarco general de la inferencia estadstica en PsicologaVariables y su clasificacinPoblacin, muestra, parmetro y estadsticoDistribucin muestralEstimacin de parmetrosContraste de hiptesis

  • 1. MARCO GENERAL DE LA INFERENCIA ESTADSTICAEstadstica: Coleccin de datos numricos presentados de manera ordenada y sistemticaCiencia que se ocupa- Recogida de datos, organizacin y anlisis- Realizar predicciones a partir de los datos

    Estadstica descriptiva Estadstica inferencial

  • 1. MARCO GENERAL DE LA INFERENCIA ESTADSTICALa estadstica inferencial se centra en dos aspectos: la estimacin de parmetros y las pruebas de hiptesis.

    Estimacin de parmetros: generalizacin de los datos de la muestra a la poblacin. Averiguar qu valores habran correspondido en la poblacin de haber trabajado directamente sobre ella.La estimacin de parmetros puede ser:Estimacin puntual: Se obtiene un valor nico aproximado.Estimacin por intervalos: Proporciona, a partir de la informacin recogida en la muestra, un intervalo que con cierta probabilidad contiene al parmetro.

    Si queremos decidir entre dos hiptesis que afectan a un cierto parmetro de la poblacin, a partir de la informacin de la muestra usaremos el contraste de hiptesis.

  • 2. VARIABLES Y SU CLASIFICACINVARIABLE: Caracterstica que admite varios valores. Podemos clasificar las variables haciendo referencia a dos caractersticas: Nivel de medida utilizado: Cualitativa: expresan distintas cualidades o modalidades. Pueden ser dicotmicas o politmicas; nominales u ordinales.Cuantitativa discreta: tiene valores numricos enteros previamente establecidos Cuantitativa continua: puede asumir cualquier valor numrico Nivel de manipulacin: Independiente: factor que manipula el investigador y que causa los efectos en la VD Dependiente: conducta de estudio que se observa Extraas: factores que distorsionan los efectos en VD

  • 3. POBLACIN, MUESTRA, PARMETRO Y ESTADSTICOEn el sistema democrtico los ciudadanos eligen individualmente al candidato favorito. El resultado de unas elecciones es siempre aleatorio, ya que el nmero final de personas que acuden a votar es desconocido. Por diversas razones se producen abstenciones y, adems, algunas personas cambian su voto a ltima hora.

    En unas votaciones dos candidatos A y B tienen que enfrentarse. Qu candidato piensas que ganar?

    Podramos preguntar a todos los espaoles qu piensan votar?Sera este el resultado de la votacin?A quienes tendramos que preguntar?

  • 3. POBLACIN, MUESTRA, PARMETRO Y ESTADSTICOPoblacin: conjunto o coleccin de personas o cosas objeto de estudioPoblacin finita: n de elementos que la forman finito, ej. n de alumnos de un centro de enseanza, o grupo clase.Poblacin infinita: n de elementos que la forman es infinito, o tan grande que pudiesen considerarse infinitos.Muestra: subgrupo que analizamos

    Estadstico: Medidas que permiten describir la muestraParmetro: ndices calculado en la poblacin; Valores globales que determinan las caractersticas de la poblacin concretaLos ms utilizados: media, desviacin tpica, varianza, proporcin

  • 4. DISTRIBUCIN MUESTRALImagina que queremos evaluar la inteligencia en una poblacin de 1000 sujetos. Cuntas muestras de 100 personas podemos extraer?

    Variaciones de 1000 elementos tomados de 100 en 100: 1000100 muestras. Si en la primera muestra el CI es 104, ser este el CI medio de los 1000 sujetos?

    Muestreo: Procedimiento estadstico para seleccionar la muestra de la poblacinVentajas: bajo costo, menor tiempo, a veces es la nica opcin

    Caractersticas del muestreo:Equiprobabilidad: todos los sujetos tienen la misma probabilidadIndependencia: el hecho que un elemento haya salido seleccionado, no modifique la probabilidad de que se elijan los dems. Representatividad: exhibe las mismas caractersticas de la poblacin.Variabilidad muestral: Los elementos de distintas muestras pueden ser diferentes, y los resultados pueden variar.

  • 4. DISTRIBUCIN MUESTRALSupongamos que tenemos una caja con tres fichas numeradas del 1 al 3. Tomamos al azar dos fichas, con reemplazamiento, y queremos deducir el valor de la media de las tres fichas, mediante la media obtenida en la muestra.

    Tomemos todas las muestras posibles, y calculemos la media de cada una:

  • 4. DISTRIBUCIN MUESTRALSupongamos que tenemos una caja con tres fichas numeradas del 1 al 3. Tomamos al azar dos fichas, con reemplazamiento, y queremos deducir el valor de la media de las tres fichas, mediante la media obtenida en la muestra.

    Tomemos todas las muestras posibles, y calculemos la media de cada una:

  • 4. DISTRIBUCIN MUESTRAL- La media de las muestras una variable aleatoria. - Su distribucin de probabilidad sera la siguiente

    Esta es la DISTRIBUCIN MUESTRALde la media al lanzar un dado Observamos: El valor ms frecuente Coincide tambin con el valor medio del estadstico Corresponde con la media poblacional. La media se utiliza como estimador del parmetro La desviacin tpica se denomina error tpico Existen modelos tericos que modelizan la distribucin muestral para cada parmetro

    P(x)x.P(x)11/91/91.52/93/923/96/92.52/95/931/93/918/9

  • 4. DISTRIBUCIN MUESTRALEn una poblacin se puede extraer varias muestras diferentes. Los estadsticos en una muestra, se consideran variables aleatorias: tenemos diferentes valores para el estadstico, en funcin de la muestra seleccionada

    DISTRIBUCIN MUESTRAL: Distribucin terica que asigna una probabilidad concreta a cada uno de los valores que puede tomar un estadstico en cada muestra

    Es decir, seguimos los siguientes pasos:- Recogemos los datos en una muestra. - Calculamos el valor de un estadstico w (ej. media). - Para saber cmo de esperable es el valor de w, extraemos todas las posibles muestras. Pongamos que son k posibles muestras.- En cada muestra, se calcula el mismo ndice w. Contamos con k medidas de w.- Habr valores de w que se repiten ms y otros que se repiten menos. - El conjunto de las medidas de w se denomina distribucin muestral de w.

  • Teorema del Lmite Central: Ejemplo CIn =1

    Grfico1

    3

    7

    9

    7

    5

    3

    3

    2

    1

    Columna1

    Hoja1

    Columna1

    803

    907

    1009

    1107

    1205

    1303

    1403

    1502

    1601

    Grfico1

    3

    7

    8

    6

    5

    4

    3

    2

    1

    Columna1

    Hoja1

    Columna1

    803

    907

    1008

    1106

    1205

    1304

    1403

    1502

    1601

  • Teorema del Lmite Central: Ejemplo CIn =1

    Grfico1

    3

    7

    8

    6

    5

    4

    3

    2

    1

    Columna1

    Hoja1

    Columna1

    803

    907

    1008

    1106

    1205

    1304

    1403

    1502

    1601

    Grfico1

    3

    7

    8

    6

    5

    4

    3

    2

    1

    Columna1

    Hoja1

    Columna1

    803

    907

    1008

    1106

    1205

    1304

    1403

    1502

    1601

  • Teorema del Lmite Central: Ejemplo CIn =2

    Grfico1

    3

    7

    9

    7

    5

    3

    3

    2

    1

    Columna1

    Hoja1

    Columna1

    803

    907

    1009

    1107

    1205

    1303

    1403

    1502

    1601

    Grfico1

    3

    7

    8

    6

    5

    4

    3

    2

    1

    Columna1

    Hoja1

    Columna1

    803

    907

    1008

    1106

    1205

    1304

    1403

    1502

    1601

  • Teorema del Lmite Central: Ejemplo CI

    Grfico1

    3

    7

    9

    7

    5

    3

    3

    2

    1

    Columna1

    Hoja1

    Columna1

    803

    907

    1009

    1107

    1205

    1303

    1403

    1502

    1601

    Grfico1

    3

    5

    8

    6

    5

    2

    0

    0

    0

    Columna1

    Hoja1

    Columna1

    803

    905

    1008

    1106

    1205

    1302

    1400

    1500

    1600

  • Teorema del Lmite Central: Ejemplo CI

    Grfico1

    3

    7

    9

    7

    5

    3

    3

    2

    1

    Columna1

    Hoja1

    Columna1

    803

    907

    1009

    1107

    1205

    1303

    1403

    1502

    1601

    Grfico1

    3

    7

    8

    6

    5

    4

    3

    2

    1

    Columna1

    Hoja1

    Columna1

    803

    907

    1008

    1106

    1205

    1304

    1403

    1502

    1601

  • Teorema del Lmite Central: Ejemplo CIN=4N=10

    Grfico1

    3

    7

    9

    7

    5

    3

    3

    2

    1

    Columna1

    Hoja1

    Columna1

    803

    907

    1009

    1107

    1205

    1303

    1403

    1502

    1601

    Grfico1

    3

    6

    7

    9

    12

    10

    7

    6

    5

    3

    2

    Columna1

    Hoja1

    Columna1

    803

    856

    907

    959

    10012

    10510

    1107

    1156

    1205

    1253

    1302

    Grfico1

    9

    13

    18

    13

    9

    5

    Columna1

    Hoja1

    Columna1

    969

    9813

    10018

    10213

    1049

    1065

  • 4. DISTRIBUCIN MUESTRAL DE LA MEDIAUn conocimiento de la distribucin de los estadsticos en el muestreo es imprescindible para estadstica inferencial. No necesitamos hallar todas las posibles muestras y calcular los posibles valores del estadstico, por suerte, existen modelos tericos que utilizamos para simular la distribucin muestral que seguira el ndice en el cual nos interesamos

    Si aplicamos un test de inteligencia a una muestra de 500 universitarios obtenida al azar, podemos calcular la media resultante. Si obtenemos un nmero infinito de muestras de 500 universitarios, cada una de esas muestras tendr una media. Entre esas infinitas medias algunas sern iguales, otras diferentes. Si hacemos una distribucin de esas medias, resultar una distribucin muestral de medias.

    Distribucin muestral de un estadstico es la distribucin de frecuencias de los valores que ese estadstico toma en un nmero infinito de muestras del mismo tipo y tamao.

    Una de las distribuciones muestrales ms utilizadas es la distribucin muestral de la media

  • 4. DISTRIBUCIN MUESTRAL DE LA MEDIASi tenemos una variable con distribucin normal N(,), Tomamos muestras de valores de dicha variable, La distribucin de las medias de estas muestras tambin parecen que pueden ser descritas apropiadamente por una distribucin normal. La distribucin muestral de la media seguir la distribucin siguiente:

    Recordad que usaremos la media de la distribucin para estimar el valor del parmetro

  • 4. DISTRIBUCIN MUESTRAL DE LA MEDIALa desviacin tpica de esta distribucin recibe el nombre de ERROR TPICOEl error tpico tiene una gran importancia.A medida que aumenta el tamao de la muestra, el error tpico disminuye. Esto es como decir que a mayor tamao de la muestra, la dispersin de esta distribucin es menor. Mide el grado hasta el que esperamos que varen las medias de las diferentes muestras debido a este error fortuito cometido en el proceso de muestreo Tambin mide la precisin que obtendremos si utilizamos una estadstico de la muestra para estimar un parmetro de poblacin. Una distribucin muestral con error tipico pequeo es un mejor estimador de la media de la poblacinError tpico

  • 4. DISTRIBUCIN MUESTRAL DE LA MEDIAhttp://onlinestatbook.com/stat_sim/sampling_dist/index.html

  • 5. ESTIMACIN DE PARMETROSCuando estimamos un parmetro podemos hacerlo de dos formas:Estimacin puntual: cuando damos un valor puntual como estimador del parmetro.Estimacin por intervalo: cuando damos un intervalo de valores en el que se espera que est el parmetro.

    Nomenclatura: parmetro estimador puntual del parmetroPor lo general, un estimador no es idntico al parmetro que estima, La diferencia entre ellos se denomina error de muestreo

    Estimadores puntuales de algunos parmetros: Media: media muestral x Varianza: cuasivarianza muestral

  • 5. ESTIMACIN DE PARMETROSCaractersticas de un buen estimador puntual:Insesgado: El valor medio que se obtiene de la estimacin para diferentes muestras debe ser el valor del parmetro. Media de la distribucin muestral del estadstico es igual al parmetro;

    Consistencia: Cuando el tamao de la muestra crece arbitrariamente, el valor estimado se aproxima al parmetro desconocido, el error de muestreo disminuyeEficiencia: Su dispersin con respecto al valor central debe ser pequeaUn estimador 1 es ms eficiente que de 2 , si la varianza del primero es menor que la del segundo Suficiencia: Si transmite tanta informacin de la muestra como sea posible acerca del parmetro No hay otro estimador en la muestra que proporcione mayor informacin sobre el parmetro.

  • 5. ESTIMACIN DE PARMETROSUna estimacin puntual no proporciona suficiente informacin. En varias muestras es posible obtener un estimador puntual diferente.Intervalo de confianza: Intervalo de valores alrededor de un valor muestral en los que, con una probabilidad (o nivel de confianza, 1-) determinado, se situar el parmetro poblacional a estimarSe expresa: [1, 2]

    Para construir un intervalo de confianza se siguen los siguientes pasos:Determinar el nivel de riesgo que se quiere tomar: Buscar la puntuacin tpica correspondiente a ese nivel: |Z /2|Calcular el error tpico de la distribucin muestral del estimador: Establecer el error mximo: Emax=|Z /2| Obtener limite inferior y superior: LI= - Emax y LS= + Emax

  • 5. ESTIMACIN DE PARMETROSInterpretacin: Intervalo de confianza de 95%Si extraemos 100 muestras y calculamos en cada una el intervalo, 95 de estos intervalos calculados contendrn el verdadero valor del parmetro,95% de las medias muestrales estarn dentro de 1.96 desviaciones estndar de la media poblacional hipottica (2.58 para un intervalo al 99%).

  • EJERCICIOUna muestra aleatoria de 100 estudiantes de psicologa responde a una prueba de inteligencia espacial, obteniendo una media de 80 y una desviacin tpica insesgada de 10 Entre qu lmites se hallar la verdadera inteligencia espacial media de los estudiantes de psicologa, con un nivel de confianza de 0,99?1. = 0,012. |Z /2| = 2,573. = Sn-1/n= 14. Emax=|Z /2| = 2,575. [77,42 , 82,57]

  • EJERCICIOEl director de la escuela de administracin desea estimar el nmero medio de horas por semana que estudian los alumnos. Una muestra de 49 estudiantes dio una media de 24 h con desviacin estndar de 4 h. Cul es el intervalo de confianza de 95% para el nmero promedio de horas por semana que estudian los alumnos? 1. = 0,052. |Z /2| = 1,963. = Sn-1/n= 4/74. Emax=|Z /2| = 1,125. [22,88 , 25,12]

  • EJERCICIOEn un experimento sobre percepcin, un psiclogo presenta a un sujeto un nmero desconocido de bolas del mismo tamao y color durante un segundo. El sujeto debe estimar el nmero de bolas que le han sido presentadas. Repetido el experimento con 100 sujetos se elabora la distribucin de frecuencias del nmero de bolas estimadas y se obtiene una media de 16 y desviacin tpica de 2,4. Entre qu lmites estimaremos que se halla el verdadero nmero de bolas presentadas, con un nivel de confianza del 99%?

    Uno de los teoremas derivados del clculo de distribuciones muestrales es el teorema del lmite central. Probablemente, ste es uno de los teoremas ms importantes de la teora estadstica.

    Sus consecuencias se extienden a la estimacin de intervalos de confianza, contrastes de hiptesis y clculo del tamao de la muestra previo a la realizacin de un estudio.

    Vamos a ver una serie de simulaciones que nos ayudar a comprender su importancia y retener los conceptos que van asociados, como muestra, distribucin de un estimador, error tpico y por supuesto distribucin normal, que es la distribucin ms importante en estadstica.

    Para ello vamos a coger la que podra ser, por ejemplo, la distribucin del CI en una muestra de estudiantes universitarios. Como se puede observar, esta distribucin presenta una asimetra positiva. Esto lo podemos ver en que los valores, cuando tienden a separarse de la media, lo hace hacia valores positivos.

    Supongamos que vamos a coger muestras de tamao 1 de individuos y los vamos a representar en la grfica inferior. Por ejemplo, seleccionamos a un sujeto al azar y lo situamos sobre la grfica inferior, a continuacin seleccionamos otro sujeto al azar y lo situamos en la grfica inferior, y as con un tercero, un cuarto, etc.

    *Si seguimos seleccionando individuos, al final stos podemos representarlos mediante un histograma tal y como se va mostrando a continuacin.

    Como se puede apreciar, este histograma es muy similar a la distribucin de la poblacin. Muy probablemente, si continuramos seleccionando sujetos al azar, al final obtendramos una distribucin como la de la poblacin.*Sin embargo, lo habitual en investigacin psicolgica no es que nos interese la distribucin de los sujetos. Dicho de otra forma, es poco comn que nos interese el CI de Mara, Roco o Antonio. Ms bien interesan valores que sean representativos de la poblacin. Por ejemplo, ms el que CI de cada individuo, el inters podra ser cul es el valor medio de CI en la poblacin universitaria?. Necesitamos entonces coger una muestra muy amplia de sujetos?.

    Vamos a coger, por ejemplo, muestras de tamao 2, y vamos a representar sus valores medios en una grfica inferior. Seleccionamos aleatoriamente a dos individuos y calculamos su valor medio. Esto es lo que se conoce como la estimacin de la media. Elijo otros dos sujetos seleccionados aleatoriamente y vuelvo a estimar su valor medio. Vemos como esta estimacin de la media es una variable aleatoria, puesto que en funcin de los sujetos seleccionados la media va cambiando*Esta variable aleatoria es la que se conoce como estimador de la media. Al ser una variable aleatoria, va a tener una distribucin. Cul va a ser sta?. Pues si repetimos el proceso un alto nmero de ocasiones, llegamos a calcular su distribucin. Hay que observar que no se obtienen estimaciones de la media muy extrema, pues para ello sera necesario que las dos observaciones de las que se obtiene la media de la muestra fueran muy extremas. Es decir, la media muestral toma valores ms moderados, se agrupan de forma ms compacta respecto al centro.

    Aunque slo haya tomado valores de la media a partir de dos observaciones, stas se encuentran ms prximos entre s que en el caso de la distribucin de frecuencias anterior. Adems, he marcado en la grfica una distribucin normal con una media y desviacin correspondiente a la distribucin de valores anterior*Vamos a ser algo ms realista, consideremos ahora muestras de 5 sujetos y calculemos sus valores medios. Primera muestra, calculemos su valor medio y situmoslo sobre la grfica inferior. Con la segunda muestra repetimos el mismo proceso y obtenemos una nueva estimacin de la media aleatoriamente, as sucesivamente. *Repitiendo este proceso un alto nmero de ocasiones nuevamente nos encontramos ante una variable aleatoria, aunque en este caso los valores son ms parecidos entre s. Ha disminuido la variabilidad al aumentar el tamao de la muestra. Aunque arriba, en la distribucin de frecuencia podamos tener valores muy extremos, la media de cada muestra, que es lo que se representa abajo, siempre ofrece resultados similares. Y lo que es ms importante, la distribucin de la media de las muestras se parece a una distribucin normal.

    Esta es la razn de porqu es tan importante la distribucin gausiana.

    En muchas ocasiones los datos tienen una distribucin normal, pero incluso si no es normal, como en la poblacin de este ejemplo con una distribucin asimtrica, el proceso de elegir una muestra aleatoria y calcular su media desemboca de forma inevitable en una distribucin normal. Bien, pues esto es lo que afirma el teorema del lmite central: la distribucin de la media de las muestras se acerca a una distribucin normal cuando el tamao de las muestras se hace grande. Adems, la media de esta distribucin esta distribucin es la misma que la de la poblacin.

    Un concepto importantsimo que aparece es el de error tpico o error estandar. Llamamos as a la desviacin que se aprecia en el grfico y est representado como la distancia que va desde el centro hasta el punto de inflexin de la curva. No debe confundirse con la desviacin tpica, que eso es una medida de la dispersin en la grfica superior. El error tpico es una medida de la dispersin que se aprecia en la grfica inferior. El error tpico disminuye conforme aumenta el tamao de la muestra.

    Como ya sabis, la mayora de las investigaciones que habis ledo utilizan tamaos muestrales superiores a 30. Esto se debe a que con este tamao de la muestra, la distribucin de la media sigue una distribucin normal. Esto est relacionado con otra de las consecuencias derivadas del teorema del lmite central: el error tpico de la estimacin disminuye conforme a la raz cuadrada del tamao de la muestra. Esto significa que es casi normal la distribucin de la media estimada, estamos seguro que el 95% de las medias muestrales no deben alejarse de la media real en ms de dos veces esta cantidad. Por tanto, el error tpico es una medida de la precisin en el estudio. Si quiero garantizar que lo que calculo tiene cierta precisin, aunqeu se base en un proceso aleatorio, me basta con tomar muestas suficientemente grandes, tan grandes hasta que considere que el error tpico es convincentemente pequeo. Dada la normalidad del estimador, estamos seguro que el 95% de las medias muestrales no deben alejarse de la media real en ms de dos veces el error tpico

    *