apuntes estadistica uni bi variable probabilidad e inferencia contrastes 2

137
1. Estadística unidimensional 1.1. Población y muestra Se ha llevado a cabo una encuesta a un grupo de 15 estudiantes de primero de bachillerato sobre el número de horas semanales que dedican al estudio de la asigna- tura de Matemáticas. Los encuestados han respondido que el número de horas que dedican al estudio de esta asignatura son: 10  8 5 3  1 8 4  4 2 1 5  6 7 8  8 Este es un ejemplo de  variable estadística unidimensional, se dice unidimen- sional porque sólo estamos estudiando una característica, numérica en este caso, del grupo, el número de horas. El grupo al que se ha dirigido la encuesta, estudiantes de primero de bachillerato, se denomina población. La población son todos los estudian- tes de primero de bachillerato de España, por ejemplo. Los datos de los 15 estudiantes que hemos recogido, son una muestra extraída de la población. Una vez que tenemos una muestra de datos, el estudio de los mismos se puede llevar a cabo con dos nalidades distintas. Podemos estar interesados únicamente en sacar conclusiones sobre el número de horas que dedican al estudio de las Mate- máticas los 15 estudiantes a los que hemos preguntado; esto es hacer  Estadística descriptiva. Por otra parte, podríamos intentar sacar conclusiones sobre los hábitos de estudio de toda la población, en este caso, los estudiantes españoles de prime- ro de bachillerato, mediante el estudio de la muestra de 15 que tenemos; esto sería hacer  Estadística inferencial  o inferencia estadística. Para este último punto de vis- ta habría que utilizar modelos matemáticos de probabilidad, y es lo que se estudiará en el curso siguiente. En este curso y en esta unidad en particular, estudiaremos la Estadística desde el punto de vista descriptivo. En otras palabras, no pretendemos descubrir los hábitos de estudio de todos los estudiantes de primero de bachillerato, sino simplemente analizar lo que les ocurre a los 15 que hemos elegido. Como se ha dicho en la introducción, aquí vamos a recordar cómo se calculan algunos de los parámetros asociados a una variable estadística unidimensional, que ya se estudiaron en cursos anteriores. Sólo aquellos que vamos a necesitar en el resto de la undiad didácti ca. 1.2. Parámetros estadísticos Los parámetros estadísticos asociados a una variable son ciertos números que se calculan a partir de los datos, que proporcionan información sobre el comportamiento conjunto de la variable. Para ir recordándolos, vamos a utilizar el ejemplo de las horas de estudio de los 15 estudiantes de primero de bachillerato. Comenzamos ordenándolos de menor a mayor, 1 1 2 3 4 4 5 5 6 7 8 8 8  8 10 241

Upload: alberto-macias

Post on 21-Feb-2018

228 views

Category:

Documents


0 download

TRANSCRIPT

  • 7/24/2019 Apuntes Estadistica Uni Bi Variable Probabilidad e Inferencia Contrastes 2

    1/137

    1. Estadstica unidimensional

    1.1. Poblacin y muestraSe ha llevado a cabo una encuesta a un grupo de 15 estudiantes de primero debachillerato sobre el nmero de horas semanales que dedican al estudio de la asigna-

    tura de Matemticas. Los encuestados han respondido que el nmero de horas que

    dedican al estudio de esta asignatura son:

    10 8 5 3 1

    8 4 4 2 1

    5 6 7 8 8

    Este es un ejemplo de variable estadstica unidimensional, se dice unidimen-

    sional porque slo estamos estudiando una caracterstica, numrica en este caso, delgrupo, el nmero de horas. El grupo al que se ha dirigido la encuesta, estudiantes de

    primero de bachillerato, se denominapoblacin. La poblacin son todos los estudian-

    tes de primero de bachillerato de Espaa, por ejemplo. Los datos de los 15 estudiantes

    que hemos recogido, son una muestraextrada de la poblacin.

    Una vez que tenemos una muestra de datos, el estudio de los mismos se puede

    llevar a cabo con dos finalidades distintas. Podemos estar interesados nicamente en

    sacar conclusiones sobre el nmero de horas que dedican al estudio de las Mate-

    mticas los 15 estudiantes a los que hemos preguntado; esto es hacer Estadstica

    descriptiva. Por otra parte, podramos intentar sacar conclusiones sobre los hbitos

    de estudio de toda la poblacin, en este caso, los estudiantes espaoles de prime-

    ro de bachillerato, mediante el estudio de la muestra de 15 que tenemos; esto serahacerEstadstica inferencial o inferencia estadstica. Para este ltimo punto de vis-

    ta habra que utilizar modelos matemticos de probabilidad, y es lo que se estudiar

    en el curso siguiente. En este curso y en esta unidad en particular, estudiaremos la

    Estadstica desde el punto de vista descriptivo. En otras palabras, no pretendemos

    descubrir los hbitos de estudio de todos los estudiantes de primero de bachillerato,

    sino simplemente analizar lo que les ocurre a los 15 que hemos elegido.

    Como se ha dicho en la introduccin, aqu vamos a recordar cmo se calculan

    algunos de los parmetros asociados a una variable estadstica unidimensional, que

    ya se estudiaron en cursos anteriores. Slo aquellos que vamos a necesitar en el resto

    de la undiad didctica.

    1.2. Parmetros estadsticosLos parmetros estadsticos asociados a una variable son ciertos nmeros que se

    calculan a partir de los datos, que proporcionan informacin sobre el comportamiento

    conjunto de la variable.

    Para ir recordndolos, vamos a utilizar el ejemplo de las horas de estudio de los

    15 estudiantes de primero de bachillerato. Comenzamos ordenndolos de menor a

    mayor,

    1 1 2 3 4 4 5 5 6 7 8 8 8 8 10

    241

  • 7/24/2019 Apuntes Estadistica Uni Bi Variable Probabilidad e Inferencia Contrastes 2

    2/137

    UNIDAD 11Si sumamos todos los datos y dividimos la suma por la cantidad de ellos que hay,

    obtenemos lamediaomedia aritmtica, que representaremos porx. En nuestro caso,

    x=

    1 + 1 + 2 + 3 + 4 + 4 + 5 + 5 + 6 + 7 + 8 + 8 + 8 + 8 + 10

    15 =

    80

    15 = 5

    33

    lo que nos indica que, por trmino medio, estos quince estudiantes dedican 533 horas

    semanales al estudio de las matemticas.

    En general, si disponemos de los datos x1, x2, . . . , xn, lamediaes

    x= x1+ x2+ + xn

    n

    Donden es el nmero de datos de que disponemos.

    Para abreviar la expresin anterior, en particular la suma del numerador se utiliza

    el smbolo sumatorio

    . Aunque lo correcto sera escribir

    ni=1

    xi= x1+ x2+ + xn,para indicar que la suma es desde el primer dato x1, hasta el ensimo xn, escribiremos

    simplemente

    xi para referirnos a la suma de todos los xi.

    Por tanto, la frmula de la media se puede escribir de la forma siguiente:

    x= x1+ x2+ + xn

    n=

    xi

    n

    La media es un parmetro que mide la tendencia central de la variable estadstica.

    Otros parmetros de tendencia central son, aunque no los usaremos en la estadstica

    bidimensional; lamoda, que es el dato que aparece un mayor nmero de veces, y lamediana, que es el dato que ocupa el lugar central, si previamente se han ordenado

    de menor a mayor.

    En nuestro ejemplo, la modaes 8, que es el dato que aparece mayor nmero de

    veces, es decir, con mayorfrecuencia. Y lamediana, dado que hay 15 datos, es el dato

    que ocupa el lugar octavo, x8= 5, una vez que estn ordenados de menor a mayor:

    MEDIANA

    1 1 2 3 4 4 5 5 6 7 8 8 8 8 10

    Si el nmero de datos fuese par, entonces la mediana es la media aritmtica de

    los dos datos que se encuentran en el centro.

    Adems de los parmetros que miden la tendencia central; media, moda y media-

    na, hay otros que sirven para medir cul es la dispersin de los mismos, es decir, si

    estn ms o menos concentrados alrededor de la media. Los que vamos a recordar

    aqu sonvarianzay ladesviacin tpica.

    Varianza y desviacin tpica se utilizan para medir el promedio de las desviaciones

    de los datos con respecto de la media. Para medir esta desviacin, podramos calcular

    todas las diferencias entre dato y media, (xix), y sumarlas, para despus dividir entreel nmero de datos. Sin embargo, este resultado sera nulo. Por esta razn, lo que se

    hace es utilizar los cuadrados de las diferencias, as se trata de una suma de nmeros

    positivos o nulos, y no siempre dar cero.

    242

  • 7/24/2019 Apuntes Estadistica Uni Bi Variable Probabilidad e Inferencia Contrastes 2

    3/137

    La varianza es la suma de los cuadrados de las diferencias entre cada dato y la

    media, dividida por el nmero de datos, se denota s2,

    s2 = (x1

    x)

    2

    + (x2

    x)

    2

    + + (xn x)

    2

    n=

    (xi x)

    2

    n

    Entonces, para calcular la varianza, hay que restar la media a cada dato, despus

    se eleva al cuadrado cada nmero y se suman todos, por ltimo, se divide entre n. El

    proceso es algo largo, pero se puede abreviar, porque la frmula admite una expresin

    ms sencilla de utilizar. Se puede comprobar que la siguiente expresin proporciona

    el resultado, y es la que vamos a utilizar en la prctica:

    s2 =

    x2

    i

    n x2

    A pesar de que la varianza mide el promedio de las desviaciones de la media,

    como estas desviaciones se han elevado al cuadrado, no estn en las mismas uni-

    dades que los datos. Por esta razn, resulta ms intuitivo a la hora de interpretar la

    variabilidad o dispersin de los datos, utilizar otro parmetro, la desviacin tpica, que

    es simplemente la raz cuadrada de la varianza, y se denota s,

    s=

    x2

    i

    n x2

    Calculemos la varianza y desviacin tpica en nuestro ejemplo del nmero de horas

    de estudio:La varianza la calculamos con la frmula

    s2 =

    x2i

    n x2

    Calculamos en primer lugar la suma de los cuadrados de los xi,x2i = x

    2

    1+ x2

    2+ + x2n= 12 + 12 + 22 + 32 + 42 + 42 + 52 + 52 + 62 + 72 + 82 + 82 + 82 + 82 + 102

    = 1 + 1 + 4 + 9 + 16 + 25 + 36 + 49 + 64 + 64 + 64 + 64 + 100

    = 538

    Ahora sustituimos en la frmula de la varianza,

    s2 =538

    15 5332 = 746

    Por tanto, la desviacin tpica,

    s=

    s2 =

    746 = 273

    En resumen, la media de tiempo dedicado al estudio de la asignatura de matemticas

    de los 15 alumnos analizados es x = 533horas; y la desviacin tpica es s = 273,lo que quiere decir que la mayora de los 15 estudiantes dedica al estudio de las

    243

  • 7/24/2019 Apuntes Estadistica Uni Bi Variable Probabilidad e Inferencia Contrastes 2

    4/137

    UNIDAD 11matemticas un tiempo comprendido entre las 533 273 = 26horas y533 + 273 =806horas.

    ACTIVIDADES

    1. El nmero de libros ledos en el ltimo mes por diez personas ha sido:

    0 1 2 2 2 3 3 4 5 5

    Calcular la media, moda, mediana, varianza y desviacin tpica.

    Recuerda

    Una variable estadstica unidimensionales una caracterstica numrica de un grupo

    de individuos.

    Se llama poblacinal conjunto de individuos del que se hace un estudio estadstico.

    Se llamamuestraa un subconjunto de la poblacin.

    Conocidos los datos x1, x2, . . . , xn de una variable estadstica. Los principales par-

    metros estadsticos se calculan de la forma siguiente:

    - Media. Es la suma de los datos dividido entre la cantidad de ellosx =

    xi

    n .

    - Moda. Es el dato que aparece con mayor frecuencia.- Mediana. Es el dato central, si el nmero de datos es impar. Si el nmero es par,

    es la media de los dos datos centrales.

    - Varianza. Es el promedio de los cuadrados de las diferencias entre cada dato y

    su media, se puede calcular de dos formas equivalentes, aunque la segunda es

    ms conveniente,s2 =

    (xi x)2

    n =

    x2i

    n x2.

    - Desviacin tpica. Es la raz cuadrada de la varianza, mide la desviacin de la

    media de los datos, s =

    s2.

    2. Estadstica bidimensionalHemos recordado en la seccin anterior algunas nociones de estadstica unidimen-

    sional. All estudibamos una caracterstica numrica de un grupo de individuos. En la

    estadstica bidimensional se trata de estudiar dos caractersticas numricas de cada

    individuo.

    2.1. Variables estadsticas bidimensionalesTenemos un grupo de 8 estudiantes de primero de bachillerato que han hecho un

    examen de la asignatura de Matemticas y otro de la asignatura de Fsica y Qumica,

    244

    A

    B

  • 7/24/2019 Apuntes Estadistica Uni Bi Variable Probabilidad e Inferencia Contrastes 2

    5/137

    las notas, de 0 a 10, de cada alumno en cada asignatura han sido las siguientes:

    xi 2 4 5 6 7 8 8 9

    yi

    3 5 4 55 5 75 8 10

    donde para cada par (xi, yi), la nota de Matemticas es xi, y la de Fsica y Qumica,yi de un alumno concreto.

    Este es un ejemplo de variable estadstica bidimensional (X, Y), dondeX = nota de Matemticas, Y = nota de Fsica y Qumica. El objeto de estudiar lasdos variables de manera conjunta es el de ver qu tipo de relacin hay entre ambas,

    si es que hay alguna.

    2.2. Nube de puntos

    Una primera aproximacin al estudio dela relacin existente entre las dos va-

    riables que constituyen una variable bi-

    dimensional es su representacin grfi-

    ca. Si cada par (xi, yi) lo representamoscomo un punto en unos ejes coordena-

    dos, se obtiene una grfica que llamare-

    mosnube de puntos o diagrama de dis-

    persin. Para el ejemplo anterior, la nube

    de puntos se ha representado en la figura

    11.1.

    La forma de la nube de puntos de la figura11.1 nos sugiere que existe algn tipo de

    dependencia entre la nota de Matemti-

    cas y la de Fsica y Qumica.

    0 1 2 3 4 5 6 7 8 9 10 110

    1

    2

    3

    4

    5

    6

    7

    8

    9

    10

    11

    Matemticas

    FsicayQumica

    X

    Y

    Figura 11.1: Nube de puntos

    En efecto, segn vemos en la figura, parece que cuando un alumno tiene una nota

    alta en la asignatura de Matemticas, tambin la tiene en la asignatura de Fsica y

    Qumica. Lo mismo ocurre con alumnos que han obtenido nota baja en una de las

    asignaturas, tambin ha obtenido una nota baja en la otra. Se dice en este caso que

    parece existir una dependencia linea positivaentre las dos variables (debido a que la

    nube de puntos se asemeja a una recta con pendiente positiva). Mediante los para-

    metros bidimensionales que estudiaremos despus, veremos cmo se puede medircuantitativamente el grado de dependencia.

    La nube de puntos puede presentar muchas formas distintas, en la figuras siguien-

    tes se muestran algunas de las diferentes posibilidades.

    En la figura 11.2, los puntos parecen acumularse alrededor de una recta con

    pendiente positiva, como en nuestro ejemplo anterior. Diremos entonces que

    entre las variables, haydependencia lineal positiva.

    En la figura 11.3, los puntos parecen acumularse en torno a una recta con pen-

    diente negativa. En este caso, diremos que entre las variables, haydependencia

    lineal negativa.

    245

  • 7/24/2019 Apuntes Estadistica Uni Bi Variable Probabilidad e Inferencia Contrastes 2

    6/137

    UNIDAD 11

    00

    X

    Y

    Figura 11.2: Dependencia lineal positiva

    00

    X

    Y

    Figura 11.3: Dependencia lineal negativa

    00

    X

    Y

    Figura 11.4: Dependencia no lineal

    00

    X

    Y

    Figura 11.5: No hay dependencia

    En la figura 11.4, los puntos parecen seguir una curva, en este caso parecida a

    una parbola. Es decir, entre las variables parece haber algn tipo de dependen-

    cia, aunque ahora esno lineal.

    Por ltimo, en la figura 11.5, los puntos estn situados en el plano sin seguir

    ninguna pauta concreta, sin aproximarse a ninguna curva o recta que sugiera

    algn tipo de funcin. Diremos que entre las variables,no hay dependencia.

    Pero, incluso dentro de cada uno de los casos anteriores se pueden establecer

    diferencias. Observemos las nubes de puntos de las figuras 11.6 y 11.7. En ambastenemos, segn acabamos de explicar, una dependencia lineal negativa. Sin embargo,

    son claramente distintas. Mientras que los puntos del diagrama de la figura 11.6 estn

    prcticamente sobre la recta, en la figura 11.7, los puntos estn mucho ms dispersos.

    Para distinguir entre estas posibilidades, se dice que hay dependencia lineal fuertey

    dependencia linealdbil, respectivamente.

    No obstante, esta denominacin de fuerte o dbil resultara ambigua si no hubie-

    se otra posibilidad que la simple observacin de la nube de puntos. Por esta razn,

    veremos ms adelante un parmetro, el coeficiente de correlacin, que establece nu-

    mricamente una medida para el grado de dependencia de las variables.

    246

  • 7/24/2019 Apuntes Estadistica Uni Bi Variable Probabilidad e Inferencia Contrastes 2

    7/137

    00

    X

    Y

    Figura 11.6: Dependencia fuerte

    00

    X

    Y

    Figura 11.7: Dependencia dbil

    ACTIVIDADES

    2. Dibujar las nubes de puntos correspondientes a las siguientes variables estadsti-

    cas bidimensionales. Indicar adems, el tipo de dependencia entre las variables que

    se observa en el diagrama. Ser til para ello intentar dibujar la recta o la curva que

    mejor se aproxime a la nube de puntos:

    a) xi 2 2 3 4 6 7 8 5

    yi 9 8 8 5 3 1 1 4 b)

    xi 1 1 2 4 5 6 7 8

    yi 2 3 6 7 7 6 4 2

    c) xi 1 2 4 4 6 6 9 9

    yi 2 6 8 2 4 8 2 7 d)

    xi 1 2 2 4 5 6 7 7

    yi 1 2 3 4 6 7 8 9

    Recuerda

    Unavariable estadstica bidimensionales un par de caractersticas numricas (X, Y)de un cierto conjunto de individuos. Por ejemplo, el peso y la estatura de un grupo de

    personas.

    Una nube de puntos o diagrama de dispersin es la representacin grfica de los

    datos de una variable estadstica bidimensional (X, Y). Se trata de representar losdatos(x1, y1), (x2, y2), . . . , (xn, yn), como puntos en un sistema de ejes coordenados.

    El aspecto de la nube de puntos sugiere la dependencia entre las variablesX e Y de

    una variable bidimensional(X, Y):

    - Si la los puntos se acumulan en torno a una recta de pendiente positiva, se dice que

    haydependencia lineal positiva.

    - Si se acumulan alrededor de una recta de pendiente negativa, se dice que hay de-

    pendencia linea negativa.

    - Tambin puede haber dependencia no lineal, cuando los puntos se acumulan en

    torno a una curva, y puede no haber dependencia, si los puntos no siguen ningunapauta reconocible.

    247

    A

    B

    C

    D

  • 7/24/2019 Apuntes Estadistica Uni Bi Variable Probabilidad e Inferencia Contrastes 2

    8/137

    UNIDAD 113. Parmetros estadsticos

    bidimensionalesComo ya hemos comentado antes, el objeto de estudiar de manera conjunta dos

    variables estadsticas en lo que llamamos una variable bidimensional, es el de estudiar

    la posible dependencia de las dos variables. Para ello, adems de la nube de puntos,

    se pueden calcular ciertos parmetros estadsticos que proporcionan informacin so-

    bre el conjunto de datos. Hay unos parmetros que se refieren slo a cada variable

    por separado, son las medias y desviaciones tpicas marginales. Otros, que estu-

    diaremos despus, involucran a los datos de las dos variables.

    3.1. Medias y desviaciones tpicas marginales

    Consideremos los siguientes datos correspondientes a una variable bidimensional

    (X, Y).

    xi 1 3 3 4 5 6 7 8 8 8

    yi 2 3 4 4 6 7 7 7 8 9

    Si pensamos en los datos de la variable Xde forma independiente, podemos cal-

    cular, tanto su media como su desviacin tpica con las frmulas de la estadstica

    unidimensional. As, las medias se calculan mediante las frmulas:

    x=xin

    y = yin

    donde

    xi,

    yi son las sumas de xi e yi, respectivamente, y n es el nmero de

    (pares de) datos.

    Para nuestro ejemplo, estas medias son:

    x= 53

    10= 53 y=

    57

    10= 5 7.

    Lasmedias marginales admiten una in-

    terpretacin grfica importante. Si dibuja-

    mos la nube de puntos (en la figura 11.8

    hemos dibujado la nube de los datos an-

    teriores), el punto de coordenadas ( x, y)se encuentra siempre en el centro de

    gravedad de la nube, esto es, el punto

    donde se puede suponer concentrada to-

    da la masa.

    0 1 2 3 4 5 6 7 8 9 100

    1

    2

    3

    4

    5

    6

    7

    8

    9

    10

    X

    Y

    Centro degravedad

    Figura 11.8:(x, y)es el centro de gravedad

    248

  • 7/24/2019 Apuntes Estadistica Uni Bi Variable Probabilidad e Inferencia Contrastes 2

    9/137

    ACTIVIDADES

    3. Para los siguientes datos, dibujar la nube de puntos correspondiente y su centrode gravedad, es decir, el punto de coordenadas (x, y):

    a) xi 2 3 4 5

    yi 6 5 3 2 b)

    xi 1 2 3 4

    yi 1 3 3 1 c)

    xi 1 2 3 4

    yi 1 3 5 4 .

    Tambin se pueden calcular de forma separada las varianzas y las desviaciones

    tpicas marginales, mediante las frmulas siguientes:

    - Lasvarianzas marginales:

    s2

    x= x2

    i

    n

    x2 s2y = y2

    i

    n

    y2

    - Lasdesviaciones tpicas marginales:

    sx=

    x2

    i

    n x2 sy =

    y2

    i

    n y2

    Vamos a calcular las varianzas y desviaciones tpicas del ejemplo con el que empe-

    zbamos este apartado. Para llevar a cabo estos clculos, y los que vendrn despus,

    conviene organizar la informacin en una tabla que nos permita realizar la tarea de una

    manera ms cmoda. Una posibilidad es organizarlo como en la tabla que se pone acontinuacin, en la que aparecen (de momento) cuatro columnas; xi, yi, que son los

    datos originales, yx2i ,y2i , que son los datos al cuadrado. En la ltima fila de la tabla se

    ponen las sumas de todas las columnas:

    xi yi x2

    i y

    2

    i

    1 2 1 4

    3 3 9 9

    3 4 9 16

    4 4 16 16

    5 6 25 36

    6 7 36 49

    7 7 49 49

    8 7 64 49

    8 8 64 64

    8 9 64 81

    53 57 337 373 SUMAS

    Y ahora slo queda sustituir en las

    frmulas.

    Varianzas:

    s2x=337

    10 532 = 561

    s2y = 373

    10 572 = 4 81.

    Desviaciones tpicas:

    sx =

    561 = 237

    sy =

    481 = 219.

    3.2. CovarianzaLacovarianzaes el primer parmetro conjunto que vamos a estudiar, en el sentido

    de que involucra los datos de las dos variables. Da una idea sobre la forma en que se

    distribuyen los puntos alrededor del centro de gravedad (x, y). Se representa porsxy

    y

    es la media de los productos de las diferencias de las coordenadas de cada punto de

    249

    A

    B

    C

  • 7/24/2019 Apuntes Estadistica Uni Bi Variable Probabilidad e Inferencia Contrastes 2

    10/137

    UNIDAD 11la nube(xi, yi)y las coordenadas de(x, y), es decir,

    sxy= (xi x)(yi y)n

    Al igual que ocurra en el caso de las varianzas, la covarianza se puede calcular

    mediante una frmula que es equivalente a la anterior, pero ms sencilla de utilizar

    desde un punto de vista prctico, esta frmula equivalente es la siguiente:

    sxy=

    xi.yi

    n x.y

    Para utilizar esta frmula, primero hay que calcular la suma de todos los productos

    xi.yi, dividir esta suma entre n y restarle el producto de las medias. A efectos prcticos,

    en la tabla de la que hemos hablado antes, aadimos una nueva columna, la de los

    productosxi.yi, cuyos componentes sern los productos de los de las columnas xi,yi.

    Para el ejemplo del apartado anterior, completando la tabla que habamos empezado

    antes,

    xi yi x2i y

    2i xi.yi

    1 2 1 4 23 3 9 9 93 4 9 16 124 4 16 16 165 6 25 36 306 7 36 49 42

    7 7 49 49 498 7 64 49 568 8 64 64 648 9 64 81 72

    53 57 337 373 352

    Entonces, la covarianza en este caso es

    sxy=

    xi.yi

    n x.y= 352

    10 53 57 = 4 99

    Aparte de la forma en la que se calcula la covarianza que, segn acabamos de

    ver, no reviste una especial dificultad, nos interesa saber cul es el significado de esteparmetro. Como dijimos al principio, la covarianza da una idea de cmo estn distri-

    buidos los puntos alrededor del centro de gravedad(x, y). Y esto se aprecia medianteel signo.

    - Si la covarianza es un nmero positivo, los puntos estarn dispuestos de manera

    que haya dependencia lineal positiva.

    - Si la covarianza es un nmero negativo, los puntos estarn dispuestos de manera

    que haya dependencia lineal negativa.

    - Si la covarianza es un nmero prximo a cero, esto indicar que, o bien no hay

    dependencia entre las variables, o esta dependencia no es lineal.

    Hay una explicacin geomtrica para lo anterior, y aunque no vamos a entrar mu-

    cho en los detalles, indicaremos que realmente la covarianza no es otra cosa que la

    250

  • 7/24/2019 Apuntes Estadistica Uni Bi Variable Probabilidad e Inferencia Contrastes 2

    11/137

    media de los productos de las coordenadas de los puntos una vez trasladados los ejes

    al punto(x, y). Entonces, si cada vez que tenemos una nube de puntos, imaginamoslos ejes centrados en(x, y), dependiendo de en qu cuadrante estn los puntos, los

    signos de los productos sern positivos o negativos. Por ejemplo, si la mayora de lospuntos se encuentran en el primer y tercer cuadrante, la media ser positiva. Esto es

    lo que ocurre cuando hay dependencia lineal positiva.

    ACTIVIDADES

    4. A partir de los datos siguientes, dibujar la nube de puntos y calcular medias y la

    covarianza:

    xi 1 2 3 4

    yi 9 8 6 3

    Qu tipo de dependencia hay entre las variables?

    Recuerda

    Sea (X, Y) una variable estadstica bidimensional. A partir de los datos(x1, y1), (x2, y2), . . . , (xn, yn) de la varible, se pueden calcular los siguientes parme-tros:

    Medias marginales:

    x=

    xi

    n y=

    yi

    n

    El punto(x, y)es elcentro de gravedadde la nube de puntos.

    Varianzas marginales:

    s2x=

    x2i

    n x2 s2y =

    y2i

    n y2

    Desviaciones tpicas marginales:

    sx=

    x2i

    n x2 sy =

    y2i

    n y2

    Covarianza:

    sxy=

    xi.yi

    n x.y

    El signo de la covarianza determina el tipo de dependencia entre las variables:

    - Si sxy >0 hay dependencia lineal positiva.

    - Si sxy

  • 7/24/2019 Apuntes Estadistica Uni Bi Variable Probabilidad e Inferencia Contrastes 2

    12/137

    UNIDAD 114. Correlacin

    A pesar de que el signo de la covarianza indica el tipo de dependencia que hay

    entre las variables, no nos sirve para determinar si esta dependencia es ms o menosfuerte. La razn es que su valor depende de las unidades en las que estn dados

    los datos. Es decir, que si una de las variables est en centmetros, por ejemplo, y

    pasamos estas medidas a metros, el valor de la covarianza cambia (aunque no el

    signo).Lo cual impide que se pueda establecer una comparacin acertada entre dos

    dependencias lineales positivas o dos dependencias negativas.

    Para evitar este problema, se utiliza otro parmetro llamado coeficiente de corre-

    lacin linealocoeficiente de Pearson(nosotros lo llamaremos simplemente coeficien-

    te de correlacin), que se define como el cociente entre la covarianza y el producto de

    las desviaciones tpicas:

    r = sxy

    sx.sy

    Veamos en primer lugar un ejemplo sencillo de cmo se calcula y, a continuacin,

    comentaremos su significado.

    Por ejemplo, queremos calcular el coeficiente de correlacinpara los datos siguien-

    tes:xi 1 3 4 6

    yi 1 2 5 5

    En primer lugar, organizamos la informacin en la tabla que hemos aprendido a

    utilizar antes,xi yi x

    2i y

    2i xi.yi

    1 1 1 1 13 2 9 4 64 5 16 25 206 5 36 25 30

    14 13 62 55 57

    Y empezamos a calcular los parmetros estadsticos.

    Medias:

    x=

    xi

    n =

    14

    4 = 3 5 y=

    yi

    n =

    13

    4 = 325

    Varianzas:

    s2x=

    x2i

    n x2 =62

    4 352 = 325 s2y =

    y2i

    n y2 = 55

    4 3252 = 319

    Desviaciones tpicas:

    sx=

    325 = 180 sy =

    319 = 178

    Covarianza:

    sxy=

    xi.yin

    xy= 574 35 325 = 287

    252

  • 7/24/2019 Apuntes Estadistica Uni Bi Variable Probabilidad e Inferencia Contrastes 2

    13/137

    Por fin, el coeficiente de correlacin es

    r= sxy

    sxsy

    = 287

    180

    178= 089

    ACTIVIDADES

    5. Multiplicar los todos los datos anteriores por 10 y calcular el nuevo coeficiente de

    correlacin. Es decir, ahora consideramos los datos:

    xi 10 30 40 60

    yi 10 20 50 50

    Ya sabemos calcular el coeficiente de correlacin. Veamos ahora cmo lo podemos

    interpretar.

    En primer lugar, es evidente que el signo del coeficiente de correlacin y el de la

    covarianza coinciden, ya que las desviaciones tpicas que aparecen en el denominador

    son siempre positivas (recordemos que las desviaciones tpicas son races cuadradas

    y, por tanto, su resultado siempre es positivo.) Pero adems, se puede demostrar que

    r2 1, lo cual implica quer siempre es un nmero comprendido entre -1 y 1,

    1 r 1

    El hecho de quer est ms prximo a -1, a 1, o a 0 est directamente relacionado

    con la forma de la nube de puntos y, por tanto, con el tipo de dependencia entre las

    variables estadsticas.

    En las grficas de la figura 11.9 hemos dibujado diferentes nubes de puntos junto

    a los valores de sus correspondientes coeficientes de correlacin.

    0 0. 1 0 .2 0. 3 0 .4 0 .5 0 .6 0. 7 0 .8 0 .9 10

    0.1

    0.2

    0.3

    0.4

    0.5

    0.6

    0.7

    0.8

    0.9

    1

    r= 098

    0 0 .1 0. 2 0 .3 0 .4 0. 5 0 .6 0 .7 0 .8 0. 9 10

    0.1

    0.2

    0.3

    0.4

    0.5

    0.6

    0.7

    0.8

    0.9

    1

    r= 081

    0 0. 1 0 .2 0 .3 0. 4 0 .5 0 .6 0. 7 0 .8 0 .9 10

    0.1

    0.2

    0.3

    0.4

    0.5

    0.6

    0.7

    0.8

    0.9

    1

    r= 0020 0 .1 0. 2 0 .3 0 .4 0 .5 0. 6 0 .7 0 .8 0. 9 1

    0

    0.1

    0.2

    0.3

    0.4

    0.5

    0.6

    0.7

    0.8

    0.9

    1

    r= 0790 0. 1 0 .2 0 .3 0. 4 0 .5 0 .6 0. 7 0 .8 0 .9 1

    0

    0.1

    0.2

    0.3

    0.4

    0.5

    0.6

    0.7

    0.8

    0.9

    1

    r= 099Figura 11.9: Coeficiente de correlacin y nube de puntos

    Segn vemos en las figuras, cuando los valores de r son positivos, tenemos de-

    pendencia lineal positiva, tanto ms fuerte, cuanto ms prximo a 1 est el valor de

    r. Cuando los valores de r son negativos, hay dependencia lineal negativa, tanto ms

    fuerte, cuanto ms prximo a -1 est el valor de r . Por ltimo, en el diagrama central

    tenemos un ejemplo de una nube de puntos en la que no se aprecia ninguna tendencia

    positiva o negativa concreta, en este caso, el valor de r est cercano a 0.

    Por ltimo, si r = 1los puntos estar situados sobre una recta de pendiente positi-va, es decir, no es que se parezcan a una recta, sino que estn alineados. Si r =

    1

    los puntos estarn alineados en una recta con pendiente negativa. Y cuando r = 0,

    253

  • 7/24/2019 Apuntes Estadistica Uni Bi Variable Probabilidad e Inferencia Contrastes 2

    14/137

    UNIDAD 11estaramos en el caso en el que no hay absolutamente ninguna dependencia o corre-

    lacin, se dice a veces que las variables son incorreladas.

    A la hora de calcular el coeficiente de correlacin hay que tener una pequeaprecaucin. Lo habitual es que aparezcan decimales casi desde el primer clculo, de

    los cuales tomamos los 2 o los 3 primeros, bien eliminando los dems (esto se llama

    truncar), o bien redondeando al segundo, al tercero, etc. Sea cual sea la manera en la

    que lo hagamos, cuando llegamos al valor de r se han acumulado pequeos errores

    que, finalmente nos pueden dar un valor de r poco mayor que 1, por ejemplo, 1001.

    Pero esto, tericamente es imposible, en estos casos lo mejor es rehacer los clculos

    tomando un mayor nmero de decimales, con el objeto de aumentar la exactitud.

    ACTIVIDADES

    6. Asignar a cada una de las nubes de puntos siguientes su valor del coeficiente de

    correlacin de entre los siguientes:

    r= 060; r= 099; r= 098; r= 026.

    A

    0 0.1 0.2 0 .3 0 .4 0 .5 0 .6 0.7 0.8 0.9 10

    0.1

    0.2

    0.3

    0.4

    0.5

    0.6

    0.7

    0.8

    0.9

    1

    B

    0 0.1 0.2 0 .3 0 .4 0 .5 0 .6 0.7 0.8 0.9 10

    0.1

    0.2

    0.3

    0.4

    0.5

    0.6

    0.7

    0.8

    0.9

    1

    C

    0 0 .1 0 .2 0 .3 0 .4 0 .5 0 .6 0 .7 0 .8 0.9 10

    0.1

    0.2

    0.3

    0.4

    0.5

    0.6

    0.7

    0.8

    0.9

    1

    D

    0 0.1 0.2 0 .3 0 .4 0 .5 0.6 0. 7 0 .8 0. 9 10

    0.1

    0.2

    0.3

    0.4

    0.5

    0.6

    0.7

    0.8

    0.9

    1

    Recuerda

    Elcoeficiente de correlacin linealmide el grado de asociacin lineal entre dos varia-

    bles estadsticas. Se calcula mediante la frmula

    r= sxy

    sx sy

    Verifica 1 r 1.Si r >0, hay dependencia lineal positiva entre las variables.

    Si r

  • 7/24/2019 Apuntes Estadistica Uni Bi Variable Probabilidad e Inferencia Contrastes 2

    15/137

    5. Regresin lineal

    Si calculsemos el coeficiente de corre-

    lacin de la nube de puntos de la figur

    11.10, obtendramos un resultado positi-

    vo. En efecto, se observa que hay una

    dependencia lineal positiva, ya que los

    puntos parecen acumularse alrededor de

    una recta de pendiente positiva, recta es-

    ta que tambin se ha dibujado en la figu-

    ra. Ahora bien, cul es la recta que me-

    jor se aproxima a los puntos? Esta recta,

    cuya ecuacin vamos a aprender a calcu-lar es la llamadarecta de regresin.Figura 11.10: Recta de regresin

    Cuando queremos estudiar la recta que mejor se aproxima a la nube de puntos,

    estamos haciendoregresin lineal. Sin embargo, hemos visto a lo largo de esta unidad

    otras nubes de puntos que ms que acercarse a una recta, parecan aproximarse a

    alguna curva (una parbola por ejemplo). En este caso hablaramos de regresin no

    lineal. En este curso slo nos ocuparemos de laregresin lineal.

    5.1. Rectas de regresinHemos dicho antes que la recta de regresin es la recta que mejor se aproxima

    a la nube de puntos. Vamos a intentar aclarar qu queremos decir con la expresin

    mejor se aproxima".

    Empezaremos diciendo que hay dos formas de precisar esta idea, que dan lugar a

    dos rectas de regresin, que se van a llamar, respectivamente, recta de regresinde

    Y sobreXyrecta de regresin XsobreY.

    La recta de regresin de Y sobre X aparece como aquella recta que hace que

    las diferencias entre las ordenadas de la recta y las ordenadas de los puntos (estas

    diferencias son los segmentos verticales que se han dibujado en la figura 11.10, es

    decir, son las diferencias entre la altura del punto y la de la recta) sea, en promedio,

    mnima. Debido a que estas diferencias son positivas y negativas, dependiendo de

    que el punto est por debajo o por encima de la recta, realmente lo que se hace eselevarlas al cuadrado, sumarlas y dividir entre el nmero de puntos, para calcular el

    promedio. Bien, pues imponiendo la condicin de que este promedio sea mnimo, se

    puede demostrar que la ecuacin que la verifica es

    y y = sxy

    s2x

    (x x)

    La recta de regresin de XsobreY se obtiene de manera anloga, imponiendo la

    condicin de que sean mnimas las diferencias entre las abscisas. De esta forma, se

    llega a la ecuacin

    x x=

    sxy

    s2y (y y)

    255

  • 7/24/2019 Apuntes Estadistica Uni Bi Variable Probabilidad e Inferencia Contrastes 2

    16/137

    UNIDAD 11Es fcil darse cuenta de que las dos rectas de regresin pasan por el centro de

    masas de la nube de puntos (x, y)y adems, ambas estn inclinadas hacia el mismolado, es decir, ambas tienen pendiente positiva o pendiente negativa, precisamente

    dependiendo de que la haya dependencia lineal positiva o negativa.Para calcularlas es necesario calcular las medias, las varianzas y la covarianza.

    En el apartado siguiente vamos a ver un ejemplo.

    5.2. Estimaciones con las rectas de regresin

    Para qu sirven las rectas de regresin? Pues sirven para hacer estimaciones de

    una de las variables sobre la otra. Vamos a ver qu significa esto mediante un ejemplo

    que ya apareci cuando empezamos a hablar de variables estadsticas bidimensiona-

    les, las notas de la asignatura de Matemticas y de la asignatura de Fsica y Qumica

    de un grupo de alumnos.

    xi 2 4 5 6 7 8 8 9

    yi 3 5 4 55 5 75 8 10

    donde losxi son las notas de Matemticas y los yi las de Fsica y Qumica.

    La nube de puntos de estos datos, que ya habamos dibujado, es la de la figura

    11.11 y sugiere que cuando la nota de Matemticas es alta, tambin lo es la de Fsica

    y Qumica; y lo mismo cuando la nota es baja.

    0 1 2 3 4 5 6 7 8 9 10 110

    1

    2

    3

    4

    5

    6

    7

    8

    9

    10

    11

    Matemticas

    FsicayQumica

    X

    Y

    Figura 11.11: Dependencia positiva

    Este grado de dependencia o de correlacin la podemos cuantificar mediante el

    clculo del coeficiente de correlacin. Omitiremos la tabla y algunos de los clculos

    que hemos repetido ya en varios ejemplos. (Se sugiere como ejercicio verificar los

    resultados.)

    Medias:

    x= 6125; y= 6.

    Varianzas:

    s2x= 48594 s2y = 4

    6875.

    256

  • 7/24/2019 Apuntes Estadistica Uni Bi Variable Probabilidad e Inferencia Contrastes 2

    17/137

    Desviaciones tpicas:

    sx= 22044 sy = 2

    1651.

    Covarianza:

    sxy= 425.

    Coeficiente de correlacin:

    r= sxy

    sx sy= 08905.

    Lo que confirma nuestra observacin sobre la nube de puntos. Existe una correla-

    cin positiva fuerte entre las dos variables.

    Ahora bien, supongamos que un estudiante ha hecho los dos exmenes y slo

    conoce la nota de Matemticas que es un 65. Qu nota puede esperar en la asigna-tura de Fsica y Qumica? Para hacer esta estimacin es para lo que sirve la recta de

    regresin deY sobreX. Calculamos su ecuacin sustituyendo en la expresin

    y y= sxys2x

    (x x)

    y 6 = 425

    48594(x 6125)

    que, simplificando y despejando y se convierte en

    y= 0

    8746x + 0

    6431

    Ahora, para estimar la nota de Fsica y Qumica, sustituimos en la ecuacin de la

    recta el valor x = 65, entonces, y = 6328, que ser aproximadamente la nota quepuede obtener.

    Otro estudiante sabe que ha obtenido 9 en Fsica y Qumica. Qu nota puede

    esperar en Matemticas? Ahora sabemos que y = 9y queremos calcular x. Para estecaso, es ms adecuada la recta de regresin de XsobreY, ya que queremos calcular

    xconocidoy .

    Calculamos la recta de regresin deXsobreYsustituyendo en la expresin

    x x= sxys2y

    (y y)

    x 6125 = 425

    46875(y 6)

    Simplificamos y despejamos x y obtenemos

    x= 09067y+ 0685.

    Para estimar la nota de Matemticas, sustituimos en la ecuacin de esta recta el

    valory = 9, con lo que se obtiene x = 88453.

    257

  • 7/24/2019 Apuntes Estadistica Uni Bi Variable Probabilidad e Inferencia Contrastes 2

    18/137

    UNIDAD 11Qu fiabilidad tienen estas estimaciones? Desde luego, no se puede esperar que

    aporten el resultado exacto. Su exactitud depender precisamente del valor del coefi-

    ciente de correlacin. Cuanto ms prximo est el coeficiente de correlacin a -1 o a

    1, mejor ser la estimacin. Por otra parte, hay que tener en cuenta que la estimacinslo tendr sentido si el valor que se sustituye est en el rango de los datos que se tie-

    nen. Por ejemplo, si tenemos datos de peso y estatura de un grupo de personas y los

    pesos oscilan entre 60 y 70 kilogramos, no tendra sentido, con estos datos, intentar

    hacer una estimacin de la estatura de una persona que pese 120 kilogramos.

    ACTIVIDADES

    7. Se ha preguntado a un grupo de personas cuntas horas semanales dedican a ha-

    cer deporte(X)y cuntas horas semanales dedican a ver la televisin. Las respuestashan sido las siguientes:

    xi 0 4 7 8 10

    yi 20 15 5 4 1

    Calcular las ecuaciones de las dos rectas de regresin. Utilizando la recta adecuada,

    estimar el tiempo que dedicara a ver la televisin una persona que dedica semanal-

    mente 5 horas a hacer deporte.

    Recuerda

    Una recta de regresin es la que mejor se ajusta a una nube de puntos. Hay dos:

    Recta de regresin de Y sobreX:y y= sxys2x

    (x x)

    Recta de regresin de XsobreY:x x= sxys2y

    (y y)

    Las rectas de regresin sirven para hacer estimaciones de una variable sobre la otra.

    Si conocemos x, utilizamos la recta de regresin de Y sobreXpara calculary .

    Si conocemos y, utilizamos la recta de regresin de XsobreY para calcular x.

    258

  • 7/24/2019 Apuntes Estadistica Uni Bi Variable Probabilidad e Inferencia Contrastes 2

    19/137

    ACTIVIDADES

    6. De las siguientes variables aleatorias, indicar cul es discreta y cul es continua:a) El nmero de llamadas telefnicas que recibe una determinada centralita entre las

    9 y las 10 horas de un da elegido al azar.

    b) Tiramos dos dados y sumamos sus puntuaciones.

    c) La hora a la que llega el autobs a una parada, de la que sabemos que est com-

    prendida entre las 5 y las 5 y media de la tarde.

    d) El peso de una persona elegida al azar.

    e) La cuanta del primer premio de un sorteo de lotera primitiva en euros.

    f) El nmero de coches de una familia escogida al azar.

    Recuerda

    Unadistribucin de frecuenciases el recuento de frecuencias de cada resultado cuan-

    do se ha realizado un experimento aleatorio varias veces.

    Una distribucin de probabilidad es un recuento de probabilidad de cada resultado

    posible asociado a un cierto experimento aleatorio.

    Una variable aleatoriaes una ley o funcin que toma valores asociados a los resultados

    de un experimento aleatorio.

    Una variable aleatoria es discretacuando slo puede tomar un cierto nmero de valo-

    res, o bien cuando, aunque esos valores sean infinitos, entre cada dos, no se puede

    encontrar un tercero.

    Una variable aleatoria es continuacuando puede tomar valores en un cierto intervalo

    de nmeros reales.

    3. Variables aleatorias discretas:

    la distribucin BinomialYa hemos visto lo que es una variable aleatoria discreta. En esta seccin vamos

    a estudiar sus caractersticas principales y el ejemplo ms importante de variable dis-

    creta, la distribucin Binomial.

    3.1. Caractersticas de una variable aleatoriadiscreta

    Volvamos al ejemplo del lanzamiento de dos monedas. Si consideramos la varia-

    ble aleatoria X = nmero de caras, esta variable aleatoria discreta poda tomar losvaloresX = 0, 1, 2. La funcin que asigna a cada valor de la variable su probabilidad

    269

  • 7/24/2019 Apuntes Estadistica Uni Bi Variable Probabilidad e Inferencia Contrastes 2

    20/137

    UNIDAD 12correspondiente se llamafuncin de probabilidad. En este caso, como hemos visto

    antes,

    P(X= 0) = 0

    25 P(X= 1) = 0

    5 P(X= 2) = 0

    25Si denotamos porxilos valores que puede tomar la variable, y pilas probablidades

    respectivas de cada uno de los valores, es decir, P(X = xi) = pi; la funcin deprobabilidad se puede representar en la tabla siguiente:

    xi pi0 0251 052 025

    Para que una funcin de probablidad de una variable aleatoria discreta est bien

    definida es preciso que la suma de todas las probablidades sea 1, es decir,pi = 1.

    Al igual que las variables estadsticas, las variables aleatorias tambin tienen aso-

    ciados ciertos parmetros que permiten describirlas. Los vamos a estudiar a continua-

    cin.

    Se llamamedia,esperanza matemticaovalor esperadode una variable aleatoria

    discretaXal nmero

    =

    xi.pi

    Es decir, la suma de los productos de los valores de la variable xi por sus probabilida-

    des correspondientespi. En nuestro ejemplo,

    =

    xi.pi= 0 025 + 1 05 + 2 025 = 1.

    Este valor es el anlogo a la mediax de una variable estadstica unidimensional. Es el

    valor que esperamos obtener como promedio si el experimento aleatorio se repite un

    nmero de veces muy alto.

    Se llamavarianzade una variable aleatoria discreta Xal nmero

    2 =

    (xi )2.pi

    La varianza de una variable aleatoria es anloga a la varianza de una variable esta-dstica. Tambin se puede simplificar su clculo mediante la frmula

    2 =

    x2i

    .pi 2

    En nuestro ejemplo,

    2 =

    x2i .pi 2 = 02 025 + 12 05 + 22 025 12 = 0 5.

    Por ltimo, se llama desviacin tpica de una variable aleatoria discreta X a la

    raz cuadrada de su varianza, es decir,

    =

    x2i

    .pi 2

    270

  • 7/24/2019 Apuntes Estadistica Uni Bi Variable Probabilidad e Inferencia Contrastes 2

    21/137

    Que en nuestro ejemplo es =

    05 = 0 707.

    ACTIVIDADES

    7. Consideramos la siguiente tabla, que es la funcin de probabilidad de una variable

    aleatoria discreta:

    xi 1 2 3 4

    pi 02 01 03 p

    a) Calcular el valor de p para que la funcin de probabilidad est bien definida.

    b) Calcular su media, varianza y desviacin tpica.

    3.2. Distribucin BinomialTenemos un experimento aleatorio que slo produce dos posibilidades que vamos

    a llamarxitoy fracaso. La probabilidad dexitoes p y la defracasoes 1 p= q. Re-petimos la experiencia n veces, cada vez que se repite el resultado es independiente

    del anterior. Si llamamosX = nmero de xitos de losn, entonces se dice que X esuna variable aleatoria que sigue una distribucin Binomial, lo que indicaremos de

    la forma X B(n, p), donde n es el nmero de veces que se repite la experienciay p es la probabilidad de obtener xito cada vez que se repite. Es evidente que la

    Binomial es una variable aleatoria discreta, ya que los valores que puede tomar son

    X= 0, 1, 2, 3, . . . , n.

    Quiz la situacin ms sencilla en la que aparece la Binomial sea en el lanza-

    miento de una moneda. Por ejemplo, lanzamos una moneda n = 4 veces. Cada vez

    que la lanzamos puede salir cara con probabilidad p = 1

    2, o cruz con probablidad

    q = 1 p = 12

    . Si consideramos xitoal hecho de salir cara, la variable aleatoria

    X=nmero de carassigue una binomialB(4, 12

    ).

    Vamos a calcular su funcin de probabilidad:

    P(X= 0) = P(4 cruces) =P(+ + ++) =

    1

    2

    4

    ; ya que las cuatro pruebas son

    independientes.

    P(X = 1) = P(1 cara y 4 cruces) = P(c+ ++) +P(+c+ +) + P(+ +c+) +P(+ + +c)

    = 4

    1

    2

    4

    ; donde c+ ++; +c+ +; + +c + + + +c son los diferentes

    rdenes en que pueden aparecer la cara y las cruces.

    P(X= 2) =P(2 caras y 2 cruces)=P(cc + +) + P(+c + c) + P(c + c+) + P(+ + cc) + P(c + +c) + P(+cc+)

    271

  • 7/24/2019 Apuntes Estadistica Uni Bi Variable Probabilidad e Inferencia Contrastes 2

    22/137

    UNIDAD 12= 6

    1

    2

    4; tambin aqu hemos considerado las diferentes formas de ordenar

    las dos caras y las dos cruces, que son seis en total.

    P(X= 3) =P(3 caras y 1 cruz) =P(1 cara y 3 cruces) = 4

    1

    2

    4

    .

    P(X= 4) =P(4 caras) =P(4 cruces) =

    1

    2

    4.

    Por una parte, se puede comprobar que la suma de estas probabilidades es 1, con

    lo que la funcin de probabilidad est bien definida; y por otra, los factores por los que

    aparece multiplicado1

    2

    4en cada caso son

    1, 4, 6, 4, 1

    que es la cuarta fila del tringulo de Tartaglia, ya estudiado en el curso anterior.

    Recordemos que el tringulo de Tartaglia es el siguiente, en el que cada nmero

    se obtiene mediante la suma de los dos que estn inmediatamente sobre l.

    1 1

    1 2 1

    1 3 3 1

    1 4 6 4 1

    1 5 10 10 5 1

    . . .

    Por otra parte, tambin se ha estudiado que los elementos de cualquier fila ensi-

    ma de este tringulo se pueden calcular mediante los nmeros combinatorios

    n

    0

    ;

    n

    1

    ;

    n

    2

    ; . . .

    n

    n

    donde cada nmero combinatorio se calcula

    n

    r

    =

    n!

    r!(n r)!

    (n!es n factorial. Por ejemplo, 5! = 5

    4

    3

    2

    1 = 120.)

    En general, se puede comprobar que la funcin de probabilidad de la Binomial

    B(n, p)viene dada por

    P(X=k) =

    n

    k

    pk qnk

    que es la probabilidad de que se produzcan k xitos, conk = 0, 1, 2, . . . , n.

    La dificultad a la hora de resolver un problema asociado a la Binomial no est en

    la utilizacin de la frmula, sino en la identificacin de la Binomial adecuada. Veamos

    un par de ejemplos:

    272

  • 7/24/2019 Apuntes Estadistica Uni Bi Variable Probabilidad e Inferencia Contrastes 2

    23/137

    - En un examen de tipo test hay 10 preguntas de respuesta alternativa. Cada una

    de ellas tiene 4 posibles opciones, de las cuales hay que elegir una. Si se responde al

    azar, cul es la probabilidad de responder correctamente a dos de ellas?

    Cada vez que respondemos a una pregunta del examen, podemos acertar conprobabilidad p = 1

    4, o fallar con probabilidad q= 1 p= 3

    4. Si consideramos la varia-

    ble aleatoria X = nmero de respuestas correctas, la variable Xsigue una BinomialB(10, 1

    2).

    Entonces, queremos calcular la probabilidadP(X= 2), aplicando la frmula ante-rior

    P(X= 2) =

    10

    2

    1

    4

    2

    3

    4

    8= 0 2816.

    - En una biblioteca el 10 % de los libros son de matemticas. Elegimos 5 libros al

    azar. Cul es la probabilidad de que hayamos cogido ms de 3 libros de matemti-cas?

    Cada vez que escogemos un libro tenemos una probabilidadp = 010de elegir unode matemticas, y una probabilidadq= 1 p= 090 de elegir un libro que no sea dematemticas. Si consideramos la variable aleatoria

    X=nmero de libros de matemticas elegidos, la variable X sigue una binomial B(5, 01).

    Queremos calcular la probabilidad de que haya ms de 3 de matemticas, es decir,

    P(X >3) =P(X= 4) + P(X= 5). Por tanto, hay que utilizar la frmula de la funcinde probabilidad de la Binomial dos veces,

    P(X >3) =P(X= 4) + P(X= 5) =

    5

    4

    014 091 +

    5

    5

    015 090

    = 000045 + 000001 = 000046.

    Como caba esperar, una probabilidad muy baja. Pues ya era muy difcil, con slo un

    10 %, elegir un slo libro de matemticas.

    La deduccin de las frmulas para el clculo de la media, varianza y desviacin

    tpica de una binomial no es difcil pero s bastante laboriososa, por lo que no la vamos

    a describir aqu. Diremos simplemente cules son las frmulas:SiX B(n, p), su media es

    = n p

    Su varianza es

    2 = n p q

    Y su desviacin tpica

    =

    n p q

    273

  • 7/24/2019 Apuntes Estadistica Uni Bi Variable Probabilidad e Inferencia Contrastes 2

    24/137

    UNIDAD 12ACTIVIDADES

    8. Tiramos cinco veces un dado numerado del 1 al 6:a) Calcular la probabilidad de obtener slo un 6.

    b) Calcular la probabilidad de obtener al menos un 6.

    c) Calcular la probabilidad de que salga 6 en los cinco lanzamientos.

    9. Un examen de tipo test consta de 20 preguntas, cada una de ellas con 4 opciones,

    de las cuales slo una es la correcta. Un estudiante que no se ha preparado el examen

    responde al azar. Cuntas respuestas cabe esperar que acertar?

    Recuerda

    Se dice que Xsigue una distribucin Binomial y se escribe X B(n, p), si repitiendoun experimento aleatorionveces, de manera que cada vez slo hay dos posibilidades:

    xitocon probabilidadp y su contrario, fracasocon probabilidad 1p= q; Xrepresentaelnmero de xitos de losn.

    La funcin de probabilidad de la Binomial viene dada por

    P(X=k) =

    n

    k

    pk qnk

    que es la probabilidad de que se produzcan k xitos, conk = 0, 1, 2, . . . , n.

    Su media es = n p; su varianza es2 =n p q; y su desviacin tpica = n p q.

    4. Variables aleatorias continuas:la distribucin Normal

    Una variable aleatoria continua es una variable que toma sus valores entre cual-

    quiera de los contenidos en un intervalo de nmeros reales. Mientras que la probabili-dad en una variable discreta viene determinada por su funcin de probabilidad, en las

    variables continuas la probabilidad viene determinada por la llamada funcin de densi-

    dad, que estudiaremos a continuacin. La ms importante de las variables aleatorias

    continuas es la distribucin Normal, que tambin estudiaremos aqu.

    4.1. Funcin de distribucin de una variablealeatoria continua

    Supongamos que tenemos un grupo muy numeroso de alumnos que han conocido

    la nota final de una determinada asignatura. Supongamos tambin que esta nota se ha

    determinado teniendo en consideracin muchos factores, y no nicamente un examen,

    274

  • 7/24/2019 Apuntes Estadistica Uni Bi Variable Probabilidad e Inferencia Contrastes 2

    25/137

    por ejemplo, la entrega de trabajos, la participacin en clase, la realizacin de varios

    controles, etc. Todo ello har que, si la calificacin est comprendida entre 0 y 10

    como suele ser habitual, la nota final de un alumno concreto pueda ser casi cualquier

    nmero real del intervalo [0, 10]. Si elegimos un alumno al azar y consideramos sunota, la variable aleatoria X=nota finales un ejemplo de variable aleatoria continua.Los posibles valores que puede tomar la variable Xson todos los nmeros reales del

    intervalo[0, 10](al menos, tericamente.)

    Ahora bien, cmo son las probabilidades asociadas a esta variable? En primer

    lugar, dadas las posibilidades, no parece que tenga mucho sentido preguntarse por la

    probabilidad de que un alumno elegido al azar haya obtenido, por ejemplo, un 4589

    de nota final. Tendr sentido ms bien, preguntarse por un determinado rango de po-

    sibilidades, es decir, tendr sentido preguntarse por la probabilidad de que un alumno

    haya obtenido una nota superior a 5, o entre 2 y 8, o menor que 8, etc. Esto es una

    caracterstica de las variables aleatorias continuas, las probabilidades puntuales son

    nulas, es decir,P(X= 4

    589) = 0, y lo mismo para cualquier otro valor.

    Por todo lo anterior, en las variables aleatorias continuas, estaremos ms intere-

    sados en cmo est distribuidala probabilidad a lo largo del intervalo en el que toma

    valores, que en las probabilidades de valores concretos, que son todas nulas. Esta dis-

    tribucin de la probabilidad viene determinada por lo que se denomina precisamente

    funcin de distribucin, que se define:

    F(x) =P(X x)

    En otras palabras, F(x)es la probabilidad de que la variable Xtome un valor inferior

    o igual a x.Para entender mejor el significado de la funcin de distribucin, vamos a intentar

    imaginar cmo es la funcin de distribucin de la variable aleatoria del ejemplo de la

    nota final del examen.

    En primer lugar, hay unos valores evidentes,

    F(10) =P(X 10) = 1ya que, con toda seguridad la nota de cualquier alumno ser menor o igual que 10. Y

    lo mismo ocurrir para valores mayores que 10, es decir, tambin la probabilidad de

    que alguien saque una nota inferior a 11 ser 1.

    F(0) =P(X 0) = 0ya que, nadie sacar una nota inferior a 0, y tericamente nadie obtendr 0, por lo

    que comentamos antes de las probabilidades puntuales (aunque lamentablemente

    sabemos que algunas veces ocurre.) Lo que s ocurre, con toda seguridad, es que

    F(1) =P(X 1) = 0, y lo mismo para cualquier otro valor negativo.Ya sabemos entonces que la funcin F(x)vale 0 en x = 0y vale 1 enx = 10. Slo

    falta ver qu ocurre entre 0 y 10.

    Aunque no tengamos datos de la probabilidad de obtener una calificacin menor o

    igual que 3, por ejemplo, seguro que es ms probable obtener una nota menor o igual

    que 4, y esto a su vez menos probable que obtener una nota menor o igual que 5, etc.

    275

  • 7/24/2019 Apuntes Estadistica Uni Bi Variable Probabilidad e Inferencia Contrastes 2

    26/137

    UNIDAD 12En otras palabras, a medida que aumentemos las posibilidades de nota, aumentar la

    probabilidad. Esto hace que la funcin de distribucin verifique

    F(1)

    F(2)

    F(3)

    F(4)

    etc.,

    y lo mismo para cualquier otro valor. Y, como bien sabemos, esto significa que la fun-

    cin de distribucin escreciente. Concluyendo, la funcin de distribucin es creciente

    y crece desde el 0 al 10. Entonces, una posible grfica sera la de la figura 12.1.

    El hecho de que la funcin sea conti-

    nua se deduce precisamente del hecho

    de que la variable aleatoria tambin sea

    continua. Si no lo fuese, la variable po-

    dra no tomar todos los valores del inter-

    valo[0, 10]. (Aunque no lo hemos estudia-do, por su escaso inters en este curso,

    las variables aleatorias discretas tambin

    tienen una funcin de distribucin, que se

    define exactamente de la misma forma,

    pero en aquel caso la funcin de distribu-

    cin no es continua).

    X

    Y

    100

    1

    Figura 12.1: Grfica de F(x)

    Salvo lo del intervalo[0, 10], que puede ser cualquier otro, todo lo anterior se puedeaplicar a cualquier funcin de distribucin de cualquier variable aleatoria continua:

    La funcin de distribucin F(x) asociada a una variable aleatoria continua X esuna funcin continua, creciente, no nula (ya que es una probabilidad) y su grfica

    crece desde 0 a 1.

    ACTIVIDADES

    10. SeaXuna variable aleatoria continua, cuya funcin de distribucin es

    F(x) =

    0 six 0x si0 < x 14

    ), (utilizar el contrario) c)P(X= 34

    ).

    4.2. Funcin de densidad de una variablealeatoria continua

    En las variables aleatorias discretas utilizbamos la funcin de probabilidad para

    calcular las probabilidades asociadas a la variable. Para las variables aleatorias conti-

    nuas disponemos de lafuncin de distribucin, aunque utilizaremos ms a menudo el

    276

  • 7/24/2019 Apuntes Estadistica Uni Bi Variable Probabilidad e Inferencia Contrastes 2

    27/137

    equivalente a la funcin de probabilidad de las discretas, que aqu se llama funcin

    de densidadde probabilidad.

    La funcin de densidad de una variable aleatoria continua X no es ms que laderivada de su funcin de distribucin, la denotaremos porf(x). Entonces,

    f(x) = F(x)

    Veamos las caractersticas y propiedades de esta nueva funcin:

    - Dado que la funcin de distribucinF(x)es creciente,f(x) 0, ya que la deriva-da de una funcin creciente siempre es mayor o igual que 0. Esto hace que su grfica

    siempre se encuentre por encima del eje de abscisas.

    - Se puede demostrar que las probabilidades asociadas a la variable X son las

    reas por debajo de la grfica de f(x), de hecho se verifica que la probabilidadP(a < X

    b) es el rea que hay entre el eje 0X y la grfica de f(x) en el inter-

    valo[a, b](ver figura 12.2). Lo expresaremos de la forma siguiente:

    P(a < X b) = rea(f(x), [a, b])

    (Con los conocimientos de este curso no podemos justificar esta propiedad, que

    es la ms importante, se deriva de un importante teorema del Clculo Integral, que

    ser estudiado en el prximo curso, de hecho, el rea que hemos mencionado antes

    se calcula mediante unaintegral).

    X

    Y

    f(x)

    a b

    Figura 12.2: Funcin de densidad f(x)

    - Admitiendo la propiedad anterior, se puede deducir otra caracterstica de la fun-

    cin de densidad. Si la probabilidad es el rea que hay por debajo de la curva, nece-sariamente

    el rea total por debajo de la funcin de densidad siempre es 1.

    Por otra parte, como las probabilidades puntuales son nulas, es decir,

    P(X = b) = 0, a la hora de calcular la probabilidad P(a < X b) es indiferenteque las desigualdades sean estrictas o no, es decir,

    P(a < X < b) =P(a < X b) =P(a X b) =P(a X < b)

    Lo nico que importa es el rea que hay por debajo de la grfica, no si los extremos

    estn o no incluidos.

    277

  • 7/24/2019 Apuntes Estadistica Uni Bi Variable Probabilidad e Inferencia Contrastes 2

    28/137

    UNIDAD 12Todas las ideas anteriores son ciertamente complicadas de entender en una pri-

    mera lectura. Sin embargo, las vamos a revisar en un caso prctico, que es el objeto

    de esta seccin. Se trata del estudio del ejemplo ms importante de variable aleatoria

    continua: la distribucin Normal.

    4.3. Distribucin NormalLadistribucin Normal es una variable aleatoria continua que aparece asociada

    a multitud de fenmenos. En un tiempo se pens que prcticamente todos los fen-

    menos estadsticos se podan ajustar a esta distribucin, de ah el nombre que se le

    puso, normal", de hecho, si un fenmeno no la verificaba, se deca que era un fe-

    nmeno anormal". Hoy en da sabemos que, sobre todo aquellas variables en las

    que intervienen multitud de factores independientes, siguen una variable, si no nor-

    mal, muy parecida. Entre los ejemplos que se pueden citar se encuentran: casi todas

    las caractersticas naturales de los seres vivos, como su longitud o su peso; multitudde fenmenos sociales y econmicos como la tasa de natalidad, la distribucin de la

    renta; etc. Todos son casos en los que intervienen multitud de factores independien-

    tes entre s. Por ejemplo, en la estatura de una persona influyen factores genticos,

    hbitos alimenticios, etc.

    Vamos a describir su funcin de densidad y veremos cmo se pueden calcular

    probabilidades relacionadas con ella.

    Se dice que Xes una variable aleatoria continua que sigue una distribucin Normal

    de media y desviacin tpica , lo que denotaremos X N(, ), si su funcin dedensidad es

    f(x) = 1

    2e

    (x)2

    22

    En primer lugar, hay que sealar que no es preciso en absoluto aprender la frmula

    que acabamos de ver. Lo importante es conocer su grfica, que vamos a describir

    ahora. En la figura 12.3 hemos representado la grfica de la funcin f(x)para valoresdados de y .

    +X

    Y

    Figura 12.3: Funcin de densidad de la normal N(, )

    - La funcin cumplef(x) 0, es decir, su grfica siempre se encuentra por encimadel eje0X.

    - Tiene forma de campana, de hecho se le suele llamar campana de Gauss.

    278

  • 7/24/2019 Apuntes Estadistica Uni Bi Variable Probabilidad e Inferencia Contrastes 2

    29/137

    - Tiene un mximo absoluto en el punto x = .

    - Tiene dos puntos de inflexin que se encuentran en x = y x = + .- La grfica es simtrica con respecto de la recta vertical que pasa por su mximo.

    - El eje Xes asntota horizontal de f(x).- El rea por debajo de su grfica es 1.

    Segn dijimos en el apartado anterior, para calcular probabilidades asociadas a

    una Normal, sera preciso calcular reas sobre los intervalos correspondientes por de-

    bajo de la grfica anterior. Sin embargo, esto no es sencillo, entre otras cosas porque

    la integral de la funcin de densidad de la Normal, que es la herramienta con la que

    habra que calcular el rea, no se puede calcular de manera exacta. Lo nico que se

    puede hacer es aproximarla numricamente. Sin embargo, se puede comprobar que

    siX N(, ), entonces la variable

    Z= X

    es una NormalN(0, 1), es decir, una Normal de media = 0y desviacin tpica = 1.A la Normal N(0, 1) se le llama normal estndar y para este caso particular los valoresde las reas, es decir, los valores de su funcin de distribucin estn tabulados, por lo

    que no es preciso calcularlos cada vez. El proceso mediante el cual pasamos de una

    Normal X N(, )a una Normal estndar Z N(0, 1)se llamatipificacin de lavariable.

    Resumiendo, para calcular probabilidades de una variable X N(, ), primerohay que tipificar la variable, y despus hay que utilizar la tabla de la Normal estndarpara determinar los valores de la probabilidad. Veamos cmo se hacen las dos cosas.

    Tipificacin de la variable

    Sea X N(3, 2) y supongamos que queremos calcular P(X 4), entonces, enla expresin X4 restamos la media y dividimos por la desviacin tpica en amboslados de la desigualdad:

    P(X 4) =PX 32

    4 32

    =P(Z 05)

    donde Z N(0, 1) que al ser la Normal estndar se podr calcular mediante losvalores de la tabla como veremos despus.

    Si la probabilidad a calcular fuese de la forma P(2 < X < 3), por ejemplo, ten-dramos que restar la media y dividir por la desviacin tpica en los tres miembros de

    la desigualdad, de la forma siguiente:

    P(2< X

  • 7/24/2019 Apuntes Estadistica Uni Bi Variable Probabilidad e Inferencia Contrastes 2

    30/137

    UNIDAD 12Uso de la tabla de la Normal estndar N(0, 1)

    Supongamos entonces que la variable ya est tipificada y tenemos que calcular

    una probabilidad que est en trminos de Z, con Z N(0, 1). La tabla de la normalestndar, que se ha incluido en el apartado siguiente tiene tabulados con cuatro de-

    cimales los valores de las probabilidades (o reas, segn la grfica que se adjunta

    con la tabla) correspondientes a P(Z k)para valores de k comprendidos entre 0 y389. Para valores de k mayores que 389, la probabilidad es prcticamente 1, por lo

    que no es preciso que estn en la tabla. Vamos a ir viendo con ejemplos las diferentes

    posibilidades:

    P(Z

    265)

    El rea que queremos calcular es el que se ha colo-reado en la figura 12.4. Este rea se puede encontrar

    directamente en la tabla, para ello hay que buscar el

    nmero en el que coinciden la fila 26 y la columna

    005, que es 09960. Por tanto, P(Z 265) = 09960.

    Figura 12.4:P(Z 265)

    P(Z 265)El rea que queremos calcular es el que se ha colo-

    reado en la figura 12.5. La tabla slo nos ofrece va-lores del rea a la derecha de Z = 0. Sin embargo,como la grfica de la funcin de densidad es sim-

    trica, el rea desde hasta -265 es igual que elrea desde 265 hasta+, y esta ltima la podemoscalcular mediante el contrario:

    P(Z 265) = P(Z > 265) = 1 P(Z 265) =1 09960 = 00004. Figura 12.5:P(Z 265)

    (Recordemos que a la hora de calcular el rea es indiferente que las desigualdades

    sean o no estrictas).

    P(221< Z 334)El rea que queremos calcular ahora es el que se ha

    coloreado en la figura 12.6, comprendido entre 221 y

    334. Para calcular este rea basta con restar al rea

    hasta 334, el rea hasta 221. Es decir,

    P(221 < Z 334) = P(Z 3 34) P(Z 2 21) =09996 09864 = 00132.

    Figura 12.6: P(221 < Z

    334)

    280

  • 7/24/2019 Apuntes Estadistica Uni Bi Variable Probabilidad e Inferencia Contrastes 2

    31/137

    P(334< Z 221)El rea que queremos calcular ahora es el que se

    ha coloreado en la figura 12.7, y debido a la sime-tra de la funcin de densidad, este rea es exac-

    tamente igual a la de la figura 12.6, que ya hemos

    calculado antes. Por tanto,

    P(334 < Z 221) = P(221 < Z 334) =00132.

    Figura 12.7: P(334 < Z

    221)

    Para acabar, veamos el caso en el que el rea a calcular sea la comprendida entre un

    nmero negativo y uno positivo.

    P(201< Z 314)El rea que queremos calcular ahora es el que se

    ha coloreado en la figura 12.8. Procedemos como

    en los casos anteriores,

    P(201 < Z 314) = P(Z 314) P(Z201)=P(Z 314) P(Z >201) ==P(Z 314) (1 P(Z 201)) = 09970.

    Figura 12.8: P(201 < Z 314)

    ACTIVIDADES

    11. La estatura de un grupo de personas sigue una normal N(172, 03) medida enmetros. Elegimos una persona al azar del grupo. Calcular la probabilidad de que:

    a) su estatura sea mayor que 180.

    b) su estatura est comprendida entre 170 y 175.

    12. Las notas finales de una asignatura en una universidad siguen una normal de

    media = 55y desviacin tpica = 06.

    a) Elegido un estudiante al azar, cul es la probabilidad de que haya aprobado laasignatura? Qu porcentaje de alumnos aproximadamente han aprobado la asigna-

    tura?

    b) Cul es la probabilidad de que un estudiante elegido al azar haya sacado una nota

    superior a 8?

    281

  • 7/24/2019 Apuntes Estadistica Uni Bi Variable Probabilidad e Inferencia Contrastes 2

    32/137

  • 7/24/2019 Apuntes Estadistica Uni Bi Variable Probabilidad e Inferencia Contrastes 2

    33/137

  • 7/24/2019 Apuntes Estadistica Uni Bi Variable Probabilidad e Inferencia Contrastes 2

    34/137

  • 7/24/2019 Apuntes Estadistica Uni Bi Variable Probabilidad e Inferencia Contrastes 2

    35/137

  • 7/24/2019 Apuntes Estadistica Uni Bi Variable Probabilidad e Inferencia Contrastes 2

    36/137

  • 7/24/2019 Apuntes Estadistica Uni Bi Variable Probabilidad e Inferencia Contrastes 2

    37/137

  • 7/24/2019 Apuntes Estadistica Uni Bi Variable Probabilidad e Inferencia Contrastes 2

    38/137

  • 7/24/2019 Apuntes Estadistica Uni Bi Variable Probabilidad e Inferencia Contrastes 2

    39/137

  • 7/24/2019 Apuntes Estadistica Uni Bi Variable Probabilidad e Inferencia Contrastes 2

    40/137

  • 7/24/2019 Apuntes Estadistica Uni Bi Variable Probabilidad e Inferencia Contrastes 2

    41/137

  • 7/24/2019 Apuntes Estadistica Uni Bi Variable Probabilidad e Inferencia Contrastes 2

    42/137

  • 7/24/2019 Apuntes Estadistica Uni Bi Variable Probabilidad e Inferencia Contrastes 2

    43/137

  • 7/24/2019 Apuntes Estadistica Uni Bi Variable Probabilidad e Inferencia Contrastes 2

    44/137

  • 7/24/2019 Apuntes Estadistica Uni Bi Variable Probabilidad e Inferencia Contrastes 2

    45/137

  • 7/24/2019 Apuntes Estadistica Uni Bi Variable Probabilidad e Inferencia Contrastes 2

    46/137

  • 7/24/2019 Apuntes Estadistica Uni Bi Variable Probabilidad e Inferencia Contrastes 2

    47/137

    8

  • 7/24/2019 Apuntes Estadistica Uni Bi Variable Probabilidad e Inferencia Contrastes 2

    48/137

  • 7/24/2019 Apuntes Estadistica Uni Bi Variable Probabilidad e Inferencia Contrastes 2

    49/137

  • 7/24/2019 Apuntes Estadistica Uni Bi Variable Probabilidad e Inferencia Contrastes 2

    50/137

  • 7/24/2019 Apuntes Estadistica Uni Bi Variable Probabilidad e Inferencia Contrastes 2

    51/137

  • 7/24/2019 Apuntes Estadistica Uni Bi Variable Probabilidad e Inferencia Contrastes 2

    52/137

  • 7/24/2019 Apuntes Estadistica Uni Bi Variable Probabilidad e Inferencia Contrastes 2

    53/137

  • 7/24/2019 Apuntes Estadistica Uni Bi Variable Probabilidad e Inferencia Contrastes 2

    54/137

  • 7/24/2019 Apuntes Estadistica Uni Bi Variable Probabilidad e Inferencia Contrastes 2

    55/137

  • 7/24/2019 Apuntes Estadistica Uni Bi Variable Probabilidad e Inferencia Contrastes 2

    56/137

  • 7/24/2019 Apuntes Estadistica Uni Bi Variable Probabilidad e Inferencia Contrastes 2

    57/137

  • 7/24/2019 Apuntes Estadistica Uni Bi Variable Probabilidad e Inferencia Contrastes 2

    58/137

  • 7/24/2019 Apuntes Estadistica Uni Bi Variable Probabilidad e Inferencia Contrastes 2

    59/137

  • 7/24/2019 Apuntes Estadistica Uni Bi Variable Probabilidad e Inferencia Contrastes 2

    60/137

  • 7/24/2019 Apuntes Estadistica Uni Bi Variable Probabilidad e Inferencia Contrastes 2

    61/137

  • 7/24/2019 Apuntes Estadistica Uni Bi Variable Probabilidad e Inferencia Contrastes 2

    62/137

  • 7/24/2019 Apuntes Estadistica Uni Bi Variable Probabilidad e Inferencia Contrastes 2

    63/137

  • 7/24/2019 Apuntes Estadistica Uni Bi Variable Probabilidad e Inferencia Contrastes 2

    64/137

  • 7/24/2019 Apuntes Estadistica Uni Bi Variable Probabilidad e Inferencia Contrastes 2

    65/137

  • 7/24/2019 Apuntes Estadistica Uni Bi Variable Probabilidad e Inferencia Contrastes 2

    66/137

  • 7/24/2019 Apuntes Estadistica Uni Bi Variable Probabilidad e Inferencia Contrastes 2

    67/137

  • 7/24/2019 Apuntes Estadistica Uni Bi Variable Probabilidad e Inferencia Contrastes 2

    68/137

  • 7/24/2019 Apuntes Estadistica Uni Bi Variable Probabilidad e Inferencia Contrastes 2

    69/137

  • 7/24/2019 Apuntes Estadistica Uni Bi Variable Probabilidad e Inferencia Contrastes 2

    70/137

  • 7/24/2019 Apuntes Estadistica Uni Bi Variable Probabilidad e Inferencia Contrastes 2

    71/137

  • 7/24/2019 Apuntes Estadistica Uni Bi Variable Probabilidad e Inferencia Contrastes 2

    72/137

  • 7/24/2019 Apuntes Estadistica Uni Bi Variable Probabilidad e Inferencia Contrastes 2

    73/137

  • 7/24/2019 Apuntes Estadistica Uni Bi Variable Probabilidad e Inferencia Contrastes 2

    74/137

  • 7/24/2019 Apuntes Estadistica Uni Bi Variable Probabilidad e Inferencia Contrastes 2

    75/137

  • 7/24/2019 Apuntes Estadistica Uni Bi Variable Probabilidad e Inferencia Contrastes 2

    76/137

  • 7/24/2019 Apuntes Estadistica Uni Bi Variable Probabilidad e Inferencia Contrastes 2

    77/137

  • 7/24/2019 Apuntes Estadistica Uni Bi Variable Probabilidad e Inferencia Contrastes 2

    78/137

  • 7/24/2019 Apuntes Estadistica Uni Bi Variable Probabilidad e Inferencia Contrastes 2

    79/137

  • 7/24/2019 Apuntes Estadistica Uni Bi Variable Probabilidad e Inferencia Contrastes 2

    80/137

  • 7/24/2019 Apuntes Estadistica Uni Bi Variable Probabilidad e Inferencia Contrastes 2

    81/137

  • 7/24/2019 Apuntes Estadistica Uni Bi Variable Probabilidad e Inferencia Contrastes 2

    82/137

  • 7/24/2019 Apuntes Estadistica Uni Bi Variable Probabilidad e Inferencia Contrastes 2

    83/137

  • 7/24/2019 Apuntes Estadistica Uni Bi Variable Probabilidad e Inferencia Contrastes 2

    84/137

  • 7/24/2019 Apuntes Estadistica Uni Bi Variable Probabilidad e Inferencia Contrastes 2

    85/137

  • 7/24/2019 Apuntes Estadistica Uni Bi Variable Probabilidad e Inferencia Contrastes 2

    86/137

  • 7/24/2019 Apuntes Estadistica Uni Bi Variable Probabilidad e Inferencia Contrastes 2

    87/137

  • 7/24/2019 Apuntes Estadistica Uni Bi Variable Probabilidad e Inferencia Contrastes 2

    88/137

    error mximo

  • 7/24/2019 Apuntes Estadistica Uni Bi Variable Probabilidad e Inferencia Contrastes 2

    89/137

  • 7/24/2019 Apuntes Estadistica Uni Bi Variable Probabilidad e Inferencia Contrastes 2

    90/137

  • 7/24/2019 Apuntes Estadistica Uni Bi Variable Probabilidad e Inferencia Contrastes 2

    91/137

  • 7/24/2019 Apuntes Estadistica Uni Bi Variable Probabilidad e Inferencia Contrastes 2

    92/137

  • 7/24/2019 Apuntes Estadistica Uni Bi Variable Probabilidad e Inferencia Contrastes 2

    93/137

  • 7/24/2019 Apuntes Estadistica Uni Bi Variable Probabilidad e Inferencia Contrastes 2

    94/137

  • 7/24/2019 Apuntes Estadistica Uni Bi Variable Probabilidad e Inferencia Contrastes 2

    95/137

  • 7/24/2019 Apuntes Estadistica Uni Bi Variable Probabilidad e Inferencia Contrastes 2

    96/137

  • 7/24/2019 Apuntes Estadistica Uni Bi Variable Probabilidad e Inferencia Contrastes 2

    97/137

    la regin de aceptacin

  • 7/24/2019 Apuntes Estadistica Uni Bi Variable Probabilidad e Inferencia Contrastes 2

    98/137

  • 7/24/2019 Apuntes Estadistica Uni Bi Variable Probabilidad e Inferencia Contrastes 2

    99/137

    3

  • 7/24/2019 Apuntes Estadistica Uni Bi Variable Probabilidad e Inferencia Contrastes 2

    100/137

  • 7/24/2019 Apuntes Estadistica Uni Bi Variable Probabilidad e Inferencia Contrastes 2

    101/137

  • 7/24/2019 Apuntes Estadistica Uni Bi Variable Probabilidad e Inferencia Contrastes 2

    102/137

  • 7/24/2019 Apuntes Estadistica Uni Bi Variable Probabilidad e Inferencia Contrastes 2

    103/137

  • 7/24/2019 Apuntes Estadistica Uni Bi Variable Probabilidad e Inferencia Contrastes 2

    104/137

  • 7/24/2019 Apuntes Estadistica Uni Bi Variable Probabilidad e Inferencia Contrastes 2

    105/137

  • 7/24/2019 Apuntes Estadistica Uni Bi Variable Probabilidad e Inferencia Contrastes 2

    106/137

  • 7/24/2019 Apuntes Estadistica Uni Bi Variable Probabilidad e Inferencia Contrastes 2

    107/137

    276

    Actividad 34

    Actividad 35

    Actividad 1

    El espacio muestral es el total de entrevistados, 200. Es conveniente hacer un esquema como el del ejemplo 1: F, fumadores,tiene 92 elementos, B, bebedores, 68 y FB tiene 45 elementos. Es evidente que FGB tiene 92 45 = 47 elementosy GFB consta de 68 45 = 23. Por otra parte,

    F= B= (FGB)= (F B)= (GF B), luego este suceso tiene 47 + 45 + 23 = 115 elementos y como GFGB es elcomplementario de F=B, estar formado por 200 115 = 85 elementos.

    Actividad 2

    Actividad 3

    Si P(A) = 0,45, P(B) = 0,6 y P(A=B)= 0,8. Como P(A=B)= P(A )+P(B ) -- P(A

  • 7/24/2019 Apuntes Estadistica Uni Bi Variable Probabilidad e Inferencia Contrastes 2

    108/137

    277

    Actividad 5

    Actividad 6

    a) P(6) = 1 (0,1 + 0,2 + 0,3 + 0,1 + 0,15) = 0,15; b) P({1,2,3}) = 0,1 + 0,3 + 0,15 = 0,55.

    Actividad 7P(empate#gane#pierda) = 1, P(empate) = 1 P(gane#pierda) = 1 (0,5 + 0,2) = 0,3.

    Actividad 8a) P(A ) = P(se obtiene al menos un 5) = 11/36.b) P( B) = P(se obtiene un doble) = 6/36 = 1/6.c) P(A

  • 7/24/2019 Apuntes Estadistica Uni Bi Variable Probabilidad e Inferencia Contrastes 2

    109/137

    278

    Actividad 16

    SeaA el suceso la alarma se activa e Iel suceso se produce un incidente, los sucesos yGI; no se activa la alarma yno se produce incidente.

    Conocemos:

    a)

    b)

    c) P(I/A) = P(IA)/P(A) = 0,008/0,028 = 0,28.

    Actividad 17

    a)

    b)

    Actividad 18

    a)

    b)

    Actividad 19a) Con devolucin. Sea A = copa en la primera y B = copa en la segunda P(A

  • 7/24/2019 Apuntes Estadistica Uni Bi Variable Probabilidad e Inferencia Contrastes 2

    110/137

    279

    Actividad 26a) 5! = 120; b) (9 2)! = 7! = 5040; c) (10 4)! = 6! =720.

    Actividad 27(10 8)! = 2! = 2.

    Actividad 28

    Actividad 29

    Actividad 30a) VR3,14 = 3

    14= 4782969 b) VR3,15 = 3

    15= 14384907.

    Actividad 31VR10,8 = 10

    8= 100000000.

    Actividad 32V24,2 = 24 23 = 552.

    Actividad 33P5 = 5!= 120.

    Actividad 34

    Tomando las chicas como un bloque y luego permutando entre ellas, resulta 2 P3 = 2 3! = 12.Actividad 35

    a) Un rey, C4,1 C36,4 = 235620.b) Dos copas, C10,2 C30,4 = 182700.c) Al menos un oro, C10,1 C30,4 + C10,2 C30,3 + C10,4 C30,1 + C10,5 = 515502.

    Actividad 36a) C16,3 = 560; b) C6,2 C10,1 =150.

    Actividad 37Casos posibles: C20,3 = 1140, casos favorables: C7,1 C13,2 + C7,2 C13,1 + C7,3 = 854. Probabilidad = 854/1140 = 0,75.

    Actividad 38

    Casos posibles: C20,3 = 1140, casos favorables C6,1 C14,2 + C6,2 C14,1 + C6,3 = 776. Probabilidad = 776/1140 = 0,68.Actividad 39

    a) Casos posibles: 10!, casos favorables: 9!. Probabilidad = 9! / 10! = 0,1.

    b) Agrupando el 7 y el 2 como una nica cifra puede adoptar 9 posiciones diferentes de las 10 posiciones para las 10cartas, luego casos posibles: 10!, casos favorables: 9 8!. Probabilidad = 9 8! /10! = 0,1.

    P noregar perderse P no regar P perderse no regar

    P perder( / )

    ( ) ( / )

    (=

    sse)

    ,

    ,, .

    =

    + =

    2 3 0 75

    1 3 1 2 2 3 0 750 75

    a) b)

    10

    6 4 210

    10

    4 6 210

    !

    ! ! ,

    !

    ! ! , = = s dan el mismo resultado.

    12

    12 411880

    !

    ( )!.

    =

  • 7/24/2019 Apuntes Estadistica Uni Bi Variable Probabilidad e Inferencia Contrastes 2

    111/137

    280

    Actividad 1

    Se trata de una distribucin binomial de parmetros n = 6 yp = = 0,25; es decir, una B(6; 0,25). Tenemos que calcular

    Actividad 2Es una B(4, 0,8). Puede fallar, puede acertar con uno o con dos.

    Actividad 3Es una B(5; 0,88). Calculamos

    Actividad 4

    Actividad 5a)P[ |Z| z] = P[ z Z z] = 0,9; luego P[Z z] = 0,05 + 0,9 = 0,95. Entonces de las tablas de la N(0,1)

    obtenemos z = 1,545.b) P[ |Z| z] = 0,99; luego P[ Z z] = 0,995, z= 2,575.

    Actividad 6

    Actividad 7Es una N(127, 24).

    Actividad 8N(10,2). Calculamos P[X > 13] = P[ Z > 1,5 ] = 0,0668. El 6,68%.

    Actividad 9n1 + n2 + n3 = 100, 800 + 3500 + 1800 = 6100,

    Actividad 10

    Actividad 11 sigue una N(5,6; 0,44). Tenemos que calcular: P[ < 5] = P[ Z = < =179 2 16 1 2 16 0 0153 1 53el 0 2 5 82, ; , 55 82 0 2 0 2

    5 82

    1 0 2 0 8 5

    , , ; , ;

    , , , , ,

    = [ ]=

    <

    = =

    P Z x

    o P Z x x 88

    20 841 0 841 2 5 8 7 482= = + =, ; , , ,x .

    Es una (10,2). Tenemos que calcularN P X P X>[ ]= > 12 10

    212 10

    221 1 1 0 1586

    = >[ ]=

  • 7/24/2019 Apuntes Estadistica Uni Bi Variable Probabilidad e Inferencia Contrastes 2

    112/137

    281

    Actividad 13

    sigue una N(95; 3,5). Tenemos que calcular: a) P[

    < 92] = P[Z 100] = P[Z > 1,42] = 1 P[Z < 1,42] = 0,0778.

    Actividad 14

    Actividad 15Sabemos quep = 0,2, luego sigue una distribucin normal N(0,2; 0,025). Tenemos que calcular:

    Actividad 16Sabemos quep = 0,95, luego sigue una distribucin normal N(0,95; 0,027). Tenemos que calcular:

    Actividad 17En este casop = 0,7 es la proporcin de los que hacen alguna vez botelln, luego sigue una N(0,7; 0,032). Tenemos

    que calcular:

    Actividad 18Sabemos que y ; adems, = 40 yp p n1 2 13 12 0 25 2 10 0 2= = = =/ , / , nn2 = 40.

    Queremos calcular la probabilidad siguiente:a) PP p p

    p p N p p p p

    [ , ]

    ( ,( )

    1 2

    1 2 1 21 1

    0 1

    1

    Sabemos que es unann

    p p

    nN

    1

    2 2

    2

    1+

    ( )). En este caso es una (0,05; 0,093). Por taanto:

    P p p P p p

    [ , ],

    ,

    , ,

    ,

    1 21 20 1

    0 05

    0 093

    0 1 0 05

    0 093 =

    >

    = >

    = >[ ]= ,, ]

    ( , ; , )

    05

    0 05 0 0932 1Sabemos que es una . Por tantop p N :: P p p P

    p p[ , ]

    ( , )

    ,

    , ( , )

    ,

    2 12 10 05

    0 05

    0 093

    0 05 0 05

    0 09 > = >

    33

    0 1

    0 0931 07 1 1 07 1 0 85

    =

    = >

    = >[ ]=

    = >[ ]=

  • 7/24/2019 Apuntes Estadistica Uni Bi Variable Probabilidad e Inferencia Contrastes 2

    113/137

    282

    Actividad 1

    Actividad 2

    Actividad 3

    Actividad 4

    Actividad 5

    Actividad 6

    a)

    b) Para 1 = 0,95, = 1,96. Como E = 1 y = 6 tenemos

    z n2 ==

    =1 9 61

    2, 138,29. El tamao mnimo de la

    muestra debe ser 139.n=

    Conocemos = 6, , = 176, y 1 = 0,99, luego =

    n X z= 225 2 2,57 por lo que el intervalo de confianza

    pedido es 176 2 ,, , , ;57 6225

    176 2 57 6225

    +

    = (174,969 174,030).

    Conocemos = 0,05, E = 0,01, y 1 = 0,99. El tamao de l aa muestra viene dado por

    De

    n

    z

    E

    P Z z

    =

  • 7/24/2019 Apuntes Estadistica Uni Bi Variable Probabilidad e Inferencia Contrastes 2

    114/137

    283

    Actividad 7

    Conocemos = 100, n = 9, = (255 + 85 + + 135) / 9 = 178,88.a)

    b)

    Actividad 8Conocemos = 0,6, n = 30, = 7,4.

    a)

    b)

    Actividad 9

    a)

    b)

    Actividad 10

    Actividad 11

    Actividad 12

    Conocemos y y ser =E n p z = = = =0 04 1 0 95 30 2 30 2, , , , / 11,96. Sustituyendo en

    y despejando , obte

    E z p p

    n

    n

    = 2

    1

    ( )

    nnemos 149,39. El tamao mnimon= =1 96 2 30 1 2 300 042

    2, / ( / ),dde la muestra debe ser 150.n=

    Como , el intervalo de confianza es , conn x E x E E > +( ) =30 , zzn

    z n x

    E

    2 2

    1 96 9 200 85

    1 25

    , ; ; ;

    ,

    .

    El intervalo es

    = = = =

    = (83,75; 86,25) .

    Como es desconocida tomamos = 160 , = 100, 108 =S n X 00, 0,99, 2,57. El intervalo

    de confianza pedi

    1 2 = = z /

    ddo es: (1038,8; 1110802 57 160

    100 10802 57 160

    100

    +

    =,

    ,,

    221,1).

    Conocemos 1 = 0,98 y E = 0,75 horas. Como

  • 7/24/2019 Apuntes Estadistica Uni Bi Variable Probabilidad e Inferencia Contrastes 2

    115/137

    284

    Actividad 13

    a)

    b)

    Actividad 14

    a)

    b)

    Actividad 15a) Como el intervalo de confianza al 95% es (0,58; 0,64), la mejor estimacin puntual de la proporcinp es el punto mediodel intervalo: (0,58 + 0,64)/2 = 0,61.

    b)

    Actividad 16

    Paso 1. Establecemos H0 : = 1,25, H1 : 1.25.Paso 2. Fijamos = 1% = 0,01 y 1 -- = 0,99.

    Paso 3.

    Paso 4. Como = 1,17 no pertenece al intervalo (1,215; 1,284), rechazamos la hiptesis nula. El nmero de hijospor mujer en esa comunidad no es 1,25.

    Actividad 17a) Paso 1. Establecemos H0 : = 25, H1 : 25.

    Paso 2. Fijamos = 5% = 0,05 y 1 -- = 0,95.

    b) Paso 3. Determinamos de la regin de aceptacin. Como = 1,96z

    2

    0

    +

    =

    +

    z

    n

    z

    n

    2

    0

    225

    1 96 0 89

    10025

    1 96 0 89

    100,

    , ,,

    , ,

    = (24,825; 25,174).

    Determinamos de la regin de aceptacin. Como 2,57z

    z

    2

    0

    =

    2

    0

    21 25

    2 57 0 08

    361 25

    2 57 0 08

    36

    +

    =

    +

    n

    z

    n, ,

    , ,, ,

    , ,

    = (1,215; 1,284).

    Como y , sustituimos yE z p= = = =0 01 1 0 95 1 96 0 612, , , , , , ddespejamos en obteniendon E z p p

    n

    n

    =

    =

    2

    2

    1

    1 960 61 0

    ( )

    ,, ,,

    ,

    39

    0 012 = 9139,16. El tamao mnimo de la muestra debe ser 9140.n=

    Como 0,03, 1 = 0,95, 1,96 y 0,22, sustituimosE z p= = = 2

    y despejamos en obteniendon E z p p

    n

    n

    =

    =

    2

    2

    1

    1 960 2

    ( )

    ,,

    22 0 78

    0 032 =,

    ,732,46. El tamao mnimo de la muestra debe seer 733.n=

    Conocemos 100, 1 = 0,95 y 22/100, por tanto 1,n p z= = =

    2 996. Sustituyendo en el intervalo de confianza para la proppor-

    cin p p z p p

    n p z

    p p

    n

    +

    =

    2 2

    1 10 22

    ( ),

    ( ), +

    =1 96

    0 22 0 78

    1000 22 1 96

    0 22 0 78

    100,

    , ,, , ,

    , ,(0,138; 0,,301).

    Como 0,01, 1 0,9 y 1/3, sust ituimos y despejamosE p n= = = en obteniendo

    59

    E z p p

    n

    n

    =

    = =

    2

    22

    1

    1 641 3 1 1 3

    0 01

    ( )

    ,/ ( / )

    ,776,88. El tamao mnimo de la muestra debe ser 5977.n=

    Conocemos Den y p P Z z = = =

  • 7/24/2019 Apuntes Estadistica Uni Bi Variable Probabilidad e Inferencia Contrastes 2

    116/137

    285

    Paso 4. Como = 25,18 no pertenece al intervalo (24,825; 25,174), rechazamos la hiptesis nula.

    Actividad 18a) Paso 1. Establecemos H0 : = 10, H1 : 10.

    Paso 2. Fijamos = 5% = 0,05 y 1 -- = 0,95.

    Paso 3.

    b) Paso 4. Como = (8 + 10 + 9 + 8 )/4 = 8,75 no pertenece al intervalo (9,02; 10,98), rechazamos la hiptesis nula.

    Actividad 19

    Paso 1. Establecemos H0 : = 65, H1 : 65.Paso 2. Fijamos = 0,05 y 1 -- = 0,95.

    Paso 3.

    Paso 4. Como = 63,5 hay evidencias razonables para rechazar la afirmacin del peso medio.

    Actividad 20

    Paso 1. Establecemos H0 : 29, H1 : < 29.Paso 2. Fijamos = 0,01 y 1 - = 0,99.

    Paso 3.

    Paso 4. Como = 28,1 no pertenece a la regin de aceptacin rechazamos la hiptesis nula; la edad media deindependencia ya no es 29 aos, ha disminuido.

    Actividad 21Paso 1. Establecemos H0 : 110, H1 : < 110.Paso 2. Fijamos = 0,01 y 1 -- = 0,99.

    Paso 3.

    Paso 4. Como = 106 pertenece al intervalo (105,922; ) aceptamos la hiptesis nula. En este ejercicio no parecemuy claro el contraste unilateral, cuando tengamos duda planteamos el contraste bilateral.

    Actividad 22Paso 1. Establecemos H0 : 172, H1 : > 172.Paso 2. Fijamos = 0,01 y 1 -- = 0,99.Paso 3.

    Paso 4. Como = 174 pertenece a la regin de aceptacin, admitimos que la talla media sea 172 cm.

    Determinamos de la regin de aceptacin. Como = 2,33z / 2

    +

    = +

    = , ,

    ,;/

    02 12

    2 33 8

    64

    z

    n( 174,33 ).

    Determinamos de la regin de aceptacin. Como 2,33z

    2

    0

    =

    =

    z

    n

    2

    1102 33 14

    64,

    ,, = (105,922; ).

    Determinamos de la regin de aceptacin. Como 2,33z

    2

    0

    =

    zz

    n

    2

    292 33 3

    10028 301

    =

    = ,

    ,, ( , ; ).

    Determinamos de la regin de aceptacin. Como 1,96z

    2

    0

    =

    zz

    n

    z

    n

    2

    0

    265

    1 96 6

    8165

    1 96 6

    81

    +

    =