guias de laboratorio

Upload: josselyn

Post on 10-Jan-2016

15 views

Category:

Documents


0 download

DESCRIPTION

Guias

TRANSCRIPT

  • GUA DE LABORATORIO 1

    TEMA: MUESTREO PROBABILSTICO

  • 2

    Contenido terico:

    Muestreo Aleatorio Simple

    Muestreo Aleatorio Sistemtico

    Muestreo Aleatorio Estratificado

    Todas las aplicaciones se realizarn en base al archivo de datos Employee data.sav,

    disponible en el archivo de instalacin del SPSS.

    Muestreo Aleatorio Simple

    Archivo de datos Employee data.sav :

    Observe que en este archivo se han registrado 474 observaciones para un total de 10

    variables.

    Puede solicitar un reporte de frecuencias para alguna variable de inters, como por

    ejemplo Categora laboral (catlab)

  • 3

    Ejercicio 1.

    Seleccione una muestra aleatoria simple de 50 empleados

    Para ello debe seguir los pasos siguientes:

    Datos Seleccionar casos

    Por defecto siempre estarn activos Todos los casos. Elija Muestra aleatoria de casos,

    haga clik en el botn Ejemplo

  • 4

    Importante:

    En la ventana anterior note que: por defecto se encuentra activa, en el

    recuadro inferior de Resultado, la opcin: Descartar casos no seleccionados.

    Esto permite realizar la seleccin sin eliminar el caso no seleccionado.

    En seguida se muestra la siguiente ventana en la que usted puede solicitar al programa

    seleccione aproximadamente cierto porcentaje de casos, conocidos tambin como

    registros u observaciones, para la muestra.

    Tambin puede solicitar al programa la seleccin de un nmero exacto de casos o

    registros. Para nuestro caso utilizaremos esta opcin para solicitar que seleccione

    exactamente 50 observaciones de los primeros 474 casos.

    En esta seleccin se obtuvo una muestra en la que se ha seleccionado las observaciones

    9, 10, 12 y otras. Observe que el programa tacha con una lnea oblicua la observacin

    que NO ha sido seleccionada. Adems, ha generado una variable Filtro (filter_$) en la

    ltima columna en la que ha asignado el cdigo 0 a las observaciones que no han sido

    seleccionadas y 1 a las que s han sido seleccionadas.

  • 5

    Si usted vuelve a solicitar un reporte de frecuencias para la variable catlab, observar

    que ahora solo son consideradas las 50 observaciones que han sido seleccionadas.

    Observacin:

    Cualquier anlisis que usted solicite se efectuar solamente sobre las 50

    observaciones seleccionadas.

    Las observaciones que no han sido seleccionadas no se han perdido,

    simplemente por ahora no se encuentran disponibles.

    Si desea reestablecer todo el archivo de datos debe hacer lo siguiente:

    Datos Seleccionar casos Todos los casos

  • 6

    Observe que ahora ya no se encuentran tachados los nmeros correspondientes a cada

    caso. Nuevamente tenemos disponibles TODOS los casos, a pesar que la variable

    filter_$ permanezca.

    Es muy frecuente observar que quienes se inician en el manejo de esta herramienta

    olvidan reestablecer toda la data y luego obtienen resultados solo de la ltima muestra

    seleccionada.

  • 7

    Muestreo Aleatorio Sistemtico

    La aplicacin del muestreo sistemtico se har siempre sobre el mismo archivo de datos

    Employee data.sav :

    Ejercicio 2.

    Seleccione una muestra aleatoria sistemtica de 50 empleados

    Recuerde que para l aplicacin de un muestreo sistemtico debemos determinar el valor

    de K correspondiente al salto sistemtico o perodo de seleccin.

    948,950

    474 K

    n

    NK

    Luego, de los primeros 9 registros del archivo de datos seleccionaremos uno,

    aplicando el mismo procedimiento del muestreo aleatorio simple, a este elemento

    seleccionado se le conoce como punto de arranque que se le puede denotar como A.

    Posteriormente debemos seleccionar a partir de A, incluyendo A, cada 9 registros uno

    para la muestra hasta completar los 50 registros solicitados para la muestra.

    Por ejemplo: si A = X7 este sera el primer elemento seleccionado.

    Luego seleccionamos: X16 , X25 , X34 , , X439 , X448

    Para lograr esto con ayuda del SPSS, se debe seguir los pasos siguientes:

    Eleccin del Punto de Arranque. Aplicaremos un muestreo aleatorio simple para

    seleccionar un caso de los primeros nueve registrados en el archivo de datos.

    Datos Seleccionar casos Muestra aleatoria de casos

  • 8

    En nuestro caso se ha seleccionado como Punto de arranque el caso 7: A = X7

    Ahora viene la parte ms importante para la seleccin automtica de los siguientes

    elementos de la muestra.

    Primero recuperamos la seleccin de Todos los casos

  • 9

    Luego elegimos la opcin condicional para la seleccin de casos.

  • 10

    Al hacer picar en el botn S la op se mostrar la siguiente ventana, que ofrece una

    serie de funciones dentro del Grupo de funciones

  • 11

    Dentro del Grupo de funciones Aritmticas podemos encontrar la funcin Mod

    (Mdulo) que como seala el cuadro explicativo permite determinar el resto o residuo

    de dividir una expresin numrica entre el mdulo.

    Para subir la funcin elegida picamos en la flecha

    Luego debemos indicar para cada signo de interrogacin lo que mostramos en el

    siguiente cuadro.

  • 12

    Tenga en cuenta que:

    id: es el cdigo del empleado asignado en el archivo de datos

    K = 9 : es el periodo de seleccin o salto sistemtico

    A = 7 : es el punto de arranque

    n = 50 : es el tamao de la muestra

  • 13

    Lo que se busca en la primera expresin es encontrar los registros cuya divisin con el

    valor de K nos de residuo CERO. La segunda expresin busca establecer un tope hasta

    donde se debe verificar estos cocientes. Dado que el valor de K, al ser redondeado al

    menor entero, suele ocasionar que sobren casos para realizar ms selecciones, esta

    segunda expresin evitar que se tomen ms observaciones que las establecidas para la

    muestra.

    Observe que:

    Si id = 1 1 + (9 7) entre 9 no muestra resto CERO el registro 1 no ser

    seleccionado

    Si id = 7 7 + (9 7) entre 9 si muestra resto CERO el registro 7 si ser

    seleccionado

    Si id = 447 447 + (9 7) entre 9 no muestra resto CERO el registro 447 no ser

    seleccionado

    Si id = 448 448 + (9 7) entre 9 si muestra resto CERO el registro 448 si ser

    seleccionado

    Picamos en: Continuar Aceptar

  • 14

    Observe en el cuadro siguiente que el primer registro seleccionado corresponde al punto

    de arranque A = X7 seguido del X7 + 9 = X16

    Observe que los dos ltimos casos seleccionados son precisamente: X439 y X448

    Muestreo Aleatorio Estratificado

    Recuerde que para l aplicacin de esta tcnica de muestreo debemos separar la

    poblacin en sub-poblaciones homogneas. En nuestro caso generaremos un archivo

  • 15

    para cada estrato. El archivo de datos ha utilizar sigue siendo Employee data.sav. No

    olvide que primero debe observar que tenga todos los casos del archivo disponibles.

    Ejercicio 3.

    Seleccione una muestra aleatoria estratificada de 50 empleados con asignacin

    proporcional a la categora laboral.

    Dado que la muestra se desea asignar proporcionalmente a la categora laboral podemos

    solicitar una tabla de frecuencias para esta variable y as conocer el tamao de cada

    estrato

    En seguida hacemos los clculos para la determinacin del tamao de muestra para cada

    estrato (categora laboral)

    Categora Laboral Frecuencia Proporcin ni = ( Ni / N ) * n

    Administrativo 363 ,7658 38,3 38

    Seguridad 27 ,0570 2,8 3

    Directivo 84 ,1772 8,9 9

    Total 474 1,0 50

    Para la conformacin de los estratos hacemos uso de la seleccin condicional:

    Datos Seleccionar casos Si se satisface la condicin Si la op

  • 16

    Seleccionamos la variable catlab y la igualamos a 1 esto permitir seleccionar todos

    los casos cuya categora laboral sea Administrativo (1).

    Algo muy importante con el Resultado, ahora solicitaremos que Copie los casos

    seleccionados a un nuevo conjunto de datos que llamaremos Administrativo,

    obteniendo de esta manera nuestro primer estrato.

  • 17

    El resultado ser un nuevo archivo de datos que considera solo los 363 casos

    correspondientes a Administrativos.

    Repetimos el procedimiento anterior para generar el segundo y tercer estrato que

    llamaremos respectivamente: Seguridad (catlab = 2) y Directivo (catlab = 3)

  • 18

  • 19

    Observe que hasta aqu se ha logrado conformar el estrato que llamaremos Seguridad

    que cuenta con 27 casos registrados.

  • 20

    Tenemos el estrato llamado Directivo conformado por 84 casos.

    Muestra por estrato. Ahora estamos en condicin de aplicar un muestreo aleatorio

    simple por cada estrato, seleccionando el nmero de observaciones calculado al inicio.

  • 21

    ADMINISTRATIVO

  • 22

    Ahora puede hacer uso de la tercera opcin de Resultados: Eliminar casos no

    seleccionados

    Es importante que est conciente que al elegir esta opcin los casos no seleccionados

    sern eliminados sin posibilidad de volverles a recuperar.

  • 23

    Observe que el archivo correspondiente a la muestra seleccionada del estrato de

    Administrativos cuenta con 38 casos.

    SEGURIDAD

    Del estrato Seguridad seleccionaremos con una muestra aleatoria simple de 3 de los 27

    casos

    No olvide elegir en Resultados la opcin de Eliminar casos no seleccionados. El

    resultado debe ser un archivo correspondiente a Seguridad reducido a 3 casos.

  • 24

    DIRECTIVO

    Si hacemos lo propio para el estrato de Directivos lograremos obtener este archivo

    reducido a 9 casos de los 84 que muestra inicialmente.

    Finalmente puede unir los tres archivos en uno solo teniendo la muestra total de 50

    registros

  • 25

    Solicite un reporte de frecuencias para este ltimo archivo

  • 26

    Este resultado confirma que la muestra ha sido seleccionada conforme se ha solicitado,

    respetando la asignacin proporcional a la categora laboral.

  • GUA DE LABORATORIO 2

    TEMA: INTERVALOS DE CONFIANZA Y PRUEBA DE HIPTESIS

  • 26

    Contenido Terico

    Intervalo de Confianza y Prueba de Hiptesis para la media poblacional ()

    cuando la varianza poblacional (2) es desconocida

    Intervalo de Confianza y Prueba de Hiptesis para la diferencia de medias poblacionales (1- 2) de muestras independientes

    Intervalo de Confianza y Prueba de Hiptesis para la diferencia de medias poblacionales (D) de muestras relacionadas

    Introduccin

    El SPSS facilita la obtencin de: intervalos de confianza, el valor calculado de la prueba

    estadstica y p-valor para evaluar los siguientes parmetros:

    Parmetro Intervalos de Confianza Pruebas de Hiptesis

    Media poblacional ()

    Razn de varianzas poblacionales

    2221

    Diferencia de medias poblacionales

    de muestras independientes (1-2)

    Diferencia de medias poblacionales

    de muestras relacionadas (D)

    Antes de iniciar el uso del programa para este tema, cabe indicar lo siguiente:

    El SPSS asume siempre (ya sea para analizar uno o dos poblaciones) que las muestras provienen de poblaciones infinitas. Es decir, no considera en sus clculos

    el factor de correccin de poblaciones finitas (f.c.p.f.).

    Para el caso de una media poblacional y dos medias poblacionales solo analiza el caso cuando la varianza poblacional es desconocida. Es decir, siempre usa la

    distribucin T tanto para obtener los estadsticos de prueba como los intervalos de

    confianza.

    Para el caso de pruebas de diferencia de medias poblacionales de muestras independientes o muestras relacionadas solo realiza la hiptesis cuando el valor

    hipottico es igual a cero.

    La prueba de hiptesis para la razn de varianzas poblacionales lo realiza mediante la prueba de Levene y no mediante la prueba F de Fisher.

    El p-valor solo lo obtiene para pruebas de tipo bilateral, por lo que se debe tener mucho cuidado si se quiere utilizar estos valores en casos unilaterales.

  • 27

    Conceptos

    El p valor (o sig)

    Cuando se interpretan los reportes en pruebas de hiptesis, las conclusiones estn

    basadas en una regla de decisin; sta se establece tendiendo en cuenta el riesgo que

    asume el investigador de cometer un error de tipo I, siendo la probabilidad de este error

    el nivel de significacin . Pero en algunas ocasiones, sin embargo, la decisin a tomar

    puede realizarse con un nivel de significacin diferente, con lo cual seria til conocer

    que tipo de decisin se puede adoptar segn el nivel de significacin real de una prueba

    basndose en los datos observados. Este concepto actuar como contrapuesto al nivel de

    significacin elegido antes de realizar la prueba.

    p-valor: probabilidad que, bajo H0 el estadstico de contraste tome un valor al menos

    tan alejado como el realmente obtenido.

    Cuanto ms pequeo sea el p-valor mayor es la evidencia en contra de H0.

    Intervalo de Confianza y Prueba de Hiptesis para la media

    poblacional () cuando la varianza poblacional (2) es desconocida

    El acceso se realiza mediante la siguiente secuencia

    Analizar Comparar medias Prueba T para una muestra.

    Ejemplo1

  • 28

    Los conductores metlicos o tubos huecos se usan en el cableado elctrico. En una

    prueba de tubos de una pulgada, se obtuvieron los datos siguientes respecto del

    dimetro exterior (en pulgadas).

    1,281 1,288 1,292 1,289 1,291 1,293 1,293 1,291 1,289 1,288

    1,287 1,291 1,290 1,286 1,289 1,286 1,295 1,296 1,291 1,286

    Suponga que el dimetro exterior se distribuye normalmente.

    a) Determine un intervalo del 90% de confianza para la media del dimetro exterior. Solucin:

    Ingresamos a la opcin indicada anteriormente y pasamos la variable del recuadro

    de la izquierda al de la derecha, utilizando el botn de la siguiente manera:

    Como se puede apreciar el recuadro con el nombre Valor de prueba no se ha

    considerado en este procedimiento, pues su utilidad es en las pruebas de hiptesis.

    Dado que desea un intervalo al 90% de confianza se debe dar un clic en el botn

    Opciones con lo cual aparecer la siguiente ventana

  • 29

    y all se debe indicar el nivel de confianza, posteriormente dar clic en Continuar para

    volver a la ventana principal.

    Al hacer clic en aceptar obtenemos:

    Segn este resultado el intervalo de confianza para la media se encuentra en el rango de

    1,288; 1,291

    Tenemos un 90% de confianza de que el intervalo 1,288; 1,291 contenga al al

    dimetro medio poblacional de los conductores metlicos usados en el cableado

    elctrico

    b) Pruebe la hiptesis de que la longitud media del dimetro exterior es de 1,29 pulgadas. Use un nivel de significacin de 0,05

    Solucin:

    Para probar la hiptesis de que la longitud media del dimetro exterior es de 1,29

    procedemos de la misma manera que en la parte a)

    Prueba para una muestra

    1647.613 19 .000 1.289600 1.28825 1.29095Dimetro exterior

    t gl Sig. (bilateral)

    Diferencia

    de medias Inf erior Superior

    90% Intervalo de

    conf ianza para la

    diferencia

    Valor de prueba = 0

    Lmite inferior de confianza de la media

    Lmite superior de confianza de la media

    Estadsticos para una muestra

    20 1.28960 .003500 .000783Dimetro exterior

    N Media

    Desviacin

    tp.

    Error tp. de

    la media

    Estimacin puntual de la media

  • 30

    Las hiptesis a contrastar son:

    29,1:

    29,1:

    1

    0

    H

    H

    = 0,05.

    Procedimiento:

    Observe que en el recuadro Valor de prueba se ha digitado 1,29 es decir se ha

    considerado el valor hipottico.

    A pesar que nos indiquen que se utiliza un nivel de significacin de 0,05 este no es

    ingresado en la ventana de Opciones como si ocurri en el intervalo de confianza.

    Al hacer clic en el botn aceptar obtenemos:

    Como 29,1:0 H frente a 29,1:1 H se trata por tanto de una prueba de hiptesis

    de dos colas (bilateral), el estadstico de prueba toma el valor -0,511. En este caso no

    podemos rechazar la hiptesis nula, el valor p de 0,615 es mayor que el nivel de

    significacin de 0,10.

    Estadsticos para una muestra

    N Media Desviacin tp.

    Error tp. de la

    media

    Dimetro exterior (en pulgadas) 20 1,28960 ,003500 ,000783

    Prueba para una muestra

    -.511 19 .615 -.000400 -.00175 .00095Dimetro exterior

    t gl Sig. (bilateral)

    Diferencia

    de medias Inf erior Superior

    90% Intervalo de

    conf ianza para la

    diferencia

    Valor de prueba = 1.29

  • 31

    Bajo un nivel de significacin del 10% concluimos que la longitud media del dimetro

    exterior de los tubos usados en el cableado elctrico es de 1,29 pulgadas

    Observacin:

    Puede calcularse el intervalo de confianza de la media sumando a la media hipottica los valores -0,00175 y 0,00095 de la tabla anterior y obtenemos el

    mismo resultado que en la parte a)

    Cuando la prueba de hiptesis es de una sola cola se debe observar el signo del tcalculado

    Si el t calculado es negativo: El sig de una prueba unilateral izquierda es sig/2; y el sig de una prueba

    unilateral derecha es 1-sig/2.

    Si el t calculado es positivo: El sig de una prueba unilateral izquierda es 1-sig/2; y el sig de una prueba

    unilateral derecha es sig/2.

    Por ejemplo si se quieren hacer las siguientes hiptesis

    0

    1

    : 1,29

    : 1,29

    H

    H

    Sig = 0,615/2 = 0,3075

    y

    0

    1

    : 1,29

    : 1,29

    H

    H

    Sig = 1- 0,615/2 = 0,6925

    Valor de la estadstica

    de prueba

    El criterio de decisin se basa

    en la comparacin de esta

    probabilidad con el nivel de

    significacin de la prueba

  • 32

    Intervalo de Confianza y Prueba de Hiptesis para la diferencia de

    medias poblacionales (1- 2) cuando las varianzas poblacionales son

    desconocidas y las muestras provienen de poblaciones independientes.

    El acceso se realiza mediante la siguiente secuencia

    Analizar Comparar medias Prueba T para una muestras independientes

    Ejemplo 2.

    Se piensa que el rendimiento de combustible en un modelo especfico de automvil

    sera ms alto si se utiliza gasolina sin plomo Premium que con la gasolina sin plomo

    Normal. A fin de recopilar datos para sustentar esta afirmacin, se selecciona en forma

    aleatoria 10 vehculos de una lnea de montaje y se prueban con una marca especifica de

    gasolina Premium, adems de seleccionar al azar otros 10 y probarlos con la de gasolina

    Normal. Las pruebas se realizan bajo condiciones controladas idnticas. Los datos

    resultantes son los siguientes:

    Premium 35,0 34,5 31,6 32,4 34,8 31,7 35,4 35,3 36,6 36,0

    Normal 40,0 29,6 32,1 35,4 34,0 34,8 34,6 34,8 32,6 32,2

    34.5

    Suponga que el rendimiento de combustible se distribuye normalmente

  • 33

    a) Determine e interprete un intervalo del 99% de confianza para la diferencia promedio poblacional del rendimiento de la gasolina sin plomo Premium y de la

    gasolina sin plomo Normal

    Solucin:

    Comenzamos introduciendo los datos en el editor Vista de datos del SPSS creando

    dos variables (columnas): en la primera columna se deben ingresar todos los datos

    de los rendimientos de los dos tipos de gasolinas y en la segunda columna se debe

    ingresar cdigos que identifiquen el tipo de gasolina:

    1: gasolina sin plomo Premium (deben existir tantos 1 como repeticiones tiene el

    tipo de gasolina sin plomo Premium) y

    2: gasolina sin plomo normal (deben existir tantos 2 como repeticiones tiene el tipo

    de gasolina sin plomo Normal)

    Ingresamos a la opcin indicada anteriormente y pasamos los datos de la columna 1

    al recuadro de Variables para contrastar y los datos de la columna 2 al recuadro

    de Variable de agrupacin, de la siguiente manera:

    En Variable de agrupacin se debe definir los cdigos de los grupos que se desean

    comparar. Para definir los cdigos se ingresa el al botn Definir grupos y

    posteriormente se da un clic en el botn Continuar:

  • 34

    Como nos piden un intervalo del 99% de confianza dar un clic al botn Opciones

    para definir ah el nivel de confianza.

    Los resultados obtenidos se presentan a continuacin:

    Podemos apreciar que el SPSS nos brinda los resultados para varianzas

    desconocidas asumiendo varianzas iguales y diferentes.

    Para determinar cual de los dos intervalos es el correcto debemos utilizar la Prueba

    de Levene y comparar el Sig =0.535 de la Prueba de Levene con el . Como en este

    caso el sig> asumimos los resultados obtenidos para varianzas homogneas

    Estadsticos de grupo

    10 34.370 1.8105 .5725

    10 33.980 2.6720 .8450

    Tipo_gas

    Gasolina sin

    plomo premium

    Gasolina sin

    plomo normal

    Rend

    N Media

    Desviacin

    tp.

    Error tp. de

    la media

    Prueba de muestras independientes

    .401 .535 .382 18 .707 .3900 1.0207 -2.5479 3.3279

    .382 15.825 .707 .3900 1.0207 -2.5955 3.3755

    Se han asumido

    varianzas iguales

    No se han asumido

    varianzas iguales

    Rend

    F Sig.

    Prueba de Lev ene

    para la igualdad de

    varianzas

    t gl Sig. (bilateral)

    Dif erencia

    de medias

    Error tp. de

    la diferencia Inf erior Superior

    99% Interv alo de

    conf ianza para la

    diferencia

    Prueba T para la igualdad de medias

    Lmite inferior de

    confianza para la

    diferencia de

    medias asumiendo

    varianzas iguales

    0,535 >0,01: No se

    rechaza la hiptesis

    nula de varianzas

    iguales

    Lmite Superior de

    confianza para la

    diferencia de

    medias asumiendo

    varianzas iguales

  • 35

    La interpretacin para el intervalo sera la siguiente:

    Existe un 99% de confianza de que el intervalo -2,5479; 3,3279 contenga la

    diferencia media poblacional del rendimiento medio de la gasolina sin plomo

    Premium y de la gasolina sin plomo Normal.

    b) Realice una prueba de hiptesis para comparar la media de rendimiento de combustible con esas dos gasolinas. Use un nivel de significacin del 1%. Interprete

    los resultados en el contexto del problema.

    En este caso aprovechamos el reporte anterior para dar respuesta a la siguiente

    hiptesis:

    22

    1

    22

    0

    :

    :

    NP

    NP

    H

    H

    De igual manera que para intervalos de confianza, para determinar si las varianzas

    son homogneas o no, debemos hacer uso del Sig =0.535 de la Prueba de Levene y

    compararlo con el .

    Como en este caso el sig> asumimos los resultados obtenidos para varianzas

    homogneas

    Para evaluar la hiptesis de inters

    NP

    NP

    H

    H

    :

    :

    1

    0

    =0,01

    Prueba de muestras independientes

    .401 .535 .382 18 .707 .3900 1.0207 -2.5479 3.3279

    .382 15.825 .707 .3900 1.0207 -2.5955 3.3755

    Se han asumido

    varianzas iguales

    No se han asumido

    varianzas iguales

    Rend

    F Sig.

    Prueba de Lev ene

    para la igualdad de

    varianzas

    t gl Sig. (bilateral)

    Dif erencia

    de medias

    Error tp. de

    la diferencia Inf erior Superior

    99% Interv alo de

    conf ianza para la

    diferencia

    Prueba T para la igualdad de medias

    Valor del estadstico de

    prueba cuando las

    varianzas son similares

    p = 0,707 >0,01: No se

    rechaza la hiptesis nula

    de medias iguales

  • 36

    Conclusin:

    Bajo un nivel de significacin del 1% concluimos que los rendimientos medios de

    ambos tipos de gasolinas no son diferentes.

    Intervalo de Confianza y Prueba de Hiptesis para la diferencia de

    medias poblacionales (D) de muestras relacionadas

    El acceso se realiza mediante la siguiente secuencia

    Analizar Comparar medias Prueba T para una muestras relacionadas

    Ejemplo 3.

    Se realiz un estudio para determinar si el nivel de exportacin (en miles de $) de 10

    exportadores de esprragos ha variado. Se recolect la siguiente informacin:

    Ao Exportador

    1 2 3 4 5 6 7 8 9 10

    2006 17,5 17,2 15,8 16,2 17,4 15,8 17,7 17,6 18,3 18.0

    2007 19,2 17,4 16.0 18,1 17.0 16,3 18,3 16,4 18.0 19,2

    Suponga que el nivel de exportacin se distribuye normalmente

    a) Determine e interprete un intervalo del 95% de confianza para la diferencia promedio del nivel de exportacin en el periodo 2006-2007

  • 37

    Solucin:

    Comenzamos introduciendo los datos de cada ao en dos columnas diferentes en el

    editor Vista de datos del SPSS.

    Ingresamos a la opcin indicada anteriormente y pasamos los datos de cada columna

    en los recuadros con encabezado Variable1 y Variable2. Esta versin del SPSS

    permite hacer varias comparaciones a la vez.

    Si quiere hacer la diferencia del segundo grupo menos el primer grupo puede hacer

    uso del botn

    Los resultados obtenidos se presentan a continuacin:

    Estadsticos de muestras relacionadas

    Media N Desviacin tp.

    Error tp. de la

    media

    Par 1 ao1 17,1300 10 ,90068 ,28482

    ao2 17,5900 10 1,15993 ,36680

    Correlaciones de muestras relacionadas

    N Correlacin Sig.

    Par 1 ao1 y ao2 10 ,590 ,073

  • 38

    Prueba de muestras relacionadas

    Diferencias relacionadas

    Media

    Desviacin

    tp.

    Error tp. de la

    media

    95% Intervalo de confianza

    para la diferencia

    t gl

    Sig.

    (bilateral) Inferior Superior

    Par 1 ao1 - ao2 -,46000 ,96171 ,30412 -1,14797 ,22797 -1,513 9 ,165

    El intervalo del 95% confianza que va de [-1,14797; 0,22797] brinda un 95% de

    confianza de contener a la diferencia de medias de los niveles de exportacin en el

    periodo 2006-2007

    c) Realice una prueba de hiptesis para comparar si el nivel de exportacin se ha mantenido igual. Use un nivel de significacin del 1%. Interprete los resultados en

    el contexto del problema.

    Para evaluar la hiptesis de inters

    0

    1

    : 0

    : 0

    H D

    H D

    =0,01

    sig = 0,165 > no se rechaza H0.

    Conclusin

    Existe suficiente evidencia estadstica a un nivel de significacin de 0,05 para no

    rechazar H0.

    Por lo tanto no podemos afirmar que los niveles de exportacin han variado.

  • 39

    GUA DE LABORATORIO 3

    TEMA: ANLISIS DE VARIANZA

  • 40

    ANLISIS DE VARIANZA DE UNA VA

    DISEO COMPLETO AL AZAR

    1) Un exceso de ozono en el aire es seal de contaminacin. Se tomaron seis muestras de aire en cada uno de cuatro sitios industriales y se determin el contenido de

    ozono. Las concentraciones de ozono (en partes por milln) se presentan en la

    siguiente tabla.

    Sitios

    N I II III IV

    1 0,08 0,15 0,13 0,05

    2 0,10 0,09 0,10 0,11

    3 0,09 0,11 0,15 0,07

    4 0,07 0,10 0,09 0,09

    5 0,09 0,08 0,09 0,11

    6 0,06 0,13 0,17 0,08

    Creacin del archivo

    En la ventana de Vista de variables: genere las variables: ozono y sitio. Los valores de

    la variable sitio deben estar codificadas de la siguiente forma:

    Digite los datos en Vista de

    datos.

  • 41

    a) Los datos proporcionan prueba suficiente que indiquen diferencias en el

    contenido medio de ozono entre los cuatro sitios? Use 05,0 .

    En Dependientes: Ingrese la variable Ozono.

    En Factor: Ingrese la variable Sitio.

  • 42

    b) Verifique el supuesto de homogeneidad de varianzas. Use 05,0 .

    c) A partir de los resultados de (a), use las pruebas de Duncan y DMS para probar

    diferencias en los contenidos de concentraciones de ozono de los diferentes

    sitios. Use 05,0 .

    Para ello, en la ventana de Post hoc, seleccione las pruebas solicitadas.

  • 43

    Los resultados obtenidos se muestran a continuacin:

    ANOVA de un factor

    Con relacin a la pregunta (b), verifique el supuesto de homogeneidad de varianzas.

    Use 05,0 .

    Las hiptesis a formular son:

    H0: Las varianzas del contenido de ozono entre los cuatro sitios son iguales

    H1: Al menos una varianza diferente al resto de los lugares.

    Como sig =0,151 > 05,0 , entonces no se rechaza el supuesto de homogeneidad de

    las varianzas.

    Con relacin a la pregunta (a), los datos proporcionan prueba suficiente que indiquen

    diferencias en el contenido medio de ozono entre los cuatro sitios? Use =0,05.

    Las hiptesis a formular son:

    H0: No hay diferencias en el contenido medio de ozono entre los cuatro sitios

    H1: S hay diferencias en el contenido medio de ozono entre los cuatro sitios

    Como sig =0.035 < 05,0 , entonces se concluye que s hay diferencias en el

    contenido medio de ozono entre los cuatro sitios.

  • 44

    Pruebas post hoc

    Subconjuntos homogneos Grfico de las medias

    Una limitacin de esta forma de acceso a la prueba, es que no permite obtener

    los residuos del modelo que se establece en el anlisis, en consecuencia no

    podemos realizar la verificacin del supuesto de Normalidad de los errores. Por

    ello mostraremos otra forma de ingreso a la prueba: Analizar Modelo lineal

    general - Univariante

  • 45

    Seleccionamos la variable de Dependiente (Concentracin de ozono) y el Factor

    (Sitio) lo ubicamos como Factor Fijo.

    Luego en Post hoc, seleccionamos el Factor Sitio y lo trasladamos al campo de

    Contrastes post hoc. Activamos las pruebas de DMS y Duncan

  • 46

    Continuamos y vamos a Guardar, en donde activaremos los Residuos

    Estandarizados

    Continuamos y vamos a Opciones, para solicitar la Prueba de homogeneidad.

    Aqu encontramos el nivel de significacin para las pruebas de Duncan, as que

    es importante observar con que nivel de significacin se est realizando el

    estudio.

  • 47

    Los resultados que se obtienen son los siguientes:

    Anlisis de varianza univariante

  • 48

    Pruebas post hoc

    Sitio

    Subconjuntos homogneos

  • 49

    Hasta aqu no se ha presentado ninguna salida que permita evaluar la

    Normalidad de los Residuos, sin embargo en el archivo correspondiente a vista

    de datos podemos observar que aparece una nueva columna denominada RES_1

    que corresponden a los Residuos de la variable en estudio

    Aplicamos la Prueba no paramtrica de K-S de una muestra

  • 50

    Seleccionamos la variable Residuo para Concentracin de ozono y la

    tomamos como variable a contrastar

    Obtenemos como resultado la tabla correspondiente a la Prueba de

    Kolmogorov Smirnov para una muestra de la variable Residuo para

    Concentracin.

  • 51

    DISEO FACTORIAL: ANOVA DE DOS VAS

    Se condujo un experimento para determinar si la temperatura del fuego o la posicin en

    el horno afectan la densidad de endurecimiento de un nodo de carbn. Los datos son

    los siguientes:

    Posicin

    Temperatura (C)

    800 825 850

    1

    570 1063 565

    565 1080 510

    583 1043 590

    2

    528 988 526

    547 1026 538

    521 1004 532

    Analice los datos al nivel de significacin de 0.05.

    Solicitando el anlisis para el diseo factorial

  • 52

    En Variable dependiente:

    colocar densidad

    En factores fijos:

    posicin y temperatura

    Dar click en Modelo

    En modelo

    Solicitar los grficos de perfil

  • 53

    En la primera pantalla, dar clic en Opciones y solicitar el anlisis para verificar la

    homogeneidad de varianzas. Tambin solicite las estimaciones para las medias

    marginales.

    Para obtener las comparaciones mltiples, en la primera pantalla dar click en Post Hoc

    y seleccionar DMS (en ingls LSD) y la prueba de Duncan.

  • 54

    Para estimar los residuales, siga el procedimiento siguiente:

  • 55

    Salidas

    Anlisis de varianza univariante

    Factores inter-sujetos

    800 C 6

    825 C 6

    850 C 6

    Posicin 1 9

    Posicin 2 9

    800

    825

    850

    Temperatura

    1

    2

    Posicin

    Etiqueta

    del valor N

    .ijy

    .ijijk yy

  • 56

    Contraste de Levene sobre la igualdad de las varianzas errora

    Variable dependiente: Densidad

    2.572 5 12 .084

    F gl1 gl2 Signif icacin

    Contrasta la hiptesis nula de que la varianza error de la

    variable dependiente es igual a lo largo de todos los grupos.

    Diseo:

    Interseccin+Temperatura+Posicin+Temperatura *

    Posicin

    a.

    Pruebas de los efectos inter-sujetos

    Variable dependiente: Densidad

    953320.278a 5 190664.056 426.012 .000

    9072380.056 1 9072380.1 20270.958 .000

    945342.111 2 472671.056 1056.117 .000

    7160.056 1 7160.056 15.998 .002

    818.111 2 409.056 .914 .427

    5370.667 12 447.556

    10031071.0 18

    958690.944 17

    FuenteModelo corregido

    Interseccin

    Temperatura

    Posicin

    Temperatura * Posicin

    Error

    Total

    Total corregida

    Suma de

    cuadrados

    tipo III gl

    Media

    cuadrtica F Signif icacin

    R cuadrado = .994 (R cuadrado corregida = .992)a.

    Medias marginales estimadas

    1. Media global

    Variable dependiente: Densidad

    709.944 4.986 699.080 720.809

    Media Error tp. Lmite inferior Lmite superior

    Intervalo de confianza al 95%.

    2. Temperatura

    Estimaciones

    Variable dependiente: Densidad

    552.333 8.637 533.516 571.151

    1034.000 8.637 1015.182 1052.818

    543.500 8.637 524.682 562.318

    Temperatura

    800 C

    825 C

    850 C

    Media Error tp. Lmite inferior Lmite superior

    Intervalo de confianza al 95%.

  • 57

    Comparaciones por pares

    Variable dependiente: Densidad

    -481.667* 12.214 .000 -508.279 -455.054

    8.833 12.214 .483 -17.779 35.446

    481.667* 12.214 .000 455.054 508.279

    490.500* 12.214 .000 463.888 517.112

    -8.833 12.214 .483 -35.446 17.779

    -490.500* 12.214 .000 -517.112 -463.888

    (J) Temperatura

    825 C

    850 C

    800 C

    850 C

    800 C

    825 C

    (I) Temperatura

    800 C

    825 C

    850 C

    Diferencia entre

    medias (I-J) Error tp. Significacina

    Lmite inferior Lmite superior

    Intervalo de confianza al 95 %

    para la di ferenciaa

    Basadas en las medias marginales estimadas.

    La diferencia de las medias es significativa al nivel .05.*.

    Ajuste para comparaciones mltiples: Diferencia menos significat iva (equivalente a la ausencia de ajuste).a.

    Contrastes univariados

    Variable dependiente: Densidad

    945342.111 2 472671.056 1056.117 .000

    5370.667 12 447.556

    Contraste

    Error

    Suma de

    cuadrados gl

    Media

    cuadrtica F Significacin

    Cada prueba F contrasta el efecto simple de Temperatura en cada combinacin de

    niveles del resto de los efectos mostrados. Estos contrastes se basan en las

    comparaciones por pares, linealmente independientes, ent re las medias marginales

    estimadas.

    3. Posicin

    Estimaciones

    Variable dependiente: Densidad

    729.889 7.052 714.524 745.254

    690.000 7.052 674.635 705.365

    Posicin

    Posicin 1

    Posicin 2

    Media Error tp. Lmite inferior Lmite superior

    Intervalo de confianza al 95%.

    Comparaciones por pares

    Variable dependiente: Densidad

    39.889* 9.973 .002 18.160 61.618

    -39.889* 9.973 .002 -61.618 -18.160

    (J) P osicin

    Posicin 2

    Posicin 1

    (I) P osicin

    Posicin 1

    Posicin 2

    Diferencia ent re

    medias (I-J) Error tp. Significacina

    Lmite inferior Lmite superior

    Intervalo de confianza al 95 %

    para la di ferenciaa

    Basadas en las medias marginales estimadas.

    La diferencia de las medias es signi ficativa al nivel .05.*.

    Ajuste para comparaciones mltiples: Diferencia menos significativa (equivalente a la ausencia de ajuste).a.

  • 58

    Contrastes univariados

    Variable dependiente: Densidad

    7160.056 1 7160.056 15.998 .002

    5370.667 12 447.556

    Contraste

    Error

    Suma de

    cuadrados gl

    Media

    cuadrtica F Significacin

    Cada prueba F contrasta el efecto simple de Posicin en cada combinacin de niveles

    del resto de los efectos mostrados. Estos contrastes se basan en las comparaciones por

    pares, linealmente independientes, entre las medias marginales estimadas.

    4. Temperatura * Posicin

    Variable dependiente: Densidad

    572.667 12.214 546.054 599.279

    532.000 12.214 505.388 558.612

    1062.000 12.214 1035.388 1088.612

    1006.000 12.214 979.388 1032.612

    555.000 12.214 528.388 581.612

    532.000 12.214 505.388 558.612

    Posicin

    Posicin 1

    Posicin 2

    Posicin 1

    Posicin 2

    Posicin 1

    Posicin 2

    Temperatura

    800 C

    825 C

    850 C

    Media Error tp. Lmite inferior Lmite superior

    Intervalo de confianza al 95%.

    Pruebas post hoc

    Temperatura

    Comparaciones mltiples

    Variable dependiente: Densidad

    -481.67* 12.214 .000 -508.28 -455.05

    8.83 12.214 .483 -17.78 35.45

    481.67* 12.214 .000 455.05 508.28

    490.50* 12.214 .000 463.89 517.11

    -8.83 12.214 .483 -35.45 17.78

    -490.50* 12.214 .000 -517.11 -463.89

    (J) Temperatura

    825 C

    850 C

    800 C

    850 C

    800 C

    825 C

    (I) Temperatura

    800 C

    825 C

    850 C

    DMS

    Diferencia ent re

    medias (I-J) Error tp. Significacin Lmite inferior Lmite superior

    Intervalo de confianza al 95%.

    Basado en las medias observadas.

    La diferencia de medias es significativa al nivel .05.*.

  • 59

    Subconjuntos homogneos

    Densidad

    6 543.50

    6 552.33

    6 1034.00

    .483 1.000

    Temperatura

    850 C

    800 C

    825 C

    Significacin

    Duncana,bN 1 2

    Subconjunto

    Se muestran las medias para los grupos en subconjuntos homogneos.

    Basado en la suma de cuadrados tipo I

    El trmino error es la Media cuadrtica (Error) = 447.556.

    Usa el tamao muestral de la media armnica = 6.000a.

    Alfa = .05.b.

    Grficos de perfil

    850 C825 C800 C

    Temperatura

    1100

    1000

    900

    800

    700

    600

    500

    Med

    ias m

    arg

    inale

    s e

    sti

    mad

    as

    Posicin 2

    Posicin 1

    Posicin

    Medias marginales estimadas de Densidad

    Posicin 2Posicin 1

    Posicin

    1100

    1000

    900

    800

    700

    600

    500

    Media

    s m

    arg

    inale

    s e

    stim

    adas 850 C

    825 C

    800 C

    Temperatura

    Medias marginales estimadas de Densidad

  • 60

    DISEO BLOQUES COMPLETOS ALEATORIOS

    2) Un ingeniero industrial prueba cuatro distribuciones diferentes para el piso de una tienda; encarga a cada una de seis cuadrillas construir una subdivisin y mide los

    tiempos de construccin (en minutos) como sigue:

    Distribucin 1 Distribucin 2 Distribucin 3 Distribucin 4

    Cuadrilla A 48.2 53.1 51.2 58.6

    Cuadrilla B 49.5 52.9 50.0 60.1

    Cuadrilla C 50.7 56.8 19.9 62.4

    Cuadrilla D 48.6 50.6 47.5 57.5

    Cuadrilla E 47.1 51.8 49.1 55.3

    Cuadrilla F 52.4 57.2 53.5 61.7

    Pruebe en el nivel de significacin 0,01 si las cuatro distribuciones del piso

    producen tiempos de construccin diferentes y si algunas de las cuadrillas de

    trabajo son consistentemente ms rpidas al construir la subdivisin que las otras.

    Anlisis de varianza utilizando: ANOVA de dos factores

  • 61

  • 62

    Los resultados obtenidos son:

    Anlisis de varianza univariante

  • 63

    Pruebas post hoc

    Distribucin

    Subconjuntos homogneos

  • 64

    Cuadrilla

  • 65

    Subconjuntos homogneos

    Grficos de perfil

  • 66

    Anlisis de Normalidad de los Residuos

  • 67

    Ejecutamos la prueba de K-S para los Residuos

  • 68

    Anlisis de Homogeneidad de varianzas para el Factor Distribucin. Observe

    que en esta ocasin ya no consideramos al bloque (Cuadrilla) como un Factor

    fijo.

  • 69

    Continuar y Aceptar

  • 70

    GUA DE LABORATORIO 4

    TEMA: PRUEBAS CHI CUADRADO

  • 71

    Contenido Terico:

    Prueba de Independencia

    Prueba de Homogeneidad

    Prueba de Bondad de ajuste

    Introduccin

    Una de las mayores utilidades de la distribucin Ji-Cuadrado est en que permite

    comparar frecuencias observadas (frecuencias obtenidas en un experimento o

    muestreo) con frecuencias esperadas segn un modelo supuesto (hiptesis nula).

    Esta caracterstica de la distribucin Ji-cuadrado permite efectuar las siguientes

    pruebas:

    Prueba de independencia.

    Prueba de homogeneidad de subpoblaciones.

    Pruebas de bondad de ajuste a una distribucin de probabilidades.

    La metodologa en cada uno de los tres casos es muy similar. La diferencia principal

    est en la forma en que se calculan las frecuencias esperadas, ya que estas

    dependern de la hiptesis nula en cuestin.

    I. PRUEBA DE INDEPENDENCIA Y DE HOMOGENEIDAD

    Caso1. Cuando cada fila de la BD representa varios casos.

    Los grandes almacenes Premium vende vales de regalo durante la temporada de

    Navidad. El gerente de ventas, Leo Marinni, quiere determinar si el valor de un

    vale tiene alguna relacin con lo que el cliente compra con dicho vale. Los datos

    recogidos de una muestra de clientes que asistieron durante el ltimo mes son:

    Departamento

    Frecuencias observadas

    Valor del vale

    $10 $50 $100+

    Electrodomsticos 22 26 54

    Ropa 33 31 22

    Herramientas 41 43 19

    Pruebe si el valor del vale se relaciona con lo que el cliente compra. Use = 0,05.

    1 Digitar la siguiente base de datos:

  • 72

    2 Ponderar los casos.

    Ponderar los casos por la variable N clientes (frecuencia)

  • 73

    3 Finalmente correr el programa para tablas de contingencia.

    Dar clic en Estadsticos para seleccionar la opcin de prueba chi-cuadrado

    Para obtener las frecuencias esperadas y los porcentajes fila, columna y total,

    ingresar a Casillas y marcar lo que se necesite analizar:

  • 74

    Ho: Existe independencia entre variables (departamento y valor del vale)

    H1: No existe independencia entre variables

    A la vista de los resultados el Valor-P = 0.000 es menor que nuestro nivel de

    significacin 5% por lo que se rechaza la hiptesis nula.

    Por lo tanto, con un nivel de significacin del 5% no podemos afirmar que exista

    independencia entre las variables sujetas a evaluacin.

    Caso 2. Cuando cada fila de la BD representa un solo caso.

    Para la explicacin del tema tomaremos las variables cualitativas nivel de educacin y

    regin de nacimiento de la base de datos encuesta.sav.

    Los 300 datos se presentan de la siguiente manera:

  • 75

    Luego, en la opcin: estadsticos marcar chi-cuadrado

  • 76

    Los resultados que se obtienen se muestran a continuacin:

    Ho: Existe independencia entre variables (Regin de nacimiento y nivel educativo)

    H1: No existe independencia entre variables

    A la vista de los resultados el Valor-P = 0.722 es mayor que nuestro nivel de

    significacin 5% por lo que no se rechaza la hiptesis nula.

    Por lo tanto, con un nivel de significacin del 5% podemos afirmar que existe

    independencia entre las variables sujetas a evaluacin.

  • 77

    NOTA: Cabe recordar que la prueba chi-cuadrado propone como condicin que las frecuencias esperadas sean mayores que 5. En el ltimo reporte del SPSS se indica que

    el 48% de las casillas tienen frecuencia esperada inferior a 5 por lo que ser necesario

    juntar columnas (en este caso).

    II. PRUEBA DE BONDAD DE AJUSTE

    SPSS nos permite realizar pruebas de bondad de ajuste. Es decir, contrastar si las

    frecuencias observadas en cada una de las clases de una variable categrica varan de

    forma significativa de las frecuencias que se esperara encontrar si la muestra hubiese

    sido extrada de una poblacin con una determinada distribucin de frecuencias.

    Esta prueba Chi-cuadrado se obtiene a partir del men Pruebas no paramtricas

    dentro del men principal Analizar. En el cuadro de dilogo debemos introducir la

    variable categrica que queremos analizar y posteriormente las frecuencias esperadas

    bajo la hiptesis que queremos contrastar.

    En el apartado de valores esperados debemos elegir, bien la opcin de homogeneidad

    a lo largo de todas las clases, o bien debemos introducir, en el mismo orden en el que

    aparecen en el archivo de datos, las frecuencias esperadas.

    Debe recordarse que la suma de los valores observados en la muestra debe ser igual a la

    suma de valores esperados.

    CASO 1. FRECUENCIAS ESPERADAS IGUALES

    Tomaremos los datos del archivo: encuesta.sav

  • 78

    Seleccionaremos la variable NIVEDUC (Nivel educativo) para determinar, inicialmente

    si el porcentaje de personas para cada categora de nivel educativo es el mismo.

    La opcin que aparece marcada por defecto en Rango esperado, es decir obtener de

    los datos, implica que cada valor de la variable ser considerado una categora.

    La opcin que aparece marcada por defecto en Valores esperados, es decir todas las

    categoras iguales, implica que la distribucin de probabilidades es uniforme para

    todas las categoras consideradas (para nuestro ejemplo 296 datos entre 5 categoras).

    Los resultados obtenidos son:

  • 79

    Ho: La distribucin de nivel educativo es la misma para las 5 categoras

    H1: La distribucin de nivel educativo no es la misma para las 5 categoras

    A la vista de los resultados el Valor-P = 0.000 es menor que nuestro nivel de

    significacin 5% por lo que se rechaza la hiptesis nula.

    CASO 2. FRECUENCIAS ESPERADAS DESIGUALES

    Alternativamente tenemos la opcin de especificar las frecuencias esperadas

    porcentuales para cada categora de la variable categrica. El orden en que se

    especifiquen los datos corresponde a los valores de la variable en orden ascendente.

    Recordemos previamente que la codificacin asignada a esta variable es la siguiente:

  • 80

    Asumamos que lo que se propone como hiptesis estipula que el porcentaje de la

    categora Primaria es 20%, Secundaria 50%, Preparatoria10%, Universidad 15%,

    Especializacin 5%.

    En la opcin Valores esperados marcamos valores luego ingresamos cada porcentaje y

    pulsamos aadir. Luego aceptar:

    Los resultados obtenidos se muestran a continuacin:

  • 81

    A la vista de los resultados el Valor-P = 0.000 es menor que nuestro nivel de

    significacin 5% por lo que se rechaza la hiptesis nula.

  • 82

    GUA DE LABORATORIO 5

    TEMA: REGRESIN LINEAL Y NO LINEAL

  • 83

    Contenido Terico:

    Matriz de correlaciones.

    Regresin lineal simple.

    Regresin curvilineal.

    Introduccin

    En el anlisis estadstico se tienen mtodos que nos permiten determinar si dos o ms

    variables se relacionan. La relacin entre variables nos permite disponer de los

    elementos suficientes para, en base a una muestra de pares de datos de las variables,

    realizar estimaciones de las proyecciones para uno o ms datos de una de las variables

    involucradas.

    En esta oportunidad nos ocuparemos de la correlacin y la regresin entre los datos de

    dos variables numricas utilizando SPSS para el anlisis correspondiente.

    A continuacin se muestra la base de datos con la que se explicar los procedimientos

    involucrados al realizar un anlisis de regresin lineal simple.

    Los datos corresponden a las ventas totales por ao de cada una de 11 regiones en las

    que una compaa opera. Dicha compaa se dedica a la venta de repuestos para

    automviles. Se pretende estimar el valor de las ventas futuras conociendo el nmero de

    distribuidoras establecidas en cada regin y el nmero de automviles vendidos para

    cada regin.

  • 84

    MATRIZ DE CORRELACIONES

    El primer paso que daremos consiste en revisar si existe correlacin entre las variables

    de esta base de datos, con este fin realizaremos la matriz de correlaciones. Analizando

    esta matriz se podr determinar cul de las variables independientes: Regin, N de

    distribuidoras o N de autos vendidos, est ms correlacionada con la variable

    dependiente Ventas.

    Para realizar la matriz de correlaciones:

    Men Analizar >> Correlaciones >> Bivariadas:

    En el cuadro dialogo de Correlaciones Bivariadas:

    Elige las variables Ventas, Nro_Distrib y Nro_Autos. Utiliza el

    Mouse y la tecla Ctrl.

    Arrastra y suelta las variables en el panel en blanco Variables.

    Revise que este activado Pearson en Coeficiente de correlacin.

  • 85

    Clic en aceptar.

    Obtenemos el siguiente resultado:

    Se observa que la variable ventas est ms correlacionada con la variable Nmero de

    distribuidoras (correlacin 0.739) por lo que un primer paso ser realizar un anlisis de

    regresin lineal simple con esta variable independiente.

    REGRESION LINEAL SIMPLE ENTRE LA VARIABLE

    INDEPENDIENTE MS CORRELACIONADA CON Y

    La secuencia es:

  • 86

    Analizar >> Regresin >> Lineal, se mostrar el siguiente cuadro de dilogo:

    En el cuadro dialogo que se habre:

    Arrastre la Variable Ventas a la casilla de

    Dependientes.

    Arrastre la variable Nro_distrb a la casilla de

    Independiente.

    Clic en Aceptar.

  • 87

    Por el momento slo se proceder a obtener la ecuacin del modelo as como algunos

    valores representativos para la validacin de dicho modelo.

    Un anlisis ms riguroso del modelo y su validacin se har para el caso de regresin

    lineal mltiple.

    Resultados obtenidos:

    Resumen del modelo

    .739a .546 .496 9.7718

    Modelo

    1

    R R cuadrado

    R cuadrado

    corregida

    Error tp. de la

    estimacin

    Variables predictoras: (Constante), Nro distribuidorasa.

    El coeficiente de determinacin, denotado por R2 (0.546) implica que el 54.6% de

    variacin en las ventas pueden ser explicadas por el modelo de regresin.

    ANOVAb

    1033.836 1 1033.836 10.827 .009a

    859.393 9 95.488

    1893.229 10

    Regresin

    Residual

    Total

    Modelo

    1

    Suma de

    cuadrados gl

    Media

    cuadrtica F Sig.

    Variables predictoras: (Constante), Nro distribuidorasa.

    Variable dependiente: Ventas (mills $)b.

    La tabla de Anlisis de Varianza permite realizar la prueba de significacin global del

    modelo, se propone las siguientes hiptesis:

    modeloelparaivasignificatesvariableunamenoslAH

    modelolancontribuye no variables lasconjuntaformaEnH

    i

    o

    0:

    0:

    1

    1

    Analizando el P-Valor (0.009) (Sig), el cual es inferior al 5% (nivel de significacin

    propuesto usualmente para la prueba), se decide que se debe rechazar la hiptesis nula

    con lo cual concluimos que la variable Nmero de distribuidoras s contribuye

    significativamente al modelo.

    Coeficientesa

    10.881 6.409 1.698 .124

    .012 .004 .739 3.290 .009

    (Constante)

    Nro distribuidoras

    Modelo

    1

    B Error tp.

    Coef icientes no

    estandarizados

    Beta

    Coef icientes

    estandarizad

    os

    t Sig.

    Variable dependiente: Ventas (mills $)a.

  • 88

    El modelo estimado para el presente caso ser:

    )(012.0881.10 orasdistribuiddeNroentasV

    Adems de la prueba de verificacin global se puede realizar la prueba de verificacin

    individual de la variable independiente.

    modeloelparaivasignificatesvariableLaH

    modeloelparaivasignificatesnovariableLaH

    i

    io

    0:

    0:

    1

    Para el caso desarrollado (regresin lineal simple), esta prueba es anloga a la prueba de

    verificacin global.

    Una forma grfica de verificar la relacin lineal entre Y con X es realizar un grfico de

    dispersin, el cul muestra la posible tendencia y/o relacin posible entre variable

    dependiente e independiente.

    La secuencia para obtener dicho grfico es la siguiente:

  • 89

    En este cuadro dialogo se

    elige Dispersin simple.

    En el cuadro de dilogo (Dispersin simple) se ingresar la informacin de la siguiente

    manera:

    El resultado que se obtiene es el siguiente:

  • 90

    REGRESIN NO LINEAL / CURVILINEAL

    En el anlisis de regresin no todas las relaciones de variables se comportan de manera

    lineal, en algunos casos la relacin se da de manera curvilnea. Se puede determinar este

    tipo de relacin con el anlisis del diagrama de dispersin.

    Analizaremos los diferentes modelos curvilneos que puedan formarse para determinar

    cul de ellos es el mejor. Los datos se muestran a continuacin:

    La secuencia para realizar una regresin curvilnea es la siguiente:

    Men Analizar >> Regresin >> Estimacin Curvilnea. . .

    Arrastre la variable Salario a Dependientes

    Arrastre la variable Experiencia a

    Independientes

    Verifique que este activados los Modelos

    de regresin.

    Aceptar

  • 91

    Como se muestra, tenemos la posibilidad de elegir entre varios modelos. Para

    desarrollar nuestro ejemplo hallaremos los coeficientes estimados y la tabla de anlisis

    de varianza de los modelos: Lineal, Cuadrtico, Potencia y Exponencial.

    Los resultados que obtenemos en la tercera tabla son los siguientes:

    Resumen del modelo y estimaciones de los parmetros

    Variable dependiente: Salario (miles US$) Ecuacin Resumen del modelo Estimaciones de los parmetros

    R

    cuadrado F gl1 gl2 Sig. Constante b1 b2

    Lineal ,757 56,218 1 18 ,000 26,270 1,334

    Logartmica ,850 102,140 1 18 ,000 18,034 10,768

    Inversa ,626 30,149 1 18 ,000 45,516 -34,376

    Cuadrtico ,876 60,189 2 17 ,000 19,126 3,363 -,087

    Potencia ,800 71,854 1 18 ,000 20,614 ,309

    Exponencial ,645 32,662 1 18 ,000 26,521 ,036

    La variable independiente es: Aos de experiencia.

    Se puede apreciar que los Valores P (Sig) son inferiores a = 0.05, por tanto en todos

    los casos existe correlacin.

    Si estudiamos los valores de R2 (Rcuadrado) nos podemos percatar de que el modelo

    cuadrtico es el modelo ms eficiente (ms cercano a 1). Mientras que el modelo

    logartmico es el segundo.

    Para decidir realizamos nuevamente el anlisis con los modelos con mayor eficiencia

    (mayor R2)

  • 92

    Logartmica

    Resumen del modelo

    R R cuadrado R cuadrado

    corregida

    Error tpico de

    la estimacin

    ,922 ,850 ,842 4,018

    La variable independiente es Aos de experiencia.

    ANOVA

    Suma de

    cuadrados

    gl Media

    cuadrtica

    F Sig.

    Regresin 1648,640 1 1648,640 102,140 ,000

    Residual 290,538 18 16,141

    Total 1939,178 19

    La variable independiente es: Aos de experiencia.

    Coeficientes

    Coeficientes no estandarizados Coeficientes

    estandarizados

    t Sig.

    B Error tpico Beta

    ln(Aos de experiencia) 10,768 1,065 ,922 10,106 ,000

    (Constante) 18,034 2,099 8,590 ,000

    En este caso el valor P para el coeficiente de la variable independiente (aos de experiencia) es menor que

    = 0.05, por tanto se puede decir que es significativa para el modelo.

  • 93

    Cuadrtico

    Resumen del modelo

    R R cuadrado R cuadrado

    corregida

    Error tpico de la

    estimacin

    ,936 ,876 ,862 3,757

    La variable independiente es Aos de experiencia.

    ANOVA

    Suma de

    cuadrados

    gl Media

    cuadrtica

    F Sig.

    Regresin 1699,211 2 849,606 60,189 ,000

    Residual 239,967 17 14,116

    Total 1939,178 19

    La variable independiente es Aos de experiencia.

    Coeficientes

    Coeficientes no estandarizados Coeficientes

    estandarizados

    t Sig.

    B Error tpico Beta

    Aos de experiencia 3,363 ,519 2,194 6,480 ,000

    Aos de experiencia ** 2 -,087 ,022 -1,367 -4,040 ,001

    (Constante) 19,126 2,232 8,568 ,000

    En este caso el valor P para los coeficientes de la variable independiente (aos de experiencia) son

    menores que = 0.05, por tanto se puede decir que son significativas para el modelo.

  • 94

    Cbico

    Resumen del modelo

    R R cuadrado R cuadrado

    corregida

    Error tpico de la

    estimacin

    ,936 ,876 ,853 3,872

    La variable independiente esAos de experiencia.

    ANOVA

    Suma de

    cuadrados

    gl Media

    cuadrtica

    F Sig.

    Regresin 1699,253 3 566,418 37,773 ,000

    Residual 239,925 16 14,995

    Total 1939,178 19

    La variable independiente es Aos de experiencia.

    Coeficientes

    Coeficientes no estandarizados Coeficientes

    estandarizados

    t Sig.

    B Error tpico Beta

    Aos de experiencia 3,300 1,303 2,153 2,532 ,022

    Aos de experiencia ** 2 -,081 ,134 -1,259 -,602 ,556

    Aos de experiencia ** 3 ,000 ,004 -,070 -,053 ,959

    (Constante) 19,255 3,356 5,737 ,000

    En este caso el modelo que mejor se ajusta es el cuadrtico.

    En este caso el valor P para los coeficientes de grado 2 y 3 de la variable independiente (aos de

    experiencia) son mayores que = 0.05, por tanto se puede decir que no son significativas para el modelo.

  • 95

    Entonces para la relacin Experiencia Salario el modelo que mejor se ajusta es el

    cuadrtico con una eficiencia de 0.876 (R2).

  • 96

    GUA DE LABORATORIO 6

    TEMA: REGRESIN LINEAL MLTIPLE

  • 97

    Contenido:

    Correlacin entre las variables del modelo.

    Anlisis de Multicolinealidad

    Mtodo de seleccin de variables: Hacia delante.

    Modelo final.

    Supuestos: Normalidad de los errores y homocedasticidad.

    Para la explicacin de los procedimientos relacionados con el anlisis de regresin

    mltiple, se usar el siguiente caso:

    Estudios financieros han mostrado que el precio de una accin (P) est en razn directa del nivel

    de endeudamiento de la empresa emisora (D) y con el dividendo (DR), pero en razn inversa del

    nmero de acciones en circulacin (SO). Los datos indicados en la tabla estn en dlares para P,

    en cientos de dlares para D, en dlares para DR y en millares de acciones en circulacin para

    SO.

    Correlacin entre las variables del modelo

    En un problema de regresin lineal mltiple, en muchos de los casos las variables

    independientes, estn en cierto grado correlacionadas unas con otras. Siempre que sea

    posible, debe evitarse incluir variables independientes que estn fuertemente

    correlacionadas.

    Se realizar el anlisis de las correlaciones entre las variables involucradas en el estudio

    Precio de una

    accin (P)

    Nivel de

    endeudamiento (D)

    Dividendo

    (DR)

    Nmero de acciones

    en circulacin(SO)

    52,50 12,00 2,10 100

    14,25 3,40 0,69 37

    35,21 7,10 1,70 68

    45,21 10,40 1,81 90

    17,54 4,00 0,70 32

    22,00 5,10 0,88 45

    37,10 8,50 1,50 78

    29,12 6,70 1,20 60

    46,32 10,65 1,85 95

    49,30 11,34 2,00 99

  • 98

    Se considera las variables independientes: Nivel de endeudamiento de la empresa emisora

    (D), Dividendo, nmero de acciones en circulacin

    Definimos las variables en SPSS e introducimos los datos:

    Para determinar la tabla de correlacin entre las variables involucradas en el modelo realizamos

    lo siguiente:

    Analizar >> Correlaciones >> Bivariadas

    Elija las variables y arrstrelas al cuadro Variables

    Verifique que este activado Pearson en Coeficientes de correlacin.

    Aceptar.

  • 99

    Aqu seleccionamos las variables de inters, para obtener el siguiente resultado:

    Correlaciones

    Precio de

    una accin (Y) (US$)

    Nivel de endeudamiento (X1) (x100

    US$)

    Dividendo (X2) (US$)

    Nmero de acciones en circulacin (X3) (miles)

    Precio de una accin (Y) (US$)

    Correlacin de Pearson

    1 ,995** ,985

    ** ,991

    **

    Sig. (bilateral) ,000 ,000 ,000

    N 10 10 10 10

    Nivel de endeudamiento (X1) (x100 US$)

    Correlacin de Pearson

    ,995** 1 ,965

    ** ,991

    **

    Sig. (bilateral) ,000 ,000 ,000

    N 10 10 10 10

    Dividendo (X2) (US$)

    Correlacin de Pearson

    ,985** ,965

    ** 1 ,975

    **

    Sig. (bilateral) ,000 ,000 ,000

    N 10 10 10 10

    Nmero de acciones en circulacin (X3) (miles)

    Correlacin de Pearson

    ,991** ,991

    ** ,975

    ** 1

    Sig. (bilateral) ,000 ,000 ,000

    N 10 10 10 10

    **. La correlacin es significativa al nivel 0,01 (bilateral).

    Podemos observar que existe una alta correlacin entre la variable dependiente (precio

    de una accin) y independientes, pero tambin la correlacin es alta entre las variables

    independientes.

    Correlacin entre las variables del modelo

    El problema de multicolinealidad se presenta cuando existe una alta correlacin entre

    variables independientes, como es el caso: Nivel de endeudamiento y el Nmero de

    acciones en circulacin.0,991. Adems se comprueba la multicolinealidad siguiendo el

    criterio propuesto en clase:

    Menor correlacin entre Y y las Xs 0,985.

    Existe correlacin entre X1 y X3 (entre Nivel de endeudamiento y el Nmero de

    acciones en circulacin con un valor de 0,991 mayor que 0,985)

    An en la presencia detectada de multicolinealidad estimaremos el modelo para

    determinar lo adecuado que puede ser su uso para la prediccin:

    Seguimos la siguiente secuencia:

    Men Analizar >> Regresin >> Lineales

  • 100

    Traslade la variable Precio de una Accin

    (P) a la casilla de

    Dependientes.

    Traslade las variables restantes a la

    casilla de

    Independientes.

    Aceptar

    Obtenemos los resultados siguientes:

    Resumen del modelo

    Modelo R R cuadrado R cuadrado

    corregida

    Error tp. de la

    estimacin

    1 1,000a 1,000 ,999 ,36223

    a. Variables predictoras: (Constante), Nmero de acciones en circulacin

    (X3) (miles), Dividendo (X2) (US$), Nivel de endeudamiento (X1) (x100

    US$)

    El porcentaje de variacin que es explicado por la ecuacin de regresin es del 100%.

    ANOVAa

    Modelo Suma de

    cuadrados

    gl Media

    cuadrtica

    F Sig.

    1

    Regresin 1685,572 3 561,857 4282,036 ,000b

    Residual ,787 6 ,131

    Total 1686,359 9

    a. Variable dependiente: Precio de una accin (Y) (US$)

    b. Variables predictoras: (Constante), Nmero de acciones en circulacin (X3) (miles), Dividendo

    (X2) (US$), Nivel de endeudamiento (X1) (x100 US$)

  • 101

    En forma conjunta las variables son significativas para el modelo, considerando un nivel

    de significacin del 5% (P-Valor = 0,000). Las hiptesis que se proponen son las

    siguientes:

    H0 : i = 0

    H1 : i 0

    El siguiente cuadro permite analizar la contribucin individual de cada variable

    regresora al modelo propuesto:

    Coeficientesa

    Modelo

    Coeficientes no estandarizados

    Coeficientes tipificados

    t Sig.

    B Error tp. Beta

    1

    (Constante) -,480 ,374 -1,283 ,247

    Nivel de endeudamiento (X1) (x100 US$)

    3,371 ,294 ,771 11,452 ,000

    Dividendo (X2) (US$) 10,727 1,022 ,422 10,493 ,000

    Nmero de acciones en circulacin (X3) (miles)

    -,097 ,042 -,185 -2,297 ,061

    a. Variable dependiente: Precio de una accin (Y) (US$)

    En forma individual, slo el trmino constante no es significativo para el modelo pues

    su P-Valor (0,247) es mayor al nivel de significacin usual (5%). Las tres variables

    contribuyen significativamente al modelo.

    H0 : i = 0 La variable i no es significativa para el modelo

    H1 : i 0 La variable i es significativa para el modelo

    Mtodo de seleccin de variables: Hacia delante.

    Se ha determinado hasta el momento que el modelo presenta deficiencias puesto que se

    ha detectado un problema de multicolinealidad. Recuerde que se ha observado una alta

    correlacin entre las variables: Nivel de endeudamiento (X1) y el Nmero de acciones

    en circulacin (X3). La correlacin entre estas dos variables es ms alta que la

    correlacin entre el precio de una accin y los dividendos.

    El siguiente paso consiste en retirar las variables que presentan multicolinealidad y

    analizar el nuevo modelo resultante.

    Lo propuesto se puede realizar en la opcin: Mtodo. Al seleccionar Introducir, el

    programa ir ingresando variables al modelo y a la vez verificar su contribucin.

  • 102

    Procedimiento:

    Men Analizar >>

    Regresin >>

    Lineales . . .

    En el cuadro dialogo slo se debe

    elegir Adelante en

    Mtodo.

    Aceptar

    Obtenemos el siguiente resultado:

    Resumen del modelo

    Model

    o

    R R

    cuadrado

    R cuadrado

    corregida

    Error tp. de

    la estimacin

    1 ,995a ,990 ,988 1,47901

    2 1,000b ,999 ,999 ,45976

    a. Variables predictoras: (Constante), Nivel de endeudamiento (X1)

    (x100 US$)

    b. Variables predictoras: (Constante), Nivel de endeudamiento (X1)

    (x100 US$), Dividendo (X2) (US$)

    ANOVAa

    Modelo Suma de

    cuadrados

    gl Media

    cuadrtica

    F Sig.

    1

    Regresin 1668,859 1 1668,859 762,918 ,000b

    Residual 17,500 8 2,187

    Total 1686,359 9

    2

    Regresin 1684,879 2 842,440 3985,359 ,000c

    Residual 1,480 7 ,211

    Total 1686,359 9

    a. Variable dependiente: Precio de una accin (Y) (US$)

    b. Variables predictoras: (Constante), Nivel de endeudamiento (X1) (x100 US$)

    c. Variables predictoras: (Constante), Nivel de endeudamiento (X1) (x100 US$), Dividendo (X2)

    (US$)

  • 103

    Coeficientesa

    Modelo Coeficientes no

    estandarizados

    Coeficientes

    tipificados

    t Sig.

    B Error tp. Beta

    1

    (Constante) ,407 1,332 ,306 ,768

    Nivel de endeudamiento

    (X1) (x100 US$)

    4,350 ,157 ,995 27,621 ,000

    2

    (Constante) -,814 ,437 -1,862 ,105

    Nivel de endeudamiento

    (X1) (x100 US$)

    2,785 ,186 ,637 14,943 ,000

    Dividendo (X2) (US$) 9,437 1,084 ,371 8,706 ,000

    a. Variable dependiente: Precio de una accin (Y) (US$)

    Variables excluidasa

    Modelo Beta dentro t Sig. Correlacin

    parcial

    Estadsticos de

    colinealidad

    Tolerancia

    1

    Dividendo (X2) (US$) ,371b 8,706 ,000 ,957 ,069

    Nmero de acciones en

    circulacin (X3) (miles)

    ,279b 1,020 ,342 ,360 ,017

    2 Nmero de acciones en

    circulacin (X3) (miles)

    -,185c -2,297 ,061 -,684 ,012

    a. Variable dependiente: Precio de una accin (Y) (US$)

    b. Variables predictoras en el modelo: (Constante), Nivel de endeudamiento (X1) (x100 US$)

    c. Variables predictoras en el modelo: (Constante), Nivel de endeudamiento (X1) (x100 US$), Dividendo (X2) (US$)

    Modelo final.

    Luego, el programa nos entrega el mejor modelo. En este caso las variables de

    prediccin seleccionadas son Nivel de endeudamiento (X1) y Dividendos(X2), observe

    que X1 y X3 no deberan de estar juntos en el modelo. Aqu se descart la variable X3.

    Ntese que se ha seleccionado el modelo con las variables X1 y X3 puesto que en la

    tabla Resumen del modelo, el valor de R cuadrado es mayor que si se eligiera el modelo

    con solo la variable X1 (0,990 contra 0,999)

  • 104

    Resumen del modelo

    Modelo R R cuadrado

    R cuadrado

    corregida

    Error tp. de la

    estimacin

    1 1,000a ,999 ,999 ,45976

    a. Variables predictoras: (Constante), Dividendo (X2), Nivel de

    endeudamiento (X1)

    ANOVAb

    Modelo

    Suma de

    cuadrados gl Media cuadrtica F Sig.

    1 Regresin 1684,879 2 842,440 3985,359 ,000a

    Residual 1,480 7 ,211

    Total 1686,359 9

    a. Variables predictoras: (Constante), Dividendo (X2), Nivel de endeudamiento (X1)

    b. Variable dependiente: Precio de una accin (y)

    Coeficientesa

    Modelo

    Coeficientes no estandarizados

    Coeficientes tipificados

    t Sig.

    B Error tp. Beta

    1 (Constante) ,407 1,332 ,306 ,768

    Nivel de endeudamiento (X1) (x100 US$) 4,350 ,157 ,995 27,621 ,000

    2

    (Constante) -,814 ,437 -1,862 ,105

    Nivel de endeudamiento (X1) (x100 US$) 2,785 ,186 ,637 14,943 ,000

    Dividendo (X2) (US$) 9,437 1,084 ,371 8,706 ,000

    a. Variable dependiente: Precio de una accin (Y) (US$)

    Tenemos entonces que:

    Precio de una accin = - 0,814 + 2,785 Nivel de endeudamiento + 9,437 Dividendo

    Interpretacin: b0: No tiene sentido b1: Para un dividendo constante, por cada $100

    adicionales en el Nivel de endeudamiento, el Precio de una accin aumenta en $2,785.

    b2: Para un Nivel de endeudamiento constante, por cada dlar adicional en los

    dividendos, el Precio de una accin aumenta en $9,437.

  • 105

    Supuestos de la regresin lineal mltiple

    El modelo de regresin lineal mltiple tiene como supuestos la normalidad de los

    errores y la homocedasticidad (igualdad de varianzas a lo largo de la distribucin). Una

    forma de diagnostico de estos supuestos se realiza mediante la observacin de la nube

    de puntos de la relacion entre los valores predichos (pronosticados) y los errores. La

    grfica debe realizarse colocando en el eje Y (eje vertical) los valores de los errores y en

    el eje X (eje horizontal) los valores predichos, se espera que los puntos se distribuyan

    alrededor del valor de error 0. Si los errores estn ms distribuidos en la zona superior

    (errores mayores que cero) o en la zona inferior (errores menores que cero) es seal de

    falta de normalidad de los errores. Si la distribucin de los errores tiene forma de

    embudo es indicativo de heterocidad y si los errores tienen forma curva indican falta de

    linealidad. Otra forma de verificar la normalidad de los errores es la siguiente:

    Supuesto de normalidad.

    Otro supuesto del modelo es la

    normalidad que presentan los

    errores. Para verificar este supuesto

    podemos realizar el grfico de

    probabilidad normal.

    Lo primero que se debe hacer es

    seleccionar la opcin guardar y en el cuadro de dilogo que se

    muestra marcar las pociones:

    Residuos: No tipificados y Valores Pronosticados: No

    tipificados . Los valores de los residuos se generaran

    automticamente y se guardaran en dos columnas adicionales en nuestra base de datos.

  • 106

    El siguiente paso es ingresar a la opcin grficos y marcar la opcin de grfico de

    probabilidad normal.

  • 107

    Supuesto de homocedasticidad

    Analizar/Regresin/lineales en grficos , se selecciona y se transfiere al eje Y la variable ZRESISD , se selecciona y se transfiere al eje X la variable ZPRED ,

    Continuar/ Aceptar.