regresion lineal

59
REGRESION LINEAL SIMPLE

Upload: angel-aquino

Post on 08-Sep-2015

239 views

Category:

Documents


3 download

DESCRIPTION

Regresion Lineal

TRANSCRIPT

  • REGRESION LINEAL SIMPLE

  • Se dispone de una muestra de observaciones formadas por pares de variables: (x1, y1)(x2, y2) ..(xn, yn)

  • A travs de esta muestra, se desea estudiar la relacin existente entre las dos variables X e Y.

    Es posible representar estas observaciones mediante un grfico de dispersin, como el anterior.

    Tambin se puede expresar el grado de asociacin mediante algunos indicadores, que se vern a continuacin.

  • MEDIDAS DE ASOCIACION DE VARIABLES

    Covarianza entre las variables X e Y. Es una medida de la variacin conjunta. Se define como

    Puede tomar valores positivos o negativos.

  • Covarianza positiva, significa que ambas variables tienden a variar de la misma forma, hay una asociacin positiva.

    Negativa, significa que si una aumenta, la otra tiende a disminuir, y vice versa.

    Covarianza cercana a cero indica que no hay asociacin entre las variables.

  • Ejemplo 1

    DATOS DEL CLUB DE SALUD

    Datos correspondientes a 20 empleados del club de salud de una empresa

    X

    pulsasiones or minuto en reposo

    Y

    tiempo en correr 1 milla ( reg)

    Fuente:

    S. Chatterjee - A. Hadi: " Sentivity Analysis in Linear Regression"

    obs

    X

    Y

    1

    67

    481

    2

    52

    292

    3

    56

    357

    4

    66

    396

    5

    65

    345

    6

    80

    469

    7

    77

    425

    8

    65

    393

    9

    68

    346

    10

    66

    401

    11

    70

    267

    12

    59

    368

    13

    58

    295

    14

    52

    391

    15

    64

    487

    16

    72

    481

    17

    57

    374

    18

    59

    367

    19

    70

    469

    20

    63

    252

    Promedios:

    64,3

    382,8

  • Calcularemos de la covarianza entre estas dos variables.

    Covarianza

    Valores centrados y productos:

    obs

    X-64,3

    Y-382,8

    prod

    1

    2,7

    98,2

    265,14

    2

    -12,3

    -90,8

    1116,84

    3

    -8,3

    -25,8

    214,14

    4

    1,7

    13,2

    22,44

    5

    0,7

    -37,8

    -26,46

    6

    15,7

    86,2

    1353,34

    7

    12,7

    42,2

    535,94

    8

    0,7

    10,2

    7,14

    9

    3,7

    -36,8

    -136,16

    10

    1,7

    18,2

    30,94

    11

    5,7

    -115,8

    -660,06

    12

    -5,3

    -14,8

    78,44

    13

    -6,3

    -87,8

    553,14

    14

    -12,3

    8,2

    -100,86

    15

    -0,3

    104,2

    -31,26

    16

    7,7

    98,2

    756,14

    17

    -7,3

    -8,8

    64,24

    18

    -5,3

    -15,8

    83,74

    19

    5,7

    86,2

    491,34

    20

    -1,3

    -130,8

    170,04

    Promedio :

    239,41

    La covarianza entre las

    variables X e Y es igual a

    239,41

  • Coeficiente de correlacin lineal.

    La covariaza tiene el inconveniente de que su valor no es acotado, por lo que, a partir de l es dificil juzgar si es grande o pequea.

    Se define la correlacin, que es una medida de asociacin lineal independiente de las unidades de medida.

    Es igual a la covarianza dividida por las desviaciones standard:

  • Coeficiente de correlacin lineal.

    La covariaza tiene el inconveniente de que su valor no es acotado, por lo que, a partir de l es dificil juzgar si es grande o pequea.

    Se define la correlacin, que es una medida de asociacin lineal independiente de las unidades de medida:

    Es igual a la covarianza dividida por las desviaciones estandar:

  • El valor de la correlacin entre cualquier par de variables es un nmero entre -1 y 1. n valor alto de correlacin no indica que existe alguna relacin de causa-efecto entre las variables.

  • Ejemplo (continuacin)

    Coeficiente de Correlacin

    Se deben calcular las desviaciones standard.

    Para ello se deben elevar al cuadrado las observaciones centradas

    y promediar, obtenindose las varianzas.

    Las desviaciones standard son las races cuadradas de stas.

    cuadrados de

    obs

    X-64,3

    Y-382,8

    1

    7,3

    9643,2

    2

    151,3

    8244,6

    3

    68,9

    665,6

    4

    2,9

    174,2

    5

    0,5

    1428,8

    6

    246,5

    7430,4

    7

    161,3

    1780,8

    8

    0,5

    104,0

    9

    13,7

    1354,2

    10

    2,9

    331,2

    11

    32,5

    13409,6

    12

    28,1

    219,0

    13

    39,7

    7708,8

    14

    151,3

    67,2

    15

    0,1

    10857,6

    16

    59,3

    9643,2

    17

    53,3

    77,4

    18

    28,1

    249,6

    19

    32,5

    7430,4

    20

    1,7

    17108,6

    Promedios :

    54,11

    4896,46

    (varianzas)

    Las desviaciones standard son

    dsX =

    7,36

    ds Y =

    69,97

    Para obtener las correlaciones se debe

    dividir la covarianza por las desviaciones standard:

    corr(X,Y) = 239.41 / ( 7.36 * 69.97 ) =

    0,465

  • El siguiente es un grfico de dispersin que muestra estos datos.

    Grfico3

    481

    292

    357

    396

    345

    469

    425

    393

    346

    401

    267

    368

    295

    391

    487

    481

    374

    367

    469

    252

    Pulsaciones por minuto

    Tiempo en recorrer 1 milla

    Club de Salud

    tmp6150

    DATOS DEL CLUB DE SALUD

    Datos correspondientes a 20 empleados del club de salud de una empresa

    Xpulsasiones or minuto en reposo

    Ytiempo en correr 1 milla ( reg)

    Fuente:S. Chatterjee - A. Hadi: " Sentivity Analysis in Linear Regression" pg. 129

    obsXY

    167481

    252292

    356357

    466396

    565345

    680469

    777425

    865393

    968346

    1066401

    1170267

    1259368

    1358295

    1452391

    1564487

    1672481

    1757374

    1859367

    1970469

    2063252

    Promedios:64.3382.8

    Covarianza

    Valores centrados y productos:

    obsX-64,3Y-382,8prod

    12.798.2265.14

    2-12.3-90.81116.84

    3-8.3-25.8214.14

    41.713.222.44

    50.7-37.8-26.46

    615.786.21353.34

    712.742.2535.94

    80.710.27.14

    93.7-36.8-136.16

    101.718.230.94

    115.7-115.8-660.06

    12-5.3-14.878.44

    13-6.3-87.8553.14

    14-12.38.2-100.86

    15-0.3104.2-31.26

    167.798.2756.14

    17-7.3-8.864.24

    18-5.3-15.883.74

    195.786.2491.34

    20-1.3-130.8170.04

    Promedio :239.41

    La covarianza entre las

    variables X e Y es igual a239.41

    Coeficiente de Correlacin

    Se deben calcular las desviaciones standard.

    Para ello se deben elevar al cuadrado las observaciones centradas

    y promediar, obtenindose las varianzas.

    Las desviaciones standard son las races cuadradas de stas.

    cuadrados de

    obsX-64,3Y-382,8

    17.39643.2

    2151.38244.6

    368.9665.6

    42.9174.2

    50.51428.8

    6246.57430.4

    7161.31780.8

    80.5104.0

    913.71354.2

    102.9331.2

    1132.513409.6

    1228.1219.0

    1339.77708.8

    14151.367.2

    150.110857.6

    1659.39643.2

    1753.377.4

    1828.1249.6

    1932.57430.4

    201.717108.6

    Promedios :54.114896.46

    (varianzas)

    Las desviaciones standard son

    dsX =7.36ds Y =69.97

    Para obtener las correlaciones se debe

    dividir la covarianzza por las desviaciones standard:

    corr(X,Y) =0.465

    tmp6150

    0

    0

    0

    0

    0

    0

    0

    0

    0

    0

    0

    0

    0

    0

    0

    0

    0

    0

    0

    0

    Pulsaciones por minuto

    Tiempo en recorrer 1 milla

    Club de Salud

  • La interpretacin del coeficiente de correlacin puede ilustrarse mediante los siguientes grficos.

  • REGRESION LINEAL SIMPLE

    Ahora asumiremos que si hay una relacin de causalidad de la variable X (causa) hacia la variable Y (efecto).

    Adems, se sabe que esa relacin es de tipo lineal, dentro del rango de los datos.

    Estableceremos un modelo para explicar la causa (Y) en trminos del efecto (X), del tipo siguiente:

  • para i = 1,2,..., n

    en que a y b son dos cantidades fijas (parmetros del modelo) y los ei son cantidades aleatorias que representan las diferencias entre lo que postula el modelo y lo que realmente se observa, y.

    Por esa razn a los e los llamaremos "errores" o "errores aleatorios". Se asume que tienen valor esperado 0 y desviacin estndar comn .

  • Ejemplo 2

  • Representacin de los datos en un grfico de dispersin:

  • Se puede apreciar la relacin lineal existente entre ambas variables observadas.

    Nuestro problema es estimar los parmetros a, b y para poder identificar el modelo.

    Para estimar a y b se utiliza el mtodo de Mnimos cuadrados, que consiste en encontrar aquellos valores de a y de b que hagan mnima la suma de los cuadrados de las desviaciones de las observaciones respecto de la recta que representa el modelo, en el sentido vertical.

  • En la figura, son los cuadrados de los segmentos verticales cuya suma de cuadrados se debe minimizar, para determinar a y b.

    Estos segmentos representan los errores e del modelo. b se llama pendiente de la recta que representa los datos y a se llama intercepto sobre el eje vertical.

  • La solucin est dada por las siguientes frmulas:

  • Ejemplo 2 (continuacin)Calculamos los promedios de ambas variables y se las restamos a los valores.

  • El modelo, para estos datos, es para i=1,2,.. 15

    Representa una recta, cuyo intercepto con el eje vertical es -0.96, y su pendiente es 3.18, o sea, si el porcentaje de comisin X aumenta en 1%, la ganancia neta Y aumenta en 3.18 Millones de pesos.

  • Grfico de los datos:

  • VALORES AJUSTADOS AL MODELO.

    El modelo de regresin lineal se puede utilizar para obtener valores de Y ajustados al modelo.

    Los valores puntuales se obtienen mediante la frmula

    en que a y b son los valores estimados por el procedimiento indicado anteriormente, y Xi toma los valores de la muestra.

    Los puntos que representan estos valores en el grfico de dispersin, yacen sobre la recta.

  • Ejemplo 2 (continuacin)La tabla siguiente contiene los valores de Y ajustados , para cada valor de X, adems de los valores de Y observados, a modo de comparacin. Los ajustados se obtienen por la frmula.

  • Se puede observar que el promedio de los valores ajustados es igual al promedio de los valores observados, y que el promedio de las diferencias es cero.

    La raz cuadrada del promedio de los cuadrados de las diferencias entre los valores observados y ajustados, es una estimacin de la varianza del error, s .

    En el ejemplo, la suma de las diferencias al cuadrado es 19.8, luego la estimacin de la desviacin estndar del error es igual a Millones de pesos

  • Coeficiente de determinacin.

    Es una medida de bondad de ajuste del modelos de regresin lineal a los datos.

    Es deseable que los valores de Y ajustados al modelo, sean lo ms parecidos posible a los valores observados.

    Una medida de lo parecido que son, es el coeficiente de correlacin. Se define el coeficiente de determinacin, R2, como el cuadrado del coeficiente de correlacin entre los valores de Y observados y los valores de Y ajustados.

  • Sin embargo se puede demostrar que es igual a la siguiente expresin:

    El rango de R2 es entre 0, cero ajuste, hasta 1, ajuste perfecto (cuando los puntos aparecen en un lnea recta).

  • Ejemplo 2 (continuacin)Ms arriba se calcularos las sumas de cuadrados y de productos, y dieron los siguientes valores: Sxx = 39.6 , Syy = 488.3 ,Sxy = 126.1

    Entonces el coeficiente de determinacin es

    que seala que el ajuste del modelo a los datos es bueno.

  • Ejemplo 3Los datos siguientes corresponde al Indice de Produccin Fsica de la Industria Manufacturera, por agrupacin, de los meses de mayo de 2002 y mayo de 2003, entregado por el Instituto Nacional de Estadsticas.

  • Es un ndice cuya base 100 es el promedio de produccin de cada agrupacin, en el ao 1989.

    El grfico de dispersin es el siguiente:

    Grfico1

    133.5

    133.7

    140.5

    70.3

    30.5

    56.7

    45.3

    141.6

    132.4

    205.3

    108

    231.4

    209.6

    165.2

    156.2

    177.4

    399.7

    61.1

    266.4

    186.5

    167.1

    108.7

    153.5

    289.7

    83

    73.4

    64.1

    67.5

    Indice mayo 2002

    Indice mayo 2003

    Prod. Fsica Industria Manufacturera

    Hoja1

    Venta de automviles

    Estudio sobre 15 concesionarios similares

    XComisiones pagadas a vendedores de autos en un mes (%)

    YGanancias netas por ventas, en el mismo mes (Millones de $)

    obsXYYajust.difdif2

    13.610.7811.69-0.910.8262694891

    25.215.1216.57-1.452.0952435749

    35.318.2016.871.331.7625164661

    47.321.6922.97-1.281.6397556353

    55.014.6815.96-1.281.6324735356

    65.216.1516.57-0.420.1743025942

    73.011.009.861.141.300613804

    83.110.1610.16-0.000.0000199077

    93.211.9510.471.482.1922705865

    107.525.1623.581.582.4953188292

    118.326.2626.020.240.0577954504

    126.118.6319.31-0.680.4646507722

    134.915.5515.65-0.100.0105630101

    145.816.9818.40-1.422.0077015473

    157.124.1322.361.773.1303634262

    promedio5.417.117.1-0.00suma:19.8

    prom:1.3193239086

    raiz:1.1486182606

    Promedio de la X :5.4

    Promedio de la Y :17.1

    Desviaciones respecto de las medias, sus cuadrados y productos:

    obsX-5.4Y-17.1cuadradosprod.

    1-1.8-6.33.139.911.2

    2-0.2-2.00.03.90.3

    3-0.11.10.01.2-0.1

    41.94.63.721.18.9

    5-0.4-2.40.15.80.9

    6-0.2-0.90.00.90.2

    7-2.4-6.15.637.214.5

    8-2.3-6.95.248.115.8

    9-2.2-5.14.726.511.2

    102.18.14.565.017.1

    112.99.28.684.026.8

    120.71.50.52.41.1

    13-0.5-1.50.22.40.7

    140.4-0.10.20.0-0.0

    151.77.03.049.512.1

    sumas0.00.039.6387.8120.7

    SxxSyySxy

    Entonces utilizando las frmulas de arriba,

    b =3.05a =0.71

    XYajust

    13.611.7

    25.216.6

    35.316.9

    47.323.0

    55.016.0

    65.216.6

    73.09.9

    83.110.2

    93.210.5

    107.523.6

    118.326.0

    126.119.3

    134.915.7

    145.818.4

    157.122.4

    0.00.7

    9.028.2

    Hoja1

    comisin (%)

    Ganancias (MM$)

    Ganancias netas versus comisiones

    Hoja2

    comisin (%)

    Ganancias (MM$)

    Ganancias netas versus comisiones

    Hoja3

    Regresin

    INDICE DE PRODUCCION FISICA DE LA INDUSTRIA MANUFACTURERA, POR AGRUPACION

    AgrupacionesMayo 02Mayo 03

    Fabricac. de productos alimenticios140.2133.5

    Industrias de bebidas134.6133.7

    Industria del tabaco151.1140.5

    Fabricac. de textiles70.970.3

    Fabricac. prendas de vestir, excepto calzado34.730.5

    Industria del cuero; produc. de cuero y sucedneos59.356.7

    Fabricac. de calzado, exc. de caucho o plstico52.645.3

    Industria de madera y sus productos exc. muebles132.3141.6

    Fabricac. de muebles y accesorios, exc. metlicos114.0132.4

    Fabricac. de papel y productos de papel189.5205.3

    Imprentas, editoriales e industrias conexas107.5108.0

    Fabricac. de sustancias qumicas industriales229.4231.4

    Fabricac. de otros productos qumicos212.4209.6

    Refineras de petrleo136.0165.2

    Fabricac. prod. derivados de petrleo y carbn143.2156.2

    Fabricac. de productos de caucho141.4177.4

    Fabricac. de productos plsticos305.8399.7

    Fabricac. de objetos de loza y porcelana68.261.1

    Fabricac. de vidrio y productos de vidrio268.6266.4

    Fabricac. otros productos minerales no metlicos185.6186.5

    Industrias bsicas de hierro y acero123.1167.1

    Industrias bsicas de metales no ferrosos119.8108.7

    Fabricac. prod. metlicos exc. maquinaria y equipo153.6153.5

    Construccin de maquinaria, exc. la elctrica282.5289.7

    Construccin mq., aparatos y acces. elctricos87.083.0

    Construccin de material de transporte103.473.4

    Fabricac. equipo profesional y artculos oftlmicos67.764.1

    Otras industrias manufactureras66.067.5

    Hoja3

    Indice mayo 2002

    Indice mayo 2003

    Prod. Fsica Industria Manufacturera

  • Clculos parciales, en que X es el ndice mayo 2002, Y el ndice mayo 2003:Estimacin de los parmetros del modelo:

  • Bondad de ajuste:que indica un muy buen ajuste.

    El siguiente grfico muestra de recta de regresin estimada:

    Grfico1

    133.5142.111825218

    133.7135.7272370005

    140.5154.5389701413

    70.363.1025460269

    30.521.8307436212

    56.749.8773275764

    45.342.2386238163

    141.6133.1049954112

    132.4112.2410732006

    205.3198.3190036324

    108104.8303904482

    231.4243.8091946818

    209.6224.4274090217

    165.2137.3233840549

    156.2145.5321403345

    177.4143.4799512646

    399.7330.9132196486

    61.160.024262422

    266.4288.5013122041

    186.5193.872593981

    167.1122.6160290539

    108.7118.8536824258

    153.5157.3892327383

    289.7304.3487722438

    8381.4582371521

    73.4100.1559597889

    64.159.4542099026

    67.557.5160313366

    -17.7309012263

    438.3111143066

    Indice mayo 2002

    Indice mayo 2003

    Prod. Fsica Industria Manufacturera

    Hoja1

    Venta de automviles

    Se piensa que si aumentan el porcentaje de comisin pagada

    al vendedor de automviles, aumenta la venta.

    Estudio sobre 15 concesionarios similares

    XComisiones pagadas a vendedores de autos en un mes (%)

    YGanancias netas por ventas, en el mismo mes (Millones de $)

    obsXYYajust.difdif2

    13.611.2810.500.780.60391345080.621093931810.780.6211.28

    25.214.7415.59-0.850.7211132755-0.468702410215.12-0.4714.74

    35.318.4615.912.546.47408433830.320736148818.200.3218.46

    47.320.0122.28-2.275.1504306044-2.104980012521.69-2.120.01

    55.012.4314.96-2.526.3725754995-2.807234977814.68-2.8112.43

    65.215.3715.59-0.230.0516125189-0.976797309716.15-0.9815.37

    73.09.598.591.001.0069764255-1.762833790111.00-1.769.59

    83.111.268.912.365.55586496761.38222162610.161.3811.26

    93.28.059.23-1.181.390761867-4.879416337611.95-4.888.05

    107.527.9122.925.0024.95757964293.43895862925.163.4427.91

    118.324.6225.46-0.840.7113153339-2.04613002126.26-2.0524.62

    126.118.8018.460.340.11510475360.212060058418.630.2118.80

    134.913.8714.64-0.770.5898273108-2.101165819115.55-2.113.87

    145.812.1117.50-5.4029.1119312365-6.094887794516.98-6.0912.11

    157.123.6821.642.044.1588742172-0.55718487624.13-0.5623.68

    promedio5.416.116.1-0.00suma:87.0

    prom:5.7981310295

    raiz:2.4079308606

    Promedio de la X :5.4

    Promedio de la Y :16.1

    Desviaciones respecto de las medias, sus cuadrados y productos:

    obsX-5.4Y-16.1cuadradosprod.

    1-1.8-4.93.123.78.6

    2-0.2-1.40.02.00.2

    3-0.12.30.05.3-0.2

    41.93.93.714.97.4

    5-0.4-3.70.113.81.4

    6-0.2-0.80.00.60.1

    7-2.4-6.65.642.915.6

    8-2.3-4.95.223.811.1

    9-2.2-8.14.765.617.6

    102.111.84.5138.525.0R2=0.8218910172

    112.98.58.671.824.8

    120.72.70.57.01.9

    13-0.5-2.30.25.21.1

    140.4-4.00.216.3-1.7

    151.77.53.056.813.0

    sumas0.0-0.039.6488.3126.1

    SxxSyySxy

    Entonces utilizando las frmulas de arriba,

    b =3.18a =-0.96

    XYajust

    13.610.5

    25.215.6

    35.315.9

    47.322.3

    55.015.0

    65.215.6

    73.08.6

    83.18.9

    93.29.2

    107.522.9

    118.325.5

    126.118.5

    134.914.6

    145.817.5

    157.121.6

    0.0-1.0

    9.027.7

    Hoja1

    11.276

    14.744

    18.456

    20.01

    12.432

    15.366

    9.592

    11.264

    8.046

    27.912

    24.62

    18.798

    13.87

    12.108

    23.682

    comisin (%)

    Ganancias (MM$)

    Ganancias netas versus comisiones

    Hoja2

    comisin (%)

    Ganancias (MM$)

    Ganancias netas versus comisiones

    Hoja3

    Regresin

    INDICE DE PRODUCCION FISICA DE LA INDUSTRIA MANUFACTURERA, POR AGRUPACION

    XY

    AgrupacionesMayo 02Mayo 03XcentYcentXc2Yc2XcYcY ajust

    Fabricac. de productos alimenticios140.2133.5-2.5-11.46.2130.928.4142.111825218

    Industrias de bebidas134.6133.7-8.1-11.265.3126.390.8135.7272370005

    Industria del tabaco151.1140.58.4-4.470.919.7-37.4154.5389701413

    Fabricac. de textiles70.970.3-71.8-74.65152.45571.05357.663.1025460269

    Fabricac. prendas de vestir, excepto calzado34.730.5-108.0-114.411659.713096.412357.221.8307436212

    Industria del cuero; produc. de cuero y sucedneos59.356.7-83.4-88.26952.27786.27357.449.8773275764

    Fabricac. de calzado, exc. de caucho o plstico52.645.3-90.1-99.68114.49928.08975.542.2386238163

    Industria de madera y sus productos exc. muebles132.3141.6-10.4-3.3107.711.234.7133.1049954112

    Fabricac. de muebles y accesorios, exc. metlicos114.0132.4-28.7-12.5822.5157.2359.6112.2410732006

    Fabricac. de papel y productos de papel189.5205.346.860.42192.13643.42826.1198.3190036324

    Imprentas, editoriales e industrias conexas107.5108.0-35.2-36.91237.61364.51299.5104.8303904482

    Fabricac. de sustancias qumicas industriales229.4231.486.786.57520.47475.57497.9243.8091946818

    Fabricac. de otros productos qumicos212.4209.669.764.74860.94181.04508.1224.4274090217

    Refineras de petrleo136.0165.2-6.720.344.6410.5-135.3137.3233840549

    Fabricac. prod. derivados de petrleo y carbn143.2156.20.511.30.3126.85.9145.5321403345

    Fabricac. de productos de caucho141.4177.4-1.332.51.61053.7-41.5143.4799512646

    Fabricac. de productos plsticos305.8399.7163.1254.826608.164903.041556.6330.9132196486

    Fabricac. de objetos de loza y porcelana68.261.1-74.5-83.85547.37029.06244.460.024262422

    Fabricac. de vidrio y productos de vidrio268.6266.4125.9121.515855.814752.715294.3288.5013122041

    Fabricac. otros productos minerales no metlicos185.6186.542.941.61842.11727.31783.8193.872593981

    Industrias bsicas de hierro y acero123.1167.1-19.622.2383.4491.1-433.9122.6160290539

    Industrias bsicas de metales no ferrosos119.8108.7-22.9-36.2523.51313.3829.2118.8536824258

    Fabricac. prod. metlicos exc. maquinaria y equipo153.6153.510.98.6119.273.393.5157.3892327383

    Construccin de maquinaria, exc. la elctrica282.5289.7139.8144.819549.620955.720240.4304.3487722438

    Construccin mq., aparatos y acces. elctricos87.083.0-55.7-61.93100.33836.53448.881.4582371521

    Construccin de material de transporte103.473.4-39.3-71.51542.95117.92810.1100.1559597889

    Fabricac. equipo profesional y artculos oftlmicos67.764.1-75.0-80.85622.06535.06061.359.4542099026

    Otras industrias manufactureras66.067.5-76.7-77.45879.85996.85938.057.5160313366

    0.0-142.720357.6-17.7309012263

    400.0257.366213.6438.3111143066

    n =30

    X =142.7

    Y =144.9

    Sxx =135382.9

    Syy =187813.7

    Sxy =154350.8

    b=Sxy/Sxx =1.1401050388

    a=Y-bX =-17.7309012263

    R2 = Sxy2/SxxSyy0.9369713354

    bandas

    Mayo 02Mayo 03Mayo 02fitinfsup

    140.2133.5140.20146.79140.09153.49

    134.6133.7134.60140.38133.67147.09

    151.1140.5151.10159.26152.45166.06

    70.970.370.9067.5058.1576.86

    34.730.534.7026.0914.0338.14

    59.356.759.3054.2344.0664.40

    52.645.352.6046.5735.9057.23

    132.3141.6132.30137.75131.02144.47

    114.0132.4114.00116.81109.71123.92

    189.5205.3189.50203.19194.88211.49

    107.5108.0107.50109.38102.04116.71

    229.4231.4229.40248.84237.81259.87

    212.4209.6212.40229.39219.61239.16

    136.0165.2136.00141.98135.28148.68

    143.2156.2143.20150.22143.51156.93

    141.4177.4141.40148.16141.46154.86

    305.8399.7305.80336.24318.78353.71

    68.261.168.2064.4154.8773.95

    268.6266.4268.60293.68279.46307.91

    185.6186.5185.60198.73190.64206.82

    123.1167.1123.10127.22120.36134.08

    119.8108.7119.80123.45116.51130.39

    153.6153.5153.60162.12155.26168.97

    282.5289.7282.50309.59294.17325.00

    87.083.087.0085.9277.5894.27

    103.473.4103.40104.6897.18112.19

    67.764.167.7063.8454.2773.41

    66.067.566.0061.9052.2171.59

    0.00.00-13.61-28.571.34

    400.0400.00444.02417.92470.11

    Hoja3

    Indice mayo 2002

    Indice mayo 2003

    Prod. Fsica Industria Manufacturera

  • Prediccin por bandas de confianza.

    Se pueden hacer predicciones de valores Y para valores X que no estn en el conjunto de observaciones, dentro o fuera de su rango, utilizando la frmula de la regresin lineal, con los parmetros a y b estimados.

    Tambin se pueden hacer predicciones por intervalos de confianza verticales, que tienen la ventaja de proporcionar una cuantificacin del error de prediccin.

    Los intervalos tienen la propiedad de ser de diferente ancho, segn el valor de X, siendo ms angostos cuando X es igual al promedio, ensanchndose a medida que nos alejamos del promedio.

  • Cuando se sale del rango de los datos, se ensanchan ms fuertemente.

    Esto significa que mientras ms nos alejamos del centro de los valores de la variable X, ms imprecisas sern nuestras estimaciones del valor de la variable Y, lo que parece razonable.

  • Si unimos los extremos superiores (o los inferiores) de todos los intervalos de confianza, se obtienen dos curvas con forma de hiprbola, como se muestra en la figura:

  • El grfico siguiente muestra las bandas de confianza de coeficiente 95%, para el ejemplo de la produccin fsica manufacturera.

    Mientras mayor es el coeficiente de determinacin R2, ms angostas son las bandas de confianza; lo mismo mientras mayor es la desviacin estndar de las X, y lo mismo si el tamao muestral aumenta. Y a medida que nos alejamos del promedio de las X, se ensanchan las bandas.

  • ESTUDIO DE CASORelacin entre poblacin y nmero de nacimientos.

  • El objetivo del estudio es explorar el valor predictivo de la poblacin de cada uno de los tramos etarios sobre el nmero de nacimientos, de las comunas.

    En particular, determinar cul tramo etario (su poblacin) tiene mayor poder predictivo sobre el nmero de nacimientos.

  • Se tiene una muestra de 40 comunas comunas elegidas al azar, en que se midieron las siguientes variables :Poblacin por tramo etario (del censo de 2002):1 menos de 1 ao2entre 1 y 4 aos3entre 5 y 9 aos4entre 19 y 19 aos5entre 20 y 44 aos6entre 45 y 64 aos7entre 65 y 79 aos880 aos o ms9 Nacimientos en el ao (correspondientes a 2006)

  • Comunamenos 1e 1 - 4e 5-9e 10-19e 20-44e 45-64e 65-79mas 80 Nacimientos1Huasco1164866771,501273518026241241012Las Cabras3051,2991,7943,87279954661163937810663El Monte5082,0792,6345,63411082546717004643924Alto Biobo1405446171,10841462038387741765San Nicols1325387611,736368422167791651186San Fernando9604,0905,75612,9112562714007444610989657Aisn4271,6822,1214,7909951453512342714098Llanquihue2801,1551,5813,3276619344610782342189Victoria4711,7602,5476,500117686995275170746210Arauco6132,6783,5737,521151477119214051752811El Bosque2,65510,64713,25731,2496660235983117952547257312San Vicente5681,3923,4627,955154589518320278556113Yerbas Buenas2449781,3623,18962653512105024021614Pemuco1015077941,692329518446911539015Chiguayante1,5376,1528,61220,445396502050052391552114516Porvenir6727136699422751157382778017Combarbal1616619342,01042252962152139516818Conchal1,6866,6768,28618,9774476725540113772842195819Tucapel1907451,0582,39146092787120530517520Camarones1874100255546346106264

  • Comunamenos 1e 1 - 4e 5-9e 10-19e 20-44e 45-64e 65-79mas 80 Nacimientos21Quinta de Tilcoco1606358942,1794279255681320316222Ovalle1,6616,7129,14020,281388402084377501833165323Pica75304354746721824873381005924Ninhue60310455939173812725501344925Taltal1777359501,9394075233665514319926Molina5382,2973,2247,218155398832280366652127Arica2,84211,63015,54533,7756798138405124872767307928Navidad54263369752165813967091844529Graneros4291,7572,4065,48010809565916342178630Coronel1,4716,2488,68120,287398602078457921130150931Caldera2499661,2662,9415512281083713826432Mejillones1776828301,836395419434088113933Colchane26101120249620347140471434Chilln2,2839,54913,43730,8486647535890112162527247935Lago Verde13536813939025869131236Futrono2781,1501,5413,2115420288697620821437Mfil1113685211,516247214365691608638Canela1215157161,43728181986110126110339Freire4021,6672,3375,13495255416209354231140Valdivia2,1738,47011,33628,18459713309861017625392192

  • Se presentan los grficos de los nacimientos versus poblacin, de cada tramo.

  • Se observa que persistentemente una comuna tiene un nmero de nacimientos mayor que el resto, segn su poblacin, en todos los tramos. Es la Comuna de Las Cabras.Las comunas con ambos nmeros ms grandes son Arica, El Bosque y Chilln.Para los grficos y los clculos siguientes se us el software MINITAB.,

  • Hay una correlacin muy fuerte entre las poblaciones de los distintos tramos de edad, siendo un poco menos entre el tramo ms de 80 y las dems.

    Esto se puede apreciar en la siguiente figura, en que grafican las variables de a pares.

  • Se ajustaron modelos de regresin lineal simple a los nacimientos, con la poblacin de cada uno de los tramos etarios, como regresor.

    La respuesta (y) siempre fue el nmero de nacimientos.

    La salida de MINITAB es la siguiente (en el primer caso):

  • Regression Analysis: Nac versus menos 1

    The regression equation isNac = - 14.2 + 1.03 (menos 1)

    Predictor Coef SE Coef T PConstant -14.17 33.63 -0.42 0.676menos 1 1.02732 0.03418 30.06 0.000

  • (cont.)S = 166.564 R-Sq = 96.0% R-Sq(adj) = 95.9%

    Analysis of Variance

    Source DF SS MS F PRegression 1 25065853 25065853 903.49 0.000Residual Error 38 1054251 27743Total 39 26120104

  • De las pruebas t de hiptesis, se concluye que el interceptoa = - 14.2 no es significativo, mientras que la pendiente b = 1.03 si lo es.

    Por lo tanto la relacin entre nacimientos y el tamao de la poblacin de menores de 1 ao esNac = 1.03 (menos 1)

  • Relaciones similares se puede obtener para las otras variables poblacionales y su efecto sobre el nmero de nacimientos.Eso queda para el lector.

  • FIN

    ***********************************************************