modelizacionr

Click here to load reader

Upload: haiderenrique

Post on 20-Oct-2015

11 views

Category:

Documents


3 download

TRANSCRIPT

  • Unidad de ConsultoraEstadstica

    U ONIVERSIDAD DE VIEDO

    U N I O V ICE

    Curso Avanzado del Paquete Estadstico RIntroduccin a la modelizacin estadstica

    1201B

    Unidad de Consultora Estadsticahttp://uce.uniovi.es

  • Unidad de ConsultoraEstadstica

    Unidad de ConsultoraEstadstica

    Coordinador:Emilio Torres ManzaneraDepartamento de Estadstica e Investigacin Operativa y Didctica de la MatemticaUniversidad de OviedoE.U. Jovellanos - Campus de [email protected]

    Han colaborado en la elaboracin de este material docente: Susana Montes Rodrguez, IgnacioMontes , Pelayo Izquierdo Garca, Tania Iglesias Cabo, Patricia Daz Daz.

    Universidad de OviedoUnidad de Consultora Estadsticahttp://uce.uniovi.esc/ Luis Moya 261- 33203 Gijn- SpainTel. 985 182061email: [email protected]

    Se concede permiso para copiar, distribuir o modificar este documento bajo los trminos de laLicencia de Documentacin Libre de GNU, versin 1.3 o cualquier otra versin posterior publica-da por la Free Software Foundation; sin Secciones Invariantes ni Textos de Portada ni Textos deContraportada.

    2

  • Unidad de ConsultoraEstadstica

    Unidad de ConsultoraEstadstica

    ndice

    1. Iniciar R-Commander 4

    2. Conceptos bsicos 62.1. Anlisis descriptivo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62.2. Variable cualitativa-nominal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62.3. Cuantitativa-discreta . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 82.4. Cuantitativa-continua . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9

    3. Contrastes de hiptesis 123.1. Introduccin . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 123.2. Tests para el promedio . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 133.3. Comparacin de dos promedios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 173.4. Comparacin de dos varianzas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 223.5. Test para la proporcin . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 243.6. Comparacin de dos proporciones . . . . . . . . . . . . . . . . . . . . . . . . . . . . 273.7. Relaciones entre variables . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 283.8. Comparacin de ms de dos promedios . . . . . . . . . . . . . . . . . . . . . . . . . 30

    4. Regresin lineal 434.1. Modelizacin estadstica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 434.2. Modelo de regresin lineal simple . . . . . . . . . . . . . . . . . . . . . . . . . . . . 434.3. Transformaciones de variables . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 504.4. Regresin lineal mltiple . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57

    5. Anlisis de la varianza 645.1. Experimentos factoriales. Contrastes ortogonales y no ortogonales . . . . . . . . . . 645.2. Modelo lineal con un factor . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 645.3. Interacciones entre factores . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 68

    6. Anlisis de la covarianza 736.1. Introduccin . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 736.2. El consumo de energa segn la produccin de TBC y la lnea. . . . . . . . . . . . . 746.3. Variables indicadoras . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 786.4. Modelo completo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 82

    7. Redaccin de un artculo 95

    8. Ejercicios 99

    A. Bases de datos 105A.1. Produccin de acero . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 105A.2. Consumo de alcohol . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 107

    3

  • Unidad de ConsultoraEstadstica

    Unidad de ConsultoraEstadstica

    1. Iniciar R-Commander

    Antes de profundizar en el conocimiento de la Estadstica, es til empezar motivndose medianteuna interfaz que nos facilite la realizacin de las tareas, al menos de las ms sencillas. Para ello,R-Commander presenta una interfaz que, adems de permitirnos interactuar con R para realizaranlisis estadsticos bsicos, presenta el cdigo en lenguaje R que corresponde a las accionessolicitadas.

    Es posible que, para muchos de los alumnos del curso, R-Commander sea una herramienta sufi-ciente para todos los anlisis estadsticos que necesiten abordar. Quienes encuentren R-Commanderinsuficiente, una vez superado el respeto inicial hacia R, podrn manejarse directamente con la con-sola de R, creando y editando las instrucciones, lo que puede resultar ms engorroso, pero al mismotiempo permite un control total sobre los procedimientos que en cada momento se van a aplicar.

    Segn la version de R y R-Commander que se eligi instalar, hay distintas formas de lanzar R-Commander. Si instal R-UCA o R-commander, abriendo Rterm automticamente se inicia tambinel R-Commander. Si instal directamente R, o bien R-Excel, siga las instrucciones que se indican acontinuacin.

    Desde la consola de R, seleccione Paquetes y despus Cargar paquete..., tal como semuestra en la figura 1.

    Figura 1: Cargar paquetes en R

    Se visualizar una lista de paquetes; baje hasta encontrar Rcmdr y seleccinelo. Se inicia laventana del R-Commander. Este interface consta de las siguientes partes: barra de mens, barra deelementos activos (conjuntos de datos y modelos), rea de instrucciones, rea de resultados y reade mensajes (Fig. 2).

    Figura 2: R-Commander

    4

  • Unidad de ConsultoraEstadstica

    Unidad de ConsultoraEstadstica

    Para abrir una base de datos, accedemos al men de Datos (Fig.3) y si deseamos trabajar con unfichero con el formato nativo de R (.rda), escogemos la opcin Cargar conjunto de datos(Fig. 4).

    Figura 3: Men de datos.

    Figura 4: Cargar datos

    El programa R y el paquete R-Commander no slo permiten crear y trabajar sobre datos conformato nativo, sino que importan ficheros provenientes de otros programas: texto puro (en fichero,portapapeles o direccin URL), SPSS, Minitab, STATA, Excel y Access.

    5

  • Unidad de ConsultoraEstadstica

    Unidad de ConsultoraEstadstica

    2. Conceptos bsicos

    2.1. Anlisis descriptivo

    La estadstica descriptiva es la parte de la Estadstica que se dedica a resumir los datos. Es-te anlisis fundamenta todo estudio desde el inicio. Las primeras conclusiones obtenidas tras elanlisis descriptivo proporcionan un poder de inferencia mnimo, pero facilitan la utilizacin de tc-nicas ms avanzadas (inferencia, contrastes). Una vez depurados los posibles errores de los datos,sintetizamos la informacin mediante tablas, grficos y medidas descriptivas.

    Las variables estadsticas se clasifican en tres categoras: nominales, ordinales y numricas. Lasvariables nominales clasifican segn modalidades, atributos o niveles, como por ejemplo el estadocivil, grupo sanguneo, etc. Las variables ordinales corresponden a otro caso particular de variablesno numricas y ocurre cuando existe una relacin de orden entre los atributos, como por ejemplo,nivel de estudios (primarios, secundarios, superiores), capacitacin laboral (baja, media, alta), etc.Las variables numricas cuantifican alguna magnitud: velocidad, edad, tiempo, etc. Las dos prime-ras se integrarn en las llamadas caractersticas cualitativas (factores), mientras que el tercer tipocorresponde a caractersticas cuantitativas (numricas). Dentro de las cuantitativas tambin se pue-den hacer dos grupos: discretas y continuas. Una variable discreta es aquella que entre dos valoresposibles de la variable, siempre existe uno que no puede ser un valor posible de la variable. Porejemplo, el nmero de hijos de una familia, puesto que pueden ser 3 o 4, pero no pueden ser 35.Otros ejemplos de variables discretas son el nmero de cilindros de un coche, el nmero de averasen una hora, etc. Por otro lado, se dice que una variable numrica es continua si entre cualesquierados valores posibles de la variable, siempre existe un valor posible. Una variable continua sera laestatura de una persona, puesto que al poder ser 170 175 metros, en potencia al menos podratomar cualquier valor intermedio como 173 metros, por ejemplo. Longitudes, pesos, temperaturas,etc. son otros ejemplos de variables continuas.

    Una vez identificadas, recopiladas y organizadas, las variables se tratarn combinando medidasestadsticas con representaciones grficas. Conviene seleccionar y mostrar, en cada caso, aquellasque aportan informacin relevante (cuadro 1).

    Cuadro 1: Principales estadsticos de resumen.

    Tipo de Medidas Medidas Grficos msVariable posicin dispersin habituales

    Cualitativa-nominal Moda Diagrama de barras(sexo, raza,. . . ) Porcentajes Diagrama de sectores+

    Cualitativa-ordinal Mediana Diagrama de barras(nivel de estudios,. . . ) Percentiles Diagrama de sectores+

    Cuantitativa-discreta Media Desviacin Diagrama de barras(N dias, N errores) Percentiles tpica Diagrama de sectores+

    Cuantitativa-continua Media Desviacin Histograma(peso, consumo,. . . ) Percentiles tpica Diagrama de cajas+ No se recomienda.

    2.2. Variable cualitativa-nominal

    Dentro de la base de datos acero aparece la variable averias, que consta de dos modalidades(S, No). Por lo tanto, es evidente que es de naturaleza cualitativa y nominal.

    Ejemplo 2.1. Obtenga la moda y los porcentajes de la variable averias.

    6

  • Unidad de ConsultoraEstadstica

    Unidad de ConsultoraEstadstica

    Solucin: Estos estadsticos se obtienen de la siguiente forma:

    EstadsticosyResmenesyDistribucin de frecuencias...

    Seleccionar la variable averiasyAceptar

    Los procedimientos anteriores proporcionan el siguiente resultado:

    > Tabla Tabla

    No S89 28

    > 100 * Tabla/sum(Tabla) # percentages for averias

    No S76.06838 23.93162

    As, se ha obtenido el nmero de casos de cada modalidad y el porcentaje que representan dentrode la muestra. La moda es el dato que ms se repite; en este caso, la modalidad No.

    Ejemplo 2.2. Obtenga el grfico de barras de la variable averias.

    Solucin: Los grficos de barras se obtienen con la opcin del men Grficas. En particular,

    GrficasyGrfica de barras...

    Seleccionar la variable averiasyAceptar

    Con esto se obtendra el grfico de barras correspondiente. Para modificar las etiquetas de losejes, se podran cambiar los nombres que aparecen en la ventana de instrucciones como sigue:

    > barplot(table(acero$averias), xlab = "avera", ylab = "Frecuencia")

    Esta instruccin realiza el siguiente diagrama de barras:

    7

  • Unidad de ConsultoraEstadstica

    Unidad de ConsultoraEstadstica

    2.3. Cuantitativa-discreta

    Como ejemplo de una variable cuantitativa discreta disponemos en la base de datos de la variablenaverias. Tal como se coment en el Cuadro 1, para esta variable interesa obtener su media, sudesviacin tpica y algunos de sus percentiles.

    Ejemplo 2.3. Calcule la media, desviacin tpica y percentiles de la variable naverias.

    Solucin: Estos valores se obtienen de la siguiente forma:

    EstadsticosyResmenesyResmenes numricos

    Seleccionar la variable naveriasyAceptar

    Las salidas del procedimiento anterior son:

    > numSummary(acero[,"naverias"], statistics=c("mean", "sd", "quantiles"),+ quantiles=c(0,.25,.5,.75,1))

    mean sd 0% 25% 50% 75% 100% n0'6752137 1.292078 0 0 0 0 4 117

    Los resultados nos indican que la media es de aproximadamente 0675 averas por hora, con unadesviacin tpica de 1292. El nmero de averas vara desde 0 hasta 4, y al menos el 75% de laobservaciones no presentaron averas. En total disponemos de 117 observaciones.

    Ejemplo 2.4. Obtenga el grfico de barras de la variable naverias.

    8

  • Unidad de ConsultoraEstadstica

    Unidad de ConsultoraEstadstica

    Solucin: Nos hemos de percatar que al ser una variable numrica, R la considera continua y, portanto, no nos permitira hacer este grfico. Debemos pues, crear en primer lugar una nueva variablede tipo factor con estos datos.

    DatosyModificar variables del conjunto. . .yConvertir variable numrica en factor

    Seleccionar la variable naveriasyUtilizar nmerosyEscribir un nombre para la nueva variableyAceptar

    > acero$naver

  • Unidad de ConsultoraEstadstica

    Unidad de ConsultoraEstadstica

    Solucin: Estos valores se consiguen mediante el siguiente procedimiento:

    EstadsticosyResmenesyResmenes numricos

    con el que se obtiene:

    > numSummary(acero[,"consumo"], statistics = c("mean", "sd", "quantiles"),+ quantiles=c(0,.25,.5,.75,1))

    mean sd 0% 25% 50% 75% 100% n139.4565 55.18525 17.5 99.09 140'07 182.48 290'72 117

    Con esta informacin podemos concluir que el consumo medio se sita en torno a 13946 Mega-vatios/hora, con una desviacin tpica de 5519 Mg./hora. El consumo mnimo desciende hasta 175y el mximo asciende hasta 29072. El 25% de los casos analizados consumen 9909 megavatios omenos, el 50% menos de 14007 y un 25 % consume ms de 18248.

    Ejemplo 2.6. Obtenga el histograma y el diagrama de cajas de la variable consumo.

    Solucin: Vamos a realizar este ejemplo en dos etapas:

    1. Para representar el histograma, seguimos los pasos que se detallan a continuacin:

    GrficasyHistograma. . .

    Seleccionar la variable consumoyAceptar

    se obtiene el siguiente histograma para la variable consumo:

    Hist(acero$consumo, scale = "frequency",+ breaks="Sturges", col="darkgray")

    10

  • Unidad de ConsultoraEstadstica

    Unidad de ConsultoraEstadstica

    2. Para representar el diagrama de cajas, los pasos a seguir son:

    GrficasyDiagrama de caja. . .

    Seleccionar la variable consumoyAceptar

    que dan como resultado:

    > boxplot(acero$consumo, ylab = "consumo")

    A partir de dicho diagrama se observa, por ejemplo, que no existen datos atpicos para lavariable (consumo) en esta muestra.

    11

  • Unidad de ConsultoraEstadstica

    Unidad de ConsultoraEstadstica

    3. Contrastes de hiptesis

    3.1. Introduccin

    Los mtodos descriptivos proporcionan una idea de cmo es la muestra. Para obtener conclusio-nes relativas a la poblacin necesitamos utilizar tcnicas de inferencia estadstica. Dentro de stasla ms habitual es el contraste de hiptesis.

    Una hiptesis es una afirmacin sobre las caractersticas estadsticas de un proceso, por loque se puede considerar una hiptesis como una conjetura. Por ejemplo: si un tcnico observa elconsumo de energa durante varias horas, sabr el consumo medio de las horas que observ. Conla ayuda de la inferencia, puede avanzar un paso ms y conjeturar que el consumo medio de todaslas horas de trabajo en esa fbrica es de 120. El proceso cientfico consiste entonces en probar suhiptesis contra una hiptesis alternativa:

    Hiptesis nula H0: consumo medio = 120Hiptesis alternativa H1: consumo medio 6= 120

    Un test consiste en un procedimiento estadstico para determinar la validez de una hiptesis (lahiptesis nula). Si los datos de la muestra resultan poco crebles de obtenerse en caso de ser ciertadicha hiptesis, nuestra razn nos obligar a rechazarla. En caso contrario, no hay base suficientepara rechazarla. La aceptacin de la hiptesis nula es muy difcil si slo se usan procedimientosestadsticos. Sin embargo, desde el punto de vista prctico, el no rechazo de una hiptesis nosllevar a concluir que no hay evidencias significativas en contra de dicha hiptesis y, por tanto, quepuede considerarse admisible.

    La forma habitual de presentar los resultados de un test de hiptesis es a travs del p-valor o nivelcrtico. Simplemente con este nmero se puede concluir si la hiptesis nula es o no rechazada aun nivel de significacin (). El p-valor es el nivel de significacin menor que llevara al rechazode la hiptesis nula H0. Una vez que se conoce el p-valor, el responsable de tomar las decisionespuede determinar por s mismo en qu medida son significativos los datos sin que se le impongaformalmente un nivel de significacin predeterminado. Una vez conocido el valor del p-valor y fijadoel nivel de significacin del contraste, la decisin a tomar se obtiene comparando ambos valores, talcomo puede verse en el cuadro 2.

    Cuadro 2: Regla de decisin.

    REGLA DE DECISINP-valor < = Rechazo H0P-valor = No rechazo H0

    Generalmente se considera = 005.

    La decisin es el ltimo paso de un contraste de hiptesis. Un esquema de todo el procesoasociado a un contraste puede verse en la figura 5. En dicho esquema se pone de manifiesto elhecho de que los niveles de significacin habituales son siempre menores de 01, destacando losvalores 01, 005 y 001. De entre todos ellos, el nivel 005 predomina con claridad.

    Como ejemplos de test de hiptesis, vamos a considerar algunos de los ms habituales en laprctica. stos aparecen descritos a continuacin, junto con un ejemplo de pregunta que sera con-testada mediante dicho test.

    Promedio de una poblacin: El consumo medio es menor de 140?

    Comparacin de promedios: El consumo medio es mayor cuando hubo averas?

    Proporcin poblacional: El porcentaje de horas con averas es mayor del 10%?

    12

  • Unidad de ConsultoraEstadstica

    Unidad de ConsultoraEstadstica

    Figura 5: Pasos en un contraste de hiptesis.

    Comparacin de proporciones: El porcentaje de horas con averas es mayor cuando esta-ba encendido el sistema que cuando no?

    Desviacin tpica: La variabilidad del consumo es menor de 50?

    Comparacin de desviaciones tpicas: La variabilidad del consumo es la misma durantelas horas que hubo averas y durante las que no?

    Ejemplos de la mayora de los contrastes anteriores sern analizados en detalle en las Secciones3.2 a 3.6.

    3.2. Tests para el promedio

    Para realizar un test cualquiera debemos considerar las siguientes etapas: seleccionar el contras-te adecuado en el caso en estudio, establecer quines son H0 y H1 en ese contraste e interpretarel p-valor. En un test sobre el valor promedio de la poblacin, debemos tener en cuenta si los datossiguen aproximadamente una distribucin normal o no, as como el tamao de la muestra, y segnsea el resultado, decidir qu contraste realizamos (cuadro 3).

    Cuadro 3: Contrastes para el promedio.

    Contraste para la Distribucin aproximadamente Tipo de testnormal o n grande?

    Media () S Test t para una muestraMediana (Me) No Test de Wilcoxon para una muestra

    Si la muestra dispone de un suficiente nmero de datos (habitualmente se exige que tenga almenos 30), se puede utilizar el test t para una muestra para realizar contrastes acerca de la mediade la poblacin. En caso contrario, es necesario que se pueda admitir la normalidad de los datospara realizar dicho test. Si no fuera normal, se utilizara el test de Wilcoxon para una muestra. Enlos contrastes de normalidad de los datos utilizaremos del test de Shapiro-Wilk. Para este test lashiptesis a contrastar son:

    TEST DE BONDAD DE AJUSTE A LA NORMALH0: los datos provienen de una poblacin normalH1: los datos NO provienen de una poblacin normal

    13

  • Unidad de ConsultoraEstadstica

    Unidad de ConsultoraEstadstica

    REGLA DE DECISINP-valor < = Rechazo H0 (la distribucin no es normal)P-valor = No rechazo H0 (se puede admitir la normalidad)Generalmente se considera = 005 .

    En nuestro ejemplo, si queremos analizar el valor promedio de la variable consumo, al tener 117datos ya podemos utilizar directamente el test t para una muestra. As pues, estamos en condicionesde realizar un contraste para la media, comparndola con el valor 120. El test adecuado en este casoes el test t para una muestra, cuyas hiptesis a contrastar (H0 y H1) pueden ser de tres tipos:

    H0 : = 120 H0 : 120 H0 : 120H1 : 6= 120 H1 : < 120 H1 : > 120

    Ejemplo 3.1. Es el consumo medio igual a 120?

    Solucin: En este caso se tiene:

    H0: el consumo medio es de 120H1: el consumo medio no es de 120

    EstadsticosyMediasyTest t para una muestra...

    Seleccionar la variable consumoyPonemos 120 en la hiptesis nulayAceptar

    Las salidas de este test son:

    > t.test(acero$consumo, mu = 120, conf.level = 0.95)

    One Sample t-test

    data: acero$consumot = 3.8136, df = 116, p-value = 0.0002210alternative hypothesis: true mean is not equal to 12095 percent confidence interval:129.3516 149.5614sample estimates:mean of x139.4565

    Puesto que la adaptacin de la regla de decisin a este test en particular sera:

    P-valor < = Rechazo H0 (consumo medio 6= 120)P-valor = No rechazo H0 (consumo medio = 120)

    Generalmente se considera = 005.

    14

  • Unidad de ConsultoraEstadstica

    Unidad de ConsultoraEstadstica

    simplemente debemos considerar el valor del p-valor asociado a este contraste para esta muestray, en base a l, tomar la decisin correspondiente. Puesto que hemos obtenido que el p-valor es00002210, ste es menor que = 005, por lo que la decisin es rechazar la hiptesis nula (H0).Como conclusin podemos decir que la media poblacional es distinta de 120.

    El ejemplo anterior corresponde al tipo de test bilateral, puesto que la hiptesis alternativa es queel valor del parmetro es distinto de un nmero. Cuando la alternativa lleve el smbolo menor (), en lugar del smbolo distinto (6=, se denomina test unilateral. En ejemplo de dicho tipo detest unilateral puede verse a continuacin.

    Ejemplo 3.2. El consumo medio es menor de 140?

    Solucin: En este caso, tal como comentamos en el ejemplo anterior, se verifican las hiptesis parautilizar el test t para una muestra. As, el test adecuado para contestar a esta pregunta contrastaralas siguientes hiptesis:

    H0: el consumo medio es mayor o igual que 140H1: el consumo medio es menor de 140

    y sera realizado tal como sigue:

    EstadsticosyMediasyTest t para una muestra

    Seleccionar la variable consumoyPonemos 140 en la hiptesis nulayMarcar Media poblacional < mu0yAceptar

    Los resultados obtenidos son:

    > t.test(acero$consumo, alternative = "less", mu = 140, conf.level = 0.95)

    One Sample t-test

    data: acero$consumot = -0.1065, df = 116, p-value = 0.4577alternative hypothesis: true mean is less than 14095 percent confidence interval:

    -Inf 147.9159sample estimates:mean of x139.4565

    Como el p-valor (04577) supera los valores habituales de , no se rechaza la hiptesis nula, porlo que podemos concluir que estos datos no aportan evidencias suficientes de que la media seamenor de 140.

    Vamos por ltimo a analizar el caso de una variable en la que no se den las condiciones paraaplicar el test t para una muestra.

    Ejemplo 3.3. Durante los das que hubo averas, la produccin promedio de galvanizado 1 se sitaen menos de 400 toneladas?

    15

  • Unidad de ConsultoraEstadstica

    Unidad de ConsultoraEstadstica

    Solucin: Comenzaremos seleccionando los datos para quedarnos slo con aquellos que corres-ponden a das en los que hubo averas. Para ello podemos seguir los siguientes pasos:

    DatosyConjunto de datos activoyFiltrar el conjunto de datos...

    Seleccionar averiasyExpresin de. . . averias=="S"yNombre del nuevo. . . acero2yAceptar

    DatosyConjunto de datos activoyActualizar conjunto de datos activo

    As, disponemos de un nuevo conjunto de datos activado, solamente con los datos relativos a lashoras en las que hubo avera. Como son 28 datos, tal como vimos en el ejemplo 2.1, no podemosaplicar sin ms el test t para la media y debemos comprobar si se cumple la hiptesis de normalidad.

    Realizaremos pues el test de normalidad a la variable pr.galv1.

    EstadsticosyResmenesyTest de normalidad de Shapiro. . .

    Seleccionar pr.galv1yAceptar

    Los resultados de dicho test son:

    > shapiro.test(acero2$pr.galv1)

    Shapiro-Wilk normality test

    data: acero2$pr.galv1W = 0.8805, p-value = 0.004117

    Como el p-valor (0004118) es menor que = 005, se rechaza la hiptesis nula, por lo tanto nohay normalidad.

    16

  • Unidad de ConsultoraEstadstica

    Unidad de ConsultoraEstadstica

    Cmo podemos hacer para contrastar la hiptesis sobre el valor promedio de la produccinde galvanizado 1 en las horas con averas? Al no haber normalidad y disponer de pocos datos,debemos realizar el test de Wilcoxon para una muestra. Para ste los distintos tipos de contrastesde hiptesis para la mediana son:

    H0 :Me = 400 H0 :Me 400 H0 :Me 400H1 :Me 6= 400 H1 :Me < 400 H1 :Me > 400two.sided less greater

    La hiptesis que nos interesa es:

    La produccin promedio es menor de 400?

    H0 :Me 400 (la produccin promedio es alta)H1 :Me < 400 (la produccin promedio es baja)

    Para realizar este test escribimos en la ventana de instrucciones lo que sigue:

    wilcox.test(acero2$PR.GALV1,alternative="less",mu=400)

    y pinchamos en Ejecutar.

    Figura 6: Test de Wilcox para una muestra

    Lo que da como resultado

    > wilcox.test(acero2$pr.galv1, alternative = "less", mu = 400)

    Wilcoxon signed rank test with continuity correction

    data: acero2$pr.galv1V = 277, p-value = 0.9552alternative hypothesis: true location is less than 400

    Como el p-valor (09552) es mayor que el nivel de significacin , no se rechaza la hiptesis nula,por lo tanto podemos suponer que la produccin es alta, es decir mayor o igual de 400.

    3.3. Comparacin de dos promedios

    La comparacin de dos promedios consiste en comprobar si el promedio de una variable varasegn determinadas caractersticas. Dependiendo de la situacin existen diversas posibilidades decontrastes. El cuadro 4 recoge los principales tests aplicados habitualmente.

    Ejemplo 3.4. Se puede afirmar que cuando se producen averas el consumo de energa se incre-menta?

    17

  • Unidad de ConsultoraEstadstica

    Unidad de ConsultoraEstadstica

    Cuadro 4: Contrastes para igualdad de promedios.

    Distribuciones

    Independientes? Tipo de testContrastes para aproximadamentecomparar dos normales o tamaos

    muestrales grandes?

    Medias S S Test t para muestras independientesMedias S No Test t para datos relacionados

    Medianas No S Test de Wilcoxon para dos muestrasMedianas No No Test de Wilcoxon para muestras pareadas

    Solucin: Lo primero de todo ser volver a activar la base de datos acero. Para ello, pinchamos ala derecha de Conjunto de datos:, en el botn que pone acero2 y seleccionamos de nuevola base de datos acero.

    Una vez hecho esto, vamos a verificar la normalidad del consumo para cada uno de las dossituaciones (cuando haya averas y cuando no) mediante el test de Shapiro-Wilk. Para esto ponemosen la lnea de comandos:

    Figura 7: Normalidad del consumo segn las averas

    Los resultados de ejecutar ambas lneas de comando son:

    > shapiro.test(subset(acero, subset = averias == "No")$consumo)

    Shapiro-Wilk normality test

    data: subset(acero, subset = averias == "No")$consumoW = 0.9869, p-value = 0.5137

    > shapiro.test(subset(acero, subset = averias == "S")$consumo)

    Shapiro-Wilk normality test

    data: subset(acero, subset = averias == "S")$consumoW = 0.9644, p-value = 0.4408

    Los p-valores correspondientes superan el nivel , por lo que podemos considerar normalidad enambos casos.

    Por la naturaleza del problema, es evidente que se puede trabajar con la hiptesis de que laspoblaciones son independientes, con lo cual estamos en condiciones de aplicar el test t para mues-tras independientes. Ahora bien, a la hora de realizar dicho test es necesario especificar si sesupone que las varianzas son iguales o no, puesto que el estadstico utilizado al obtener el p-valory, por tanto, el valor de dicho p-valor, difiere segn la opcin elegida. En la seccin 3.4 se puede vercmo contrastar la igualdad de varianzas. El contraste para este ejemplo en particular est realizadoen el Ejemplo 3.6, donde se obtiene que no hay evidencias en contra de suponer que las varianzasde ambas poblaciones sean iguales. En estas circunstancias, aplicamos el test t para muestrasindependientes, suponiendo las varianzas iguales.

    18

  • Unidad de ConsultoraEstadstica

    Unidad de ConsultoraEstadstica

    Quines son H0 y H1 en ese contraste?Dependiendo de la hiptesis alternativa considerada, los tres contrastes que podemos realizar

    con el test t para muestras independientes para comparar las medias de dos poblaciones son:

    H0 : 1 = 2 H0 : 1 2 H0 : 1 2H1 : 1 6= 2 H1 : 1 < 2 H1 : 1 > 2

    Ahora bien, antes de nada debemos tener claro a quien asigna R como primera clase (clase 1con media 1) y como segunda clase (clase 2 con media 2). Por defecto, el programa considera elorden alfabtico, es decir, si como en este caso las clases son No y S, la primera clase correspondeal no (sin averas y la segunda al s (con avera). Que consuma ms con avera se traducira por lotanto en 2 > 1, por lo que para este ejemplo vamos a considerar el contraste:

    H0 : 1 2 (consumo menor o igual con avera)H1 : 1 < 2 (consumo mayor con avera)

    y para calcularlo procedemos de la siguiente forma:

    EstadsticosyMediasyTest t para muestras independientes

    Seleccionar las variables averias yconsumoyMarcar: Diferencias < 0yMarcar: Varianzas igualesyAceptar

    Los resultados de estos pasos son:

    > t.test(consumo ~ averias, alternative = "less", conf.level = 0.95,+ var.equal = TRUE, data = acero)

    Two Sample t-test

    data: consumo by averiast = -0.9423, df = 115, p-value = 0.174alternative hypothesis: true difference in means is less than 095 percent confidence interval:

    -Inf 8.564113sample estimates:mean in group No mean in group S

    136.7585 148.0321

    Como el p-valor (0174) es mayor que el nivel de significacin , no se rechaza la hiptesis nula.As pues, los datos no aportan evidencias de que el consumo promedio sea mayor cuando hayaavera.

    19

  • Unidad de ConsultoraEstadstica

    Unidad de ConsultoraEstadstica

    Qu ocurrira si las poblaciones no fueran independientes?En tal caso, si suponemos normalidad, realizamos el test t para muestras relacionadas. Se elige

    la siguiente opcin del men:

    EstadsticosyMediasyTest t para muestras relacionadas

    Sera este el caso, por ejemplo, si comparamos la resistencia de una pieza antes y despus deaplicarle un procedimiento en el horno, el nivel de glbulos rojos de una persona antes y despusde recibir un determinado tratamiento o la produccin de galvanizado tipo 1 y la produccin degalvanizado tipo 2.

    Cuando las poblaciones no son normales y no tienen suficiente nmero de datos (habitualmentese suele exigir al menos 30) se realiza el test de Wilcoxon para dos muestras si las poblacionesson independientes, o el test de Wilcoxon para muestras pareadas si tal independencia no essupuesta. Realicemos unos ejemplos para aclarar tales situaciones.

    Ejemplo 3.5. Estudie el comportamiento de la produccin de galvanizado 1 en funcin de las ave-ras.

    Solucin: Aunque ya sabemos que no podemos asegurar que la produccin de galvanizado 1 sigauna distribucin normal, vamos a actuar como si an no conocisemos dicha informacin. As, de-terminamos el tipo de test ms apropiado. Para ello aplicamos el test de normalidad de Shapiro-Wilka ambas poblaciones:

    Figura 8: Test Shapiro de galvanizado por averias

    y los resultados de los mismos se detallan a continuacin:

    > shapiro.test(subset(acero, subset = averias == "No")$pr.galv1)

    Shapiro-Wilk normality test

    data: subset(acero, subset = averias == "No")$pr.galv1W = 0.8563, p-value = 8.081e-08

    > shapiro.test(subset(acero, subset = averias == "S")$pr.galv1)

    Shapiro-Wilk normality test

    data: subset(acero, subset = averias == "S")$pr.galv1W = 0.8805, p-value = 0.004117

    20

  • Unidad de ConsultoraEstadstica

    Unidad de ConsultoraEstadstica

    A la vista de los resultados (ambos p-valores son menores de 00042) podemos considerar la nonormalidad de los datos y no disponemos de un nmero suficiente de datos (para horas con averaslo contamos con 28 observaciones, tal como vimos en el ejemplo 2.1). Por tanto vamos a abordareste problema realizando un test para muestras sin normalidad, el test de Wilcoxon. En este caso,dada la naturaleza de los datos, se realizar el test de Wilcoxon para muestras independientes.

    Para este problema, puesto que el No representa la clase 1 y el S la clase 2, las hiptesis acontrastar son:

    H0 :Me1 Me2 (produccin menor o igual con avera)H1 :Me1 < Me2 (produccin mayor con avera)

    aunque de nuevo se podra considerar de la misma forma la alternativa de mayor (>) o de distinto(6=), tal como ocurra con el test t de igualdad de medias.

    Para realizar el test seguimos los siguientes pasos:

    EstadsticosyTest no paramtricosyTest de Wilcoxon para dos muestras

    Seleccionar las variables averias y pr.galv1yMarcar: Diferencia < 0yAceptar

    Los resultados obtenidos en este caso son:

    > tapply(acero$consumo, acero$averias, median, na.rm = TRUE)

    No S136.05 148.56

    > wilcox.test(consumo ~ averias, alternative = "less", data = acero)

    Wilcoxon rank sum test with continuity correction

    data: consumo by averiasW = 1088.5, p-value = 0.1579alternative hypothesis: true location shift is less than 0

    Como el p-valor (01579) es mayor que el nivel de significacin considerado (), no se rechazala hiptesis nula y, por tanto, no podemos concluir que la produccin de galvanizado 1 sea mayorcuando haya averas.

    En el caso de que las muestras no fueran independientes se tendra que haber elegido, si no sesupone normalidad, el test de Wilcoxon para muestras pareadas. Dicho test se realiza eligiendo lasiguiente opcin del men:

    21

  • Unidad de ConsultoraEstadstica

    Unidad de ConsultoraEstadstica

    EstadsticosyTest no paramtricosyTest de Wilcoxon para muestras pareadas

    3.4. Comparacin de dos varianzas

    Como ya comentamos, un paso previo al contraste t de igualdad de medias es determinar laigualdad de varianzas, lo cual supone la realizacin de un test previo de igualdad de varianzas. Paraeste contraste de hiptesis vamos a considerar dos tipos de test, segn la naturaleza de los datos,tal como se detalla en el cuadro 5

    Cuadro 5: Contrastes para igualdad de varianzas.

    Contrastes paraNormalidad? Tipo de test

    comparar dos

    Varianzas S Test F para dos varianzasVarianzas No Test de Levene

    En nuestro ejemplo comparamos el consumo con o sin averas y ya habamos visto que se podansuponer ambas poblaciones normales. Por lo que realizaremos el test F para dos varianzas.

    Quines son H0 y H1 en ese contraste?Los distintos tipos de contrastes de hiptesis para dos varianzas, segn la hiptesis alternativa

    considerada, son:

    H0 : 21 =

    22 H0 :

    21 22 H0 : 21 22

    H1 : 21 6= 22 H1 : 21 < 22 H1 : 21 > 22

    two.sided less greater

    En el contraste de igualdad de medias, la comprobacin previa consiste precisamente en el pri-mero de estos tres contrastes. Vamos a ver como se realiza mediante el siguiente ejemplo.

    Ejemplo 3.6. Son iguales las varianzas del consumo con o sin averas?

    Solucin: Las hiptesis para el test son las siguientes.

    H0 : 21 =

    22 (varianzas iguales)

    H1 : 21 6= 22 (varianzas distintas)

    Los pasos a seguir para obtener el p-valor asociado a dicho contraste son:

    EstadsticosyVarianzasyTest F para dos varianzas...

    22

  • Unidad de ConsultoraEstadstica

    Unidad de ConsultoraEstadstica

    Seleccionar las variables averias y consumoySealar BilateralyAceptar

    Los resultados que presenta el R al finalizar estos pasos son:

    > tapply(acero$consumo, acero$averias, var, na.rm = TRUE)

    No S3123.748 2802.630

    > var.test(consumo ~ averias, alternative = "two.sided", conf.level = 0.95,+ data = acero)

    F test to compare two variances

    data: consumo by averiasF = 1.1146, num df = 88, denom df = 27, p-value = 0.7731alternative hypothesis: true ratio of variances is not equal to 195 percent confidence interval:0.5696427 1.9686748sample estimates:ratio of variances

    1.114577

    Como el p-valor (07731) es mayor que el nivel de significacin , no se rechaza la hiptesisnula y, por tanto, podemos suponer que no existen diferencias significativas entre las varianzas delconsumo con o sin avera (tienen la misma varianza).

    Como ya hemos comentado, si quisisemos comparar la varianza de dos poblaciones que no su-ponemos normales, se debera realizar el test de Levene. Vamos a ver su funcionamiento medianteun ejemplo.

    Ejemplo 3.7. Es homocedstica la produccin de galvanizado 1 (pr.galv1) segn las averas?

    Solucin: Para la variable pr.galv1 sabamos que los datos se comportan sin normalidad. Eneste caso se realiza el test de Levene. Las hiptesis del test son:

    H0 : 21 =

    22 (varianzas iguales)

    H1 : 21 6= 22 (varianzas distintas)

    La realizacin de este test se lleva acabo como sigue:

    EstadsticosyVarianzasyTest de Levene

    23

  • Unidad de ConsultoraEstadstica

    Unidad de ConsultoraEstadstica

    Seleccionar las variables averias y pr.galv1yAceptar

    Los resultados del test de Levene para estos datos son:

    > levene.test(acero$pr.galv1, acero$averias)

    No S114634.30 91694.27

    Levene's Test for Homogeneity of VarianceDf F value Pr(>F)

    group 1 4.1293 0.04445 *115

    ---Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

    Como el p-valor (004445) es menor que se rechaza la hiptesis nula, podemos por tanto supo-ner que hay diferencias significativas entre las varianzas. Ms an, podemos ver que la varianza sinavera es de 11463430 mientras que cuando hay avera la varianza toma el valor de 9169427.

    3.5. Test para la proporcin

    Es frecuente el inters por saber qu proporcin o porcentaje de individuos de una poblacin,presentan una caracterstica A, frente a los que no la presentan. Dicha proporcin no ser en generalconocida, pero se pueden hacer contrastes de hiptesis sobre su valor, en funcin de los datos deuna muestra. Para la realizacin de dichos tests es necesario un tamao suficiente de muestra.Habitualmente se exige que dicho tamao (n) sea mayor o igual que 30.

    Por ejemplo de aplicacin de dichos tests sera si queremos saber si porcentaje de horas conavera es excesivo, considerndose excesivo si el porcentaje es mayor del 10 %.

    Para responder a esta pregunta un contraste de hiptesis adecuado es el test de proporcionespara una muestra. Vamos a ver un ejemplo de aplicacin de dicho test.

    Ejemplo 3.8. Siguiendo con los datos de nuestro ejemplo, puede considerarse que el porcentajede averas es mayor del 10 %?

    Solucin: Tendramos en cuenta que p es la primera clase por orden alfabtico, en este caso No.Plantearse si el porcentaje de horas con averas es mayor del 10 % es lo mismo que plantearse si elporcentaje de horas sin averas es menor del 90 %. Puesto que los distintos tipos de contrastes dehiptesis para la proporcin son de la forma:

    H0 : p = 90% H0 : p 90% H0 : p 90%H1 : p 6= 90% H1 : p < 90% H1 : p > 90%two.sided less greater

    las hiptesis a contrastar seran:

    H0 : p 90% (proporcin razonable de averas)H1 : p < 90% (proporcin excesiva de averas)

    24

  • Unidad de ConsultoraEstadstica

    Unidad de ConsultoraEstadstica

    Ahora solo habra que hacer

    EstadsticosyProporcionesyTest de proporciones para una muestra

    Seleccionar la variable averiasyEscribir 0.9 como hiptesis nulayProporcin de la poblacin prop.test(rbind(xtabs(~averias, data = acero)), alternative = "less",+ p = 0.9, conf.level = 0.95, correct = FALSE)

    1-sample proportions test without continuity correction

    data: rbind(xtabs(~averias, data = acero)), null probability 0.9X-squared = 25.2317, df = 1, p-value = 2.542e-07alternative hypothesis: true p is less than 0.995 percent confidence interval:0.0000000 0.8192062sample estimates:p0.7606838

    Como el p-valor es tan pequeo (2542 107), se rechaza la hiptesis nula, por lo que se concluyeque ha habido un porcentaje excesivo de averas. En la muestra se ve que dicho porcentaje ha sidode alrededor del 24%.

    Otra manera de abordar el problema, sobre todo si hubiera ms de 2 clases sera reordenar losniveles de factor y poner como primer factor de la variable averias el factor S.

    DatosyModificar variablesyRecodificar niveles de factor

    25

  • Unidad de ConsultoraEstadstica

    Unidad de ConsultoraEstadstica

    Seleccionar la variable averiasyAceptar

    Reordenar de la forma deseadayAceptar

    Las salidas obtenidas son:

    > acero$averias 10% (proporcin excesiva de averas)

    En estas condiciones el test se realizara del siguiente modo:

    EstadsticosyProporcionesyTest de proporciones para una muestra

    Seleccionar la variable averiasyEscribimos 0.1 como hiptesis nulayProporcin de la poblacin >

    p0yAceptar

    Las salidas obtenidas son:

    > prop.test(rbind(xtabs(~averias, data = acero)), alternative = "greater",+ p = 0.1, conf.level = 0.95, correct = FALSE)

    1-sample proportions test without continuity correction

    data: rbind(xtabs(~averias, data = acero)), null probability 0.1X-squared = 25.2317, df = 1, p-value = 2.542e-07alternative hypothesis: true p is greater than 0.1

    26

  • Unidad de ConsultoraEstadstica

    Unidad de ConsultoraEstadstica

    95 percent confidence interval:0.1807938 1.0000000sample estimates:p0.2393162

    Como el p-valor (2542e 07) (que es el mismo para los dos contrastes) es menor que serechaza la hiptesis nula y se concluye que la proporcin de averas es excesiva.

    De nuevo vemos que para estos datos el porcentaje de horas con averas es de aproximadamenteel 24%.

    3.6. Comparacin de dos proporciones

    Adems de analizar el comportamiento de una proporcin, se puede querer comparar la pro-porcin de una determinada caracterstica en dos poblaciones distintas. Al igual que ocurra en laseccin anterior, el nmero de datos en cada muestra debe ser suficientemente grande (habitual-mente se exigen al menos 30 datos por muestra).

    As, por ejemplo, para poder determinar si el porcentaje de horas con avera es mayor cuandoestaba apagado el sistema que cuando no, deberamos plantear un test de proporciones para dosmuestras.

    Los distintos tipos de contrastes de hiptesis en este caso son:

    H0 : p1 = p2 H0 : p1 p2 H0 : p1 p2H1 : p1 6= p2 H1 : p1 < p2 H1 : p1 > p2two.sided less greater

    donde p1 representa la proporcin en el primer grupo (por orden alfabtico) y p2 en el segundo.Vamos a ver el funcionamiento de este test a travs de un ejemplo concreto.

    Ejemplo 3.9. El porcentaje de horas con avera es mayor cuando estaba encendido el sistemaque cuando no?

    Solucin: Hemos de tener en cuenta que p1 es siempre la primera clase por orden alfabtico. Comoen este caso trabajamos con las modalidades No y S, las hiptesis a contrastar son:

    H0 : pNO pSI (igual o mejor con el sistema encendido)H1 : pNO < pSI (peor con el sistema encendido)

    La obtencin del p-valor asociado a este test se realizara mediante los siguientes pasos en R:

    EstadsticosyProporcionesyTest de proporciones para dos muestras...

    27

  • Unidad de ConsultoraEstadstica

    Unidad de ConsultoraEstadstica

    Seleccionar las variables sistema y averiasyMarcar: Diferencia < 0yAceptar

    Las salidas de este procedimiento son:

    > prop.test(xtabs(~sistema + averias, data = acero), alternative = "less",+ conf.level = 0.95, correct = FALSE)

    2-sample test for equality of proportions without continuitycorrection

    data: xtabs(~sistema + averias, data = acero)X-squared = 0.6641, df = 1, p-value = 0.2076alternative hypothesis: less95 percent confidence interval:-1.000000 0.065007sample estimates:prop 1 prop 20.7288136 0.7931034

    Como el p-valor (02076) es mayor que no se rechaza la hiptesis nula, no hay evidencias deque vaya peor con el sistema encendido.

    3.7. Relaciones entre variables

    Muchas veces nos podemos preguntar si tiene sentido estudiar dos variables de forma conjunta,si existe una relacin entre ellas y en caso de existir como de fuerte es esa relacin.Para contestar a estas preguntas se establece una serie de coeficientes:

    Para estudiar la relacin general, se puede estudiar, entre otros, el coeficiente Chi-cuadradode Pearson.

    Para estudiar la relacin lineal, el ms habitual es el coeficiente de correlacin de Pearson.

    Para seleccionar el contraste ms adecuado a la muestra, tendremos en cuenta la naturaleza denuestras variables.Para variables Cuantitativas, Cuantitativas-Discretas o cuantitativas-Continuas Discretizadas, se uti-liza el test Chi-cuadrado de Pearson de independencia.Para variables Cuantitativas-Continuas, se usar el test de correlacin de Pearson.

    Las hiptesis a contrastar en este tipo de problemas son siempre del tipo:

    H0: no existe relacin entre las variablesH1: s existe relacin entre las variables

    28

  • Unidad de ConsultoraEstadstica

    Unidad de ConsultoraEstadstica

    donde la relacin ser o no del tipo lineal dependiendo del coeficiente utilizado en el contraste.As pues, un p-valor claramente menor de 005 indicar que existe relacin entre las variables. Si

    es mayor de 005, los datos no nos proporcionarn evidencias de dicha relacin.

    Ejemplo 3.10. Existe relacin entre que haya habido o no averas y la lnea utilizada?

    Solucin: Como las variables son cualitativas vamos a utilizar el test chi-cuadrado. Para hacer estovamos a

    EstadsticosyTablas de contingenciasyTabla de doble entrada. . .

    Seleccionar las variables averias y lineayAceptar

    Las salidas de este procedimiento son:

    > xtabs(~averias + linea, data = acero)

    lineaaverias A B CNo 31 28 30S 8 11 9

    > chisq.test(xtabs(~averias + linea, data = acero), correct = FALSE)

    Pearson's Chi-squared test

    data: xtabs(~averias + linea, data = acero)X-squared = 0.6573, df = 2, p-value = 0.7199

    Como el p-valor (07199) es mayor que no se rechaza la hiptesis nula, es decir, no hay eviden-cias de que las lneas afecten en que haya o no averas.

    Ejemplo 3.11. Existe relacin entre la produccin de galv1 y de galv2?

    29

  • Unidad de ConsultoraEstadstica

    Unidad de ConsultoraEstadstica

    Solucin: Como las variables son cuantitativas continuas, podemos utilizar el test de correlacinde Pearson, para lo cual haremos:

    EstadsticosyResmenes. . .yMatriz de correlaciones

    Seleccionar las variables pr.galv1 ypr.galv2yAceptar

    Los resultados obtenidos son:

    > cor.test(acero$pr.galv1, acero$pr.galv2, alternative = "two.sided",+ method = "pearson")

    Pearson's product-moment correlation

    data: acero$pr.galv1 and acero$pr.galv2t = 0.5331, df = 115, p-value = 0.595alternative hypothesis: true correlation is not equal to 095 percent confidence interval:-0.1330859 0.2291146sample estimates:cor0.04964655

    Como el p-valor (0595) es mayor que no se rechaza la hiptesis nula. As pues, de nuevo nohay evidencias de relacin lineal entre las dos producciones (al aumentar una no tiene por qu au-mentar o disminuir significativamente la otra).

    3.8. Comparacin de ms de dos promedios

    El anlisis de varianza (ANOVA) de un factor sirve para comparar varios grupos en una variablecuantitativa. Se trata, por tanto, de una generalizacin del test t para dos muestras independientesen el caso de diseos con ms de dos factores de agrupacin. Veremos aqu su utilizacin comosimple generalizacin de dicho test, aunque volveremos sobre este tema en ms profundidad en loscaptulos 5 y 6.

    A la variable categrica (nominal u ordinal) que define los grupos que deseamos comparar, la lla-mamos independiente o factor. A la variable cuantitativa (de intervalo o razn) en la que deseamoscomparar los grupos, la llamamos dependiente.Si queremos, por ejemplo, averiguar cul de tres programas distintos de incentivos aumenta de forma

    30

  • Unidad de ConsultoraEstadstica

    Unidad de ConsultoraEstadstica

    ms eficaz el rendimiento de un determinado colectivo, podemos seleccionar tres muestras aleato-rias de ese colectivo y aplicar a cada una de ellas uno de los tres programas. Despus, podemosmedir el rendimiento de cada grupo y averiguar si existen o no diferencias entre ellos. Tendremosuna variable independiente categrica (el tipo de programa de incentivos) cuyos niveles deseamoscomparar entre s, y una variable dependiente cuantitativa (la medida del rendimiento), en la cualqueremos comparar los tres programas. El ANOVA de un factor permite obtener informacin sobreel resultado de esa comparacin. Es decir, permite concluir si los sujetos sometidos a distintos pro-gramas difieren de la medida de rendimiento utilizada.La hiptesis que se pone a prueba en el ANOVA de un factor es que las medias poblacionales (lasmedias de la variable dependiente en cada nivel de la variable independiente) son iguales. Si las me-dias poblacionales son iguales, eso significa que los grupos no difieren en la variable dependiente yque, en consecuencia, la variable independiente o factor no influye en la variable dependiente.

    Lo que habitualmente se conoce como Anlisis de la varianza es una versin paramtrica del testde la F. Para poder aplicarse deben verificarse ciertas condiciones previas (normalidad, independen-cia y homocedasticidad (igualdad de varianzas)). En caso contrario existen alternativas paramtricasy no paramtricas.

    NORMALIDAD HOMOCEDASTICIDAD TEST RECOMENDADOS S

    Test de la FNO S

    S NOTest de Welch oTest de Kruskal Wallis

    NO S o NO Test de Kruskal Wallis*No drstico, p-valores del test de normalidad entre 001 y 005.

    Recordar que la normalidad la estudibamos con el test de Shapiro-Wilk, mientras que la homo-cedasticidad se puede comprobar utilizando el test de Barlett.

    En este tipo de tests de igualdad de ms de dos promedios, las hiptesis a contrastar son:

    H0: promedios igualesH1: no todos los promedios son iguales

    Si volvemos a mirar la regla de decisin, dicha decisin en este caso sera:

    P-valor < = Rechazo H0 (no todos los promedios son iguales)P-valor = No rechazo H0 (los promedios son iguales)

    Vamos a ver varios ejemplos con algunos de los casos que se pueden presentar.

    Ejemplo 3.12. Comparar el consumo promedio para las tres temperaturas.

    Solucin: Lo primero que tenemos que estudiar es la normalidad de los datos para cada grupo detemperatura, para ello utilizbamos es test de Shapiro-Wilk, que tena como hiptesis:

    H0: los datos provienen de una poblacin normalH1: los datos NO provienen de una poblacin normal

    La forma ms rpida de realizar los tres tests (uno para cada modalidad de la temperatura) esescribir en la lnea de comandos:

    Cuyos resultados son:

    > shapiro.test(subset(acero, subset = temperatura == "Alta")$consumo)

    Shapiro-Wilk normality test

    data: subset(acero, subset = temperatura == "Alta")$consumoW = 0.9748, p-value = 0.4112

    31

  • Unidad de ConsultoraEstadstica

    Unidad de ConsultoraEstadstica

    Figura 9: Test de Shapiro-Wilk para el consumo por temperatura

    > shapiro.test(subset(acero, subset = temperatura == "Media")$consumo)

    Shapiro-Wilk normality test

    data: subset(acero, subset = temperatura == "Media")$consumoW = 0.9499, p-value = 0.1323

    > shapiro.test(subset(acero, subset = temperatura == "Baja")$consumo)

    Shapiro-Wilk normality test

    data: subset(acero, subset = temperatura == "Baja")$consumoW = 0.9662, p-value = 0.2993

    Los p-valores obtenidos son, respectivamente, 04112, 01323 y 02993, con lo que en todos loscasos es suficientemente grande como para no rechazar la hiptesis nula (se puede admitir la nor-malidad).

    Para contrastar la igualdad de varianzas en ms de dos poblaciones, se utiliza el test de Barlett,que tiene como hiptesis:

    H0: las varianzas son igualesH1: las varianzas son distintas

    Para realizar dicho test vamos a:

    EstadsticosyVarianzasyTest de Bartlett

    Seleccionar temperatura y consumoyAceptar

    Cuyas salidas son:

    > bartlett.test(consumo ~ temperatura, data = acero)

    32

  • Unidad de ConsultoraEstadstica

    Unidad de ConsultoraEstadstica

    Bartlett test of homogeneity of variances

    data: consumo by temperaturaBartlett's K-squared = 1.4052, df = 2, p-value = 0.4953

    Como el p-valor (04953) es mayor que no se rechaza la hiptesis nula, con lo que se puedensuponer las varianzas iguales. Como hay normalidad y homocedasticidad, el test que realizaremoses el test de la F para la igualdad de medias, es decir, el tpico anlisis de la varianza de un factor. Aeste modelo le vamos a llamar Anova1. Los pasos a seguir para obtener el correspondiente p-valorson:

    EstadsticosyMediasyANOVA de un factor

    Introducimos el nombre Anova1ySeleccionar temperatura y consumoyAceptamos

    Cuyos resultados son:

    > Anova1 summary(Anova1)

    Df Sum Sq Mean Sq F value Pr(>F)temperatura 2 101567 50783 23.001 4.06e-09 ***Residuals 114 251701 2208---Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 . 0.1 1

    > numSummary(acero$consumo , groups=acero$temperatura, statistics=c("mean",+ "sd"))

    mean sd nAlta 109.4409 51.13719 46Media 138.7297 45.58685 38Baja 182.1333 42.25437 33

    Como el p-valor (406 109) es menor que , se rechaza la hiptesis nula, con lo que se puedesuponer que no todas las medias son iguales.

    Grficamente podramos ver como se comporta cada grupo haciendo los correspondientes dia-gramas de cajas o grficos de medias.

    Comenzaremos con los diagramas de cajas:

    33

  • Unidad de ConsultoraEstadstica

    Unidad de ConsultoraEstadstica

    GrficasyDiagrama de cajas...

    Seleccionar consumoyGrfica segn:temperaturayAceptar

    Con lo que se obtiene:

    > boxplot(consumo ~ temperatura, ylab = "Consumo", xlab = "Temperatura",+ data = acero)

    Aunque el diagrama de cajas es muy utilizado, al estar comparando medias, un grfico ms ade-cuado podra ser el de medias. Para obtenerlo los pasos a seguir son:

    GrficasyGrficas de la media

    34

  • Unidad de ConsultoraEstadstica

    Unidad de ConsultoraEstadstica

    Seleccionar las variables temperatura yconsumoyAceptar

    Con el procedimiento anterior se obtendran los grficos de medias para los tres grupos de tem-peratura. Bien modificando las salidas en la ventana de instrucciones o bien tecleando directamente,podemos cambiar las opciones del grfico, como por ejemplo las etiquetas de los ejes o el ttulo delgrfico. Para ello deberamos ejecutar la siguiente orden:

    Cuyas salidas son:

    > plotMeans(acero$consumo, acero$temperatura, error.bars = "conf.int",+ level = 0.95, xlab = "Temperatura", ylab = "Consumo", n.label = FALSE,+ main = "Distribucin del consumo por temperatura", col = "black",+ barcol = "blue", connect = TRUE)

    35

  • Unidad de ConsultoraEstadstica

    Unidad de ConsultoraEstadstica

    Si se rechaza la hiptesis nula, es decir, si se concluye que las medias no son todas iguales,no ocurre como en el caso de dos poblaciones en el que claramente una de ellas tendra mediasuperior a la otra, sino que ahora habr que evaluar las relaciones entre las distintas poblaciones.Existen una gran cantidad de test que realizan comparaciones mltiples. Cabe destacar, por su usoms extendido, Duncan, Newman-Keuls, Bonferroni, Scheff y HSD de Tukey.

    Para realizar esta comparacin solo hay que marcar la casilla: Comparacin dos a dos delas medias, tal como puede verse a continuacin:

    EstadsticosyMediasyANOVA de un factor

    Introducimos el nombre Anova1ySeleccionanos temperatura y consumoyComparacin dos a dos de las mediasyAceptamos

    Cuyas salidas son:

    > comparacion summary(comparacion)

    Simultaneous Tests for General Linear Hypotheses

    Multiple Comparisons of Means: Tukey Contrasts

    Fit: aov(formula = consumo ~ temperatura, data = acero)

    Linear Hypotheses:Estimate Std. Error t value Pr(>|t|)B - A == 0 72.69 10.72 6.781

  • Unidad de ConsultoraEstadstica

    Unidad de ConsultoraEstadstica

    Linear Hypotheses:Estimate lwr uprMedia - Alta == 0 72.6925 47.2471 98.1378Baja - Alta == 0 29.2889 4.8377 53.7400Baja - Media == 0 -43.4036 -69.9442 -16.8630

    > plot(comparacion)

    Para aadir la lnea vertical tenemos que poner en la lnea de comandos:

    tal como puede verse a continuacin:

    abline(v = 0, col = "red")

    y ejecutar la lnea de comando.A la vista del grfico podemos concluir que el consumo a temperatura alta es mayor que a tempe-

    ratura media o baja y el consumo a temperatura media es significativamente mayor que el consumoa temperatura baja.

    Ejemplo 3.13. Comparar el consumo promedio para las tres lneas.

    37

  • Unidad de ConsultoraEstadstica

    Unidad de ConsultoraEstadstica

    Solucin: Al igual que antes veamos si los datos estn normalizados y hay homocedasticidad.Para la normalidad aplicamos el test de Shapiro-Wilk, como lo hay que realizar por casos lo tenemosque implementar por comandos, para ello escribimos

    y obtenemos:

    > shapiro.test(subset(acero, subset = linea == "A")$consumo)

    Shapiro-Wilk normality test

    data: subset(acero, subset = linea == "A")$consumoW = 0.9597, p-value = 0.1738

    > shapiro.test(subset(acero, subset = linea == "B")$consumo)

    Shapiro-Wilk normality test

    data: subset(acero, subset = linea == "B")$consumoW = 0.9485, p-value = 0.07302

    > shapiro.test(subset(acero, subset = linea == "C")$consumo)

    Shapiro-Wilk normality test

    data: subset(acero, subset = linea == "C")$consumoW = 0.9887, p-value = 0.9584

    Para los datos de la lnea A el p-valor es 01738, para los de la lnea B es 007302 y para los dela C es 09584. En los tres casos suficientemente grande como para que no se rechace la hiptesisnula (se puede admitir la normalidad).

    La homocedasticidad la estudiamos por medio del test de Bartlett:

    EstadsticosyVarianzasyTest de Bartlett

    38

  • Unidad de ConsultoraEstadstica

    Unidad de ConsultoraEstadstica

    Seleccionar las variables linea y consumoyAceptar

    Los resultados obtenidos son:

    > tapply(acero$consumo, acero$linea, var, na.rm = TRUE)

    A B C1574.079 3559.603 2239.063

    > bartlett.test(consumo ~ linea, data = acero)

    Bartlett test of homogeneity of variances

    data: consumo by lineaBartlett's K-squared = 6.3161, df = 2, p-value = 0.04251

    Dado que el p-valor (004251) es menor que , se rechaza la hiptesis nula al nivel 005, conlo que no pueden suponerse las varianzas iguales. En este caso, como no hay homocedasticidad,realizaremos el test de Kruskal-Wallis, donde las hiptesis a contrastar son:

    H0 : promedios iguales para A, B y CH1: no todas los promedios son iguales

    Para realizar el test hacemos:

    EstadsticosyTest no paramtricosyTest de Kruskal-Wallis

    Seleccionar las variables linea y consumoyAceptar

    Obteniendo los siguientes resultados:

    > kruskal.test(consumo ~ linea, data = acero)

    Kruskal-Wallis rank sum test

    data: consumo by lineaKruskal-Wallis chi-squared = 26.5836, df = 2, p-value = 1.688e-06

    39

  • Unidad de ConsultoraEstadstica

    Unidad de ConsultoraEstadstica

    Como el p-valor (1688 106) es menor que se rechaza la hiptesis nula, no todas las mediasson iguales. Grficamente lo podemos ver mediante diagramas de cajas:

    GrficasyDiagrama de cajas

    Seleccionar consumoyGrfica segn:lineayAceptar

    Bien tecleando directamente el cdigo o bien modificando las salidas del proceso anterior sepueden hacer modificaciones en el grfico. As, mediante la orden por comandos

    obtenemos el siguiente diagrama de cajas:

    > boxplot(consumo~linea, ylab="consumo", xlab="linea", data=acero)

    40

  • Unidad de ConsultoraEstadstica

    Unidad de ConsultoraEstadstica

    Aunque en este caso sera menos aconsejable, tambin podramos hacer un grfico de medias.Los pasos a seguir son:

    GrficasyGrficas de la media

    Seleccionar las variables linea y consumoyAceptar

    Con el procedimiento anterior se obtendra el correspondiente grfico de medias. No obstante,vamos a hacer modificaciones en la ventana de instrucciones a fin de especificar ciertas opcionesdel grfico. As, ejecutaremos la siguiente orden de comandos:

    Dicha ejecucin da lugar a las siguientes salidas:

    > plotmeans(acero$consumo ~ acero$linea, error.bars = "conf.int",+ level = 0.95, xlab = "Linea", ylab = "Consumo", n.label = FALSE,+ main = "Distribucin del consumo por linea", col = "black",+ barcol = "blue", connect = TRUE)

    41

  • Unidad de ConsultoraEstadstica

    Unidad de ConsultoraEstadstica

    42

  • Unidad de ConsultoraEstadstica

    Unidad de ConsultoraEstadstica

    4. Regresin lineal

    4.1. Modelizacin estadstica

    Si se sospecha de la existencia de una relacin entre diversas variables o magnitudes (por ejem-plo, la influencia de la experiencia profesional de los trabajadores en sus respectivos sueldos, laestatura en el peso de las personas, etc.) surge de forma natural plantearse cmo formalizar esarelacin y si puede extrapolarse a situaciones ms generales.

    El modelado estadstico obtiene un conjunto de modelos que se ajustan a los datos disponiblesde una forma razonable. En general, los modelos ms sencillos buscan explicar la variabilidad deuna magnitud Y , denominada variable dependiente, en funcin de otras variables, X1, X2, . . . , Xk,llamadas variables independientes.

    No siempre resulta fcil determinar cul es la variable dependiente y cules intervienen comoindependientes. La influencia o relacin causa-efecto depende del planteamiento del problema y suconcrecin y formalizacin corresponden al investigador que disea el experimento.

    Las tcnicas estadsticas disponibles abarcan una gran variedad de situaciones y de nuevo con-cierne al responsable del estudio seleccionar el procedimiento ms correcto para modelar los datos.Sin ser exhaustivos, el Cuadro 6 detalla los modelos ms habituales.

    Cuadro 6: Principales modelos estadsticos segn la naturaleza de las variables.

    Variable respuesta Variables independientes

    Continua Todas son continuas: regresin normalTodas son categricas: anlisis de la varianzaAmbos tipos: anlisis de la covarianza

    Proporcin Regresin logsticaConteo Modelos log-linealesBinarias Regresin logstica binariaTiempo de muerte Anlisis de supervivencia

    La principal regla para realizar el modelado consiste en asumir que el resultado obtenido siempreser mejorable. El modelo ha de adaptarse a los datos y evitar la tentacin de que los datos casencon un determinado modelo. De principio, un buen ajuste ha de explicar la mayor parte de la variabi-lidad y simplificar al mximo las relaciones entre las variables. No encontraremos un nico modelo,sino un conjunto de soluciones que se amoldan razonablemente bien a los datos.

    El principio de parsimonia (la navaja de Ockham) induce a optar por un modelo sencillo en vezde uno complicado. Dado un conjunto de posibles explicaciones igualmente buenas, la ms sencillase convierte en la mejor; cuantos menos parmetros intervengan en el modelo, relaciones linealeso con pocos factores sealan pistas que orientan nuestra bsqueda. Sin embargo, no exageremosen la sencillez del modelo. Tambin existe la navaja de Einstein: A model should be as simple aspossible. But not simpler.

    4.2. Modelo de regresin lineal simple

    El principio de parsimonia indica que el modelo de regresin lineal se convierte en el primer candi-dato para explicar la relacin entre las variables. En este ejemplo, deseamos estudiar el consumo deenerga de la fbrica: la variable dependiente (Y ) es el consumo, mientras que el resto de variablesdisponibles comprenden el conjunto de variables independientes. Es decir, deseamos encontrar unmodelo que cuantifique el consumo energtico a partir de las diferentes producciones.

    La forma ms facil de comenzar consiste en realizar representaciones grficas.

    Ejemplo 4.1. Realice un diagrama de dispersin de la variable consumo con las variables de pro-duccin.

    43

  • Unidad de ConsultoraEstadstica

    Unidad de ConsultoraEstadstica

    Solucin: Dibujamos una matriz con los diagramas de dispersin:

    GrficasyMatriz de diagrama de dispersin

    Seleccionamos consumo, pr.ca, pr.cc,pr.galv1, pr.galv2, pr.pint ypr.tbc.yAceptar

    > scatterplot.matrix(~consumo + pr.ca + pr.cc + pr.galv1 + pr.galv2 ++ pr.pint + pr.tbc, reg.line = lm, smooth = TRUE, span = 0.5,+ diagonal = "density", data = acero)

    De los diferentes grficos que aparecen, los ms ajustados a nuestra hiptesis de trabajo seencuentran en la primera hilera, ya que la variable dependiente, el consumo, corresponde al eje deordenadas, mientras que las independientes, las diferentes producciones, se representan en el ejede abscisas.

    Qu nube de punto de la primera fila muestra un patrn ms claro de relacin? Si bien nosiempre aparece claramente un comportamiento visual, se puede intuir cierta dependencia entre elconsumo energa y la produccin del tren de bandas en caliente (pr.tbc).

    44

  • Unidad de ConsultoraEstadstica

    Unidad de ConsultoraEstadstica

    Despus de realizar una representacin grfica, procedemos a cuantificar la relacin lineal entrelas variables.

    Ejemplo 4.2. Calcule los coeficientes de correlacin lineal del consumo con el resto de produccio-nes.

    Solucin: El coeficiente de correlacin lineal vara de 1 a 1. Cuanto mayor sea en valor absoluto,ms intensidad existe en la relacin.

    EstadsticosyResmenesyMatriz de correlaciones

    Seleccionamos consumo, pr.ca, pr.cc,pr.galv1, pr.galv2, pr.pint ypr.tbc.yCoeficiente de PearsonyAceptar

    > cor(acero[, c("consumo", "pr.ca", "pr.cc", "pr.galv1", "pr.galv2",+ "pr.pint", "pr.tbc")], use = "complete.obs")

    consumo pr.ca pr.cc pr.galv1 pr.galv2 pr.pinconsumo 1.00000000 -0.04462924 0.3853352 0.40126392 0.24073916 0.193584920pr.ca -0.04462924 1.00000000 -0.1907847 0.08285971 -0.08530484 -0.027095106pr.cc 0.38533520 -0.19078475 1.0000000 0.30011090 0.07108381 0.268146068pr.galv1 0.40126392 0.08285971 0.3001109 1.00000000 0.04964655 0.300788576pr.galv2 0.24073916 -0.08530484 0.0710838 0.04964655 1.00000000 0.072855628pr.pint 0.19358492 -0.02709511 0.2681461 0.30078858 0.07285563 1.000000000pr.tbc 0.74329458 -0.03999992 0.1539631 0.06614846 0.10224749 0.003463181

    pr.tbcconsumo 0.743294582pr.ca -0.039999921pr.cc 0.153963066pr.galv1 0.066148462pr.galv2 0.102247494pr.pint 0.003463181pr.tbc 1.000000000

    La primera columna muestra la correlacin de la variable consumo con el resto de las produccio-nes. La relacin ms intensa se produce entre el consumo y la pr.tbc.

    Investigamos con ms detalle la relacin entre consumo y la pr.tbc. De nuevo, empezamoscon un grfico.

    Ejemplo 4.3. Dibuje el diagrama de dispersin del consumo y la pr.tbc.

    45

  • Unidad de ConsultoraEstadstica

    Unidad de ConsultoraEstadstica

    Solucin: El grfico se consigue de la siguiente forma:

    GrficasyMatriz de diagrama de dispersin

    Seleccionamos: consumo y pr.tbcyMarcamos: Identificar ObservacionesyAceptar

    El eje de abscisas muestra la produccin de TBC y el de ordenadas el consumo de energa. Seobserva una relacin creciente entre ambas magnitudes. En el grfico aparecen dos lneas. Una esla recta de regresin (el modelo ms simple) y la otra la lnea de regresin no paramtrica (el mejorajuste posible). Si ambas lneas coinciden, el ajuste lineal resulta adecuado. En este caso la lnearecta no sigue muy bien el comportamiento de la lnea no paramtrica, por lo que el modelo linealno ajustar bien los datos.

    Adems en el grfico se muestran dos posibles observaciones atpicas, la 107 y la 88.

    Si bien el grfico sugiere que el modelo lineal no casa bien con los datos, procedemos a construirun modelo lineal que cuantifica la relacin entre el consumo y la pr.tbc.

    Consumo de energa = a+ b Produccin de TBCLa formulacin matemtica de este modelo determina que el consumo slo depende de la produc-cin de TBC y de ninguna otra produccin. Este modelo a priori parece demasiado sencillo, ya queignora el resto de informacin disponible.

    46

  • Unidad de ConsultoraEstadstica

    Unidad de ConsultoraEstadstica

    Ejemplo 4.4. Estime el consumo a partir de la produccin de TBC. Llame a este modelo Modelo1.

    Solucin: Procedemos con el modelo lineal, ya que su sencillez favorece la interpretacin de loscoeficientes.

    EstadsticosyAjuste de modelosyModelo lineal

    Nombre del modelo: Modelo1yFormula del. . .consumopr.tbcyAceptar

    > Modelo1 summary(Modelo1)

    Call:lm(formula = consumo ~ pr.tbc, data = acero)

    Residuals:Min 1Q Median 3Q Max

    -94.9517 -23.4839 -0.7312 21.4330 133.5283

    Coefficients:Estimate Std. Error t value Pr(>|t|)

    (Intercept) 36.075095 9.328889 3.867 0.000183 ***pr.tbc 0.013661 0.001146 11.915 < 2e-16 ***---Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 . 0.1 1

    Residual standard error: 37.08 on 115 degrees of freedomMultiple R-squared: 0.5525, Adjusted R-squared: 0.5486F-statistic: 142 on 1 and 115 DF, p-value: < 2.2e-16

    La columna de Estimate proporciona los valores de los coeficientes.

    consumo = 36,075281 + 0,013661 pr.tbc (1)

    Si deseamos incorporar la variabilidad de esos coeficientes, incorporamos en la formulacin susdesviaciones tpicas

    consumo = 36,075( s.e. 9,328) + 0,014( s.e. 0,001) pr.tbc (2)

    Todos los coeficientes del modelo son significativos (distintos de 0) ya que sus p-valor (Pr(>|t|))minoran a 0,05.

    El R cuadrado, R2, representa la fraccin de la variacin de la variable dependiente explicada porla regresin. El 54.86 % del consumo de energa se debe a la produccin del tren de bandas encaliente. Hemos de mencionar que el R2 no es un buen criterio para comparar modelos (el AIC espreferible).

    47

  • Unidad de ConsultoraEstadstica

    Unidad de ConsultoraEstadstica

    Respecto a los grados de libertad (DF, degree of freedom), cuantos ms parmetros incorpore elmodelo, menos grados de libertad dispone. El principio de parsimonia prioriza los modelos con msgrados de libertad.

    Despus de estimar el modelo, hemos de verificar una serie de requisitos. Si cumple con todosellos, el modelo ajusta correctamente los datos. Si no los verifica, hemos de plantear otra formula-cin. Destacan los siguientes condiciones: homocedasticidad (varianza constante) de los errores,normalidad de los errores, ausencia de observaciones atpicas, relacin lineal y ausencia de coli-nealidad.

    Ejemplo 4.5. Determine si los residuos del modelo Modelo1 son homocedsticos.

    Solucin: Para estudiar la homocedasticidad de un modelo usamos el test de Breusch-Pagan.

    ModelosyDiagnsticos numricosyTest de Breusch-Pagan. . .

    Aceptar

    > bptest(consumo ~ pr.tbc, varformula = ~fitted.values(Modelo1),+ studentize = FALSE, data = acero)

    Breusch-Pagan test

    data: consumo ~ pr.tbcBP = 1.1495, df = 1, p-value = 0.2837

    Como el p-valor (0,2837) es menor que , los residuos se comportan de forma homocedstica (lavarianza es igual en todo el grfico). Si el p-valor hubiera superado el valor (normalmente 0,05), seproducira una variabilidad no constante en el ajuste (heterocedstico) y habra que encontrar otrarelacin.

    Ejemplo 4.6. El modelo lineal Modelo1 (Y = a + bX) ajusta de forma correcta?, no convienems un modelo cuadrtico (Y = a+ bX + cX2) o cbico?

    Solucin: Para estudiar la linealidad de los residuos se utiliza el test Reset de no linealidad:

    ModelosyDiagnsticos numricosyTest Reset de no linealidad. . .

    48

  • Unidad de ConsultoraEstadstica

    Unidad de ConsultoraEstadstica

    Desmarcar 3 cubosyAceptar

    > resettest(consumo ~ pr.tbc, power = 2, type =+ "regressor", data = acero)

    RESET test

    data: consumo ~ pr.tbcRESET = 5.8411, df1 = 1, df2 = 114, p-value = 0.01724

    Como el p-valor (0,01724) es inferior a , se concluye que el modelo lineal no ajusta adecuada-mente. Nuestra labor de modelado empieza de nuevo plantendonos otras relaciones, como porejemplo

    consumo = a+ b pr.tbc+ c pr.tbc2

    Si bien ya hemos concluido que este ajuste lineal no cumple con los requisitos necesarios, comoprctica realizamos tambin el control de las observaciones atpicas.

    Ejemplo 4.7. Existen observaciones atpicas que distorsionen el anlisis del Modelo1?

    Solucin: El test de valores atpicos de Bonferroni indica la presencia de observaciones atpicas.

    ModelosyDiagnsticos numricosyTest de valores atpicos de Bonferro-

    ni. . .

    > outlier.test(Modelo1)

    max|rstudent| = 3.85354, degrees of freedom = 114,unadjusted p = 0.0001929329, Bonferroni p = 0.02257315

    Observation: 107

    El p-valor es menor que e implica que hay observaciones atpicas: la nmero 107.

    49

  • Unidad de ConsultoraEstadstica

    Unidad de ConsultoraEstadstica

    4.3. Transformaciones de variables

    Hasta ahora slo se han considerado los datos originales y como resultado hemos concluidoque el modelo lineal no ajusta adecuadamente. Llega el momento de abandonar el modelo inicial ybuscar alternativas.

    Existe algn modelo terico que corresponda a nuestros datos? Por ejemplo, estimar el volumende un depsito de aguas, Volumen = Base Altura, determinar la distancia que recorre un cuerpo encada libre, Distancia = a g tiempo2 o calcular el crecimiento demogrfico, N = a ebtiempo. En to-dos estos planteamientos, la relacin no es lineal; Pero con una sencilla transformacin, obtenemosuna. Por ejemplo, si Y = X2 Z, entonces log(Y ) = 2 log(X) + log(Z).

    La transformacin ms inmediata consiste en tomar logaritmos de la variable dependiente, de laindependiente o de ambas.

    Ejemplo 4.8. Represente consumo y log(pr.tbc).

    Solucin: Este dibujo se consigue transformando la escala de los ejes:

    GrficasyMatriz de diagrama de dispersin

    Seleccionamos pr.tbc y consumoyMarcamos Log eje-xyAceptar

    Visualmente se comprueba que la relacin lineal no es adecuada. Por lo tanto desechamos estatransformacin.

    50

  • Unidad de ConsultoraEstadstica

    Unidad de ConsultoraEstadstica

    Ejemplo 4.9. Dibuje un grfico de log(consumo) y log(pr.tbc).

    Solucin: Procedemos de forma similar al ejemplo anterior.

    GrficasyMatriz de diagrama de dispersin

    Seleccionamos pr.tbc y consumoyMarcamos Log eje-x y Log eje-yyAceptar

    En ambos casos, la distribucin de los puntos no sigue una lnea recta, por lo que no transforma-mos la variable x (pr.tbc).

    La transformacin de Box-Cox efecta un cambio de variable sobre la variable dependiente de laforma: {

    y1 si 6= 0

    log y si = 0(3)

    Los valores de ms usuales son: log y ( = 0),y ( = 1/2), y1/3 ( = 1/3), y2 ( = 2), . . . . Esta

    transformacin debe ser realizada por lnea de comandos. En la ventana de instrucciones, escribi-mos primero library(MASS), ejecutamos; luego boxcox(Modelo1) y ejecutamos (Fig. 10).

    51

  • Unidad de ConsultoraEstadstica

    Unidad de ConsultoraEstadstica

    Figura 10: Transformacin de Box-Cox aplicada al Modelo1.

    Proporciona un intervalo de valores vlidos para (Fig. 11). De entre este intervalo, escogeremosaquellos ms naturales: 0, 1/2, 1/3, 2/3, 1, 3/2, etc. En este caso determinamos que = 0,5,que equivale transformar la variable consumo mediante su raz cuadrada. Calculamos esta nuevavariable raiz.consumo tal como como indica la Fig. 12.

    Figura 11: Estimacin del parmetro de Box-Cox.

    > acero$raiz.consumo

  • Unidad de ConsultoraEstadstica

    Unidad de ConsultoraEstadstica

    Figura 12: Transformacin de Box-Cox de la variable consumo.

    Solucin: El grfico de dispersin se realiza mediante:

    GrficasyMatriz de diagrama de dispersin

    Seleccionamos pr.tbc y raiz.consumoyIdentificar ObservacionesyAceptar

    > scatterplot(raiz.consumo ~ pr.tbc, reg.line = lm, smooth = TRUE,+ labels = FALSE, boxplots = "xy", span = 0.5, data = acero)

    53

  • Unidad de ConsultoraEstadstica

    Unidad de ConsultoraEstadstica

    Ejemplo 4.11. Determine el modelo que relaciona raiz.consumo con la pr.tbc. Llame a estemodelo Modelo2.

    Solucin: Los coeficientes se calculan estimando un modelo lineal:

    EstadsticosyAjuste de modelosyModelo lineal

    Nombre del modelo: Modelo2yFrmula del. . .raiz.consumopr.tbcyAceptar

    > Modelo2 summary(Modelo2)

    Call:lm(formula = raiz.consumo ~ pr.tbc, data = acero)

    Residuals:Min 1Q Median 3Q Max-9.1509 -1.8850 0.2068 2.2383 11.6080

    Coefficients:Estimate Std. Error t value Pr(>|t|)

    (Intercept) 1.112e+01 7.946e-01 13.99

  • Unidad de ConsultoraEstadstica

    Unidad de ConsultoraEstadstica

    Aceptar

    > bptest(raiz.consumo ~ pr.tbc, varformula =+ ~fitted.values(Modelo2),+ studentize = FALSE, data = acero)

    Breusch-Pagan test

    data: raiz.consumo ~ pr.tbcBP = 1.1211, df = 1, p-value = 0.2897

    Como el p-valor (0,2897) supera a 0,05, el modelo es homocedstico.

    Ejemplo 4.13. El ajuste lineal casa bien con los datos?

    Solucin: Para comprobar si tenemos que aumentar el grado en el modelo procedemos del siguientemodo:

    ModelosyDiagnsticos numricosyTest Reset de no linealidad. . .

    Desmarcar 3 cubosyAceptar

    > resettest(raiz.consumo ~ pr.tbc, power = 2, type = "regressor",+ data = acero)

    RESET test

    data: raiz.consumo ~ pr.tbcRESET = 1.0532, df1 = 1, df2 = 114, p-value = 0.3070

    Como el p-valor (0,3070) es mayor que 0,05 no se rechaza la hiptesis nula y no se necesitaincrementar el grado del modelo.

    Ejemplo 4.14. Hay observaciones atpicas?

    55

  • Unidad de ConsultoraEstadstica

    Unidad de ConsultoraEstadstica

    Solucin: Realizamos el test de valores atpicos de Bonferroni.

    ModelosyDiagnsticos numricosyTest de valores atpicos de Bonferro-

    ni. . .

    > outlier.test(Modelo2)

    max|rstudent| = 3.943655, degrees of freedom = 114,unadjusted p = 0.0001389735, Bonferroni p = 0.0162599

    Observation: 107

    Podemos ver que la observacin 107 sigue siendo atpica. Verificamos si distorsiona el modelodibujando las bandas de confianza.

    ModelosyGrficasyGrficas de comparacin de. . .

    Bandas de confianza simuladasyAceptamos

    > qq.plot(Modelo2, simulate = TRUE, labels = FALSE)

    56

  • Unidad de ConsultoraEstadstica

    Unidad de ConsultoraEstadstica

    4.4. Regresin lineal mltiple

    La regresin lineal mltiple generaliza el modelo anterior al incorporar dos o ms variables depen-dientes.

    Ejemplo 4.15. Estime la raiz.consumo en funcin de las diferentes producciones. Llame a estemodelo Modelo3.

    Solucin: Intervienen como variable dependiente raiz.consumo y como variables independientespr.ca, pr.cc, pr.galv1, pr.galv2, pr.pint y pr.tbc.

    EstadsticosyAjuste de modelosyModelo lineal

    Nombre del modelo: Modelo3yFormula del. . .raiz.consumopr.ca+ pr.cc + pr.galv1 + pr.galv2 +pr.pint + pr.tbcyAceptar

    > Modelo3 summary(Modelo3)

    Call:lm(formula = raiz.consumo ~ pr.ca + pr.cc + pr.galv1 + pr.galv2 +pr.pint + pr.tbc, data = acero)

    Residuals:Min 1Q Median 3Q Max-6.4825 -1.3144 0.1286 1.6126 7.3293

    Coefficients:Estimate Std. Error t value Pr(>|t|)

    (Intercept) 7.679e+00 7.886e-01 9.737 < 2e-16 ***pr.ca 1.845e-04 1.431e-03 0.129 0.897614pr.cc 2.387e-03 6.922e-04 3.448 0.000801 ***pr.galv1 3.756e-03 7.316e-04 5.135 1.23e-06 ***pr.galv2 1.523e-03 3.927e-04 3.880 0.000178 ***pr.pint 1.055e-03 8.305e-04 1.271 0.206469pr.tbc 1.214e-03 7.602e-05 15.975 < 2e-16 ***---Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 . 0.1 1

    Residual standard error: 2.415 on 110 degrees of freedomMultiple R-squared: 0.7831, Adjusted R-squared: 0.7713F-statistic: 66.2 on 6 and 110 DF, p-value: < 2.2e-16

    57

  • Unidad de ConsultoraEstadstica

    Unidad de ConsultoraEstadstica

    Al haber coeficientes no significativos (sin estrellas) este modelo incorpora demasiadas variablesindependientes y se ha de simplificar.

    Ejemplo 4.16. Simplifique el modelo anterior.

    Solucin: La depuracin del modelo se realiza del siguiente modo:

    ModelosySeleccin de modelos paso a paso

    Marcamos las pestaas atrs/adelante yBICyAceptamos

    Start: AIC=213.1raiz.consumo ~ pr.ca + pr.cc + pr.galv1 + pr.galv2 + pr.pint +pr.tbc

    Df Sum of Sq RSS AIC- pr.ca 1 0.10 641.65 211.12- pr.pint 1 9.42 650.98 212.81 641.56 213.10- pr.cc 1 69.34 710.90 223.11- pr.galv2 1 87.80 729.36 226.11- pr.galv1 1 153.76 795.32 236.24- pr.tbc 1 1488.44 2129.99 351.50

    Step: AIC=211.12raiz.consumo ~ pr.cc + pr.galv1 + pr.galv2 + pr.pint + pr.tbc

    Df Sum of Sq RSS AIC- pr.pint 1 9.41 651.06 210.82 641.65 211.12- pr.cc 1 71.52 713.18 221.48- pr.galv2 1 87.87 729.53 224.14- pr.galv1 1 158.47 800.13 234.94- pr.tbc 1 1488.34 2129.99 349.50

    Step: AIC=210.82raiz.consumo ~ pr.cc + pr.galv1 + pr.galv2 + pr.tbc

    Df Sum of Sq RSS AIC 651.06 210.82- pr.cc 1 85.49 736.55 223.26- pr.galv2 1 91.33 742.39 224.18- pr.galv1 1 188.34 839.40 238.55- pr.tbc 1 1480.14 2131.20 347.57

    58

  • Unidad de ConsultoraEstadstica

    Unidad de ConsultoraEstadstica

    Esta salida muestra el modelo simplificado (raiz.consumopr.cc + pr.galv1 + pr.galv2+ pr.tbc). Las variables eliminadas (pr.ca, pr.pint) no influyen significativamente en el con-sumo energtico cuando operan las otras producciones.

    Ejemplo 4.17. Estime el modelo simpiflicado anterior y llmelo Modelo4.

    Solucin: Seguimos los siguientes pasos:

    EstadsticosyAjuste de modelosyModelo lineal

    Nombre del modelo: Modelo4yFormula del. . .raiz.consumopr.cc+ pr.galv1 + pr.galv2 + pr.tbcyAceptar

    Call:lm(formula = raiz.consumo ~ pr.cc + pr.galv1 + pr.galv2 + pr.tbc,data = acero)

    Residuals:Min 1Q Median 3Q Max-6.56830 -1.32935 -0.08463 1.73213 7.79563

    Coefficients:Estimate Std. Error t value Pr(>|t|)

    (Intercept) 7.773e+00 7.548e-01 10.299 < 2e-16 ***pr.cc 2.537e-03 6.617e-04 3.835 0.000208 ***pr.galv1 3.991e-03 7.011e-04 5.692 1.02e-07 ***pr.galv2 1.547e-03 3.903e-04 3.964 0.000130 ***pr.tbc 1.209e-03 7.579e-05 15.957 < 2e-16 ***---Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 . 0.1 1

    Residual standard error: 2.411 on 112 degrees of freedomMultiple R-squared: 0.7799, Adjusted R-squared: 0.772F-statistic: 99.22 on 4 and 112 DF, p-value: < 2.2e-16

    En este modelo slo intervienen variables con coeficientes significativos. El modelo ajustado ad-quiere la siguiente expresin:

    raiz.consumo = 7,773+2,537 103 pr.cc+3,991 103 pr.galv1+1,547 103 pr.galv2+1,209 103 pr.tbc

    Una vez estimamos el modelo verificamos si ajusta bien o no los datos.

    Ejemplo 4.18. Determine la bondad del modelo Modelo4.

    59

  • Unidad de ConsultoraEstadstica

    Unidad de ConsultoraEstadstica

    Solucin: Para tal menester seguimos los siguientes pasos:

    1. Estudio de la colinealidad.

    ModelosyDiagnsticos numricosyFactores de inflaccin de. . .

    > vif(Modelo4)

    pr.cc pr.galv1 pr.galv2 pr.tbc1.123584 1.100332 1.014570 1.033500

    Si alguno de los valores supera el valor 4 implica que hay colinealidad (sobra alguna variable).En este modelo todos los valores no minoran dicha cantidad y por lo tanto, no hay colinealidad.

    2. Comprobemos ahora si el modelo es homocedstico mediante el test de Breusch-Pagan.

    ModelosyDiagnsticos numricosyTest de Breusch-Pagan

    Aceptar

    > bptest(raiz.consumo ~ pr.cc + pr.galv1 + pr.galv2 + pr.tbc,+ varformula = ~fitted.values(Modelo4),+ studentize = FALSE, data = acero)

    Breusch-Pagan test

    data: raiz.consumo ~ pr.cc + pr.galv1 + pr.galv2 + pr.tbcBP = 0.904, df = 1, p-value = 0.3417

    Como el p-valor (0,3417) supera 0,05 el modelo pasa este test.

    60

  • Unidad de ConsultoraEstadstica

    Unidad de ConsultoraEstadstica

    3. Verifiquemos si el ajuste lineal es suficiente o hay que aumentar el grado del modelo.

    ModelosyDiagnsticos numricosyTest Reset de no linealidad. . .

    Desmarcar 3 cubosyAceptar

    > resettest(raiz.consumo ~ pr.cc + pr.galv1 + pr.galv2 + pr.tbc,+ power = 2, type = "regressor", data = acero)

    RESET test

    data: raiz.consumo ~ pr.cc + pr.galv1 + pr.galv2 + pr.tbcRESET = 1.2025, df1 = 4, df2 = 108, p-value = 0.314

    Como el p-valor (0,314) es mayor que no se rechaza la hiptesis nula. No se necesitaincrementar el grado del modelo.

    4. Por ltimo veamos la presencia de observaciones atpicas que distorsionen el modelo.

    ModelosyDiagnsticos numricosyTest de valores atpicos de Bonferro-

    ni. . .

    > outlier.test(Modelo4)

    max|rstudent| = 3.494116, degrees of freedom = 111,unadjusted p = 0.0006843334, Bonferroni p = 0.08006701

    Observation: 107

    La observacin 107 sigue siendo atpica. . .

    5. Los test anteriores se pueden analizar grficamente:

    61

  • Unidad de ConsultoraEstadstica

    Unidad de ConsultoraEstadstica

    ModelosyGrficasyGrficas bsicas de diagnstico. . .

    > oldpar plot(Modelo4)> par(oldpar)

    6. Clculo de intervalo de confianza para las obseraciones atpicas. Nuestro inters se centra enla observacin 107 (si bien la distancia de Cook indica que apenas influye en el anlisis).

    ModelosyGrficasyGrficas de comparacin de. . .

    Bandas de confianza simuladasyAceptamos

    > qq.plot(Modelo4, simulate = TRUE, labels = FALSE)

    62

  • Unidad de ConsultoraEstadstica

    Unidad de ConsultoraEstadstica

    Como la observacin 107 queda dentro de las bandas de confianza podemos concluir queeste modelo ajusta razonablemente bien los datos.

    63

  • Unidad de ConsultoraEstadstica

    Unidad de ConsultoraEstadstica

    5. Anlisis de la varianza

    5.1. Experimentos factoriales. Contrastes ortogonales y no ortogonales

    El anlisis de la varianza se convierte en la tcnica ms habitual cuando las variables explicativasson categricas y cuantitativa la variable explicada. Las variables independientes se denominanfactores, constan de dos o ms niveles y pueden interactuar entre ellas. Esta tcnica contrastamediante el anlisis de la variabilidad si los valores medios de la variable dependiente difiere segnlas diferentes combinaciones de factores e interacciones.

    Los experimentos factoriales pueden complicarse tanto como se deseen e incorporar efectosaleatorios, multinivel, jerrquicos, anidados, fijos, etc. Existe una amplia gama de situaciones quese presentan de forma habitual al realizar un experimento o anlisis.

    Si bien el acercamiento bsico al anlisis de la varianza proviene de los contrastes de mediaspara dos o ms niveles, el enfoque ms correcto nace desde el anlisis de regresin. El anlisis dela varianza particulariza el modelo de regresin lineal cuando las variables independientes son cua-litativas y la independiente cuantitativa. Considerar esta situacin desde los modelos de regresinpermite al investigador un estudio completo, detallado y sistematizado del experimento factorial.

    Cuando en los modelos de regresin intervienen variables independientes cualitativas, el abordajese realiza mediante dos tipos de contrastes: los denominados a priori y los contrastes a posterio-ri. Si bien a nivel matemtico se establece un isomorfismo entre ambos enfoques por lo que sonequivalentes, a nivel prctico el investigador debe optar por uno de esos contrastes.

    Los contrastes ortogonales, o a priori, se utilizan habitualmente en el mbito de las CienciasExperimentales. Los factores intervienen en el modelo de forma controlada (por ejemplo, a un ratnle inyectamos 100 gramos del compuesto I y a otro roedor 200 gramos) y se suele denominarDiseo de Experimentos. Las principales ventajas de los contrastes ortogonales residen en que elorden de los factores no influye en el modelo, ste adopta una nica expresin (ortogonal) y resultafcil detectar qu factores o niveles influyen o no. El principal inconveniente consiste en que loscoeficientes del modelo han de interpretarse con precaucin.

    En el otro extremo aparecen los contrastes no ortogonales, o a posteriori, muy usuales en lasCiencias Sociales. Estos estudios no disponen de condiciones controladas desde donde puedanobservar las reacciones