definiciones básicas de regresión
DESCRIPTION
Definiciones Básicas de RegresiónTRANSCRIPT
UNIVERSIDAD DE ORIENTENÚCLEO DE ANZOÁTEGUI
EXTENSIÓN CANTAURACONTADURÍA PÚBLICA
Integrantes: Salazar, Tulmary C.I.: 25.427.464 Díaz, Dayana C.I.: 21.329.958 García, Úrsula C.I.: 25.810.134 Quijada, Luis C.I.: 25.428.455
TEORÍA DE
REGRESIÓN Y
CORRELACIÓN
Julio, 2015
ÍNDICE
Pág.
INTRODUCCIÓN 3
DEFINICIONES BÁSICAS DE REGRESIÓN 4
SUPUESTOS PARA EL ANÁLISIS DE REGRESIÓN 4
PROCEDIMIENTOS PARA LLEVAR A CABO UN ANÁLISIS
DE REGRESIÓN 6
DEFINICIONES BÁSICAS DE CORRELACIÓN 7
ESTABLECER EL COEFICIENTE DE CORRELACIÓN
ENTRE VARIABLES 10
UTILIZAR PAQUETES ESTADÍSTICOS PARA LLEVAR A CABO
PRONÓSTICOS DE REGRESIÓN 11
APLICACIÓN DE LA PRUEBA DE HIPÓTESIS PARA “TIPO B” 12
CONCLUSIÓN 15
BIBLIOGRAFÍA 16
2
INTRODUCCIÓN
Parte de la Estadística, corresponde a la Estadística Inferencial y dentro de ella
los capítulos de correlación y regresión son muy usados en la Investigación
Científica, una herramienta muy útil cuando se trata de relacionar dos o más
variables, relacionadas entre sí, como por ejemplo. nivel de hemoglobina y embarazo
en el ámbito de las Ciencias de la Salud, la Correlación implica el grado de
dependencia de una variable respecto a otra y la Regresión es otra técnica que ayuda
en la investigación de la salud Psicología costos de una Empresa etc.
El análisis de correlación lineal (ACL) y el análisis de regresión lineal (ARL)
forman la pareja de técnicas más “populares” para estudiar la existencia de una
relación lineal entre dos variables de naturaleza cuantitativa. El ACL estudia la
intensidad y la dirección de la relación lineal entre dos variables de naturaleza
cuantitativa. ¿En qué medida y dirección están relacionados de modo lineal el gasto
en publicidad y las ventas de una empresa? El ARL ayuda en la predicción de los
valores de una variable cuantitativa (llamada dependiente) cuando se conoce el valor
de otra variable cuantitativa (llamada independiente) con la que tiene una relación de
tipo lineal. ¿Cuánto venderá una empresa que gasta 83.000 euros en publicidad?
En la presente investigación, se profundizará más en dichos conceptos y sus
derivados.
3
DEFINICIONES BÁSICAS DE REGRESIÓN
Análisis de regresión: En términos generales, el análisis de Regresión trata sobre
el estudio de la dependencia de un fenómeno económico respecto de una o varias
variables explicativas, con el objetivo de explorar o cuantificar la media o valor
promedio poblacional de la primera a partir de un conjunto de valores conocidos o
fijos de la/s segunda/s.
Regresión: Estudia y predice el valor promedio de una variable sobre la base de
valores fijos de otras variables. Existe una asimetría en el tratamiento que se les da a
las variables. La variable dependiente es aleatoria o estocástica: su valor depende de
una distribución de probabilidades. Las variables independientes tienes valores fijos
en muestras repetidas.
Correlación: Su objetivo es medir el grado de asociación lineal entre dos
variables. El tratamiento de las variables es simétrico: No se distinguen entre
variable dependiente y variable explicativa. Se asume que las dos variables son
simétricas.
Diagrama de dispersión: Un diagrama de dispersión es un gráfico en el que una
de las variables (Xi) se coloca en el eje de las abscisas y la otra (Yi) en el eje de las
ordenadas y los pares de puntuaciones de cada sujeto (xi, yi) se representan como una
nube de puntos.
SUPUESTOS PARA EL ANÁLISIS DE REGRESIÓN
Como el propósito del modelo no es solo estimar B1 y B2 sino hacer inferencia
sobre los verdaderos B1 y B2, entonces se hace necesario establecer los siguientes
supuestos:
4
El modelo de regresión es lineal en los parámetros.
.
Las variables deben ser lineales en sus valores originales o después de alguna
transformación adecuada.
El valor esperado de la perturbación aleatoria debe ser cero para cualquier
observación para toda i
La varianza de las perturbaciones es constante – homoscedasticidad (IGUAL
VARIANZA). para toda i
Independencia o no auto correlación entre las perturbaciones
Dados dos valores cualesquiera de X, xi xj para i ¹ j, la correlación entre Ui, Uj es
cero. para cualquier i ¹ j
Independencia entre Ui y Xj para toda i y
j, esto para separar el efecto sobre Y de U y X
Los valores de X son fijos en muestreos repetidos es decir son no estocásticos.
Debe disponerse de una información estadística suficientemente amplia sobre el
conjunto de variables observables implicadas en el modelo. Como requisito
mínimo para que pueda determinarse una solución se exige que el número de datos
(n) debe ser superior al número de parámetros (k) (n>k) se habla para datos
anuales mínimo 15.
5
En modelos de regresión múltiples se necesita que no haya relación lineal perfecta
entre las variables independientes o explicativas, a esto se le llama no
multicolinealidad. X de n x k con rango k (rango completo).
Normalidad Ui esta normalmente distribuido para toda i
Lo anterior implica que: Estimados los a partir de datos
muestrales, se requiere de alguna medida para verificar la confiabilidad o precisión de
los estimadores y En estadística la precisión de un valor estimado es medida
por su desviación estándar o error estándar. Desarrollando una demostración
matemática se puede concluir que:
El estimador de mínimos cuadrados de la verdadera varianza de los errores es:
6
PROCEDIMIENTOS PARA LLEVAR A CABO UN ANÁLISIS DE
REGRESIÓN
Los análisis de regresión pueden ser de mucha ayuda para analizar una gran
cantidad de información y para realizar previsiones y pronósticos.
Las siguientes instrucciones sirven para ejecutar un análisis de regresión en
Microsoft Excel.
Paso 1: Ingresar los datos en la hoja de cálculo que a evaluar. Se debe tener al
menos dos columnas de números que representarán el rango de datos X e Y. El
dato Y representa la variable dependiente mientas que el dato X es la variable
independiente.
Paso 2: Abrir la herramienta de análisis de regresión. Presionar "Análisis de
datos" y de la lista de herramientas elegir "Regresión".
Paso 3: Definir el rango de datos Y. En la casilla "Análisis de regresión", hacer
clic en la casilla de "Rango de datos Y". Luego hacer clic y arrastrar el cursor en el
campo de los datos Y para elegir todos los números que se quieren analizar.
Aparecerá una fórmula que se ha ingresado en el espacio de los datos Y.
Paso 4: Para el rango de los datos X, repetir el paso anterior.
Paso 5: Elegir dónde aparecerá el resultado. Se puede elegir un rango
particular de resultados o enviar los datos a una nueva hoja de cálculo.
Paso 6: Hacer clic en "OK". Una compilación del resultado de la regresión
aparecerá donde se haya elegido.
DEFINICIONES BÁSICAS DE CORRELACIÓN
7
La correlación estadística constituye una técnica estadística que indica si dos
variables están relacionadas o no. Por ejemplo, considerando que las variables son el
ingreso familiar y el gasto familiar. Se sabe que los aumentos de ingresos y gastos
disminuyen juntos. Por lo tanto, están relacionados en el sentido de que el cambio en
cualquier variable estará acompañado por un cambio en la otra variable.
De la misma manera, los precios y la demanda de un producto son variables
relacionadas; cuando los precios aumentan la demanda tenderá a disminuir y
viceversa.
Si el cambio en una variable está acompañado de un cambio en la otra, entonces
se dice que las variables están correlacionadas. Por lo tanto, podemos decir que el
ingreso familiar y gastos familiares y el precio y la demanda están correlacionados.
Relación Entre las Variables La correlación puede decir algo acerca de la
relación entre las variables. Se utiliza para entender:
Si la relación es positiva o negativa
La fuerza de la relación.
La correlación es una herramienta poderosa que brinda piezas vitales de
información. En el caso del ingreso familiar y el gasto familiar, es fácil ver que
ambos suben o bajan juntos en la misma dirección. Esto se denomina correlación
positiva. En caso del precio y la demanda, el cambio se produce en la dirección
opuesta, de modo que el aumento de uno está acompañado de un descenso en el otro.
Esto se conoce como correlación negativa.
Coeficiente de Correlación La correlación estadística es medida por lo que se
denomina coeficiente de correlación (r). Su valor numérico varía de 1,0 a -1,0. Nos
indica la fuerza de la relación.
8
En general, r> 0 indica una relación positiva y r <0 indica una relación negativa,
mientras que r = 0 indica que no hay relación (o que las variables son independientes
y no están relacionadas). Aquí, r = 1,0 describe una correlación positiva perfecta y r =
-1,0 describe una correlación negativa perfecta.
Cuanto más cerca estén los coeficientes de +1,0 y -1,0, mayor será la fuerza de la
relación entre las variables. Como norma general, las siguientes directrices sobre la
fuerza de la relación son útiles (aunque muchos expertos podrían disentir con la
elección de los límites).
Valor de r Fuerza de relación
-1,0 A -0,5 o 1,0 a 0,5 Fuerte
-0,5 A -0,3 o 0,3 a 0,5 Moderada
-0,3 A -0,1 o 0,1 a 0,3 Débil
-0,1 A 0,1 Ninguna o muy débil
La correlación es solamente apropiada para examinar la relación entre datos
cuantificables significativos (por ejemplo, la presión atmosférica o la temperatura) en
vez de datos categóricos, tales como el sexo, el color favorito, etc.
Desventajas Si bien 'r' (coeficiente de correlación) es una herramienta poderosa,
debe ser utilizada con cuidado. Los coeficientes de correlación más utilizados sólo
miden una relación lineal. Por lo tanto, es perfectamente posible que, si bien existe
una fuerte relación no lineal entre las variables, r está cerca de 0 o igual a 0. En tal
caso, un diagrama de dispersión puede indicar aproximadamente la existencia o no de
una relación no lineal.
Hay que tener cuidado al interpretar el valor de ‘r’. Por ejemplo, se podría
calcular ‘r’ entre el número de calzado y la inteligencia de las personas, la altura y los
9
ingresos. Cualquiera sea el valor de ‘r’, no tiene sentido y por lo tanto es llamado
correlación de oportunidad o sin sentido.
‘R’ no debe ser utilizado para decir algo sobre la relación entre causa y efecto.
Dicho de otra manera, al examinar el valor de ‘r’ podríamos concluir que las variables
X e Y están relacionadas. Sin embargo, el mismo valor de ‘r no dice si X influencia a
Y o al revés. La correlación estadística no debe ser la herramienta principal para
estudiar la causalidad, por el problema con las terceras variables.
ESTABLECER EL COEFICIENTE DE CORRELACIÓN ENTRE
VARIABLES
Para poder contar con un indicador que permita, por un lado establecer la
covariación conjunta de dos variables, y por otro, que tenga la universalidad
suficiente para poder establecer comparaciones entre distintos casos, se utiliza el
coeficiente de correlación (lineal, de Pearson).La correlación es, pues una medida de
covariación conjunta que nos informa del sentido de esta y de su relevancia, que está
acotada y permite la comparación entre distintos casos.
El coeficiente de correlación entre dos variables puede definirse como la
covarianza existente entre sus dos variables tipificadas y tiene por expresión de
cálculo:
Si r < 0 Hay correlación negativa: las dos variables se correlacionan en sentido
inverso. A valores altos de una de ellas le suelen corresponder valor bajos de la otra y
viceversa. Cuánto más próximo a -1 esté el coeficiente de correlación más patente
será esta covariación extrema .Si r= -1 se hablara de correlación negativa perfecta lo
que supone una determinación absoluta entre las dos variables (en sentido inverso):
10
Existe una relación funcional perfecta entre ambas (una relación lineal de pendiente
negativa).
Si r > 0 Hay correlación positiva: las dos variables se correlacionan en sentido
directo .A valores altos de una le corresponden valores altos de la otra e igualmente
con los valores bajos. Cuánto más próximo a +1 esté el coeficiente de correlación
más patente será esta covariación .Si r = 1 hablaremos de correlación positiva
perfecta lo que supone una determinación absoluta entre las dos variables (en sentido
directo): Existe una relación lineal perfecta (con pendiente positiva).
Si r = 0 se dice que las variables están incorrelacionadas: no puede establecerse
ningún sentido de covariación.
UTILIZAR PAQUETES ESTADÍSTICOS PARA LLEVAR A CABO
PRONÓSTICOS DE REGRESIÓN
Un paquete estadístico es un programa informático que está especialmente
diseñado para resolver problemas en el área de la estadística, o bien está programado
para resolver problemas de esta área. Existen muchos programas que no son
especialmente estadísticos pero que pueden hacer algunos cálculos aplicables en
estadística aplicada. Estos programas han impulsado y siguen impulsando
enormemente la labor de los investigadores que desean utilizar la estadística como
apoyo en su trabajo.
Los paquetes más sencillos tienen interfaz por ventanas, lo que implica facilidad
de uso y aprendizaje pero un mayor encorsetamiento a la hora de hacer cálculos que
el programa no tenga predefinidos. Los programas más complejos suelen tener la
necesidad de conocer su lenguaje de programación, pero suelen ser mucho más
flexibles al poderse incluir en ellos funciones, tests o contrastes que no traen
instalados por definición.
11
Implementaciones del modelo de regresión en paquetes estadísticos:
SPSS, usando el comando GENLIN
Matlab Statistics Toolbox: funciones “glmfit” y “glmval”.3
Microsoft Excel: a través de extensiones tales como Xpost
SAS: función GENMOD
Stata: procedimiento “poisson”
R: la función glm ()
Ejemplo de ajuste de un modelo de Poisson con R:
El siguiente código muestra cómo ajustar mediante un modelo de regresión de
Poisson un conjunto de datos recopilados por Dobson.4 5
# Construcción de los datos
counts <- c(18,17,15,20,10,20,25,13,12)
outcome <- gl(3,1,9)
treatment <- gl(3,3)
# Ajuste del modelo
glm.D93 <- glm(counts ~ outcome + treatment, family=poisson())
# Resumen del modelo
anova(glm.D93)
summary(glm.D93)
APLICACIÓN DE PRUEBA DE HIPÓTESIS PARA “ERROR TIPO B”
Al evaluar un procedimiento de prueba de hipótesis, es importante examinar la
probabilidad del error tipo II, el cual se denota por B. Esto es:
B = P(error tipo II) = P(aceptar Ho/ Ho es falsa)
12
Para calcular B se debe tener una hipótesis alternativa específica; esto es, debe
tenerse un valor particular del parámetro. Por ejemplo, supóngase que es importante
rechazar la hipótesis nula Ho: µ= 50 cada vez que la rapidez promedio de combustión
m es mayor que 52 cm/s o menor que 48 cm/s. Para ello, puede calcularse la
probabilidad B de un error tipo II para los valores µ = 52 y µ = 48, y utilizar este
resultado para averiguar algo con respecto a la forma en que se desempeñará la
prueba. De manera específica, ¿cómo trabajará el procedimiento de prueba si se desea
detectar, esto es, rechazar Ho, para un valor medio de µ = 52 o µ = 48? Dada la
simetría, sólo es necesario evaluar uno de los dos casos, esto es, encontrar la
probabilidad de aceptar la hipótesis nula Ho: µ = 50 cuando el valor verdadero es µ =
52.
Para hacer este cálculo se tendrá un tamaño de muestra de 10 y una desviación
estándar de la población de 2.5 cm/s. Además se evaluará el error tipo II con un nivel
de significancia de 0.06.
Ho: µ = 50
H1: µ ¹ 50
Se trata de un ensayo bilateral por lo que se tendrá que calcular el valor del
estadístico L x de la siguiente manera:
Para facilitar los cálculos se redondearán estos números a 48.5 y 51.5
13
Para poder comprender mejor el cálculo del error tipo II se delimitará el área de
la región de aceptación con dos líneas ya que es bilateral y se evaluará la probabilidad
de caer en esa área cuando la media tiene un valor de 52 y de 48.
Como se puede observar, en cada cálculo del valor B se tuvieron que evaluar los
dos valores de z. En el primer cálculo de B se tiene un valor de z=-4.43, esto quiere
decir que no existe área del lado izquierdo del 48.5, por lo que b sólo será el área que
corresponda a la z=-0.63. Lo mismo pasa con el segundo cálculo de B. Como las
medias de 52 y 48 son equidistantes del 50 por este motivo los valores del error tipo
II son los mismos. En caso que no estén equidistantes, se tienen que calcular por
separado y calcular los valores correspondientes de z porque en ocasiones se tiene un
área que no está dentro de la región de aceptación, la cual no se tiene que tomar en
cuenta para evaluar al error tipo II. Entre más se aleja el valor verdadero de la media
de la media de la hipótesis nula, menor es la probabilidad del error tipo II para un
14
tamaño de muestra y nivel de significancia dadas. A medida que el tamaño de la
muestra aumenta la probabilidad de cometer el error tipo II disminuye.
CONCLUSIÓN
El análisis de correlación es un grupo de técnicas estadísticas usadas para medir
la fuerza de la asociación entre dos variables. Un diagrama de dispersión es una
gráfica que representa la relación entre dos variables. La variable dependiente es la
variable que se predice o calcula. La variable independiente proporciona las bases
para el cálculo. Es la variable de predicción.
El coeficiente de correlación, por su parte, es una medida de la intensidad de la
relación lineal entre dos variables. Requiere datos de nivel de razón. Puede tomar
cualquier valor de -1.00 a 1.00. Los valores de -1.00 o 1.00 indican la correlación
perfecta y fuerte. Los valores cerca de 0.0 indican la correlación débil. Los valores
negativos indican una relación inversa y los valores positivos indican una relación
directa.
Estas técnicas son empleadas para infinidad de propósitos en la estadística
moderna y representan herramientas valiosas para la evaluación de diferentes tipos de
hipótesis y pruebas.
15
BIBLIOGRAFÍA
Berenson, M. y Levine, D (1.996). Estadística básica en Administración. México:
Glass, G. y Sannley, J.(1.992). Métodos Estadísticos Aplicados a las Ciencias Sociales. México: Prentice Hall Hispanoamericana.
Kazmier, L. y Díaz, A. (1.993). Estadística Aplicada a la Administración y a la Economía.
Levin, R (1.991). Estadística para Administradores. Colombia: Prentice Hall.
Martinez B., Ciro (2001) Estadística y Muestreo. Segunda Edición. Bogotá. Ecoe.
México: Mc.Graw Hill Explorable.com (May 2, 2009). La Correlación Estadística. Jul 07, 2015 Obtenido de Explorable.com: https://explorable.com/es/la-correlacion-estadistica
Murray, S. (2.000). Estadística México: Mc. Graw Hill.
Webster, A (1.996). Estadística aplicada a la Empresa y a la Economía. España: Irwin.
http://www.uv.es/ceaces/base/descriptiva/coefcorre.htm
16