definiciones básicas de regresión

UNIVERSIDAD DE ORIENTENÚCLEO DE ANZOÁTEGUI

EXTENSIÓN CANTAURACONTADURÍA PÚBLICA

Integrantes: Salazar, Tulmary C.I.: 25.427.464 Díaz, Dayana C.I.: 21.329.958 García, Úrsula C.I.: 25.810.134 Quijada, Luis C.I.: 25.428.455

TEORÍA DE

REGRESIÓN Y

CORRELACIÓN

Julio, 2015

ÍNDICE

Pág.

INTRODUCCIÓN 3

DEFINICIONES BÁSICAS DE REGRESIÓN 4

SUPUESTOS PARA EL ANÁLISIS DE REGRESIÓN 4

PROCEDIMIENTOS PARA LLEVAR A CABO UN ANÁLISIS

DE REGRESIÓN 6

DEFINICIONES BÁSICAS DE CORRELACIÓN 7

ESTABLECER EL COEFICIENTE DE CORRELACIÓN

ENTRE VARIABLES 10

UTILIZAR PAQUETES ESTADÍSTICOS PARA LLEVAR A CABO

PRONÓSTICOS DE REGRESIÓN 11

APLICACIÓN DE LA PRUEBA DE HIPÓTESIS PARA “TIPO B” 12

CONCLUSIÓN 15

BIBLIOGRAFÍA 16

2

INTRODUCCIÓN

Parte de la Estadística, corresponde a la Estadística Inferencial y dentro de ella

los capítulos de correlación y regresión son muy usados en la Investigación

Científica, una herramienta muy útil cuando se trata de relacionar dos o más

variables, relacionadas entre sí, como por ejemplo. nivel de hemoglobina y embarazo

en el ámbito de las Ciencias de la Salud, la Correlación implica el grado de

dependencia de una variable respecto a otra y la Regresión es otra técnica que ayuda

en la investigación de la salud Psicología costos de una Empresa etc.

El análisis de correlación lineal (ACL) y el análisis de regresión lineal (ARL)

forman la pareja de técnicas más “populares” para estudiar la existencia de una

relación lineal entre dos variables de naturaleza cuantitativa. El ACL estudia la

intensidad y la dirección de la relación lineal entre dos variables de naturaleza

cuantitativa. ¿En qué medida y dirección están relacionados de modo lineal el gasto

en publicidad y las ventas de una empresa? El ARL ayuda en la predicción de los

valores de una variable cuantitativa (llamada dependiente) cuando se conoce el valor

de otra variable cuantitativa (llamada independiente) con la que tiene una relación de

tipo lineal. ¿Cuánto venderá una empresa que gasta 83.000 euros en publicidad?

En la presente investigación, se profundizará más en dichos conceptos y sus

derivados.

3

DEFINICIONES BÁSICAS DE REGRESIÓN

Análisis de regresión: En términos generales, el análisis de Regresión trata sobre

el estudio de la dependencia de un fenómeno económico respecto de una o varias

variables explicativas, con el objetivo de explorar o cuantificar la media o valor

promedio poblacional de la primera a partir de un conjunto de valores conocidos o

fijos de la/s segunda/s.

Regresión: Estudia y predice el valor promedio de una variable sobre la base de

valores fijos de otras variables. Existe una asimetría en el tratamiento que se les da a

las variables. La variable dependiente es aleatoria o estocástica: su valor depende de

una distribución de probabilidades. Las variables independientes tienes valores fijos

en muestras repetidas.

Correlación: Su objetivo es medir el grado de asociación lineal entre dos

variables. El tratamiento de las variables es simétrico: No se distinguen entre

variable dependiente y variable explicativa. Se asume que las dos variables son

simétricas.

Diagrama de dispersión: Un diagrama de dispersión es un gráfico en el que una

de las variables (Xi) se coloca en el eje de las abscisas y la otra (Yi) en el eje de las

ordenadas y los pares de puntuaciones de cada sujeto (xi, yi) se representan como una

nube de puntos.

SUPUESTOS PARA EL ANÁLISIS DE REGRESIÓN

Como el propósito del modelo no es solo estimar B1 y B2 sino hacer inferencia

sobre los verdaderos B1 y B2, entonces se hace necesario establecer los siguientes

supuestos:

4

El modelo de regresión es lineal en los parámetros.

.

Las variables deben ser lineales en sus valores originales o después de alguna

transformación adecuada.

El valor esperado de la perturbación aleatoria debe ser cero para cualquier

observación para toda i

La varianza de las perturbaciones es constante – homoscedasticidad (IGUAL

VARIANZA). para toda i

Independencia o no auto correlación entre las perturbaciones

Dados dos valores cualesquiera de X, xi xj para i ¹ j, la correlación entre Ui, Uj es

cero. para cualquier i ¹ j

Independencia entre Ui y Xj para toda i y

j, esto para separar el efecto sobre Y de U y X

Los valores de X son fijos en muestreos repetidos es decir son no estocásticos.

Debe disponerse de una información estadística suficientemente amplia sobre el

conjunto de variables observables implicadas en el modelo. Como requisito

mínimo para que pueda determinarse una solución se exige que el número de datos

(n) debe ser superior al número de parámetros (k) (n>k) se habla para datos

anuales mínimo 15.

5

En modelos de regresión múltiples se necesita que no haya relación lineal perfecta

entre las variables independientes o explicativas, a esto se le llama no

multicolinealidad. X de n x k con rango k (rango completo).

Normalidad Ui esta normalmente distribuido para toda i

Lo anterior implica que: Estimados los a partir de datos

muestrales, se requiere de alguna medida para verificar la confiabilidad o precisión de

los estimadores y En estadística la precisión de un valor estimado es medida

por su desviación estándar o error estándar. Desarrollando una demostración

matemática se puede concluir que:

El estimador de mínimos cuadrados de la verdadera varianza de los errores es:

6

PROCEDIMIENTOS PARA LLEVAR A CABO UN ANÁLISIS DE

REGRESIÓN

Los análisis de regresión pueden ser de mucha ayuda para analizar una gran

cantidad de información y para realizar previsiones y pronósticos.

Las siguientes instrucciones sirven para ejecutar un análisis de regresión en

Microsoft Excel.

Paso 1: Ingresar los datos en la hoja de cálculo que a evaluar. Se debe tener al

menos dos columnas de números que representarán el rango de datos X e Y. El

dato Y representa la variable dependiente mientas que el dato X es la variable

independiente.

Paso 2: Abrir la herramienta de análisis de regresión. Presionar "Análisis de

datos" y de la lista de herramientas elegir "Regresión".

Paso 3: Definir el rango de datos Y. En la casilla "Análisis de regresión", hacer

clic en la casilla de "Rango de datos Y". Luego hacer clic y arrastrar el cursor en el

campo de los datos Y para elegir todos los números que se quieren analizar.

Aparecerá una fórmula que se ha ingresado en el espacio de los datos Y.

Paso 4: Para el rango de los datos X, repetir el paso anterior.

Paso 5: Elegir dónde aparecerá el resultado. Se puede elegir un rango

particular de resultados o enviar los datos a una nueva hoja de cálculo.

Paso 6: Hacer clic en "OK". Una compilación del resultado de la regresión

aparecerá donde se haya elegido.

DEFINICIONES BÁSICAS DE CORRELACIÓN

7

La correlación estadística constituye una técnica estadística que indica si dos

variables están relacionadas o no. Por ejemplo, considerando que las variables son el

ingreso familiar y el gasto familiar. Se sabe que los aumentos de ingresos y gastos

disminuyen juntos. Por lo tanto, están relacionados en el sentido de que el cambio en

cualquier variable estará acompañado por un cambio en la otra variable.

De la misma manera, los precios y la demanda de un producto son variables

relacionadas; cuando los precios aumentan la demanda tenderá a disminuir y

viceversa.

Si el cambio en una variable está acompañado de un cambio en la otra, entonces

se dice que las variables están correlacionadas. Por lo tanto, podemos decir que el

ingreso familiar y gastos familiares y el precio y la demanda están correlacionados.

Relación Entre las Variables La correlación puede decir algo acerca de la

relación entre las variables. Se utiliza para entender:

Si la relación es positiva o negativa

La fuerza de la relación.

La correlación es una herramienta poderosa que brinda piezas vitales de

información. En el caso del ingreso familiar y el gasto familiar, es fácil ver que

ambos suben o bajan juntos en la misma dirección. Esto se denomina correlación

positiva. En caso del precio y la demanda, el cambio se produce en la dirección

opuesta, de modo que el aumento de uno está acompañado de un descenso en el otro.

Esto se conoce como correlación negativa.

Coeficiente de Correlación La correlación estadística es medida por lo que se

denomina coeficiente de correlación (r). Su valor numérico varía de 1,0 a -1,0. Nos

indica la fuerza de la relación.

8

En general, r> 0 indica una relación positiva y r <0 indica una relación negativa,

mientras que r = 0 indica que no hay relación (o que las variables son independientes

y no están relacionadas). Aquí, r = 1,0 describe una correlación positiva perfecta y r =

-1,0 describe una correlación negativa perfecta.

Cuanto más cerca estén los coeficientes de +1,0 y -1,0, mayor será la fuerza de la

relación entre las variables. Como norma general, las siguientes directrices sobre la

fuerza de la relación son útiles (aunque muchos expertos podrían disentir con la

elección de los límites).

Valor de r Fuerza de relación

-1,0 A -0,5 o 1,0 a 0,5 Fuerte

-0,5 A -0,3 o 0,3 a 0,5 Moderada

-0,3 A -0,1 o 0,1 a 0,3 Débil

-0,1 A 0,1 Ninguna o muy débil

La correlación es solamente apropiada para examinar la relación entre datos

cuantificables significativos (por ejemplo, la presión atmosférica o la temperatura) en

vez de datos categóricos, tales como el sexo, el color favorito, etc.

Desventajas Si bien 'r' (coeficiente de correlación) es una herramienta poderosa,

debe ser utilizada con cuidado. Los coeficientes de correlación más utilizados sólo

miden una relación lineal. Por lo tanto, es perfectamente posible que, si bien existe

una fuerte relación no lineal entre las variables, r está cerca de 0 o igual a 0. En tal

caso, un diagrama de dispersión puede indicar aproximadamente la existencia o no de

una relación no lineal.

Hay que tener cuidado al interpretar el valor de ‘r’. Por ejemplo, se podría

calcular ‘r’ entre el número de calzado y la inteligencia de las personas, la altura y los

9

ingresos. Cualquiera sea el valor de ‘r’, no tiene sentido y por lo tanto es llamado

correlación de oportunidad o sin sentido.

‘R’ no debe ser utilizado para decir algo sobre la relación entre causa y efecto.

Dicho de otra manera, al examinar el valor de ‘r’ podríamos concluir que las variables

X e Y están relacionadas. Sin embargo, el mismo valor de ‘r no dice si X influencia a

Y o al revés. La correlación estadística no debe ser la herramienta principal para

estudiar la causalidad, por el problema con las terceras variables.

ESTABLECER EL COEFICIENTE DE CORRELACIÓN ENTRE

VARIABLES

Para poder contar con un indicador que permita, por un lado establecer la

covariación conjunta de dos variables, y por otro, que tenga la universalidad

suficiente para poder establecer comparaciones entre distintos casos, se utiliza el

coeficiente de correlación (lineal, de Pearson).La correlación es, pues una medida de

covariación conjunta que nos informa del sentido de esta y de su relevancia, que está

acotada y permite la comparación entre distintos casos.

El coeficiente de correlación entre dos variables puede definirse como la

covarianza existente entre sus dos variables tipificadas y tiene por expresión de

cálculo:

Si r < 0 Hay correlación negativa: las dos variables se correlacionan en sentido

inverso. A valores altos de una de ellas le suelen corresponder valor bajos de la otra y

viceversa. Cuánto más próximo a -1 esté el coeficiente de correlación más patente

será esta covariación extrema .Si r= -1 se hablara de correlación negativa perfecta lo

que supone una determinación absoluta entre las dos variables (en sentido inverso):

10

Existe una relación funcional perfecta entre ambas (una relación lineal de pendiente

negativa).

Si r > 0 Hay correlación positiva: las dos variables se correlacionan en sentido

directo .A valores altos de una le corresponden valores altos de la otra e igualmente

con los valores bajos. Cuánto más próximo a +1 esté el coeficiente de correlación

más patente será esta covariación .Si r = 1 hablaremos de correlación positiva

perfecta lo que supone una determinación absoluta entre las dos variables (en sentido

directo): Existe una relación lineal perfecta (con pendiente positiva).

Si r = 0 se dice que las variables están incorrelacionadas: no puede establecerse

ningún sentido de covariación.

UTILIZAR PAQUETES ESTADÍSTICOS PARA LLEVAR A CABO

PRONÓSTICOS DE REGRESIÓN

Un paquete estadístico es un programa informático que está especialmente

diseñado para resolver problemas en el área de la estadística, o bien está programado

para resolver problemas de esta área. Existen muchos programas que no son

especialmente estadísticos pero que pueden hacer algunos cálculos aplicables en

estadística aplicada. Estos programas han impulsado y siguen impulsando

enormemente la labor de los investigadores que desean utilizar la estadística como

apoyo en su trabajo.

Los paquetes más sencillos tienen interfaz por ventanas, lo que implica facilidad

de uso y aprendizaje pero un mayor encorsetamiento a la hora de hacer cálculos que

el programa no tenga predefinidos. Los programas más complejos suelen tener la

necesidad de conocer su lenguaje de programación, pero suelen ser mucho más

flexibles al poderse incluir en ellos funciones, tests o contrastes que no traen

instalados por definición.

11

Implementaciones del modelo de regresión en paquetes estadísticos:

SPSS, usando el comando GENLIN

Matlab Statistics Toolbox: funciones “glmfit” y “glmval”.3

Microsoft Excel: a través de extensiones tales como Xpost

SAS: función GENMOD

Stata: procedimiento “poisson”

R: la función glm ()

Ejemplo de ajuste de un modelo de Poisson con R:

El siguiente código muestra cómo ajustar mediante un modelo de regresión de

Poisson un conjunto de datos recopilados por Dobson.4 5

# Construcción de los datos

counts <- c(18,17,15,20,10,20,25,13,12)

outcome <- gl(3,1,9)

treatment <- gl(3,3)

# Ajuste del modelo

glm.D93 <- glm(counts ~ outcome + treatment, family=poisson())

# Resumen del modelo

anova(glm.D93)

summary(glm.D93)

APLICACIÓN DE PRUEBA DE HIPÓTESIS PARA “ERROR TIPO B”

Al evaluar un procedimiento de prueba de hipótesis, es importante examinar la

probabilidad del error tipo II, el cual se denota por B. Esto es:

B = P(error tipo II) = P(aceptar Ho/ Ho es falsa)

12

Para calcular B se debe tener una hipótesis alternativa específica; esto es, debe

tenerse un valor particular del parámetro. Por ejemplo, supóngase que es importante

rechazar la hipótesis nula Ho: µ= 50 cada vez que la rapidez promedio de combustión

m es mayor que 52 cm/s o menor que 48 cm/s. Para ello, puede calcularse la

probabilidad B de un error tipo II para los valores µ = 52 y µ = 48, y utilizar este

resultado para averiguar algo con respecto a la forma en que se desempeñará la

prueba. De manera específica, ¿cómo trabajará el procedimiento de prueba si se desea

detectar, esto es, rechazar Ho, para un valor medio de µ = 52 o µ = 48? Dada la

simetría, sólo es necesario evaluar uno de los dos casos, esto es, encontrar la

probabilidad de aceptar la hipótesis nula Ho: µ = 50 cuando el valor verdadero es µ =

52.

Para hacer este cálculo se tendrá un tamaño de muestra de 10 y una desviación

estándar de la población de 2.5 cm/s. Además se evaluará el error tipo II con un nivel

de significancia de 0.06.

Ho: µ = 50

H1: µ ¹ 50

Se trata de un ensayo bilateral por lo que se tendrá que calcular el valor del

estadístico L x de la siguiente manera:

Para facilitar los cálculos se redondearán estos números a 48.5 y 51.5

13

Para poder comprender mejor el cálculo del error tipo II se delimitará el área de

la región de aceptación con dos líneas ya que es bilateral y se evaluará la probabilidad

de caer en esa área cuando la media tiene un valor de 52 y de 48.

Como se puede observar, en cada cálculo del valor B se tuvieron que evaluar los

dos valores de z. En el primer cálculo de B se tiene un valor de z=-4.43, esto quiere

decir que no existe área del lado izquierdo del 48.5, por lo que b sólo será el área que

corresponda a la z=-0.63. Lo mismo pasa con el segundo cálculo de B. Como las

medias de 52 y 48 son equidistantes del 50 por este motivo los valores del error tipo

II son los mismos. En caso que no estén equidistantes, se tienen que calcular por

separado y calcular los valores correspondientes de z porque en ocasiones se tiene un

área que no está dentro de la región de aceptación, la cual no se tiene que tomar en

cuenta para evaluar al error tipo II. Entre más se aleja el valor verdadero de la media

de la media de la hipótesis nula, menor es la probabilidad del error tipo II para un

14

tamaño de muestra y nivel de significancia dadas. A medida que el tamaño de la

muestra aumenta la probabilidad de cometer el error tipo II disminuye.

CONCLUSIÓN

El análisis de correlación es un grupo de técnicas estadísticas usadas para medir

la fuerza de la asociación entre dos variables. Un diagrama de dispersión es una

gráfica que representa la relación entre dos variables. La variable dependiente es la

variable que se predice o calcula. La variable independiente proporciona las bases

para el cálculo. Es la variable de predicción.

El coeficiente de correlación, por su parte, es una medida de la intensidad de la

relación lineal entre dos variables. Requiere datos de nivel de razón. Puede tomar

cualquier valor de -1.00 a 1.00. Los valores de -1.00 o 1.00 indican la correlación

perfecta y fuerte. Los valores cerca de 0.0 indican la correlación débil. Los valores

negativos indican una relación inversa y los valores positivos indican una relación

directa.

Estas técnicas son empleadas para infinidad de propósitos en la estadística

moderna y representan herramientas valiosas para la evaluación de diferentes tipos de

hipótesis y pruebas.

15

BIBLIOGRAFÍA

Berenson, M. y Levine, D (1.996). Estadística básica en Administración. México:

Glass, G. y Sannley, J.(1.992). Métodos Estadísticos Aplicados a las Ciencias Sociales. México: Prentice Hall Hispanoamericana.

Kazmier, L. y Díaz, A. (1.993). Estadística Aplicada a la Administración y a la Economía.

Levin, R (1.991). Estadística para Administradores. Colombia: Prentice Hall.

Martinez B., Ciro (2001) Estadística y Muestreo. Segunda Edición. Bogotá. Ecoe.

México: Mc.Graw Hill Explorable.com (May 2, 2009). La Correlación Estadística. Jul 07, 2015 Obtenido de Explorable.com: https://explorable.com/es/la-correlacion-estadistica

Murray, S. (2.000). Estadística México: Mc. Graw Hill.

Webster, A (1.996). Estadística aplicada a la Empresa y a la Economía. España: Irwin.

http://www.uv.es/ceaces/base/descriptiva/coefcorre.htm

16

http://www.uv.es/ceaces/base/descriptiva/coefcorre.htm

https://explorable.com/es/la-correlacion-estadistica

https://explorable.com/es/la-correlacion-estadistica

definiciones básicas de regresión

Documents