carmengarciaweb.files.wordpress.com  · web view2017. 6. 17. · como p-value= 8,406e-13 es menor...

11
Informe estadístico correspondiente a los seminarios de Estadística bivariada 1. Introducción. La estadística descriptiva es aquella que nos ayuda a resumir y representar de forma gráfica lo que ocurre en una población o muestra de la misma. A su vez, la estadística bivariada es un tipo de estadística descriptiva destinada al estudio de los sucesos en los que intervienen dos variables simultáneamente. Sirve, por tanto, para realizar análisis o estudios matemáticos mediante hipótesis cuya finalidad es determinar si existe relación o dependencia entre las variables de estudio. Usaremos R como software estadístico puesto que se trata de una herramienta estadística empleada en estadística descriptiva, para análisis univariados y bivariados, así como para análisis multivariantes. 2. Objetivos. Objetivo general: Utilizar la estadística bivariada para establecer la asociación entre dos variables de nuestro fichero de datos, dando respuesta a hipótesis de investigación específicas. Objetivos específicos: - Conocer si existe asociación entre el sexo y la práctica de deporte en función del archivo “activossalud.Rdata”. - Determinar si existe relación y cómo de fuerte es entre las variables “altura” y “peso”. 3. Metodología. 3.1- Población de estudio. Para este estudio nos basamos en el archivo “activossalud.Rdata” para una muestra de 291 individuos.

Upload: others

Post on 07-Sep-2020

1 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: carmengarciaweb.files.wordpress.com  · Web view2017. 6. 17. · Como p-value= 8,406e-13 es menor que 0,05, el test es estadísticamente significativo y podemos rechazar la hipótesis

Informe estadístico correspondiente a los seminarios de Estadística bivariada

1. Introducción.La estadística descriptiva es aquella que nos ayuda a resumir y representar de forma gráfica lo que ocurre en una población o muestra de la misma.A su vez, la estadística bivariada es un tipo de estadística descriptiva destinada al estudio de los sucesos en los que intervienen dos variables simultáneamente. Sirve, por tanto, para realizar análisis o estudios matemáticos mediante hipótesis cuya finalidad es determinar si existe relación o dependencia entre las variables de estudio.

Usaremos R como software estadístico puesto que se trata de una herramienta estadística empleada en estadística descriptiva, para análisis univariados y bivariados, así como para análisis multivariantes.

2. Objetivos.Objetivo general: Utilizar la estadística bivariada para establecer la asociación entre dos variables de nuestro fichero de datos, dando respuesta a hipótesis de investigación específicas.Objetivos específicos:

- Conocer si existe asociación entre el sexo y la práctica de deporte en función del archivo “activossalud.Rdata”.

- Determinar si existe relación y cómo de fuerte es entre las variables “altura” y “peso”.

3. Metodología.3.1- Población de estudio. Para este estudio nos basamos en el archivo “activossalud.Rdata” para una muestra de 291 individuos.

3.2- Variables a analizar: En el ejercicio 1 hemos estudiado las siguientes variables:

- Sexo: variable tipo factor con dos categorías: 1-Varón, 2 – Mujer.- Practicadeporte: 1- Sí, 2- No.

En el caso del ejercicio 3, las variables incluidas son:

- Peso: vector numérico, unidades kg.- Altura: vector numérico, unidades metros.

El fichero “estadistica_tics” contiene los datos de las encuestas realizadas a 290 estudiantes de primero de enfermería de la Universidad de Sevilla, centros propios y adscritos para conocer sus estilos de vida y activos en salud.

3.3- Análisis de datos:

Page 2: carmengarciaweb.files.wordpress.com  · Web view2017. 6. 17. · Como p-value= 8,406e-13 es menor que 0,05, el test es estadísticamente significativo y podemos rechazar la hipótesis

El Software estadístico utilizado en este caso es R, en concreto, el paquete Rcmdr.

1. Queremos conocer si existe asociación entre las variables del archivo “activossalud.Rdata” “sexo” y “Practicadeporte” (Sí, No). Para ello y usando el software “Rcommander”:

Práctica deporteSexo Sí No TotalMujer 117 123 240

Hombre 42 9 51Total 159 131 291

a. Establece una hipótesis adecuada para el estudio.Ho: No existe asociación entre las variables “sexo” y “practicadeporte”H1: Existe asociación entre las variables “sexo” y “practicadeporte”

b. Utiliza la prueba más adecuada para contrastar tu hipótesis.Vamos a utilizar chi cuadrado para contrastar nuestra hipótesis, ya que se tratan de dos variables cualitativas dicotómicas y las frecuencias esperadas son todas mayor que cinco.

Page 3: carmengarciaweb.files.wordpress.com  · Web view2017. 6. 17. · Como p-value= 8,406e-13 es menor que 0,05, el test es estadísticamente significativo y podemos rechazar la hipótesis

X-squared = 19.163 df = 1 p-value = 1.2e-05

Nos fijamos en p-value y observamos que es menor a p (p=0.05), por tanto nuestro test es significativo y rechazaremos la hipótesis nula y aceptamos la hipótesis alternativa.

De esta forma, podemos afirmar que existe asociación entre las variables “sexo” y “practicadeporte”.

3. Determina que si existe relación y como de fuerte es entre las variables “altura” y “peso”:

a. Establece una hipótesis adecuada para el estudio.Ho: No existe relación entre las variables “altura” y “peso”H1: Existe relación entre las variables “altura” y “peso”

b. Utiliza la prueba más adecuada para contrastar tu hipótesis.Al contar con dos variables cuantitativas podemos utilizar dos pruebas estadísticas, P. Pearson o Rho Sperman.Para saber cuál de ellas es la que vamos a emplear, en primer lugar debemos determinar el tipo de asociación que existe entre nuestras variables, es decir, lineal o no lineal. La linealidad vamos a determinarla a través de un diagrama de dispersión:

Page 4: carmengarciaweb.files.wordpress.com  · Web view2017. 6. 17. · Como p-value= 8,406e-13 es menor que 0,05, el test es estadísticamente significativo y podemos rechazar la hipótesis

En esta gráfica podemos observar como existe una asociación lineal positiva, es decir, a medida que aumenta una variable aumenta la otra.

A continuación vamos a comprobar la normalidad, si la distribución de la muestra para cada variable se ajusta a la distribución normal. Esto podemos hacerlos de dos formas diferentes, a través de métodos gráficos (histograma, diagrama de caja, y gráfico QQ) y mediante pruebas de normalidad como Shapiro- Wilk.

Primero estudiaremos la variable altura:

Histograma:

Aquí podemos decir que aunque existe una cierta asimetría, si que se asemeja a la distribución normal.

Page 5: carmengarciaweb.files.wordpress.com  · Web view2017. 6. 17. · Como p-value= 8,406e-13 es menor que 0,05, el test es estadísticamente significativo y podemos rechazar la hipótesis

Diagrama de caja:

Aunque algunos valores se disparan, en realidad, el diagrama presenta cierta simetría en general, por lo que también podríamos decir que se sigue la distribución normal.

Gráfico QQ:

Se puede observar como la mayoría de los valores de la variable se encuentran dentro de los límites del intervalo de confianza.

Page 6: carmengarciaweb.files.wordpress.com  · Web view2017. 6. 17. · Como p-value= 8,406e-13 es menor que 0,05, el test es estadísticamente significativo y podemos rechazar la hipótesis

Por otra parte, realizaremos la prueba Shapiro-Wilk. En primer lugar debemos establecer nuestras hipótesis:-H0: La distribución de la muestra es igual a la distribución normal.-H1: La distribución de nuestra muestra es diferente a la distribución normal.

W = 0.96796, p-value = 4.686e-06Como p-value= 4.686e-06 es mejor a 0,05, vamos a rechazar la hipótesis nula y aceptamos la hipótesis alternativa. Por tanto, la distribución de la muestra es diferente a la distribución normal. Ahora estudiaremos la normalidad de la variable “peso”:

Histograma:

En el histograma podemos comprobar que existe cierta asimetría hacia la derecha, por tanto, no sigue la distribución normal.

Page 7: carmengarciaweb.files.wordpress.com  · Web view2017. 6. 17. · Como p-value= 8,406e-13 es menor que 0,05, el test es estadísticamente significativo y podemos rechazar la hipótesis

Diagrama de caja:

Vemos como varios valores se encuentran fuera de los bigotes, además podemos comprobar cómo la línea de la mediana no coincide con el centro de la caja.

Gráfico QQ:

Observamos que la mayoría de los valores están dentro del intervalo de confianza, sin embargo, otros muchos se encuentran fuera de los límites del mismo.

A continuación, realizaremos la prueba Shapiro-Wilk para comprobar si sigue o no la distribución normal nuestra muestra: Primero vamos a establecer las hipótesis:

Page 8: carmengarciaweb.files.wordpress.com  · Web view2017. 6. 17. · Como p-value= 8,406e-13 es menor que 0,05, el test es estadísticamente significativo y podemos rechazar la hipótesis

-H0= La distribución de nuestra muestra es igual a la distribución normal.-H1= La distribución de nuestra muestra es diferente a la distribución normal.

W = 0.89614, p-value = 8.406e-13Como p-value= 8,406e-13 es menor que 0,05, el test es estadísticamente significativo y podemos rechazar la hipótesis nula, aceptando la alternativa. Por tanto, la distribución de nuestra muestra para la variable peso no sigue la distribución normal.

Como ninguna de las dos variables cumplen con una de las asunciones del test P. Pearson que es la normalidad de ambas variables, vamos a emplear Rho Sperman.

Page 9: carmengarciaweb.files.wordpress.com  · Web view2017. 6. 17. · Como p-value= 8,406e-13 es menor que 0,05, el test es estadísticamente significativo y podemos rechazar la hipótesis

S = 1308800, p-value < 2.2e-16Como p-value es menor que 0,05 el test resulta estadísticamente significativo.Vamos a rechazar la hipótesis nula y aceptamos la alternativa. Podemos establecer que existe relación entre las variables “peso” y “altura”.

Para ver como de fuerte es esa asociación vamos a estudiar los coeficientes de correlación entre las variables.

El coeficiente de correlación de las variables es igual a 0,6311, teniendo en cuenta que consideramos que a partir de 0,5 la asociación entre las variables es fuerte, podemos decir que será fuerte aunque no demasiado debido a su proximidad a 0,05.

Carmen García Torres.

Grupo 4. Subgrupo 16.