analisis proyecto

10
ANÁLISIS DEL PROYECTO I. Comparación de medias II. Análisis de dos variables categóricas III. Análisis de correlación y modelo lineal JUDIT ALSINA ROSSELL 1r Medicina

Upload: juditalsina95

Post on 16-Aug-2015

32 views

Category:

Education


0 download

TRANSCRIPT

Page 1: Analisis proyecto

ANÁLISIS DEL PROYECTO

I. Comparación de medias II. Análisis de dos variables categóricas

III. Análisis de correlación y modelo lineal

JUDIT ALSINA ROSSELL 1r Medicina

Page 2: Analisis proyecto

Judit Alsina 1r Medicina

I. COMPARACIÓN DE MEDIAS

I.I. Variable binaria y variable numérica

El primer análisis que se va a realizar será una comparación de medias entre una variable

categórica binaria, que en este caso es el sexo, y una variable cuantitativa como las horas

semanales de deporte.

Lo primero que se va a observar es la asimetría para poder aplicar más tarde uno u otro test

paramétrico o no paramétrico. Este valor lo encontramos en la primera tabla que nos

proporciona el G-stat que es la tabla de estadísticos mostrada a continuación:

En este caso se puede ver que la

asimetría cobra unos valores de 6.8491

i 2.1155 los cuales son muy superiores

a uno y por lo tanto consideraremos

que hay una asimetría bastante

destacada.

Por este motivo, cuando se realize el

análisis sobre la comparación de

medias, utilizaremos el test de U de

Mann-Whitney, en lugar del t-student,

el cual es no paramétrico.

También se pueden observar la media

y los mínimos y máximos.

Una vez estudiada esta asimetría ya se puede realizar la comparación de medias. Para esto se

muestra seguidamente el gráfico de cajas y los datos que proporciona el test U de Mann-

Whitney.

Page 3: Analisis proyecto

Judit Alsina 1r Medicina

Si en la tabla de la izquierda se

observa el p-valor se pueder

ver que este cobra un valor de

0.0162 el cual es muy inferior a

0.05 lo que nos permite

rechazar la hipótesis nula que

era que existia una igualdad de

distribuciones. Por lo tanto,

este test ha permitido

comprobar que existe una

diferencia en la práctica de

deporte entre los dos sexos.

Para llegar a la conclusión de cual de los dos sexos es el que practica más deporte nos

fijaremos en las medianas. Si observamos estos valores vemos que son superiores en los

hombres, el doble en este caso. Por está razón, sacaremos como conclusión del análisis que

los hombres practican más horas de deporte semanales que las mujeres.

Page 4: Analisis proyecto

Judit Alsina 1r Medicina

I.II. Variable categórica de más de dos grupos y variable numérica

El segundo análisis que se va a realizar será una comparación de medias entre una variable

categórica, en este caso es de tres grupos, y una variable cuantitativa. Para este análisis las

variables seran la sensibilidad al PTC y el peso.

Lo primero que se va a observar es la asimetría para poder aplicar más tarde uno u otro test

paramétrico o no paramétrico. Este valor lo encontramos en la primera tabla que nos

proporciona el G-stat que es la tabla de estadísticos mostrada a continuación:

En este caso se observan unos

valores un poco

contradictorios.

En el caso de la subvariable Sí,

muy intenso vemos como la

asímetria supera el límite que

considaríamos simétrico (1) y

por lo tanto diriamos que

sigue una distribución

asimétrica.

Por el contrario, las

subvariables Sí, un poco y No

tienen valores dentro del

rango simétrico (-1,1) y por

lo tanto consideraríamos que

siguen una distribución

simétrica.

Para poder realizar un análisis relacionando las tres subvariables asumiremos que el valor que

primeramente hemos considerado asimétrico sigue una distribución simétrica ya que sólo

varia unas decimas del valor límite.

También es importante comprovar si las varianzas son iguales. Para esto usaremos otra tabla

que nos proporciona el G-stat, la tabla de homocedasticidad.

Page 5: Analisis proyecto

Judit Alsina 1r Medicina

Ahora debemos fijarnos en el p-valor de Bartlett. En este caso el p-valor es muy poco inferior a

0,05 lo que se podria deber a a aproximación que hemos realizado antes en la asimetría. Por

este motivo asumiremos que las varianzas también son iguales.

Gracias a esta aproximación ahora ya podemos pasar a analizar los dados proporcionados por

ANOVA.

En la tabla superior se muestra el p-valor el cual nos va a indicar si la dos variables estan

relacionadas o si su relación se debe al azar. En esta situación, cobra un valor de 0.0192, muy

inferior a 0.05, lo que nos permite descartar la hipótesis nula y afirmar que hay diferencias

entre las distribuciones según el peso.

Si nos fijamos en el diagrama de cajas y lo relacionamos con lo mencionado en el anterior

párrafo podemos llegar a la conclusión que las personas con un peso mayor son más

propensas a tener el gen mutado y por lo tanto a no detectar el sabor el la tira de PTC.

Page 6: Analisis proyecto

Judit Alsina 1r Medicina

II. ANÁLISIS DOS VARIABLES CATEGÓRICAS

El siguiente estudio que se va a realizar será la comparación entre dos variables categóricas

como son el sexo y el consumo de alcohol. Para realizar este análisis nos fijaremos primero de

todo en la tabla de proporciones siguiente:

En la tabla anterior se pueden observar dos proporciones destacables.

La primera a destacar es la proporción de mujeres no consumidoras de alcohol respeto a los

hombres. Vemos como este porcentaje en mujeres es un 71.05%, muy superior al 28,95% del

de los hombres.

La segunda también destacable es la proporción de hombres que toman alcohol diariamente.

Este es de un 60,71%, superior a la proporción de las mujeres que es tan solo de 39,29%.

Para comprobar si estas proporciones diferentes se deben al azar o bien las variables están

relacionadas nos fijaremos en el análisis de Chi-cuadrado.

En la tabla superior se puede observar el p-valor de este análisis. En este caso cobra un valor

de 0.0651, mayor que 0.05 lo que no impide rechazar la hipótesis nula y por lo tanto tenemos

que asumir que no hay relación entre las dos variables y que la poca que podemos observar

es debida al azar.

Para poder considerar este p-valor correcto era importante que chi-cuadrado cumpliese sus

dos condiciones, las cuales se encuentran debajo de él en la tabla. En este caso vemos como

las dos se cumplen y por lo tanto el test es válido.

Page 7: Analisis proyecto

Judit Alsina 1r Medicina

III. ANÁLISIS DE CORRELACIÓN Y MODELO LINEAL

III.I. Peso y edad

A continuación se va a realizar un análisis de correlación, aplicando un modelo lineal, de dos

variables cuantitativas que son el peso y la edad.

Lo primero que se va a observar es la asimetría para poder aplicar más tarde uno u otro

coeficiente paramétrico o no paramétrico. Este valor lo encontramos en la primera tabla que

nos proporciona el G-stat que es la tabla de estadísticos mostrada a continuación:

Una vez observada esta asimetría ya se puede estudiar la relación que se establece entre las

dos variables. Para esto se va a observar el modelo lineal junto con el p-valor y el coeficiente

de Spearman, por motivos expuestos anteriormente.

En este caso se puede ver que la asimetría

cobra unos valores de 1,1714 i 1,1112 los

cuales son superiores a uno y por lo tanto

consideraremos que hay una asimetría,

aunque no muy destacada.

Por este motivo, cuando se realize el análisis

sobre la correlación entre las dos variables, nos

fijaremos en el coeficiente de Spearman, no

paramétrico, en lugar del de Pearson.

También se pueden observar la media y los

mínimos y máximos.

Page 8: Analisis proyecto

Judit Alsina 1r Medicina

Primero de todo, para mostrar la relación en el modelo lineal entre las dos variables nos vamos

a fijar en la ecuación de la recta la cual es Peso (kg) = 58.1247 + 0.2316 * Edad (años). De esta

forma se observa que la pendiente es de 0.2316 lo que significa que por cada año que pasa el

peso aumenta un 0.23 aproximadamente. Además, suponiendo que existiese una edad 0 el

peso seria de 58, lo que correspondería a la ordenada al origen.

Por lo que respeta a la relación entre las dos variables debe mirarse el Rho de Spearman que

en este caso toma un valor de 0.2725. Como 0.2725 es mayor que 0.2 ya se podría intuir que

las dos variables están relacionadas. Además, como su valor es positivo esto significa que

cuando una aumenta, la otra también.

También se podría comentar que el coeficiente de determinación sólo es de un 8.70%, es

decir, que a partir de conocer la edad podríamos conocer un 8.70% de los pesos.

Para terminar de asegurar que es posible rechazar la hipótesis nula, la cual sería en este caso

que no hay relación entre las variables, se pueden observar los diferentes p-valores. Estos

toman valores de 0.0001 e inferiores, es decir, menores de 0.5, lo que nos permite rechazar de

forma segura la hipótesis nula.

Page 9: Analisis proyecto

Judit Alsina 1r Medicina

III.II. Caries obturadas y consumo de chocolate

Por último se va a realizar un segundo análisis de correlación, aplicando un modelo lineal, de

dos variables cuantitativas que son el número de caries obturadas y la el consumo de chocolate

amargo al mes.

Lo primero que se va a observar es la asimetría para poder aplicar más tarde uno u otro

coeficiente paramétrico o no paramétrico. Este valor lo encontramos en la primera tabla que

nos proporciona el G-stat que es la tabla de estadísticos mostrada a continuación:

Una vez observada esta asimetría ya se puede estudiar la relación que se establece entre las

dos variables. Para esto se va a observar el modelo lineal junto con el p-valor y el coeficiente

de Spearman, por motivos expuestos anteriormente.

En este caso se puede ver que la

asimetría cobra unos valores de

2,8870 i 2,9719 los cuales son

superiores a uno y por lo tanto

consideraremos que hay una

asimetría, bastante destacada.

Por este motivo, cuando se

realize el análisis sobre la

correlación entre las dos

variables, nos fijaremos en el

coeficiente de Spearman, no

paramétrico, en lugar del de

Pearson.

También se pueden observar la

media y los mínimos y máximos.

Page 10: Analisis proyecto

Judit Alsina 1r Medicina

Primero de todo, para mostrar la relación en el modelo lineal entre las dos variables nos vamos

a fijar en la ecuación de la recta la cual es:

número de caries obturadas = 2.0463 + 0.0950 * consumo de chocolate amargo al mes.

De esta forma se observa que la pendiente es de 0.0950 lo que significa que por cada ración

de chocolate que se consume, el número de caries obturadas aumenta un 0.095. Además,

cuando el consumo de chocolate es nulo, el número de caries obturadas sería 2.0463, lo que

correspondería a la ordenada al origen. Esto podría dejar intuir que el hecho de no consumir

chocolate no eliminaría el riesgo de sufrir caries.

Por lo que respeta a la relación entre las dos variables debe mirarse el Rho de Spearman que

en este caso toma un valor de 0.1425. Como 0.1425 es inferior que 0,2 se podría descartar

que las dos variables estén relacionadas.

También se podría comentar que el coeficiente de determinación sólo es de un 3.89%, es

decir, que a partir de conocer el consumo de chocolate solo podríamos conocer un 3.89% del

número de caries obturadas.

Para terminar de asegurar que no es posible rechazar la hipótesis nula, la cual sería en este

caso que no hay relación entre las variables, se pueden observar los diferentes p-valores. En

este caso se produce una contradicción ya que el p-valor de Spearman es 0.0334, inferior de

0,05 lo que nos obligaría a rechazar la hipótesis nula que antes, con el Rho de Spearman

habíamos aceptado.

Por esta razón, de este análisis no se puede sacar una conclusión clara sobre la relación entre

las dos variables, aunque sí que se podría afirmar que si están relacionadas es por una relación

muy débil.