tarea3 mlg

8
TAREA Nº3 Integrantes: Marisol Rojas Acuña , Código 20131494 Jorge Armando Castro Mendoza , Código 20131486 Análisis de Regresión de Poisson. 1. CONTEXTO: El trabajo expone la situación de los datos médicos y las características de estos al no aplicar para una distribución normal, por tratarse de variables respuestas o eventos de tipo conteo positivos en un periodo de tiempo, para lo cual aplica la distribución de Poisson. 2. METODOLOGÍA El artículo presenta 02 ejemplos: Primer ejemplo: Describe los nacimientos por cesárea en hospitales privados y públicos, partiendo de la hipótesis que el mayor número de nacimiento vía cesárea se dan en los hospitales privados, para este análisis emplea la distribución de Poisson. Efectúa el análisis, en uno de ellos, utiliza la regresión de Poisson para modelar los datos para obtener la estimación de cesáreas basadas en una sola variable explicativa: Número de nacimientos. En un segundo análisis emplea la variable : Tipo de hospital. RESULTADOS Empleando sola una variable (número de nacimientos) la desviación explicada por la regresión fue de 63.575. Con dos variables se incrementó en 81.95, y una diferencia de grados de libertad igual a 01, y P value < 0.001 CONCLUSIONES Las cesáreas son dos veces más comunes en hospitales públicos comparado con los privados

Upload: jorgecasmjorgecasmen

Post on 02-Dec-2015

3 views

Category:

Documents


2 download

TRANSCRIPT

Page 1: Tarea3 MLG

TAREA Nº3 Integrantes:

● Marisol Rojas Acuña , Código 20131494● Jorge Armando Castro Mendoza , Código 20131486

Análisis de Regresión de Poisson.

1. CONTEXTO:El trabajo expone la situación de los datos médicos y las características de estos al no aplicar para una distribución normal, por tratarse de variables respuestas o eventos de tipo conteo positivos en un periodo de tiempo, para lo cual aplica la distribución de Poisson.

2. METODOLOGÍAEl artículo presenta 02 ejemplos:Primer ejemplo:Describe los nacimientos por cesárea en hospitales privados y públicos, partiendo de la hipótesis que el mayor número de nacimiento vía cesárea se dan en los hospitales privados, para este análisis emplea la distribución de Poisson.Efectúa el análisis, en uno de ellos, utiliza la regresión de Poisson para modelar los datos para obtener la estimación de cesáreas basadas en una sola variable explicativa: Número de nacimientos. En un segundo análisis emplea la variable : Tipo de hospital.

❖ RESULTADOSEmpleando sola una variable (número de nacimientos) la desviación explicada por la regresión fue de 63.575. Con dos variables se incrementó en 81.95, y una diferencia de grados de libertad igual a 01, y P value < 0.001

❖ CONCLUSIONESLas cesáreas son dos veces más comunes en hospitales públicos comparado con los privados

Segundo ejemplo:Investiga los riesgo de fumar y su relación con el cáncer de pulmón, emplea como variables: cigarros consumidos por día, años de fumador, en una muestra de personas que fuman y no fuman.

❖ RESULTADOSLas gráficas de cigarros fumados por día (dosis diaria) vs casos de cáncer al pulmón y la gráfica de años de fumador vs, casos de cáncer muestran la relación que existen entre ellos.El inicio del análisis parte de una línea base, que toma información de incidencia de cancer de pulmon de personas no fumadoras, construyendo así el 1er modelo predictor, obteniéndose como resultado una desviación de 8.74 y 01 grado de libertad.

Page 2: Tarea3 MLG

En el 2do anàlisis trabaja con todas las variables, obteniendo un resultado de 63.16 de desviación , 03 grados de libertad y P value 54.42, concluyendo que este modelo es un mejor estimador comparado con el 1er análisis.

❖ CONCLUSIONESEl modelo que estima el riesgo relativo de desarrollo de cancer de pulmon ajusta mejor cuando se emplea todo las variables predictoras definidas.

3. COMENTARIOSEl artículo deberìa de definir su población de estudio, en ambos ejemplo no fue considerado.Evidenciar el cumplimiento de los supuestos para la aplicación de la regresión de Poisson.

Ejemplo de los Cangrejos Herradura y los Satélites

Page 3: Tarea3 MLG

Los cangrejos herradura anidan en pareja, pero hay cangrejos machos que viven cerca a estos nidos, llamados satélites, pero los número de estos satélites varían. El estudio intenta determinar cuales son los factores que determinan el número de estos satélites en base a las características de los cangrejos hembras, como el color (C), el estado de la columna (S), el peso (Wt) y el ancho del caparazón.

Primero se analiza si la variable ancho del caparazón (W) puede explicar el número de satélites (Sa), se utiliza el modelo de regresión de Poisson vía MLG con un solo predictor (W), se utiliza este modelo porque la variable dependiente (Sa) son conteos, es decir, número enteros mayores o iguales a cero en un periodo de tiempo definido, por ejemplo, en número de satélites encontrados durante el verano.

El coeficiente de W es 0.16405, significa que tiene una relación directa con Sa, además que el aumento de una unidad de W tendrá un efecto multiplicativo en el número de Sa en 1.18 (exp(0.16405)).De acuerdo a los parámetros estimados en el objeto modelo, podemos predecir el número de satélites de acuerdo al ancho del caparazón de los cangrejos herradura hembras, como se muestra a continuación:

Page 4: Tarea3 MLG

Para calcular los predictores lineales usamos el siguiente comando:

Page 5: Tarea3 MLG

Se puede apreciar que el modelo no tiene un buen ajuste. Dado por el valor del estadístico de desviación residual y los grados de libertad 567.88 con 171 grados de libertad, esta división es mayor a uno, asi el modelo no se ajusta muy bien.

La falta de ajuste puede ser debido a la pérdida de información, otras variables que no se han considerado o sobredispersión.

Cambiando el modelo: Ajuste para una sobredispersión:

En el modelo anterior hay un potencial problema con sobredispersión desde la escala de factor, por ejemplo que la varianza residual sobre los grados de libertad es mayor a uno.

Con este modelo el componente aleatorio no tiene una distribución de Poisson ninguno donde la respuesta tuvo la misma media y la misma varianza. Para las estimaciones dadas Person X2=3.1822, la varianz del componente aleatorio (el número de satélites por cada ancho) es aproximadamente tres veces la media.

Cambiando el modelo: Incluyendo ‘color’ como una predictor cualitativoSe va a incluir la variable color, para esto vamos a separar como C1, cuando color sea igual a 1, C2 cuando color sea igual a 2 y C3 cuando el color sea igual a 3, como variables dummy.

Page 6: Tarea3 MLG

En este modelo por cada unidad adicional de W el número de satélites aumenta en exp(0.14934) veces, si el color del cangrejo hembra es 1, el número de satélites aumenta en exp(0.44736) veces, si color del cangrejo hembra es 2, el número de satélites aumenta en exp(0.24767) veces y si el color del cangrejo hembra es 3, el número de satélites aumenta en exp(0.011) veces.

Cambiando de modelo: Incluyendo ‘color’ como un predictor numérico.

En este caso, se realiza la regresión considerando el como como una variable numérica, lo que es incorrecto, porque el la variable ‘color’ son códigos aunque este modelo se ajuste a los datos, aconsejaría no tomarlo, porque va en contra del sentido común, solo puede que se ajuste por ‘coincidencia’. Si los colores se expresarán en un sistema rgb, tal vez tendría sentido hacer la regresión de este modo.