normal, simétrica - minsalud.gov.co · fuente: elaboración propia ejemplificación para llevar a...

5
1 Evaluación de la normalidad en datos de violencia interpersonal en Colombia, 2013: segunda parte Introducción En esta segunda parte se explicarán los aspectos de la evaluación de la normalidad de los datos, utilizando las pruebas gráficas de normali- dad y pruebas de contraste de hipótesis. Se usarán los datos de vio- lencia interpersonal para ejemplificar las pruebas gráficas y de contraste de hipótesis para valorar la normalidad. Se presentarán algunos conceptos relacionados con la evaluación de la normalidad con las representaciones gráficas las cuales permiten la repre- sentación de los datos numéricos en gráficos y facilitan un análisis visual. Los gráficos para observar la normalidad son gráficos de probabilidad nor- mal: el histograma, el cuantil – cuantil (Q – Q plots) y el gráfico de caja de bigotes o box plot (box and whisker plot). También se describirán las pruebas de contraste de hipótesis para evaluar la normalidad, entre las cuales está el test de Shapiro – Francia, que se uti- liza para comprobar si unos datos han sido extraídos de una muestra nor- mal. También se describen los estadísticos utilizados para evaluar la normalidad de los datos, entre los que se encuentran las medidas de tendencia central , posición, dispersión, forma, pruebas gráficas de normalidad y pruebas de contraste de hipótesis. La selección de una u otra técnica, depen- derá de las características de la variable 1,2 Por último se hace énfasis y demostración de la estimación de las pruebas gráficas y contraste de hipótesis para evaluar la normalidad requisitos indis- pensables a la hora de incorporar una variable en el Índice Compuesto de Necesidad en Salud (ICNS) como se documentó en el boletín de julio- agosto 2015 Volumen 3, número 4: Evaluación de la normalidad en datos de violencia interpersonal en Colombia, 2013: primera parte. Metodología Se pueden identificar otras formas de evaluar la normalidad de los datos: 1) pruebas gráficas de normalidad, permite la representación de los da- tos numéricos en gráficos y facilita un análisis visual y 2) pruebas de con- traste de hipótesis para evaluar la normalidad, entre las cuales se usa el test de Shapiro Francia, se utiliza para comprobar si unos datos determi- nados han sido extraídos de una muestra normal. 1,2 1) Pruebas gráficas de normalidad Los gráficos y los contrastes de hipótesis corresponden a otros métodos para comprobar si los valores de una variable siguen una distribución nor- mal. 3 Las representaciones gráficas en epidemiología y en bioestadística son muy importantes para propósitos descriptivos ya que permiten transmitir información condesada y al mismo tiempo asimilable. Sin embargo, los gráficos permiten una comprobación visual de la normali- dad de los datos; aunque es un método sencillo es complejo para tamaño de muestras pequeñas, pues al construirse el histograma se distorsiona visualmente la distribución. 6 Otras gráficas que sirven para evaluar la normalidad corresponden al dia- grama de cajas, histograma, diagramas de cuantiles o prueba grafica de normalidad cuantil-cuantil (QQ-plots). 6 El gráfico de normalidad cuantil-cuantil (Q-Q-plots) representa una distri- bución normal de los datos cuando cada valor observado se empareja con su valor esperado. Es decir, ambos valores (observado y esperado) se en- contrarán en la misma línea recta (Figura 1). Así mismo, si los datos del gráfico muestran una relación muy cercana a una línea recta entonces se sugiere que los datos tienen una distribución normal. Figura 1. Gráficos de cuantil-cuantil (Q-Q-plots) de posición y de forma Fuente: elaboración propia Ejemplificación Para llevar a cabo la evaluación de la normalidad de los datos se usará el paquete estadístico Epidat 4.1. Recuerde disponer los da- tos en el Excel previamente y cerrar el archivo, para permitir cargar los datos al programa. Como se muestra a continuación: noviembre - diciembre 2015. Vol. 3, No. 6 1 Boletín Epidemiológico / MSPS, Vol 3, No. 6 (2015) Normal, simétrica Platicúrtica Leptocúrtica Asimétrica a la derecha Asimétrica a la izquierda

Upload: trinhkhue

Post on 18-Sep-2018

228 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Normal, simétrica - minsalud.gov.co · Fuente: elaboración propia Ejemplificación Para llevar a cabo la evaluación de la normalidad de los datos se usará el paquete estadístico

1

Evaluación de la normalidad en datos de violencia interpersonal en Colombia, 2013: segunda parte

Introducción

En esta segunda parte se explicarán los aspectos de la evaluación de la normalidad de los datos, utilizando las pruebas gráficas de normali-dad y pruebas de contraste de hipótesis. Se usarán los datos de vio-lencia interpersonal para ejemplificar las pruebas gráficas y de contraste de hipótesis para valorar la normalidad. Se presentarán algunos conceptos relacionados con la evaluación de la normalidad con las representaciones gráficas las cuales permiten la repre-sentación de los datos numéricos en gráficos y facilitan un análisis visual. Los gráficos para observar la normalidad son gráficos de probabilidad nor-mal: el histograma, el cuantil – cuantil (Q – Q plots) y el gráfico de caja de bigotes o box plot (box and whisker plot). También se describirán las pruebas de contraste de hipótesis para evaluar la normalidad, entre las cuales está el test de Shapiro – Francia, que se uti-liza para comprobar si unos datos han sido extraídos de una muestra nor-mal. También se describen los estadísticos utilizados para evaluar la normalidad de los datos, entre los que se encuentran las medidas de tendencia central, posición, dispersión, forma, pruebas gráficas de normalidad y pruebas de contraste de hipótesis. La selección de una u otra técnica, depen-derá de las características de la variable1,2

Por último se hace énfasis y demostración de la estimación de las pruebas

gráficas y contraste de hipótesis para evaluar la normalidad requisitos indis-

pensables a la hora de incorporar una variable en el Índice Compuesto de

Necesidad en Salud (ICNS) como se documentó en el boletín de julio-

agosto 2015 Volumen 3, número 4: Evaluación de la normalidad en datos

de violencia interpersonal en Colombia, 2013: primera parte.

Metodología

Se pueden identificar otras formas de evaluar la normalidad de los datos: 1) pruebas gráficas de normalidad, permite la representación de los da-tos numéricos en gráficos y facilita un análisis visual y 2) pruebas de con-traste de hipótesis para evaluar la normalidad, entre las cuales se usa el test de Shapiro Francia, se utiliza para comprobar si unos datos determi-nados han sido extraídos de una muestra normal.1,2

1) Pruebas gráficas de normalidad Los gráficos y los contrastes de hipótesis corresponden a otros métodos para comprobar si los valores de una variable siguen una distribución nor-mal.3 Las representaciones gráficas en epidemiología y en bioestadística son muy importantes para propósitos descriptivos ya que permiten transmitir información condesada y al mismo tiempo asimilable. Sin embargo, los gráficos permiten una comprobación visual de la normali-dad de los datos; aunque es un método sencillo es complejo para tamaño de muestras pequeñas, pues al construirse el histograma se distorsiona visualmente la distribución.6

Otras gráficas que sirven para evaluar la normalidad corresponden al dia-grama de cajas, histograma, diagramas de cuantiles o prueba grafica de normalidad cuantil-cuantil (QQ-plots).6 El gráfico de normalidad cuantil-cuantil (Q-Q-plots) representa una distri-bución normal de los datos cuando cada valor observado se empareja con su valor esperado. Es decir, ambos valores (observado y esperado) se en-contrarán en la misma línea recta (Figura 1). Así mismo, si los datos del

gráfico muestran una relación muy cercana a una línea recta entonces se sugiere que los datos tienen una distribución normal. Figura 1. Gráficos de cuantil-cuantil (Q-Q-plots) de posición y de forma Fuente: elaboración propia

Ejemplificación

Para llevar a cabo la evaluación de la normalidad de los datos se usará el paquete estadístico Epidat 4.1. Recuerde disponer los da-tos en el Excel previamente y cerrar el archivo, para permitir cargar los datos al programa. Como se muestra a continuación:

noviembre - diciembre 2015. Vol. 3, No. 6

1

Boletín Epidemiológico / MSPS, Vol 3, No. 6 (2015)

Normal,

simétrica

PlaticúrticaLeptocúrtica

Asimétrica a la

derechaAsimétrica a

la izquierda

Page 2: Normal, simétrica - minsalud.gov.co · Fuente: elaboración propia Ejemplificación Para llevar a cabo la evaluación de la normalidad de los datos se usará el paquete estadístico

2

a. Abra el programa Epidat 4.1 y escoja la opción módulos, seleccione

en Análisis estadísticos y escoja la opción Estadísticos descriptivos.

b. Se abrirá la ventana Estadísticos descriptivos, ubíquese en Entrada

automática, donde cargará los datos disponibles previamente en Ex-

cel.

c. Ahora dé clic sobre el botón Abrir tabla de datos (1) ; aparecerá la ventana Asistente para la obtención de datos (2); ubíquese en Exa-minar desde donde podrá buscar el archivo; selecciónelo y haga clic sobre el icono Aceptar.

d. En el cuadro de diálogo Asistente para la obtención de datos haga clic sobre la variable a la cual se le evaluará la normalidad; en este caso, el de violencia interpersonal, seleccione la variable y pase al recuadro Resumir. Haga clic sobre el icono Aceptar.

e. En la ventana Estadísticos descriptivos seleccione los de tendencia

central (Media, Mediana), dispersión (Desviación estándar, Varianza y

Recorrido intercuartílico) y de forma (Asimetría y Curtosis). Haga clic

sobre el icono Calcular.

.

f. Aparecerá la ventana Resultados que muestra los estadísticos de ten-dencia central, dispersión y de forma.

f.

g. Recuerde que es necesario importar los datos individuales a partir de un archivo de Excel (*.xls,*xlsx), por medio del Asistente para la ob-tención de datos y cerrar el archivo para permitir cargar los datos al programa Epidat.

h. Ahora, diríjase nuevamente al cuadro de diálogo Módulos, Análisis estadísticos y escoja la opción Gráficos, Histograma.

i. Se abrirá el recuadro de diálogo Histograma; dé clic sobre el botón

Abrir tabla de datos (1) ; aparecerá la ventana Asistente para la

obtención de datos (2); ubíquese en Examinar, para buscar el archivo

seleccionado y haga clic sobre el icono Aceptar.

Boletín Epidemiológico / MSPS, Vol 3, No. 6 (2015)

Page 3: Normal, simétrica - minsalud.gov.co · Fuente: elaboración propia Ejemplificación Para llevar a cabo la evaluación de la normalidad de los datos se usará el paquete estadístico

3

j. En el recuadro Asistente para la obtención de datos haga clic sobre la variable casos de violencia interpersonal, seleccione la variable y pá-sela al recuadro Resumir. Haga clic sobre el icono Aceptar .

k. En la ventana Histograma seleccione en datos Densidad y Mostrar curva normal. Haga clic sobre el icono Generar Gráfico. La densidad es el cociente entre la frecuencia relativa del intervalo correspondien-te y la amplitud.

l. La hoja de Resultados muestra el histograma o polígono de frecuen-cias: en el eje horizontal (X) muestra los intervalos en los que se divi-den los valores de la variable y en el eje vertical (Y) las frecuencias o porcentajes o densidad de cada uno de los intervalos. La forma del histograma indica una asimetría de los casos de violencia interperso-nal hacia la derecha, es decir, el valor de la media o promedio es ma-yor a la mediana.

m. La hoja de Resultados muestra el histograma o polígono de frecuen-cias: en el eje horizontal (X) muestra los intervalos en los que se divi-den los valores de la variable y en el eje vertical (Y) las frecuencias o porcentajes o densidad de cada uno de los intervalos. La forma del histograma indica una asimetría de los casos de violencia interperso-nal hacia la derecha, es decir, el valor de la media o promedio es ma-yor a la mediana.

n. También se obtiene el diagrama de cajas o caja de bigotes (Box Plots), un gráfico utilizado para representar una variable cuantitativa (variable numérica). El gráfico permite visualizar, a través de los cuar-tiles, cómo es la distribución, su grado de asimetría, la posición de la mediana, el máximo y mínimo, el rango intercuartil, y los valores ex-tremos de un conjunto de datos. El box plots se compone de un rec-tángulo (caja) delimitado por el primer y tercer cuartil (Q1 y Q3). Den-tro de la caja una línea indica dónde se encuentra la mediana (segundo cuartil Q2). Hay también dos brazos, uno que empieza en el primer cuartil y acaba en el mínimo, y otro que empieza en el tercer cuartil y acaba en el máximo. Ahora repita el paso g y escoja la op-ción Diagramas de Cajas.

o. Se abrirá el recuadro de diálogo Diagramas de Cajas; dé clic sobre el

botón Abrir tabla de datos (1) ; aparecerá la ventana Asistente para la obtención de datos (2); ubíquese en Examinar, para buscar el archivo seleccionado y haga clic sobre el icono Aceptar. Repita el pa-so j.

xiv)

p. En la ventana Diagramas de Cajas haga clic sobre el icono Generar

Gráfico.

Boletín Epidemiológico / MSPS, Vol 3, No. 6 (2015)

Page 4: Normal, simétrica - minsalud.gov.co · Fuente: elaboración propia Ejemplificación Para llevar a cabo la evaluación de la normalidad de los datos se usará el paquete estadístico

4

p. Ahora, en el cuadro de Editor de gráficos, aparece el diagrama de ca-

ja. Haga clic sobre el icono Aceptar. Recuerde que las líneas que se

proyectan fuera de la caja (patillas), se extienden hasta los denomina-

dos valores adyacentes, que son los valores mínimo y máximo de las

observaciones. El box plots indica una asimetría hacia la derecha y

muestra datos atípicos. La mediana está más cerca de la parte infe-

rior de la caja. Cuando más larga sean la caja y los bigotes, mayor

variabilidad tienen los datos. (Figura 2)

Figura 2. Gráficos de diagrama de caja o caja y bigotes de posición y de forma

Fuente: elaboración propia

Pruebas de contraste de hipótesis

La cuarta manera de evaluar la normalidad de una distribución de datos es a través de un contraste de hipótesis. La prueba que aporta una mayor con-fiabilidad a la inferencia es el test de Shapiro - Francia que compara la nor-malidad de la población a partir de una muestra

6.

El test de Shapiro - Francia es adecuado para muestras grandes (n>5 hasta 5.000). Esta prueba permite contrastar la hipótesis.

Hipótesis nula Ho: La distribución de los datos es normal Hipótesis alterna HA: La distribución de los datos no es normal

La prueba Shapiro – Francia evalúa la distribución del estadístico r2 bajo hipótesis de normalidad y proporciona un test que rechaza dicha normali-dad cuando el ajuste es bajo; es decir, cuando el estadístico toma valores pequeños6,.

r. Organice los datos individuales a partir de un archivo de Excel (*.xls,*xlsx), por medio del Asistente para la obtención de datos y ce-rrar el archivo. Diríjase nuevamente al programa Epidat 4.1 y escoja la opción módulos, inferencia sobre parámetros y escoja la opción Contraste de normalidad.

s. Se abrirá el recuadro de diálogo Contraste de normalidad; dé clic so-

bre el botón Abrir tabla de datos (1) ; aparecerá la ventana Asis-tente para la obtención de datos (2); ubíquese en Examinar, para bus-car el archivo seleccionado. Haga clic sobre el icono Aceptar. Repita el paso h.

s.

t. En la ventana Contraste de normalidad seleccione en métodos Shapi-ro – Francia, Asimetría – Curtosis; escoja la opción cuantil – cuantil (Q-Q Plot); este tipo de gráfico nos permite evaluar la normalidad de los datos. Haga clic sobre el icono Calcular.

u. A continuación aparecerá la ventana para Editor de gráficos. Haga

clic sobre el icono Aceptar

Boletín Epidemiológico / MSPS, Vol 3, No. 6 (2015)

2

Límite superior: los

datos por encima se

considerar atípicos

(outliers)

Q1:Primer cuartil

Mediana

Q3:Tercer cuartil

Límite inferior: los

datos por debajo

ese límite se

consideran atípicos

(outliers)

50%

de

lo

s d

ato

s

95%

de

lo

s d

ato

s

Page 5: Normal, simétrica - minsalud.gov.co · Fuente: elaboración propia Ejemplificación Para llevar a cabo la evaluación de la normalidad de los datos se usará el paquete estadístico

5

v. Aparece la gráfica de normalidad: el cuantil-cuantil QQ-plots (3), que muestra los cuantiles muestrales (eje Y, es decir el valor observado o dato real de los casos de violencia interpersonal) con los cuantiles esperados bajo la hipótesis normalidad (eje X, en nuestro caso de una normal). Si la variable seleccionada coincide con la distribución de prueba, los puntos se concentran en torno a una línea recta. El ejemplo muestra que los puntos no se ajustan relativamente bien a una línea recta, es decir, muestra asimetría.

w. Ahora se muestran los resultados del test Shapiro – Francia (1) y re-chazo la hipótesis de normalidad si p-valor es < 0,05, en este ejemplo rechazó la hipótesis de normalidad al obtener un valor de 0,000, es decir los casos de violencia interpersonal describen una distribución asimétrica o no normalidad.

x. El contraste de asimetría y curtosis (2) permite describir la forma de la distribución asociada a los datos de la muestra. En este caso la vio-lencia interpersonal permite concluir que la distribución puede ser considerada no normal o asimétrica.

Conclusión

Las representaciones gráficas son sencillas de interpretar y hay facilidad para obtener el diagrama ya que está implementado en muchos paquetes estadísticos como Epi – Info, Epidat, Spss, Stata. Además, no requieren muestras numerosas como algunas pruebas de normalidad. Sin embargo, el principal inconveniente es la subjetividad de la interpreta-ción visual, ya que al contrario de las pruebas de normalidad por contraste de hipótesis no se concluye con un valor de “p” de probabilidad objetiva. Recordemos que el valor de “p” es la probabilidad de obtener un resultado igual o más extremo de lo que realmente se observó suponiendo una hipó-tesis nula.

Las gráficas orientan sobre la procedencia o no de la muestra de una po-blación normal. Sin embargo, es posible calcular un test estadístico que certifique la normalidad de las pruebas Kolmogorov- Smirnov, Shapiro – Wilk Shapiro – Francia; esta última fue revisada en este boletín. La utilización de los gráficos para el análisis de normalidad es sencillo; sin embargo, es complejo para muestras pequeñas; en el caso del histograma distorsiona la distribución de los datos por lo que en estos casos se reco-mienda el uso del test de Shapiro - Francia.

Bibliografía

1. Pértegas D S., Pita S. Unidad de Epidemiología Clínica y Bioestadís-tica. Complexo Hospitalario Juan Canalejo. A Coruña. Cad Aten Primaria 2001; 8: 268-274. 2.Estadísticos de forma de la distribución, Disponible en http://www.mat.uson.mx/~ftapia/Lecturas%20Adicionales%20(C%C3%B3mo%20dise%C3%B1ar%20una%20encuesta)/InterpretacionMedidasForma.pdf consultado el 4 de septiembre de 2015 3. Salvador Figueras, M y Gargallo, P. (2003): "Análisis Exploratorio de Datos", disponible en http://ciberconta.unizar.es/leccion/aed/inicio.html 5campus.com, Estadística consultado el 21 de julio de 2015 4. Xunta de Galicia, Consellería de Sanidade. (2014) Servicio Galego de Saúde. Organización Panamericana de la Salud. Epidat 4.1 Guía ayuda al usuario: Análisis descriptivos. 5. Xunta de Galicia, Consellería de Sanidade. (2014) Servicio Galego de Saúde. Organización Panamericana de la Salud. Epidat 4.1 Guía ayuda al usuario: inferencia sobre parámetros. 6. Práctica 5.Métodos descriptivos para determinar la normalidad. Dis-ponible en http://ajfernan.webs.ull.es/mesting/practica5.pdf consultado el 21 de julio de 2015

Preparado por Astrid Berena Herrera López.

Grupo de Análisis de Situación de Salud (ASIS).

Dirección de Epidemiología y Demografía.

Ministerio de Salud y Protección Social.

Contacto: [email protected].

Tel. 330 5000 Ext: 1753 .

Boletín Epidemiológico / MSPS, Vol 3, No. 6 (2015)