monografia-analisis exploratorio de datos

18
[ANALISIS EXPLORATORIO DE DATOS] 28 de abril de 2011 Dedicatoria: A los seres que más amamos, a nuestros padres: quienes son las personas que más admiramos por su forma de ser y por ser fuentede nuestras fuerzas para seguiradelante siempre, por enseñarnoslos valores que ahora practicamos y brindarnos a cada momento su cariño y Comprensión. BIOESTADISTICA Página 1

Upload: kevin-mundaca-rojas

Post on 22-Jul-2015

347 views

Category:

Documents


0 download

TRANSCRIPT

[ANALISIS EXPLORATORIO DE DATOS] 28 de abril de 2011

Dedicatoria:

A los seres que ms amamos, a nuestros padres: quienes son las personas que ms admiramos por su forma de ser y por ser fuente de nuestras fuerzas para seguir adelante siempre, por ensearnos los valores que ahora practicamos y brindarnos a cada momento su cario y Comprensin.

BIOESTADISTICA Pgina 1

[ANALISIS EXPLORATORIO DE DATOS] 28 de abril de 2011

INDICEINTRODUCCIN..

.3IMPORTANCIA.....

4OBJETIVOS..5 1.-ANLISIS EXPLORATORIO DE DATOS...........................................................7 1.1. 1.2. Etapas del Anlisis Exploratorios de Datos..7 Preparacin de los Datos8

2.-HERRAMIENTAS DEL ANLISIS ESTADSTICO DE DATOS.10 2.1. Estadstica Univariada.10 2.2. Estadstica Bivariada.11 2.3. Estadstica Multivariada...12 2.4. Normalidad de los Datos..13 2.5. Diagrama de Tallo y Hojas...14 2.6. Diagrama de Letras15 CONCLUSIONES....16 REFERENCIAS BIBLIOGRFICAS.17

BIOESTADISTICA Pgina 2

[ANALISIS EXPLORATORIO DE DATOS] 28 de abril de 2011

INTRODUCCINEl Anlisis Exploratorio de Datos es un conjunto de tcnicas estadsticas cuya finalidad es conseguir un entendimiento bsico de los datos y de las relaciones existentes entre las variables analizadas. Para conseguir este objetivo el anlisis exploratorio de datos. Proporciona mtodos sistemticos sencillos para organizar y preparar los datos, detectar fallos en el diseo y recogida de los mismos, tratamiento y evaluacin de datos ausentes (missing), identificacin de casos atpicos (outliers). Para este procedimiento se debe seguir pasos como primeramente preparar los datos para hacerlos accesibles a cualquier tcnica estadistica, luego realizar un examen grafico de la naturaleza de las variables para comprobar si es univariada, bivariada, multivariada. Posteriormente realizar un examen grafico de las relaciones entre las variables analizadas y un anlisis descriptivo que cuantifique el grado de interrelacin que existe entre ellas. Para luego identificar los casos atpicos u outliers y ver su impacto que puede ejercer en el anlisis estadstico posterior. Y ltimamente evaluar los datos ausentes o missing sobre la representatividad de los datos analizados. Su importancia se detalla en que permite la deteccin de fallos en el diseo y toma de datos, el tratamiento y la evaluacin de datos ausentes, la identificacin de valores atpicos y la comprobacin de los supuestos requeridos por parte de las tcnicas estadsticas y una mayor interpretacin de los resultados.

BIOESTADISTICA Pgina 3

[ANALISIS EXPLORATORIO DE DATOS] 28 de abril de 2011

IMPORTANCIAEl anlisis exploratorio de datos es un paso previo y necesario para la adecuada aplicacin de cualquier mtodo estadstico. La finalidad del anlisis exploratorio de datos es examinar los datos previamente a la aplicacin de cualquier tcnica 4stadstica. De esta forma el analista consigue un entendimiento bsico de sus datos y de las relaciones existentes entre las variables realizadas. Proporciona mtodos sencillos para organizar y preparar los datos, detectar fallos en el diseo y recogida de datos, tratamiento de los datos y evaluacin de datos ausentes, identificacin de casos atpicos y comprobacin de los supuestos subyacentes en la mayor parte de las tcnicas multivariantes como la normalidad, linealidad, homocedasticidad. El examen previo del anlisis de los datos es necesario, que lleva tiempo y que habitualmente se descuida por parte de los analistas de datos. Las tareas a seguir en dicho examen pueden parecer sin importancia y no ser vistas a simple vista, pero son una parte esencial de cualquier anlisis estadstico.

BIOESTADISTICA Pgina 4

[ANALISIS EXPLORATORIO DE DATOS] 28 de abril de 2011

OBJETIVOSOBJETIVOS GENERALES Definir Anlisis Exploratorio de Datos (A.E.D.) Indicar cules son las etapas a seguir en la realizacin de un A.E.D.

OBJETIVOS ESPECIFICOS

identificar caractersticas en los datos que permitan realizar una interpretacin de su significado y en consecuencia la construccin de conclusiones, hiptesis, conjeturas y preguntas. Identificar casos atpicos univariantes, bivariantes y multivariantes. Seleccionar los mtodos grfico y numrico apropiados para examinar las caractersticas de los datos y/o relaciones de inters. Comprender los diferentes tipos de datos ausentes y evaluar su impacto potencial. Resumir los datos mediante el uso conjunto de medidas de resumen y sus grficos.

BIOESTADISTICA Pgina 5

[ANALISIS EXPLORATORIO DE DATOS] 28 de abril de 2011

Captulo I:ANLISIS EXPLORATORIO DE DATOS

BIOESTADISTICA Pgina 6

[ANALISIS EXPLORATORIO DE DATOS] 28 de abril de 2011

ANALISIS EXPLORATORIO DE DATOS El Anlisis Exploratorio de Datos (A.E.D.) es un conjunto de tcnicas estadsticas cuya finalidad es conseguir un entendimiento bsico de los datos y de las relaciones existentes entre las variables analizadas. Para conseguir este objetivo el A.E.D. proporciona mtodos sistemticos sencillos para organizar y preparar los datos, detectar fallos en el diseo y recogida de los mismos, tratamiento y evaluacin de datos ausentes (missing), identificacin de casos atpicos (outliers) y comprobacin de los supuestos subyacentes en la mayor parte de las tcnicas multivariantes (normalidad, linealidad, homocedasticidad). El examen previo de los datos es un paso necesario, que lleva tiempo, y que habitualmente se descuida por parte de los analistas de datos. Las tareas implcitas en dicho examen pueden parecer insignificantes y sin consecuencias a primera vista, pero son una parte esencial de cualquier anlisis estadstico.

La exploracin de los datos puede: a) Mostrar que existen valores inusuales, valores extremos, discontinuadades en los datos u otras peculariedades. b) Ayudar a determinar si son adecuadas las tcnicas estadsticas que se estn teniendo en consideracin para el anlisis de los datos. c) Indicar que se necesitan preparar y transformar los datos que van a ser analizados 1.1.- Etapas del anlisis exploratorio de datos Para realizar un A.E.D. conviene seguir las siguientes etapas: a) Preparar los datos para hacerlos accesibles a cualquier tcnica estadstica.

BIOESTADISTICA Pgina 7

[ANALISIS EXPLORATORIO DE DATOS] 28 de abril de 2011 b) Realizar un examen grfico de la naturaleza de las variables individuales a analizar y un anlisis descriptivo numrico que permita cuantificar algunos aspectos grficos de los datos. c) Realizar un examen grfico de las relaciones entre las variables analizadas y un anlisis descriptivo numrico que cuantifique el grado de interrelacin existente entre ellas. d) Evaluar, si fuera necesario, algunos supuestos bsicos subyacentes a muchas tcnicas estadsticas como, por ejemplo, la normalidad, linealidad y homocedasticidad. e) Identificar los posibles casos atpicos (outliers) y evaluar el impacto potencial que puedan ejercer en anlisis estadsticos posteriores. f) Evaluar, si fuera necesario, el impacto potencial que pueden tener los datos ausentes (missing) sobre la representatividad de los datos analizados.

1.2.- Preparacin de los datos El primer paso en un A.E.D. es hacer accesible los datos a cualquier tcnica estadstica. Ello conlleva la seleccin del mtodo de entrada (por teclado o importados de un archivo) y codificacin de los datos as como la de un paquete estadstico adecuado para procesarlos. Los paquetes estadsticos son conjuntos de programas que implementan diversas tcnicas estadsticas en un entorno comn. Algunos de los ms utilizados son SAS, BMDP, SPSS, SYSTAT, STATISTICA, STATA y ltimamente MINITAB, SPLUS, EVIEWS, STATGRAPHICS y MATLAB. La codificacin de los datos depende del tipo de variable. Los paquetes estadsticos existentes en el mercado proporcionan diversas posibilidades (datos tipo cadena, numricos, nominales, ordinales, etc.). La inmensa mayora de los paquetes estadsticos permite realizar manipulaciones de los datos previas a un anlisis de los mismos. Algunas operaciones tiles son las siguientes: Combinar conjuntos de datos de dos archivos distintos Seleccionar subconjuntos de los datos Dividir el archivo de los datos en varias partes Transformar variables Ordenar casos Agregar nuevos datos y/o variables Eliminar datos y/o variables Guardar datos y/o resultados

BIOESTADISTICA Pgina 8

[ANALISIS EXPLORATORIO DE DATOS] 28 de abril de 2011

Finalmente, y con el fin de aumentar la inteligibilidad de los datos almacenados, conviene asociar a la base de datos utilizada, un libro de cdigos en el que se detallen los nombres de las variables utilizadas, su tipo y su rango de valores, su significado as como las fuentes de donde se han sacado los datos. Todos los paquetes anteriormente citados permiten esta posibilidad.

CAPITULO II:HERRAMIENTAS DEL ANLISIS ESTADSTICO DE DATOS

BIOESTADISTICA Pgina 9

[ANALISIS EXPLORATORIO DE DATOS] 28 de abril de 2011

2.1.- Estadstica univariada La estadstica univariada se aplica, por lo general, es explotaciones estadsticas bsicas de la fuente de datos (frecuencias, porcentajes, promedios, tasas). Las estadsticas univariadas incluyen la media, la mediana, valores que definen los limites de los percentiles,moda,los valores mximos y mnimos, as como medidas de dispersin como rango, desviacin estndar, este tipo de estadistica comnmente se usa para resumir informacin. La estadistica univariada examina la distribucin de observaciones para cada variable, seleccionando como casos atpicos aquellos casos cuyos valores caigan fuera de los rangos de la distribucin. El objetivo principal consiste en el establecimiento de un umbral para la designacin de caso atpico. Esto se puede hacer grficamente mediante histogramas o diagramas de caja, mediante el clculo de puntuaciones estadsticas. El mtodo grfico univariante ms simple para diagnosticar la normalidad es una comprobacin visual del histograma que compare los valores de los datos observados con una distribucin normal. Aunque atractivo por su simplicidad, este mtodo es problemtico para muestras pequeas, donde la construccin del histograma puede distorsionar la representacin visual de tal forma que el anlisis sea poco fiable. Otras posibilidades, tambin basadas en informacin grfica, consisten en realizar diagramas de cuantiles. Los diagramas de cuartiles comparan en un sistema de coordenadas cartesianas, los cuantiles mustrales con los cuantiles esperados bajo la hiptesis normalidad. Si la distribucin de partida es normal dichos diagramas tendern a ser rectas que pasan por el origen. Cuanto ms se desven de una recta menos normal sern los datos.

BIOESTADISTICA Pgina 10

[ANALISIS EXPLORATORIO DE DATOS] 28 de abril de 2011

2.2.-Estadstica bivariada Es el anlisis descriptivo de dos variables, las cuales pueden ser cuantitativas o cualitativas. La estadstica bivariada trata de ir ms all elaborando ndices y resultados estadsticos en trminos de relaciones entre dos variables de inters, as como de establecer inferencias sobre una poblacin a partir de datos que provienen de una muestra (como, por ejemplo, en los estudios mediante encuesta). El conjunto de tcnicas estadsticas bivariadas difiere en funcin del tipo de datos de los que se dispone (niveles de medida: nominal, ordinal, intervalo, razn), adaptndose en todo momento al contexto de anlisis aplicado que se este investigando. De esta manera, disponemos de la Prueba de Chi cuadrado cuando las variables son de tipo nominal o categrico, la Correlacin o la Regresin Lineal cuando ambas variables son como mnimo, de carcter ordinal, la Prueba T de Student o el ANOVA de 1 Factor cuando se persigue medir diferencias entre medias a partir de una variable categrica sobre una variable continua, etc.

BIOESTADISTICA Pgina 11

[ANALISIS EXPLORATORIO DE DATOS] 28 de abril de 2011

2.3.-Estadstica multivariada Las estadsticas multivariadas, sirven para describir el comportamiento de un conjunto de datos, entre ellas las ms importantes son: Media Muestral Varianza Muestral Correlacin Muestral Diagrama de Dispersin Componentes Principales de los datos

Los datos multivariados surgen cuando a un mismo individuo se le mide ms de una caracterstica de inters. Un individuo puede ser un objeto o concepto que se puede medir. Ms generalmente, los individuos son llamados unidades experimentales. Ejemplos de objetos: personas, animales, terrenos, compaas, pases, etc. Objetivos de las tcnicas multivariadas: a) Simplificacin: Los mtodos multivariados son un conjunto de tcnicas que permiten al investigador interpretar y visualizar conjuntos grandes de datos, a partir de su simplificacin o reduccin. b) Relacin: Encontrar relaciones entre variables, entre individuos y entre ambos. Relacin entre variables: Existe relacin las mismas miden caractersticas comunes. BIOESTADISTICA Pgina 12 entre variables cuando

[ANALISIS EXPLORATORIO DE DATOS] 28 de abril de 2011 Relacin entre individuos: Existe relacin entre individuos si alguno de ellos son semejantes entre s. Clasificacin de los mtodos multivariados: a) Dirigidas o motivadas relaciones entre variables. por las variables: se enfocan en las

b) Dirigidas o motivadas por los individuos: se enfocan en las relaciones entre individuos. Ejemplos: anlisis discriminante, anlisis de conglomerados y anlisis multivariado de varianza.

2.4.-Normalidad de los datos Se considera que los datos presentan normalidad, si la distribucin de la poblacin de la cual ha sido extrada la muestra se aproxima a la distribucin terica. Se puede comprobar la normalidad mediante: Mtodos grficos para ver la normalidad Contrastes de normalidad

En el mtodo grafico, se destacan: Histogramas Grafico P-P Grafico QQ plot

BIOESTADISTICA Pgina 13

[ANALISIS EXPLORATORIO DE DATOS] 28 de abril de 2011 En contrastes de normalidad, se detallan tres mtodos: Prueba Chi cuadrado Prueba de Colmogorov-Smirnov Prueba de Shapiro Wilks

2.5.-Diagrama de tallo y hojas En su estructura ms simple, se trata de una seria de numeros.Este tipo de diagrama permite explorar la estructura de los datos, por lo cual se puede identificar: Si la estructura es simtrica La dispersin Concentracin de los datos Valores faltantes dentro de la serie de datos Patrones de dispersin y errores de calculo

El procedimiento para construir este tipo de diagrama es simple y consiste en una presentacin de los datos ordenados de mayor a menor.

BIOESTADISTICA Pgina 14

[ANALISIS EXPLORATORIO DE DATOS] 28 de abril de 2011

2.6.-Diagrama de letras El grafico de letras se basa principalmente en el ordenamiento de menor a mayor, y en el clculo de diferentes estadsticos que evalan el impacto de los extremos de la distribucin de los datos asumiendo diferentes puntos de corte, al cual se le asigna una letra. El procedimiento para obtener las estadsticas del diagrama de letras consiste en ordenar los datos de menor a mayor y extraer informacin sobre los valores que definen el punto medio es decir la mediana, los que definen los cuartos es decir los percentiles y as sucesivamente. Cuando la variable tiene una distribucin normal, los valores para los diferentes puntos de corte deben ser similares. Los puntos de corte se definen como limite interno, que identifica los puntos que podran se considerados como valores outliers es decir valores equvocos y el limite externo que identifica, los valores con una alta probabilidad de ser errneas.

BIOESTADISTICA Pgina 15

[ANALISIS EXPLORATORIO DE DATOS] 28 de abril de 2011

CONCLUSIONES El anlisis exploratorio de datos es un mtodo que nos brinda analizar datos, identificando valores inusuales, discontinuidades en los datos. As mismo nos permite determinar si son adecuadas las tcnicas estadsticas que se estn teniendo en consideracin para el anlisis de los datos. El anlisis exploratorio de datos permite preparar y transformar los datos que van a ser analizados. Su gran importancia para el estudio de grandes cantidades de muestras en la estadistica, con la ayuda de diversos mtodos y graficas que proporcionaran mas sencillo extraer conclusiones ya que los datos son BIOESTADISTICA Pgina 16

[ANALISIS EXPLORATORIO DE DATOS] 28 de abril de 2011 agrupados y ordenados, permitiendo visualizar posibles errores en los datos, apartir del anlisis exploratorio de datos.

REFERENCIAS BIBLIOGRFICAS Vilar Barrio Jos Francisco, Delgado Tejada Teresa. Control estadstico de los procesos. Espaa: Editorial FundacinConfemental.2005.512p.ISBN 84-96169-59-6. Pineda Ayala Leticia Esther. Probabilidad y estadstica. Edicin novena. Espaa: Editorial: elsevier.2004.618p. Arriaza Gmez A, Fernandez Palacin F, Muoz Mrquez M y Prez Plaza S. Estadstica Bsica. Edicin primera. Colombia: Editorial Universidad de Cdiz.2007.342p.ISBN 978-84-9828-186-6.

BIOESTADISTICA Pgina 17

[ANALISIS EXPLORATORIO DE DATOS] 28 de abril de 2011 Varela Mollou Jess y Rial Boubeta Antonio. Estadstica para la investigacin en salud. Edicin primera. Espaa: Editorial Netbiblo.2008.328p.ISBN 978-84-9745-243-4. Alea Victoria, Guilln Montserrat, Torreles Elizabeth, Muoz Carmen.Estadstica. Edicin primera. Barcelona. Editorial: Universitat de Barcelona.2001.165p.ISBN 84-8338-257-1.

BIOESTADISTICA Pgina 18